Was sind verzerrte Daten in der Statistik? (mit Definition und Beispiel) • BUOM

28. März 2022

Menschen, die mit Daten arbeiten, stoßen möglicherweise auf viele Datensätze, die vom Normalverteilungsmodell abweichen, einschließlich verzerrter Daten. Ein verzerrter Datensatz zeichnet sich durch eine asymmetrische Datenkurve aus, die im Diagramm nach links oder rechts verschoben ist. Wenn Ihr Job Statistik oder Datenwissenschaft umfasst, ist es wichtig, ein klares Verständnis für verzerrte Daten und deren Berechnung zu haben. In diesem Artikel erklären wir die Definition von Schiefe und wie man die Schiefe eines Datensatzes berechnet und stellen Beispiele aus der Praxis für verschiedene Arten von verzerrten Daten bereit.

Was sind beschädigte Daten?

Verzerrte Daten sind Daten, die eine asymmetrische, abfallende Kurve in einem Diagramm erzeugen. In der Statistik ist der Graph eines Datensatzes mit Normalverteilung symmetrisch und glockenförmig. Verzerrte Daten weisen jedoch auf beiden Seiten des Diagramms einen Ausläufer auf. Die zwei häufigsten Arten von Fehlstellungen sind:

  • Negativer Skew: Ein negativ verzerrter Datensatz hat einen Schwanz auf der negativen Seite des Diagramms, was bedeutet, dass das Diagramm nach links verzerrt ist.

  • Positiv verzerrt: Ein Datensatz mit positiver Verzerrung hat einen Schwanz auf der positiven Seite des Diagramms, was bedeutet, dass das Diagramm nach rechts verzerrt ist.

Im Gegensatz zur positiven oder negativen Schiefe hat eine Glockenkurve mit Normalverteilung einen Schiefewert von Null. Nahezu symmetrische Daten weisen ebenfalls einen Schiefewert nahe Null auf.

Wenn Sie ein Datenwissenschaftler oder ein anderer Fachmann sind, der mit Daten arbeitet, ist es wichtig, verzerrte Daten zu verstehen, da die meisten realen Situationen verzerrt sind – reale Datensätze sind normalerweise verzerrt. Allerdings können verzerrte Daten bei statistischen Modellen zu Problemen führen, da Ausreißer, die häufig zu Verzerrungen führen, die Leistung des statistischen Modells negativ beeinflussen können. Daher ist es wichtig, verzerrte Daten zu verstehen und zu verstehen, wie sie berechnet werden.

So berechnen Sie die Asymmetrie

Hier sind vier wichtige Schritte, die Sie befolgen können, um die Schiefe bzw. das Ausmaß der Schiefe in einem Datensatz zu berechnen:

1. Ermitteln Sie den Mittelwert, den Median und die Standardabweichung.

Der erste Schritt zur manuellen Berechnung der Schiefe besteht darin, die Werte von drei Merkmalen Ihrer Daten zu ermitteln:

  • Mittelwert: In der Mathematik ist ein Mittelwert der Durchschnittswert einer Datenmenge. Sie können den Durchschnitt eines Datensatzes berechnen, indem Sie alle Werte addieren und dann durch die Gesamtzahl der Werte im Datensatz dividieren.

  • Median: Der Median ist der Wert, der in der Mitte des Datensatzes liegt. Sie können den Median ermitteln, indem Sie alle Werte in Ihrem Datensatz in aufsteigender Reihenfolge – vom kleinsten zum größten – ordnen und den Wert genau in der Mitte ermitteln.

  • Standardabweichung: Die Standardabweichung ist ein statistisches Maß, das die Variation von Werten darstellt oder wie „verstreut“ die Werte sind. Um die Standardabweichung manuell zu berechnen, subtrahieren Sie den Mittelwert von jedem Wert im Datensatz und multiplizieren Sie das Ergebnis mit sich selbst. Anschließend ermitteln Sie den Mittelwert jedes resultierenden Werts und schließlich die Quadratwurzel dieses Werts.

2. Verwenden Sie die Skew-Formel

Sobald Sie den Mittelwert, den Median und die Standardabweichung Ihrer Daten kennen, können Sie die Schiefe Ihrer Daten mithilfe der Schiefeformel berechnen. Sie können jeden Ihrer Werte in die Gleichung einsetzen, um die Abweichung zu ermitteln. Steigungsformel:

3 * (Mittelwert-Median) / Standardabweichung = Schiefe

Um diese Formel zu verwenden, schließen Sie die Operation in Klammern (Mittelwert minus Median) vor dem Rest der Formel ab. Dann multiplizieren Sie diesen Wert mit drei. Nehmen Sie den resultierenden Wert und dividieren Sie ihn durch die Standardabweichung. Der resultierende Wert stellt die Verzerrung Ihrer Daten dar.

3. Überprüfen Sie es mit einem Taschenrechner

Nachdem Sie den Versatz berechnet haben, können Sie Ihre Lösung mit einem Grafikrechner überprüfen, um sicherzustellen, dass Sie den richtigen Wert erhalten. Darüber hinaus können Sie, wenn Sie möchten, die manuelle Berechnung des Versatzes ganz überspringen und stattdessen einen Grafikrechner verwenden. Um den Skew auf einem Grafikrechner zu berechnen, können Sie die SKEW-Funktion verwenden.

4. Transformieren Sie beschädigte Daten

Bei Bedarf können Sie Ihre Daten auch von verzerrten Daten in eine Normalverteilung umwandeln. Abhängig von Ihrem Datensatz können Sie die verstümmelten Daten möglicherweise mit folgenden Methoden umwandeln:

  • Exponentielle Transformation. Bei der exponentiellen Transformation werden Exponenten verwendet, um einen Datensatz von einer verzerrten Verteilung in eine Normalverteilung umzuwandeln.

  • Leistungstransformation: Mithilfe der Leistungstransformation können Sie Daten stabilisieren, indem Sie Funktionen darauf anwenden. Die Potenztransformation ist nützlich, um einen Datensatz einer Normalverteilung anzunähern.

  • Protokollkonvertierung. Die Protokolltransformation ist eine beliebte Methode zur Transformation positiv verzerrter Datensätze. Bei der Protokolltransformation wird das natürliche Protokoll aller Werte des Datensatzes verwendet.

Beispiele für beschädigte Daten

Hier sind einige Beispiele aus der Praxis, die Ihnen helfen sollen, positive und negative Abweichungen zu verstehen:

Beispiel für positive Verzerrung

Ein Beispiel für positiv verzerrte Daten wäre ein typischer Einkommensdatensatz. Wenn Sie die Einkommenskurve einer Stichprobenpopulation in einem Diagramm darstellen, ist die Kurve höchstwahrscheinlich nach rechts oder in eine positive Richtung geneigt. Dies würde passieren, wenn die meisten Menschen ein durchschnittliches Einkommen hätten und weniger Menschen ein hohes Einkommen hätten. Menschen mit hohem Einkommen stellen im Datensatz Ausreißer dar, die die Kurve auf die rechte Seite des Diagramms verschieben.

Beispiel für einen negativen Versatz

Ein Beispiel für negativ verzerrte Daten wären die Prüfungsergebnisse einer Gruppe von College-Studenten, die eine relativ einfache Prüfung absolvieren. Wenn Sie die Kurve der Prüfungsergebnisse einer Gruppe von Schülern in einem Diagramm darstellen, wird die Kurve höchstwahrscheinlich nach links geneigt sein. In diesem Fall werden die meisten Schüler hohe Testergebnisse erzielen und weniger Menschen werden niedrige Ergebnisse erzielen, wodurch sich die Kurve im Diagramm nach links verschiebt. Schüler mit niedrigeren Punktzahlen sind Ausreißer im Datensatz, was zu einer negativen Schiefe führt.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert