Definition und Beispiele • BUOM

7. April 2021

Die Varianzformel informiert Statistiker über verschiedene Aspekte eines Datensatzes. Normalerweise verwenden Sie zwei leicht unterschiedliche Formeln, um die Varianz für den gesamten Datensatz zu berechnen, verglichen mit der Berechnung der Varianz für nur eine Stichprobe des Datensatzes. Darüber hinaus hängt die Varianz von der Standardabweichung ab, und beide statistischen Konzepte sind in verschiedenen Situationen nützlich.

In diesem Artikel schauen wir uns an, was die Varianzformel ist, warum sie wichtig ist, wie sie sich von der Standardabweichung unterscheidet und wie jede Formel zur Berechnung der Grundgesamtheit und der Varianz kleiner Stichproben verwendet wird.

Was ist Varianz?

Die Varianz ist der Mittelwert der quadrierten Differenzen vom Mittelwert, auch Standardabweichung genannt. Einfach ausgedrückt ist Varianz ein statistisches Maß dafür, wie weit die Datenpunkte in einer Stichprobe oder einem Datensatz verteilt sind. Zusätzlich zum Mittelwert und der Standardabweichung ermöglicht die Stichprobenvarianz Statistikern, die für Forschungszwecke gesammelten Daten zu konzipieren, zu organisieren und auszuwerten.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Im Wesentlichen gibt es für die Varianz zwei Formeln, die Sie abhängig von der Datengruppe, die Sie messen, verwenden können. Wenn Sie beispielsweise Daten einer gesamten Grundgesamtheit messen, beispielsweise die Noten einer gesamten College-Klasse, würden Sie die Varianz mithilfe dieser Formel berechnen:

Varianz = (Summe jedes Termes – Mittelwert) ^ 2 / n

Hier sind die Elemente der Formel:

  • Die Varianz Ihrer gesamten Grundgesamtheit entspricht dem Quadrat der Standardabweichung.

  • Jeder Begriff repräsentiert jeden Wert oder jede Zahl in Ihrem Datensatz.

  • Sie müssen den Mittelwert Ihres Datensatzes kennen.

  • Der Ausdruck ^2 stellt die Quadrierungsfunktion dar, also die Multiplikation einer Zahl mit sich selbst.

  • Die Variable n stellt die Anzahl der Werte dar, die Sie in Ihrer Grundgesamtheit haben.

Wenn Sie die Varianz nur einer Grundgesamtheitsstichprobe berechnen, verwenden Sie diese Formel:

Varianz = (Summe jedes Termes – Mittelwert) ^ 2 / n-1

Hier sind die Elemente der Formel:

  • Varianz ist das, was Sie für Ihren Probensatz ermitteln möchten.

  • Mit jedem Term subtrahieren Sie den Mittelwert, den Sie auch kennen müssen, bevor Sie die Varianz berechnen.

  • Die Variable n stellt die Gesamtzahl Ihrer Stichproben dar.

Sie verwenden n-1, weil Sie die Varianz für eine Stichprobe der gesamten Grundgesamtheit berechnen, nicht für die gesamte Grundgesamtheit.

Varianz vs. Standardabweichung

Einfach ausgedrückt betrachtet die Standardabweichung den genauen Wert, der angibt, wie weit eine Reihe von Datenpunkten von der Grundgesamtheit oder dem Stichprobenmittelwert entfernt ist. Die Varianz misst jedoch den durchschnittlichen Grad, in dem jeder Datenpunkt vom Mittelwert abweicht. Das bedeutet, dass die Varianz der Durchschnitt aller Werte in Ihrem Datensatz ist und die Standardabweichung eine genaue Schätzung der Streuung der Daten ist.

Obwohl zwischen beiden ein geringfügiger Unterschied besteht, sind Varianz und Standardabweichung voneinander abhängig. Sobald Sie die Standardabweichung in einer Reihe von Stichproben oder in der gesamten Grundgesamtheit ermittelt haben, können Sie dieses Ergebnis quadrieren, um die Varianz zu erhalten. Obwohl dies die einfachste Beziehung zwischen Varianz und Standardabweichung ist, stellt sie doch die Notwendigkeit dar, zu verstehen, wie diese beiden Berechnungen funktionieren, um Einblick in die verschiedenen Aspekte der von Ihnen untersuchten Daten zu gewinnen.

Darüber hinaus stellt die Standardabweichung den relativen Bereich des Datensatzes dar und berücksichtigt keine Ausreißer in beide Richtungen vom Standardmittelwert. Im Gegensatz dazu stellt die Varianz alle variablen Änderungen oder Unterschiede in einem Datensatz dar, einschließlich der relativen Ausreißer auf beiden Seiten des Mittelwerts. Ohne diese beiden statistischen Faktoren gäbe es keine Diversität im Datenbereich des Stichprobensatzes, was bedeutet, dass die Werte im Datensatz eher um den Mittelwert herum gruppiert wären, als dass sie sich wie eine Glockenkurve verteilen würden.

Mehr Details: So berechnen Sie die relative Standardabweichung: Formel und Beispiele

So berechnen Sie die Varianz eines Datensatzes

In der Statistik können Sie die Varianz eines gesamten Datensatzes berechnen, beispielsweise eines Jahresumsatzberichts, der die Höhe des Nettoumsatzes für jeden Tag im Laufe des Jahres anzeigt. Sie können auch nur eine Stichprobe aller Datenpunkte berechnen. Ein Beispiel für einen einfachen jährlichen Verkaufsbericht wären die Sommerverkaufssummen. In diesem Fall messen Statistiker eine Reihe von Stichproben innerhalb eines bestimmten Datumsbereichs. In beiden Beispielen können Sie die Varianz mithilfe einer von zwei Formeln berechnen:

Berechnung der Varianz des gesamten Datensatzes

Wenn Sie einen gesamten Datensatz messen, verwenden Sie die folgenden Schritte für die Varianzformel für gesamte Datensätze:

Varianz = (Summe jedes Termes – Mittelwert) ^ 2 / n

  1. Subtrahieren Sie den Mittelwert von jedem Wert in Ihrem Datensatz. Ihr erster Schritt besteht darin, den Mittelwert Ihrer Grundgesamtheit von jedem Term in Ihrem Satz zu subtrahieren. Nehmen wir zum Beispiel an, Sie haben eine Population von drei Datenpunkten. Von jedem dieser drei Terme subtrahieren Sie den Durchschnitt. Hier ist ein Beispiel, bei dem davon ausgegangen wird, dass der Bevölkerungsmittelwert 35 beträgt: (108-35, 100-35, 78-35), wobei jeder Term 35 subtrahiert.

  2. Quadrieren Sie jeden dieser Unterschiede. Nachdem Sie den Durchschnitt von allen Ihren Termen subtrahiert haben, quadrieren Sie jedes dieser Ergebnisse, indem Sie den Wert mit sich selbst multiplizieren. Mit dem obigen Beispiel würde es so aussehen: (73), (65), (43) und jeder dieser Terme im Quadrat ergibt (5,329), (4,225) bzw. (1,849).

  3. Falten Sie alle resultierenden Quadrate. Addieren Sie diese neuen Werte, um die Summe zu erhalten, zum Beispiel: (5.329) + (4.225) + (1.849) = 11.403.

  4. Teilen Sie die resultierende Summe durch die Anzahl der Werte in Ihrem Datensatz. Sie können nun die Summe, die Sie in Schritt drei erhalten haben, durch die Gesamtzahl der Werte dividieren, die Sie in Ihrer gemessenen Grundgesamtheit haben. Wenn Sie die Beispielwerte aus den vorherigen Schritten verwenden, beträgt die Summe, die Sie für die Division verwenden, 11.403 und der Wert, den Sie für n verwenden, ist drei, da das Populationsbeispiel nur drei Terme enthält. So würde es aussehen: (11.403) / (3) = 3.801 Die Varianz der gesamten Grundgesamtheit beträgt also 3.801.

Hier ist eine vereinfachte Version des obigen Beispiels:

σ2 = ((108-35)^2 + (100-35)^2 + (78-35)^2) / 3
= (73 ^ 2 + 65 ^ 2 + 43 ^ 2) / 3
= (5.329 + 4.225 + 1.849) / 3
= 11 403 / 3
= 3801

Berechnen der Varianz in einer Datenstichprobe

Wenn Sie nur eine Stichprobe des gesamten Datensatzes messen, verlassen Sie sich auf eine Formel, die dies mit der n-1-Bedingung berücksichtigt. Wie bei der Varianzformel für die gesamte Grundgesamtheit beginnen Sie auch mit dieser Formel auf die gleiche Weise. Folge diesen Schritten:

Varianz = (Summe jedes Termes – Mittelwert)^2 / (n-1)

  1. Subtrahieren Sie den Durchschnitt von jedem Wert in Ihrem Stichprobensatz. Subtrahieren Sie wie beim gesamten Datensatz den Mittelwert von jedem Term in Ihrer Stichprobe. Hier ist ein Beispiel, bei dem angenommen wird, dass der Mittelwert 25 beträgt und Sie drei Werte in Ihrer Stichprobe haben: (33-25), (16-25), (45-25). Ihre Differenzen ergeben jeweils (8), (-9) und (20).

  2. Quadrieren Sie jeden dieser Unterschiede. Sobald Sie alle Unterschiede ermittelt haben, quadrieren Sie jeden dieser Werte. Anhand der Beispielwerte aus dem vorherigen Schritt ergeben sich hier die resultierenden Produkte: (64), (81) und (400). In diesem Beispiel können Sie sehen, wie das Quadrat des Wertes (-9) einen positiven Wert ergibt. Dies ist für die Varianz wichtig und notwendig, da die Varianz eher dem Durchschnitt der Streuung der Punkte vom Mittelwert entspricht.

  3. Falten Sie alle resultierenden Quadrate. Addieren Sie wie in der vorherigen Varianzformel alle im zweiten Schritt erhaltenen Produkte: (64) + (81) + (400) = 545.

  4. Subtrahieren Sie eins von der Gesamtzahl der Werte im Stichprobensatz. Subtrahieren Sie vor dem Dividieren eins von der Anzahl der Werte in Ihrem Stichprobensatz. Im vorherigen Beispiel haben Sie nur drei Begriffe. Setzen Sie drei in den n-1-Teil der Formel ein: n-1 = (3) – 1. Das Ergebnis ist zwei.

  5. Teilen Sie den Betrag durch die resultierende n-1-Differenz. Teilen Sie abschließend die Summe aus Schritt drei durch zwei, da dies die resultierende Differenz ist, die Sie in Schritt vier ermittelt haben. Verwenden Sie zur Division die Werte aus dem vorherigen Beispiel: (545) / (2) = 272,5. Somit beträgt die Stichprobenvarianz 272,5.

σ2 = ((33-25)^2 + (16-25)^2 + (45-25)^2) / (3-1)
= (8^2 + -9^2 + 20^2) / (3-1)
= (64 + 81 + 400) / (3-1)
= 545/(3-1)
= 545/2
= 272,5

Populationsvarianz versus Stichprobenvarianz

Die Varianz einer kleinen Stichprobe einer gesamten Bevölkerung oder eines Datensatzes gibt Forschern und Statistikern nur einen begrenzten Überblick darüber, was tatsächlich in der gesamten Bevölkerung passiert. Allerdings kann die Populationsvarianz Statistikern eine genauere Vorstellung vom Datenbereich und seiner Beziehung zum Mittelwert geben. Hier sind einige Beispiele, wie das funktioniert:

Beispiel für Bevölkerungsstreuung

Angenommen, ein Statistiker möchte den Gewichtsunterschied der Zebrapopulation in einem Reservat messen. Der Statistiker ermittelt zunächst den Mittelwert der Bevölkerungsgewichte und subtrahiert diesen Wert dann von jedem Gewichtswert. Nehmen wir an, dass es derzeit fünf Zebras im Reservat gibt. Der Statistiker misst das Gewicht jedes Zebras anhand der folgenden Werte:

  • Zebra 1: 670 Pfund.

  • Zebra 2: 765 Pfund.

  • Zebra 3: 780 Pfund.

  • Zebra 4: 820 Pfund.

  • Zebra 5: 735 Pfund.

Der Statistiker addiert dann alle diese Werte und kommt auf 3.770 Pfund. Sie dividieren diesen Wert durch fünf, da fünf die Anzahl der Zebras in der Gesamtpopulation ist. Der resultierende Durchschnitt liegt bei 754 Pfund. Das bedeutet, dass das Durchschnittsgewicht der fünf Zebras im Reservat 754 Pfund beträgt. Der Statistiker subtrahiert dann diesen Durchschnitt vom Gewicht jedes Zebras:

  • 670 – 754 = -84

  • 765 – 754 = 11

  • 780 – 754 = 26

  • 820 – 754 = 66

  • 735 – 754 = -19

Anschließend quadriert der Statistiker jede dieser Differenzen, bevor er die resultierenden Produkte summiert:

  • (-84)^2 = 7056

  • (11)^2 = 121

  • (26)^2 = 676

  • (66)^2 = 4356

  • (-19)^2 = 361

(7 056) + (121) + (676) + (4 356) + (361) = 12 570

Anschließend dividiert der Statistiker diese Summe durch die Anzahl der Zebras in der Population: (12.570) / (5) = 2.514. Dieser Wert stellt die Varianz der gesamten Population dar.

Beispiel für eine Stichprobenvarianz

Wenn die Stichprobe von fünf Zebras eine Stichprobe aus einer größeren Population darstellt, subtrahiert der Statistiker vor der Division eins von den fünf Zebras. So wird es aussehen:

(12.570) / (5-1) = 12.570 / 4 = 3.142,5. Das bedeutet, dass die Varianz nur dieser kleinen Stichprobe 3142,5 beträgt.

Welchen Wert hat die Varianz?

Mithilfe der Varianz können Statistiker das Ausmaß der Diversität in einer Stichprobe oder einer gesamten Grundgesamtheit verstehen, da die Varianz häufig für Ausreißer in der Grundgesamtheit verantwortlich ist. Die Varianzformel ist auch in vielen Geschäftssituationen nützlich, einschließlich der Messung und Schätzung von Verkaufsmengen, der Entwicklung von Produkten auf der Grundlage von Marktforschungen und vielen anderen anwendbaren Anwendungen, die Unternehmen und Organisationen zugute kommen können.

Neben der Verwendung in der Wirtschaft stützen sich Statistiker auf die Varianz, um verschiedene Zahlen innerhalb eines Datenbereichs zu vergleichen. In einem gesamten Datensatz ist die Varianz äußerst wichtig, um Ausreißer zu verfolgen, also Datenpunkte, die weit vom Mittelwert entfernt sind. Je näher die Varianz Null kommt, desto gruppierter ist der Datensatz. Wenn die Varianz zu einem höheren Wert führt und insbesondere als Verhältnis ausgedrückt wird, sind die Datenpunkte umso gestreuter (und daher vielfältiger).

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert