Формула дисперсии: определение и примеры
7 апреля 2021 г.
Формула дисперсии сообщает статистикам о различных аспектах набора данных. Как правило, вы будете использовать две немного отличающиеся формулы для расчета дисперсии для всего набора данных по сравнению с вычислением дисперсии только для выборки набора данных. Кроме того, дисперсия зависит от стандартного отклонения, и обе статистические концепции полезны в различных условиях.
В этой статье мы рассмотрим, что такое формула дисперсии, почему она важна, чем она отличается от стандартного отклонения и как использовать каждую формулу для расчета дисперсии совокупности и небольшой выборки.
Что такое дисперсия?
Дисперсия — это среднее квадратов различий, также известное как стандартное отклонение, от среднего значения. Проще говоря, дисперсия — это статистическая мера того, насколько разбросаны точки данных в выборке или наборе данных. В дополнение к среднему и стандартному отклонению дисперсия выборки позволяет статистикам осмысливать, систематизировать и оценивать данные, которые они собирают для исследовательских целей.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
По сути, у дисперсии есть две формулы, которые вы можете использовать в зависимости от группы измеряемых данных. Например, если вы измеряете данные из всей совокупности, например оценки всего класса колледжа, вы будете вычислять дисперсию, используя эту формулу:
Дисперсия = (Сумма каждого члена – среднее значение) ^ 2 / n
Вот элементы формулы:
Дисперсия всей вашей популяции будет квадратом стандартного отклонения.
Каждый термин представляет каждое из значений или чисел в вашем наборе данных.
Вам нужно будет знать среднее значение вашего набора данных.
Выражение ^2 представляет собой функцию возведения в квадрат или, другими словами, умножение числа само на себя.
Переменная n представляет количество значений, которые у вас есть в вашей совокупности.
При расчете дисперсии только выборки населения вы будете использовать эту формулу:
Дисперсия = (Сумма каждого члена – среднее значение) ^ 2 / n-1
Вот элементы формулы:
Дисперсия — это то, что вы хотите найти для своего набора образцов.
Каждый член — это то, что вы используете для вычитания среднего значения, которое вам также необходимо знать перед вычислением дисперсии.
Переменная n представляет общее количество имеющихся у вас выборок.
Вы используете n-1, поскольку вычисляете дисперсию для выборки всего населения, а не для всего населения.
Дисперсия против стандартного отклонения
Проще говоря, стандартное отклонение смотрит на точные значения того, насколько разбросан набор точек данных от среднего значения совокупности или выборки. Однако дисперсия измеряет среднюю степень, в которой каждая точка данных отличается от среднего значения. Это означает, что дисперсия представляет собой среднее значение всех значений в вашем наборе данных, а стандартное отклонение — точную оценку разброса данных.
Хотя между этими двумя понятиями есть небольшая разница, дисперсия и стандартное отклонение зависят друг от друга. Когда вы найдете стандартное отклонение в наборе выборок или во всей совокупности, вы можете возвести этот результат в квадрат, чтобы получить дисперсию. Хотя это простейшая связь между дисперсией и стандартным отклонением, она представляет собой необходимость понимания того, как работают оба этих вычисления, чтобы получить представление о различных аспектах данных, которые вы изучаете.
Кроме того, стандартное отклонение представляет относительный диапазон набора данных и не учитывает какие-либо выбросы в любом направлении от стандартного среднего. Дисперсия, наоборот, представляет все переменные изменения или различия в наборе данных, включая относительные выбросы по обе стороны от среднего. Без этих двух статистических факторов не было бы разнообразия в диапазоне данных из набора выборки, а это означает, что значения в наборе данных будут больше сгруппированы вокруг среднего значения, а не разбросаны, подобно кривой нормального распределения.
Подробнее: Как рассчитать относительное стандартное отклонение: формула и примеры
Как рассчитать дисперсию набора данных
В статистике можно рассчитать дисперсию всего набора данных, например, годового отчета о продажах, в котором указана сумма чистых продаж за каждый день в течение года. Вы также можете рассчитать только выборку всех точек данных. В примере простого годового отчета о продажах образцом могут быть итоговые данные о продажах за лето. В этом случае статистики будут измерять набор выборок в пределах определенного диапазона дат. В обоих этих примерах вы можете рассчитать дисперсию, используя одну из двух формул:
Вычисление дисперсии всего набора данных
Если вы измеряете весь набор данных, используйте следующие шаги для формулы дисперсии для целых наборов данных:
Дисперсия = (Сумма каждого члена – среднее значение) ^ 2 / n
Вычтите среднее значение из каждого значения в вашем наборе данных. Ваш первый шаг — вычесть среднее значение вашей совокупности из каждого члена в вашем наборе. Например, предположим, что у вас есть совокупность из трех точек данных. Вы будете вычитать среднее значение из каждого из этих трех терминов. Вот пример, предполагающий, что среднее значение совокупности равно 35: (108-35, 100-35, 78-35), где каждый член вычитает 35.
Возведите в квадрат каждую из этих разностей. После того, как вы вычтете среднее значение из всех ваших условий, возведите каждый из этих результатов в квадрат, умножив значение само на себя. Используя приведенный выше пример, это будет выглядеть так: (73), (65), (43) и каждый из этих членов в квадрате дает (5,329), (4,225) и (1,849) соответственно.
Сложите все получившиеся квадраты. Сложите эти новые значения, чтобы получить общую сумму, например: (5 329) + (4 225) + (1 849) = 11 403.
Разделите полученную сумму на количество значений в вашем наборе данных. Теперь вы можете разделить сумму, полученную на третьем шаге, на общее количество значений, которые у вас есть в измеряемой совокупности. Используя примеры значений из предыдущих шагов, сумма, которую вы используете для деления, составляет 11 403, а значение, которое вы используете для n, равно трем, поскольку в примере совокупности всего три термина. Вот как это будет выглядеть: (11 403) / (3) = 3 801. Таким образом, дисперсия всего населения составляет 3801.
Вот упрощенная версия приведенного выше примера:
σ2 = ((108-35)^2 + (100-35)^2 + (78-35)^2) / 3
= (73 ^ 2 + 65 ^ 2 + 43 ^ 2) / 3
= (5 329 + 4 225 + 1 849) / 3
= 11 403 / 3
= 3801
Вычисление дисперсии в выборке данных
Если вы измеряете только выборку из всего набора данных, вы будете полагаться на формулу, учитывающую это с условием n-1. Как и в случае с формулой дисперсии для всего населения, вы начнете с этой формулы таким же образом. Выполните следующие действия:
Дисперсия = (сумма каждого члена – среднее значение) ^ 2 / (n-1)
Вычтите среднее значение из каждого значения в вашем наборе образцов. Как и в случае со всем набором данных, вычтите среднее значение из каждого члена в вашей выборке. Вот пример, предполагающий, что среднее значение равно 25, и у вас есть три значения в вашей выборке: (33-25), (16-25), (45-25). Ваши различия приведут к (8), (-9) и (20) соответственно.
Возведите в квадрат каждую из этих разностей. После того, как вы получите каждую разницу, продолжайте и возведите каждое из этих значений в квадрат. Используя примеры значений из предыдущего шага, вот результирующие произведения: (64), (81) и (400). В этом примере вы можете увидеть, как значение (-9) в квадрате дает вам положительное значение. Это важно и необходимо для дисперсии, поскольку дисперсия больше похожа на среднее значение разброса точек от среднего.
Сложите все получившиеся квадраты. Как и в предыдущей формуле дисперсии, сложите все продукты, полученные на втором шаге: (64) + (81) + (400) = 545.
Вычтите единицу из общего числа значений в наборе образцов. Прежде чем делить, вычтите единицу из числа значений в вашем выборочном наборе. Используя предыдущий пример, у вас есть только три термина. Подставьте три в n-1 часть формулы: n-1 = (3) – 1. Результат равен двум.
Разделите сумму на полученную разницу n-1. Наконец, разделите сумму из третьего шага на два, так как это результирующая разница, к которой вы пришли на четвертом шаге. Используйте значения из предыдущего примера для деления: (545) / (2) = 272,5. Таким образом, дисперсия выборки примера равна 272,5.
σ2 = ((33-25)^2 + (16-25)^2 + (45-25)^2) / (3-1)
= (8^2 + -9^2 + 20^2) / (3-1)
= (64 + 81 + 400) / (3-1)
= 545/(3-1)
= 545/2
= 272,5
Дисперсия населения по сравнению с дисперсией выборки
Дисперсия небольшой выборки всего населения или набора данных дает исследователям и статистикам лишь ограниченное представление о том, что на самом деле происходит во всем населении. Однако дисперсия населения может дать статистикам более точное представление о диапазоне данных и его отношении к среднему значению. Вот несколько примеров того, как это работает:
Пример дисперсии населения
Предположим, статистик хочет измерить разницу в весе популяции зебр в заповеднике. Статистик сначала найдет среднее значение весов совокупности, а затем вычтет это значение из каждого значения веса. Предположим, что в настоящее время в заповеднике содержатся пять зебр. Статистик измеряет вес каждой зебры по следующим значениям:
Зебра 1: 670 фунтов
Зебра 2: 765 фунтов
Зебра 3: 780 фунтов
Зебра 4: 820 фунтов
Зебра 5: 735 фунтов
Затем статистик складывает все эти значения, чтобы получить 3770 фунтов. Они делят это значение на пять, так как пять — это количество зебр во всей популяции. Полученное среднее значение равно 754. Это означает, что средний вес пяти зебр в заповеднике составляет 754 фунта. Затем статистик вычитает это среднее значение из веса каждой зебры:
670 – 754 = -84
765 – 754 = 11
780 – 754 = 26
820 – 754 = 66
735 – 754 = -19
Затем статистик возводит каждую из этих разностей в квадрат перед суммированием полученных продуктов:
(-84)^2 = 7056
(11)^2 = 121
(26)^2 = 676
(66)^2 = 4356
(-19)^2 = 361
(7 056) + (121) + (676) + (4 356) + (361) = 12 570
Затем статистик делит эту сумму на количество зебр в популяции: (12 570) / (5) = 2 514. Это значение представляет собой дисперсию всего населения.
Пример выборочной дисперсии
Если примерный набор из пяти зебр представляет собой выборку из большей популяции, статистик перед делением вычитает одну из пяти. Вот как это будет выглядеть:
(12 570) / (5-1) = 12 570 / 4 = 3 142,5. Это означает, что дисперсия только этой небольшой выборки будет равна 3142,5.
Каково значение дисперсии?
Дисперсия позволяет статистикам понять широту разнообразия в выборке или всей совокупности, поскольку дисперсия часто учитывает любые выбросы в совокупности. Формула дисперсии также полезна во многих деловых ситуациях, включая измерение и оценку объемов продаж, разработку продуктов на основе исследования рынка и многие другие применимые применения, которые могут принести пользу предприятиям и организациям.
Помимо использования в бизнесе, статистики полагаются на дисперсию для сравнения различных чисел в диапазоне данных. Во всем наборе данных дисперсия чрезвычайно важна для отслеживания выбросов, то есть точек данных, которые лежат далеко от среднего значения. Чем ближе к нулю становится дисперсия, тем более сгруппирован набор данных. Когда дисперсия приводит к более высокому значению и особенно выражается в виде отношения, тем больше разбросаны (и, следовательно, разнообразны) точки данных.