Полное руководство по трем сигмам (включая то, для чего они используются)
14 сентября 2021 г.
Статистики используют различные расчеты при сборе и интерпретации данных своих исследований. Три сигмы могут помочь определить, существуют ли какие-либо выбросы в наборе данных при оценке собранных вами переменных. Знание того, как рассчитать три сигмы, может помочь вам установить контрольные пределы в ваших наборах данных. В этой статье мы исследуем, что такое три сигмы в статистике, сравним этот расчет с шестью сигмами, поделимся шагами для расчета трех сигм и приведем пример.
Что такое три сигмы в статистике?
Три сигмы в статистике — это расчет, в котором данные представлены в трех стандартных отклонениях от среднего значения. Этот инструмент, также известный как пределы трех сигм или эмпирическое правило, помогает рассчитать вероятность набора данных. Три сигмы следуют правилу 68-95-99,7, при этом 68% данных находятся в пределах одного стандартного отклонения от среднего, 95% данных находятся в пределах двух стандартных отклонений от среднего и 99,7% данных находятся в пределах трех стандартных отклонений от среднего. .
Три сигмы против шести сигм
Вот некоторые различия между тремя сигмами и шестью сигмами:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Точность
Поскольку шесть сигм рассчитывают шесть стандартных отклонений от среднего значения, его значение имеет тенденцию быть более точным, чем три сигмы. Расчет с шестью сигмами имеет точность 99,99966%, тогда как расчет с тремя сигмами имеет точность 99,73%. Хотя разница между этими двумя расчетами составляет менее 0,25%, эта область погрешности может сильно повлиять на определенные отрасли, такие как производство, банковское дело и компьютеры, где точность имеет жизненно важное значение. При анализе данных для этих типов отраслей профессионалы могут выбрать расчет с шестью сигмами, а не с тремя сигмами, поскольку это снижает погрешность.
Количество шагов
Шесть сигм включают в себя больше шагов, чем три сигмы. Это связано с тем, что он вычисляет три дополнительных стандартных отклонения, чем три сигмы. Поскольку шесть сигм включают в себя больше шагов, вероятность ошибок во время вычислений выше. Однако при правильном расчете он обеспечивает более точный набор данных.
Для чего используются три сигмы?
Статистики могут использовать расчеты трех сигм, чтобы установить верхний и нижний контрольные пределы в статистических диаграммах контроля качества, которые создают ограничения для бизнес-процессов или производственных процессов. Это позволяет статистикам выявлять любые выбросы в своих данных, чтобы они могли соответствующим образом скорректировать свои данные, когда их хорошо контролируемые среды не учитывают определенные результаты. Например, во время медицинского испытания, если у большинства участников в определенной степени наблюдается положительное улучшение состояния, но у двух пациентов наблюдается почти двукратное улучшение состояния, то это может быть связано с факторами, не связанными с лекарствами.
Как рассчитать три сигмы
Используйте эти шаги при расчете трех сигм:
1. Найдите среднее
Чтобы вычислить три сигмы, сначала найдите среднее значение вашего набора данных. Вы можете сделать это, сложив все свои переменные, а затем разделив их на количество переменных, которые у вас есть. Например, если ваш набор данных включает 7,2, 7,5, 7,8, 8,1, 8,3, 8,6, 8,8 и 9,2, вы должны добавить эти переменные, чтобы получить 65,5. Затем вы можете разделить 65,5 на восемь, количество переменных в вашем наборе данных, чтобы получить 8,1875 (65,5/8 = 8,1875).
2. Рассчитайте дисперсию
Найдя среднее значение, найдите дисперсию или разброс между точками данных. Это сумма квадратов, найденная путем вычитания среднего из каждой переменной в вашем наборе данных и возведения в квадрат разницы. Для приведенного выше примера вы можете начать с вычитания 8,1875 из 7,2, чтобы получить -0,9875. Затем вы возводите в квадрат 0,9875, чтобы получить 0,97516. Продолжите эти вычисления для всех переменных в вашем наборе данных.
Когда у вас есть значение для всех переменных квадратов, вы можете сложить их и разделить на количество ваших переменных (8). В примере сумма квадратов всех переменных равна 0,45553571. При расчете дисперсии рассмотрите возможность использования онлайн-калькулятора дисперсии, чтобы обеспечить точность.
3. Найдите стандартное отклонение
Затем вычислите квадратный корень из дисперсии, чтобы найти стандартное отклонение. Как и в случае с дисперсией, вы можете использовать калькулятор, чтобы найти это значение. В нашем примере стандартное отклонение равно 0,67493386 (√0,45553571).
4. Откройте для себя три сигмы
Наконец, рассчитайте верхнюю границу трех сигм, умножив стандартное отклонение на три. Затем добавьте значение к среднему. В приведенном выше примере верхний предел равен 10,2123016 (0,67493386 x 3 = 2,02480158 + 8,1875 = 10,2123016).
Для нижнего предела ваших данных умножьте стандартное отклонение на три и вычтите среднее значение. В этом примере наш нижний предел равен -6,16269842 (0,67493386 x 3 = 2,02480158 – 8,1875 = -6,16269842). Это означает, что любые данные, которые меньше -6,16269842 или больше 10,2123016, считаются выходящими за пределы нормального диапазона данных.
Пример трех сигм
Вот пример трех сигм:
Саманта просматривает данные недавнего исследования производительности сотрудников в компании Brett and Steven, Inc. Ее набор данных включает следующие переменные, представляющие процент ошибок, совершаемых каждым сотрудником за неделю: 1,5, 1,8, 2,1, 2,2, 2,4, 2,7 и 2.8. Чтобы найти три сигмы для своих данных, она сначала вычисляет среднее значение набора данных, складывая все переменные и разделив их на семь, количество участников. Среднее значение, которое она вычисляет, равно 2,21428571 (1,5 + 1,8 + 2,1 + 2,2 + 2,4 + 2,7 + 2,8 = 15,5/7 = 2,21428571).
Затем Саманта вычисляет дисперсию своего набора данных, вычитая среднее значение из каждой переменной и возводя разницу в квадрат, например (1,5 – 2,21428571 = -0,71428571; квадрат = -0,51020408). Проделав это для каждой переменной, она получает дисперсию 0,21809524. Найдя дисперсию, она вычисляет квадратный корень, чтобы получить стандартное отклонение 0,46700668.
Наконец, Саманта находит свои три сигмы, умножая стандартное отклонение на три и добавляя среднее значение для верхнего предела и вычитая среднее значение для нижнего предела. Верхний предел Саманты равен 3,61530575 (0,46700668 x 3 = 1,40102004 + 2,21428571 = 3,61530575), а нижний предел равен -0,81326567 (0,46700668 x 3 = 1,40102004 – 2,2142,8571 = -065). Это означает, что те в ее исследовании производительности сотрудников, у которых процент ошибок был больше -0,81326567 или выше 3,61530575, были за пределами ее нормального диапазона.
Связанные понятия в статистике
Ниже приведены некоторые похожие концепции статистики:
Сигма: Часто обозначается этим символом Σ, сигма является средним значением суммы данных.
X bar: X bar, представленный символом x̄, представляет собой тип контрольной диаграммы, используемой для отображения среднего значения выборки набора данных.
R-диаграмма: R-диаграмма — это контрольная диаграмма, которую статистики используют для мониторинга стандартного отклонения процесса набора данных.
Стандартное отклонение: стандартное отклонение, представленное греческим символом σ, является мерой вариации набора значений относительно его среднего значения.