Статистическая значимость: определение и применение на рабочем месте
1 марта 2021 г.
Статистическая значимость является ключевым показателем надежности и ценности статистических данных. По этой причине статистическая значимость важна для всех специалистов, работающих со статистикой, от математиков и ученых до рекламодателей и создателей веб-сайтов. В этой статье мы обсудим значение статистической значимости и способы расчета и определения статистической значимости для ваших профессиональных обязанностей.
Что такое статистическая значимость?
Статистическая значимость — это вероятность того, что взаимосвязь между двумя или более переменными вызвана фактором, отличным от совпадения. Результаты теста или эксперимента называются статистически значимыми, если существует вероятность того, что результат не был вызван случайностью.
Люди, работающие со статистикой, должны проверять свои гипотезы, чтобы знать, имеют ли их данные статистическую значимость. Гипотеза — это теория о ситуации, сформулированная до проверки данных. Например, владелец бизнеса может полагать, что публикация ссылок на его сообщения в блоге в его учетной записи в социальной сети увеличит посещаемость его веб-сайта. Эту теорию часто называют альтернативной гипотезой. Им нужно будет проанализировать трафик своего веб-сайта перед публикацией ссылок и после, чтобы подтвердить или опровергнуть свою альтернативную гипотезу.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Важно также рассмотреть нулевую гипотезу, которая представляет собой теорию об отсутствии реальной связи между измеряемыми переменными. Нулевая гипотеза для примера, упомянутого выше, заключается в том, что публикация ссылок на сообщения в блогах не влияет на посещаемость веб-сайта. Если это окажется более вероятным, владелец бизнеса может обсудить другие тактики увеличения посещаемости веб-сайта.
Почему статистическая значимость важна в бизнесе
Расчеты статистической значимости дают предприятиям данные, подтверждающие их предположения. Они помогают людям, работающим с данными, узнать, вызваны ли явления, которые они наблюдают, силами, которые они подозревают, или простой случайностью. Понимание того, что происходит и почему, может помочь профессионалам сделать наиболее осознанный выбор для своих компаний. Когда деловые решения основаны на статистических данных, они с большей вероятностью будут иметь положительный эффект.
Что включить в расчет статистической значимости
Включение большого количества данных в расчет статистической значимости повышает его точность. Размер набора данных будет варьироваться в зависимости от исследования, но он должен быть достаточно большим, чтобы представить выборку или явление, которое вы изучаете. Данные, которые вы включаете, будут зависеть от гипотезы, которую вы пытаетесь доказать. Однако всегда следует включать данные, которые потенциально могут подтвердить или опровергнуть альтернативную и нулевую гипотезы.
Рассмотрим случай, когда владелец бизнеса пытается увеличить посещаемость своего веб-сайта, размещая ссылки на сообщения в блогах в социальных сетях. Они могли отметить количество ежедневных посещений веб-сайтов, которые они получили в течение месяца после принятия новой стратегии в социальных сетях.
Нанесение этих данных на кривые нормального распределения обеспечивает хороший способ сравнения результатов. Кривые нормального распределения показывают нормальное распределение данных. Средние данные, также известные как средние из набора данных, находятся в центре кривой нормального распределения. Затем кривая расширяется, чтобы показать стандартное отклонение.
Приложения для работы с электронными таблицами могут упростить построение колоколообразных кривых. Упомянутый выше владелец бизнеса может сделать следующее, чтобы построить колоколообразную кривую посещений веб-сайта, прежде чем публиковать ссылки на публикации в блогах в социальных сетях:
Создайте таблицу с двумя столбцами. Один должен отображать каждую проанализированную дату до внесения изменений в социальные сети, а другой должен показывать количество посещений веб-сайта. Отсортируйте данные таким образом, чтобы день с наименьшим количеством посещений веб-сайтов был указан первым, а наибольшее количество посещений веб-сайтов — последним. Сортировка данных в порядке возрастания создает гладкую кривую нормального распределения.
Вычислите среднее значение, используя функцию среднего. Например, если посещения веб-сайта перечислены в полях от B2 до B32, расчет будет выглядеть так: =СРЗНАЧ(B2:B32).
Рассчитайте стандартное отклонение с помощью функции СТАНДОТКЛОН.П. Например, если обращения к веб-сайту перечислены в полях с B2 по B32, расчет будет выглядеть так: =STDEV.P(B2:B32).
Заморозьте ячейки со средним значением и стандартным отклонением.
Создайте новый столбец для нормального распределения.
Рассчитайте нормальное распределение, используя функцию нормального распределения. Например, если количество посещений первого веб-сайта указано в поле B2, среднее — в поле B33, а стандартное отклонение — в поле B34, расчет будет выглядеть так =НОРМ.РАСП(B2, $B$33, $B$34, FALSE ).
Перетащите формулу вниз, чтобы заполнить ячейки в столбце нормального распределения.
Выделите посещаемость веб-сайта и показатели нормального распространения.
Нажмите «Рекомендуемые диаграммы» на вкладке «Вставка». Выберите диаграмму рассеяния XY, затем диаграмму рассеяния с плавными линиями, а затем второй вариант диаграммы.
Microsoft Excel нарисует кривую нормального распределения.
Вы можете повторить этот процесс, чтобы нарисовать другую кривую нормального распределения для периода времени после того, как сообщения в блоге были опубликованы в социальных сетях.
Приблизительно 68% данных, или большинство, находится в пределах одного стандартного отклонения кривой нормального распределения. Приблизительно 95% данных находятся в пределах двух стандартных отклонений кривой нормального распределения. К тому времени, когда вы оцените три стандартных отклонения кривой, учтено примерно 99,7% данных.
В статистике отдельные данные оцениваются с точки зрения их z-показателя. Z-показатель находится путем вычитания среднего значения из точки данных, а затем деления этого числа на стандартное отклонение.
После того, как владелец бизнеса создаст кривую нормального распределения, он сможет сравнить посещаемость своего веб-сайта за период. Если бы колоколообразные кривые были одинаковыми, посещаемость веб-сайта не изменилась бы заметно за два периода. Другими словами, новая стратегия социальных сетей мало что изменила бы, что говорит о том, что нулевая гипотеза верна. Однако, если кривая нормального распределения сместилась вправо, альтернативная гипотеза, скорее всего, верна.
Как определить статистическую значимость
Проверка гипотез является ключевым шагом к определению того, имеют ли данные статистическую значимость, но она не подтверждает статистическую значимость. Это окончательное определение может быть сделано только после оценки p-значений. Значение p — это вероятность наблюдения результатов, подобных тем, которые были измерены, если бы нулевая гипотеза была верна. Другими словами, при рассмотрении приведенного выше примера владелец бизнеса может задаться вопросом, увидит ли он трафик веб-сайта таким же высоким, как во втором периоде, даже если он не изменил свою стратегию в социальных сетях. Чем ниже p-значение, тем выше статистическая значимость данных.
Перед началом тестирования люди, работающие со статистикой, определяют предпочтительное p-значение, называемое альфа. Выбор этого значения перед тестированием уменьшает ошибку. Фигура, выбранная после проверки, может быть выбрана просто потому, что она подтверждает альтернативные гипотезы. Наилучшая альфа зависит от теста, но обычно используется значение 0,05, что эквивалентно 5% вероятности. Для более точной работы, такой как научные исследования, может потребоваться гораздо меньшая альфа, равная 0,005 или меньше.
Как только альфа-значение определено, проводится тестирование, и фактическое значение p рассчитывается с использованием статистического программного обеспечения, такого как R. В приведенном выше примере владелец бизнеса вводит статистику за период после того, как изменения веб-сайта были внесены в статистическое программное обеспечение. для определения p-значения. Если p-значение ниже альфа, нулевая гипотеза может быть отвергнута. Статистики обычно говорят это, а не утверждают, что альтернативная гипотеза может быть принята. Другими словами, данные имеют статистическую значимость.