5 основных инструментов статистики и как выбрать правильный
Данные могут помочь людям понять закономерности и аномалии в их личной и профессиональной жизни. С помощью базовых статистических инструментов вам будет легче находить эти тенденции и исключения. Важно знать, как работают эти инструменты, чтобы понимать результаты исследований, проводить собственные исследования и правильно интерпретировать данные. В этой статье мы обсудим, когда вы можете использовать основные инструменты статистики, пять наиболее часто используемых и советы по выбору одного из них для вашей ситуации.
Для чего нужны базовые инструменты статистики?
Базовые статистические инструменты помогают интерпретировать информацию и делают ее полезной. Вы можете использовать базовые инструменты статистики для анализа и понимания любых типов данных в бизнесе, от отчетов о продажах до цен на материалы и рыночных прогнозов. Некоторые статистические инструменты помогают замечать тенденции и делать прогнозы будущих продаж или связей между причинами и следствиями. Другие инструменты помогают сортировать большие объемы данных, когда вы не знаете, где искать дальше.
Специалисты по финансам могут использовать базовые инструменты статистики, чтобы понять эффективность компании, а специалисты по маркетингу могут использовать их для проведения опроса клиентов или пользователей. Разработчики продуктов могут анализировать реакцию клиентов на текущие продукты, а руководители или владельцы бизнеса могут использовать этот вид анализа для обоснования стратегических планов и действий. Люди в академических или исследовательских областях обычно используют статистические инструменты для понимания человеческих, животных и материальных действий и реакций.
5 основных инструментов статистики
Вот пять основных инструментов статистического анализа и подходящие ситуации для их использования:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
1. Регрессия
Регрессия — это метод сравнения двух переменных, когда одна из них независима, а другая или другие зависят от этой первой переменной. Существуют разные методы регрессии в зависимости от того, сколько переменных вы анализируете. После расчета регрессии для набора данных можно прогнозировать будущие результаты на основе значений независимой переменной. Регрессия фокусируется на тенденциях, поэтому важно сочетать регрессионный анализ с опросом и анализом любых выпадающих точек данных, которые далеки от того, что вы ожидаете.
Y = а + мх + е
Когда:
Y = независимая переменная
a = точка пересечения Y, значение Y, когда X = 0
m = наклон линии данных
х = зависимая переменная
e = член ошибки, используемый при прогнозировании с помощью формулы регрессии
Пример: The Better Bakery пытается спрогнозировать, сколько пончиков они продадут, если знают, сколько их выставлено. Независимая переменная — это количество выставленных пончиков, а проданное количество — зависимая переменная. Они не продают пончики, если они не выставлены, поэтому их значение «а» равно нулю. В четверг у них было выставлено 48 пончиков, а продано 36. В пятницу было выставлено 60 пончиков, а продано 45. Применение формулы к обоим дням позволяет им понять наклон регрессии пончиков:
Четверг: отображается 48 пончиков = 0 + (mx 36)
Пятница: 60 = 0 + (мх 45)
В обоих этих уравнениях m = 0,75, поэтому пекарня может использовать это в уравнении, чтобы спрогнозировать, сколько пончиков они продадут в будущем.
2. Расчет среднего
Среднее значение набора данных, также называемое средним, может быть полезно для понимания того, как данные расположены в наборе и где числа встречаются чаще всего. Лучше всего он работает при попытке получить общее представление о размере отдельной транзакции или события. Объединение среднего значения с другой информацией, такой как режим и диапазон набора данных, может помочь лучше понять среднее значение. Формула для расчета среднего:
(Сумма всех точек данных в наборе) / (количество точек данных в наборе) = среднее значение набора данных
Пример: Сентябрь Отдел продаж и дистрибуции осуществил пять продаж в течение дня на общую сумму 3000, 5500, 2000, 4000 и 6500 долларов. Чтобы рассчитать средний объем продаж за этот день, они суммируют продажи и делят на пять:
(3000 долларов США + 5500 долларов США + 2000 долларов США + 4000 долларов США + 6500 долларов США) / 5 = среднее или среднее
21 000 долл. США / 5 = 4 200 долл. США = средний размер каждой продажи за день.
3. Стандартное отклонение
Стандартное отклонение измеряет, как данные распределяются по диапазону. В наборе данных с большим стандартным отклонением точки данных разбросаны по большой площади, в то время как в наборе данных с малым стандартным отклонением большая часть данных сгруппирована вместе. Стандартное отклонение может быть наиболее полезным, когда данные имеют разумный разброс и у вас не слишком много выбросов. Есть две формулы для расчета стандартного отклонения, в зависимости от того, есть ли у вас только выборка данных или полный набор данных для всей совокупности.
с = √([Σ(xi – mean of all x values)2] / [N – 1])
Когда:
s = стандартное отклонение выборки
xi = наблюдаемые значения от 1 до N
N = количество наблюдений
Пример: Mouse Greenhouse измеряет, насколько меняются продажи мешков с удобрениями за 12 недель лета. Они рассчитывают стандартное отклонение от своих еженедельных продаж в течение всего лета, сначала вычисляя среднее значение своих недельных продаж.
Затем для количества продаж за каждую неделю, xi в формуле, они вычитают среднее значение из общего количества за эту неделю и возводят результат в квадрат. Они берут сумму всех этих квадратов, делят ее на количество наблюдений минус один, в данном случае на 11. Они берут из этого квадратный корень и находят свое стандартное отклонение, которое для этой выборки равно шести. Это означает, что в течение большей части лета количество мешков удобрений, которые они продают, будет в пределах шести от их среднего недельного объема продаж.
4. Определение размера выборки
Определение размера выборки — это процесс выбора подходящих данных для анализа из большого набора. Правильно выбранный размер выборки может дать вам те же результаты, что и анализ всей выборки, но он более эффективен, поскольку требует меньше обработки. Вот факторы, которые следует учитывать при расчете размера выборки:
Общий размер совокупности: это максимальный размер всех возможных данных. Если вы завершили свое исследование, ваша общая численность населения — это количество точек данных или ответов, которые вы получили, а если вы планируете исследование, общая численность населения — это максимальное количество возможных точек данных.
Допустимая погрешность: определяет, сколько ошибок вы готовы допустить в своем исследовании.
Уровень достоверности: это процентная вероятность того, что ваши результаты, такие как рассчитанное среднее значение, попадают в пределы истинного среднего значения всего набора данных. После того, как вы определите необходимый уровень достоверности, обычно 90 % или выше, используйте таблицу, чтобы найти z-значение, соответствующее выбранному вами уровню достоверности.
Стандартное отклонение: это величина ожидаемой дисперсии ваших данных.
Размер выборки = (z-показатель2 x стандартное отклонение x [1 – standard deviation]) / погрешность**2**
5. Проверка гипотез
Проверка гипотезы — это процесс, используемый для определения того, подтверждают ли данные конкретную гипотезу. Вы можете выполнить проверку гипотезы, сначала определив, какая конкретная формула, как вы ожидаете, будет верной. Этот ожидаемый результат становится вашей первой гипотезой, или H1. Неожиданный результат — нулевая гипотеза, или H0. Важно отметить, что формулы проверки гипотез зависят от того, что вы анализируете и тестируете. Например, гипотезы могут быть конкретными формулами, связывающими две переменные друг с другом, так что некоторые численные результаты будут означать, что H1 верно, в то время как другие прямо показывают, что H0 истинно.
H0: А ≠ В
Н1: А = В
Когда:
A = данные о значении или переменной, которую изучает статистик.
B = прогнозы исследователя
Пример: Smooth Storage Solutions считает, что их клиенты используют свои самые большие арендованные грузовики для перемещения на расстояние более 100 миль, поэтому это их первая гипотеза:
H1: средний пробег > 100 миль за поездку
Нулевой гипотезой будет любое обстоятельство, в котором они неверны:
H0: средний пробег < 100 миль за поездку или средний пробег = 100 миль за поездку
Они проверяют одометры своих грузовиков до и после каждой аренды грузовика и обнаруживают, что все поездки составляли не менее 200 миль, поэтому у них есть основания полагать, что их первая гипотеза верна.
Советы по выбору базового инструмента статистики
Вот несколько советов и соображений при выборе базового статистического инструмента:
Учитывайте этап сбора данных
Если вы просто разрабатываете исследование, чтобы выяснить что-то конкретное, вы можете использовать такой инструмент, как определение размера выборки, чтобы решить, сколько опросов или экспериментов нужно провести. Другие инструменты, такие как регрессия или вычисление среднего, представляют собой различные способы анализа уже собранных данных. Если вы находитесь в середине сбора информации, вы можете подумать об определении размера выборки, чтобы определить, достаточно ли у вас данных для получения надежных результатов, или попробовать провести ранний анализ с помощью регрессии, чтобы сопоставить более поздние данные и посмотреть, подтверждает ли ваша новая информация более ранние модели.
Учитывайте размер ваших данных
Некоторые инструменты лучше подходят для больших наборов данных. Если у вас есть опрос клиентов или еженедельные данные о продажах, вы можете использовать другие инструменты, чем если бы вы сравнивали четыре результата за каждый финансовый квартал или два разных продукта. Если вы не уверены, какие инструменты лучше подходят для больших или меньших наборов, вы можете изучить аналогичные исследования, которые ваше учреждение или компания проводили в прошлом, чтобы сравнить методы и результаты.
Исследуйте каждый инструмент перед использованием
Хотя это одни из самых распространенных и полезных инструментов в статистике, важно точно понимать, как они работают, прежде чем применять их. Понимание того, следует ли использовать стандартное отклонение выборки или стандартное отклонение генеральной совокупности, например, может помочь вам понять, как интерпретировать полученные результаты. Вы также можете узнать больше о том, какие инструменты подходят, пройдя курс по статистике или узнав от коллеги об ожиданиях вашей организации и процедурах использования статистического анализа.