5 способов найти выбросы в статистике (с примерами)

Выброс в статистике — это любая точка данных, которая значительно отличается от других точек данных. Выбросы могут быть ошибками или важными наблюдениями, поэтому их необходимо найти и понять. В этой статье мы обсуждаем выбросы в статистике, как найти выбросы в ваших данных и приводим примеры.

Почему важно находить выбросы в статистике?

Выбросы в статистике могут значительно изменить результат ваших данных, особенно если вы пытаетесь вычислить среднее или среднее значение набора данных, где все остальные точки данных имеют другой диапазон значений.

В конечном итоге вы можете удалить выброс из своих результатов, если обнаружите, что он был записан по ошибке, но необходимо сначала проанализировать его, чтобы понять его значение.

Выбросы также могут выявить несоответствия в методах исследования и сбора данных и помочь вам уточнить ваши процедуры.

5 способов найти выбросы

Вот пять способов найти выбросы в вашем наборе данных:

1. Сортируйте данные

Простой способ определить выбросы — отсортировать данные, что позволяет увидеть любые необычные точки данных в вашей информации. Попробуйте отсортировать данные по возрастанию или убыванию, а затем проверьте данные, чтобы найти выбросы. Необычно высокий или низкий уровень данных может быть выбросом.

Например, если у вас есть эти числа в порядке возрастания: 3, 6, 7, 10 и 54, вы можете увидеть, что 54 намного больше, чем остальные точки данных. Статистики сочли бы 54 выбросом.

Подробнее: Как сортировать данные в Excel (с пошаговыми инструкциями)

2. График ваших данных

Вы также можете использовать графики, такие как диаграммы рассеяния или гистограммы, чтобы найти выбросы. Графики представляют ваши данные визуально, что позволяет легко увидеть, когда часть данных отличается от остального набора данных. Точечная диаграмма отображает ваши точки данных в виде точек на графике, основанном на двух переменных, нанесенных на оси x и y. Диаграммы рассеивания полезны для визуализации выбросов, потому что вы можете видеть, когда одна точка находится далеко от других точек, которые обычно сгруппированы вместе. Следовательно, точка данных, которая находится далеко от группы, является выбросом.

Гистограмма отображает данные в группах, называемых «ячейками». Гистограммы обычно группируют данные в диапазонах, что отличает гистограммы от гистограмм. Ваш диапазон данных обычно представляет собой ось X, а другая ваша переменная обычно представляет собой ось Y. Это может помочь определить необычные точки данных. Например, если большинство ваших точек данных находятся на правой стороне графика, а один бин данных находится на левой стороне графика, вы можете сделать вывод, что крайний левый бин является выбросом.

3. Рассчитайте z-значение

Z-оценка, или стандартная оценка, показывает, насколько далеко точка данных находится от среднего значения данных. Чтобы рассчитать z-оценку, вы вычитаете среднее значение из исходного измерения и делите его на стандартное отклонение.

Уравнение для расчета z-показателя:

Z = (X−µ) ÷ σ

куда:

X = необработанное измерение

µ = среднее значение

σ = стандартное отклонение

Чем дальше z-оценка от 0, тем более необычна точка данных. Например, если z-оценки для ваших точек данных: -0,35, -0,26, -0,021, -0,18 и 4,7, вы можете сказать, что точка данных с z-оценкой 4,7 находится дальше всего от 0 и является выбросом.

Подробнее: Как рассчитать Z-оценку

4. Рассчитайте межквартильный размах

Межквартильный диапазон (IQR) измеряет дисперсию точек данных между отметками первого и третьего квартилей. Общее правило его использования для расчета выбросов заключается в том, что точка данных является выбросом, если она более чем в 1,5 раза превышает IQR ниже первого квартиля или в 1,5 раза превышает IQR выше третьего квартиля.

Для расчета IQR необходимо знать процентиль первого и третьего квартилей. Медиана верхней половины набора данных является процентилем для третьего квартиля, а медиана нижней половины набора данных является процентилем для первого квартиля.

Чтобы найти IQR, вы вычитаете первый квартиль из третьего квартиля:

IQR = Q3 − Q1

куда:

Q3 = третий квартиль = медиана верхней половины набора данных

Q1 = первый квартиль = медиана нижней половины набора данных

Затем вы можете использовать IQR, чтобы найти любые выбросы в вашем наборе данных. Уравнения для расчета низких или высоких выбросов с помощью диапазона IQR:

Высокий выброс ≥ Q3 + (1,5 x IQR)

Низкий выброс ≤ Q1 − (1,5 x IQR)

Подробнее: Как найти медиану набора данных в статистике

5. Используйте проверку гипотез

Если вы хотите попробовать более продвинутые варианты поиска выбросов, рассмотрите возможность проверки гипотез, таких как тест Граббса, обобщенный ESD или критерий Пирса. Тесты гипотез включают обработку данных с помощью уравнений, чтобы увидеть, соответствуют ли они предсказанным результатам. Критерий Граббса можно использовать, когда вы подозреваете только один выброс в нормально распределенном наборе данных.

Обобщенный тест экстремальных студенческих отклонений (ESD) может использовать данные только с одной переменной для проверки более чем одного выброса. Статистики используют критерий Пирса, чтобы находить и устранять выбросы, вычисляя, как стандартное отклонение сравнивается со средним значением набора данных.

Поскольку трудно выбрать правильный тест гипотезы, если вы не знаете много о своем наборе данных, они могут быть неточными или сложными для выполнения. Вы можете изучить их заранее, чтобы выбрать правильный, или подумать, могут ли более простые методы позволить вам найти выбросы в ваших данных.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *