Как найти выбросы |
10 мая 2021 г.
Статистикам часто приходится работать с чистыми выборками данных. Вот почему для них важно уметь выявлять и устранять выбросы из основного набора данных. Выявление выбросов также может быть полезным, поскольку эти выбросы могут дать интересные сведения о данных. В этой статье мы обсудим, что такое выброс, когда вам может понадобиться найти выбросы и как их идентифицировать.
Что такое выброс?
Выброс — это точка данных в наборе данных, которая находится за пределами диапазона большинства других точек данных. Например, в наборе дат возрастов 12, 13, 15, 16, 52, 14 и 11 вы можете увидеть, что 52 года — это возрастной выброс. Это связано с тем, что другие возрастные категории попадают в диапазон от 11 до 16 лет, а 52 года — вне этого диапазона.
Для статистиков важно уметь выявлять такие выбросы, поскольку они могут кардинально изменить свои расчеты. В этом примере, если вы включите выброс, средний средний возраст составит 19 лет. Если вы исключите выброс, средний возраст составит 13,5 лет.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Вы должны тщательно исследовать любые выбросы, прежде чем удалять их. Возможно, выбросы являются простыми ошибками, которые следует исключить. С другой стороны, эти выбросы могут содержать важную статистическую информацию, такую как новая тенденция или важное понимание, которое необходимо учитывать.
Когда вам нужно найти выброс?
Иногда выбросы очевидны либо при просмотре данных, расположенных в порядке возрастания или убывания, либо при просмотре графического представления данных. В этих случаях выбросы могут стоять далеко от остальных данных.
В приведенном выше примере, если вы расположите возраст в возрастающем числовом порядке (11, 12, 13, 14, 15, 16, 52), вы увидите, что 52 явно является выбросом. Кроме того, если вы хорошо знакомы с данными, ваше знание того, что вероятно, а что маловероятно, может помочь вам определить выбросы.
Однако иногда выбросы не так легко увидеть. Ваш набор данных может содержать несколько кластеров точек данных в диапазоне. Глядя на данные, может быть непросто определить, являются ли выбросы одной или двумя точками данных на одном крайнем конце шкалы или, возможно, всей группой точек данных в самой высокой или самой низкой точке шкалы. В этой ситуации вам может понадобиться использовать математику, чтобы найти выбросы.
Как найти выбросы
Существуют различные способы найти выбросы. Один из методов заключается в графическом отображении точек данных с использованием точечных диаграмм, коробчатых диаграмм, диаграмм шепота или гистограмм. Эти визуальные представления данных могут помочь вам увидеть, присутствуют ли выбросы и какие точки данных являются выбросами.
Другой метод выявления выбросов заключается в нахождении межквартильного диапазона (IQR) и вычислении внутреннего и внешнего диапазонов ограждения набора данных. Те точки данных, которые выходят за границы, являются выбросами. Вот шаги, которые вы должны предпринять, чтобы найти выбросы, используя этот метод:
1. Найдите среднее значение
Медиана — это среднее значение набора данных. Если у вас есть нечетное количество точек данных в вашем наборе данных, медианой является точка данных в центре. Например, если у вас есть 23 точки данных, медиана — это 12-я точка данных, поскольку она находится прямо посередине.
При четном числе точек данных найдите медианное значение, добавив две средние точки данных и разделив их на два. Итак, если у вас есть 24 точки данных, вы должны сложить 12-ю и 13-ю точки данных и разделить их на два.
Чтобы найти медиану, сначала расположите точки данных в порядке возрастания номеров. Затем вы можете найти точку данных, которая находится на полпути. Например, есть семь точек данных в упорядоченном списке возрастов 11, 12, 13, 14, 15, 16 и 52 лет, поэтому среднее значение равно 14. Если бы было только шесть точек данных, 11, 12, 13, 14 , 15, 16, медианой будет третья и четвертая точки данных, разделенные на два, (13+14)/2, что равно 20. Тот факт, что в списке нет 20, не имеет значения. Это среднее значение.
2. Определите нижний или первый квартиль (Q1)
Нижний квартиль представляет собой среднюю или медианную точку данных всех точек данных ниже медианы. Итак, если у вас есть 13 точек данных, медианная точка данных является седьмой точкой данных. Перед седьмой имеется шесть точек данных, поэтому нижняя квартиль является средней точкой этих шести точек данных. В этом примере имеется четное количество точек данных, поэтому вы должны найти две средние точки данных, третью и четвертую, и разделить эти значения на два.
Снова используя список возрастов, среднее значение списка составляет 14, четвертую точку данных в списке из семи точек данных. Перед этим есть три точки данных: 11, 12 и 13. Медиана этих трех равна 12, поэтому нижний или первый квартиль (Q1) этого списка равен 12.
3. Определите верхнюю или третью квартиль (Q3)
Верхний квартиль — это средняя или медиана данных всех точек данных выше медианы. В наборе данных с 13 точками данных медиана является седьмой точкой данных. Это означает, что верхний квартиль является средней точкой данных шести точек данных выше седьмой точки данных. Чтобы найти верхний квартиль в этом наборе данных, который имеет четное количество точек данных, вы берете две средние точки данных, 10-ю и 11-ю, и делите их на два.
Например, в списке возрастов верхняя или третья квартиль является медианой трех точек данных выше медианы. Среднее значение равно 14, а следующие три значения — 15, 16 и 52. Таким образом, верхний или третий квартиль (Q3) равен 16.
4. Найдите межквартильный размах (IQR)
Межквартильный размах — это просто расстояние между нижним и верхним квартилями. Это можно определить, вычитая Q1 из Q3. В списке возрастов Q1 равен 12, а Q3 равен 16. Следовательно, межквартильный диапазон составляет 16-12, что равно 4. Этот межквартильный диапазон помогает вам установить границы или заборы для ваших точек данных. Эти ограждения важны для отделения точек данных с выбросами от остального набора данных.
5. Найдите внутренний диапазон ограждения
Внутренний диапазон вашего набора данных помогает вам определить, содержит ли ваш набор данных незначительные выбросы. Это выбросы, которые выходят за пределы основного диапазона данных, но не слишком далеко, поэтому их можно рассматривать только как «предполагаемые» или «возможные» выбросы. Чтобы рассчитать внутренний диапазон вашего набора данных, умножьте IQR набора данных на 1,5. Затем вычтите это значение из Q1, чтобы получить нижнюю границу диапазона внутренней границы, и добавьте его к Q3, чтобы получить верхнюю границу диапазона.
Используя список возрастов в качестве примера, IQR для этого набора данных равен 4. Умножение IQR на 1,5 дает значение 6. Если вы вычтете это из Q1 этого списка, 12, вы получите нижнюю границу 6. Когда вы добавьте его в Q3 этого списка, 16, вы получите верхнюю границу 22. Это означает, что любые значения возраста в списке, выходящие за пределы диапазона от 6 до 22, являются выбросами. Единственным значением вне этого диапазона является 52, так что это как минимум второстепенное значение или предполагаемый выброс.
6. Найдите диапазон внешнего забора
Чтобы найти основные выбросы, вам необходимо установить внешний диапазон ограждения. Вы вычисляете это так же, как вы вычисляли диапазон внутренней границы, за исключением того, что вместо умножения IQR на 1,5 вы умножаете его на 3. Таким образом, чтобы вычислить нижнюю границу диапазона внешней границы, вы вычитаете результат IQR*3 из Q1. . Чтобы вычислить верхнюю границу диапазона внешней границы, вы прибавляете результат IQR*3 к Q3.
IQR примера с возрастным списком равен 4, Q1 равен 12, а Q3 равен 16. Таким образом, расчет нижнего предела диапазона внешнего ограничения равен 12-(4*3), что равно 0. Верхний предел диапазона диапазон внешнего ограничения составляет 16+(4*3), что равно 28. Это означает, что любые значения в списке возрастов, выходящие за пределы диапазона от 0 до 28, являются значительными выбросами. Другими словами, они, скорее всего, будут настоящими выбросами. В возрастном списке 52 года находятся за пределами диапазона внешнего забора, так что это, вероятно, выброс.