Как рассчитать верхний квартиль набора данных за 3 шага

8 апреля 2022 г.

Когда у вас есть набор данных, вы можете задаться вопросом, как значения сравниваются с аналогичными значениями, а не со всем диапазоном чисел. Одним из способов более глубокого анализа набора данных является вычисление верхнего квартиля, то есть значения, которое отделяет верхние 25 % данных от нижних 75 % данных. Понимание того, как рассчитать это статистическое измерение, может помочь вам понять разницу между значениями и определить, влияют ли внешние факторы на ваши результаты. В этой статье мы объясним, как рассчитать верхний квартиль за три шага, и обсудим преимущества этого.

Что значит вычислить верхний квартиль?

Когда вы вычисляете верхний квартиль, вы находите значение, которое отделяет верхние 25 % данных от нижних 75 % данных. Слово квартиль относится к практике разделения набора данных на четыре части. Первый квартиль отделяет 25-й и 50-й процентили, а медиана отделяет нижнюю половину данных от верхней половины. В то время как верхний квартиль, также известный как третий квартиль, отделяет верхние 25% от нижних 75% данных, вы также можете думать о нем как об отделении третьего процентиля от четвертого процентиля.

Например, рассмотрим следующий набор данных: {6, 6, 7, 7, 8, 8, 9, 10}. Вы можете разделить данные на четыре раздела, в каждом из которых по два числа. Значение 8,5 будет верхней квартилем, поскольку оно указывает, что числа в трех нижних разделах ниже этого числа, а числа в верхнем разделе выше этого числа.

Почему важно вычислять верхний квартиль?

Верхний квартиль — это полезное статистическое измерение, которое предоставляет больше информации о наборе данных. Сравнивая это число с нижним квартилем и медианой, вы можете определить, насколько велик разброс, и сделать вывод, не искажены ли результаты. Например, рассмотрим тренера, который записывает следующие результаты бега на стометровке для восьми школьных футболистов в секундах: {13,4, 13,6, 14,0, 14,5, 15,2, 16,8, 17,6, 19,1}. Скаут из колледжа понимает, что несправедливо сравнивать время спринта лайнмена и бегуна, поэтому они решили использовать квартиль для разделения времени.

Скаут колледжа создает четыре процентиля с двумя числами в каждом процентиле. Нижний квартиль составляет 13,8 секунды и отделяет первый процентиль от второго процентиля. Точно так же верхний квартиль составляет 17,2 секунды и отделяет третий процентиль от четвертого процентиля. Теперь скаут колледжа может сравнивать спортсменов со спортсменами с аналогичными способностями, а не делать обобщенные выводы об их скорости. Например, рассмотрим кого-то, кто пробежал 100 метров за 17,7 секунды. Это время может показаться медленным, если рассматривать весь набор данных, но это одно из самых быстрых значений в четвертом процентиле.

Как рассчитать верхний квартиль

Вот как вычислить верхний квартиль набора данных:

1. Закажите свой набор данных

Если ваш набор данных не в порядке, важно упорядочить его в порядке возрастания. Поместите наименьшее число слева и закончите наибольшим числом справа. Поместите любые повторяющиеся значения рядом друг с другом. Если ваш набор данных особенно велик, рассмотрите возможность использования онлайн-сортировщика чисел, чтобы упорядочить значения в порядке возрастания. Например, если ваш набор данных {1, 2, 1, 10, 5, 3, 7, 8}, он станет {1, 1, 2, 3, 5, 7, 8, 10}.

2. Найдите медиану

Медиана — это среднее число в восходящем списке чисел. Вычислите медиану, вычеркнув самое левое и самое правое число. Повторяйте этот процесс, пока не достигнете одного числа в середине. Например, рассмотрим этот набор данных: {1, 2, 5, 5, 7}. Вы должны начать с вычеркивания чисел 1 и 7. Затем вы должны вычеркнуть 2 и самое правое 5. Среднее 5 — единственное оставшееся значение, что делает его медианой набора данных.

Важно понимать, что набор данных с четным количеством значений, по-видимому, дает два медианных значения. Например, рассмотрим этот набор данных: {1, 2, 5, 5}. Вы бы вычеркнули 1 и самую правую 5, оставив 2 и 5 в качестве средних значений. Следующим шагом является вычисление среднего значения этих двух медианных значений, что означает, что вы складываете их вместе и делите на два. Если сложить значения 2 и 5, получится семь, что разделить на два равно 3,5. Это делает 3,5 истинным медианным значением этого набора данных.

3. Найдите медиану верхней половины набора данных.

Верхний квартиль — это, по сути, медиана верхней половины набора данных. Применяя второй шаг к верхней половине набора данных, вы можете определить верхний квартиль. Например, рассмотрим этот набор данных: {5, 6, 7, 10, 19, 20, 21}. Значение 10 является медианой для всего набора данных, поэтому все числа выше 10 представляют верхнюю половину данных. Вы можете найти медиану {19, 20, 21}, вычеркивая левые и правые числа, пока не достигнете среднего значения.

В этом случае верхний квартиль для всего набора данных равен 20. Числа выше 20 относятся к верхнему 25% процентилю, а числа ниже 20 относятся к нижнему 75% процентилю. Обратите внимание, что дополнительный шаг необходим, если верхняя половина набора данных имеет четное количество значений. Например, представьте, что набор данных был {5, 6, 7, 10, 10, 19, 20, 21} вместо {5, 6, 7, 10, 19, 20, 21}. Новая верхняя половина данных равна {10, 19, 20, 21}, что делает верхний квартиль равным 19,5 вместо 20.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *