Что такое искаженные данные в статистике? (с определением и примером)

28 марта 2022 г.

Люди, работающие с данными, могут столкнуться со многими наборами данных, которые отличаются от модели нормального распределения, включая искаженные данные. Набор данных с перекосом характеризуется асимметричной кривой данных, смещенной влево или вправо на графике. Если ваша работа связана со статистикой или работой с данными, важно четко понимать искаженные данные и способы их расчета. В этой статье мы объясняем определение асимметрии и способы расчета асимметрии набора данных, а также приводим реальные примеры различных типов асимметричных данных.

Что такое искаженные данные?

Искаженные данные — это данные, которые создают на графике асимметричную наклонную кривую. В статистике график набора данных с нормальным распределением симметричен и имеет форму колокола. Однако искаженные данные имеют «хвост» по обе стороны графика. Два наиболее распространенных типа перекоса:

  • Отрицательный перекос: набор данных с отрицательным перекосом имеет хвост на отрицательной стороне графика, что означает, что график смещен влево.

  • Положительный перекос: набор данных с положительным перекосом имеет хвост на положительной стороне графика, что означает, что график смещен вправо.

В отличие от положительной или отрицательной асимметрии, колоколообразная кривая с нормальным распределением имеет нулевое значение асимметрии. Почти симметричные данные также имеют значение асимметрии, близкое к нулю.

Если вы специалист по данным или другой профессионал, работающий с данными, понимание искаженных данных важно, потому что большинство реальных ситуаций несимметричны — реальные наборы данных обычно искажены. Однако искаженные данные могут вызвать проблемы со статистическими моделями, поскольку выбросы, которые часто вызывают перекосы, могут негативно повлиять на производительность статистической модели. Поэтому важно понимать искаженные данные, в том числе то, как их вычислять.

Как рассчитать асимметрию

Вот четыре ключевых шага, которые вы можете выполнить, чтобы вычислить асимметрию или величину асимметрии в наборе данных:

1. Найдите среднее значение, медиану и стандартное отклонение.

Первый шаг к вычислению асимметрии вручную — это поиск значений трех характеристик ваших данных:

  • Среднее: в математике среднее значение — это среднее значение набора данных. Вы можете рассчитать среднее значение набора данных, сложив все значения вместе, а затем разделив их на общее количество значений в наборе данных.

  • Медиана: Медиана — это значение, которое попадает в середину набора данных. Вы можете найти медиану, упорядочив все значения вашего набора данных в порядке возрастания — от наименьшего к наибольшему — и точно указав значение, которое находится точно посередине.

  • Стандартное отклонение: стандартное отклонение — это статистическое измерение, которое отображает изменение значений или то, насколько «разбросаны» значения. Чтобы рассчитать стандартное отклонение вручную, вычтите среднее значение из каждого значения в наборе данных и умножьте результат на себя, затем вы найдете среднее значение каждого полученного значения и, наконец, найдите квадратный корень из этого значения.

2. Используйте формулу перекоса

Как только вы узнаете среднее значение, медиану и стандартное отклонение ваших данных, вы можете рассчитать асимметрию ваших данных, используя формулу асимметрии. Вы можете подставить каждое из ваших значений в уравнение, чтобы найти перекос. Формула наклона:

3 * (среднее-медиана) / стандартное отклонение = асимметрия

Чтобы использовать эту формулу, завершите операцию внутри круглых скобок (среднее минус медиана) перед остальной частью формулы. Затем умножьте это значение на три. Возьмите полученное значение и разделите его на стандартное отклонение. Полученное значение представляет собой перекос ваших данных.

3. Проверьте с помощью калькулятора

После вычисления перекоса вы можете проверить свое решение с помощью графического калькулятора, чтобы убедиться, что вы получили правильное значение. Кроме того, если хотите, вы можете полностью отказаться от вычисления перекоса вручную и вместо этого использовать графический калькулятор. Чтобы рассчитать перекос на графическом калькуляторе, вы можете использовать функцию SKEW.

4. Преобразуйте искаженные данные

Если вам нужно, вы также можете преобразовать свои данные из искаженных данных в нормальное распределение. В зависимости от вашего набора данных вы можете преобразовать искаженные данные с помощью таких методов, как:

  • Экспоненциальное преобразование. Экспоненциальное преобразование включает использование показателей степени для преобразования набора данных из асимметричного в нормальное распределение.

  • Трансформация мощности: Преобразование мощности может позволить вам стабилизировать данные, применяя к ним функции. Степенное преобразование полезно для приближения набора данных к нормальному распределению.

  • Преобразование журнала. Преобразование журнала — это популярный способ преобразования наборов данных с положительной асимметрией. Преобразование журнала включает в себя использование естественного журнала каждого из значений набора данных.

Примеры искаженных данных

Вот несколько реальных примеров, которые помогут вам понять положительный и отрицательный перекос:

Пример положительного перекоса

Одним из примеров положительно искаженных данных может быть типичный набор данных о доходах. Если вы нарисуете кривую дохода выборочной совокупности на графике, кривая, скорее всего, будет скошена вправо или скошена в положительную сторону. Это произошло бы, если бы большинство людей имели средние доходы, а меньшее число людей имели бы высокие доходы. Люди с высокими доходами будут выбросами в наборе данных, которые смещают кривую в правую часть графика.

Пример отрицательного перекоса

Примером данных с отрицательной асимметрией могут быть результаты экзаменов группы студентов колледжа, сдавших относительно простой экзамен. Если вы нарисуете кривую группы экзаменационных баллов студентов на графике, кривая, скорее всего, будет скошена влево. В этом случае у большинства студентов будут высокие результаты тестов, а у меньшего числа людей будут низкие оценки, которые смещают кривую влево от графика. Студенты с более низкими баллами будут выбросами в наборе данных, что приведет к отрицательной асимметрии.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *