Полное руководство по пониманию описательной статистики

22 февраля 2021 г.

Статистика — это тип математики, который занимается сбором, организацией и интерпретацией данных. Есть два типа статистики, которые вы можете использовать для чтения, анализа и понимания данных: описательная статистика и статистика вывода. В этой статье мы обсудим все, что вам нужно знать об описательной статистике, включая различные типы и разницу между описательной и логической статистикой.

Что такое описательная статистика?

Описательная статистика — это средство обобщения и описания данных осмысленным и полезным способом. Описательная статистика используется только для представления данных таким образом, чтобы их было легко читать и находить закономерности. При обобщении данных обычно используют одновременно несколько различных видов описательной статистики, чтобы дать полную картину суммируемых данных. Описательная статистика важна, потому что она предоставляет средства для представления больших наборов данных в удобном для понимания виде.

Общие типы описательной статистики

Существует три основных типа описательной статистики:

  • Меры частоты

  • Меры центральной тенденции

  • Меры дисперсии или вариации

Меры частоты

Показатели частоты — это статистические измерения, которые используются для суммирования значений в наборе данных и облегчения их понимания. Вы можете представить показатели частоты в виде таблицы, графика или диаграммы. Основная цель показателей частоты — упростить отображение информации в наборе данных. Меры частоты берут неорганизованный набор данных и группируют все похожие значения данных вместе таким образом, чтобы вы могли анализировать данные с первого взгляда.

Например, если вы хотите отобразить количество учащихся, получивших каждую буквенную оценку на тесте, вы можете использовать таблицу для представления частоты оценок из AF. Класс из 25 учеников набрал следующие баллы: 100, 88, 93, 64, 76, 42, 55, 87, 99, 92, 100, 73, 56, 99, 98, 100, 84, 81, 83, 100, 100, 92, 64, 69 и 70. Таблица частот для этих оценок будет выглядеть так:

Класс Количество учащихся A 11 B 5 C 3 D 3 F 3

Меры центральной тенденции

Показатели центральной тенденции — это статистические измерения, в которых используется одно значение для представления середины набора данных. Основная концепция мер центральной тенденции заключается в том, что существует одно значение, которое может наилучшим образом обобщить весь набор данных. Это значение каким-то образом централизованно связано с общим набором данных. Есть три меры центральной тенденции: среднее, медиана и мода.

Иметь в виду

Среднее значение, также обычно называемое «средним», является наиболее часто используемым типом меры центральной тенденции. Он рассчитывается путем нахождения суммы всех чисел в наборе данных и деления суммы на общее количество чисел. Основное преимущество среднего значения заключается в том, что оно учитывает все числа в наборе данных. Однако важно знать, что среднее значение очень чувствительно к выбросам.

Например, вы можете использовать среднее значение, чтобы сравнить свою зарплату с зарплатой других специалистов, занимающих ту же должность, что и вы. Вы собираете информацию о зарплате от девяти специалистов, занимающих ту же должность, что и вы. Итоговые зарплаты: 38 тысяч долларов, 41 тысяч долларов, 45 тысяч долларов, 43 тысяч долларов, 47 тысяч долларов, 50 тысяч долларов, 55 тысяч долларов, 15 тысяч долларов и 75 тысяч долларов. Ваша зарплата 52 тысячи долларов. Вы начинаете с нахождения суммы всех зарплат (38 + 41 + 45 + 43 + 47 + 50 + 55 + 15 + 75 + 52 = 461). Затем вы делите сумму значений на общее количество значений в наборе (461/10 = 46,1). Средняя зарплата для вашей должности составляет 46,1 тысячи долларов.

медиана

Медиана — это значение, которое находится в середине набора данных. Основным преимуществом медианы является то, что она менее чувствительна к выбросам, чем среднее значение. Он рассчитывается путем организации всех чисел в наборе данных в порядке от наименьшего к наибольшему, а затем нахождения числа, которое попадает в середину набора. Если в вашем наборе данных нечетное количество значений, вы просто найдете единственное число, которое попадает в середину набора. Однако, если ваш набор данных имеет четное количество значений, вам нужно будет найти два значения, которые находятся посередине, а затем найти среднее значение этих двух значений, чтобы вычислить медиану.

Используя тот же пример, что и для среднего значения, вы решаете также найти медиану. Вы начинаете с организации значений в своем наборе данных от наименьшего к большему: 15 тысяч долларов, 38 тысяч долларов, 41 тысяч долларов, 43 тысяч долларов, 45 тысяч долларов, 47 тысяч долларов, 50 тысяч долларов, 52 тысяч долларов, 55 тысяч долларов и 75 тысяч долларов. Затем вы найдете два числа в середине набора данных: 45 тысяч долларов и 47 тысяч долларов. Наконец, вы найдете среднее значение двух чисел в середине набора данных (45 + 47 = 92; 92/2 = 46). Средняя зарплата для вашей должности составляет 46 тысяч долларов.

Режим

Мода — это значение в наборе данных, которое имеет наибольшую частоту появления. Он рассчитывается путем группировки всех совпадающих значений вместе, а затем поиска группы, в которой содержится наибольшее количество значений. Основное преимущество режима заключается в том, что он позволяет сравнивать как числовые, так и номинальные значения, тогда как среднее и медиана могут сравнивать только числовые значения. Номинальные значения — это данные, которые не представлены числом, например цвета и формы. Однако важно знать, что набор данных может не иметь режима, если никакие два значения в наборе данных не совпадают.

Например, набор окладов, использованный в примерах для среднего и медианы, не имеет режима, поскольку все оклады имеют разные значения. Однако, если бы ваша зарплата составляла 50 000 долларов вместо 52 000, тогда 50 000 долларов были бы модой, потому что это значение зарплаты чаще всего встречается в наборе.

Меры дисперсии или вариации

Меры дисперсии или вариации, также обычно называемые мерами разброса, представляют собой статистические измерения, используемые для представления изменчивости в наборе данных. Существуют три меры дисперсии или вариации: диапазон, дисперсия и стандартное отклонение.

Диапазон

Диапазон — это измерение описательной статистики, представляющее собой разницу между самым высоким и самым низким значением в наборе данных. Диапазон вычисляется простым вычитанием наименьшего значения в наборе данных из наибольшего значения в том же наборе данных. Например, диапазон зарплат, используемых в примерах для среднего и медианного значений, составляет 60 тысяч долларов (75 – 15 = 60).

Стандартное отклонение

Стандартное отклонение — это статистическое измерение величины дисперсии или дисперсии между средним значением набора данных и каждым отдельным значением в наборе данных. Низкое стандартное отклонение указывает на то, что значения в наборе данных, как правило, близки к среднему значению набора данных, в то время как более высокое стандартное отклонение указывает на то, что значения в наборе данных варьируются в более широком диапазоне.

Дисперсия

Дисперсия — это статистическое измерение среднего расстояния между каждым значением и средним значением. Дисперсия рассчитывается путем нахождения квадрата стандартного отклонения. Формула дисперсии:

Дисперсия = (стандартное отклонение) в квадрате

Описательная статистика против логической статистики

Основное различие между описательной статистикой и статистикой вывода заключается в том, что они позволяют вам делать с данными. В то время как описательная статистика позволяет вам только обобщать и представлять информацию таким образом, чтобы помочь вам найти закономерности среди данных, статистика логического вывода позволяет вам дополнительно анализировать данные, используя их для прогнозов и выводов. Выводная статистика позволяет вам использовать информацию, которая суммируется описательной статистикой, чтобы делать обобщения об интересующей вас совокупности на основе выборки данных из этой совокупности. Описательная статистика опирается на количественный анализ, тогда как статистика логического вывода опирается на теорию вероятностей.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *