Как анализировать данные с помощью формулы нормализации

xnormalized = (x – xминимум) / диапазон x

Формула нормализации — это один из способов обработки данных для получения легко сопоставимых результатов в наборе данных и в нескольких разных наборах данных. Это может быть полезно для всех, кто интерпретирует данные, но те, кто работает с большими объемами данных и машинным обучением, могут использовать его чаще всего. Вы можете узнать о формуле нормализации, чтобы понять, является ли это правильным подходом к обработке вашего набора данных.

В этой статье мы обсудим, что такое формула нормализации, как ее использовать, варианты получения результатов в заданном диапазоне и различия между формулой нормализации и другими процессами статистической нормализации.

Что такое формула нормализации?

Формула нормализации — это формула статистики, которая может преобразовать набор данных так, чтобы все его вариации находились в диапазоне от нуля до единицы. Это может быть полезно при сравнении двух или более наборов данных с разными масштабами. Применение формулы нормализации позволяет вам выражать точки данных как значения от нуля до единицы, при этом наименьшая точка данных имеет нормализованное значение, равное нулю, а самая большая точка данных имеет нормализованное значение, равное единице. Все остальные точки данных имеют десятичные значения между этими двумя, пропорционально тому, где эта точка данных находится в диапазоне набора данных.

Пример: если набор данных имеет значения 2, 4 и 6, нормализованное значение первой точки данных будет равно нулю, нормализованное значение последней точки данных будет равно единице, а нормализованное значение средней точки данных будет равно 0,5. так как это на полпути между ними.

Для чего используется формула нормализации?

Нормализация полезна в статистике для создания общей шкалы для сравнения наборов данных с очень разными значениями. Эта формула нормализации, также называемая масштабированием по диапазону или масштабированием признаков, чаще всего используется для наборов данных, когда известны верхний и нижний пределы и когда данные относительно равномерно распределены по этому диапазону.

Профессионально аналитики данных могут использовать метод нормализации для сбора или обработки данных. Это также может быть полезно для прогнозного моделирования и прогнозирования. Некоторые учителя и экзаменационные компании используют нормализацию для оценки экзаменов, когда вопросы разной сложности, поскольку процесс нормализации может более равномерно распределять баллы по диапазону и компенсировать экзамены, которые могут содержать более сложные вопросы.

Как использовать формулу нормализации

Вот шаги, чтобы использовать формулу нормализации в наборе данных:

1. Рассчитайте диапазон набора данных

Чтобы найти диапазон набора данных, найдите максимальное и минимальное значения в наборе данных, затем вычтите минимальное из максимального. Упорядочивание набора данных в порядке от наименьшего к наибольшему может помочь вам легко найти эти значения. Вот формула:

Диапазон значений x = xмаксимум – xминимум

Пример. Ученый использует формулу нормализации для анализа набора данных. Они провели свой эксперимент четыре раза, и их результаты были 12, 26, 28 и 32. Самая большая точка данных в наборе — 32, а самая маленькая — 12.

Диапазон значений x = 32 – 12 = 20

2. Вычтите минимальное значение x из значения этой точки данных.

Затем возьмите значение x точки данных, которую вы анализируете, и вычтите из него минимальное значение x. Вы можете начать с любой точки данных в вашем наборе.

Пример: первая точка данных ученого равна 25, поэтому ученый вычитает из нее минимальное значение x:

х – х минимум = 25 – 12 = 13

3. Подставляем эти значения в формулу и делим

Последним шагом применения этой формулы к отдельной точке данных является деление разницы между конкретной точкой данных и минимумом на диапазон. В данном процессе это означало бы взять результат второго шага и разделить его на результат первого шага.

Пример: Для этой точки данных ученый заполняет полное уравнение:

xnormalized = (x – xминимум) / диапазон x = 13/20 = 0,65

Этот результат находится между нулем и единицей, поэтому они правильно применили формулу нормализации.

4. Повторите с дополнительными точками данных

Поскольку формула нормализации полезна для анализа и сравнения полных наборов данных, важно применять ее к каждой точке данных, чтобы можно было сравнить весь набор. Вы можете автоматизировать это с помощью программы для работы с электронными таблицами, чтобы сэкономить время.

Пример: ученый завершает свой анализ, используя формулу нормализации для оставшихся трех точек данных, 12, 28 и 32. Их результаты равны 0, 0,8 и 1.

Формула нормализации для пользовательских диапазонов

Хотя эта формула нормализации приводит все результаты в диапазон от нуля до единицы, существует вариант формулы нормализации, который можно использовать, если вы пытаетесь поместить все данные в настраиваемый диапазон, где наименьшее значение равно a, а наибольшее значение — b. :

xnormalized = a + (((x – xminimum) * (b – a)) / диапазон x)

Эта формула может быть лучше, если вы нормализуете значения для конкретного использования, например, для оценки экзаменов или сравнения данных по шкале от 1 до 10.

Подобные методы анализа в статистике

Другие методы нормализации в статистике могут помочь аналитикам данных и ученым модифицировать свои данные для других целей. Вот некоторые другие распространенные методы нормализации:

Z-оценка

Нормализация Z-оценки полезна в настройках машинного обучения, поскольку она может сказать вам, насколько далеко точка данных от среднего значения всего набора данных. Это может быть наиболее подходящим, когда есть только несколько выбросов, поскольку он обеспечивает простой способ сравнить точку данных с нормой. Вы можете рассчитать z-оценку при сравнении наборов данных, которые могут оказаться похожими по каким-либо генетическим или экспериментальным причинам, таким как физические характеристики животного или результаты в течение определенного периода времени.

Вырезка объектов

Отсечение объектов — это процесс удаления точек данных за пределами определенного минимума или максимума. Это полезно для удаления экстремальных выбросов из набора данных. Например, ученый, изучающий объекты, вращающиеся вокруг определенной планеты, может удалить все объекты, вращающиеся за пределами определенного расстояния, чтобы быть уверенным, что объекты, на которые он смотрит, вращаются вокруг конкретной планеты, а не просто летают поблизости.

Масштабирование журнала

Логарифмическое масштабирование — это метод, использующий логарифмы для сжатия широкого диапазона до меньшего диапазона. Это означает, что расстояния между данными до и после процесса масштабирования могут быть непропорциональны. Он лучше всего подходит для измерения многих природных явлений, таких как магнитуда землетрясений, яркость звезд и кислотность.

Чем нормализация отличается от стандартизации?

Нормализация обычно относится к процессам, которые достигают масштабов от нуля до единицы, в то время как стандартизация использует принцип, называемый стандартным отклонением, для описания распределения точек данных. Вычисление z-показателя — это процесс стандартизации, поскольку результаты могут выходить за пределы диапазона от нуля до единицы. Нормализация помещает точки данных в диапазон пропорционально минимуму и максимуму диапазона, в то время как стандартизация связывает точки данных со средним или средним значением всех точек данных.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *