Анализ основных компонентов: руководство с шагами и примером

8 июля 2021 г.

Компании и организации могут использовать метод уменьшения размерности, такой как анализ основных компонентов, чтобы сжать большой набор данных в более управляемый и простой в использовании. Этот процесс может служить различным целям в технологической и программной отраслях, включая использование программного обеспечения для распознавания лиц и сжатия изображений. Изучение того, что такое анализ основных компонентов, может помочь вам лучше понять, как его используют профессионалы и как проводить его самостоятельно. В этой статье мы даем определение анализу основных компонентов, перечисляем шаги для его выполнения и приводим пример, который поможет вам в его проведении.

Что такое анализ главных компонентов?

Анализ главных компонентов (PCA) — это математический метод, используемый для уменьшения большого набора данных до меньшего при сохранении большей части информации о его вариациях. Хотя это сокращение может сделать набор данных менее точным, оно также может сделать его более управляемым и простым в использовании. Меньшие наборы данных без лишних переменных могут упростить как людям, так и машинам просмотр и анализ данных. Этот метод подчеркивает изменчивость в наборе данных и помогает выявить закономерности.

Специалисты по данным могут работать с набором данных с большим количеством переменных, а это означает, что между переменными также существует множество взаимосвязей. Если ученый хочет свести к минимуму количество взаимосвязей переменных для идентификации, управления и контроля, он может рассмотреть возможность внедрения АПК. Уменьшая размеры их пространства признаков с помощью PCA, нужно учитывать меньше взаимосвязей.

Как провести анализ основных компонентов

Вот несколько шагов для проведения анализа основных компонентов:

1. Стандартизируйте данные

Первым шагом анализа основных компонентов является стандартизация данных, преобразование исходных значений набора данных в сравнительные шкалы. Этот процесс гарантирует, что каждое значение имеет равную роль в анализе и что различные диапазоны между вашими исходными переменными не искажают ваши результаты. Чтобы стандартизировать ваши данные, вычтите среднее значение и разделите на стандартное отклонение для каждого значения каждой переменной. Вот уравнение:

Z = (значение – среднее) / стандартное отклонение

2. Вычислите ковариационную матрицу

Вычислив ковариационную матрицу, вы можете определить, есть ли какая-либо связь между переменными вашего набора данных. Это может позволить вам определить, содержат ли сильно коррелированные переменные, т. е. переменные, связанные с другими, избыточную информацию, которую вы можете удалить. Ковариационная матрица — это таблица, в которой отображаются корреляции между всеми возможными парами переменных в вашем наборе данных.

Это симметричная матрица, включающая все возможные пары исходных переменных. Если ваша ковариация положительна, это означает, что переменные увеличиваются и уменьшаются вместе, что означает корреляцию между ними. Если верно и обратное, это означает, что если ковариация отрицательна, между двумя переменными нет корреляции. Например, ковариационная матрица с переменными a и b может включать:

Cov(a,b)Cov(b,a)Cov(a,a)Cov(b,b)

3. Рассчитайте собственные векторы и собственные значения, чтобы определить главные компоненты.

Собственные векторы и собственные значения — это понятия из линейной алгебры, которые можно использовать для определения главных компонентов из матрицы ковариаций. Главные компоненты — это новые переменные, являющиеся комбинациями исходных переменных. Они являются результатом сжатия исходных переменных в новые, некоррелированные переменные, что позволяет избавиться от корреляций в вашем наборе данных.

Основные компоненты представляют данные, отображающие максимальное количество отклонений, и их использование в качестве репрезентативных иллюстрирует, как PCA может позволить вам включить максимальное количество информации в каждый компонент и уменьшить размеры ваших данных. Вы можете определить свои основные компоненты, вычислив собственные векторы (????) и перечислив их в порядке убывания в соответствии с их собственными значениями. Это показывает вам основные компоненты в порядке значимости. Например:

У вас есть двумерный набор данных с переменными a и b, а собственные векторы и собственные значения ковариационной матрицы:

*v1 =*

0,6780,735????1 = 1,284

v2 =

-0,7350,678????2 = 0,049

Затем вы можете расположить собственные значения (1,284 и 0,049) в порядке убывания и заметить, что ????1 > ????2. Это означает, что v1 — собственный вектор, соответствующий первой главной компоненте, а v2 — второй главной компоненте. Затем вы можете вычислить процент дисперсии для каждого компонента, разделив собственное значение каждого компонента на сумму его собственных значений.

4. Создайте вектор признаков

Когда у вас есть список основных компонентов, вы можете решить, хотите ли вы сохранить их все или отбросить те, у которых собственные значения меньше и, следовательно, они менее значимы. Остальные компоненты, которые вы решите использовать, могут составить вектор признаков. Это означает, что в векторе признаков перечислены собственные значения компонентов, которые вы решили сохранить, что позволяет уменьшить размерность, если это ваша цель. Если вы не надеетесь уменьшить размерность ваших данных, вектор признаков все равно может быть полезен для перечисления ваших данных в соответствии с новыми переменными, вашими основными компонентами.

Обратитесь к предыдущим числам в качестве примера и предположим, что вы решили отбросить собственный вектор v2, потому что он имеет меньшее значение, чем v1. Это означает, что вы можете сформировать вектор признаков, используя только переменные из v1. Ваш вектор признаков будет выглядеть так:

0,6780,735

5. Реконструируйте данные

Этот последний шаг включает в себя получение информации, которую вы вычислили из собственных векторов вашей ковариационной матрицы, и переориентацию ваших данных, чтобы они включали только выбранные вами основные компоненты. Во время этого процесса вы не изменили исходную информацию, и набор входных данных остался прежним. Теперь вы можете просто применить свои новые переменные к исходным осям исходного набора данных, реконструируя ваши данные в соответствии с новым диапазоном дисперсии.

Формула для ремоделирования данных:

Окончательный набор данных = (вектор признаков) tx (стандартизированный исходный набор данных) t

Пример анализа главных компонентов

Исследователь данных изучает корреляцию между ростом и весом среди студентов Северо-Южного университета. Два ее измерения, рост и вес, являются осями графика, на котором она наносит точки данных для индивидуального представления учеников. Однако ей требуется меньшая размерность для ее набора данных. Чтобы свести к минимуму вариации, она использует PCA для создания новой системы координат, в которой каждый компонент имеет новое значение (x,y).

После стандартизации своих данных и создания ковариационных матриц она вычисляет два основных компонента, v1 и v2. Она находит, что v1 дает значение 0,429, а v2 дает значение 0,251. Это означает, что после перечисления их в порядке убывания v1 ≥ v2. Чтобы свести к минимуму дисперсию, она собирается отказаться от одного из основных компонентов. Она решает отказаться от версии 2, так как она меньше, чем версия 1. Оси теперь являются двумя основными компонентами роста (pc1) и веса (pc2), которые позволяют ей отображать новые точки данных на втором графике и реконструировать данные.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *