Что такое многомерный анализ в науке о данных? (Плюс методы)
12 августа 2021 г.
Анализ наборов данных часто требует различных подходов в зависимости от анализируемых данных и количества изучаемых переменных. Точные результаты обычно зависят от метода анализа и понимания исследователем того, как переменные работают вместе в наборах данных. Понимание того, что такое многомерный анализ в науке о данных, может помочь вам планировать наборы данных с более чем одной переменной, чтобы вы могли получать более точные результаты анализа. В этой статье мы исследуем многомерный анализ, объясним его важность и обсудим несколько методов проведения собственного эффективного анализа.
Что такое многомерный анализ в науке о данных?
Многофакторный анализ — это изучение нескольких переменных в наборе данных. Переменные — это факторы, которые вы сравниваете с контрольным или неизменным компонентом эксперимента. Переменные помогают вам сравнить ваши результаты с контролем эксперимента, чтобы определить любые изменения, которые могут произойти, или тенденции, которые могут развиться. Многофакторный анализ направлен на выявление закономерностей между несколькими переменными. Например, если вы хотите измерить корреляцию между количеством времени, проведенным в социальных сетях, и производительностью сотрудника, вы можете использовать многофакторный анализ. Производительность каждого сотрудника и время, проведенное в социальных сетях, являются переменными в анализе.
Как правило, многофакторный анализ направлен на достижение следующих целей:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Сокращение данных. Многомерный анализ помогает исследователям сжимать большие наборы данных в более удобочитаемые форматы.
Упрощение структуры. Многомерный анализ помогает упростить структуру сложных наборов данных для облегчения чтения и использования.
Сортировка или группировка тенденций и данных. Исследователи используют многомерный анализ для сортировки групп или тенденций данных вместе, чтобы упростить использование данных по назначению.
Выявление зависимостей между переменными. Исследователи используют многомерные данные для выявления индивидуальных зависимостей между наборами данных, чтобы лучше понять отношения между данными.
Прогнозирование взаимосвязей между переменными. Многомерный анализ помогает прогнозировать будущие взаимосвязи между наборами данных и появление дополнительных данных при изменении переменных.
Построение и проверка гипотез. Многомерный анализ позволяет исследователям строить и проверять гипотезы о взаимосвязях между наборами данных, тенденциями данных и потенциальными данными для дальнейшего исследования.
Почему важен многомерный анализ?
Многофакторный анализ важен, потому что часто необходимо найти отношения между каждой переменной в наборе данных, но это может быть сложным процессом. Сложность возникает, когда в наборах данных есть переменные, которые предоставляют разные части информации, такие как скорость, вес и направление движения транспортного средства. Хотя эти факторы сами по себе могут дать вам отдельные сведения об автомобиле, выполнение многофакторного анализа поможет вам определить, как каждая переменная связана с автомобилем.
Понимание этих переменных может помочь вам улучшить методы, бизнес-операции или общественную практику. Например, если многофакторный анализ выявляет корреляцию между производительностью сотрудников и использованием социальных сетей, компания может ограничить время, проводимое в социальных сетях на рабочих компьютерах, и повысить производительность сотрудников.
Основные части многомерного анализа
Существуют две основные части многомерного анализа:
Вариант
Переменная является ключевой частью многомерного анализа, поскольку она представляет собой взвешенную сумму каждой переменной в анализе, выраженную в следующей формуле:
Переменная = X1*W1 + X2*W2 + X3*W3 + … + Xn*Wn
Каждый X в формуле — это наблюдаемая переменная, а каждый W в формуле — это вес соответствующей переменной.
Весы измерения
Измерение масштаба каждой переменной в многомерном анализе требует различных методов, в зависимости от того, как вы измеряете, и фактического масштаба самой переменной. Исследователи данных обычно делят информацию на две категории:
Неметрический
Неметрический относится к качественной информации, которая включает в себя наблюдаемые, ощутимые факторы в рамках теста. Существует два типа неметрических измерительных шкал:
Номинальные шкалы: Номинальные шкалы присваивают номера или символы объектам, чтобы идентифицировать их в уравнениях и анализе. Например, если вы измеряете рост и вес, вы можете присвоить каждому из них единицу, ноль или H и W, чтобы разделить их.
Порядковые шкалы: Порядковые шкалы ранжируют переменные по количеству, чтобы создать восходящий или нисходящий шаблон. Вы можете измерить эти переменные только с символами больше, меньше или равно.
Метрика
Метрическая или количественная информация включает в себя измеримые и окончательные математические решения. Вот два вида метрических шкал:
Интервальные шкалы. Интервальные шкалы помогают специалистам по данным измерять данные с точки зрения величины, а не логических операций. Например, если вы измеряете скорость выветривания на трех разных поверхностях, вы можете измерить скорость на каждой поверхности и разницу между каждым или любым набором из двух, которые будут составлять интервалы.
Шкалы отношений: Шкалы отношений имеют абсолютное нулевое значение, или вы можете измерить их как числовой нуль. Каждая точка имеет равный интервал между другими точками. Например, если вы измеряете скорость в милях или километрах в час, между каждой милей, которую вы проезжаете в час, будет равный интервал.
Какие методы можно использовать для проведения многомерного анализа?
Существует множество методов проведения многомерного анализа наборов данных, в том числе:
Множественный регрессионный анализ
Множественный регрессионный анализ исследует или объясняет взаимосвязь между несколькими независимыми переменными и одной зависимой переменной или контролем. Множественный регрессионный анализ требует двух или более независимых переменных. Вы можете выразить множественный регрессионный анализ в этой формуле:
у = b1x1 + b2x2 + … + bnxn
В этой формуле «y» — это значение множественной регрессии, а экземпляры нижних индексов «b» представляют коэффициенты регрессии или значение изменения зависимой переменной по мере изменения независимых переменных.
Дискриминантный анализ
Дискриминационный анализ использует одну или несколько переменных количественных предикторов для классификации наблюдений в группах данных, которые не перекрываются. Например, если учитель хочет определить, кто из его учеников может сдать предстоящие экзамены, он может учитывать личные факторы, такие как учебные привычки, текущие оценки по предмету и экзаменационные навыки. Эти группы информации обычно могут не пересекаться, но они способствуют желаемому прогнозу, а именно тому, сколько студентов могут сдать экзамен. Для дискриминантного анализа обычно требуется как минимум две группы, но вы можете использовать его и для большего количества групп.
Многомерный дисперсионный анализ
Многомерный дисперсионный анализ, или MANOVA, представляет собой метод многомерного анализа, который измеряет влияние нескольких независимых переменных на несколько зависимых переменных. Например, вы можете использовать MANOVA для измерения уровня стресса сотрудников, работающих по 6, 8 и 10 часов в смену. Вашими независимыми переменными будут уровни стресса, которые испытывает каждый сотрудник, которые вы можете классифицировать как не напряженные, умеренно напряженные и сильно напряженные. Вашими зависимыми переменными могут быть продолжительность вашей смены, обозначенная соответствующими номерами.
Каноническая корреляция
Канонический корреляционный анализ, или CCA, представляет собой метод измерения взаимосвязи между двумя наборами отдельных переменных. Использование канонического корреляционного анализа помогает специалистам по данным определить, сколько измерений или канонических переменных им нужно, чтобы найти связь между переменными. Например, если исследователь собирает несколько наборов данных о возрасте, поле и весе пациентов, он может использовать канонический корреляционный анализ, чтобы определить связь, если таковая имеется, между этими переменными.