Что такое мультиколлинеарность? (Определение и пример)
Множественный регрессионный анализ в статистике опирается на независимые и зависимые переменные. В модели регрессии цель состоит в том, чтобы понять взаимосвязь между отдельными независимыми переменными и зависимой переменной, гарантируя отсутствие корреляций. Когда возникают корреляции там, где их быть не может, могут возникать множественные коллинеарности. В этой статье мы обсудим, что такое мультиколлинеарность, чем она вызвана, почему она может быть проблемой и как множественные коллинеарности влияют на результаты регрессионного анализа.
Что такое мультиколлинеарность в статистике?
В статистике множественный регрессионный анализ измеряет взаимосвязь между независимыми переменными и зависимой переменной, предполагая, что между независимыми переменными не существует корреляций. Если во время регрессионного анализа появляется корреляционная связь, это приводит к множественным коллинеарностям. Это становится проблемой при анализе данных, поскольку в линейной регрессии не может быть корреляции между независимыми переменными. Кроме того, вы можете наблюдать множественные коллинеарности в разной степени, включая отсутствие уровней, умеренные уровни и высокие уровни корреляции.
Что вызывает мультиколлинеарность?
Мультиколлинеарность может возникать из-за множества факторов. Обычно случаи этого эффекта возникают при ошибках в экспериментах, методах сбора данных и при установке переменных-предикторов для выборки данных. Например, множественные коллинеарности могут возникать при использовании данных наблюдений, которые уже демонстрируют сильную корреляцию. В других случаях ошибки, связанные с исследованиями, могут вызвать множественные коллинеарности, например, когда вы создаете альтернативные значения предикторов для регрессионного анализа. Рассмотрим еще несколько причин множественных коллинеарностей:
Неполные или отсутствующие данные. Недостаток данных может иногда вызывать множественные коллинеарности. Как правило, сбор дополнительных данных решает эту проблему, поскольку полные данные обеспечивают более точный анализ.
Недопустимое применение индикаторных переменных: Индикаторные переменные — это искусственные значения, которые вы присваиваете при работе с категориальными данными. Множественные коллинеарности могут возникать из-за применения слишком большого или недостаточного количества индикаторов.
Объединение двух переменных в регрессии: использование переменной, которая на самом деле является комбинацией двух различных переменных, также может вызвать множественные коллинеарности. Например, анализ общих активов как одной переменной, а не отдельных переменных, может привести к мультиколлинеарности.
Использование одинаковых переменных: идентичные переменные также могут привести к множеству коллинеарностей. Например, использование переменной для одного и того же денежного значения в разных валютах представляет две одинаковые суммы.
Почему мультиколлинеарность является проблемой?
Одна из самых больших проблем с мультиколлинеарностью в регрессионном анализе и статистике заключается в том, что она показывает корреляционные отношения, когда независимые переменные не должны иметь корреляции. Это может привести к изменению коэффициента корреляции в зависимости от независимых переменных, присутствующих в регрессионной модели. Эти изменения в коэффициентах могут привести к неточности статистической значимости регрессионной модели и затруднить идентификацию этих значений в наборах выборок.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Другая проблема, связанная с множественными коллинеарностями, заключается в большем диапазоне между дисперсией и ковариацией, что усложняет определение статистического результата для альтернативных и нулевых гипотез. Доверительный интервал также может увеличиваться в диапазоне, а множественные коллинеарности также могут вызывать увеличение стандартной ошибки. Когда эти значения увеличиваются, это может указывать на более высокие уровни корреляции, что делает регрессионную модель недействительной.
Что такое коэффициент инфляции дисперсии?
Коэффициент инфляции дисперсии (VIF) измеряет рост инфляции в стандартной ошибке коэффициента регрессии. Это измерение может сказать вам, присутствуют ли в ваших данных множественные коллинеарности. Оценивая, отображает ли регрессионная модель множественные коллинеарности, аналитики используют формулу, которая дает им представление о VIF. Таким образом, чем меньше значение VIF, тем ниже степень коллинеарности данных.
Мультиколлинеарность в множественном регрессионном анализе
В регрессионном анализе вы измеряете среднюю скорость изменения между зависимой переменной и одной независимой переменной при условии, что все остальные независимые переменные в вашем наборе данных остаются постоянными. Если константы изменяются, могут возникать множественные коллинеарности, что приводит к коэффициенту корреляции между отрицательным и положительным. Если коэффициент имеет значение ровно положительное или отрицательное, имеет место совершенная мультиколлинеарность. Когда коэффициент близок к положительному или отрицательному, это не идеальная мультиколлинеарность. Существует два конкретных типа множественных коллинеарностей, которые могут возникнуть в регрессионном анализе:
1. Связанные с данными
Множественные коллинеарности, связанные с данными, возникают в необработанных данных, которые вы собираете при проведении исследований. Как правило, эти типы множественных коллинеарностей возникают из-за ошибок в данных наблюдений, а не из-за ошибок исследователей. Множественные коллинеарности, связанные с данными, также могут возникать, когда аналитики используют методы исследования, которые они не могут воспроизвести в других исследованиях.
2. Структурный
Структурированная мультиколлинеарность возникает, когда регрессионная модель демонстрирует изменения в переменных-предикторах. При создании конкретной модели выборки данных манипулирование одним значением предиктора для получения нового значения может привести к корреляции. Например, если вы умножаете переменную Y на два, чтобы представить изменение размера комнатного растения, это создает несколько коллинеарностей, поскольку вы изменяете исходную структуру переменных.
Пример мультиколлинеарности
В этом примере предположим, что финансовый аналитик выполняет множественный регрессионный анализ для набора данных, который представляет выборку средних доходов клиентов. Аналитик может установить переменные-индикаторы для данных, которые он собирает из бизнес-аналитики, и рассчитать коэффициент увеличения дисперсии, который показывает увеличение дисперсии между переменными. Поскольку более высокий VIF указывает на то, что в данных присутствует несколько коллинеарностей, финансовый аналитик разрешает множественные коллинеарности, удаляя начальную предикторную переменную, чтобы устранить систематическую ошибку выбора в модели.
Если мультиколлинеарность высока, аналитик может преобразовать соответствующие переменные, ввести дополнительные данные и удалить множественные коллинеарности из модели. Если корреляция все еще присутствует в данных аналитика, он может применить среднюю оценку коллинеарности и удалить ее. Затем это приводит к более точному представлению финансовых показателей клиентов, обеспечивая понимание доходов от инвестиций, будущих доходов и процентных выплат.