Линейная регрессия: подробное руководство

1 июля 2021 г.

В статистике линейная регрессия — это способ исследовать взаимосвязь между двумя переменными. Если ваша работа связана с использованием статистики в повседневных операциях, изучение линейной регрессии, вероятно, окажет положительное влияние на ваши профессиональные результаты. Знание того, что такое линейная регрессия и для чего ее можно использовать, может быть хорошим шагом в карьере, но для этого требуются исследования и практика. В этой статье мы обсудим, что такое линейная регрессия, ее основные приложения, уравнение линейной регрессии, выбросы в линейной регрессии и приведем пример линейной регрессии.

Что такое линейная регрессия?

Линейная регрессия — это метод нахождения линейной зависимости между переменными. Он обычно используется при попытке определить значение одной переменной на основе значения другой. Известная переменная называется независимой или объясняющей переменной, а переменная, которую вы хотите предсказать, называется зависимой или переменной отклика.

Существует два основных типа линейной регрессии:

  • Простая линейная регрессия: использует одну независимую переменную, чтобы попытаться предсказать результат зависимой переменной.

  • Множественная линейная регрессия: использует две или более независимые переменные, чтобы попытаться предсказать результат зависимой переменной.

При выполнении простой линейной регрессии вы делаете определенные предположения об имеющихся данных. Они есть:

  • Однородность дисперсии: прогнозируемый размер ошибки существенно не отличается для всех значений независимой переменной.

  • Независимость наблюдения: все наблюдения в наборе данных были собраны с помощью статистически достоверных методов выборки без каких-либо скрытых взаимосвязей между ними.

  • Нормальность: есть нормальное распределение данных

  • Линейная связь между переменными: линейная регрессия предполагает наличие линейной связи между независимыми и зависимыми переменными, что означает, что линия, проходящая через точки данных, прямая.

Приложения для линейной регрессии

Линейная регрессия используется во многих областях и имеет множество практических применений. Он в основном используется двумя способами:

  • Если целью его использования является прогнозирование эволюции переменной или снижение допустимой погрешности, он обычно используется для сравнения прогностической модели с наблюдаемым набором данных, содержащим значения отклика и независимые переменные. Если после создания модели определяются какие-либо дополнительные значения объясняющей переменной без соответствующих значений отклика, для прогнозирования обычно используется прогностическая модель.

  • Если цель использования линейной регрессии состоит в том, чтобы показать изменение переменной отклика, которое может быть вызвано изменением объясняющих переменных, ее можно проанализировать, чтобы определить силу взаимосвязи между независимыми переменными и переменными отклика. Он часто используется таким образом, чтобы определить, не имеют ли некоторые объясняющие переменные и переменные отклика линейную связь друг с другом.

Поля, в которых чаще всего используется линейная регрессия:

  • Статистика: исходит из статистики и используется в статистическом моделировании для демонстрации взаимосвязей между зависимыми и независимыми переменными из различных наборов данных.

  • Машинное обучение: эта относительно новая область также использует линейную регрессию, в основном для прогнозного моделирования, с конечной целью максимально ограничить погрешность модели.

  • Финансы: специалисты по финансам анализируют линейную зависимость между ценами на товары и ценами на акции компаний, которые торгуют соответствующими товарами.

  • Продажи: специалисты по продажам анализируют взаимосвязь между различными переменными, пытаясь предсказать будущие продажи.

Уравнение линейной регрессии

Уравнение простой линейной регрессии:

Y = а + bX + и

Уравнение множественной линейной регрессии:

Y = a + b1 x 1 + b2 x 2 + b3 x 3 + … + b + u

Где:

Y = зависимая (или ответная) переменная

X = независимая (или объясняющая) переменная

b = наклон (или крутизна линии графика)

a = точка пересечения (или где линия пересекает ось)

u = остаток регрессии (или расстояние по вертикали между точкой данных и линией регрессии)

Что такое метод регрессии наименьших квадратов?

Метод регрессии наименьших квадратов — это тип регрессионного анализа, целью которого является определение линии наилучшего соответствия набору данных, которая относится к линии, проходящей через точечную диаграмму точек данных, которая лучше всего показывает взаимосвязь между соответствующими точками. Обычно он используется в линейном регрессионном анализе для определения геометрического уравнения для соответствующей линии. Простой регрессионный анализ дает прямую линию, тогда как регрессия с несколькими переменными может давать кривую.

Выбросы в линейной регрессии

Статистические выбросы — это точки данных, которые значительно отличаются от других наблюдений. Они могут быть вызваны аномальной изменчивостью в наборе данных, но также могут указывать на то, что где-то в расчетах произошла ошибка. Они могут существенно повлиять на результаты, поэтому правильное определение их происхождения имеет решающее значение для точности регрессии.

Два основных способа обнаружения выбросов при разработке моделей линейной регрессии:

  • Расстояние Махаланобиса: включает измерение расстояния между выбранной точкой (P) и распределением (D). Он предназначен для измерения расстояния между P и средним значением D, рассчитанным в виде числа стандартных отклонений.

  • Кредитное плечо: часто используемое в регрессионном анализе, кредитное плечо — это способ измерения расстояния между значениями независимой переменной наблюдения и другими наблюдениями.

Связанный**: [What Does Regression Analysis Tell You?**]( career-advice/career-development/what-does-regression-analysis-tell-you)

Пример линейной регрессии

Рассмотрим этот пример простой линейной регрессии:

Вы можете использовать линейную регрессию, чтобы определить взаимосвязь между возрастом определенного автомобиля и его прогнозируемой продажной ценой. Как правило, цена автомобиля постепенно снижается по мере его старения, что означает наличие отрицательной зависимости между ценой автомобиля (Y) и его возрастом (X). Анализируя взаимосвязь между возрастом автомобиля и его ценой в предыдущие годы, мы можем создать модель и предсказать, как изменится цена в ближайшие годы.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *