Руководство по многомерной логистической регрессии
Часто в бизнесе важно уметь предсказывать, какие действия могут привести к наиболее благоприятным результатам. Многомерная логистическая регрессия — это тип анализа, который помогает прогнозировать результаты при работе с несколькими переменными. Это также ценный расчет в программах машинного обучения. В этой статье мы объясним, что такое многомерная логистическая регрессия и как создавать и оценивать модели для нее в Python.
Что такое многомерный логистический регрессионный анализ?
Многомерный логистический регрессионный анализ — это формула, используемая для прогнозирования отношений между зависимыми и независимыми переменными. Он вычисляет вероятность того, что что-то произойдет в зависимости от нескольких наборов переменных. Это общий алгоритм классификации, используемый в науке о данных и машинном обучении.
Логистическая и линейная регрессия
Существуют две основные формы регрессионного анализа. Линейная регрессия имеет непрерывный набор результатов, которые можно легко отобразить на графике в виде прямой линии. Например, если вы хотите определить вероятность того, что количество прочитанных книг влияет на то, сколько денег они зарабатывают, лучше всего использовать уравнение линейной регрессии.
Логистические регрессии нелинейны и изображаются на графике с изогнутой формой, называемой сигмоидой. Вместо непрерывного набора результатов логистическая регрессия имеет две или более категории для данных. Если вы хотите узнать вероятность получения работы на основе того, сколько заявлений вы подаете, получите ли вы работу — это дискретное число переменных. Следовательно, вы должны использовать программу логистической регрессии для этих данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Типы логистической регрессии
Логистическая регрессия включает три основных типа:
Двоичный: двоичный вывод — это переменная, в которой есть только два возможных результата. Эти результаты должны быть противоположны друг другу и исключать друг друга. Есть ли у вас кошка — это двоичный вывод.
Мультикласс: мультикласс имеет три или более категорий без какого-либо числового значения, хотя обычно они имеют числовую замену для наборов данных. Например, вы можете спросить, есть ли у кого-нибудь собака, кошка или рыба.
Порядковый: порядковый вывод также имеет три или более категорий, хотя они находятся в ранжированном выводе. Например, если спросить друга, любят ли они кошек, не любят кошек или им все равно, это порядковый выход.
Многомерная и многомерная логистическая регрессия
Хотя многомерная и многомерная регрессии имеют схожие функции и названия, между ними есть одно ключевое различие. В многомерной регрессии есть несколько независимых переменных и несколько результатов. В многопараметрической регрессии есть несколько независимых переменных, но только один результат.
Как построить и оценить модели логистической регрессии в Python
Вы можете использовать многомерную логистическую регрессию для создания моделей в Python, которые могут прогнозировать результаты на основе импортированных данных. Вот шаги по созданию и оценке модели Python с использованием этой регрессии:
1. Установите необходимые пакеты
Python использует пакеты и библиотеки для запуска и выполнения определенных функций. Для запуска многомерной логистической регрессии вам потребуются определенные пакеты, в том числе:
Pandas для скачивания, анализа и редактирования данных
Numpy для выполнения числовых расчетов
Plotly для визуализации данных и создания графиков
Вам также может понадобиться Sklearn, инструментарий алгоритма машинного обучения Python. Вот некоторые из инструментов внутри Sklearn:
Linear_model для моделирования модели логистической регрессии
Метрики для расчета точности после обучения модели
Train_Test_Split для разделения данных на набор данных для обучения и тестирования.
2. Найдите набор данных
Чтобы запустить многомерную логистическую регрессию, вам необходимо иметь набор данных. Данные требуют более одной независимой переменной и двух или более непостоянных результатов. Как только вы найдете свои данные, загрузите их в Python с помощью пакета pandas.
3. Очистите и подготовьте данные
После загрузки данных в Python подготовьте их для регрессионного анализа. Удалите строки и столбцы, в которых нет данных, а также значения данных, которые не нужны для регрессионного анализа. После того, как у вас есть только переменные, с которыми вы работаете, пометьте их как зависимые или независимые переменные.
4. Разделите данные
Чтобы понять производительность модели, разделите данные на два разных набора данных. Один набор предназначен для обучения, а другой для тестирования. Используйте инструмент test-train-split инструмента Sklearn, чтобы разделить данные. Вы можете выбрать, какие параметры использовать для разделения данных или разделить их случайным образом. Определите, сколько информации вам нужно использовать для каждого набора данных. Наиболее распространенное соотношение составляет 70% для обучения модели и 30% для тестирования модели.
5. Постройте модель
Чтобы построить модель для многомерной логистической регрессии, используйте комплект linear_model от Sklearn для импорта ваших переменных. Запустите функцию «LogisticRegression», чтобы выполнить регрессию. Сопоставьте данные обучения с моделью с помощью функции «подгонки» и запустите регрессию для обучения модели.
6. Оцените модель
Оценка вашей модели является ключевой частью проведения логистического анализа, поскольку она позволяет вам убедиться, что все ваши переменные измеряются точно. Одним из способов оценки моделей является использование матрицы путаницы. Матрица путаницы — это таблица, которая проверяет эффективность модели классификации путем сортировки данных по четырем категориям:
True Positive: правильно предсказывает, что событие произойдет
Истинно отрицательный: правильно предсказывает, что событие не произойдет.
Ложное срабатывание: неправильно предсказывает, что событие произойдет.
Ложноотрицательный: неправильно предсказывает, что событие не произойдет.
Например, ваша модель предсказывает, что девочки-подростки будут смотреть определенный фильм 10 % времени, но данные показывают, что они смотрят его только 5 % времени. Матрица путаницы пометит это как ложное срабатывание.
7. Визуализируйте модель
Матрица путаницы также может использоваться для визуализации вашей модели с помощью графиков и графиков. Вот несколько видов визуализации:
Кривая ROC: сравнивает долю истинных положительных и ложных срабатываний в наборе данных.
Область под графиком кривой: использует три показателя матрицы путаницы для анализа общей эффективности модели.
График компромисса между точностью и полнотой: сравнивает точность модели с ее способностью воспроизводить результаты.
Обратите внимание, что ни одна из организаций, упомянутых в этой статье, не связана с компанией Indeed.