Ein Leitfaden zur multivariaten logistischen Regression • BUOM

Im Geschäftsleben ist es oft wichtig, vorhersagen zu können, welche Maßnahmen zu den günstigsten Ergebnissen führen. Bei der multivariaten logistischen Regression handelt es sich um eine Analyseart, die dabei hilft, Ergebnisse vorherzusagen, wenn mit mehreren Variablen gearbeitet wird. Dies ist auch eine wertvolle Berechnung in maschinellen Lernprogrammen. In diesem Artikel erklären wir, was multivariate logistische Regression ist und wie man in Python Modelle dafür erstellt und schätzt.

Was ist eine multivariate logistische Regressionsanalyse?

Die multivariate logistische Regressionsanalyse ist eine Formel zur Vorhersage der Beziehungen zwischen abhängigen und unabhängigen Variablen. Es berechnet die Wahrscheinlichkeit, dass etwas passiert, abhängig von mehreren Variablensätzen. Es handelt sich um einen gängigen Klassifizierungsalgorithmus, der in der Datenwissenschaft und im maschinellen Lernen verwendet wird.

Logistische und lineare Regression

Es gibt zwei Hauptformen der Regressionsanalyse. Die lineare Regression verfügt über eine kontinuierliche Reihe von Ergebnissen, die leicht als gerade Linie dargestellt werden können. Wenn Sie beispielsweise die Wahrscheinlichkeit ermitteln möchten, dass sich die Anzahl der Bücher, die Sie lesen, darauf auswirkt, wie viel Geld Sie verdienen, verwenden Sie am besten eine lineare Regressionsgleichung.

Logistische Regressionen sind nichtlinear und werden mit einer gekrümmten Form dargestellt, die als Sigmoid bezeichnet wird. Anstelle eines kontinuierlichen Satzes von Ergebnissen verfügt die logistische Regression über zwei oder mehr Kategorien für die Daten. Wenn Sie wissen möchten, wie hoch die Wahrscheinlichkeit ist, einen Job zu bekommen, basierend auf der Anzahl Ihrer Bewerbungen, hängt die Frage, ob Sie den Job bekommen, von einer diskreten Anzahl von Variablen ab. Daher sollten Sie für diese Daten ein logistisches Regressionsprogramm verwenden.

Arten der logistischen Regression

Die logistische Regression umfasst drei Haupttypen:

  • Binär: Eine binäre Ausgabe ist eine Variable, die nur zwei mögliche Ergebnisse hat. Diese Ergebnisse müssen gegensätzlich sein und sich gegenseitig ausschließen. Haben Sie eine Katze, ist dies eine binäre Ausgabe.

  • Multiklasse: Eine Multiklasse hat drei oder mehr Kategorien ohne numerischen Wert, obwohl sie normalerweise numerische Ersetzungen für Datensätze haben. Sie könnten zum Beispiel fragen, ob jemand einen Hund, eine Katze oder einen Fisch hat.

  • Ordinal: Die ordinale Ausgabe hat ebenfalls drei oder mehr Kategorien, obwohl diese in der geordneten Ausgabe enthalten sind. Wenn Sie beispielsweise einen Freund fragen, ob er Katzen mag, nicht mag oder ob es ihm egal ist, handelt es sich um eine ordinale Ausgabe.

Multivariate und multivariate logistische Regression

Obwohl multivariate und multivariate Regression ähnliche Funktionen und Namen haben, gibt es einen wesentlichen Unterschied zwischen ihnen. Bei der multivariaten Regression gibt es mehrere unabhängige Variablen und mehrere Ergebnisse. Bei der multivariablen Regression gibt es mehrere unabhängige Variablen, aber nur ein Ergebnis.

So erstellen und schätzen Sie logistische Regressionsmodelle in Python

Sie können die multivariate logistische Regression verwenden, um Modelle in Python zu erstellen, die Ergebnisse basierend auf importierten Daten vorhersagen können. Hier sind die Schritte zum Erstellen und Auswerten eines Python-Modells mithilfe dieser Regression:

1. Installieren Sie die erforderlichen Pakete

Python verwendet Pakete und Bibliotheken, um bestimmte Funktionen auszuführen und auszuführen. Um eine multivariate logistische Regression auszuführen, benötigen Sie bestimmte Pakete, darunter:

  • Pandas zum Herunterladen, Analysieren und Bearbeiten von Daten

  • Numpy zur Durchführung numerischer Berechnungen

  • Plotly zur Datenvisualisierung und Diagrammerstellung

Möglicherweise benötigen Sie auch Sklearn, ein Python-Toolkit für maschinelle Lernalgorithmen. Hier sind einige der Tools in Sklearn:

  • Lineares_Modell für die Modellierung eines logistischen Regressionsmodells

  • Metriken zur Berechnung der Genauigkeit nach dem Modelltraining

  • Train_Test_Split, um die Daten in einen Trainings- und Testdatensatz aufzuteilen.

2. Suchen Sie den Datensatz

Um eine multivariate logistische Regression auszuführen, benötigen Sie einen Datensatz. Die Daten erfordern mehr als eine unabhängige Variable und zwei oder mehr nicht konstante Ergebnisse. Sobald Sie Ihre Daten gefunden haben, laden Sie sie mit dem Pandas-Paket in Python.

3. Daten bereinigen und vorbereiten

Nachdem Sie Ihre Daten in Python geladen haben, bereiten Sie sie für die Regressionsanalyse vor. Entfernen Sie Zeilen und Spalten, die keine Daten enthalten, sowie Datenwerte, die für die Regressionsanalyse nicht benötigt werden. Sobald Sie nur noch die Variablen haben, mit denen Sie arbeiten, kennzeichnen Sie sie als abhängige oder unabhängige Variablen.

4. Trennen Sie die Daten

Um die Leistung des Modells zu verstehen, teilen Sie die Daten in zwei verschiedene Datensätze auf. Ein Set dient zum Training und das andere zum Testen. Verwenden Sie das Sklearn-Tool test-train-split, um die Daten aufzuteilen. Sie können auswählen, welche Parameter zum Aufteilen der Daten verwendet werden sollen, oder sie nach dem Zufallsprinzip aufteilen. Bestimmen Sie, wie viele Informationen Sie für jeden Datensatz verwenden müssen. Das häufigste Verhältnis beträgt 70 % für Modelltraining und 30 % für Modelltests.

5. Erstellen Sie ein Modell

Um ein Modell für die multivariate logistische Regression zu erstellen, verwenden Sie das linear_model-Kit von Sklearn, um Ihre Variablen zu importieren. Führen Sie die Funktion „LogisticRegression“ aus, um die Regression durchzuführen. Passen Sie die Trainingsdaten mit der Funktion „fit“ an das Modell an und führen Sie eine Regression aus, um das Modell zu trainieren.

6. Bewerten Sie das Modell

Die Bewertung Ihres Modells ist ein wichtiger Teil der Durchführung einer logistischen Analyse, da Sie so sicherstellen können, dass alle Ihre Variablen genau gemessen werden. Eine Möglichkeit, Modelle zu bewerten, ist die Verwendung einer Verwirrungsmatrix. Eine Verwirrungsmatrix ist eine Tabelle, die die Leistung eines Klassifizierungsmodells testet, indem sie Daten in vier Kategorien sortiert:

  • Richtig positiv: Prognostiziert korrekt, dass ein Ereignis eintreten wird

  • Richtig negativ: Sagt korrekt voraus, dass ein Ereignis nicht eintreten wird.

  • Falsch positiv: Prognostiziert fälschlicherweise, dass ein Ereignis eintreten wird.

  • Falsch negativ: sagt fälschlicherweise voraus, dass ein Ereignis nicht eintreten wird.

Ihr Modell sagt beispielsweise voraus, dass Mädchen im Teenageralter 10 % der Zeit einen bestimmten Film ansehen, die Daten zeigen jedoch, dass sie ihn nur 5 % der Zeit ansehen. Die Verwirrungsmatrix markiert dies als falsch positiv.

7. Visualisieren Sie das Modell

Die Verwirrungsmatrix kann auch zur Visualisierung Ihres Modells mithilfe von Diagrammen und Diagrammen verwendet werden. Es gibt verschiedene Arten der Visualisierung:

  • ROC-Kurve: Vergleicht den Anteil richtig positiver und falsch positiver Ergebnisse in einem Datensatz.

  • Bereich unterhalb der Kurve: Verwendet drei Verwirrungsmatrixmetriken, um die Gesamtleistung des Modells zu analysieren.

  • Precision-Recall-Kompromissdiagramm: Vergleicht die Genauigkeit eines Modells mit seiner Fähigkeit, Ergebnisse zu reproduzieren.

Bitte beachten Sie, dass keine der in diesem Artikel genannten Organisationen mit Indeed verbunden ist.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert