Was ist eine Verwirrungsmatrix? (mit Berechnungen und Beispiel) • BUOM

12. August 2021

In der Datenwissenschaft führen Datenanalysten und -ingenieure verschiedene Bewertungen durch, wenn sie mit Problemen des maschinellen Lernens arbeiten. Einige Probleme, die Machine-Learning-Analysten häufig lösen, betreffen die Datenklassifizierung. Eine Verwirrungsmatrix ist ein wertvolles Werkzeug zur Messung von Faktoren, die die Genauigkeit und Zuverlässigkeit eines Klassifizierungsmodells oder Klassifikators beeinflussen. In diesem Artikel schauen wir uns an, was eine Verwirrungsmatrix ist, warum sie für Datenanalysen und maschinelles Lernen wichtig ist und wie Sie eine Verwirrungsmatrix für ein Zwei-Klassen-Klassifizierungsproblem berechnen können, mit einem Beispiel, das Ihnen dabei hilft.

Was ist eine Verwirrungsmatrix?

In der Datenwissenschaft ist eine Verwirrungsmatrix ein Diagramm oder eine Tabelle, die die Leistung eines Klassifizierungsmodells oder Algorithmus für maschinelle Lernprozesse zusammenfasst. Verwirrungsmatrizen helfen bei der prädiktiven Analyse und können wirksame Werkzeuge zur Beurteilung sein, welche Funktionen ein maschinelles Lernsystem korrekt und welche Funktionen es falsch ausführt.

Wenn Sie eine Verwirrungsmatrix erstellen, beziehen Sie sowohl die vorhergesagten als auch die tatsächlichen Werte ein, die Sie im System testen, wobei jede Zeile jeder vorhergesagten Klasse und jede Spalte der tatsächlichen Klasse entspricht. Abhängig von der Ausgabemenge, die Sie für jede Eingabe erhalten, kann die Verwirrungsmatrix entweder Klassifizierungsprobleme mit mehreren Klassen oder mit zwei Klassen berechnen.

Bedeutung der Verwirrungsmatrix in der Datenwissenschaft

Datenwissenschaftler, die maschinelle Lernsysteme entwickeln, stützen sich auf Verwirrungsmatrizen, um Klassifizierungsprobleme zu lösen, die zwei oder mehr Klassen enthalten. Die Matrix organisiert Eingabe- und Ausgabedaten auf eine Weise, die es Analysten und Programmierern ermöglicht, die Genauigkeit, Vollständigkeit und Präzision der maschinellen Lernalgorithmen zu visualisieren, die sie auf Systementwürfe anwenden. Bei einem Zwei-Klassen- oder Binärklassifizierungsproblem ist die Verwirrungsmatrix von entscheidender Bedeutung, um zwei Ergebnisse zu bestimmen, positiv oder negativ, wobei diese Variablen numerische Werte im maschinellen Lernsystem darstellen. Bei der Lösung binärer Klassifizierungsprobleme können Sie Verwirrungsmatrizen verwenden, um Folgendes zu finden:

  • Genauigkeitsrate: Dies ist der Prozentsatz, mit dem der Klassifikator korrekt ist.

  • Fehlklassifizierungsrate: Dies ist der Prozentsatz der Fälle, in denen der Klassifikator falsch ist.

  • True-Positive-Rate: Diese Zahl stellt den Prozentsatz dar, mit dem der Klassifikator die gewünschten Ergebnisse korrekt vorhersagt.

  • Echt-Negativ-Rate: Dies bezieht sich darauf, wie oft der Klassifikator unerwünschte Ergebnisse korrekt vorhersagt.

  • Falsch-Positiv-Rate: Hierbei handelt es sich um einen Fehler vom Typ I, der angibt, wie oft der Klassifikator bei der Vorhersage der gewünschten Ergebnisse falsch liegt.

  • Falsch-Negativ-Rate: Hierbei handelt es sich um einen Fehler vom Typ II, der den Prozentsatz angibt, mit dem der Klassifikator unerwünschte Ergebnisse falsch vorhersagt.

  • Genauigkeitsrate: Dies ist die Rate, mit der sich gewünschte Vorhersagen als richtig erweisen.

So berechnen Sie die Verwirrungsmatrix für binäre Klassifizierungsprobleme

Die folgenden Schritte beschreiben den grundlegenden Prozess der Berechnung von Verwirrungsmatrizen für binäre oder Zwei-Klassen-Klassifizierungsprobleme:

1. Erstellen Sie Ihre Tabelle

Bevor Sie Daten eingeben, benötigen Sie eine Tabelle, um eine Verwirrungsmatrix zu entwickeln. Erstellen Sie eine Tabelle mit zwei Zeilen und zwei Spalten sowie einer zusätzlichen Zeile und Spalte zur Beschriftung des Diagramms. Die linke Seite der Matrix stellt die tatsächlichen Ergebnisse dar und die rechte Seite stellt die vorhergesagten Ergebnisse dar.

2. Geben Sie die vorhergesagten positiven und negativen Werte ein.

Listen Sie in der Prognosezeile und -spalte die von Ihnen geschätzten Werte für positive und negative Ergebnisse auf. Angenommen, Sie möchten die Ergebnisse einer bestandenen/nicht bestandenen Prüfung anhand eines Datensatzes mit 120 Stichproben vorhersagen. Das bedeutet, dass Sie zwei Möglichkeiten haben: Bestehen oder Nichtbestehen. Wenn Sie 100 bestandene und 20 nicht bestandene Ergebnisse vorhersagen, geben Sie diese Werte als Ausgabe in die Spalten für Ihre vorhergesagten bestandenen und nicht bestandenen Werte ein.

3. Geben Sie die tatsächlichen positiven und negativen Werte ein.

Nachdem Sie Ihre Prognosewerte auf ihre Richtigkeit analysiert haben, können Sie die tatsächlichen Ergebnisse in Ihre Matrix eintragen. Die tatsächlichen Ergebnisse werden zu den „wahren“ und „falschen“ Werten in der Tabelle, wobei Ihre „richtig positiven“ und „falsch negativen“ Werte die tatsächlichen positiven Ergebnisse darstellen und Ihre „falsch positiven“ und „wahren negativen“ Werte die tatsächlichen Ergebnisse darstellen. Werte stellen die tatsächlichen negativen Ergebnisse dar.

Im Beispiel der „Bestanden/Nicht bestanden“-Prüfung stellen die bestandenen Ergebnisse positive Ergebnisse und die nicht bestandenen Ergebnisse negative Ergebnisse dar. Wenn die tatsächliche Anzahl der bestandenen Ergebnisse 110 und die tatsächliche Anzahl der nicht bestandenen Ergebnisse 10 beträgt, werden diese Werte zu Ihren wahren positiven und negativen Werten in der Matrix. Ihre falsch positiven und negativen Ergebnisse betragen 10, weil Sie fälschlicherweise 10 weitere nicht bestandene Noten und 10 weniger bestandene Noten vorhergesagt haben.

4. Bestimmen Sie Ihre Genauigkeitsrate

Anhand der ausgefüllten Matrix können Sie den Grad der Genauigkeit bei der Vorhersage der gewünschten Ergebnisse bestimmen. Diese Metrik misst, wie oft Sie Ergebnisse richtig vorhersagen. Dies kann hilfreich sein, um Fehlerraten zu verstehen und festzustellen, wo Änderungen in Datensystemen erforderlich sind.

Um die Genauigkeitsrate zu ermitteln, addieren Sie die wahren positiven und negativen Werte und dividieren Sie das Ergebnis durch die Gesamtzahl der Werte in Ihrem Datensatz. Im Beispiel der Testergebnisse erhalten Sie durch die korrekte Vorhersage von 100 bestandenen und 10 nicht bestandenen Ergebnissen insgesamt 110 genaue Vorhersagen von 120 Gesamtergebnissen, was einer Genauigkeit von 92 % entspricht.

5. Berechnen Sie die Fehlklassifizierungsrate

Die Fehlklassifizierungsrate zeigt, wie oft Ihre Verwirrungsmatrix bei der Vorhersage tatsächlicher positiver und negativer Ergebnisse falsch ist. Finden Sie diesen Wert, indem Sie die falsch positiven und negativen Werte addieren und diese Summe durch die Gesamtzahl der Werte in Ihrem Datensatz dividieren. Nehmen wir zum Beispiel anhand des vorherigen Beispiels für die Prüfungsergebnisse „Bestanden/Nicht bestanden“ an, dass Sie fälschlicherweise 10 Punkte für „Bestehen“ und 10 „Nicht bestanden“ vorhergesagt haben.

Falsch-positive und falsch-negative Ergebnisse werden in Ihrer Matrix gleich 10 sein. Die Kombination dieser Werte ergibt 20, die Sie durch insgesamt 120 Testergebnisse dividieren. Dies führt zu einer Fehlklassifizierungsrate von 0,166 oder etwa 17 %, was bedeutet, dass Sie das Ergebnis nur in 17 % der Fälle falsch vorhersagen.

6. Finden Sie die wahre positive Rate

Die tatsächlich positive Rate eines Datensatzes ist ein Erinnerungswert, der angibt, wie oft die Ausgabe des Systems wirklich positiv ist, wenn Sie ein positives Ergebnis vorhersagen. Um Ihre Erinnerungsrate zu ermitteln, dividieren Sie die Anzahl der positiven Ergebnisse, die Sie richtig vorhergesagt haben, durch die Anzahl der tatsächlichen positiven Ergebnisse, die Sie bei der Durchführung des Tests erhalten. Nehmen wir zum Beispiel an, Sie haben 100 bestandene Punkte richtig vorhergesagt. Dies ist ein wirklich positiver Wert, da Sie 100 von 110 tatsächlich bestandenen Ergebnissen richtig vorhersagen. Teilen Sie diesen echten positiven Wert durch 110 bestandene Punkte, um eine Rückrufquote von 0,91 oder 91 % zu erhalten.

7. Bestimmen Sie die wahre Negativrate

Der True Negative Score Ihrer Matrix ist der Spezifitätsgrad, der angibt, wie oft Ihr Klassifikator ein negatives Ergebnis richtig vorhersagt. Um diese Rate zu ermitteln, dividieren Sie die Gesamtzahl der korrekt vorhergesagten negativen Ergebnisse durch die Anzahl der tatsächlich im Test erzielten negativen Ergebnisse. Nehmen wir anhand des vorherigen Beispiels für Prüfungsergebnisse an, dass Sie von 20 Vorhersagen 10 nicht bestandene Ergebnisse richtig vorhergesagt haben. Dies ergibt ein echtes Negativ oder einen Spezifitätsgrad von 50 %.

Beispiel für die Berechnung einer Verwirrungsmatrix

Ein Umweltwissenschaftler möchte ein Zwei-Klassen-Klassifizierungsproblem lösen, um vorherzusagen, ob eine Population eine bestimmte genetische Variante enthält. Mithilfe der Verwirrungsmatrix können sie ermitteln, wie automatisierte Prozesse das von ihnen analysierte Klassifizierungsmodell für maschinelles Lernen verwirren könnten. Unter der Annahme, dass der Wissenschaftler 500 Proben zur Analyse der Daten verwendet, erstellt er eine Tabelle mit seinen vorhergesagten und tatsächlichen Werten, bevor er die Verwirrungsmatrix berechnet:

Ohne Variante vorhergesagt Mit Variante vorhergesagt Tatsächliche Zahl ohne Variante

Tatsächliche Anzahl mit Option

Gesamter vorhergesagter WertGesamt vorhergesagter WertNach der Erstellung der Matrix analysiert der Umweltwissenschaftler seine Versuchsdaten. Angenommen, ein Wissenschaftler sagt voraus, dass 350 Testproben eine genetische Variante enthalten, 150 Proben jedoch nicht. Wenn der Wissenschaftler feststellt, dass die tatsächliche Anzahl der Proben, die die Variante enthalten, 305 beträgt, beträgt die tatsächliche Anzahl der Proben ohne die Variante 195. Diese Werte werden zu den „wahren“ Werten in der Matrix, und der Wissenschaftler gibt die Daten ein ein Tisch:

Ohne Option vorhergesagt Mit Option vorhergesagt Tatsächliche Zahl ohne Option = 195 Wahr negativ = 45 Falsch positiv = 150 Tatsächliche Zahl mit Option = 305 Falsch negativ = 105 Richtig positiv = 200
150350Anhand der Daten aus der Verwirrungsmatrix kann ein Umweltwissenschaftler dann die wahren Positiv- und Negativraten, die Genauigkeitsrate und die Fehlklassifizierungsrate seines Klassifizierungsmodells berechnen:

*Erinnerungsrate = (Richtig positiv) / (Tatsächlich positiv) = (200) / (305) = 0,66 = 66 %*

*Spezifitätsverhältnis = (echt negativ) / (wahr negativ) = (45) / (195) = 0,23 = 23 %*

*Genauigkeitsrate = (echt positiv + wahr negativ) / (Gesamtzahl der Proben) = (200 + 45) / (500) = (245) / (500) = 0,49 = 49 %*

*Fehlklassifizierungsrate (Fehler) = (falsch positiv + falsch negativ) / (Gesamtzahl der Proben) = (150 + 105) / (500) = (255) / (500) = 0,51 = 51 %*

Die Auswertung dieser Daten kann einem Wissenschaftler dabei helfen, zu bestimmen, wie der Klassifizierungsalgorithmus geändert oder verbessert werden kann, um seine Genauigkeit bei der Vorhersage genetischer Variationen innerhalb der Population eines Ökosystems zu verbessern.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert