Was ist Multikollinearität? (Definition und Beispiel) • BUOM

Die multiple Regressionsanalyse in der Statistik basiert auf unabhängigen und abhängigen Variablen. In einem Regressionsmodell besteht das Ziel darin, die Beziehung zwischen einzelnen unabhängigen Variablen und der abhängigen Variablen zu verstehen und sicherzustellen, dass keine Korrelationen bestehen. Wenn Korrelationen auftreten, wo keine existieren sollten, können mehrere Kollinearitäten auftreten. In diesem Artikel werden wir diskutieren, was Multikollinearität ist, was sie verursacht, warum sie ein Problem darstellen kann und wie sich mehrere Kollinearitäten auf die Ergebnisse der Regressionsanalyse auswirken.

Was ist Multikollinearität in der Statistik?

In der Statistik misst die multiple Regressionsanalyse die Beziehung zwischen unabhängigen Variablen und einer abhängigen Variablen unter der Annahme, dass zwischen den unabhängigen Variablen keine Korrelationen bestehen. Wenn bei der Regressionsanalyse eine Korrelation auftritt, führt dies zu mehreren Kollinearitäten. Dies wird bei der Analyse von Daten zu einem Problem, da bei der linearen Regression keine Korrelation zwischen den unabhängigen Variablen bestehen kann. Darüber hinaus können Sie mehrere Kollinearitäten in unterschiedlichem Ausmaß beobachten, darunter keine Korrelation, mäßige Korrelation und hohe Korrelation.

Was verursacht Multikollinearität?

Multikollinearität kann aus vielen Faktoren entstehen. Typischerweise entstehen Fälle dieses Effekts durch Fehler in Experimenten, Datenerfassungsmethoden und bei der Einstellung von Prädiktorvariablen für die Datenstichprobe. Beispielsweise können multiple Kollinearitäten auftreten, wenn Beobachtungsdaten verwendet werden, die bereits starke Korrelationen aufweisen. In anderen Fällen können Forschungsfehler zu mehreren Kollinearitäten führen, beispielsweise wenn Sie alternative Prädiktorwerte für eine Regressionsanalyse erstellen. Schauen wir uns noch ein paar weitere Gründe für multiple Kollinearitäten an:

  • Unvollständige oder fehlende Daten. Unzureichende Daten können manchmal zu mehreren Kollinearitäten führen. Im Allgemeinen wird dieses Problem durch das Sammeln zusätzlicher Daten gelöst, da vollständige Daten eine genauere Analyse ermöglichen.

  • Unangemessene Verwendung von Indikatorvariablen: Indikatorvariablen sind künstliche Werte, die Sie bei der Arbeit mit kategorialen Daten zuweisen. Durch die Verwendung zu vieler oder nicht ausreichender Indikatoren können mehrere Kollinearitäten entstehen.

  • Kombinieren zweier Variablen in der Regression: Die Verwendung einer Variablen, die tatsächlich eine Kombination aus zwei verschiedenen Variablen ist, kann ebenfalls zu mehreren Kollinearitäten führen. Beispielsweise kann die Analyse des Gesamtvermögens als einzelne Variable und nicht als einzelne Variablen zu Multikollinearität führen.

  • Verwendung identischer Variablen: Identische Variablen können auch zu starker Kollinearität führen. Wenn Sie beispielsweise eine Variable für denselben Geldwert in verschiedenen Währungen verwenden, stellen Sie zwei identische Beträge dar.

Warum ist Multikollinearität ein Problem?

Eines der größten Probleme der Multikollinearität in der Regressionsanalyse und Statistik besteht darin, dass sie Korrelationsbeziehungen zeigt, wenn die unabhängigen Variablen nicht korreliert sein sollten. Dies kann dazu führen, dass sich der Korrelationskoeffizient abhängig von den im Regressionsmodell vorhandenen unabhängigen Variablen ändert. Diese Änderungen der Koeffizienten können zu einer Ungenauigkeit der statistischen Signifikanz des Regressionsmodells führen und es schwierig machen, diese Werte über Stichprobensätze hinweg zu identifizieren.

Ein weiteres Problem bei multiplen Kollinearitäten ist der größere Bereich zwischen Varianz und Kovarianz, der es schwierig macht, das statistische Ergebnis für Alternativ- und Nullhypothesen zu bestimmen. Das Konfidenzintervall kann sich auch über einen Bereich hinweg vergrößern, und mehrere Kollinearitäten können auch dazu führen, dass der Standardfehler zunimmt. Wenn diese Werte ansteigen, kann dies auf höhere Korrelationsniveaus hinweisen und das Regressionsmodell ungültig machen.

Was ist der Varianzinflationsfaktor?

Der Varianzinflationsfaktor (VIF) misst den Anstieg der Inflation im Standardfehler des Regressionskoeffizienten. Diese Messung kann Ihnen Aufschluss darüber geben, ob in Ihren Daten mehrere Kollinearitäten vorhanden sind. Bei der Beurteilung, ob ein Regressionsmodell mehrere Kollinearitäten aufweist, verwenden Analysten eine Formel, die ihnen eine Vorstellung vom VIF gibt. Je niedriger also der VIF-Wert, desto geringer ist der Grad der Kollinearität in den Daten.

Multikollinearität in der multiplen Regressionsanalyse

Bei der Regressionsanalyse messen Sie die durchschnittliche Änderungsrate zwischen einer abhängigen Variablen und einer unabhängigen Variablen und halten alle anderen unabhängigen Variablen in Ihrem Datensatz konstant. Wenn sich die Konstanten ändern, können mehrere Kollinearitäten auftreten, was zu einem Korrelationskoeffizienten zwischen negativ und positiv führt. Ist der Koeffizient genau positiv oder negativ, liegt perfekte Multikollinearität vor. Wenn der Koeffizient nahezu positiv oder negativ ist, liegt keine perfekte Multikollinearität vor. Es gibt zwei spezifische Arten multipler Kollinearitäten, die bei der Regressionsanalyse auftreten können:

1. Datenbezogen

In den Rohdaten, die Sie bei der Durchführung von Forschungsarbeiten sammeln, treten mehrere datenbezogene Kollinearitäten auf. Typischerweise entstehen diese Arten von multiplen Kollinearitäten eher durch Fehler in den Beobachtungsdaten als durch Fehler der Forscher. Mehrere mit Daten verbundene Kollinearitäten können auch entstehen, wenn Analysten Forschungsmethoden verwenden, die sie in anderen Studien nicht reproduzieren können.

2. Strukturell

Strukturierte Multikollinearität tritt auf, wenn ein Regressionsmodell Änderungen in den Prädiktorvariablen aufweist. Beim Erstellen eines bestimmten Datenbeispielmodells kann die Manipulation eines Prädiktorwerts zur Erzeugung eines neuen Werts zu einer Korrelation führen. Wenn Sie beispielsweise die Y-Variable mit zwei multiplizieren, um eine Größenänderung einer Zimmerpflanze darzustellen, entstehen mehrere Kollinearitäten, da Sie die ursprüngliche Struktur der Variablen ändern.

Beispiel für Multikollinearität

Nehmen Sie in diesem Beispiel an, dass ein Finanzanalyst eine multiple Regressionsanalyse für einen Datensatz durchführt, der eine Stichprobe der durchschnittlichen Kundeneinnahmen darstellt. Der Analyst kann Indikatorvariablen für die Daten festlegen, die er aus Business Intelligence sammelt, und den Varianzinflationsfaktor berechnen, der die Zunahme der Varianz zwischen den Variablen anzeigt. Da ein höherer VIF anzeigt, dass in den Daten mehrere Kollinearitäten vorhanden sind, löst der Finanzanalyst mehrere Kollinearitäten auf, indem er die anfängliche Prädiktorvariable entfernt, um Auswahlverzerrungen im Modell zu beseitigen.

Bei hoher Multikollinearität kann der Analyst die relevanten Variablen transformieren, zusätzliche Daten eingeben und mehrere Kollinearitäten aus dem Modell entfernen. Wenn die Korrelation in den Daten des Analysten immer noch vorhanden ist, kann er den durchschnittlichen Kollinearitätswert anwenden und ihn entfernen. Dies führt dann zu einem genaueren Überblick über die finanzielle Leistung der Kunden und bietet Einblick in Anlagerenditen, zukünftige Erträge und Zinszahlungen.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert