Einflüsse von Multikollinearität in multiplen linearen Regressionsanalysen


Multikollinearität in multiplen linearen Regressionen



1. Multikollinearität und Multikollinearitätsmaße

Multikollinearität beschreibt die wechselseitige Abhängigkeit von Variablen im Rahmen multivariater Analysen. In multiplen linearen Regressionen finden wir zwei typische Formen von Multikollinearitätseffekten: Redundanz- und Suppressionseffekte. Hinweise auf das Vorliegen von Multikollinearität liefern die Betrachtung der Korrelations- und Regressionsanalyse sowie Multikollinearitätsmaße.

a) Berechnung von Multikollinearitätsmaßen

Entscheiden Sie sich für einen beliebigen Datensatz und aktivieren Sie unter der Überschrift Anzeigeoptionen die Darstellung von Multikollinearitätsmaßen. Multikollinearitätsmaße werden mithilfe sogenannter Hilfsregressionen ermittelt. Hierbei wird versucht, jeden einzelnen Prädiktor durch eine multiple lineare Regressionsgleichung der jeweils anderen Prädiktoren zu beschreiben. Jede dieser Regressionen liefert ein Bestimmtheitsmaß R2, welches angibt, inwieweit sich der jeweilige Prädiktor als Linearkombination der übrigen Prädiktoren darstellen lässt. Je stärker sich dieser Wert der 1 annähert, desto wahrscheinlicher liegt Multikollinearität vor. Die weiteren Multikollinearitätsmaße VIF (= Varianzinflationsfaktor) und Toleranz können mithilfe der folgenden Formel berechnet werden:

VIF = 1/ Toleranz = 1/(1 - R2)

Welche Werte für Toleranz und VIF liefern Hinweise auf das Vorliegen von Multikollinearität? Was vermuten Sie?


Geringe Werte der Toleranz und hohe Werte des Varianzinflationsfaktors eines Prädiktors liefern Hinweise auf Multikollinearität.



b) Beurteilung von Multikollinearitätsmaßen

Betrachten Sie im Folgenden die Multikollinearitätsmaße des ersten Datensatzes. Wie beurteilen Sie basierend auf diesen Werten die Wahrscheinlichkeit für das Vorhandensein von Multikollinearität? Zur Überprüfung Ihrer Vermutung können Sie unter der Überschrift Anzeigeoptionen zudem Hinweise auf Multikollinearität aktivieren. Diese Option führt zur farbigen Markierung von potenziellen Hinweisen auf Multikollinearität.


Die Multikollinearitätsmaße liefern keinen Hinweis auf das Vorliegen von Multikollinearität. In der Literatur finden sich unterschiedliche Grenzwerte für beide Maße. Werte des VIF größer als 10 und Werte der Toleranz kleiner als 0.1, werden jedoch relativ einheitlich mit dem Vorliegen von Multikollinearität in Verbindung gebracht. Diese Grenzwerte sind jedoch recht konservativ.



Deaktivieren Sie die Hinweise auf Multikollinearität unter der Überschrift Anzeigeoptionen und wählen Sie im Menü Datensatz 3 aus. Betrachten Sie nun dessen Multikollinearitätsmaße. Wie beurteilen Sie diese? Zur Überprüfung ihrer Vermutung können Sie die Multikollinearitätshinweise erneut aktivieren.


Alle Prädiktoren besitzen sehr hohe Werte des VIF und sehr geringe Werte der Toleranz. Es liegen somit deutliche Hinweise für das Vorliegen von Multikollinearitätseffekten vor.



2. Ergebnisse einer multiplen linearen Regression ohne Hinweise auf Multikollinearität

Nun möchten wir uns genauer mit den Einflüssen von Multikollinearität auf die Ergebnisse einer multiplen linearen Regression beschäftigten. Dazu betrachten wir zunächst einen Fall ohne Multikollinearitätseffekte. Wählen Sie dazu im Menü bitte Datensatz 1 aus und deaktivieren Sie die Hinweise auf Multikollinearität unter der Überschrift Anzeigeoptionen.

a) Ergebnisse der Korrelations- und Regressionsanalyse sowie Multikollinearitätsmaße

Im Rahmen von Aufgabe 1b stellten wir bereits fest, dass sich anhand der Multikollinearitätsmaße der Prädiktoren keine Hinweise auf Multikollinearität ergeben. Betrachten Sie nun die Ergebnisse der Korrelations- und Regressionsanalyse. Anhand welcher Ergebnisse können Sie begründet annehmen, dass keine Multikollinearität vorliegt?


Die Korrelationen zwischen allen Prädiktoren sind sehr gering. Außerdem liegen mittlere bis hohe signifikante Korrelationen aller Prädiktoren mit dem Kriterium vor. Im Ergebnis der Regressionsanalyse entsprechen die signifikanten Korrelationen zwischen Prädiktoren und Kriterium aus der Korrelationsanalyse auch signifikanten Regressionskoeffizienten der entsprechenden Prädiktoren in der Regressionsanalyse.



b) Entfernung von Prädiktoren aus der Regressionsanalyse

Entfernen Sie im Folgenden jeweils einen der Prädiktor aus der Regression. Was beobachten Sie? Welche Schlussfolgerung können Sie daraus ziehen?


Entfernen wir jeweils einen Prädiktor aus der Regressionsanalyse, nimmt das Bestimmtheitsmaß R2 ab. Jeder der Prädiktoren leistet somit einen Beitrag zur Aufklärung der Gesamtvarianz.



3. Ergebnisse einer multiplen linearen Regressionsanalyse bei Vorhandensein von Redundanz

Redundanz stellt einen typischen Multikollinearitätseffekt dar. Er beschreibt, dass ein Prädiktor in einem Regressionsmodell entbehrlich ist, weil ein anderer Prädiktor seinen Erklärungsbeitrag übernimmt. Zur Veranschaulichung der Einflüsse von Redundanz auf die Ergebnisse eine multiplen linearen Regression wählen Sie bitte Datensatz 2 im Menü aus und aktivieren Sie die Anzeige der Multikollinearitätsmaße unter der Überschrift Anzeigeoptionen.

a) Multikollinearitätsmaße

Betrachten Sie zunächst die Tabelle der Multikollinearitätsmaße. Welche Hinweise auf Multikollinearität können Sie erkennen?


Die Werte des VIF sind für Prädiktor 2 und 4 relativ groß. Die Werte der Toleranz dieser Werte ist zudem relativ klein.



b) Ergebnisse der Korrelations- und Regressionsanalyse

Betrachten Sie nun die Ergebnisse der Korrelations- und Regressionsanalyse. Welche Hinweise auf das Vorliegen eines Redundanzeffektes erkennen Sie?


Die Korrelationsmatrix zeigt eine hohe Korrelation der Prädiktoren 2 und 4. Sowohl Prädiktor 2 als auch Prädiktor 4 besitzt eine hohe positive Korrelation mit dem Kriterium. Während Prädiktor 2 auch im Rahmen der Regressionsanalyse einen signifikanten Regressionskoeffizienten erhält, ist dies für Prädiktor 4 nicht der Fall.



c) Entfernung von Prädiktoren aus der Regressionsanalyse

Entfernen Sie im Folgenden jeweils entweder Prädiktor 2 oder Prädiktor 4 aus der Regression. Welchen Unterschied können Sie erkennen?


Die Entfernung von Prädiktor 2 aus der Regression führt dazu, dass Prädiktor 4 einen signifikanten Regressionskoeffizienten erhält, allerdings beobachten wir einen Rückgang des Bestimmtheitsmaßes R2. Die Entfernung von Prädiktor 4 führt nicht zu einer Veränderung des Bestimmtheitsmaßes R2.



d) Schlussfolgerung

Wie interpretieren Sie die bisherige Auswertung der Multikollinearitätsmaße, die Ergebnisse der Korrelations- und Regressionsanalyse sowie die Veränderungen durch die Entfernung von Prädiktoren?


Es liegt ein Redundanzeffekt vor. Die Prädiktoren 2 und 4 leisten einen weitgehend analogen Beitrag zur Erklärung der Varianz des Kriteriums. In einer Analyse mit allen vier Prädiktoren ist Prädiktor 4 redundant.



4. Ergebnisse einer multiplen linearen Regression bei Vorhandensein eines Suppressionseffektes

Wählen Sie nun im Menü bitte Datensatz 4 aus. Wir möchten uns anhand dieses Datensatzes mit Suppressionseffekten beschäftigten. Von einem Suppressionseffekt spricht man immer dann, wenn einzelne Prädiktoren den Vorhersagewert anderer Prädiktoren erhöhen, indem sie unerwünschte Varianzanteile dieser Variablen unterdrücken.

a) Multikollinearitätsmaße

Schauen Sie sich die Tabelle der Multikollinearitätsmaße an. Welche Hinweise auf Multikollinearität können Sie erkennen?


Die Werte des VIF sind für Prädiktor 1 und 2 relativ hoch. Die Werte der Toleranz dieser Prädiktoren sind zudem relativ klein.



b) Ergebnisse der Korrelations- und Regressionsanalyse

Betrachten Sie nun die Ergebnisse der Korrelations- und Regressionsanalyse. Welche Hinweise auf das Vorliegen eines Suppressionseffektes erkennen Sie?


Die Korrelation zwischen den Prädiktoren 1 und 2 ist hoch. Prädiktor 1 besitzt außerdem eine signifikante Korrelation mit dem Kriterium, Prädiktor 2 jedoch nicht. Obwohl er nicht signifikant mit dem Kriterium korreliert, besitzt Prädiktor 2 im Rahmen der Regressionsanalyse einen signifikanten Regressionskoeffizienten.



c) Entfernung von Prädiktoren aus der Regressionsanalyse

Entfernen Sie zunächst Prädiktor 2 aus der Analyse. Welche Veränderungen treten auf?


Die Entfernung von Prädiktor 2 führt zu einer bedeutsamen Reduktion des Bestimmtheitsmaßes. Zudem besitzt auch Prädiktor 1 nach Entfernen von Prädiktor 2 keinen signifikanten Regressionskoeffizienten mehr. Die Multikollinearitätsstatistiken liefern keine Hinweise auf Multikollinearität mehr.



Nehmen Sie Prädiktor 2 nun wieder in die Regressionsanalyse auf und entfernen sie stattdessen Prädiktor 1. Welche Auswirkungen beobachten Sie?


Die Entfernung von Prädiktor 1 führt dazu, dass keine Hinweise auf Multikollinearität innerhalb der Multikollinearitätsstatistiken mehr zu erkennen sind. Zudem besitzt Prädiktor 2 keinen signifikanten Regressionskoeffizienten mehr.



d) Schlussfolgerung

Wie interpretieren Sie die bisherige Auswertung der Multikollinearitätsmaße, die Ergebnisse der Korrelations- und Regressionsanalyse sowie die Veränderungen durch die Entfernung von Prädiktoren?


Es liegt ein Suppressionseffekt vor. Prädiktor 2 unterdrückt unerwünschte Varianzanteile von Prädiktor 1 und führt so zu einer bedeutenden Zunahme des Bestimmtheitsmaßes und der statistischen Signifikanz des Regressionskoeffizienten von Prädiktor 1. Prädiktor 2 besitzt jedoch nur im Zusammenwirken mit Prädiktor 1 eine entscheidende Rolle in der Regressionsanalyse.


5. Analyse eines Datensatzes auf Hinweise von Multikollinearitätseffekten

Wählen Sie im Menü nun bitte Datensatz 5 aus und analysieren Sie diesen bezüglich möglicher Hinweise auf Multikollinearitätseffekte. Beachten Sie dazu sowohl die Multikollinearitätsmaße, die Ergebnisse der Korrelations- und Regressionsanalyse und mögliche Veränderungen durch die Entfernung einzelner Prädiktoren. Sollten Sie dabei Schwierigkeiten haben, können Sie den Button Hinweise auf Multikollinearität unter der Überschrift Anzeigeoptionen aktivieren.


Die Werte des VIF sowie der Toleranz aller Prädiktoren liefern Hinweise auf mögliche wechselseitige Abhängigkeiten der Prädiktoren.

Die Prädiktoren 1 und 2 besitzen eine hohe Korrelation. Beide korrelieren zudem signifikant hoch mit dem Kriterium. Im Rahmen der Regressionsanalyse erhalten jedoch beide keinen signifikanten Regressionskoeffizienten. Entfernt man Prädiktor 1 oder Prädiktor 2 aus der Regression, erhält der jeweils andere Prädiktor im Rahmen der Regressionsanalyse einen signifikanten Regressionskoeffizienten. Das Bestimmtheitsmaß R2 wird dabei jeweils kaum reduziert.

Die Korrelation zwischen den Prädiktoren 3 und 4 ist hoch. Prädiktor 3 besitzt außerdem eine signifikante Korrelation mit dem Kriterium, Prädiktor 4 jedoch nicht. Obwohl er negativ und nicht signifikant mit dem Kriterium korreliert, besitzt Prädiktor 4 im Rahmen der Regressionsanalyse ein positives signifikantes β-Gewicht. Die Entfernung von Prädiktor 3 führt dazu, dass auch Prädiktor 4 keinen signifikanten Regressionskoeffizienten mehr besitzt und das Bestimmtheitsmaß R2 sinkt. Nach der Wiederaufnahme von Prädiktor 3 ins Modell, führt auch die Entfernung von Prädiktor 4 zu einer Reduktion des Bestimmtheitsmaßes, diese ist jedoch kleiner. Die Signifikanz des Regressionskoeffizienten 3 bleibt erhalten, jedoch nimmt dessen β-Gewicht ab.



Wie interpretieren Sie diese Ergebnisse? Welche Multikollinearitätseffekte liegen vor?


Die Prädiktoren 1 und 2 sind redundant. Außerdem liegt ein Suppressionseffekt vor. Prädiktor 4 unterdrückt dabei unerwünschte Varianzanteile von Prädiktor 3.