Einfache lineare Regression bei metrischem Prädiktor


1. Stärke des Zusammenhangs

Starten Sie die App unter den Standardeinstellungen aller Sliderwerte. Wenn Sie bereits Veränderungen vorgenommen haben, können Sie die Standardeinstellungen wiederherstellen, indem Sie die Seite neu laden.

Aktivieren Sie unter Anzeigeoptionen die Einstellung Regressionsgerade anzeigen und variieren Sie die Einstellung des Sliders Korrelation zwischen Prädiktor und Kriterium. Beobachten Sie, welche Form die entstehende Punktewolke verhält und sich die Regressionsgerade dazu verhält. Was können Sie beobachten?


Je größer die absolute Stärke des Zusammenhangs gewählt wird, desto enger liegen die Punkte um die eingezeichnete Regressionsgerade. Die Gerade steigt bei positiven Korrelationskoeffizienten und fällt bei negativen.



2. Regressionskoeffizienten und Zentrierung

Aktivieren Sie unter Anzeigeoptionen Ergebnistabelle anzeigen. Welche Veränderungen in den Regressionskoeffizienten können Sie beobachten, wenn Sie die Stärke des Zusammenhangs zwischen Prädiktor und Kriterium variieren?


Bei einer Korrelation von 0 zwischen Prädiktor und Kriterium beträgt auch der Regressionskoeffizient b1 0. Der Regressionskoeffizient b0 beträgt 35, was dem vorhergesagten Wert des Kriteriums bei einer Ausprägung des Prädiktors von 0 entspricht.

Für positive Korrelationen zwischen Prädiktor und Kriterium ergibt sich ein positiver Regressionskoeffizient b1, der in dem vorliegenden Beispiel ungefähr der Korrelation zwischen Prädiktor und Kriterium entspricht. Der Regressionskoeffizient b0 wird mit zunehmender Stärke der Korrelation immer kleiner, das heißt, für eine Prädiktorausprägung von 0 werden für positive Korrelationen immer niedrige Werte des Kriteriums vorhergesagt. Bei negativen Korrelationen zwischen Prädiktor und Kriterium verhält es sich umgekehrt, b0 wird größer, je stärker die negative Korrelation ist. b1 entspricht weiterhin der Stärke der Korrelation zwischen Prädiktor und Kriterium.



Was verändert sich durch die Zentrierung des Prädiktors?


Durch die Zentrierung des Prädiktors entspricht der Mittelwert der Prädiktorvariable nunmehr 0, was sich unmittelbar auf den Regressionskoeffizienten b0 auswirkt. Dieser beträgt nach der Zentrierung für alle Korrelationen zwischen Prädiktor und Kriterium nun in etwa 35, was dem vorhergesagten Wert des Kriteriums bei mittlerer Prädiktorausprägung entspricht.



3. Prüfung der Voraussetzungen

a) Normalverteilung der Modellfehler

Wählen Sie eine Korrelation von 0.8 zwischen Prädiktor und Kriterium. Deaktivieren Sie die Einstellung Prädiktor zentrieren und aktivieren Sie unter Prüfung der Voraussetzungen die Einstellung Normalverteilung der Modellfehler. Was sehen Sie?


Im Q-Q-Plot werden die theoretischen Quantile einer Normalverteilung gegen die empirischen Quantile der vorliegenden Verteilung abgetragen. Im vorliegenden Fall liegen die Datenpunkte annähernd auf der eingezeichneten Diagonale und der p-Wert der Teststatistik des Shapiro-Wilk Tests ist nicht signifikant (p=0.686). Beides spricht für normalverteilte Modellfehler.



Fügen Sie nun einen Ausreißer in der oberen linken Ecke des Streudiagramms ein und beobachten Sie, welche Veränderungen hierdurch im Q-Q-Plot auftreten. Schauen Sie auch auf Veränderungen im Streudiagramm und bei den Regressionskoeffizienten.


Der Ausreißer in der linken oberen Ecke des Streudiagramms erscheint im Q-Q-Plot in der rechten oberen Ecke, sein empirisches Quantil weicht also vom theoretischen Quantil stark nach oben ab. Die Teststatistik des Shapiro-Wilk-Tests ist nunmehr signifikant, es liegen folglich keine normalverteilten Modellfehler mehr vor. Der Ausreißer verzerrt auch die Schätzung der Regressionsgerade, was im Streudiagramm ersichtlich wird. Ihr Anstieg wird flacher, was sich auch am Regressionskoeffizienten b1 zeigt, der nun deutlich niedriger geschätzt wird. Das Bestimmmtheitsmaß R2 nimmt von vormals 0.64 durch den Ausreißer ebenfalls deutlich ab.



b) Homoskedastizität

Stellen Sie eine Korrelation von 0.9 ein und entfernen Sie den zusätzlichen Punkt im Streudiagramm, indem Sie den Button alle hinzugefügten Punkte löschen auswählen. Aktivieren Sie unter Prüfung der Voraussetzungen Homoskedastizität. Was können Sie im Plot der Modellfehler sehen?


Im Diagramm sind die Residuen bzw. die Modellfehler gegen die vorhergesagte Werte des Prädiktors abgetragen. Im vorliegenden Fall sind die Modellfehler über alle Bereiche der vorhergesagten Werte gleichverteilt und der Goldfeldt-Quandt-Test ist nicht signifikant (p=0.263), sodass von Homoskedastizität ausgegangen werden kann.



Fügen Sie nun zwei zusätzliche Punkte hinzu, Punkt 1 bei einem Prädiktorwert von 65 und einem Kriteriumswert von 20 und Punkt 2 bei einem Prädiktorwert von 65 und einem Kriteriumswert von 45. Was verändert sich hierdurch?


Der Goldfeldt-Quandt-Test ist nun signifikant, lehnt also die Nullhypothese von Homoskedastizität der Modellfehler ab. Nunmehr liegt also Heteroskedastizität vor, die Modellfehler sind nicht mehr gleichverteilt über Wertebereich der vorhergesagten Werte.


4. Robuste Verfahren

a) Robuste Standardfehler

Behalten Sie die Einstellungen aus Aufgabe 3b bei. Beobachten Sie, welche Veränderungen durch die Verwendung robuster Standardfehler auftreten.


Durch die Verwendung robuster Standardfehler verändern sich die Standardfehler der Regressionskoeffizienten und daraus folgend die t- und p-Werte der entsprechenden Signifikanztests. Die Schätzungen der Regressionskoeffizienten selbst bleiben unberührt.



b) Einfluss von Ausreißerwerten

Löschen Sie alle hinzugefügten Punkte und wählen Sie eine Korrelation zwischen Prädiktor und Kriterium von 0.8. Fügen Sie einen Ausreißer in der linken oberen Ecke des Streudiagramms ein. Beobachten Sie, welche Auswirkungen in diesem Fall das Verwenden einer robusten Regression gegenüber keinem robusten Verfahren hat.


Das Verwenden einer robusten Regression hat Auswirkungen auf die Schätzungen der Regressionskoeffizienten, der Standardfehler, der Signifikanztests der Koeffizienten und das Bestimmtheitsmaß. Bei der robusten Regression verlieren Ausweißer ihr Gewicht, wodurch die Schätzer der Regressionskoeffizienten in ihrer Gegenwart weniger verzerrt werden. Der Regressionskoeffizient b1 entspricht so im vorliegenden Beispiel weiterhin in etwa der eingestellten Korrelation zwischen Prädiktor und Kriterium von 0.9.