Grundlagen der multiplen linearen Regression


Grundlagen der multiplen linearen Regression



1. Voraussetzungen einer multiplen linearen Regression

Die Durchführung einer multiplen linearen Regression erfordert die Festlegung von Prädiktor- und Kriteriumsvariablen, die Gültigkeit des linearen Modells, statistische Unabhängigkeit der Modellfehler und eine Normalverteilung der Modellfehler nach N(0,σ2).

a) Normalverteilung der Modellfehler

Wählen Sie zunächst Datensatz 1 aus und überprüfen Sie das Vorliegen von normalverteilten Modellfehlern. Was können Sie in der entsprechenden Abbildung erkennen?


Die Abbildung stellt einen sogenannten QQ-Plot dar. Hierbei werden die Quantile der empirischen Verteilung (in diesem Fall die Quantile der Modellfehler) den Quantilen der Standardnormalverteilung gegenübergestellt. Da die resultierende Punktwolke eine gerade Linie bildet, sind die Modellfehler annähernd normalverteilt.



Wählen Sie nun Datensatz 3 aus und überprüfen Sie erneut das Vorliegen normalverteilter Modellfehler. Welche Veränderung beobachten Sie nach Entfernung von Prädiktor 2?


Unter der Bedingung, dass alle Prädiktoren ins Modell aufgenommen werden, erkennen wir im QQ-Plot eine Punktwolke, welche eine gerade Linie bildet. Die Modellfehler sind somit annähernd normalverteilt. Wird Prädiktor 2 aus der Analyse entfernt, bildet die Punktwolke keine gerade Linie mehr. Es kann nicht mehr davon ausgegangen werden, dass die Modellfehler normalverteilt sind.



b) Homoskedastizität / Heteroskedastizität

Aktivieren Sie erneut Datensatz 1 und betrachten Sie die grafische Darstellung zur Überprüfung von Homoskedastizität. Was können Sie erkennen?


Mithilfe der Abbildung ist erkennbar, dass die Varianzen der Modellfehler unabhängig von den konkreten Werten der Prädiktoren sind und somit Homoskedastizität vorliegt. Dies erkennt man in der Abbildung konkret daran, dass die Streuung der z-standardisierten Residuen unabhängig von den vorhergesagten z-standardisierten Werten ist.



Entscheiden Sie sich für die Darstellung von Datensatz 5 und betrachten Sie auch für diese Daten die Abbildung zur Prüfung der Homoskedastizität. Was fällt Ihnen auf?


Die Streuung der z-standardisierten Residuen ist nicht unabhängig von den vorliegenden z-standardisierten vorhergesagten Werten. Es liegt somit Heteroskedastizität vor.



2. Ergebnisse der multiplen linearen Regression

Nun möchten wir uns genauer mit den Ergebnissen der multiplen linearen Regression beschäftigen. Wählen Sie dazu bitte Datensatz 2 aus.

a) Bedeutung der Regressionskoeffizienten und deren Standardfehler

Welche Bedeutung haben die Regressionskoeffizienten, welche im Rahmen der multiplen linearen Regression ermittelt werden? Welche Bedeutung vermuten Sie? Welche Information erhalten wir durch die Standardfehler der Regressionskoeffizienten?


Die Regressionskoeffizienten können zur Vorhersage der Werte des Kriteriums benutzt werden, indem bei gegebenen Werten der vier Prädiktoren zur Schätzung für den Wert des Kriteriums die folgende Formel angewandt wird: 2.86 + 0.04 * Wert von Prädiktor 1 + 0.17 * Wert von Prädiktor 2 + 0.01 * Wert von Prädiktor 3 + 0.35 * Wert von Prädiktor 4. Der Standardfehler eines Regressionskoeffizienten stellt ein Maß für die Genauigkeit der Schätzung dieses Koeffizienten dar.



b) Signifikanzprüfung der Regressionskoeffizienten

Wie kann überprüft werden, ob ein Regressionskoeffizient signifikant von Null verschieden ist?


Die Signifikanzprüfung der Regressionskoeffizienten erfolgt mithilfe eines t-Tests. Es wird die Nullhypothese getestet, welche besagt, dass der Regressionskoeffizient den Wert Null besitzt. Der t-Wert des Tests ergibt sich als Quotient des berechneten Regressionskoeffizienten und seines Standardfehlers. Anhand dieses t-Wertes erfolgt die Ermittlung des p-Wertes, aus dem Vergleich des p-Werts mit dem α-Niveau folgt dann das Urteil zur statistischen Signifikanz.



c) Bestimmtheitsmaß R2

Welche Information liefert das Bestimmtheitsmaß R2? Wie verändert sich dessen Wert, wenn Sie beispielsweise Prädiktor 4 aus der Analyse entfernen?


Das Bestimmtheitsmaß R2 gibt an, wie viel Prozent der Varianz des Kriteriums durch die Prädiktoren aufgeklärt werden kann. Entfernen wir einen Prädiktor 4 aus der Analyse, nimmt das Bestimmtheitsmaß R2 von 0.25 auf 0.15 ab.



3. Transformation der Variablen

a) Zentrierung der Prädiktoren

Eine Zentrierung aller Prädiktoren wird realisiert, indem von jedem Wert der Prädiktoren der Mittelwert über alle Probanden des jeweiligen Prädiktors abgezogen wird. Welchen Mittelwert besitzen die Prädiktoren nach der Zentrierung? Welchen Einfluss hat die Zentrierung auf die Standardabweichung der Prädiktoren?


Der Mittelwert aller Prädiktoren nach der Zentrierung beträgt Null. Die Zentrierung hat keinen Einfluss auf die Standardabweichung der Prädiktoren, diese bleiben somit unverändert.



Zur Veranschaulichung der Folgen einer Zentrierung aller Prädiktoren wählen Sie bitte Datensatz 2 aus. Welche Veränderungen aufgrund dieser Transformation vermuten Sie? Überprüfen Sie ihre Vermutungen indem Sie den Button Transformation der Variablen aktivieren und sich anschließend für eine Zentrierung aller Prädiktoren entscheiden.


Durch die Zentrierung aller Prädiktoren verändern sich der Wert der Regressionskonstanten, ihr Standardfehler sowie das Ergebnis des Signifikanztests der Regressionskonstanten. Die Regressionskonstante repräsentiert nun den erwarteten Wert des Kriteriums bei durchschnittlichen Werten aller Prädiktoren.



b) Standardisierung (z-Transformation) aller Variablen

Eine Standardisierung aller Variablen kann erfolgen, indem von allen Variablen der jeweilige Variablenmittelwert abgezogen und die Differenz durch die Standardabweichung der entsprechenden Variablen dividiert wird. Welche Mittelwerte und Standardabweichungen besitzen die Variablen nach der z-Transformation?


Nach der z-Transformation besitzen alle Variablen den Mittelwert 0 und die Standardabweichung 1.



Zur Veranschaulichung der Folgen einer Standardisierung aller Variablen wählen Sie bitte Datensatz 1 aus. Welche Veränderungen aufgrund dieser Transformation vermuten Sie? Überprüfen Sie Ihre Vermutungen indem Sie den Button Transformation der Variablen aktivieren und sich anschließend für eine Standardisierung aller Variablen entscheiden.


Die Durchführung der Standardisierung aller Variablen kann zu einer Veränderung aller Regressionskoeffizienten und ihrer Standardfehler sowie zu einer Veränderung des Ergebnisses der Signifikanzprüfung der Regressionskonstanten führen. Die Ergebnisse der Signifikanztests der Prädiktoren bleiben unverändert. Die Regressionskoeffizienten entsprechen nun den β-Gewichten. Anhand dieser Koeffizienten ist es möglich, zu entscheiden, welcher Prädiktor den größten Einfluss innerhalb der Regression besitzt.


4. Regression mit robusten Standardfehlern

Ist die Voraussetzung der Homoskedastizität nicht erfüllt, wie es beispielsweise in Datensatz 5 der Fall ist, sollte eine Regression mit robusten Standardfehlern durchgeführt werden. Mit dieser Methode werden die Standardfehler berechnet, ohne dass Homoskedastizität vorausgesetzt wird. Welche Veränderungen in den Ergebnissen der Regression durch dieses Verfahren vermuten Sie? Überprüfen Sie Ihre Vermutung, indem Sie Datensatz 5 auswählen, die Transformationen der Variablen deaktivieren und den Button Regression mit robusten Standardfehlern aktivieren.


Die Regressionskoeffizienten sowie die β-Gewichte verändern sich nicht. Es resultieren aber andere Werte der Standardfehler und somit auch veränderte Ergebnisse der Signifikanztests.