Einfache lineare Regression bei dichotomen bzw. kategorialen Prädiktor


1. Dummycodierung und die Effekte unterschiedlich starker Korrelationen

Starten Sie die App unter den Standardeinstellungen aller Sliderwerte. Wenn Sie bereits Veränderungen vorgenommen haben, können Sie die Standardeinstellungen wiederherstellen, indem Sie die Seite neu laden. Variieren Sie den Slider Korrelation zwischen Prädiktor und Kriterium. Welche Veränderungen ergeben sich zwischen den beiden dargestellten Gruppen und in der Regressionsanalyse?


Mit einer Verschiebung des Sliders nach rechts werden stärkere positive Korrelationen mit dem Kriterium simuliert. Der Mittelwerte von Gruppe 1 und Gruppe 2 unterscheiden sich zunehmend stärker. Die Mittelwertdifferenz der beiden Gruppen entspricht aufgrund der ausgewählten Dummykodierung dem Regressionskoeffizienten der Variable Dummy 1. Beim Verschieben des Sliders nach links werden zunächst schwächere positive Korrelationen und dann negative Korrelationen mit dem Kriterium simuliert. Das Bestimmtheitsmaß R2 der Regressionsanalyse entspricht in etwa dem Quadrat der eingestellten Korrelation zwischen Prädiktor und Kriterium.



Kodierungen bei dichotomen Prädiktoren


2. Dummy- und Effektkodierung

Wählen Sie als Korrelation zwischen Prädiktor und Kriterium - 0.6 und wechseln sie dabei die Kodierung zwischen Dummykodierung und Effektkodierung. Welche Veränderung können Sie beobachten?


Bei der Dummykodierung entspricht der Regressionskoeffizient b1 zur Variable Dummy 1 dem Mittelwertunterschied beider Gruppen von - 4.59. Die Regressionskonstante b0 entspricht dem Mittelwert der mit 0 kodierten Referenzgruppe, hier Gruppe 1, mit dem Mittelwert 101.99.

Durch die Veränderung der Kodierung verändern sich die Regressionskoeffizienten b0 und b1. Bei der Effektkodierung ist die Kontrastmatrix so gewählt, dass der Regressionskoeffizient b1 von Dummy 1 der Abweichung des Mittelwerts von der mit 1 kodierten Gruppe (hier Gruppe 2) und dem Mittelwert der Mittelwerte beider Gruppen entspricht. Entsprechend ergeben sich b0 = 99.69 und b1 = 2.3, welche statistisch getestet werden können. Das Bestimmtheitsmaß R2 ändert sich durch die veränderte Kodierung nicht. Entsprechende Erklärungen zur Interpretation der Regressionskoeffizienten können Sie unter der Anzeigeoption Interpretationshilfen anzeigen aktivieren.



3. Helmertkodierung und umgekehrte Helmertkodierung

Deaktivieren Sie die Option Interpretationshilfen anzeigen und wählen Sie als nächstes die Helmertkodierung aus. Wie unterscheidet sich diese bei zwei Gruppen von der Effektkodierung?


Die Regressionskonstante b0 entspricht wie bei der Effektkodierung weiterhin dem Mittelwert der Mittelwerte der beiden Gruppen. Durch die halbierten Kontrastgewichte gegenüber der Effektkodierung entspricht der Regressionskoeffizient b1 von Dummy 1 nunmehr der Differenz der Gruppenmittelwerte von Gruppe 1 und 2.



Was ändert sich durch die Auswahl der umgekehrten Helmertkodierung?


Bei der umgekehrten Helmertkodierung werden die Kontrastgewichte von Gruppe 1 und 2 umgekehrt. Dadurch ändert sich das Vorzeichen des Regressionskoeffizienten b1 der Variable Dummy 1.



Kodierungen bei kategorialen Prädiktoren


4. Dummykodierung

Wählen Sie unter Auswahl des Prädiktors kategorialer Prädiktor mit 3 Stufen aus. Setzen Sie die Korrelation zwischen Prädiktor und Kriterium auf - 0.4 und wählen Sie als Kodierung die Dummykodierung. Betrachten Sie die Kontrastmatrix. Wie sind die Regressionskoeffizienten in diesem Beispiel zu interpretierten?


Aus der Kontrastmatrix lässt sich ablesen, dass Gruppe 1 die Referenzgruppe ist, da sie in beiden Dummyvariablen mit 0 kodiert ist. Ihr Mittelwert von 101.64 entspricht damit der Regressionskonstante. Gruppe 2 ist in Dummy 1 mit 1 kodiert und in Dummy 2 mit 0. Der Regressionskoeffizient b1 von Dummy 1 von - 1.67 entspricht also der Abweichung des Mittelwerts von Gruppe 2 zum Mittelwert der Referenzgruppe, Gruppe 1. Gruppe 3 ist in Dummy 1 mit 0 kodiert und in Dummy 2 mit 1, d.h. der Regressionskoeffizient von Dummy 2, - 4.3, entspricht der Abweichung des Mittelwerts von Gruppe 3 Mittelwert der Referenzgruppe, Gruppe 1. Dieser Unterschied wird auf einem α-Niveau von 0.05 statistisch signifikant (p = 0.032), der Unterschied zwischen Gruppe 2 und Gruppe 1 nicht (p = 0.283).



Was kann mit dieser Kodierung über den Mittelwertunterschied zwischen Gruppe 2 und Gruppe 3 gesagt werden?


Ob die Mittelwerte von Gruppe 2 und Gruppe 3 statistisch signifikant verschieden voneinander sind, lässt sich mit dieser Kodierung nicht feststellen.



5. Effektkodierung

Wählen Sie nun die Effektkodierung aus. Was verändert sich gegenüber der Dummykodierung?


Durch eine Veränderung der Kodierung können andere Kontraste statistisch geprüft werden. Bei der vorliegenden Effektkodierung können die Mittelwerte von Gruppe 2 und Gruppe 3 gegen den gemeinsamen Mittelwert der Mittelwerte aller drei Gruppen getestet werden. Die Abweichung des Mittelwerts von Gruppe 2 wird dabei von Dummy 1 kodiert und entspricht dem Regressionskoeffizienten b1, sie entspricht in diesem Fall 0.32. Dieses Abweichung ist nicht statistisch signifikant (p=0.728). Dummy 2 kodiert die Differenz zwischen dem Mittelwert von Gruppe 3 und dem Gesamtmittelwert aller drei Gruppen. Der entsprechende Regressionskoeffizient b2 ist - 2.31, dieser wird auf einem α-Niveau von 0.05 signifikant (p = 0.049).



Wie lässt sich aus der Regressionsgleichung und der Kontrastmatrix der Mittelwert von Gruppe 1 berechnen?


Der Mittelwert von Gruppe 1 lässt sich berechnen, indem die Kontrastgewichte von Gruppe 1 anstelle von Dummy 1 und 2 in die Regressionsgleichung eingesetzt werden. Dieses führt zu 99.65 + 0.32 *(-1) - 2.31 * (-1) = 101.64.



Wie könnte man mit einer Effektkodierung überprüfen, ob sich der Mittelwert von Gruppe 1 signifikant von dem Gesamtmittelwert aller Gruppen unterscheidet?


Es müsste die Kontrastmatrix verändert werden. Beispielsweise könnten die Kontrastgewichte von Gruppe 1 und Gruppe 3 getauscht werden. Dann entspräche der Regressionskoeffizient b2 der Variable Dummy 2 nunmehr der Abweichung von Gruppe 1 und dem Gesamtmittelwert aller Gruppen. Der t-Test dieses Koeffizienten würde Abschluss über die statistische Signifikanz der Abweichung geben.



6. Helmertkodierung

Wählen Sie nun die Helmertkodierung aus. Welche Vergleiche können mit dieser Kodierung statistisch geprüft werden? Sind sie statistisch signifikant?


Bei der Helmertkodierung kann mit der Variable Dummy 1 die Abweichung zwischen dem Mittelwert von Gruppe 1 und dem Durchschnitt der Mittelwerte von Gruppe 2 und 3 statistisch geprüft werden. Die Differenz von b1 = 2.99 ist in diesem Fall statistisch nicht signifikant (p = 0.052). Mit der Variable Dummy 2 wird die Abweichung der Mittelwerte von Gruppe 2 und Gruppe 3 geprüft. Der Regressionskoeffizient von b2 = 2.63 ist hier ebenfalls nicht signifikant. Die Regressionskonstante b0 entspricht dem gemeinsamen Mittelwert aller Gruppen.



Wie lässt sich aus der Regressionsgleichung und der Kontrastmatrix der Mittelwert von Gruppe 2 berechnen?


Der Mittelwert von Gruppe 2 lässt sich berechnen, indem die Kontrastgewichte von Gruppe 2 anstelle von Dummy 1 und 2 in die Regressionsgleichung eingesetzt werden. Dieses führt zu 99.65 + 2.99 *(- 0.33) - 2.63 * 0.5 = 99.97.



7. Umgekehrte Helmertkodierung

Die Mittelwerte welcher Gruppen können mit der umgekehrten Helmertkodierung statistisch geprüft werden?


Mithilfe der Variable Dummy 1 kann die Abweichung der Mittelwerte von Gruppe 1 und Gruppe 2 statistisch geprüft werden. Mithilfe der Variable Dummy 2 kann die Abweichung des Durchschnitts der Mittelwerte von Gruppe 1 und Gruppe 2 vom Mittelwert von Gruppe 3 geprüft werden.



Ergibt sich bei gewählten Vergleichen einen signifikanten Unterschied?


Ja, der gemeinsame Mittelwert von Gruppe 1 und 2 unterscheidet sich um - 3.47 signifikant vom Mittelwert von Gruppe 3 (p = 0.049).