Lineare Regression in R

Sebastian Kunzmann
28. Dez. 2023
7 Min. Lesezeit

Die lineare Regression gehört sicherlich zu den wichtigsten statistischen Verfahren. Bekannte statistische Verfahren, wie die Varianzanalyse (ANOVA) oder der t-Test, sind letztendlich nur Spezialfälle des linearen Regressionsmodells. Die lineare Regression modelliert grundsätzlich den linearen Zusammenhang zwischen einer metrischen Zielvariable und mindestens einer unabhängigen Variable. Liegt nur eine unabhängige Variable im linearen Regressionsmodell vor, so wird von der einfachen linearen Regression und bei mehreren unabhängigen Variablen von der multiplen linearen Regression gesprochen. Bei den unabhängigen Variablen kann es sich sowohl um metrische als auch um kategoriale Variablen handeln. Dementsprechend können mit

Hilfe des linearen Regressionsmodells sowohl Mittelwertunterschiede zwischen Gruppen als auch lineare Zusammenhänge analysiert werden.

Sie benötigen beratende Hilfe bei Ihrer statistischen Auswertung in R oder möchten eine komplette R Auswertung inkl. Interpretationen bestellen, dann zögern Sie nicht uns zu kontaktieren (Kontaktdaten unten rechts). Unsere Experten helfen Ihnen gerne weiter (kostenloses unverbindliches Erstgespräch)!

Grundprinzip der linearen Regression

Zur Veranschaulichung des Prinzips betrachten wir das einfache lineare Regressionsmodell mit dem in folgender Abbildung beschriebenen datengenerierenden Prozess (DGP). Der DGP stellt eine Annahme dar und beschreibt, wie sich die Zielvariable in der realen Welt ergibt. Wir nehmen also an, dass sich die abhängige Variable (y) von Person i aus dem Produkt der unabhängigen Variable (x) von Person i und dem Parameter b zuzüglich dem Fehlerterm Epsilon von Person i ergibt. Auf Basis der uns vorliegenden Stichprobe können wir nun den Zusammenhang zwischen x und y analysieren, indem wir die Steigung b der Gerade schätzen.

Scatterplot mit einfacher linearer Regressionslinie zur Veranschaulichung des Prinzips der linearen Regression

Hierzu wird b so bestimmt, dass die Residuenquadratsumme minimiert wird. Die Residuen sind die geschätzten Fehlerterme und ergeben sich aus der Differenz von y und dessen Schätzung (blaue Linie). Grafisch bedeutet dies, dass die lineare Regression die Summe der quadrierten in grau gestrichelten vertikalen Abstände minimiert. Diese Schätzmethode wird daher auch als Kleist-Quadrate-Schätzung (KQ-Schätzung) bezeichnet.

Nachdem eine Schätzung für den Regressionskoeffizient b vorliegt, kann mit Hilfe eines t-Tests untersucht werden, ob diese Schätzung sich z.B. statistisch signifikant von Null unterscheidet.

Voraussetzungen der linearen Regression

Vor der Demonstration in R möchten wir über die Annahmen des linearen Regressionsmodells sprechen. Neben einer metrischen Zielvariable sollten folgende Annahmen vorliegen:

Linearität (auch: korrekte Spezifikation)

Die Beziehung zwischen der abhängigen und jeder unabhängigen Variablen muss linear in den Parametern sein. Nichtlineare Beziehungen können häufig über eine Variablentransformation (z.B. log-Transformation) in eine lineare Beziehung umgewandelt werden.

Keine perfekte Multikolinearität

Diese Annahme fordert, dass keine der unabhängen Variablen eine exakte Linearkombination der anderen unabhängigen Variablen darstellt. Bei Verletzung dieser technischen Annahme würde sich der KQ-Schätzer nicht mehr berechnen lassen. In der Praxis spielt die Extremform der perfekten Multikolinearität keine große Rolle. Allerdings sollte darauf geachtet werden, dass kein zu großer Grad an Multikolinearität zwischen den unabhängigen Variablen vorliegt. Falls nämlich einzelne unabhängige Variablen stark miteinander korreliert sind, ist die KQ-Methode nicht mehr in der Lage, den Effekt einer Variablen richtig zuzuordnen. Konkret bedeutet dies, dass die Schätzunsicherheit ansteigt.

Homoskedastische und unkorrlierte Fehler

Homoskedastische Fehler liegen vor, wenn die bedingte Varianz der Fehler konstant ist. Im Falle einer Verletzung dieser Annahme (heteroskedastische Fehler) sind die geschätzten Regressionskoeffizienten zwar weiterhin richtig, allerdings sind die Standardfehler der geschätzten Regressionsparameter verfälscht. Da der Standardfehler z.B. für den t-Test zur Analyse der statistischen Signifikanz des Parameters benötigt wird, stellt dies ein Problem dar. Abhilfe kann in diesem Fall u. a. die Berechnung von heteroskedastierobusten Standardfehlern schaffen.

Korrelierte Fehler spielen insbesondere dann eine Rolle, wenn Beobachtungen zu verschiedenen Zeitpunkten vorliegen (z.B. Zeitreihe, Paneldatensatz). Allerdings können Fehler auch in einem Querschnittsdatensatz korreliert sein. (In unserem Beispiel unten könnte dies z.B. der Fall sein, wenn einige der untersuchten Personen Mitglieder derselben Familie sind.)

Normalverteilte Fehlerterme

Im Falle einer kleinen Stichprobe sollten die Residuen der linearen Regression einer Normalverteilung folgen. Bei größeren Stichproben wird die Normalverteilungsannahme aufgrund des zentralen Grenzwertsatzes nicht benötigt. Eine große Stichprobe liegt gemäß einer Faustregel ab einer Stichprobengröße i. H. v. 30 vor. Eine Verletzung der Normalverteilungsanname hat keine Auswirkungen auf die Schätzungen der Regressionskoeffizienten, sondern spielt nur für die anschließend durchgeführten inferenzstatistischen Analysen eine Rolle. (Empfehlung: Verlassen Sie sich - außer im Falle einer sehr großen Stichprobe - nicht auf den zentralen Genzwertsatz, sondern greifen Sie im Zuge der Inferenzstatistik auf Verfahren wie Bootstrapping zurück.)

Keine starken Ausreißer

Es sollte keine starken Ausreißer vorliegen, die deutlichen Einfluss auf die Schätzungen der Regressionskoeffizienten haben und diese somit verzerren.

Datensatz

Um die Reproduzierbarkeit der durchgeführten statistischen Analysen sicherzustellen, verwenden wir den Datensatz pirates aus dem R-Paket yarrr . Um die entsprechenden Daten aus der Umfrage unter 1.000 Piraten zu erhalten, installieren und laden wir zunächst das Paket und rufen anschließend den Befehl data(pirates) auf.

Für uns sind lediglich die metrischen Variablen weight [kg] und height [cm] sowie die nominale Variable sex von Relevanz, da wir untersuchen möchten, ob die Körpergröße und das Geschlecht Einfluss auf das Körpergewicht haben. Um den Umfang des Artikels zu begrenzen, verzichten wir hier auf eine deskriptive Voranalyse. Im Zuge dieser werden i.d.R. gängige deskriptive Statistiken und Grafiken (z.B. Histogramme) sowie bivariate Zusammenhangsanalysen (Korrelationen, Streudiagramme, Boxplots) betrachtet.

Multiple lineare Regression in R

Die Durchführung der multiplen linearen Regression erfolgt in R mit dem lm( ) -Befehl. Hiezu übergeben wir dem linaren Modell eine Regressionsgleichung (in der Form: y ~ x1 + x2) sowie den Datensatz. Die Ausgabe der wesentlichen Ergebnisse der KQ-Schätzung, welche im Bsp. im Objekt my_model gespeichert wurden, erhält man durch die Anwendung des summary( )-Befehls.

R-Code und Output der multiplen linearen Regressionsanalyse

Interpretation der Ergebnisse des multiplen linearen Regressionsmodells

Eigentlich sollten vor der Interpretation der Ergebnisse zunächst die Annahmen des multiplen linearen Regressionsmodells geprüft werden. Wir nehmen nun erst einmal an, dass die Annahmen erfüllt sind. Die Überprüfung der Modellannahmen wird später noch nachgeholt.

Das Bestimmtheitsmaß ist ein zwischen 0 und 100 % liegendes Maß für die Modellgüte und verrät uns, dass mit Hilfe des Modells rd. 86,9 % der Varianz des Körpergewichts erklärt werden kann. Aus dem globalen F-Test geht außerdem hervor (P-Wert unter 0,05), dass sich das Bestimmtheitsmaß statistisch signifikant von Null unterscheidet. Alternativ könnte man auch sagen, dass mindestens einer der Regressionskoeffizienten (ohne Konstante) aufgrund des Ablehnens der Nullhypothese statistisch signifikant von Null verschieden ist.

Die P-Werte der zweiseitigen t-Tests geben an, ob der Regressionskoeffizient der jeweiligen Variable statistisch signifikant von Null verschieden ist. Dies ist für die Körpergröße der Fall. Ein Anstieg der Körpergröße um 1 cm, erhöht das Körpergewicht somit im Durchschnitt ceteris paribus um rd. 0,81 kg. Ceteris paribus bedeutet, dass lediglich die Körpergröße um 1 cm erhöht wird und die anderen unabhängigen Variablen unverändert bleiben.

Da es sich beim Geschlecht um eine kategoriale Variable handelt, ist diese in Form sog. Indikatorvariablen (auch: Dummy-Variablen) in das Modell eingegangen. Letztere nehmen immer dann den Wert Eins an, wenn eine Person die entsprechende Eigenschaft annimmt und sind ansonsten Null. Insgesamt werden jeweils (k - 1) Indikatorvariablen erzeugt, wobei k der Anzahl der Ausprägungen der kategorialen Variable entspricht. Im Falle der Erstellung von genau k Indikatorvariablen würde perfekte Multikolinearität vorliegen, falls sich eine Konstante im Modell befindet. Die Indikatorvariablen sind immer gegenüber der Referenzkategorie zu interpretieren. Die Referenzkategorie ist die sich nicht im Modell befindliche Ausprägung. Im obigen Beispiel sind die beiden Indikatorvariablen allerdings nicht statistisch signifikant von Null verschieden. Wäre dies z.B. für den Regressionskoeffizient der Indikatorvariable "männlich" der Fall, dann würde die Interpretation wie folgt lauten: Im Durchschnitt sind mönnliche Piraten c.p. um rd. 0,32 kg schwerer als weibliche Piraten (Referenzkategorie).

Modellvalidierung: Prüfung der Vorraussetzungen der multiplen linearen Regression

Die gerade gezogenen Schlussfolgerungen sind allerdings nur dann valide, wenn die Annahmen der multiplen linearen Regression erfüllt sind. Letzter werden hier grafisch untersucht. Die hierzu notwendigen Plots erhalten wir durch das Aufrufen des plot( )-Befehls.

Plots zur Überprüfung der Annahmen der multiplen linearen Regression (inkl. R-Code)

Im „Residual vs. Fitted" Streudiagramm ist zu erkennen, dass die Punkte relativ unsystematisch um die horizontale Nulllinie streuen. Die rote Linie weicht nur an den dünn besiedelten Rändern etwas von der horizontalen Nulllinie ab. Dies reicht aus allerdings nicht aus, um die Linearitätsannahme zu widerlegen. Die Schwankung der Residuen um die horizontale Nulllinie ist zudem konstant, weshalb die Daten nicht gegen die Annahme homoskedastischer Fehler sprechen.

Im QQ-Plot ist zu sehen, dass die empirischen Quantile der standardisierten Residuen bis auf wenige Ausnahmen am rechten Rand relativ gut mit den theoretischen Quantilen der Standardnormalverteilung übereinstimmen. Die Daten lassen somit nicht auf eine Verletzung der Normalverteilungsannahme der Fehlerterme schließen.

Im untersten Plot der Grafik ist die die Cooksche Distanz für jede Beobachtung visualisiert. Die Cookssche Distanz misst den Einfluss einer Beobachtungen auf die Schätzungen der Regressionskoeffizienten und ermöglicht hierdurch die Identifizierung von Ausreißern oder Beobachtungen, die einen signifikanten Einfluss auf das Modell haben. Der Plot verrät, dass die Beobachtungen 70, 399 und 845 die höchsten Cookschen Abstände aufweisen. Ein Blick in die Daten zeigt, dass es sich dabei jeweils um Piraten des diversen Geschlechts handelt. Dies ergibt Sinn, da diese Klasse mit 46 Beobachtungen nur schwach besetzt ist. Folglich können bereits einzelne Beobachtungen einen starken Einfluss auf den geschätzten Regressionskoeffizient ausüben. Eine Filterung von Fall 70 (Gewicht: 66,6 kg, Größe: 179,80 cm) verringert z.B. den Regressionskoeffizient der Indikatorvariable für das diverse Geschlecht auf ca. -0,59 und somit deutlich. Für entsprechende Fälle muss man sich fragen, ob Mess- oder Erhebungssfehler vorliegen und diese daher von der Analyse ausgeschlossen werden sollen. Ist das nicht der Fall, dann ist ein Ausschluss sehr schwer möglich, weil hierfür schlicht keine Argumente existieren. Allerdings sollte dieses Problem auf jeden Fall diskutiert werden.

Die Unkorreliertheit der Fehler wird hier angenommen, da ein Querschnittsdatensatz vorliegt und wir ansonsten keine Informationen über das Studiendesign bzw. die befragten Piraten haben. Multikolinearität stellt in diesem Beispiel kein Problem dar, da wir im Modell lediglich die Variablen Körpergröße und Geschlecht in Form von zwei Indikatorvariablen haben. Zur Prüfung eines potentiellen Multikolinearitätsproblem könnten ansonsten sog. Varianzinfationsfaktoren berechnet werden.

Fazit

In diesem Artikel haben wir Ihnen gezeigt, wie Sie die lineare Regression in R durchführen.Wir hoffen, dass Ihnen dieser Artikel bei Ihren statistischen Analysen weiterhilft. Falls Sie Probleme mit einer statistischen Auswertung haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung auf dem Gebiet der Datenanalyse in R. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch R Auswertungen inkl. verständlicher Interpretationen bestellen (z.B. Fragebogen-Auswertungen). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail oder Telefon (siehe unten rechts) erreichen.

StatistikProfis

Lineare Regression in R

StatistikProfis

LINKS

ÜBER UNS