Einführung

Im Prinzip sind die Modelle der linearen Regression eine ausgefeiltere Version der Korrelation nach Pearson, allerdings können sie viel mehr.

Wie wir bei den Übungen zur Korrelation gelernt haben, misst der Korrelationskoeffizient das Mass, in dem sich die Daten auf einer perfekten Linie befinden. Aus der Schule wissen wir (ist lange her), dass eine Gerade mathematisch beschrieben wird mit der Formel:

\[ y_i = \beta_0 + \beta_1 \times x_i + \epsilon_i, \]

wobei:

  • \(\beta_0\) = Schnittpunkt der Geraden mit der y-Achse (wenn \(x = 0\))
  • \(\beta_1\) = Steigung der Geraden (\(\Delta y/\Delta x\), d.h. um welchen Betrag \(y\) zu- oder abnimmt, wenn \(x\) um eine Einheit verändert wird)
  • \(y_i\) = abhängige Variable (Zielgröße)
  • \(x_i\) = unabhängige Variable (Prädiktorvariable)
  • \(\epsilon_i\) = zufälliger Fehlerterm, der die Abweichung von der linearen Beziehung beschreibt

Annahmen über \(\epsilon_i\):

  • \(\epsilon_i \sim \mathcal{N}(0, \sigma^2)\) (normalverteilt mit Erwartungswert 0 und konstanter Varianz \(\sigma^2\))
  • \(\mathbb{E}[\epsilon_i] = 0\)
  • \(\text{Var}(\epsilon_i) = \sigma^2\) für alle \(i\) (Homoskedastizität)
  • \(\epsilon_i\) sind unabhängig voneinander
  • Die Fehler sind identisch verteilt (i.i.d.)

Die Gerade, welche insgesamt den geringsten Abstand zu allen Datenpunkten hat, nennt man Regressionsgerade.

Wie aus der Formel ersichtlich, ist im Regressionsmodell die y-Variable abhängig von der x-Variablen, d.h. wir gehen hier von einem ursächlichen Zusammenhang zwischen den beiden Variablen aus: Die Ausprägung von \(X\) bestimmt die Ausprägung von \(Y\), mit anderen Worten, der Zusammenhang ist so, dass der Wert von \(X\) den Wert von \(Y\) voraussagt. Daher wird \(X\) auch als Prädiktorvariable bezeichnet.

Beispiel:

Wir wissen, dass grösser gewachsene Menschen üblicherweise eine grössere Schuhgrösse tragen. Es scheint also ein Zusammenhang zwischen Körpergrösse und Schuhgrösse zu bestehen und wir können das einfach mit einer Korrelation prüfen. In der Regressionsanalyse stellt sich allerdings zusätzlich die Frage, wie der Zusammenhang ist. Nun wird kaum jemand auf die Idee kommen, dass die Körpergrösse eine Funktion der Schuhgrösse ist und wir dürfen davon ausgehen, dass es genau umgekehrt ist, d.h.dass die Schuhgrösse von der Körpergrösse abhängt. Damit wird die Schuhgrösse zur abhängigen Variable \(Y\) und die Körpergrösse zur unabhängigen Variable \(X\).

\[ Schuhgrösse = \beta_0 + \beta_1 \times Körpergrösse \]

Die Parameter \(\beta\) kennen wir selbstverständlich nicht, sondern schätzen diese aus den Stichprobendaten (dann gekennzeichnet als \(\hat{\beta}\)).

Die Grafik zeigt einen linearen Zusammenhang zwischen Schuhgrösse und Körpergrösse. Die blaue Linie ist die Regressionsgrade. Sie wird so berechnet, dass die Summe der Abstände aller Punkte minimal ist. Die Steigung der Geraden \(\hat{\beta_1}\) gibt uns an, um wie viel die Schuhgrösse durchschnittlich zunimmt, wenn die Körpergrösse um eine Einheit zunimmt. Die Schätzwerte für die Parameter \(\beta\) sehen wir im R-Output:

summary(lm(Schuhgroesse ~ Groesse, phy))
## 
## Call:
## lm(formula = Schuhgroesse ~ Groesse, data = phy)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.569 -0.874  0.027  0.744  3.623 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -6.4059     1.8482   -3.47  0.00063 ***
## Groesse       0.2695     0.0109   24.74  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.27 on 226 degrees of freedom
## Multiple R-squared:  0.73,   Adjusted R-squared:  0.729 
## F-statistic:  612 on 1 and 226 DF,  p-value: <2e-16
  • Jetzt können wir die Koeffizienten \(\hat{\beta_0}\) (Intercept) und \(\hat{\beta_1}\) (Groesse) in unsere Formel einsetzen:

  • Setzen wir für x = 170 ein, erhalten wir die Schätzung

\[ \widehat{Schuhgrösse} = -6.41 + 0.27 \times 170 = 39.49 \],

d.h. wir erwarten bei 170 cm grossen Menschen eine durchschnittliche Schuhgrösse zwischen 39 und 40.

Setzen wir \(X = 0\) ein, ist die durchschnittliche Schuhgrösse -6.41, was natürlich Unsinn ist, da erstens keine Menschen mit der Körpergrösse 0 cm existieren und zweitens eine negative Schuhgrösse keinen Sinn macht. Generell werden wir uns mit der Interpretation des Koeffizienten \(\hat{\beta_0}\) in diesem Kurs zurückhalten.

Frauen haben bei gleicher Körpergrösse kleinere Füsse als Männer. Wir werden im Verlaufe der Übungen sehen, dass wir unsere Vorhersage der Schuhgrösse verbessern können, wenn wir das Geschlecht in unserem Modell berücksichtigen.

\(R^2\) ist ein Qualitätsmerkmal für die Güte des Regressionsmodells und wird als Bestimmtheitsmass bezeichnet. Die Interpretation ist relativ einfach: Der Wert von \(R^2\) gibt an, zu welchem Anteil (Prozentsatz) sich die Varianz der abhängigen Variable \(Y\) durch die unabhängige Variable \(X\) erklären lässt. Im einfachen linearen Regressionsmodell gilt \(R^2\) = \(r^2\), wobei \(r\) der Korrelationskoeffizient nach Pearson ist.

Übung 1

Aufgabe

Wir haben eine Regression, die das Körpergewicht (kg) von der Körpergrösse (cm) vorhersagt. Welche Einheiten haben Korrelationskoeffizient \(r\), Achsenabschnitt \(\beta_0\) und Steigung \(\beta_1\)?


Lösung

  • Der Korrelationskoeffizient ist dimensionslos (keine Einheit)
  • Achsenabschnitt \(\beta_0\): kg
  • Steigung \(\beta_1\): kg/cm


Übung 2

Aufgabe

In welchem Fall a) oder b) ist die Unsicherheit für den Schätzer von \(\beta_1\) grösser? Begründen Sie ihre Antwort.

  1. Wenn die Punkte stark um die Regressionsgerade streuen
  2. Wenn die Punkte wenig um die Regressionsgerade streuen


Lösung

Im Fall von a) ist die Unsicherheit grösser. Je mehr die Punkte um die Regressionsgerade streuen, desto kleiner ist der Korrelationskoeffizient und damit die Unsicherheit für den Schätzer von \(\beta_1\).


Übung 3

Aufgabe

Wir erstellen ein Regressionsmodell um die Inzidenz von Hautkrebs (pro 1000 Menschen) von der Anzahl Sonnentage in einem Jahr vorherzusagen. Für das Jahr 2019 sagt unser Modell eine Inzidenz von 1.5 Hautkrebserkrankungen pro 1000 Menschen voraus. Das Residuum für dieses Jahr beträgt 0.5. Hat unser Modell die Inzidenz unter- oder überschätzt? Begründen Sie ihre Antwort.


Lösung

Unser Modell hat die Inzidenz unterschätzt. Ein Residuum wird berechnet als \[ \epsilon_i = y_i - \hat{y_i}. \].

Ein positives Residuum bedeutet daher, dass der vorhergesagte (gefittete) Wert geringer ist, als der beobachtete Wert. Effektiv betrug 2019 die Inzidenz 2 Hautkrebserkrankungen pro 1000 Menschen.


Übung 4

Wir untersuchen den Zusammenhang zwischen dem Herzgewicht (Hwt in g) von Katzen in Abhängigkeit von ihrem Körpergewicht (Bwt in kg). Die Regressionskoeffizienten in diesem Output wurden anhand eines Datensatzes berechnet, der die Daten von 144 Hauskatzen umfasst.

cats <- import("../Data/cats.csv")
summary(lm(Hwt ~ Bwt, cats))
## 
## Call:
## lm(formula = Hwt ~ Bwt, data = cats)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.569 -0.963 -0.092  1.043  5.124 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -0.357      0.692   -0.52     0.61    
## Bwt            4.034      0.250   16.12   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.45 on 142 degrees of freedom
## Multiple R-squared:  0.647,  Adjusted R-squared:  0.644 
## F-statistic:  260 on 1 and 142 DF,  p-value: <2e-16

Aufgabe

  1. Notieren Sie das lineare Modell.
  2. Interpretieren Sie den Achsenabschnitt.
  3. Interpretieren Sie die Steigung.
  4. Interpretieren Sie \(R^2\).
  5. Interpretieren sie \(r\).

Lösung

  1. Notieren Sie das lineare Modell.

\[\widehat{Hwt} = -0.357 + 4.034 \times Bwt\]

  1. Interpretieren Sie den Achsenabschnitt.
  • Für eine Katze mit 0 kg Körpergewicht, erwarten wir ein Herzgewicht von -0.357 g. Diese Angabe ist offensichtlich ohne Bedeutung.
  1. Interpretieren Sie die Steigung.
  • Bei einer Zunahme des Körpergewichts einer Katze um 1 kg, erwarten wir ein Zunahme des Herzgewichts um durchschnittlich 4.034 g.
  1. Interpretieren Sie \(R^2\).
  • Das Körpergewicht erklärt 64.66% der Variabilität des Herzgewichts.
  1. Interpretieren sie \(r\).
  • \(r\) ist der Korrelationskoeffizient nach Pearson. Mit \(r = 0.80\) besteht ein starker Zusammenhang zwischen dem Körpergewicht und dem Herzgewicht von Katzen.


Übung 5

Wir arbeiten mit dem Datensatz “blood_pressure.csv”. Für diese Übung werden nur die folgenden drei Variablen verwendet:

  • bp1: Blutdruck vor der Therapie
  • bp2: Blutdruck nach der Therapie
  • drug: Medikament, ja oder nein.


Aufgabe

Die Frage lautet: Besteht ein Zusammenhang zwischen dem Blutdruck vor der Therapie und dem Blutdruck nach der Therapie bei Personen, welche ein Medikament erhalten haben?

  1. Laden Sie den Datensatz in RStudio.
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie einen entsprechenden Teildatensatz, um die Frage beantworten zu können.
  4. Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm.
  5. Berechnen Sie den passenden Korrelationskoeffizienten.
  6. Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Regressionsgleichung. Lassen Sie sich die 95% Konfidenzintervalle der Regressionskoeffizienten anzeigen.
  7. Überprüfen Sie, ob die Residuen ungefähr normalverteilt sind.
  8. Überprüfen Sie, ob Heteroskedastizität vorliegt. Erstellen Sie eine entsprechende Grafik.
  9. Formulieren Sie Ihre Resultate.


Lösung

  1. Laden Sie den Datensatz in RStudio.
bp <- import("../Data/blood_pressure.csv")


  1. Formulieren Sie Ihre Hypothesen.
  • \(H_0\): Es besteht kein Zusammenhang zwischen dem Blutdruck vor der Therapie und dem Blutdruck nach der Therapie bei Personen, welche ein Medikament erhalten haben. \(H_0: \beta_1 = 0\).
  • \(H_A\): Es besteht ein Zusammenhang zwischen dem Blutdruck vor der Therapie und dem Blutdruck nach der Therapie bei Personen, welche ein Medikament erhalten haben. \(H_A: \beta_1 \ne 0\).


  1. Erstellen Sie einen entsprechenden Teildatensatz, um die Frage beantworten zu können.
bp_drug <- subset(bp, drug == "yes")


  1. Überlegen Sie, welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm.
plot(bp_drug$bp1, bp_drug$bp2)

  • Es besteht ein positiver linearer Zusammenhang zwischen dem Blutdruck vor der Therapie (unabhängige Variable) und dem Blutdruck nach der Therapie (abhängige Variable) bei Personen, welche ein Medikament erhalten haben.


  1. Berechnen Sie den passenden Korrelationskoeffizienten.
cor.test(bp_drug$bp1, bp_drug$bp2)
## 
##  Pearson's product-moment correlation
## 
## data:  bp_drug$bp1 and bp_drug$bp2
## t = 14, df = 46, p-value <2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.821 0.941
## sample estimates:
##   cor 
## 0.896
  • Mit \(r = 0.896\) besteht ein starker und hochsignifikanter Zusammenhang zwischen dem Blutdruck vor und nach der Therapie.


  1. Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Regressionsgleichung. Lassen Sie sich die 95% Konfidenzintervalle der Regressionskoeffizienten anzeigen.
my_lm <- lm(bp2 ~ bp1, bp_drug)
summary(my_lm)
## 
## Call:
## lm(formula = bp2 ~ bp1, data = bp_drug)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -9.75  -3.15   0.19   3.25   9.11 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -3.8677     8.9217   -0.43     0.67    
## bp1           0.9891     0.0722   13.69   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.71 on 46 degrees of freedom
## Multiple R-squared:  0.803,  Adjusted R-squared:  0.799 
## F-statistic:  188 on 1 and 46 DF,  p-value: <2e-16
confint(my_lm)
##               2.5 % 97.5 %
## (Intercept) -21.826  14.09
## bp1           0.844   1.13


\[ \widehat{bp2} = -3.8677 + 0.9891 \times bp1 \]

  1. Überprüfen Sie, ob die Residuen ungefähr normalverteilt sind.
qqnorm(my_lm$residuals)
qqline(my_lm$residuals)

  • Die Residuen folgen schon beinahe “perfekt” einer Normalverteilung.


  1. Überprüfen Sie, ob Heteroskedastizität vorliegt. Erstellen Sie eine entsprechende Grafik.
plot(my_lm$fitted.values, my_lm$residuals)
abline(h = 0)

  • Die Residun sind symmetrisch und gleichmässig um 0 Verteilt. Also kein Anzeichen für Heteroskedastizität.


  1. Formulieren Sie Ihre Resultate.

Zwischen dem Blutdruck vor und nach der Therapie besteht ein positiver linearer Zusammenhang, d.h. je höher der Blutdruck vorher ist, desto höher ist er nach der Therapie. Der Zusammenhang ist stark und signifikant, \(r\) = 0.896 [0.821, 0.941], p < 0.0001.

Eine einfache lineare Regression mit bp2 als abhängige bp1 unabhängige Variable wurde durchgeführt. Die Regressionskoeffizienten sind \(\hat\beta_{0}\) = -3.8677 [-21.826, 14.09] und \(\hat\beta_{1}\) = 0.9891 [0.844, 1.13]. Pro mmHg Blutduck mehr vor der Therapie, ist der Blutdruck nach der Therapie durchschnittlich um 0.9891 höher. Der Blutdruck vor der Therapie erklärt 80.3% der Varianz des Blutdrucks nach der Therapie.

Achtung: nur weil die Steigung positiv ist, bedeutet dies nicht, dass der Blutdruck auf Grund der Therapie steigt. Im Gegenteil: Wenn man die Regressionsgleichung anwendet, dann merkt man, dass der mittlere Blutdruck nach der Therapie tiefer ist!