Im Prinzip sind die Modelle der linearen Regression eine ausgefeiltere Version der Korrelation nach Pearson, allerdings können sie viel mehr.
Wie wir bei den Übungen zur Korrelation gelernt haben, misst der Korrelationskoeffizient das Mass, in dem sich die Daten auf einer perfekten Linie befinden. Aus der Schule wissen wir (ist lange her), dass eine Gerade mathematisch beschrieben wird mit der Formel:
\[ y_i = \beta_0 + \beta_1 \times x_i + \epsilon_i, \]
wobei:
Annahmen über \(\epsilon_i\):
Die Gerade, welche insgesamt den geringsten Abstand zu allen Datenpunkten hat, nennt man Regressionsgerade.
Wie aus der Formel ersichtlich, ist im Regressionsmodell die y-Variable abhängig von der x-Variablen, d.h. wir gehen hier von einem ursächlichen Zusammenhang zwischen den beiden Variablen aus: Die Ausprägung von \(X\) bestimmt die Ausprägung von \(Y\), mit anderen Worten, der Zusammenhang ist so, dass der Wert von \(X\) den Wert von \(Y\) voraussagt. Daher wird \(X\) auch als Prädiktorvariable bezeichnet.
Beispiel:
Wir wissen, dass grösser gewachsene Menschen üblicherweise eine grössere Schuhgrösse tragen. Es scheint also ein Zusammenhang zwischen Körpergrösse und Schuhgrösse zu bestehen und wir können das einfach mit einer Korrelation prüfen. In der Regressionsanalyse stellt sich allerdings zusätzlich die Frage, wie der Zusammenhang ist. Nun wird kaum jemand auf die Idee kommen, dass die Körpergrösse eine Funktion der Schuhgrösse ist und wir dürfen davon ausgehen, dass es genau umgekehrt ist, d.h.dass die Schuhgrösse von der Körpergrösse abhängt. Damit wird die Schuhgrösse zur abhängigen Variable \(Y\) und die Körpergrösse zur unabhängigen Variable \(X\).
\[ Schuhgrösse = \beta_0 + \beta_1 \times Körpergrösse \]
Die Parameter \(\beta\) kennen wir selbstverständlich nicht, sondern schätzen diese aus den Stichprobendaten (dann gekennzeichnet als \(\hat{\beta}\)).
Die Grafik zeigt einen linearen Zusammenhang zwischen Schuhgrösse und Körpergrösse. Die blaue Linie ist die Regressionsgrade. Sie wird so berechnet, dass die Summe der Abstände aller Punkte minimal ist. Die Steigung der Geraden \(\hat{\beta_1}\) gibt uns an, um wie viel die Schuhgrösse durchschnittlich zunimmt, wenn die Körpergrösse um eine Einheit zunimmt. Die Schätzwerte für die Parameter \(\beta\) sehen wir im R-Output:
##
## Call:
## lm(formula = Schuhgroesse ~ Groesse, data = phy)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.569 -0.874 0.027 0.744 3.623
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.4059 1.8482 -3.47 0.00063 ***
## Groesse 0.2695 0.0109 24.74 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.27 on 226 degrees of freedom
## Multiple R-squared: 0.73, Adjusted R-squared: 0.729
## F-statistic: 612 on 1 and 226 DF, p-value: <2e-16
Jetzt können wir die Koeffizienten \(\hat{\beta_0}\) (Intercept) und \(\hat{\beta_1}\) (Groesse) in unsere Formel einsetzen:
Setzen wir für x = 170 ein, erhalten wir die Schätzung
\[ \widehat{Schuhgrösse} = -6.41 + 0.27 \times 170 = 39.49 \],
d.h. wir erwarten bei 170 cm grossen Menschen eine durchschnittliche Schuhgrösse zwischen 39 und 40.
Setzen wir \(X = 0\) ein, ist die durchschnittliche Schuhgrösse -6.41, was natürlich Unsinn ist, da erstens keine Menschen mit der Körpergrösse 0 cm existieren und zweitens eine negative Schuhgrösse keinen Sinn macht. Generell werden wir uns mit der Interpretation des Koeffizienten \(\hat{\beta_0}\) in diesem Kurs zurückhalten.
Frauen haben bei gleicher Körpergrösse kleinere Füsse als Männer. Wir werden im Verlaufe der Übungen sehen, dass wir unsere Vorhersage der Schuhgrösse verbessern können, wenn wir das Geschlecht in unserem Modell berücksichtigen.
\(R^2\) ist ein Qualitätsmerkmal für die Güte des Regressionsmodells und wird als Bestimmtheitsmass bezeichnet. Die Interpretation ist relativ einfach: Der Wert von \(R^2\) gibt an, zu welchem Anteil (Prozentsatz) sich die Varianz der abhängigen Variable \(Y\) durch die unabhängige Variable \(X\) erklären lässt. Im einfachen linearen Regressionsmodell gilt \(R^2\) = \(r^2\), wobei \(r\) der Korrelationskoeffizient nach Pearson ist.
Wir haben eine Regression, die das Körpergewicht (kg) von der Körpergrösse (cm) vorhersagt. Welche Einheiten haben Korrelationskoeffizient \(r\), Achsenabschnitt \(\beta_0\) und Steigung \(\beta_1\)?
In welchem Fall a) oder b) ist die Unsicherheit für den Schätzer von \(\beta_1\) grösser? Begründen Sie ihre Antwort.
Im Fall von a) ist die Unsicherheit grösser. Je mehr die Punkte um die Regressionsgerade streuen, desto kleiner ist der Korrelationskoeffizient und damit die Unsicherheit für den Schätzer von \(\beta_1\).
Wir erstellen ein Regressionsmodell um die Inzidenz von Hautkrebs (pro 1000 Menschen) von der Anzahl Sonnentage in einem Jahr vorherzusagen. Für das Jahr 2019 sagt unser Modell eine Inzidenz von 1.5 Hautkrebserkrankungen pro 1000 Menschen voraus. Das Residuum für dieses Jahr beträgt 0.5. Hat unser Modell die Inzidenz unter- oder überschätzt? Begründen Sie ihre Antwort.
Unser Modell hat die Inzidenz unterschätzt. Ein Residuum wird berechnet als \[ \epsilon_i = y_i - \hat{y_i}. \].
Ein positives Residuum bedeutet daher, dass der vorhergesagte (gefittete) Wert geringer ist, als der beobachtete Wert. Effektiv betrug 2019 die Inzidenz 2 Hautkrebserkrankungen pro 1000 Menschen.
Wir untersuchen den Zusammenhang zwischen dem Herzgewicht
(Hwt
in g) von Katzen in Abhängigkeit von ihrem
Körpergewicht (Bwt
in kg). Die Regressionskoeffizienten in
diesem Output wurden anhand eines Datensatzes berechnet, der die Daten
von 144 Hauskatzen umfasst.
##
## Call:
## lm(formula = Hwt ~ Bwt, data = cats)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.569 -0.963 -0.092 1.043 5.124
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.357 0.692 -0.52 0.61
## Bwt 4.034 0.250 16.12 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.45 on 142 degrees of freedom
## Multiple R-squared: 0.647, Adjusted R-squared: 0.644
## F-statistic: 260 on 1 and 142 DF, p-value: <2e-16
\[\widehat{Hwt} = -0.357 + 4.034 \times Bwt\]
Wir arbeiten mit dem Datensatz “blood_pressure.csv”. Für diese Übung werden nur die folgenden drei Variablen verwendet:
bp1
: Blutdruck vor der Therapiebp2
: Blutdruck nach der Therapiedrug
: Medikament, ja oder nein.Die Frage lautet: Besteht ein Zusammenhang zwischen dem Blutdruck vor der Therapie und dem Blutdruck nach der Therapie bei Personen, welche ein Medikament erhalten haben?
##
## Pearson's product-moment correlation
##
## data: bp_drug$bp1 and bp_drug$bp2
## t = 14, df = 46, p-value <2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.821 0.941
## sample estimates:
## cor
## 0.896
##
## Call:
## lm(formula = bp2 ~ bp1, data = bp_drug)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.75 -3.15 0.19 3.25 9.11
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.8677 8.9217 -0.43 0.67
## bp1 0.9891 0.0722 13.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.71 on 46 degrees of freedom
## Multiple R-squared: 0.803, Adjusted R-squared: 0.799
## F-statistic: 188 on 1 and 46 DF, p-value: <2e-16
## 2.5 % 97.5 %
## (Intercept) -21.826 14.09
## bp1 0.844 1.13
\[
\widehat{bp2} = -3.8677 + 0.9891 \times bp1
\]
Zwischen dem Blutdruck vor und nach der Therapie besteht ein positiver linearer Zusammenhang, d.h. je höher der Blutdruck vorher ist, desto höher ist er nach der Therapie. Der Zusammenhang ist stark und signifikant, \(r\) = 0.896 [0.821, 0.941], p < 0.0001.
Eine einfache lineare Regression mit bp2 als abhängige bp1 unabhängige Variable wurde durchgeführt. Die Regressionskoeffizienten sind \(\hat\beta_{0}\) = -3.8677 [-21.826, 14.09] und \(\hat\beta_{1}\) = 0.9891 [0.844, 1.13]. Pro mmHg Blutduck mehr vor der Therapie, ist der Blutdruck nach der Therapie durchschnittlich um 0.9891 höher. Der Blutdruck vor der Therapie erklärt 80.3% der Varianz des Blutdrucks nach der Therapie.
Achtung: nur weil die Steigung positiv ist, bedeutet dies nicht, dass der Blutdruck auf Grund der Therapie steigt. Im Gegenteil: Wenn man die Regressionsgleichung anwendet, dann merkt man, dass der mittlere Blutdruck nach der Therapie tiefer ist!