.csv
-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv
zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Im Prinzip sind die Modelle der linearen Regression eine ausgefeiltere Version der Korrelation nach Pearson, allerdings können sie viel mehr.
Wie wir bei den Übungen zur Korrelation gelernt haben, misst der Korrelationskoeffizient das Mass, in dem sich die Daten auf einer perfekten Linie befinden. Aus der Schule wissen wir (ist lange her), dass eine Gerade mathematisch beschrieben wird mit der Formel:
\[y = \beta_0 + \beta_1 \times x\]
Wobei:
Die Gerade, welche insgesamt den geringsten Abstand zu allen Datenpunkten hat, nennt man Regressionsgerade.
Wie aus der Formel ersichtlich, ist im Regressionsmodell die y-Variable abhängig von der x-Variablen, d.h. wir gehen hier von einem ursächlichen Zusammenhang zwischen den beiden Variablen aus: Die Ausprägung von x bestimmt die Ausprägung von y, mit anderen Worten, der Zusammenhang ist so, dass der Wert von x den Wert von y voraussagt. Daher wird x auch als Prädiktorvariable bezeichnet.
Beispiel:
\[Schuhgrösse = \beta_0 + \beta_1 \times Körpergrösse\]
##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.8545966 0.7303353
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - Schuhgroesse
## --------------------------------------------------------------------
## Predictor Estimate SE t p
## --------------------------------------------------------------------
## Intercept -6.4058987 1.84822749 -3.465969 0.0006322
## Groesse 0.2695206 0.01089403 24.740206 < .0000001
## --------------------------------------------------------------------
\[ \operatorname{\widehat{Schuhgroesse}} = -6.41 + 0.27(\operatorname{Groesse}) \]
Setzen wir für x = 170 ein, erhalten wir eine Schätzung für die \(Schuhgrösse = -6.41 + 0.27 \times 170 = 39.49\), d.h. wir erwarten bei 170 cm grossen Menschen eine Schuhgrösse zwischen 39 und 40.
Setzen wir für x = 0 ein, ist die Schuhgrösse -6.41, was
natürlich Unsinn ist, da erstens keine Menschen mit der Körpergrösse 0
cm existieren und zweitens eine negative Schuhgrösse keinen Sinn macht.
Generell werden wir uns mit der Interpretation des Koeffizienten \(\beta_0\) in diesem Kurs
zurückhalten.
Frauen haben bei gleicher Körpergrösse kleinere Füsse als Männer. Wir werden im Verlaufe der Übungen sehen, dass wir unsere Vorhersage der Schuhgrösse verbessern können, wenn wir das Geschlecht in unserem Modell berücksichtigen.
\(R^2\) ist ein Qualitätsmerkmal für die Güte des Regressionsmodells und wird als Bestimmtheitsmass bezeichnet. Die Interpretation ist relativ einfach: Der Wert von \(R^2\) gibt an, zu welchem Anteil (Prozentsatz) sich die Varianz der abhängigen Variable \(y\) durch die unabhängige Variable \(x\) erklären lässt. Im einfachen linearen Regressionsmodell gilt \(R^2\) = \(r^2\), wobei \(r\) der Korrelationskoeffizient nach Pearson ist (im jamovi-Output als \(R\) angegeben).
Wir haben eine Regression, die das Körpergewicht (kg) von der Körpergrösse (cm) vorhersagt. Welche Einheiten haben Korrelationskoeffizient \(r\), Achsenabschnitt \(\beta_0\) und Steigung \(\beta_1\)?
In welchem Fall a) oder b) ist die Unsicherheit für den Schätzer von \(\beta_1\) grösser? Begründen Sie ihre Antwort.
Im Fall von a) ist die Unsicherheit grösser. Je mehr die Punkte um die Regressionsgerade streuen, desto kleiner ist der Korrelationskoeffizient und damit die Unsicherheit für den Schätzer von \(\beta_1\).
Wir erstellen ein Regressionsmodell um die Inzidenz von Hautkrebs (pro 1000 Menschen) von der Anzahl Sonnentage in einem Jahr vorherzusagen. Für das Jahr 2019 sagt unser Modell eine Inzidenz von 1.5 Hautkrebserkrankungen pro 1000 Menschen voraus. Das Residuum für dieses Jahr beträgt 0.5. Hat unser Modell die Inzidenz unter- oder überschätzt? Begründen Sie ihre Antwort.
Unser Modell hat die Inzidenz unterschätzt. Ein Residuum wird berechnet als \(\epsilon = beobachteter ~ Wert - gefitteter ~ Wert\). Ein positives Residuum bedeutet daher, dass der vorhergesagte (gefittete) Wert geringer ist, als der beobachtete Wert. Effektiv betrug 2019 die Inzidenz 2 Hautkrebserkrankungen pro 1000 Menschen.
Eine Forschungsgruppe sammelte Messungen zu Körperumfang und Knochendurchmesser. Zusätzlich wurden Alter, Körpergewicht, Körpergrösse und Geschlecht erfasst. Eingeschlossen wurden 507 jugendliche und erwachsene, körperlich aktive Menschen. Wir untersuchen den Zusammenhang zwischen Schulterumfang und Körpergrösse.
Hinweis
Formel für die Berechnung der Steigung: \(\beta_1 = \frac{s_y}{s_x} r\)
Formel für die Berechnung des Achsenabschnitts: \(\beta_0 = \bar{y} - \beta_1 \bar{x}\)
Diese Formeln müssen nicht gelernt werden!
Der durchschnittliche Schulterumfang im Datensatz beträgt 107.2 cm (s = 10.37 cm). Die durchschnittliche Körpergrösse beträgt 171.14 cm (s = 9.41 cm). Der Pearson-Korrelationskoeffizient beträgt \(r = 0.67\).
\[\beta_1 = \frac{s_y}{s_x} r =
\frac{9.41}{10.37}\times0.67 = 0.608\]
- jetzt berechnen wir den Achsenabschnitt:
\[\beta_0 = \bar{y} - \beta_1 \bar{x} = 171.14 - 0.608 \times 107.2 = 105.96\]
\[\widehat{Groesse} = 105.96 + 0.608 \times Schulterumfang\]
\[\widehat{Groesse} = 105.96 + 0.608 \times 100 \approx 167 cm\]
\[\epsilon_i = y_i - \hat{y_i} = 160 - 167 = -7 cm\]
Wir untersuchen den Zusammenhang zwischen dem Herzgewicht (Hwt in g) von Katzen in Abhängigkeit von ihrem Körpergewicht (Bwt in kg). Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand eines Datensatzes berechnet, der die Daten von 144 Hauskatzen umfasst.
##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.8041274 0.6466209
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - Hwt
## --------------------------------------------------------------------
## Predictor Estimate SE t p
## --------------------------------------------------------------------
## Intercept -0.3566624 0.6922770 -0.5152019 0.6072131
## Bwt 4.0340627 0.2502615 16.1193908 < .0000001
## --------------------------------------------------------------------
\[\widehat{Hwt} = -0.357 + 4.034 \times Bwt\]
Kann die Anzahl an Mordfällen pro Million Einwohner und pro Jahr (annual_murders_per_mil) aus dem prozentualen Anteil an Menschen, die in Armut leben (perc_pov) vorhergesagt werden? Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand einer Zufallsstichprobe von 20 Metropolitanregionen in den USA berechnet.
##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.8397782 0.7052275
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - annual_murders_per_mil
## ------------------------------------------------------------------
## Predictor Estimate SE t p
## ------------------------------------------------------------------
## Intercept -29.901163 7.7891841 -3.838805 0.0012027
## perc_pov 2.559390 0.3900129 6.562320 0.0000036
## ------------------------------------------------------------------
\[\widehat{Morde} = -29.901 + 2.559 \times Armut\]
Erfahrungsgemäss hat die Schlafdauer junger Mütter einen erheblichen Einfluss auf ihre Laune. Danielle hat in einem Selbstversuch während 100 Tagen ihre Laune anhand einer selbst erstellten Skala von 0 - 100 gemessen. Zudem hat sie ihre eigene Schlafdauer und diejenige ihres Babys gemessen.
Wir arbeiten mit dem Datesatz parenthood.csv
. Der
Datensatz stammt aus dem Lehrbuch Learning Statistics with
jamovi von Danielle Navarro und David Foxcroft und enthält 5
Variablen
Variable | Erläuterung |
---|---|
ID | Eine ID für jede Messung, 1…100 |
dan.sleep | Dan’s (Danielle’s) Schlafdauer in Stunden |
baby.sleep | Die Schlafdauer von Dan’s Baby in Stunden |
dan.grump | Dan’s Schlechte-Laune-Score, Skala von 0 (super gute Laune) bis 100 (maximal schlecht gelaunt) |
day | wie ID (überflüssige Variable) |
Besteht ein Zusammenhang zwischen der Stimmung von Dan (Danielle) und ihrer Schlafdauer?
##
## DESCRIPTIVES
##
## Descriptives
## ------------------------------------------------
## dan.sleep dan.grump
## ------------------------------------------------
## N 100 100
## Missing 0 0
## Mean 6.965200 63.71000
## Median 7.030000 62.00000
## Standard deviation 1.015884 10.04967
## Minimum 4.840000 41.00000
## Maximum 9.000000 91.00000
## ------------------------------------------------
##
## CORRELATION MATRIX
##
## Correlation Matrix
## --------------------------------------------------------
## dan.sleep dan.grump
## --------------------------------------------------------
## dan.sleep Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## dan.grump Pearson's r -0.9033840 —
## p-value < .0000001 —
## 95% CI Upper -0.8594714 —
## 95% CI Lower -0.9340614 —
## --------------------------------------------------------
##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.9033840 0.8161027
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - dan.grump
## -----------------------------------------------------------------------------------------------
## Predictor Estimate SE Lower Upper t p
## -----------------------------------------------------------------------------------------------
## Intercept 125.956292 3.0160692 119.971000 131.941583 41.76174 < .0000001
## dan.sleep -8.936756 0.4285309 -9.787161 -8.086350 -20.85440 < .0000001
## -----------------------------------------------------------------------------------------------
\[
\operatorname{\widehat{dan.grump}} = 125.96 -
8.94(\operatorname{dan.sleep})
\]
Zwischen Dan’s Schlafdauer und ihrer Laune besteht ein negativer linearer Zusammenhang, d.h. je kürzer ihre Schlafdauer, desto höher ihr Schlechte-Laune-Score. Der Zusammenhang ist stark und signifikant, \(r_p\) = .9033[-0.9341, -0.8595], p < .0001. (Nebenbemerkung: Dan scheint eher ein Grummel zu sein, hat sie doch im Durchschnitt über die 100 Tage 63.7 Punkte auf ihrer Skala und mit einem Minimum von 41 Punkten nie wirklich gute Laune)
Eine einfache lineare Regression mit Schlechte-Laune-Score als abhängiger Variable und Schlafdauer als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta_1\) für Schlaf beträgt -8.94 [-9.79, -8.09], p < .0001). Dan’s Laune verbessert sich somit im Durchschnitt um -8.94 [-9.79, -8.09] Punkte pro Stunde, die sie mehr Schlaf bekommt. Die Schlafdauer erklärt 81.6% der Variabilität von Dan’s Laune (\(R^2\) = .8161)
Wir arbeiten mit dem gleichen Datensatz wie in Übung 1.
Die Frage lautet: Besteht ein Zusammenhang zwischen der Schlaufdauer von Dan und von ihrem Baby?
##
## DESCRIPTIVES
##
## Descriptives
## -------------------------------------------------
## baby.sleep dan.sleep
## -------------------------------------------------
## N 100 100
## Missing 0 0
## Mean 8.049200 6.965200
## Median 7.950000 7.030000
## Standard deviation 2.074232 1.015884
## Minimum 3.250000 4.840000
## Maximum 12.07000 9.000000
## -------------------------------------------------
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ---------------------------------------------------------
## baby.sleep dan.sleep
## ---------------------------------------------------------
## baby.sleep Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## dan.sleep Pearson's r 0.6279493 —
## p-value < .0000001 —
## 95% CI Upper 0.7338535 —
## 95% CI Lower 0.4922450 —
## ---------------------------------------------------------
##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.6279493 0.3943204
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - dan.sleep
## ----------------------------------------------------------------------------------------------
## Predictor Estimate SE Lower Upper t p
## ----------------------------------------------------------------------------------------------
## Intercept 4.4896920 0.31994421 3.8547731 5.1246109 14.032734 < .0000001
## baby.sleep 0.3075471 0.03850308 0.2311390 0.3839552 7.987597 < .0000001
## ----------------------------------------------------------------------------------------------
\[ \operatorname{\widehat{dan.sleep}} = 4.49 + 0.31(\operatorname{baby.sleep}) \]
Zwischen der Schlafdauer von Dan’s Baby und ihrer eigenen Schlafdauer besteht ein positive linearer Zusammenhang, d.h. je länger das Baby schläft, desto länger schläft auch Dan. Der Zusammenhang ist mässig und signifikant, \(r_p\) = 0.6279 [0.4922, 0.7339], p < 0.0001.
Eine einfache lineare Regression mit Dan’s Schlafdauer als abhängiger Variable und der Schlafdauer des Babys als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta\) für Schlaf Baby beträgt 0.3075 [0.2311, 0.3840], p < 0.0001). Pro Stunde Schlaf des Babys erhöht sich Dan’s Schlafdauer demnach im Durchschnitt um 0.3075 [.2311, .3840] Stunden. Die Schlafdauer des Babys erklärt 39.4% der Varianz von Dan’s Schlafdauer (\(R^2\) = .3943)