Technische Vorbemerkung

[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org


Einführung

Im Prinzip sind die Modelle der linearen Regression eine ausgefeiltere Version der Korrelation nach Pearson, allerdings können sie viel mehr.

Wie wir bei den Übungen zur Korrelation gelernt haben, misst der Korrelationskoeffizient das Mass, in dem sich die Daten auf einer perfekten Linie befinden. Aus der Schule wissen wir (ist lange her), dass eine Gerade mathematisch beschrieben wird mit der Formel:

\[y = \beta_0 + \beta_1 \times x\]

Wobei:

Die Gerade, welche insgesamt den geringsten Abstand zu allen Datenpunkten hat, nennt man Regressionsgerade.

Wie aus der Formel ersichtlich, ist im Regressionsmodell die y-Variable abhängig von der x-Variablen, d.h. wir gehen hier von einem ursächlichen Zusammenhang zwischen den beiden Variablen aus: Die Ausprägung von x bestimmt die Ausprägung von y, mit anderen Worten, der Zusammenhang ist so, dass der Wert von x den Wert von y voraussagt. Daher wird x auch als Prädiktorvariable bezeichnet.

Beispiel:

\[Schuhgrösse = \beta_0 + \beta_1 \times Körpergrösse\]

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ----------------------------------- 
##    Model    R            R²          
##  ----------------------------------- 
##        1    0.8545966    0.7303353   
##  ----------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - Schuhgroesse                                    
##  -------------------------------------------------------------------- 
##    Predictor    Estimate      SE            t            p            
##  -------------------------------------------------------------------- 
##    Intercept    -6.4058987    1.84822749    -3.465969     0.0006322   
##    Groesse       0.2695206    0.01089403    24.740206    < .0000001   
##  --------------------------------------------------------------------

\[ \operatorname{\widehat{Schuhgroesse}} = -6.41 + 0.27(\operatorname{Groesse}) \]

Übung 1

Aufgabe

Wir haben eine Regression, die das Körpergewicht (kg) von der Körpergrösse (cm) vorhersagt. Welche Einheiten haben Korrelationskoeffizient \(r\), Achsenabschnitt \(\beta_0\) und Steigung \(\beta_1\)?


Lösung

  • Der Korrelationskoeffizient ist dimensionslos (keine Einheit)
  • Achsenabschnitt \(\beta_0\): kg
  • Steigung \(\beta_1\): kg/cm


Übung 2

Aufgabe

In welchem Fall a) oder b) ist die Unsicherheit für den Schätzer von \(\beta_1\) grösser? Begründen Sie ihre Antwort.

  1. Wenn die Punkte stark um die Regressionsgerade streuen
  2. Wenn die Punkte wenig um die Regressionsgerade streuen


Lösung

Im Fall von a) ist die Unsicherheit grösser. Je mehr die Punkte um die Regressionsgerade streuen, desto kleiner ist der Korrelationskoeffizient und damit die Unsicherheit für den Schätzer von \(\beta_1\).


Übung 3

Aufgabe

Wir erstellen ein Regressionsmodell um die Inzidenz von Hautkrebs (pro 1000 Menschen) von der Anzahl Sonnentage in einem Jahr vorherzusagen. Für das Jahr 2019 sagt unser Modell eine Inzidenz von 1.5 Hautkrebserkrankungen pro 1000 Menschen voraus. Das Residuum für dieses Jahr beträgt 0.5. Hat unser Modell die Inzidenz unter- oder überschätzt? Begründen Sie ihre Antwort.


Lösung

Unser Modell hat die Inzidenz unterschätzt. Ein Residuum wird berechnet als \(\epsilon = beobachteter ~ Wert - gefitteter ~ Wert\). Ein positives Residuum bedeutet daher, dass der vorhergesagte (gefittete) Wert geringer ist, als der beobachtete Wert. Effektiv betrug 2019 die Inzidenz 2 Hautkrebserkrankungen pro 1000 Menschen.


Übung 4

Eine Forschungsgruppe sammelte Messungen zu Körperumfang und Knochendurchmesser. Zusätzlich wurden Alter, Körpergewicht, Körpergrösse und Geschlecht erfasst. Eingeschlossen wurden 507 jugendliche und erwachsene, körperlich aktive Menschen. Wir untersuchen den Zusammenhang zwischen Schulterumfang und Körpergrösse.

Hinweis

Formel für die Berechnung der Steigung: \(\beta_1 = \frac{s_y}{s_x} r\)
Formel für die Berechnung des Achsenabschnitts: \(\beta_0 = \bar{y} - \beta_1 \bar{x}\)

Diese Formeln müssen nicht gelernt werden!

Aufgabe

Der durchschnittliche Schulterumfang im Datensatz beträgt 107.2 cm (s = 10.37 cm). Die durchschnittliche Körpergrösse beträgt 171.14 cm (s = 9.41 cm). Der Pearson-Korrelationskoeffizient beträgt \(r = 0.67\).

  1. Notieren Sie die Gleichung für die Regressionsgerade um die Grösse vorherzusagen.
  2. Interpretieren Sie die Steigung und den Achsenabschnitt in diesem Kontext.
  3. Berechnen Sie \(R^2\) für die Regressionsgerade, die die Körpergrösse in Abhängigkeit vom Schulterumfang vorhersagt.
  4. Ein zufällig ausgewählter Student hat einen Schulterumfang von 100 cm. Wie gross ist der Student gemäss Ihrem Modell?
  5. Der Student aus Frage 4. ist 160 cm gross. Berechnen Sie das Residuum und erläutern Sie ihr Ergebnis.
  6. Ein einjähriges Kind hat einen Schulterumfang von 56 cm. Könnte mit unserem Modell auch dessen Körpergrösse geschätzt werden?


Lösung

  1. Notieren Sie die Gleichung für die Regressionsgerade um die Grösse vorherzusagen.
  • Zuerst berechnen wir die Steigung:

\[\beta_1 = \frac{s_y}{s_x} r = \frac{9.41}{10.37}\times0.67 = 0.608\]
- jetzt berechnen wir den Achsenabschnitt:

\[\beta_0 = \bar{y} - \beta_1 \bar{x} = 171.14 - 0.608 \times 107.2 = 105.96\]

  • Jetzt können wir die Regressionsgleichung aufstellen:

\[\widehat{Groesse} = 105.96 + 0.608 \times Schulterumfang\]

  1. Interpretieren Sie die Steigung und den Achsenabschnitt in diesem Kontext.
  • Steigung: Für jeden cm Zunahme des Schulterumfangs, erwarten wir eine durchschnittliche Grössenzunahme von 0.608 cm.
  • Achsenabschnitt: Für Menschen mit einem Schulterumfang von 0 cm erwarten wir eine durchschnittliche Körpergrösse von 105.96 cm. Diese Aussage macht definitiv keinen Sinn.
  1. Berechnen Sie \(R^2\) für die Regressionsgerade, die die Körpergrösse in Abhängigkeit vom Schulterumfang vorhersagt und erläutern Sie ihr Resultat.
  • Bei einer einfachen linearen Regression ist \(R^2 = r^2 = 0.67^2 = 0.45\).
  • Etwa 45% der Variation der Körpergrösse lässt sich durch unser Modell erklären, d.h. wird durch den Schulterumfang erklärt.
  1. Ein zufällig ausgewählter Student hat einen Schulterumfang von 100 cm. Wie gross ist der Student gemäss Ihrem Modell?
  • Durch einsetzen von 100 in die Gleichung ergibt sich

\[\widehat{Groesse} = 105.96 + 0.608 \times 100 \approx 167 cm\]

  1. Der Student aus Frage 4. ist 160 cm gross. Berechnen Sie das Residuum und erläutern Sie ihr Ergebnis.

\[\epsilon_i = y_i - \hat{y_i} = 160 - 167 = -7 cm\]

  • Ein negatives Residuum bedeutet, dass das Modell die Grösse des Studenten überschätzt.
  1. Ein einjähriges Kind hat einen Schulterumfang von 56 cm. Könnte mit unserem Modell auch dessen Körpergrösse geschätzt werden?
  • Nein. Die Datenerhebung erfolgte bei Jugendlichen und Erwachsenen (mit Schulterumfängen von 90 bis 130 cm). Das Regressionsmodell ist nur innerhalb der gemessenen Bereiche gültig und kann nicht auf Kleinkinder extrapoliert werden.


Übung 5

Wir untersuchen den Zusammenhang zwischen dem Herzgewicht (Hwt in g) von Katzen in Abhängigkeit von ihrem Körpergewicht (Bwt in kg). Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand eines Datensatzes berechnet, der die Daten von 144 Hauskatzen umfasst.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ----------------------------------- 
##    Model    R            R²          
##  ----------------------------------- 
##        1    0.8041274    0.6466209   
##  ----------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - Hwt                                             
##  -------------------------------------------------------------------- 
##    Predictor    Estimate      SE           t             p            
##  -------------------------------------------------------------------- 
##    Intercept    -0.3566624    0.6922770    -0.5152019     0.6072131   
##    Bwt           4.0340627    0.2502615    16.1193908    < .0000001   
##  --------------------------------------------------------------------

Aufgabe

  1. Notieren Sie das lineare Modell.
  2. Interpretieren Sie den Achsenabschnitt.
  3. Interpretieren Sie die Steigung.
  4. Interpretieren Sie \(R^2\).
  5. Interpretieren sie \(R\).

Lösung

  1. Notieren Sie das lineare Modell.

\[\widehat{Hwt} = -0.357 + 4.034 \times Bwt\]

  1. Interpretieren Sie den Achsenabschnitt.
  • Für eine Katze mit 0 kg Körpergewicht, erwarten wir ein Herzgewicht von -0.357 g. Diese Angabe ist offensichtlich ohne Bedeutung.
  1. Interpretieren Sie die Steigung.
  • Bei einer Zunahme des Körpergewichts einer Katze um 1 kg, erwarten wir ein Zunahme des Herzgewichts um durchschnittlich 4.034 g.
  1. Interpretieren Sie \(R^2\).
  • Das Körpergewicht erklärt 64.66% der Variabilität des Herzgewichts.
  1. Interpretieren sie \(R\).
  • \(R\) ist der Korrelationskoeffizient nach Pearson. Mit \(r = 0.80\) besteht ein starker Zusammenhang zwischen dem Körpergewicht und dem Herzgewicht von Katzen.


Übung 6

Kann die Anzahl an Mordfällen pro Million Einwohner und pro Jahr (annual_murders_per_mil) aus dem prozentualen Anteil an Menschen, die in Armut leben (perc_pov) vorhergesagt werden? Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand einer Zufallsstichprobe von 20 Metropolitanregionen in den USA berechnet.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ----------------------------------- 
##    Model    R            R²          
##  ----------------------------------- 
##        1    0.8397782    0.7052275   
##  ----------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - annual_murders_per_mil                        
##  ------------------------------------------------------------------ 
##    Predictor    Estimate      SE           t            p           
##  ------------------------------------------------------------------ 
##    Intercept    -29.901163    7.7891841    -3.838805    0.0012027   
##    perc_pov       2.559390    0.3900129     6.562320    0.0000036   
##  ------------------------------------------------------------------


Aufgabe

  1. Notieren Sie das lineare Modell.
  2. Interpretieren Sie den Achsenabschnitt.
  3. Interpretieren Sie die Steigung.
  4. Interpretieren Sie \(R^2\).
  5. Interpretieren sie \(R\).


Lösung

  1. Notieren Sie das lineare Modell.

\[\widehat{Morde} = -29.901 + 2.559 \times Armut\]

  1. Interpretieren Sie den Achsenabschnitt.
  • Die erwartete Anzahl Morde in Metropolitanregionen der USA ohne Armut beträgt im Durchschnitt -29.901 pro Million Einwohner.
  1. Interpretieren Sie die Steigung.
  • Für jedes zusätzliche Prozent von Menschen, die in Armut leben, erwarten wir eine Zunahme um durchschnittlich 2.559 Morde pro Million Einwohner in Metropolitanregionen der USA.
  1. Interpretieren Sie \(R^2\).
  • Der prozentuale Anteil an Menschen, die in Armut leben, erklärt 70.52% der Variabilität der Mordraten in Metropolitanregionen der USA.
  1. Interpretieren sie \(R\).
  • Mit \(r = 0.84\) besteht ein starker Zusammenhang zwischen dem Anteil Menschen, die in Armut leben und der Mordrate in Metropolitanregionen der USA.


Übung 7

Erfahrungsgemäss hat die Schlafdauer junger Mütter einen erheblichen Einfluss auf ihre Laune. Danielle hat in einem Selbstversuch während 100 Tagen ihre Laune anhand einer selbst erstellten Skala von 0 - 100 gemessen. Zudem hat sie ihre eigene Schlafdauer und diejenige ihres Babys gemessen.

Wir arbeiten mit dem Datesatz parenthood.csv. Der Datensatz stammt aus dem Lehrbuch Learning Statistics with jamovi von Danielle Navarro und David Foxcroft und enthält 5 Variablen

Variable Erläuterung
ID Eine ID für jede Messung, 1…100
dan.sleep Dan’s (Danielle’s) Schlafdauer in Stunden
baby.sleep Die Schlafdauer von Dan’s Baby in Stunden
dan.grump Dan’s Schlechte-Laune-Score, Skala von 0 (super gute Laune) bis 100 (maximal schlecht gelaunt)
day wie ID (überflüssige Variable)


Aufgabe

Besteht ein Zusammenhang zwischen der Stimmung von Dan (Danielle) und ihrer Schlafdauer?

  1. Laden Sie den Datensatz in jamovi
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
  4. Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden.
  5. Berechnen Sie den passenden Korrelationskoeffizienten.
  6. Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Gleichung.
  7. Formulieren Sie Ihre Resultate.


Lösung

  1. Formulieren Sie Ihre Hypothesen.
  • \(H_0\): Es besteht kein Zusammenhang zwischen Dan’s Stimmung und ihrer Schlafdauer.
  • \(H_A\): Es besteht ein Zusammenhang zwischen Dan’s Stimmung und ihrer Schlafdauer.


  1. Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
## 
##  DESCRIPTIVES
## 
##  Descriptives                                     
##  ------------------------------------------------ 
##                          dan.sleep    dan.grump   
##  ------------------------------------------------ 
##    N                           100          100   
##    Missing                       0            0   
##    Mean                   6.965200     63.71000   
##    Median                 7.030000     62.00000   
##    Standard deviation     1.015884     10.04967   
##    Minimum                4.840000     41.00000   
##    Maximum                9.000000     91.00000   
##  ------------------------------------------------


  1. Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer linearen Regressionsgeraden.

  • Es besteht ein negativer linearer Zusammenhang zwischen der Schlafdauer von Dan und ihrer Laune. Je länger Dan schläft, desto tiefer ist ihr Schlechte-Laune-Score.


  1. Berechnen Sie den passenden Korrelationskoeffizienten.
## 
##  CORRELATION MATRIX
## 
##  Correlation Matrix                                       
##  -------------------------------------------------------- 
##                                 dan.sleep     dan.grump   
##  -------------------------------------------------------- 
##    dan.sleep    Pearson's r              —                
##                 p-value                  —                
##                 95% CI Upper             —                
##                 95% CI Lower             —                
##                                                           
##    dan.grump    Pearson's r     -0.9033840            —   
##                 p-value         < .0000001            —   
##                 95% CI Upper    -0.8594714            —   
##                 95% CI Lower    -0.9340614            —   
##  --------------------------------------------------------
  • Der Korrelationskoeffizient \(r = -0.90\). Damit besteht ein starker Zusammenhang zwischen Dan’s Schlafdauer und ihrer Laune.


  1. Erstellen Sie ein einfaches lineares Regressionsmodell.
## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ----------------------------------- 
##    Model    R            R²          
##  ----------------------------------- 
##        1    0.9033840    0.8161027   
##  ----------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - dan.grump                                                                  
##  ----------------------------------------------------------------------------------------------- 
##    Predictor    Estimate      SE           Lower         Upper         t            p            
##  ----------------------------------------------------------------------------------------------- 
##    Intercept    125.956292    3.0160692    119.971000    131.941583     41.76174    < .0000001   
##    dan.sleep     -8.936756    0.4285309     -9.787161     -8.086350    -20.85440    < .0000001   
##  -----------------------------------------------------------------------------------------------


\[ \operatorname{\widehat{dan.grump}} = 125.96 - 8.94(\operatorname{dan.sleep}) \]

  1. Formulieren Sie Ihre Resultate.

Zwischen Dan’s Schlafdauer und ihrer Laune besteht ein negativer linearer Zusammenhang, d.h. je kürzer ihre Schlafdauer, desto höher ihr Schlechte-Laune-Score. Der Zusammenhang ist stark und signifikant, \(r_p\) = .9033[-0.9341, -0.8595], p < .0001. (Nebenbemerkung: Dan scheint eher ein Grummel zu sein, hat sie doch im Durchschnitt über die 100 Tage 63.7 Punkte auf ihrer Skala und mit einem Minimum von 41 Punkten nie wirklich gute Laune)

Eine einfache lineare Regression mit Schlechte-Laune-Score als abhängiger Variable und Schlafdauer als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta_1\) für Schlaf beträgt -8.94 [-9.79, -8.09], p < .0001). Dan’s Laune verbessert sich somit im Durchschnitt um -8.94 [-9.79, -8.09] Punkte pro Stunde, die sie mehr Schlaf bekommt. Die Schlafdauer erklärt 81.6% der Variabilität von Dan’s Laune (\(R^2\) = .8161)


Übung 8

Aufgabe

Wir arbeiten mit dem gleichen Datensatz wie in Übung 1.

Die Frage lautet: Besteht ein Zusammenhang zwischen der Schlaufdauer von Dan und von ihrem Baby?

  1. Laden Sie den Datensatz in jamovi (ist vermutlich schon geschehen)
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
  4. Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden.
  5. Berechnen Sie den passenden Korrelationskoeffizienten.
  6. Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Regressionsgleichung.
  7. Formulieren Sie Ihre Resultate.


Lösung

  1. Formulieren Sie Ihre Hypothesen.
  • \(H_0\): Es besteht kein Zusammenhang zwischen der Schlafdauer von Dan und ihrem Baby.
  • \(H_A\): Es besteht ein Zusammenhang zwischen der Schlafdauer von Dan und ihrem Baby.
  1. Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
## 
##  DESCRIPTIVES
## 
##  Descriptives                                      
##  ------------------------------------------------- 
##                          baby.sleep    dan.sleep   
##  ------------------------------------------------- 
##    N                            100          100   
##    Missing                        0            0   
##    Mean                    8.049200     6.965200   
##    Median                  7.950000     7.030000   
##    Standard deviation      2.074232     1.015884   
##    Minimum                 3.250000     4.840000   
##    Maximum                 12.07000     9.000000   
##  -------------------------------------------------


  1. Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden.

  • Es besteht ein positiver linearer Zusammenhang zwischen der Schlafdauer des Babys und Dan’s Schlafdauer.


  1. Berechnen Sie den passenden Korrelationskoeffizienten.
## 
##  CORRELATION MATRIX
## 
##  Correlation Matrix                                        
##  --------------------------------------------------------- 
##                                  baby.sleep    dan.sleep   
##  --------------------------------------------------------- 
##    baby.sleep    Pearson's r              —                
##                  p-value                  —                
##                  95% CI Upper             —                
##                  95% CI Lower             —                
##                                                            
##    dan.sleep     Pearson's r      0.6279493            —   
##                  p-value         < .0000001            —   
##                  95% CI Upper     0.7338535            —   
##                  95% CI Lower     0.4922450            —   
##  ---------------------------------------------------------
  • Mit \(r = 0.63\) besteht ein mittlerer Zusammenhang zwischen der Schlafdauer des Babys und Dan’s Schlafdauer.


  1. Erstellen Sie ein einfaches lineares Regressionsmodell.
## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ----------------------------------- 
##    Model    R            R²          
##  ----------------------------------- 
##        1    0.6279493    0.3943204   
##  ----------------------------------- 
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - dan.sleep                                                                 
##  ---------------------------------------------------------------------------------------------- 
##    Predictor     Estimate     SE            Lower        Upper        t            p            
##  ---------------------------------------------------------------------------------------------- 
##    Intercept     4.4896920    0.31994421    3.8547731    5.1246109    14.032734    < .0000001   
##    baby.sleep    0.3075471    0.03850308    0.2311390    0.3839552     7.987597    < .0000001   
##  ----------------------------------------------------------------------------------------------


\[ \operatorname{\widehat{dan.sleep}} = 4.49 + 0.31(\operatorname{baby.sleep}) \]


  1. Formulieren Sie Ihre Resultate.

Zwischen der Schlafdauer von Dan’s Baby und ihrer eigenen Schlafdauer besteht ein positive linearer Zusammenhang, d.h. je länger das Baby schläft, desto länger schläft auch Dan. Der Zusammenhang ist mässig und signifikant, \(r_p\) = 0.6279 [0.4922, 0.7339], p < 0.0001.

Eine einfache lineare Regression mit Dan’s Schlafdauer als abhängiger Variable und der Schlafdauer des Babys als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta\) für Schlaf Baby beträgt 0.3075 [0.2311, 0.3840], p < 0.0001). Pro Stunde Schlaf des Babys erhöht sich Dan’s Schlafdauer demnach im Durchschnitt um 0.3075 [.2311, .3840] Stunden. Die Schlafdauer des Babys erklärt 39.4% der Varianz von Dan’s Schlafdauer (\(R^2\) = .3943)