Einführung

Im Prinzip sind die Modelle der linearen Regression eine ausgefeiltere Version der Korrelation nach Pearson, allerdings können sie viel mehr.

Wie wir bei den Übungen zur Korrelation gelernt haben, misst der Korrelationskoeffizient das Mass, in dem sich die Daten auf einer perfekten Linie befinden. Aus der Schule wissen wir (ist lange her), dass eine Gerade mathematisch beschrieben wird mit der Formel:

\[y = \beta_0 + \beta_1 \times x\]

Wobei:

\(\beta_0\) = Schnittpunkt der Geraden mit der y-Achse wenn x = 0
\(\beta_1\) = Steigung der Geraden (\(\Delta y/\Delta x\) d.h. um welchen Betrag nimmt y zu oder ab, wenn x um eine Einheit verändert wird)
\(y\) = abhängige Variable
\(x\) = unabhängige Variable = Prädiktorvariable

Die Gerade, welche insgesamt den geringsten Abstand zu allen Datenpunkten hat, nennt man Regressionsgerade.

Wie aus der Formel ersichtlich, ist im Regressionsmodell die y-Variable abhängig von der x-Variablen, d.h. wir gehen hier von einem ursächlichen Zusammenhang zwischen den beiden Variablen aus: Die Ausprägung von x bestimmt die Ausprägung von y, mit anderen Worten, der Zusammenhang ist derart, dass der Wert von x den Wert von y voraussagt. Daher wird x auch als Prädiktorvariable bezeichnet.

Beispiel:

Wir wissen, dass grösser gewachsene Menschen üblicherweise eine grössere Schuhgrösse tragen. Es scheint also ein Zusammenhang zwischen Körpergrösse und Schuhgrösse zu bestehen und wir können das einfach mit einer Korrelation prüfen. In der Regressionsanalyse stellt sich allerdings zusätzlich die Frage, wie der Zusammenhang ist. Nun wird kaum jemand auf die Idee kommen, dass die Körpergrösse eine Funktion der Schuhgrösse ist und wir dürfen davon ausgehen, dass es genau umgekehrt ist, d.h.dass die Schuhgrösse von der Körpergrösse abhängt. Damit wird die Schuhgrösse zur abhängigen Variable y und die Körpergrösse zur unabhängigen Variable x.

\[Schuhgrösse = \beta_0 + \beta_1 \times Körpergrösse\]

Die Grafik zeigt einen positiven linearen Zusammenhang zwischen Schuhgrösse und Körpergrösse. Die blaue Linie ist die Regressionsgrade. Sie wird vom PC so berechnet, dass die Summe der quadrierten Abstände aller Punkte minimal ist. Die Steigung der Geraden \(\beta_1\) gibt uns an, um wieviel die Schuhgrösse zunimmt, wenn die Körpergrösse um eine Einheit zunimmt. So genau lässt sich das aber nicht ablesen und deshalb lassen wir den PC unser Regressionsmodell rechnen.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ─────────────────────────────────── 
##    Model    R            R²          
##  ─────────────────────────────────── 
##        1    0.8545966    0.7303353   
##  ─────────────────────────────────── 
##    Note. Models estimated using
##    sample size of N=228
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - Schuhgroesse                                    
##  ──────────────────────────────────────────────────────────────────── 
##    Predictor    Estimate      SE            t            p            
##  ──────────────────────────────────────────────────────────────────── 
##    Intercept    -6.4058987    1.84822749    -3.465969     0.0006322   
##    Groesse       0.2695206    0.01089403    24.740206    < .0000001   
##  ────────────────────────────────────────────────────────────────────

Jetzt können wir die Koeffizienten \(\beta_0\) (= Estimate Intercept) und \(\beta_1\) (= Estimate Groesse) in unsere Formel einsetzen:

\[ \operatorname{\widehat{Schuhgroesse}} = -6.41 + 0.27(\operatorname{Groesse}) \]

Setzen wir für x = 170 ein, erhalten wir eine Schätzung für die \(Schuhgrösse = -6.41 + 0.27 \times 170 = 39.49\), d.h. wir erwarten bei 170 cm grossen Menschen eine Schuhgrösse zwischen 39 und 40.
Setzen wir für x = 0 ein, ist die Schuhgrösse -6.41, was natürlich Unsinn ist, da erstens keine Menschen mit der Körpergrösse 0 cm existieren und zweitens eine negative Schuhgrösse keinen Sinn macht. Generell werden wir uns mit der Interpretation des Koeffizienten \(\beta_0\) in diesem Kurs zurückhalten.
Frauen haben bei gleicher Körpergrösse kleinere Füsse als Männer. Wir werden im Verlaufe der Übungen sehen, dass wir unsere Vorhersage der Schuhgrösse verbessern können, wenn wir das Geschlecht in unserem Modell berücksichtigen.
\(R^2\) ist ein Qualitätsmerkmal für die Güte des Regressionsmodells und wird als Bestimmtheitsmass bezeichnet. Die Interpretation ist relativ einfach: Der Wert von \(R^2\) gibt an, zu welchem Anteil (Prozentsatz) sich die Varianz der abhängigen Variable \(y\) durch die unabhängige Variable \(x\) erklären lässt. Im einfachen linearen Regressionsmodell gilt \(R^2\) = \(r^2\), wobei \(r\) der Korrelationskoeffizient nach Pearson ist (im jamovi-Output als \(R\) angegeben).

Übung 1

Aufgabe

Wir haben eine Regression, die das Körpergewicht (kg) in Abhängigkeit von der Körpergrösse (cm) vorhersagt. Welche Einheiten haben Korrelationskoeffizient \(r\), Achsenabschnitt \(\beta_0\) und Steigung \(\beta_1\)?

Lösung

Der Korrelationskoeffizient ist dimensionslos (keine Einheit)
Achsenabschnitt \(\beta_0\): kg
Steigung \(\beta_1\): kg/cm

Übung 2

Aufgabe

In welchem Fall a) oder b) ist die Unsicherheit für den Schätzer von \(\beta_1\) grösser? Begründen Sie ihre Antwort.

Wenn die Punkte stark um die Regressionsgerade streuen
Wenn die Punkte wenig um die Regressionsgerade streuen

Lösung

Im Fall von a) ist die Unsicherheit grösser. Je mehr die Punkte um die Regressionsgerade streuen, desto kleiner ist der Korrelationskoeffizient und damit die Unsicherheit für den Schätzer von \(\beta_1\).

Übung 3

Aufgabe

Wir erstellen ein Regressionsmodell um die Inzidenz von Hautkrebs (pro 1000 Menschen) von der Anzahl Sonnentage in einem Jahr vorherzusagen. Für das Jahr 2019 sagt unser Modell eine Inzidenz von 1.5 Hautkrebserkrankungen pro 1000 Menschen voraus. Das Residuum für dieses Jahr beträgt 0.5. Hat unser Modell die Inzidenz unter- oder überschätzt? Begründen Sie ihre Antwort.

Lösung

Unser Modell hat die Inzidenz unterschätzt. Ein Residuum wird berechnet als \(\epsilon = beobachteter ~ Wert - gefitteter ~ Wert\). Ein positives Residuum bedeutet daher, dass der vorhergesagte (gefittete) Wert geringer ist, als der beobachtete Wert. Effektiv betrug 2019 die Inzidenz 2 Hautkrebserkrankungen pro 1000 Menschen.

Übung 4

Eine Forschungsgruppe sammelte Messungen zu Körperumfang und Knochendurchmesser. Zusätzlich wurden Alter, Körpergewicht, Körpergrösse und Geschlecht erfasst. Eingeschlossen wurden 507 jugendliche und erwachsene, körperlich aktive Menschen. Wir untersuchen den Zusammenhang zwischen Schulterumfang und Körpergrösse, wobei wir für unsere Fragestellung die Körpergrösse als abhängige Variable und den Schulterumfang als unabhängige Variable annehmen.

Hinweis

Formel für die Berechnung der Steigung: \(\beta_1 = \frac{s_y}{s_x} r\)
Formel für die Berechnung des Achsenabschnitts: \(\beta_0 = \bar{y} - \beta_1 \bar{x}\)

Diese Formeln müssen nicht gelernt werden!

Aufgabe

Der durchschnittliche Schulterumfang im Datensatz beträgt 107.2 cm (s = 10.37 cm). Die durchschnittliche Körpergrösse beträgt 171.14 cm (s = 9.41 cm). Der Pearson-Korrelationskoeffizient beträgt \(r = 0.67\).

Notieren Sie die Gleichung für die Regressionsgerade um die Grösse vorherzusagen.
Interpretieren Sie die Steigung und den Achsenabschnitt in diesem Kontext.
Berechnen Sie \(R^2\) für die Regressionsgerade, die die Körpergrösse in Abhängigkeit vom Schulterumfang vorhersagt.
Ein zufällig ausgewählter Student hat einen Schulterumfang von 100 cm. Wie gross ist der Student gemäss Ihrem Modell?
Der Student aus Frage 4. ist 160 cm gross. Berechnen Sie das Residuum und erläutern Sie ihr Ergebnis.
Ein einjähriges Kind hat einen Schulterumfang von 56 cm. Könnte mit unserem Modell auch dessen Körpergrösse geschätzt werden?

Lösung

Notieren Sie die Gleichung für die Regressionsgerade um die Grösse vorherzusagen.

Zuerst berechnen wir die Steigung:

\[\beta_1 = \frac{s_y}{s_x} r = \frac{9.41}{10.37}\times0.67 = 0.608\]

jetzt berechnen wir den Achsenabschnitt:

\[\beta_0 = \bar{y} - \beta_1 \bar{x} = 171.14 - 0.608 \times 107.2 = 105.96\]

Jetzt können wir die Regressionsgleichung aufstellen:

\[\widehat{Groesse} = 105.96 + 0.608 \times Schulterumfang\]

Interpretieren Sie die Steigung und den Achsenabschnitt in diesem Kontext.

Steigung: Für jeden cm Zunahme des Schulterumfangs, erwarten wir eine durchschnittliche Grössenzunahme von 0.608 cm.
Achsenabschnitt: Für Menschen mit einem Schulterumfang von 0 cm erwarten wir eine durchschnittliche Körpergrösse von 105.96 cm. Diese Aussage macht definitiv keinen Sinn.

Berechnen Sie \(R^2\) für die Regressionsgerade, die die Körpergrösse in Abhängigkeit vom Schulterumfang vorhersagt und erläutern Sie ihr Resultat.

Bei einer einfachen linearen Regression ist \(R^2 = r^2 = 0.67^2 = 0.45\).
Etwa 45% der Variation der Körpergrösse lässt sich durch unser Modell erklären, d.h. wird durch den Schulterumfang erklärt.

Ein zufällig ausgewählter Student hat einen Schulterumfang von 100 cm. Wie gross ist der Student gemäss Ihrem Modell?

Durch einsetzen von 100 in die Gleichung ergibt sich

\[\widehat{Groesse} = 105.96 + 0.608 \times 100 \approx 167 cm\]

Der Student aus Frage 4. ist 160 cm gross. Berechnen Sie das Residuum und erläutern Sie ihr Ergebnis.

\[\epsilon_i = y_i - \hat{y_i} = 160 - 167 = -7 cm\]

Ein negatives Residuum bedeutet, dass das Modell die Grösse des Studenten überschätzt.

Ein einjähriges Kind hat einen Schulterumfang von 56 cm. Könnte mit unserem Modell auch dessen Körpergrösse geschätzt werden?

Nein. Die Datenerhebung erfolgte bei Jugendlichen und Erwachsenen (mit Schulterumfängen von 90 bis 130 cm). Das Regressionsmodell ist nur innerhalb der gemessenen Bereiche gültig und kann nicht auf Kleinkinder extrapoliert werden.

Übung 5

Wir untersuchen den Zusammenhang zwischen dem Herzgewicht (Hwt in g) von Katzen in Abhängigkeit von ihrem Körpergewicht (Bwt in kg). Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand eines Datensatzes berechnet, der die Daten von n = 144 Hauskatzen umfasst.

## Warning: The `size` argument of `element_line()` is deprecated as of ggplot2 3.4.0.
## ℹ Please use the `linewidth` argument instead.
## ℹ The deprecated feature was likely used in the jmvcore package.
##   Please report the issue at <https://github.com/jamovi/jmvcore/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ─────────────────────────────────── 
##    Model    R            R²          
##  ─────────────────────────────────── 
##        1    0.8041274    0.6466209   
##  ─────────────────────────────────── 
##    Note. Models estimated using
##    sample size of N=144
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - Hwt                                             
##  ──────────────────────────────────────────────────────────────────── 
##    Predictor    Estimate      SE           t             p            
##  ──────────────────────────────────────────────────────────────────── 
##    Intercept    -0.3566624    0.6922770    -0.5152019     0.6072131   
##    Bwt           4.0340627    0.2502615    16.1193908    < .0000001   
##  ────────────────────────────────────────────────────────────────────

Aufgabe

Notieren Sie das lineare Modell.
Interpretieren Sie den Achsenabschnitt.
Interpretieren Sie die Steigung.
Interpretieren Sie \(R^2\).
Interpretieren sie \(R\).

Lösung

Notieren Sie das lineare Modell.

\[\widehat{Hwt} = -0.357 + 4.034 \times Bwt\]

Interpretieren Sie den Achsenabschnitt.

Für eine Katze mit 0 kg Körpergewicht, erwarten wir ein Herzgewicht von -0.357 g. Diese Angabe ist offensichtlich sinnfrei.

Interpretieren Sie die Steigung.

Bei einer Zunahme des Körpergewichts einer Katze um 1 kg, erwarten wir ein Zunahme des Herzgewichts um durchschnittlich 4.034 g.

Interpretieren Sie \(R^2\).

Das Körpergewicht erklärt 64.66% der Variabilität des Herzgewichts.

Interpretieren sie \(R\).

\(R\) ist der Korrelationskoeffizient nach Pearson. Mit \(r = 0.80\) besteht ein starker positiver Zusammenhang zwischen dem Körpergewicht und dem Herzgewicht von Katzen.

Übung 6

Kann die Anzahl an Mordfällen pro Million Einwohner und pro Jahr (annual_murders_per_mil) aus dem prozentualen Anteil an Menschen, die in Armut leben (perc_pov) vorhergesagt werden? Die Regressionskoeffizienten in diesem jamovi-Output wurden anhand einer Zufallsstichprobe von n = 20 Metropolitanregionen in den USA berechnet.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ─────────────────────────────────── 
##    Model    R            R²          
##  ─────────────────────────────────── 
##        1    0.8397782    0.7052275   
##  ─────────────────────────────────── 
##    Note. Models estimated using
##    sample size of N=20
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - annual_murders_per_mil                        
##  ────────────────────────────────────────────────────────────────── 
##    Predictor    Estimate      SE           t            p           
##  ────────────────────────────────────────────────────────────────── 
##    Intercept    -29.901163    7.7891841    -3.838805    0.0012027   
##    perc_pov       2.559390    0.3900129     6.562320    0.0000036   
##  ──────────────────────────────────────────────────────────────────

Aufgabe

Notieren Sie das lineare Modell.
Interpretieren Sie den Achsenabschnitt.
Interpretieren Sie die Steigung.
Interpretieren Sie \(R^2\).
Interpretieren sie \(R\).

Lösung

Notieren Sie das lineare Modell.

\[\widehat{Morde} = -29.901 + 2.559 \times Armut\]

Interpretieren Sie den Achsenabschnitt.

Die erwartete Anzahl Morde in Metropolitanregionen der USA ohne Armut beträgt im Durchschnitt -29.901 pro Million Einwohner.

Interpretieren Sie die Steigung.

Für jedes zusätzliche Prozent von Menschen, die in Armut leben, erwarten wir eine Zunahme um durchschnittlich 2.559 Morde pro Million Einwohner in Metropolitanregionen der USA.

Interpretieren Sie \(R^2\).

Der prozentuale Anteil an Menschen, die in Armut leben, erklärt 70.52% der Variabilität der Mordraten in Metropolitanregionen der USA.

Interpretieren sie \(R\).

Mit \(r = 0.84\) besteht ein starker positiver Zusammenhang zwischen dem Anteil Menschen, die in Armut leben und der Mordrate in Metropolitanregionen der USA.

Übung 7

Erfahrungsgemäss hat die Schlafdauer junger Mütter einen erheblichen Einfluss auf ihre Laune. Danielle hat in einem Selbstversuch während 100 Tagen ihre Laune anhand einer selbst erstellten Skala von 0 - 100 gemessen. Zudem hat sie ihre eigene Schlafdauer und diejenige ihres Babys gemessen.

Wir arbeiten mit dem Datesatz parenthood.csv. Der Datensatz stammt aus dem Lehrbuch Learning Statistics with jamovi von Danielle Navarro und David Foxcroft und enthält 5 Variablen

Variable	Erläuterung
ID	Eine ID für jede Messung, 1…100
dan.sleep	Dan’s (Danielle’s) Schlafdauer in Stunden
baby.sleep	Die Schlafdauer von Dan’s Baby in Stunden
dan.grump	Dan’s Schlechte-Laune-Score, Skala von 0 (super gute Laune) bis 100 (maximal schlecht gelaunt)
day	wie ID (überflüssige Variable)

Aufgabe

Besteht ein Zusammenhang zwischen der Stimmung von Dan (Danielle) und ihrer Schlafdauer?

Laden Sie den Datensatz in jamovi und kategorisieren Sie dan.grump als Ordinal-Integer
Formulieren Sie Ihre Hypothesen.
Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden.
Berechnen Sie den passenden Korrelationskoeffizienten.
Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Gleichung.
Formulieren Sie Ihre Resultate.

Lösung

Formulieren Sie Ihre Hypothesen.

\(H_0: \rho = 0\): Es besteht kein Zusammenhang zwischen Dan’s Stimmung und ihrer Schlafdauer.
\(H_A: \rho \neq 0\): Es besteht ein Zusammenhang zwischen Dan’s Stimmung und ihrer Schlafdauer.

Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen für dan.sleep und dan.grump.

## 
##  DESCRIPTIVES
## 
##  Descriptives                                     
##  ──────────────────────────────────────────────── 
##                          dan.sleep    dan.grump   
##  ──────────────────────────────────────────────── 
##    N                           100          100   
##    Missing                       0            0   
##    Mean                   6.965200     63.71000   
##    Median                 7.030000     62.00000   
##    Standard deviation     1.015884     10.04967   
##    Minimum                4.840000     41.00000   
##    Maximum                9.000000     91.00000   
##  ────────────────────────────────────────────────

Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer linearen Regressionsgeraden.

Es besteht ein negativer linearer Zusammenhang zwischen der Schlafdauer von Dan und ihrer Laune. Je länger Dan schläft, desto tiefer ist ihr Schlechte-Laune-Score.

Berechnen Sie den passenden Korrelationskoeffizienten.

## 
##  CORRELATION MATRIX
## 
##  Correlation Matrix                                       
##  ──────────────────────────────────────────────────────── 
##                                 dan.sleep     dan.grump   
##  ──────────────────────────────────────────────────────── 
##    dan.sleep    Pearson's r              —                
##                 df                       —                
##                 p-value                  —                
##                 95% CI Upper             —                
##                 95% CI Lower             —                
##                                                           
##    dan.grump    Pearson's r     -0.9033840            —   
##                 df                      98            —   
##                 p-value         < .0000001            —   
##                 95% CI Upper    -0.8594714            —   
##                 95% CI Lower    -0.9340614            —   
##  ────────────────────────────────────────────────────────

Der Korrelationskoeffizient \(r = -0.90 [-0.934; -0.859], p < 0.0001\). Damit besteht ein starker, negativer, signifikanter Zusammenhang zwischen Dan’s Schlafdauer und ihrer Laune.

Erstellen Sie ein einfaches lineares Regressionsmodell.

jamovi > Register Analyses > Regression > Linear Regression > dan.grump als Dependent Variable, dan.sleep als Covariates einfügen > unter Model Coefficients Häkchen bei Estimate Confidence interval setzen.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ─────────────────────────────────── 
##    Model    R            R²          
##  ─────────────────────────────────── 
##        1    0.9033840    0.8161027   
##  ─────────────────────────────────── 
##    Note. Models estimated using
##    sample size of N=100
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - dan.grump                                                                  
##  ─────────────────────────────────────────────────────────────────────────────────────────────── 
##    Predictor    Estimate      SE           Lower         Upper         t            p            
##  ─────────────────────────────────────────────────────────────────────────────────────────────── 
##    Intercept    125.956292    3.0160692    119.971000    131.941583     41.76174    < .0000001   
##    dan.sleep     -8.936756    0.4285309     -9.787161     -8.086350    -20.85440    < .0000001   
##  ───────────────────────────────────────────────────────────────────────────────────────────────

Durch Einsetzen der Koeffizienten erhalten wir das Regressionsmodell

\[ \operatorname{\widehat{dan.grump}} = 125.96 - 8.94(\operatorname{dan.sleep}) \]

Formulieren Sie Ihre Resultate.

Zwischen Dan’s Schlafdauer und ihrer Laune besteht ein negativer linearer Zusammenhang, d.h. je kürzer ihre Schlafdauer, desto höher ihr Schlechte-Laune-Score. Der Zusammenhang ist stark und signifikant, \(r_p\) = .9033[-0.9341, -0.8595], p < .0001. (Nebenbemerkung: Dan scheint eher ein Grummel zu sein, hat sie doch im Durchschnitt über die 100 Tage 63.7 Punkte auf ihrer Skala und mit einem Minimum von 41 Punkten nie wirklich gute Laune)
Eine einfache lineare Regression mit Schlechte-Laune-Score als abhängiger Variable und Schlafdauer als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta_1\) für Schlaf beträgt -8.94 [-9.79, -8.09], p < .0001). Dan’s Laune verbessert sich somit im Durchschnitt um -8.94 [-9.79, -8.09] Punkte pro Stunde, die sie mehr Schlaf bekommt. Die Schlafdauer erklärt 81.6% der Variabilität von Dan’s Laune (\(R^2\) = .8161)

Übung 8

Aufgabe

Wir arbeiten weiter mit dem Datensatz parenthood.csv.

Die Frage lautet: Besteht ein Zusammenhang zwischen der Schlaufdauer von Dan und von ihrem Baby?

Laden Sie den Datensatz in jamovi (ist vermutlich schon geschehen)
Formulieren Sie Ihre Hypothesen.
Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen.
Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden.
Berechnen Sie den passenden Korrelationskoeffizienten.
Erstellen Sie ein einfaches lineares Regressionsmodell und notieren Sie die Regressionsgleichung.
Formulieren Sie Ihre Resultate.

Lösung

Formulieren Sie Ihre Hypothesen.

\(H_0: \rho = 0\): Es besteht kein Zusammenhang zwischen der Schlafdauer von Dan und ihrem Baby.
\(H_A: \rho \neq 0\): Es besteht ein Zusammenhang zwischen der Schlafdauer von Dan und ihrem Baby.

Erstellen Sie eine Tabelle mit den deskriptiven Kennzahlen für dan.sleep und baby.sleep.

## 
##  DESCRIPTIVES
## 
##  Descriptives                                      
##  ───────────────────────────────────────────────── 
##                          baby.sleep    dan.sleep   
##  ───────────────────────────────────────────────── 
##    N                            100          100   
##    Missing                        0            0   
##    Mean                    8.049200     6.965200   
##    Median                  7.950000     7.030000   
##    Standard deviation      2.074232     1.015884   
##    Minimum                 3.250000     4.840000   
##    Maximum                 12.07000     9.000000   
##  ─────────────────────────────────────────────────

Überlegen Sie welches die abhängige und die unabhängige Variable ist und erstellen Sie ein Punktediagramm mit einer Regressionsgeraden. (Tipp für noch Unerfahrene: In der Regel ist es so, dass Eltern wegen dem Baby aufwachen und nicht umgekehrt.)

Es besteht ein positiver linearer Zusammenhang zwischen der Schlafdauer des Babys und Dan’s Schlafdauer.

Berechnen Sie den passenden Korrelationskoeffizienten.

## 
##  CORRELATION MATRIX
## 
##  Correlation Matrix                                        
##  ───────────────────────────────────────────────────────── 
##                                  baby.sleep    dan.sleep   
##  ───────────────────────────────────────────────────────── 
##    baby.sleep    Pearson's r              —                
##                  df                       —                
##                  p-value                  —                
##                  95% CI Upper             —                
##                  95% CI Lower             —                
##                                                            
##    dan.sleep     Pearson's r      0.6279493            —   
##                  df                      98            —   
##                  p-value         < .0000001            —   
##                  95% CI Upper     0.7338535            —   
##                  95% CI Lower     0.4922450            —   
##  ─────────────────────────────────────────────────────────

Mit \(r = 0.63 [0.734; 0.492\) besteht ein mittlerer Zusammenhang zwischen der Schlafdauer des Babys und Dan’s Schlafdauer.

Erstellen Sie ein einfaches lineares Regressionsmodell.

## 
##  LINEAR REGRESSION
## 
##  Model Fit Measures                  
##  ─────────────────────────────────── 
##    Model    R            R²          
##  ─────────────────────────────────── 
##        1    0.6279493    0.3943204   
##  ─────────────────────────────────── 
##    Note. Models estimated using
##    sample size of N=100
## 
## 
##  MODEL SPECIFIC RESULTS
## 
##  MODEL 1
## 
##  Model Coefficients - dan.sleep                                                                 
##  ────────────────────────────────────────────────────────────────────────────────────────────── 
##    Predictor     Estimate     SE            Lower        Upper        t            p            
##  ────────────────────────────────────────────────────────────────────────────────────────────── 
##    Intercept     4.4896920    0.31994421    3.8547731    5.1246109    14.032734    < .0000001   
##    baby.sleep    0.3075471    0.03850308    0.2311390    0.3839552     7.987597    < .0000001   
##  ──────────────────────────────────────────────────────────────────────────────────────────────

Durch einsetzen der Koeffizienten erhalten wir folgendes Regressionsmodell

\[ \operatorname{\widehat{dan.sleep}} = 4.49 + 0.31(\operatorname{baby.sleep}) \]

Formulieren Sie Ihre Resultate.

Zwischen der Schlafdauer von Dan’s Baby und ihrer eigenen Schlafdauer besteht ein positive linearer Zusammenhang, d.h. je länger das Baby schläft, desto länger schläft auch Dan. Der Zusammenhang ist moderat und signifikant, \(r\) = 0.6279 [0.4922, 0.7339], p < 0.0001.
Eine einfache lineare Regression mit Dan’s Schlafdauer als abhängiger Variable und der Schlafdauer des Babys als unabhängiger Variable wurde durchgeführt. Der geschätzte Regressionskoeffizient \(\beta\) für Schlaf Baby beträgt 0.3075 [0.2311, 0.3840], p < 0.0001. Pro Stunde Schlaf des Babys erhöht sich Dan’s Schlafdauer im Durchschnitt um 0.3075 [.2311, .3840] Stunden. Die Schlafdauer des Babys erklärt 39.4% der Varianz von Dan’s Schlafdauer (\(R^2\) = .3943).

Übungen: Lineare Regression

Lukas Stammler & Nathanael Lutz

2026-02-25

Einführung

Übung 1

Aufgabe

Lösung

Übung 2

Aufgabe

Lösung

Übung 3

Aufgabe

Lösung

Übung 4

Aufgabe

Lösung

Übung 5

Aufgabe

Lösung

Übung 6

Aufgabe

Lösung

Übung 7

Aufgabe

Lösung

Übung 8

Aufgabe

Lösung