laboration 1

Lab 1

Uppgift 1a

Uppgift 1b

# A tibble: 898 × 6
   Family Father Mother Gender Height  Kids
   <chr>   <dbl>  <dbl> <chr>   <dbl> <int>
 1 1        78.5   67   M        73.2     4
 2 1        78.5   67   F        69.2     4
 3 1        78.5   67   F        69       4
 4 1        78.5   67   F        69       4
 5 2        75.5   66.5 M        73.5     4
 6 2        75.5   66.5 M        72.5     4
 7 2        75.5   66.5 F        65.5     4
 8 2        75.5   66.5 F        65.5     4
 9 3        75     64   M        71       2
10 3        75     64   F        68       2
# ℹ 888 more rows

Uppgift 1c - Deskriptiv Analys

# A tibble: 898 × 10
   Family Father Mother Gender Height  Kids height_cm mom_cm dad_cm parents_avg
   <chr>   <dbl>  <dbl> <chr>   <dbl> <int>     <dbl>  <dbl>  <dbl>       <dbl>
 1 1        78.5   67   M        73.2     4      186.   170.   199.        185.
 2 1        78.5   67   F        69.2     4      176.   170.   199.        185.
 3 1        78.5   67   F        69       4      175.   170.   199.        185.
 4 1        78.5   67   F        69       4      175.   170.   199.        185.
 5 2        75.5   66.5 M        73.5     4      187.   169.   192.        180.
 6 2        75.5   66.5 M        72.5     4      184.   169.   192.        180.
 7 2        75.5   66.5 F        65.5     4      166.   169.   192.        180.
 8 2        75.5   66.5 F        65.5     4      166.   169.   192.        180.
 9 3        75     64   M        71       2      180.   163.   190.        177.
10 3        75     64   F        68       2      173.   163.   190.        177.
# ℹ 888 more rows

Uppgift 1d - Subsetta Data

# A tibble: 433 × 10
   Family Father Mother Gender Height  Kids height_cm mom_cm dad_cm parents_avg
   <chr>   <dbl>  <dbl> <chr>   <dbl> <int>     <dbl>  <dbl>  <dbl>       <dbl>
 1 1        78.5   67   F        69.2     4      176.   170.   199.        185.
 2 1        78.5   67   F        69       4      175.   170.   199.        185.
 3 1        78.5   67   F        69       4      175.   170.   199.        185.
 4 2        75.5   66.5 F        65.5     4      166.   169.   192.        180.
 5 2        75.5   66.5 F        65.5     4      166.   169.   192.        180.
 6 3        75     64   F        68       2      173.   163.   190.        177.
 7 4        75     64   F        67       5      170.   163.   190.        177.
 8 4        75     64   F        64.5     5      164.   163.   190.        177.
 9 4        75     64   F        63       5      160.   163.   190.        177.
10 5        75     58.5 F        66.5     6      169.   149.   190.        170.
# ℹ 423 more rows

Uppgift 1f - Plotta sambandet mellan föräldrars och deras döttrars längd med ett spridningsdiagram (scatterplot)

Del 2 - Linjär regression

2a - Enkel Linjär regression


Call:
lm(formula = height_cm ~ parents_avg, data = df_f)

Coefficients:
(Intercept)  parents_avg  
    40.5565       0.7214


Analysis of variance - ANOVA
------------------------------------------------
       df      SS       MS      F     Pr(>F)
Regr    1  4590.1 4590.129 178.73 2.4057e-34
Error 431 11068.9   25.682                  
Total 432 15659.0                           

Measures of model fit
------------------------------------------------
Root MSE       R2   R2-adj 
 5.06773  0.29313  0.29149 

Parameter estimates
------------------------------------------------
            Estimate Std. Error t value   Pr(>|t|)
(Intercept)  40.5565    9.15003  4.4324 1.1838e-05
parents_avg   0.7214    0.05396 13.3690 2.4057e-34

Vid signifikansnivå på 1%, är parent_avg signifikant då Pr(>|t|)=2.4057e−34. Variationen i responsvariabeln kan förklaras med ca 30% av prediktorn parents_avg.

`geom_smooth()` using formula = 'y ~ x'

Nej konfidensintervallet täcker inte de flesta punkterna. Konfidensintervallet visar osäkerheten / säkerheten för linjen, dvs var denn sanna linjen med 90% säkerhet kan ligga.

2b - Linjär regression med interaktionseffekter


Call:
lm(formula = height_cm ~ Gender + parents_avg + Gender:parents_avg, 
    data = df)

Residuals:
     Min       1Q   Median       3Q      Max 
-24.2226  -3.6070   0.2322   3.7174  23.0922 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)         40.55647    9.89956   4.097 4.57e-05 ***
GenderM              9.40919   13.95648   0.674    0.500    
parents_avg          0.72140    0.05838  12.357  < 2e-16 ***
GenderM:parents_avg  0.02286    0.08240   0.277    0.782    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.483 on 894 degrees of freedom
Multiple R-squared:  0.6382,    Adjusted R-squared:  0.637 
F-statistic: 525.8 on 3 and 894 DF,  p-value: < 2.2e-16


Analysis of variance - ANOVA
------------------------------------------------
       df    SS        MS      F      Pr(>F)
Regr    3 47415 15805.124 525.76 7.8271e-197
Error 894 26875    30.062                   
Total 897 74291                             

Measures of model fit
------------------------------------------------
Root MSE       R2   R2-adj 
 5.48286  0.63824  0.63703 

Parameter estimates
------------------------------------------------
                     Estimate Std. Error  t value   Pr(>|t|)
(Intercept)         40.556472   9.899559  4.09680 4.5695e-05
GenderM              9.409185  13.956476  0.67418 5.0037e-01
parents_avg          0.721396   0.058381 12.35678 1.7004e-32
GenderM:parents_avg  0.022856   0.082398  0.27739 7.8155e-01

B3 är inte statistisk signifikant på 5% signifikansnivå, eftersom Pr(>|t|) = 0.782. Dvs

Detta betyder att interaktionen mellan kön och föräldrarnas medellängd inte har någon statistiskt signifikant påverkan på barnets längd

R2 är rimlig, från R2 = 0.29313 i den första modellen med enbart kvinnor, och den andra modellen med interaktionseffekten och både män och kvinnor: R2 = 0.63824

När vi har med både kvinnor och män, dvs all datan, förklarar variationen i längd i större uträckning, och därav ökar R2.

`geom_smooth()` using formula = 'y ~ x'

2c - Residualanalys

reg_residuals(int_minmodell)

Från residualanalysen ser vi att residualerna är normalfördelade från Q-Q ploten eftersom punkterna väldigt nära följer den linjära linjen, ingen strend eller struktur visas i fitted value analysen, vilket tyder på att residualerna har en konstant varians (homoskedastisitet), puketerna är slumpsässigt födelade. Historgrammet bekäftar Q-Q plotten med normalfördelning och sista anlysen med inga tydliga trender över tid.

2d - Prediktion

predict(
    object = int_minmodell,
    newdata = data.frame(Gender = "M", parents_avg = 190),
    interval = c("prediction"), level = 0.90
)

       fit      lwr      upr
1 191.3736 182.1178 200.6295

Det predicerade (skattade) värdet visar att givet att det är en pojke och föräldrar med medellängd på 190 cm, skattas personens längd hamna på ca 191.4 cm, med ett prediktionsintervall mellan 182,1 cm till 200,6 cm, vilket betyder vad det predicerade värdet förväntas variera.