# A tibble: 898 × 6
Family Father Mother Gender Height Kids
<chr> <dbl> <dbl> <chr> <dbl> <int>
1 1 78.5 67 M 73.2 4
2 1 78.5 67 F 69.2 4
3 1 78.5 67 F 69 4
4 1 78.5 67 F 69 4
5 2 75.5 66.5 M 73.5 4
6 2 75.5 66.5 M 72.5 4
7 2 75.5 66.5 F 65.5 4
8 2 75.5 66.5 F 65.5 4
9 3 75 64 M 71 2
10 3 75 64 F 68 2
# ℹ 888 more rows
laboration 1
Lab 1
Uppgift 1a
Uppgift 1b
Uppgift 1c - Deskriptiv Analys
# A tibble: 898 × 10
Family Father Mother Gender Height Kids height_cm mom_cm dad_cm parents_avg
<chr> <dbl> <dbl> <chr> <dbl> <int> <dbl> <dbl> <dbl> <dbl>
1 1 78.5 67 M 73.2 4 186. 170. 199. 185.
2 1 78.5 67 F 69.2 4 176. 170. 199. 185.
3 1 78.5 67 F 69 4 175. 170. 199. 185.
4 1 78.5 67 F 69 4 175. 170. 199. 185.
5 2 75.5 66.5 M 73.5 4 187. 169. 192. 180.
6 2 75.5 66.5 M 72.5 4 184. 169. 192. 180.
7 2 75.5 66.5 F 65.5 4 166. 169. 192. 180.
8 2 75.5 66.5 F 65.5 4 166. 169. 192. 180.
9 3 75 64 M 71 2 180. 163. 190. 177.
10 3 75 64 F 68 2 173. 163. 190. 177.
# ℹ 888 more rows
Uppgift 1d - Subsetta Data
# A tibble: 433 × 10
Family Father Mother Gender Height Kids height_cm mom_cm dad_cm parents_avg
<chr> <dbl> <dbl> <chr> <dbl> <int> <dbl> <dbl> <dbl> <dbl>
1 1 78.5 67 F 69.2 4 176. 170. 199. 185.
2 1 78.5 67 F 69 4 175. 170. 199. 185.
3 1 78.5 67 F 69 4 175. 170. 199. 185.
4 2 75.5 66.5 F 65.5 4 166. 169. 192. 180.
5 2 75.5 66.5 F 65.5 4 166. 169. 192. 180.
6 3 75 64 F 68 2 173. 163. 190. 177.
7 4 75 64 F 67 5 170. 163. 190. 177.
8 4 75 64 F 64.5 5 164. 163. 190. 177.
9 4 75 64 F 63 5 160. 163. 190. 177.
10 5 75 58.5 F 66.5 6 169. 149. 190. 170.
# ℹ 423 more rows
Uppgift 1f - Plotta sambandet mellan föräldrars och deras döttrars längd med ett spridningsdiagram (scatterplot)
Del 2 - Linjär regression
2a - Enkel Linjär regression
Call:
lm(formula = height_cm ~ parents_avg, data = df_f)
Coefficients:
(Intercept) parents_avg
40.5565 0.7214
Analysis of variance - ANOVA
------------------------------------------------
df SS MS F Pr(>F)
Regr 1 4590.1 4590.129 178.73 2.4057e-34
Error 431 11068.9 25.682
Total 432 15659.0
Measures of model fit
------------------------------------------------
Root MSE R2 R2-adj
5.06773 0.29313 0.29149
Parameter estimates
------------------------------------------------
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.5565 9.15003 4.4324 1.1838e-05
parents_avg 0.7214 0.05396 13.3690 2.4057e-34
Vid signifikansnivå på 1%, är parent_avg signifikant då Pr(>|t|)=2.4057e−34. Variationen i responsvariabeln kan förklaras med ca 30% av prediktorn parents_avg.
`geom_smooth()` using formula = 'y ~ x'
Nej konfidensintervallet täcker inte de flesta punkterna. Konfidensintervallet visar osäkerheten / säkerheten för linjen, dvs var denn sanna linjen med 90% säkerhet kan ligga.
2b - Linjär regression med interaktionseffekter
Call:
lm(formula = height_cm ~ Gender + parents_avg + Gender:parents_avg,
data = df)
Residuals:
Min 1Q Median 3Q Max
-24.2226 -3.6070 0.2322 3.7174 23.0922
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.55647 9.89956 4.097 4.57e-05 ***
GenderM 9.40919 13.95648 0.674 0.500
parents_avg 0.72140 0.05838 12.357 < 2e-16 ***
GenderM:parents_avg 0.02286 0.08240 0.277 0.782
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.483 on 894 degrees of freedom
Multiple R-squared: 0.6382, Adjusted R-squared: 0.637
F-statistic: 525.8 on 3 and 894 DF, p-value: < 2.2e-16
Analysis of variance - ANOVA
------------------------------------------------
df SS MS F Pr(>F)
Regr 3 47415 15805.124 525.76 7.8271e-197
Error 894 26875 30.062
Total 897 74291
Measures of model fit
------------------------------------------------
Root MSE R2 R2-adj
5.48286 0.63824 0.63703
Parameter estimates
------------------------------------------------
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.556472 9.899559 4.09680 4.5695e-05
GenderM 9.409185 13.956476 0.67418 5.0037e-01
parents_avg 0.721396 0.058381 12.35678 1.7004e-32
GenderM:parents_avg 0.022856 0.082398 0.27739 7.8155e-01
B3 är inte statistisk signifikant på 5% signifikansnivå, eftersom Pr(>|t|) = 0.782. Dvs
Detta betyder att interaktionen mellan kön och föräldrarnas medellängd inte har någon statistiskt signifikant påverkan på barnets längd
R2 är rimlig, från R2 = 0.29313 i den första modellen med enbart kvinnor, och den andra modellen med interaktionseffekten och både män och kvinnor: R2 = 0.63824
När vi har med både kvinnor och män, dvs all datan, förklarar variationen i längd i större uträckning, och därav ökar R2.
`geom_smooth()` using formula = 'y ~ x'
2c - Residualanalys
reg_residuals(int_minmodell) Från residualanalysen ser vi att residualerna är normalfördelade från Q-Q ploten eftersom punkterna väldigt nära följer den linjära linjen, ingen strend eller struktur visas i fitted value analysen, vilket tyder på att residualerna har en konstant varians (homoskedastisitet), puketerna är slumpsässigt födelade. Historgrammet bekäftar Q-Q plotten med normalfördelning och sista anlysen med inga tydliga trender över tid.
2d - Prediktion
predict(
object = int_minmodell,
newdata = data.frame(Gender = "M", parents_avg = 190),
interval = c("prediction"), level = 0.90
) fit lwr upr
1 191.3736 182.1178 200.6295
Det predicerade (skattade) värdet visar att givet att det är en pojke och föräldrar med medellängd på 190 cm, skattas personens längd hamna på ca 191.4 cm, med ett prediktionsintervall mellan 182,1 cm till 200,6 cm, vilket betyder vad det predicerade värdet förväntas variera.