Задания на статистику вывода и выбор тестов

Задания с mtcars

Чтобы получить более подробную справку по набору данных mtcars, посмотрите документацию: ?mtcars

Связаны ли потребление топлива (mpg) и масса автомобиля (wt)? Если да, то как именно и насколько сильно?

cor.test(mtcars$mpg, mtcars$wt)

    Pearson's product-moment correlation

data:  mtcars$mpg and mtcars$wt
t = -9.559, df = 30, p-value = 1.294e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9338264 -0.7440872
sample estimates:
       cor 
-0.8676594 

Сильная отрицательная связь между потреблением топлива и массой автомобиля: чем больше масса, тем меньше потребление топлива.

Связаны ли количество лошадиных сил (hp) и тип двигателя (vs: 0 = V-shaped, 1 = straight)? Если да, то как именно?

Одна из переменных бинарная, поэтому этот вопрос проще переформулировать как независимый t-test (в варианте Уэлча) для сравнения двух групп:

t.test(mtcars$hp ~ mtcars$vs)

    Welch Two Sample t-test

data:  mtcars$hp by mtcars$vs
t = 6.2908, df = 23.561, p-value = 1.82e-06
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
  66.06161 130.66854
sample estimates:
mean in group 0 mean in group 1 
      189.72222        91.35714 

Отвергаем нулевую гипотезу о том, что связи нет. Автомобили с V-образным двигателем имеют больше лошадиных сил, чем автомобили с прямым двигателем.

Связаны ли количество лошадиных сил (hp) и тип трансмиссии (am: 0 = automatic, 1 = manual) Если да, то как именно?

Одна из переменных бинарная, поэтому этот вопрос проще переформулировать как независимый t-test (в варианте Уэлча) для сравнения двух групп:

t.test(mtcars$hp ~ mtcars$am)

    Welch Two Sample t-test

data:  mtcars$hp by mtcars$am
t = 1.2662, df = 18.715, p-value = 0.221
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
 -21.87858  88.71259
sample estimates:
mean in group 0 mean in group 1 
       160.2632        126.8462 

Мы не отвергаем нулевую гипотезу о том, что автомобили с автоматической трансмиссией имеют столько же лошадиных сил, что и автомобили с ручной трансмиссией.

Постройте линейную модель для потребления топлива (mpg) в зависимости от массы автомобиля (wt), количества цилиндров (cyl) и лошадиных сил (hp). Оцените качество модели. Попробуйте упростить модель/

model_mpg_complex <- lm(mpg ~ wt + cyl + hp, data = mtcars)
summary(model_mpg_complex)

Call:
lm(formula = mpg ~ wt + cyl + hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.9290 -1.5598 -0.5311  1.1850  5.8986 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 38.75179    1.78686  21.687  < 2e-16 ***
wt          -3.16697    0.74058  -4.276 0.000199 ***
cyl         -0.94162    0.55092  -1.709 0.098480 .  
hp          -0.01804    0.01188  -1.519 0.140015    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.512 on 28 degrees of freedom
Multiple R-squared:  0.8431,    Adjusted R-squared:  0.8263 
F-statistic: 50.17 on 3 and 28 DF,  p-value: 2.184e-11

Показатель R-squared (0.8431) очень высокий, что указывает на высокое качество модели.

Попробуем удалить предиктор hp, посмотрим как изменился Adjusted R-squared:

model_mpg_simple <- lm(mpg ~ wt + cyl, data = mtcars)
summary(model_mpg_simple)

Call:
lm(formula = mpg ~ wt + cyl, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.2893 -1.5512 -0.4684  1.5743  6.1004 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  39.6863     1.7150  23.141  < 2e-16 ***
wt           -3.1910     0.7569  -4.216 0.000222 ***
cyl          -1.5078     0.4147  -3.636 0.001064 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.568 on 29 degrees of freedom
Multiple R-squared:  0.8302,    Adjusted R-squared:  0.8185 
F-statistic: 70.91 on 2 and 29 DF,  p-value: 6.809e-12

Качество модели осталось очень высоким, хотя Adjusted R-squared все равно немного ниже для более простой модели.

Есть ли статистически значимые различия по потребление топлива (mpg) для машин с автоматической и ручной трансмиссией (am)? Для машин с V-образным двигателем и прямым двигателем (vs)? Есть ли влияние взаимодействия типа трансмиссии и двигателя?

aov_mpg_model <- aov(mpg ~ am * vs, data = mtcars)
summary(aov_mpg_model)
            Df Sum Sq Mean Sq F value   Pr(>F)    
am           1  405.2   405.2  33.615 3.16e-06 ***
vs           1  367.4   367.4  30.484 6.69e-06 ***
am:vs        1   16.0    16.0   1.328    0.259    
Residuals   28  337.5    12.1                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Есть влияние как am, так и vs на потребление топлива, но влияние их взаимодействия не обнаружено

Пингвины

Для начала загрузим пингвиний датасет:

library(tidyverse)
penguins <- readr::read_csv("https://raw.githubusercontent.com/Pozdniakov/tidy_stats/master/data/penguins.csv")

Есть ли статистически значимая разница в массе (body_mass_g) между женскими и мужскими особями (sex) пингвинов?

Чтобы сравнить две группы, воспользуемся независимым т-тестом (в варианте Уэлча)

t.test(penguins$body_mass_g ~ penguins$sex)

    Welch Two Sample t-test

data:  penguins$body_mass_g by penguins$sex
t = -8.5545, df = 323.9, p-value = 4.794e-16
alternative hypothesis: true difference in means between group female and group male is not equal to 0
95 percent confidence interval:
 -840.5783 -526.2453
sample estimates:
mean in group female   mean in group male 
            3862.273             4545.685 

p-value меньше чем .05, отклоняем нулевую гипотезу о том, что мужские и женские особи не различаются по массе

Различается распределение по полу (sex) среди пингвинах на разных островах (island)?

Для исследования связи между полом и островами воспользуемся тестом хи-квадрат:

summary(table(penguins$sex, penguins$island))
Number of cases in table: 333 
Number of factors: 2 
Test for independence of all factors:
    Chisq = 0.0576, df = 2, p-value = 0.9716

p > .05, поэтому мы не отклоняем нулевую гипотезу о независимости переменных sex и island.

Есть ли разница по массе (body_mass_g) для разных видов (species) пингвинов? Если да, то между какими?

Для сравнения трех групп воспользуемся One-Way ANOVA:

summary(aov(body_mass_g ~ species, data = penguins))
             Df    Sum Sq  Mean Sq F value Pr(>F)    
species       2 146864214 73432107   343.6 <2e-16 ***
Residuals   339  72443483   213698                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2 observations deleted due to missingness

p-value < .05, следовательно, мы можем отклонить нулевую гипотезу о том, что три вида пингвинов имеют среднюю (в генеральной совокупности) массу.

Теперь посмотрим среднюю массу по разным видам:

penguins %>%
  group_by(species) %>%
  summarise(mean(body_mass_g, na.rm = TRUE))
# A tibble: 3 × 2
  species   `mean(body_mass_g, na.rm = TRUE)`
  <chr>                                 <dbl>
1 Adelie                                3701.
2 Chinstrap                             3733.
3 Gentoo                                5076.

Теперь проведем post-hoc тесты. Для попарного сравнения групп используем HSD Тьюки:

TukeyHSD(aov(body_mass_g ~ species, data = penguins))
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = body_mass_g ~ species, data = penguins)

$species
                       diff       lwr       upr     p adj
Chinstrap-Adelie   32.42598 -126.5002  191.3522 0.8806666
Gentoo-Adelie    1375.35401 1243.1786 1507.5294 0.0000000
Gentoo-Chinstrap 1342.92802 1178.4810 1507.3750 0.0000000

Пингвины вида Gentoo статистически значимо тяжелее Adelie и Chinstrap. Нулевую гипотезу о равенстве массы Adelie и Chinstrap мы отвергнуть не можем.

Есть ли различие между видами пингвинов (species) для длины ласт (flipper_length_mm)? Есть ли различие между женскими и мужскими особями (sex) пингвинов для длины ласт (flipper_length_mm)? Есть ли взаимодействие между полом и видом пингвинов для длины ласт?

Воспользуемся двухфакторной ANOVA

aov_flipper_species_sex <- aov(flipper_length_mm ~ species * sex, data = penguins)
summary(aov_flipper_species_sex)
             Df Sum Sq Mean Sq F value  Pr(>F)    
species       2  50526   25263 789.912 < 2e-16 ***
sex           1   3906    3906 122.119 < 2e-16 ***
species:sex   2    329     165   5.144 0.00631 ** 
Residuals   327  10458      32                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
11 observations deleted due to missingness

Оба фактора, как и их взаимодействие, статистически значимы.