Загрузим базу данных по пассажирам “Титаника” (подробное описание см. здесь) и удалим из нее строки с пропущенными значениями:

df <- read.csv("https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv")
df <- na.omit(df)

Нас будут интересовать только выжившие пассажиры. Выберем соответствующие строки из базы df.

surv <- df[df$Survived == 1, ]

Посмотрим, чему равен средний возраст выживших пассажиров:

mean(surv$Age)
## [1] 28.34369

Проверим гипотезу о равенстве среднего возраста выживших пассажиров 30 годам. Какую альтернативную гипотезу выбрать? Исходя из данных можно остановиться на односторонней, а точнее, левосторонней, так как выборочное среднее меньше 30. Итак, получаем:

\[H_0: a = 30\]

\[H_0: a < 30\] Проверим эту гипотезу в R, используя критерий Стьюдента для одной выборки (предполагаем, что возраст выживших пассажиров имеет нормальное распределение).

# на первом месте - переменная, для которой проверяем гипотезу
# затем значение среднего из гипотезы
# затем - тип альтернативы (less, greater, two.sided)
t.test(surv$Age, mu = 30, alternarive = "less")
## 
##  One Sample t-test
## 
## data:  surv$Age
## t = -1.8866, df = 289, p-value = 0.06022
## alternative hypothesis: true mean is not equal to 30
## 95 percent confidence interval:
##  26.61570 30.07168
## sample estimates:
## mean of x 
##  28.34369

Что мы видим в выдаче? Во-первых, значение t – наблюдаемое значение статистики критерия и число степеней свободы df (\(df = n -1 = 290 -1\)). Во-вторых, mean of x – выборочное среднее (среднее арифметическое) и 95%-ный доверительный интервал для среднего значения. Наконец, самое главное – p-value, на основе которого мы сможем сделать вывод о нулевой гипотезе. Давайте зафиксируем уровень значимости, скажем, что мы проверяем гипотезу при \(\alpha=5\%\).

Статистический вывод: на 5%-ном уровне значимости на имеющихся данных нет оснований отвергнуть нулевую гипотезу в пользу альтернативной (\(p-value >\alpha\)). Содержательный вывод: средний возраст выживших пассажиров можно считать равным 30 годам.

Обратите внимание: если бы выбрали уровень значимости равный 10%, то вывод был бы противоположный, так как p-value = 0.06 меньше \(\alpha=0.1\). Нулевая гипотеза была бы отвергнута в пользу альтернативы, и мы бы сделали вывод о том, что средний возраст выживших пассажиров менее 30 лет. Поэтому в выводах (и в любой интерпретации) очень важно указывать уровень значимости.

Теперь перейдем к другой задаче. Сравним средний возраст выживших мужчин и женщин. Гипотеза о равенстве средних (в предположении о нормальном распределении генеральных совокупностей) проверяется с помощью критерия Стьюдента для двух выборок. В качестве альтернативной гипотезы выберем правостороннюю, то есть будем считать, что возраст выживших женщин выше:

\[H_0: a_1 = a_2\] \[H_1: a_1 > a_2\]

# через ~ указывается переменная, по которой делим наблюдения на группы
# здесь по полу
t.test(surv$Age ~ surv$Sex, alternarive = "greater")
## 
##  Welch Two Sample t-test
## 
## data:  surv$Age by surv$Sex
## t = 0.7909, df = 158.22, p-value = 0.4302
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -2.353227  5.496616
## sample estimates:
## mean in group female   mean in group male 
##             28.84772             27.27602

В данном случае мы видим уже два выборочных средних sample estimates, средний возраст мужчин и женщин. Число степеней свободы считается несколько иначе, если сравнивать с лекцией, просто в R реализуется не классический критерий Стьюдента, а его модификация. P-value в нашем случае достаточно высокий, выше любого конвенционального уровня значимости (1%, 5%, 10%), потому на любом уровне значимости у нас нет оснований отвергнуть нулевую гипотезу. Средний возраст выживших женщин равен среднему возрасту выживших мужчин.