В данном практикуме необходимо работать с файлом Ginzberg.csv
.
state
, который состоит из значений TRUE
и FALSE
, где TRUE
соответствует людям с показателем депрессии равным 1 и выше (высокий), а FALSE
— людям с показателем депрессии менее 1 (низкий).Подсказка:
# посмотрите, что это
factor(dep$depression >= 1)
Добавляем столбец:
dep <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/carData/Ginzberg.csv")
dep$state <- factor(dep$depression >= 1)
describeBy
, выведите описательные статистики по переменной simplicity
по группам в соответствии со столбцом state
. Прокомментируйте полученные результаты.library(psych)
describeBy(dep$simplicity, group = dep$state)
##
## Descriptive statistics by group
## group: FALSE
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 42 0.72 0.25 0.7 0.71 0.25 0.25 1.29 1.04 0.39 -0.63
## se
## X1 0.04
## --------------------------------------------------------
## group: TRUE
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 40 1.3 0.53 1.27 1.26 0.53 0.48 2.85 2.38 0.75 0.18
## se
## X1 0.08
Среднее и медианное значения показателя упрощения видения мира (simplicity
) выше у людей с высокой степенью депресии (TRUE
). При этом разброс значений simplicity
у этой группы людей также больше (см. значения стандартного отклонения и размаха).
ggplot2
, постройте гистограммы с шагом 0.3 для показателя упрощённого видения мира (simplicity
) для людей с высоким уровнем депрессии и с невысоким. Похоже ли распределение в каждой группе на нормальное?library(ggplot2)
ggplot(data = dep, aes(x = simplicity)) +
geom_histogram(binwidth = 0.3, fill = "coral1", color = "black") +
facet_wrap(~state)
В целом, похоже.
TRUE
) в датафрейм yes
, а с невысоким (FALSE
) в датафрейм no
.yes <- dep[dep$state == TRUE,]
no <- dep[dep$state == FALSE,]
simplicity
по группам. Проделайте то же самое, используя критерий Шапиро-Уилка.# критерий Колмогорова-Смирнова
# для первой группы
mean_yes <- mean(yes$simplicity)
sd_yes <- sd(dep$simplicity)
ks.test(yes$simplicity, "pnorm", mean_yes, sd_yes)
## Warning in ks.test(yes$simplicity, "pnorm", mean_yes, sd_yes): ties should
## not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: yes$simplicity
## D = 0.14475, p-value = 0.3717
## alternative hypothesis: two-sided
# для второй группы
mean_no <- mean(no$simplicity)
sd_no <- sd(dep$simplicity)
ks.test(no$simplicity, "pnorm", mean_no, sd_no)
## Warning in ks.test(no$simplicity, "pnorm", mean_no, sd_no): ties should not
## be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: no$simplicity
## D = 0.2208, p-value = 0.0333
## alternative hypothesis: two-sided
# критерий Шапиро-Уилка
shapiro.test(yes$simplicity)
##
## Shapiro-Wilk normality test
##
## data: yes$simplicity
## W = 0.95076, p-value = 0.08051
shapiro.test(no$simplicity)
##
## Shapiro-Wilk normality test
##
## data: no$simplicity
## W = 0.97176, p-value = 0.3777
Интерпретация
Для каждой группы у нас сформулированы одинаковые гипотезы:
\[ H_0: \text{ выборка взята из нормального распределения} \]
\[ H_1: \text{ выборка взята не из нормального распределения} \]
Смотрим на p-value. В обоих тестах, для обеих групп, p-value больше значения 0.05.
Вывод: на 5%-ном уровне значимости (\(\alpha=0.05\)) на основе имеющихся данных нет оснований отвергнуть нулевую гипотезу о нормальности распределения. Выборки взяты из нормального распределения (из генеральных совокупностей, имеющих нормальное распределение).
ggplot2
, постройте ящики с усами для показателя simplicity
по группам. Прокомментируйте полученные результаты.ggplot(data = dep, aes(y = simplicity)) +
geom_boxplot(fill = "coral1", color = "black") +
facet_wrap(~state)
Медианные значения показателя simplicity
отличаются у людей с высоким и низким уровнем депрессии, равно как и сами распределения.
simplicity
) равными для людей с высоким уровнем депрессии и невысоким. Сделайте выводы.Формулируем гипотезы:
\[ H_0: \text{ средние значения показателя упрощённости равны у двух групп людей} \] \[ H_1: \text{ средние значения показателя упрощённости не равны у двух групп людей} \] Так как нам известно, что распределение в обеих группах является нормальным, для сравнения средних нам понадобится критерий Стьюдента для двух выборок, t-тест.
# через ~ указывается переменная группировки
t.test(dep$simplicity ~ dep$state)
##
## Welch Two Sample t-test
##
## data: dep$simplicity by dep$state
## t = -6.3435, df = 54.498, p-value = 4.615e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.7648891 -0.3975683
## sample estimates:
## mean in group FALSE mean in group TRUE
## 0.7164743 1.2977030
В представленной выдаче у нас есть название теста (Welch Two Sample t-test
, не стоит удивлятся, почему не Student Two Sample t-test, позже обсудим), значение t-статистики (t = -6.3435
), число степеней свободы t-распределения, которое имеет t-статистика (df = 54.498
), выборочные средние у двух групп (mean in group FALSE
и mean in group TRUE
) и, конечно, p-value. Здесь p-value = 4.615e-08
, примерно 0.
Статистический вывод: на 5% уровне значимости (и на любом другом, на 1%, например) есть основания отвергнуть нулевую гипотезу на имеющихся данных.
Содержательный вывод: средний уровень упрощённости видения мира не одинаков у людей с высокой и с низкой степенью депрессии.