В данном практикуме необходимо работать с файлом Ginzberg.csv.

  1. Добавьте в датафрейм столбец state, который состоит из значений TRUE и FALSE, где TRUE соответствует людям с показателем депрессии равным 1 и выше (высокий), а FALSE — людям с показателем депрессии менее 1 (низкий).

Подсказка:

# посмотрите, что это
factor(dep$depression >= 1)

Добавляем столбец:

dep <- read.csv("https://vincentarelbundock.github.io/Rdatasets/csv/carData/Ginzberg.csv")
dep$state <- factor(dep$depression >= 1)
  1. Используя функцию describeBy, выведите описательные статистики по переменной simplicity по группам в соответствии со столбцом state. Прокомментируйте полученные результаты.
library(psych)
describeBy(dep$simplicity, group = dep$state)
## 
##  Descriptive statistics by group 
## group: FALSE
##    vars  n mean   sd median trimmed  mad  min  max range skew kurtosis
## X1    1 42 0.72 0.25    0.7    0.71 0.25 0.25 1.29  1.04 0.39    -0.63
##      se
## X1 0.04
## -------------------------------------------------------- 
## group: TRUE
##    vars  n mean   sd median trimmed  mad  min  max range skew kurtosis
## X1    1 40  1.3 0.53   1.27    1.26 0.53 0.48 2.85  2.38 0.75     0.18
##      se
## X1 0.08

Среднее и медианное значения показателя упрощения видения мира (simplicity) выше у людей с высокой степенью депресии (TRUE). При этом разброс значений simplicity у этой группы людей также больше (см. значения стандартного отклонения и размаха).

  1. Используя библиотеку ggplot2, постройте гистограммы с шагом 0.3 для показателя упрощённого видения мира (simplicity) для людей с высоким уровнем депрессии и с невысоким. Похоже ли распределение в каждой группе на нормальное?
library(ggplot2)
ggplot(data = dep, aes(x = simplicity)) +
  geom_histogram(binwidth = 0.3, fill = "coral1", color = "black") +
  facet_wrap(~state)

В целом, похоже.

  1. Сохраните строки, соответствующие респондентам с высоким уровнем депрессии (TRUE) в датафрейм yes, а с невысоким (FALSE) в датафрейм no.
yes <- dep[dep$state == TRUE,]
no <- dep[dep$state == FALSE,]
  1. Проверьте, используя критерий Колмогорова-Смирнова, гипотезу о нормальности распределения показателя simplicity по группам. Проделайте то же самое, используя критерий Шапиро-Уилка.
# критерий Колмогорова-Смирнова

# для первой группы
mean_yes <- mean(yes$simplicity)
sd_yes <- sd(dep$simplicity)
ks.test(yes$simplicity, "pnorm", mean_yes, sd_yes)
## Warning in ks.test(yes$simplicity, "pnorm", mean_yes, sd_yes): ties should
## not be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  yes$simplicity
## D = 0.14475, p-value = 0.3717
## alternative hypothesis: two-sided
# для второй группы
mean_no <- mean(no$simplicity)
sd_no <- sd(dep$simplicity)
ks.test(no$simplicity, "pnorm", mean_no, sd_no)
## Warning in ks.test(no$simplicity, "pnorm", mean_no, sd_no): ties should not
## be present for the Kolmogorov-Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  no$simplicity
## D = 0.2208, p-value = 0.0333
## alternative hypothesis: two-sided
# критерий Шапиро-Уилка
shapiro.test(yes$simplicity)
## 
##  Shapiro-Wilk normality test
## 
## data:  yes$simplicity
## W = 0.95076, p-value = 0.08051
shapiro.test(no$simplicity)
## 
##  Shapiro-Wilk normality test
## 
## data:  no$simplicity
## W = 0.97176, p-value = 0.3777

Интерпретация

Для каждой группы у нас сформулированы одинаковые гипотезы:

\[ H_0: \text{ выборка взята из нормального распределения} \]

\[ H_1: \text{ выборка взята не из нормального распределения} \]

Смотрим на p-value. В обоих тестах, для обеих групп, p-value больше значения 0.05.

Вывод: на 5%-ном уровне значимости (\(\alpha=0.05\)) на основе имеющихся данных нет оснований отвергнуть нулевую гипотезу о нормальности распределения. Выборки взяты из нормального распределения (из генеральных совокупностей, имеющих нормальное распределение).

  1. Используя библиотеку ggplot2, постройте ящики с усами для показателя simplicity по группам. Прокомментируйте полученные результаты.
ggplot(data = dep, aes(y = simplicity)) +
  geom_boxplot(fill = "coral1", color = "black") +
  facet_wrap(~state)

Медианные значения показателя simplicity отличаются у людей с высоким и низким уровнем депрессии, равно как и сами распределения.

  1. Используя подходящий критерий, проверьте, можно ли считать средние значения показателя упрощённости видения мира (simplicity) равными для людей с высоким уровнем депрессии и невысоким. Сделайте выводы.

Формулируем гипотезы:

\[ H_0: \text{ средние значения показателя упрощённости равны у двух групп людей} \] \[ H_1: \text{ средние значения показателя упрощённости не равны у двух групп людей} \] Так как нам известно, что распределение в обеих группах является нормальным, для сравнения средних нам понадобится критерий Стьюдента для двух выборок, t-тест.

# через ~ указывается переменная группировки
t.test(dep$simplicity ~ dep$state)
## 
##  Welch Two Sample t-test
## 
## data:  dep$simplicity by dep$state
## t = -6.3435, df = 54.498, p-value = 4.615e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.7648891 -0.3975683
## sample estimates:
## mean in group FALSE  mean in group TRUE 
##           0.7164743           1.2977030

В представленной выдаче у нас есть название теста (Welch Two Sample t-test, не стоит удивлятся, почему не Student Two Sample t-test, позже обсудим), значение t-статистики (t = -6.3435), число степеней свободы t-распределения, которое имеет t-статистика (df = 54.498), выборочные средние у двух групп (mean in group FALSE и mean in group TRUE) и, конечно, p-value. Здесь p-value = 4.615e-08, примерно 0.

Статистический вывод: на 5% уровне значимости (и на любом другом, на 1%, например) есть основания отвергнуть нулевую гипотезу на имеющихся данных.

Содержательный вывод: средний уровень упрощённости видения мира не одинаков у людей с высокой и с низкой степенью депрессии.