1) Вчитайте файл separatism.sav (формат SPSS) в R.
library(foreign)
Separatism <- read.spss("separatism.sav", to.data.frame = T, use.value.labels = T)
summary(Separatism)
## REPUBLIC GORENBUR TREISMAN RELIGION
## Adygea : 1 Min. :0.122 Min. : 2.00 Orthodox:7
## Bashkortostan: 1 1st Qu.:0.207 1st Qu.: 3.00 Islam :5
## Buryatia : 1 Median :0.338 Median : 5.00 Buddhism:3
## Chechnya : 1 Mean :0.364 Mean : 5.71 Animism :2
## Chuvashia : 1 3rd Qu.:0.484 3rd Qu.: 8.00
## Hakassia : 1 Max. :0.755 Max. :11.00
## (Other) :11 NA's :2
## MAJORITY ORTHODOX ORTH2
## Min. :0.000 Min. :0.000 Min. :0.000
## 1st Qu.:0.000 1st Qu.:0.000 1st Qu.:0.000
## Median :0.000 Median :0.000 Median :1.000
## Mean :0.412 Mean :0.412 Mean :0.529
## 3rd Qu.:1.000 3rd Qu.:1.000 3rd Qu.:1.000
## Max. :1.000 Max. :1.000 Max. :1.000
2) Повторите Т-тесты индекса сепаратизма по Горенбургу по двум независимым переменным: majority and orthodox. (Мы уже делали это в классе.) Выпишите выводы.
t.test(Separatism$GORENBUR[Separatism$MAJORITY == 0], Separatism$GORENBUR[Separatism$MAJORITY ==
1])
##
## Welch Two Sample t-test
##
## data: Separatism$GORENBUR[Separatism$MAJORITY == 0] and Separatism$GORENBUR[Separatism$MAJORITY == 1]
## t = -1.79, df = 10.53, p-value = 0.1022
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.40942 0.04327
## sample estimates:
## mean of x mean of y
## 0.2785 0.4616
t.test(Separatism$GORENBUR[Separatism$ORTHODOX == 0], Separatism$GORENBUR[Separatism$ORTHODOX ==
1])
##
## Welch Two Sample t-test
##
## data: Separatism$GORENBUR[Separatism$ORTHODOX == 0] and Separatism$GORENBUR[Separatism$ORTHODOX == 1]
## t = 5.228, df = 9.281, p-value = 0.0004916
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.1858 0.4670
## sample estimates:
## mean of x mean of y
## 0.5162 0.1899
По результатам тестов, мы не может отклонить первую нулевую гипотезу о том, что наличие религиозного большинства в регионе не влиЯет на индекс сепаратизма по Горенбургу (p-значение велико). При этом, результаты второго теста(малое p-значение) позволЯют отклонить вторую нулевую гипотезу о том, что наличие православного большинства в регионе не влиЯет на индекс сепаратизма по Горенбургу.
3) Проверьте зависимость индекса сепаратизма по Трейсману от тех же двух переменных, учитываЯ, что этот индекс, в отличие от индекса Горенбурга, лучше анализировать непараметрическими методами.
wilcox.test(Separatism$TREISMAN[Separatism$MAJORITY == 0], Separatism$TREISMAN[Separatism$MAJORITY ==
1])
## Warning: cannot compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: Separatism$TREISMAN[Separatism$MAJORITY == 0] and Separatism$TREISMAN[Separatism$MAJORITY == 1]
## W = 36, p-value = 0.9607
## alternative hypothesis: true location shift is not equal to 0
wilcox.test(Separatism$TREISMAN[Separatism$ORTHODOX == 0], Separatism$TREISMAN[Separatism$ORTHODOX ==
1])
## Warning: cannot compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: Separatism$TREISMAN[Separatism$ORTHODOX == 0] and Separatism$TREISMAN[Separatism$ORTHODOX == 1]
## W = 62, p-value = 0.009005
## alternative hypothesis: true location shift is not equal to 0
По результатам тестов, в первом случае, мы не можем отклонить первую нулевую гипотезу о том, что индекс сепаратизма по Трейсману не зависит от наличиЯ религиозного большинства (p-значение большое). Второй тест позволЯет нам отклонить вторую нулевую гипотезу о том, что индекс сепаратизма по Трейсману не зависит от наличиЯ православного большинства в регионе (p-значение малое, меньше 1%).
library(ggplot2)
ggplot(Separatism, aes(factor(MAJORITY), TREISMAN)) + geom_boxplot()
4) Вернитесь к индексу Горенбурга и проверьте, зависит ли он от переменной religion, состоЯщей из 4 категорий.
summary(aov(GORENBUR ~ factor(RELIGION), data = Separatism))
## Df Sum Sq Mean Sq F value Pr(>F)
## factor(RELIGION) 3 0.430 0.1434 8.87 0.0028 **
## Residuals 11 0.178 0.0162
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 2 observations deleted due to missingness
Результаты теста (Pr(>F) = 0.0028, что соответсвует уровню значимости от 0.001 до 0.01) позволЯют нам отклонить нулевую гипотезу о независимости индекса Горенбурга от переменной religion. АльтернативнаЯ гипотеза: индекс Горенбурга зависит от переменной religion.
ggplot(Separatism, aes(factor(RELIGION), GORENBUR)) + geom_boxplot()
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).
5) Удалите православные республики и повторите п. 4.
summary(aov(GORENBUR ~ factor(RELIGION), data = subset(Separatism, ORTHODOX ==
0)))
## Df Sum Sq Mean Sq F value Pr(>F)
## factor(RELIGION) 2 0.0325 0.0163 0.53 0.62
## Residuals 5 0.1539 0.0308
## 2 observations deleted due to missingness
При исключении регионов с православным большинством, по результатам теста (большое значение Pr(>F) = 0.62) мы не можем отклонить нулевую гипотезу о независимости индекса Горенбурга от переменной religion.
ggplot(subset(Separatism, ORTHODOX == 0), aes(factor(RELIGION), GORENBUR)) +
geom_boxplot()
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).