Домашнее задание №4

Окопный Павел

1) Вчитайте файл separatism.sav (формат SPSS) в R.

library(foreign)
Separatism <- read.spss("separatism.sav", to.data.frame = T, use.value.labels = T)
summary(Separatism)
##           REPUBLIC     GORENBUR        TREISMAN         RELIGION
##  Adygea       : 1   Min.   :0.122   Min.   : 2.00   Orthodox:7  
##  Bashkortostan: 1   1st Qu.:0.207   1st Qu.: 3.00   Islam   :5  
##  Buryatia     : 1   Median :0.338   Median : 5.00   Buddhism:3  
##  Chechnya     : 1   Mean   :0.364   Mean   : 5.71   Animism :2  
##  Chuvashia    : 1   3rd Qu.:0.484   3rd Qu.: 8.00               
##  Hakassia     : 1   Max.   :0.755   Max.   :11.00               
##  (Other)      :11   NA's   :2                                   
##     MAJORITY        ORTHODOX         ORTH2      
##  Min.   :0.000   Min.   :0.000   Min.   :0.000  
##  1st Qu.:0.000   1st Qu.:0.000   1st Qu.:0.000  
##  Median :0.000   Median :0.000   Median :1.000  
##  Mean   :0.412   Mean   :0.412   Mean   :0.529  
##  3rd Qu.:1.000   3rd Qu.:1.000   3rd Qu.:1.000  
##  Max.   :1.000   Max.   :1.000   Max.   :1.000

2) Повторите Т-тесты индекса сепаратизма по Горенбургу по двум независимым переменным: majority and orthodox. (Мы уже делали это в классе.) Выпишите выводы.

t.test(Separatism$GORENBUR[Separatism$MAJORITY == 0], Separatism$GORENBUR[Separatism$MAJORITY == 
    1])
## 
##  Welch Two Sample t-test
## 
## data:  Separatism$GORENBUR[Separatism$MAJORITY == 0] and Separatism$GORENBUR[Separatism$MAJORITY == 1] 
## t = -1.79, df = 10.53, p-value = 0.1022
## alternative hypothesis: true difference in means is not equal to 0 
## 95 percent confidence interval:
##  -0.40942  0.04327 
## sample estimates:
## mean of x mean of y 
##    0.2785    0.4616
t.test(Separatism$GORENBUR[Separatism$ORTHODOX == 0], Separatism$GORENBUR[Separatism$ORTHODOX == 
    1])
## 
##  Welch Two Sample t-test
## 
## data:  Separatism$GORENBUR[Separatism$ORTHODOX == 0] and Separatism$GORENBUR[Separatism$ORTHODOX == 1] 
## t = 5.228, df = 9.281, p-value = 0.0004916
## alternative hypothesis: true difference in means is not equal to 0 
## 95 percent confidence interval:
##  0.1858 0.4670 
## sample estimates:
## mean of x mean of y 
##    0.5162    0.1899

По результатам тестов, мы не может отклонить первую нулевую гипотезу о том, что наличие религиозного большинства в регионе не влиЯет на индекс сепаратизма по Горенбургу (p-значение велико). При этом, результаты второго теста(малое p-значение) позволЯют отклонить вторую нулевую гипотезу о том, что наличие православного большинства в регионе не влиЯет на индекс сепаратизма по Горенбургу.

3) Проверьте зависимость индекса сепаратизма по Трейсману от тех же двух переменных, учитываЯ, что этот индекс, в отличие от индекса Горенбурга, лучше анализировать непараметрическими методами.

wilcox.test(Separatism$TREISMAN[Separatism$MAJORITY == 0], Separatism$TREISMAN[Separatism$MAJORITY == 
    1])
## Warning: cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Separatism$TREISMAN[Separatism$MAJORITY == 0] and Separatism$TREISMAN[Separatism$MAJORITY == 1] 
## W = 36, p-value = 0.9607
## alternative hypothesis: true location shift is not equal to 0
wilcox.test(Separatism$TREISMAN[Separatism$ORTHODOX == 0], Separatism$TREISMAN[Separatism$ORTHODOX == 
    1])
## Warning: cannot compute exact p-value with ties
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Separatism$TREISMAN[Separatism$ORTHODOX == 0] and Separatism$TREISMAN[Separatism$ORTHODOX == 1] 
## W = 62, p-value = 0.009005
## alternative hypothesis: true location shift is not equal to 0

По результатам тестов, в первом случае, мы не можем отклонить первую нулевую гипотезу о том, что индекс сепаратизма по Трейсману не зависит от наличиЯ религиозного большинства (p-значение большое). Второй тест позволЯет нам отклонить вторую нулевую гипотезу о том, что индекс сепаратизма по Трейсману не зависит от наличиЯ православного большинства в регионе (p-значение малое, меньше 1%).

library(ggplot2)
ggplot(Separatism, aes(factor(MAJORITY), TREISMAN)) + geom_boxplot()

plot of chunk unnamed-chunk-4

4) Вернитесь к индексу Горенбурга и проверьте, зависит ли он от переменной religion, состоЯщей из 4 категорий.

summary(aov(GORENBUR ~ factor(RELIGION), data = Separatism))
##                  Df Sum Sq Mean Sq F value Pr(>F)   
## factor(RELIGION)  3  0.430  0.1434    8.87 0.0028 **
## Residuals        11  0.178  0.0162                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 2 observations deleted due to missingness

Результаты теста (Pr(>F) = 0.0028, что соответсвует уровню значимости от 0.001 до 0.01) позволЯют нам отклонить нулевую гипотезу о независимости индекса Горенбурга от переменной religion. АльтернативнаЯ гипотеза: индекс Горенбурга зависит от переменной religion.

ggplot(Separatism, aes(factor(RELIGION), GORENBUR)) + geom_boxplot()
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).

plot of chunk unnamed-chunk-6

5) Удалите православные республики и повторите п. 4.

summary(aov(GORENBUR ~ factor(RELIGION), data = subset(Separatism, ORTHODOX == 
    0)))
##                  Df Sum Sq Mean Sq F value Pr(>F)
## factor(RELIGION)  2 0.0325  0.0163    0.53   0.62
## Residuals         5 0.1539  0.0308               
## 2 observations deleted due to missingness

При исключении регионов с православным большинством, по результатам теста (большое значение Pr(>F) = 0.62) мы не можем отклонить нулевую гипотезу о независимости индекса Горенбурга от переменной religion.

ggplot(subset(Separatism, ORTHODOX == 0), aes(factor(RELIGION), GORENBUR)) + 
    geom_boxplot()
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).

plot of chunk unnamed-chunk-8