Загрузим файл с данными по выборам в Государственную Думу 2012 года:
# UTF-8 - чтобы на всех системах кириллица считалась адекватно
el <- read.csv("http://math-info.hse.ru/f/2018-19/ps-ms-2/elect.csv",
encoding = "UTF-8")
Переменные:
region
: регион;total
: общее число зарегистрированных избирателей;invalid
: число недействительных бюллетеней;valid
: число действительных бюллетеней;tunout_perc
: явка (в процентах);Zh
: процент голосов за Жириновского;Zu
: процент голосов за Зюганова;Mi
: процент голосов за Миронова;Pr
: процент голосов за Прохорова;Pu
: процент голосов за Путина.Построим диаграмму рассеивания для явки и процента голосов за Зюганова:
plot(el$turnout_perc, el$Zu, col = "red", pch = 16)
Пояснения к коду. В скобках указаны два числовых numeric показателя, для которых мы хотим построить диаграмму рассеивания. Далее указаны дополнительные параметры: цвет (col
) и тип маркера (pch
). Все типы маркеров можно посмотреть, запросив help через код ?pch
.
Интерпретация графика. Облако точек имеет отрицательный наклон (чем больше явка, тем меньше процент голосов за Зюганова), наклон достаточно сильный. Можем сделать предварительный вывод, что связь между показателями отрицательная (обратная), близка к сильной.
Проверим формально — вычислим коэффициент корреляции Пирсона и заодно проверим его значимость. Сформулируем гипотезы:
\[ H_0: \rho = 0 \text{ (связи нет)} \]
\[ H_1: \rho \ne 0 \text{ (связь есть)}. \] Проверим \(H_0\) в R:
cor.test(el$turnout_perc, el$Zu)
##
## Pearson's product-moment correlation
##
## data: el$turnout_perc and el$Zu
## t = -7.875, df = 78, p-value = 1.642e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7723084 -0.5221606
## sample estimates:
## cor
## -0.6655236
Что у нас есть в этой выдаче?
Pearson's product-moment correlation
;t = -7.875
;df = 78
;p-value = 1.642e-11
;true correlation is not equal to 0
;95 percent confidence interval
;cor -0.6655236
.Вспомним, как вычисляются \(\text{df}\) и \(t_{\text{набл}}\):
\[ \text{df} = 80 - 2 = 78. \]
\[ t_{\text{набл}} = R \cdot \sqrt{\frac{n-2}{1-R^2}} = -0.67 \cdot \sqrt{\frac{80-2}{1-(-0.67)^2}}. \]
Посчитаем в R и сверимся с готовой выдачей:
-0.67 * sqrt(78/(1 - 0.67^2))
## [1] -7.970892
Результаты примерно совпадают, небольшие различия обусловлены округлением.
Теперь перейдем к интерпретации (опять примем уровень значимости равный 5%).
Статистический вывод: так как p-value меньше 0.05 (примерно 0), на имеющихся данных на 5%-ном уровне значимости есть основания отвергнуть нулевую гипотезу об отсутствии связи.
Содержательный вывод: между явкой и процентом голосов за Зюганова есть связь. Коэффициент корреляции равен -0.66, связь отрицательная (обратная), средней силы, близка к сильной.
Если бы нам нужно было вычислить коэффициент корреляции Спирмена, мы бы просто добавили соответствующую опцию:
cor.test(el$turnout_perc, el$Zu, method = "spearman")
##
## Spearman's rank correlation rho
##
## data: el$turnout_perc and el$Zu
## S = 112230, p-value = 0.00453
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.3154477
Выводы предлагается читателям сделать самостоятельно.