Загрузим файл с данными по выборам в Государственную Думу 2012 года:

# UTF-8 - чтобы на всех системах кириллица считалась адекватно
el <- read.csv("http://math-info.hse.ru/f/2018-19/ps-ms-2/elect.csv",
               encoding = "UTF-8")

Переменные:

Построим диаграмму рассеивания для явки и процента голосов за Зюганова:

plot(el$turnout_perc, el$Zu, col = "red", pch = 16)

Пояснения к коду. В скобках указаны два числовых numeric показателя, для которых мы хотим построить диаграмму рассеивания. Далее указаны дополнительные параметры: цвет (col) и тип маркера (pch). Все типы маркеров можно посмотреть, запросив help через код ?pch.

Интерпретация графика. Облако точек имеет отрицательный наклон (чем больше явка, тем меньше процент голосов за Зюганова), наклон достаточно сильный. Можем сделать предварительный вывод, что связь между показателями отрицательная (обратная), близка к сильной.

Проверим формально — вычислим коэффициент корреляции Пирсона и заодно проверим его значимость. Сформулируем гипотезы:

\[ H_0: \rho = 0 \text{ (связи нет)} \]

\[ H_1: \rho \ne 0 \text{ (связь есть)}. \] Проверим \(H_0\) в R:

cor.test(el$turnout_perc, el$Zu)
## 
##  Pearson's product-moment correlation
## 
## data:  el$turnout_perc and el$Zu
## t = -7.875, df = 78, p-value = 1.642e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7723084 -0.5221606
## sample estimates:
##        cor 
## -0.6655236

Что у нас есть в этой выдаче?

Вспомним, как вычисляются \(\text{df}\) и \(t_{\text{набл}}\):

\[ \text{df} = 80 - 2 = 78. \]

\[ t_{\text{набл}} = R \cdot \sqrt{\frac{n-2}{1-R^2}} = -0.67 \cdot \sqrt{\frac{80-2}{1-(-0.67)^2}}. \]

Посчитаем в R и сверимся с готовой выдачей:

-0.67 * sqrt(78/(1 - 0.67^2))
## [1] -7.970892

Результаты примерно совпадают, небольшие различия обусловлены округлением.

Теперь перейдем к интерпретации (опять примем уровень значимости равный 5%).

Статистический вывод: так как p-value меньше 0.05 (примерно 0), на имеющихся данных на 5%-ном уровне значимости есть основания отвергнуть нулевую гипотезу об отсутствии связи.

Содержательный вывод: между явкой и процентом голосов за Зюганова есть связь. Коэффициент корреляции равен -0.66, связь отрицательная (обратная), средней силы, близка к сильной.

Если бы нам нужно было вычислить коэффициент корреляции Спирмена, мы бы просто добавили соответствующую опцию:

cor.test(el$turnout_perc, el$Zu, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  el$turnout_perc and el$Zu
## S = 112230, p-value = 0.00453
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##        rho 
## -0.3154477

Выводы предлагается читателям сделать самостоятельно.