Загрузите данные из файла english.csv.
english <- read.csv("http://math-info.hse.ru/f/2018-19/ling-data/english.csv")
Постройте диаграмму рассеяния для переменных RTlexdec (время, затраченное на узнавание слова, в миллисекундах) и WrittenFrequency (частота слова в письменных текстах).
# вариант 1 (без ggplot2)
plot(english$RTlexdec, english$WrittenFrequency)
# вариант 2 (с ggplot2)
library(ggplot2)
ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) + geom_point()
# вариант 3 (с ggplot2 и эллипсом рассеяния)
library(ggplot2)
ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) +
  geom_point() + stat_ellipse(color = 'red')
Проинтерпретируйте полученный результат: направление, силу связи, выбросы (при наличии).
Интерпретация: явных выбросов нет, связь обратная (чем больше значения WrittenFrequency, тем меньше значения RTlexdec), средняя (наклон эллипса рассеяния не сильно большой).
Выберите подходящий коэффициент корреляции для оценки связи между показателями из задания 3. Обоснуйте свой ответ.
Ответ: Обе переменные измерены в количественной шкале (миллисекунды и число слов), явных выбросов нет, лучше использовать коэффициент корреляции К.Пирсона.
Вычислите выбранный коэффициент корреляции в R и проверьте гипотезу о его значимости.
cor.test(english$RTlexdec, english$WrittenFrequency)
## 
##  Pearson's product-moment correlation
## 
## data:  english$RTlexdec and english$WrittenFrequency
## t = -32.455, df = 4566, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4562244 -0.4090881
## sample estimates:
##        cor 
## -0.4329522
Сделайте вывод о наличии связи между показателями, используя результаты из R.
Выводы:
Так как p-value очень мало, близко к 0, на любом конвенциональном уровне значимости (1%, 5%, 10%) есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю, то есть коэффициент корреляции является статистически значимым. Связь между показателями есть.
Коэффициент корреляции Пирсона равен \(-0.43\), связь обратная, средней силы.