Загрузите данные из файла english.csv
.
english <- read.csv("http://math-info.hse.ru/f/2018-19/ling-data/english.csv")
Постройте диаграмму рассеяния для переменных RTlexdec
(время, затраченное на узнавание слова, в миллисекундах) и WrittenFrequency
(частота слова в письменных текстах).
# вариант 1 (без ggplot2)
plot(english$RTlexdec, english$WrittenFrequency)
# вариант 2 (с ggplot2)
library(ggplot2)
ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) + geom_point()
# вариант 3 (с ggplot2 и эллипсом рассеяния)
library(ggplot2)
ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) +
geom_point() + stat_ellipse(color = 'red')
Проинтерпретируйте полученный результат: направление, силу связи, выбросы (при наличии).
Интерпретация: явных выбросов нет, связь обратная (чем больше значения WrittenFrequency
, тем меньше значения RTlexdec
), средняя (наклон эллипса рассеяния не сильно большой).
Выберите подходящий коэффициент корреляции для оценки связи между показателями из задания 3. Обоснуйте свой ответ.
Ответ: Обе переменные измерены в количественной шкале (миллисекунды и число слов), явных выбросов нет, лучше использовать коэффициент корреляции К.Пирсона.
Вычислите выбранный коэффициент корреляции в R и проверьте гипотезу о его значимости.
cor.test(english$RTlexdec, english$WrittenFrequency)
##
## Pearson's product-moment correlation
##
## data: english$RTlexdec and english$WrittenFrequency
## t = -32.455, df = 4566, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4562244 -0.4090881
## sample estimates:
## cor
## -0.4329522
Сделайте вывод о наличии связи между показателями, используя результаты из R.
Выводы:
Так как p-value очень мало, близко к 0, на любом конвенциональном уровне значимости (1%, 5%, 10%) есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю, то есть коэффициент корреляции является статистически значимым. Связь между показателями есть.
Коэффициент корреляции Пирсона равен \(-0.43\), связь обратная, средней силы.