Задание 1

Загрузите данные из файла english.csv.

english <- read.csv("http://math-info.hse.ru/f/2018-19/ling-data/english.csv")

Задание 2

Постройте диаграмму рассеяния для переменных RTlexdec (время, затраченное на узнавание слова, в миллисекундах) и WrittenFrequency (частота слова в письменных текстах).

# вариант 1 (без ggplot2)
plot(english$RTlexdec, english$WrittenFrequency)

# вариант 2 (с ggplot2)
library(ggplot2)

ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) + geom_point()

# вариант 3 (с ggplot2 и эллипсом рассеяния)
library(ggplot2)

ggplot(data = english, aes(x = WrittenFrequency, y = RTlexdec)) +
  geom_point() + stat_ellipse(color = 'red')

Задание 3

Проинтерпретируйте полученный результат: направление, силу связи, выбросы (при наличии).

Интерпретация: явных выбросов нет, связь обратная (чем больше значения WrittenFrequency, тем меньше значения RTlexdec), средняя (наклон эллипса рассеяния не сильно большой).

Задание 4

Выберите подходящий коэффициент корреляции для оценки связи между показателями из задания 3. Обоснуйте свой ответ.

Ответ: Обе переменные измерены в количественной шкале (миллисекунды и число слов), явных выбросов нет, лучше использовать коэффициент корреляции К.Пирсона.

Задание 5

Вычислите выбранный коэффициент корреляции в R и проверьте гипотезу о его значимости.

cor.test(english$RTlexdec, english$WrittenFrequency)
## 
##  Pearson's product-moment correlation
## 
## data:  english$RTlexdec and english$WrittenFrequency
## t = -32.455, df = 4566, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4562244 -0.4090881
## sample estimates:
##        cor 
## -0.4329522

Задание 6

Сделайте вывод о наличии связи между показателями, используя результаты из R.

Выводы:

  1. Так как p-value очень мало, близко к 0, на любом конвенциональном уровне значимости (1%, 5%, 10%) есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю, то есть коэффициент корреляции является статистически значимым. Связь между показателями есть.

  2. Коэффициент корреляции Пирсона равен \(-0.43\), связь обратная, средней силы.