Правила

При выполнении ДЗ вы можете пользоваться различными источниками информации (лекциями, справкой, книгами, различными интернет-ресурсами). Вы можете адаптировать код, найденный где-то в интернете, для решения приведенных задач, однако в этом случае вы должны в тексте решения указать ссылку на источник этого кода. Вы можете обсуждать решения между собой, однако не можете использовать код другого студента: если кто-то объяснил вам, как решается та или иная задача, вам необходимо написать соответствующий код и все необходимые пояснения самостоятельно (своими словами). Определить, что код списан, а не написан самостоятельно, гораздо проще, чем вы думаете: в случае обнаружения списывания все вовлеченные работы будут аннулированы.

Задачи

  1. Загрузить этот файл (содержащий статистику успеваемости в некоторых школах) в виде dataframe.
  2. Нарисовать гистограмму значений переменной с оценкой по чтению (read).
  3. Преобразовать переменные female и prog в факторы с помощью as.factor.
  4. Нарисовать ящики с усами, соответствующие значениям переменной с оценкой по математике math, сгруппированной по фактору female. (Должно быть нарисовано два ящика с усами, один отвечает выборке, содержащей все значения переменной math в строчках, в которых female обращается в 0, а другой отвечает выборке, содержащей все значения переменной math в строчках, в которых female обращается в 1.)
  5. Позволяют ли представленные данные говорить о том, что девушки получают в среднем более высокие оценки по письму (write)? Проверить соответствующую статистическую гипотезу на уровне значимости 5%, используя подходящий односторонний тест, указать найденное p-value и сделать вывод.
  6. Проверить, являются ли факторы female и prog независимыми, используя подходящий тест (хи-квадрат или точный тест Фишера).
  7. Найти матрицу попарных корреляций для оценок по чтению (read), письму (write), естественным наукам (science), социальным наукам (socst) и математике (math). Все корелляции оказались положительными — что это означает?
  8. Рассмотрим линейную регрессию, в которой независимой переменной является оценка по чтению, а зависимой оценка по письму. Найти коэффициенты регрессии. Построить scatter plot и регрессионную прямую (подсказка: используйте функцию abline.)
  9. Рассмотрим линейную регрессию, в которой зависимой переменной является оценка по естественным наукам, а независимыми переменными — оценки по остальным предметам.
    1. Найти коэффициенты регрессии.
    2. Дайте интерпретацию: на сколько баллов в среднем повышается оценка по естественным наукам при увеличении оценки по письму на 1 балл?
    3. Можно ли сказать, что повышение оценки по естественным наукам является следствием повышения оценки по письму?
    4. Указать, какие из независимых переменных являются значимыми на уровне значимости \(\alpha=0{,}01\).
    5. Как вы можете проинтерпретировать отсутствие значимости для тех переменных, которые оказались незначимыми?
  10. Рассмотрим линейную регрессию, в которой зависимой переменной является оценка по чтению, а независимыми — оценка по письму и dummy-переменные, кодирующие переменную prog (программа обучения; не забудьте сконвертировать эту переменную в фактор с помощью as.factor). Найти коэффициенты регрессии. Что можно сказать об оценке по чтению у школьников, обучающихся по второй программе обучения по сравнению со школьниками, обучающимися по первой программе, исходя из результатов регрессии?
  11. С помощью дисперсионного анализа (anova), проверить, различаются ли в целом средние оценки по письму для различных программ обучения на уровне значимости 1%?
  12. Применить метод главных компонент (PCA, prcomp) к набору данных, содержащему оценки по всем указанным дисциплинам (и только им). Найти матрицу вращения (rotation matrix). Построить biplot. Что можно сказать о связи первой главной компоненты (PC1) с каждой из оценок? Как можно одним словом охарактеризовать, что показывает первая главная компонента? Какой вклад во вторую главную компоненту (PC2) дают оценки по естественным наукам и социальным наукам (обратите внимание на знаки элементов в матрице вращения)? Как можно одним словом охракатеризовать, что показывает вторая главная компонента?
  13. Мы хотим понять, как переменные, соответствующие оценкам по различным дисциплинам, связаны между собой, с помощью иерархического кластерного анализа. Для этого мы вычислим матрицу «расстояний» (dissimiliarity matrix) следующим образом: вычтем каждый элемент матрицы корреляций (см. пункт 7) из числа 1. (Поскольку корреляция 1 соответствует максимальному сходству двух столбцов, и значит нулевому расстоянию, а корреялция 0 соответствует минимальному сходству и значит максимальному расстоянию.) Преобразовать получившуюся матрицу в матрицу расстояний с помощью as.dist и применить к ней кластерный анализ с помощью hclust. Построить соответствующую дендрограмму. Как переменные разбиваются в два самых больших кластера?
  14. Нас интересует вопрос об использовании одного из двух типов смайликов – полной формы (например, :)» или :-)) и краткой (только скобочки )))) в SMS-сообщениях в зависимости от года рождения отправителя. Гипотеза состоит в том, что люди с более поздним годом рождения (более молодые) чаще используют краткую форму. Мы проанализировали базу сообщений и для каждого абонента нашли число смайликов полной и краткой формы. (Пример гипотетический, данные вымышленные, ни одна SMS’ка при подготовке не пострадала.) Данные приведены в таблице. Проверить указанную гипотезу с помощью подходящей регрессии.

Результат необходимо прислать по e-mail письмом с темой «ДЗ R 2014-15» на адрес ilya@schurov.com в виде файла Rmarkdown (рекомендуется) или просто R-скрипта с необходимыми комментариями. Дедлайн: 22 июня 2015, 12:00.