Бонусное задание в R

Выполнив это задание, можно получить бонус к семинарской активности. Каждая из частей весит определенное число баллов (1 балл = 1 плюс на семинарах). Максимальное число плюсов, которое можно скомпенсировать, выполнив задание, это 5. Для этого нужно качественно выполнить задания последнего блока.

I. Задания на 2 и 3 балла оформляются в виде файла с кодом, файла с расширением .R. Ответы на вопросы/интерпретацию оформить нужно в виде комментариев к коду. Пример:

# гистограмма
hist(x)
# пояснения к гистограмме:
# 1)
# 2)

Итог: нужно загрузить на Dropbox файл с расширением .R.

  1. Задания на 4 и 5 баллов оформляются в виде документа Word, выгруженного из R - связанного из файла Rmd. Ответы на вопросы оформляются в виде текста с разметкой, код - в специальных ячейках. Фрагмент файла Word:

Итог: нужно загрузить на Dropbox два файла: документ Word и файл с расширением .Rmd.

На 2 балла

Создайте вектор из следующих значений: 2, 17, 3, 15, 9, 13, 25.

Это и будет Ваша выборка.

  1. Выведите все описательные статистики для этой выборки (минимум, максимум, среднее, медиана, квартили). Проинтерпретируйте полученные значения.

  2. Постройте гистограмму для этой выборки, поменяйте ее цвет.

На 3 балла

Загрузите базу данных Titanic.csv по ссылке: https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv.

  1. Выведите описательные статистики для всех переменных в базе. Выберите два показателя (один количественный, один качественный) и проинтерпретируйте все выведенные по ним значения статистик.

  2. Постройте для показателя Age гистограмму, поменяйте ее цвет, добавьте название (заголовок) графика. Напишите, людей какого возраста в базе больше и меньше всего.

  3. Постройте для показателя Age ящик с усами. Напишите, есть ли в выборке нетипичные значения (выбросы), и если есть, то сколько.

На 4 балла

  1. Выполните задания 1-3 из предыдущего блока (на 3 балла), но представьте свои решения в виде файла Word, связанного из Rmd-файла.

Для этого нужно создать новый RMarkdown файл, разобраться с его разметкой, после набора кода и текста нажать Knit и выбрать Word. Подробнее - см. здесь и здесь + инструкцию, высланную по почте.

  1. Постройте 95% доверительный интервал для средней стоимости билетов (Fare). Проинтерпретируйте его.

5 баллов

  1. Выполните задания 1-2 из предыдущего блока (на 4 балла, оформите в виде файла Word, связанного из Rmd-файла).

  2. Постройте скрипичную диаграмму (violin plot) для переменной Age. Похоже ли распределение возраста пассажиров на нормальное? Скошено ли оно? Если да, то в какую сторону? Сильны ли отличия медианного и среднего значения возраста?

  3. Постройте 95%-ный доверительный интервал для доли женщин среди выживших. Постройте 95%-ный доверительный интервал для доли мужчин среди выживших. Проинтерпретируйте полученные интервалы.

  4. Какой из доверительных интервалов длинее? Пересекаются ли доверительные интервалы?

  5. Пусть у нас есть нулевая гипотеза: доля выживших женщин равна доле выживших мужчин. Используя только доверительные интервалы из этого задания, сделайте вывод, можно ли отвергнуть такую нулевую гипотезу.