Домашнее задание 3

Алла Тамбовцева

Формат сдачи

Срок сдачи:

03 октября 2018

Формат сдачи:

Студенту необходимо на выбор выполнить задачи базового или продвинутого блока. Результат выполнения домашнего задания 3: файл с расширением .R. Этот файл нужно загрузить по ссылке.

Базовый блок

Полезный факт: загружать базу данных можно прямо по ссылке, не скачивая ее, если ссылка заканчивается расширением файла (например, https://..../myfile.csv). Для этого нужно вставить ссылку в качестве аргумента функции, используемой для загрузки файла.

Для выполнения заданий 1-3 Вам необходимо загрузить базу данных, содержащую информацию по пассажирам “Титаника”. Описание базы данных можно почитать здесь. Назовите загруженную базу данных df.

Задание 1

Примечание: если библиотеки для работы с пропущенными значениями (mice, VIM) не установились, как нужно:

  • в пунктах 3-4 напишите код, который по идее должен работать (нестрашно, если Вы сами сразу не можете его запустить)

  • прогоните этот код на другом компьютере (в компьютерном классе) или на ноутбуке однокурсника (не сломайте ноутбук однокурсника!)

  • получите необходмые графики и ответьте по ним на вопросы задания (в комментарии укажите, как выглядит проблема с библиотеками или пришлите мне скрин с ошибками по почте)

  1. Сколько в базе данных наблюдений? Сколько переменных? Какие это переменные? Какого типа?
  2. Сколько в базе данных строк, которые не содержат пропущенных значений? Сохраните строки, содержащие пропущенные значения, в отдельную базу данных df_na.
  3. Постройте график, который показывал бы частоту, с которой встречаются пропущенные значения в каждой из переменных базы данных. В какой переменной больше всего пропущенных значений?
  4. Постройте график, который позволит определить паттерны пропущенных значений. Можно ли по полученным результатам сделать вывод о том, что значения в базе пропущены “системно” (часто нет ответов на определенный вопрос или вопросы)? Может ли это быть связано со спецификой самих вопросов?
  5. Удалите в базе данных пропущенные значения.

Задание 2

Это задание выполняется без использования библиотеки dplyr.

  1. Добавьте в базу данных бинарную переменную female, где значение 0 соответствует пассажирам мужского пола, а 1 - пассажирам женского пола. Не забудьте: бинарная переменная - всегда числовая (целочисленная). Готовую переменную SexCode использовать нельзя.

  2. Представьте, что в исследовании нас интересуют пассажиры старше 25 лет и не старше 45 лет, которые путешествовали вторым или третьим классом. Сохраните соответствующие строки в базу данных df2.

  3. Сколько на “Титанике” (согласно базе данных df) было пассажиров мужского пола? Женского пола?

  4. Сколько лет было самому молодому пассажиру среди выживших? А самому старому? Каков средний возраст пассажиров первого класса, которые выжили в катастрофе?

Задание 3

Для выполнения этого задания нужно обязательно использовать библиотеку dplyr, а также оператор %>% из этой библиотеки. Ответы на вопросы должны выглядеть так: код для получения ответа на вопрос и ответ словами в виде комментария.

  1. Добавьте в базу данных df числовую переменную ClassCode, где значением 1 закодирован первый класс, 2 - второй, 3 - третий. Сделайте переменную Age целочисленной (integer).

  2. Оставьте в базе данных только тех пассажиров, которые не моложе 18 лет.

  3. Сгруппируйте пассажиров по классу, которым они путешествовали. Сколько пассажиров разных классов было на “Титанике”?

  4. В каком классе средний возраст выживших пассажиров выше?

  5. Кого больше: выживших мужчин из первого класса или выживших женщин из третьего класса?