Алла Тамбовцева
Срок сдачи:
03 октября 2018
Формат сдачи:
Студенту необходимо на выбор выполнить задачи базового или продвинутого блока. Результат выполнения домашнего задания 3: файл с расширением .R
. Этот файл нужно загрузить по ссылке.
Полезный факт: загружать базу данных можно прямо по ссылке, не скачивая ее, если ссылка заканчивается расширением файла (например, https://..../myfile.csv
). Для этого нужно вставить ссылку в качестве аргумента функции, используемой для загрузки файла.
Для выполнения заданий 1-3 Вам необходимо загрузить базу данных, содержащую информацию по пассажирам “Титаника”. Описание базы данных можно почитать здесь. Назовите загруженную базу данных df
.
Примечание: если библиотеки для работы с пропущенными значениями (mice, VIM) не установились, как нужно:
в пунктах 3-4 напишите код, который по идее должен работать (нестрашно, если Вы сами сразу не можете его запустить)
прогоните этот код на другом компьютере (в компьютерном классе) или на ноутбуке однокурсника (не сломайте ноутбук однокурсника!)
получите необходмые графики и ответьте по ним на вопросы задания (в комментарии укажите, как выглядит проблема с библиотеками или пришлите мне скрин с ошибками по почте)
df_na
.Это задание выполняется без использования библиотеки dplyr
.
Добавьте в базу данных бинарную переменную female
, где значение 0 соответствует пассажирам мужского пола, а 1 - пассажирам женского пола. Не забудьте: бинарная переменная - всегда числовая (целочисленная). Готовую переменную SexCode
использовать нельзя.
Представьте, что в исследовании нас интересуют пассажиры старше 25 лет и не старше 45 лет, которые путешествовали вторым или третьим классом. Сохраните соответствующие строки в базу данных df2
.
Сколько на “Титанике” (согласно базе данных df
) было пассажиров мужского пола? Женского пола?
Сколько лет было самому молодому пассажиру среди выживших? А самому старому? Каков средний возраст пассажиров первого класса, которые выжили в катастрофе?
Для выполнения этого задания нужно обязательно использовать библиотеку dplyr
, а также оператор %>% из этой библиотеки. Ответы на вопросы должны выглядеть так: код для получения ответа на вопрос и ответ словами в виде комментария.
Добавьте в базу данных df
числовую переменную ClassCode
, где значением 1 закодирован первый класс, 2 - второй, 3 - третий. Сделайте переменную Age
целочисленной (integer).
Оставьте в базе данных только тех пассажиров, которые не моложе 18 лет.
Сгруппируйте пассажиров по классу, которым они путешествовали. Сколько пассажиров разных классов было на “Титанике”?
В каком классе средний возраст выживших пассажиров выше?
Кого больше: выживших мужчин из первого класса или выживших женщин из третьего класса?