Практика работы с данными в tidyverse

Этап 0

Подключаем tidyverse.

Этап I

Первая задача – корректно импортировать данные и сохранить полученный тиббл в переменную. Проверьте, что у вас именно тиббл, а не просто датафрейм с помощью функции is_tibble(). Проверьте, что все колонки прочитались отдельно и их тип соответствует содержанию.

Этап II

Исследуйте данные используя те функции, которые мы уже изучили.

Если пока что нет идей, что именно можно сделать, то вот несколько идей:

  1. Работа с колонками
  • Удалите колонки, которые вас не интересуют.

  • Переименуйте колонки: избавьтесь от синтаксически невалидных имен колонок, все непонятные названия замените на более понятные.

  • Отсортируйте колонки в том порядке, который вам кажется наиболее удобным. Например, если количественных колонок мало, но они представляют наибольший интерес, то переместите их ближе к началу.

  1. Работа со строками
  • Посмотрите несколько строк тиббла: возьмите несколько строк в начале, в середине и в конце (в зависимости от длины тиббла)

  • Отранжируйте строки тиббла по интересующим вас переменным. Попробуйте ранжирование по возрастанию и по убыванию.

  • Возьмите количественную колонку, если такая есть. Подумайте, в каком диапазоне вы ожидаете значения в этой колонке? какие максимальные и минимальные значения в колонке вы ожидаете? Отберите строки за пределами этих значений (возможно, вы получите тиббл с нулем строк)

  • Удалите строки с NA в наиболее важных для вас колонках.

  • Возьмите строковую колонку (если такая есть), и:

  1. Создание новых колонок
  • Создайте колонку на основе имеющихся колонок. Например:

    • Посчитайте разницу между двумя измерениями

    • Конвертируйте в другие единицы измерения количественную колонку.

    • Разбейте строки на группы на основе одной или нескольких колонок

  1. Посчитайте среднее, минимальное, максимальное значение и количество строк по интересующим вас группам. Попробуйте разные группировки

  2. Если датасетов несколько, объедините их

  3. Применимо ли к вашим данным понятие длинных/широких данных? Вполне возможно, что не применимо, но если все-таки да, то превратите длинные данные в широкие (или наоборот)

Этап III

Придумайте себе задачи самостоятельно! Придумайте гипотезы о том, как могут быть устроены ваши данные, что в них может быть не так и попробуйте их проверить с помощью написания кода.