Практика работы с данными в tidyverse
Этап 0
Подключаем tidyverse.
Этап I
Первая задача – корректно импортировать данные и сохранить полученный тиббл в переменную. Проверьте, что у вас именно тиббл, а не просто датафрейм с помощью функции is_tibble(). Проверьте, что все колонки прочитались отдельно и их тип соответствует содержанию.
Этап II
Исследуйте данные используя те функции, которые мы уже изучили.
Если пока что нет идей, что именно можно сделать, то вот несколько идей:
- Работа с колонками
Удалите колонки, которые вас не интересуют.
Переименуйте колонки: избавьтесь от синтаксически невалидных имен колонок, все непонятные названия замените на более понятные.
Отсортируйте колонки в том порядке, который вам кажется наиболее удобным. Например, если количественных колонок мало, но они представляют наибольший интерес, то переместите их ближе к началу.
- Работа со строками
Посмотрите несколько строк тиббла: возьмите несколько строк в начале, в середине и в конце (в зависимости от длины тиббла)
Отранжируйте строки тиббла по интересующим вас переменным. Попробуйте ранжирование по возрастанию и по убыванию.
Возьмите количественную колонку, если такая есть. Подумайте, в каком диапазоне вы ожидаете значения в этой колонке? какие максимальные и минимальные значения в колонке вы ожидаете? Отберите строки за пределами этих значений (возможно, вы получите тиббл с нулем строк)
Удалите строки с
NAв наиболее важных для вас колонках.Возьмите строковую колонку (если такая есть), и:
- Создание новых колонок
Создайте колонку на основе имеющихся колонок. Например:
Посчитайте разницу между двумя измерениями
Конвертируйте в другие единицы измерения количественную колонку.
Разбейте строки на группы на основе одной или нескольких колонок
Посчитайте среднее, минимальное, максимальное значение и количество строк по интересующим вас группам. Попробуйте разные группировки
Если датасетов несколько, объедините их
Применимо ли к вашим данным понятие длинных/широких данных? Вполне возможно, что не применимо, но если все-таки да, то превратите длинные данные в широкие (или наоборот)
Этап III
Придумайте себе задачи самостоятельно! Придумайте гипотезы о том, как могут быть устроены ваши данные, что в них может быть не так и попробуйте их проверить с помощью написания кода.