dplyr
На этом семинаре мы будем работать с файлом, содержащим информацию о годах постройки жилых домов в Москве. Данные достаточно новые, а для вдохновения посмотрите, что можно получить, используя эту информацию.
Мы, правда, займемся пока вещами попроще.
moscow-buildings.csv
и сохраните ее как df_build
. Посмотрите на датафрейм.dplyr
, удалите из базы данных строки, в которых значения года построки не указаны (“н.д.”), а после превратите столбец house_age
в числовой. R будет воспринимать столбец как факторный, поэтому нужно сначала превратить его в текстовый, а затем - в числовой или использовать специальную функцию level()
.basm_data
.Найдите средний возраст дома (возраст - в годах, считаем от 2018) по каждому району.
Подсказка: сначала добавьте переменнуюhouse_age
(«возраст дома»).Найдите улицу с самым старым домом.
Сейчас вам предлагается поработать с файлом CPDS.csv
, который содержит показатели из Comparative Political Data Set. Познакомиться с проектом и codebook для таблицы можно здесь.
Загрузить файл CPDS.csv
, учитывая, что десятичный разделитель - запятая. Сделать так, чтобы текстовые столбцы считывались как текст, а не как факторы. Подсказка: аргумент stringsAsFactors = FALSE
в функции read.csv()
.
Создать столбец log_pop
с логарифмированными значения численности населения.
Выбрать столбцы country
, year
, poco
, eu
, gov_right1
, gov_cent1
, gov_left1
, log_pop
и сохранить их как small
.
Сколько наблюдений в датафрейме соответствуют пост-коммунистическим и не пост-коммунистическим странам?
Сколько пост-коммунистических и не пост-коммунистических стран в датафрейме? Подсказка: используйте функцию n_distinct
для подсчёта уникальных значений в столбце.