Предварительный анализ показал, что в столбце содержатся дискретные значения минимального срока аренды в месяцах. Причем “вариантов” этих значений не так много, посмотрим, какие встречаются:
data_min_dur = data %>% filter(Minimum_duration != "")
data_min_dur$Minimum_duration = data_min_dur$Minimum_duration %>% as.factor()
library(DT)
summary(data_min_dur$Minimum_duration)
## 1 mes. 10 mes. 11 mes. 12 mes. 13 mes. 14 mes. 15 mes. 2 mes. 3 mes. 31 mes.
## 80 32 1553 203 2 27 3 4 16 19
## 4 mes. 5 mes. 6 mes. 8 mes. 9 mes.
## 3 3 130 1 3
Максимальное значение - 31 месяц, минимальное - 1 месяц. При этом нетрудно заметить, что больше чем у половины наблюдений минимальный срок аренды - 11 месяцев. Все остальные “варианты” срока составляют по отдельности совсем малые части. Расположим их в порядке убывания доли в выборке:
count = data_min_dur %>% count(Minimum_duration) %>% mutate(Dolya = round(n/sum(n),4)) %>% arrange(-Dolya)
datatable(count, options = list(searching =F,ordering = F, info = F))
Отнесем все значения, доля которых в выборке меньше 3 процентов в категорию “Иное”
data_min_dur = data_min_dur %>% inner_join(count)
data_min_dur$Minimum_duration = data_min_dur$Minimum_duration %>% as.character()
data_min_dur$Minimum_duration = ifelse(data_min_dur$Dolya<0.03, "Иное", data_min_dur$Minimum_duration)
library(stringr)
data_min_dur$Minimum_duration = data_min_dur$Minimum_duration %>% str_replace_all("mes.", "мес.")
Для наглядности посмотрим график:
ggplot(data_min_dur) + geom_bar(aes(x = Minimum_duration), fill = 3, color = 1)+
ggtitle("Распределение наблюдений по минимальному сроку аренды")+
xlab("Минимальный срок аренды")+
ylab("Абсолютная частота")
У нас получилось 5 выделенных групп, попробуем разобраться, почему именно они:
1 месяц - самый логичный и подходящий выбор для арендодателей, которые хотят сдать квартиру на короткий срок
6 месяцев = полгода - стандартный средний срок, полгода - это понятное “круглое число” по отношению ко времени
12 месяцев - еще одно “круглое число”, ровно год.
“Иное” - варианты, не пользующиеся популярностью - они указываются реже, чем “круглые сроки”. Однако чаще, чем срок 1 месяц - это может быть связано с тем, что варианты краткосрочной аренды встречаются относительно редко. Отметим также, что варианты со сроком больше года составляют в выборке меньше 3%.
И, наконец, самый распространенный вариант - 11 месяцев. У этого есть объяснимые и логичные причины, лежащие в рамках законодательства. Во-первых, договор аренды, заключенный на срок менее 12 месяцев не подлежит государственной регистрации. Это, кроме прочего, позволяет злостным нарушителям закона уклоняться от уплаты налогов с доходов, полученных от аренды. Во-вторых (в случае, если стороны подписали не договор аренды, а договор найма), то по краткосрчоному (менее года) договору нанимателя можно ограничить в некоторых неудобных для наймодателя правах. Договор аренды сроком на 11 месяцев на практике действительно является одним из самых распространенных вариантов .