Состав проектной группы

ФИО исследователя Номер группы
Жучков Дмитрий Алексеевич 194
Алексеев Антон Дмитриевич 194
Гладун Алена Дмитриевна 194
Рогожкина Анастасия Дмитриевна 194
Семенова Анастасия Дмитриевна 194
Мукаева Сангира Витальевна 194

Задание 1

На первом этапе выполнения работы мы произвели округление числовых данных и предварительно отделили номинальные переменные в список.

# Функция для округления числовых данных по эмпирическому правилу

# Принцип работы функции: для каждого столбца определяется его тип: если номинальный (нечисловой), то вносим названия столбца в список, если тип числовой, то для каждой ячейки этого столбца, если в ней не NA, происходит округление, в зависимости от значения числа. Если в ячейке числового столбца NA, то происходит переход к следующей ячейке.

rounding_function = function(df) {
  kolvo_strok = dim(df)[1] # переменная для обозначения количества строк в датафрейме
  list_of_names = names(df) # список названий столбцов датафрейма
  list_not_numbers = c() # создаем вектор (список) для названий столбцов с номинальными данными
  for (i in list_of_names) { 
    if (class(df[[i]]) != "numeric" & class(df[[i]]) != "integer") {
          list_not_numbers = append(list_not_numbers, i) 
    }
    if (class(df[[i]]) == "numeric" | class(df[[i]]) == "integer") { 
      for (s in 1:kolvo_strok) {
        if (is.na(df[[i]][s]) != T) { 
          if (df[[i]][s] < 1) { # если число <1, округляем до 2 знаков после запятой
            df[[i]][s] = round(df[[i]][s], digits = 2)
          }
          if (df[[i]][s] > 10 & df[[i]][s] < 100) { # если число от 10 до 100, округляем до одного знака после запятой
            df[[i]][s] = round(df[[i]][s], digits = 1)
          }
          if (df[[i]][s] > 100) { # если число >100, округляем до целых чисел
            df[[i]][s] = round(df[[i]][s], digits = 0)
          }
        if (is.na(df[[i]][s]) == T){ 
          next
        }
        }
      }
    }
  }
  list_not_numeric_col <<- list_not_numbers
  return(df) 
}

spb_df = rounding_function(spb_df) # применяем функцию к датафрейму

На основе списков с названиями столбцов, содержащих числовые и номинальные данные, мы создали два соответствующих датафрейма.

numeric_col = names(spb_df)[!names(spb_df) %in% list_not_numeric_col] # создаем список числовых столбцов из названий, которые не попали в список list_not_numeric_col
df_nominal = spb_df[ , list_not_numeric_col] #создаем датафрейм из столбцов, названия которых есть в списке list_not_numeric_col
df_numeric = spb_df[ , numeric_col] #создаем датафрейм из столбцов, названия которых есть в списке numeric_col

Далее мы устранили очевидные ошибки в данных. В столбце Minimum_duration удалили единицы измерения “mes.” из значений и добавили их в название столбца, а данные перевели в числовой формат. Данный столбец перенесли из списка номинальных в список числовых.

# Устранение ошибок и преобразование данных

# удаление mes. и в numeric
spb_df$Minimum_duration = spb_df$Minimum_duration %>% str_replace(" mes.", "") # удаляем mes. в столбце
names(spb_df)[names(spb_df) == "Minimum_duration"] = "Minimum_duration, months" # переименовываем столбец, добавляя единицы измерения - месяцы
spb_df[["Minimum_duration, months"]] = as.numeric(spb_df[["Minimum_duration, months"]]) # приводим данные к числовому типу

spb_df$Rooms = str_replace(spb_df$Rooms, "   ", " ") # убираем лишние пробелы
spb_df$Rooms = str_replace(spb_df$Rooms,'47','') # убираем ошибочное значение

spb_df$No_agents = case_when(spb_df$No_agents == "Da" ~ "No", T ~ "Yes") # приводим к более понятному виду, отсутствие агента обозначаем "No", наличие - "Yes"
names(spb_df)[names(spb_df) == "No_agents"] = "Agents" # соответственно переименовываем столбец

spb_df$Building = str_replace(spb_df$Building, "Staryi fond bez KR|Staryi fond s KR", "Staryi fond")

spb_df$Lift = case_when(spb_df$Lift == "Est'" ~ "Yes", spb_df$Lift == "Net" ~ "No", T ~ spb_df$Lift) # наличие лифта - "Yes", отсутствие - "No", иначе - оставляем исходное значение (NA)

spb_df$Refurbished = str_replace(spb_df$Refurbished, "Evrostandart|Proizveden|Ne trebuetsya", "Yes") # переименовываем категории, означающие наличие ремонта, в "Yes"
spb_df$Refurbished = str_replace(spb_df$Refurbished, "Trebuetsya", "No") # переименовываем категорию, означающую отсутствие ремонта, в "No"
spb_df$Refurbished = case_when(spb_df$Refurbished == "No" ~ "No", spb_df$Refurbished == "Yes" ~ "Yes") # убираем пустые и ошибочные значения

spb_df$Balcony = str_replace(spb_df$Balcony, "net|Net", "No") # обозначаем отсутствие балкона "No"
spb_df$Balcony = str_replace(spb_df$Balcony, "est'|2 balkona|4 balkona|Zasteklennyi balkon", "Balkon") # переименовываем категории, означающие наличие балкона, "Yes"
spb_df$Balcony = str_replace(spb_df$Balcony, "2 lodjii|3 lodjii|Zasteklennaya lodjiya", "Lodjiya") # переименовываем категории, означающие наличие лоджии, "Lodjiya"
spb_df$Balcony = case_when(spb_df$Balcony == "Balkon" ~ "Balkon", spb_df$Balcony == "Lodjiya" ~ "Lodjiya", spb_df$Balcony == "No" ~ "No") # убираем пустые и ошибочные значения

spb_df$Bath = case_when(spb_df$Bath == "Otdel'naya" ~ "Otdel'naya", spb_df$Bath == "Sovmeshchennaya" ~ "Sovmeshchennaya") # в стоблце оставляем только значения "Otdel'naya" и "Sovmeshennaya", убираем пустые и ошибочные
# Переводим номинальные данные в фактор

spb_df$Metro = factor(spb_df$Metro)
spb_df$Rooms = factor(spb_df$Rooms)
spb_df$Agents = factor(spb_df$Agents)
spb_df$Building = factor(spb_df$Building)
spb_df$Lift = factor(spb_df$Lift)
spb_df$Furnished = factor(spb_df$Furnished)
spb_df$Balcony = factor(spb_df$Balcony)
spb_df$Bath = factor(spb_df$Bath)
spb_df$Refurbished = factor(spb_df$Refurbished)

spb_df$Floor = factor(spb_df$Floor)
# Редактируем списки номинальных и числовых
# !! Запускать только 1 раз !!

# добавляем переменную "месяцы" в один список и удаляем ее из другого, аналогично с "этажами"
numeric_col = c(numeric_col, "Minimum_duration, months")
list_not_numeric_col = list_not_numeric_col[!list_not_numeric_col %in% "Minimum_duration"]

list_not_numeric_col = c(list_not_numeric_col, "Floor")
numeric_col = numeric_col[!numeric_col %in% "Floor"]

Задания 2(a) и 3(a)

1. Число квартир по регионам

Число квартир по регионам
Регион Число квартир
Санкт-Петербург 2853
Ленинградская область 147

Количество сдаваемых квартир распределено между Санкт-Петербургом и Ленинградской областью неравномерно: число в первом регионе почти в 20 раз превышает число во втором. Это может быть связано с тем, что численность населения в городе почти в 3 раза больше, чем в области. Также многие арендаторы предпочитают жилплощадь в городе из-за более развитой инфраструктуры и отсутствия проблем с транспортом (например, чтобы быстрее добираться до места учебы/работы). А предложение квартир, соответственно, ориентируется на этот запрос.

2. Число квартир по городским районам

В столбце “District_ad” представлены районы Санкт-Петербурга и Ленинградской области (все районы, за исключением Кировского и Выборгского, в области носят уникальное название). Для удобства мы построили столбчатые диаграммы отдельно для каждого из регионов. Абсолютным лидером по числу квартир под сдачу является Центральный район, за ним следует Московский. Не удивительно, ведь в Центральном районе более развито транспортное сообщение, собраны практически все достопримечательности города, обилие мест для развлечений и отдыха и просто красивый вид из окна. Московский, наоборот, считается более спальным, спокойным районом, влияет также близость к аэропорту, большое количество парков, зеленых зон. Третье и четвертое место занимают Приморский и Петроградский районы и замыкает пятерку лидеров Выборгский район.

Локально в ЛО больше всего квартир сдается в Выборгском районе с центром в г.Выборг, он является одним из крупнейших по населению. За ним следует Всеволожский, который довольно густонаселен; близкое расположение от Санкт-Петербурга также играет немалую роль в количестве сдаваемых квартир.

3. Число квартир по ближайшей станции метро

В данных были некорректные значения, которые не относятся к названиям станций Петербургского метрополитена - мы не стали отражать их в таблице.

Диаграмма показывает, что больше всего квартир сдается в районе станций: 1) Комендантский проспект, 2) Приморская, 3) Московская, 4) Проспект Ветеранов и 5) Чернышевская. Данные результаты частично коррелируют с результатами предыдущих гистограмм. В частности, станция Комендантский проспект расположена в одном из лидеров по количеству сдаваемых квартир районе - Приморском, Московская - к второму среди городских районов лидеру - Московскому, а Чернышевская - к Центральному.

4. Число квартир по количеству комнат

В данных мы устранили слудующие ошибки: убрали лишние пробелы, чтобы правильно разделить на категории; ошибочные данные, “47 комнат”, перевели в NA и отразили в таблице, что для одной квартиры количество комнат не указано.

Число квартир по количеству комнат
Количество комнат Число квартир
1
1 1120
1 (studiya) 175
2 963
3 566
4 129
5 36
6 7
7 1
8 2

График показывает, что однокомнатные квартиры наиболее популярны на рынке аренды жилья, в целом “однушки” - наиболее ликвидный товар на рынке недвижимости. Очевидно, что для 1-2 человек это максимально доступный бюджет покупки. Также можно учесть фактор мобильности населения - квартира чаще рассматривается в качестве временного жилья. Второе место занимают двухкомнатные квартиры: это наиболее бюджетный вариант для семьи. Категорию NA мы не отразили на графике, т.к. она не дает содержательной информации.

5. Число квартир по наличию посредника

Мы перевели данные к более удобному для восприятия виду и обозначили наличие посредника “Yes”, отсутствие - “No”.

Число квартир по наличию посредника
Наличие посредника Число квартир
No 415
Yes 2585

График иллюстрирует, что чаще всего сделки по аренде происходят через посредников. Профессиональная помощь позволяет избежать ошибок в оформлении документов, мошенничества, правильно сформировать оптимальную рыночную цену и просто сэкономить время.

6. Число квартир по типу дома

Мы объединили категории “Старый фонд с КР” и “Старый фонд без КР” с более общей категорией “Старый фонд”. В таблице отражены все категории, для 324 квартир не указан тип дома.

Гистограмма показывает, что больше всего квартир сдается в кирпичных домах, на втором месте - кирпично-монолитные. Лидерство первых может быть обусловлено тем, что квартиры в кирпичных домах стоят дороже и сдать их можно за более высокую плату, ведь материал проверен столетиями, а дома из него теплые и традиционно относятся к классу жилья повышенной комфортности. Кирпично-монолитные же популярны, так как большинство современных жилых комплексов строятся из этого материала.

7. Число квартир по наличию лифта

Мы немного переименовали категории и обозначили наличие лифта - “Yes”, отсутствие - “No”, иначе - оставили исходное значение (NA). В таблице мы отразили все три категории.

Число квартир по наличию лифта
Наличие лифта Число квартир
121
No 1188
Yes 1691

Диаграмма показывает, что в большинстве сдаваемых квартир присутствует лифт. Это объяснимо тем, что суммарно большинство квартир сдается в домах, где больше пяти этажей. Категорию NA мы не отразили на графике, т.к. она не дает содержательной информации.

8. Число квартир по наличию мебели

Данные по наличию мебели представлены в 11 категориях, в т.ч. пропуски (NA). Мы отразили их все в таблице и не стали группировать, чтобы не нарушать целостность данных.

Число квартир по наличию мебели
Наличие мебели Число квартир
873
Est’ 52
Garnit+kuh.nab. 80
Garnitur 70-80 14
Garnitur Sovr. 282
Minimum 88
Net 121
Sbor.+kuh.garn. 561
Sbornaya 70-80 24
Sbornaya Sovr. 864
Tol’ko kuhnya 41

Гистограмма показывает, что больше всего сдающихся квартир имеют сборную современную мебель. Во многих кроме сборной мебели также присутствует кухонный гарнитур. На третьем месте по числу квартир находятся те, в которых из мебели только современный гарнитур.

Как было сказано ранее, люди часто рассматривают съемную квартиру как временное жилье, экономя на стоимости квадратных метров, поэтому, вероятно, наличие хорошей современной мебели - один из главных критериев. Соответственно, арендодателям выгодно обставить квартиру и сдавать дороже, отвечая потребностям потребителей в комфорте. Категорию NA мы не отразили на графике, т.к. она не дает содержательной информации.

9. Число квартир по типу ванной

В данных о типе ванной были некорректные значения, не относящиеся к стандартной классификации санузлов (совмещенный/раздельный), в частности, “Bol’shoi”, “Poperechnaya” и т.п. - мы перевели их в NA не стали отражать в таблице.

Число квартир по типу ванной
Тип ванной Число квартир
Otdel’naya 814
Sovmeshchennaya 405

Из гистограммы следует, что квартир с совмещенным санузлом меньше, чем с раздельным. Эта информация отчасти кореллирует с уже проанализированной информацией о распределении квартир по количеству комнат. Если произвести несложные расчеты по таблице “Число квартир по количеству комнат”, то число квартир от 2 до 8 комнат (1704) выше, чем число студий и 1-комнатных (1296). А планировки стандартно предполагают раздельную ванную, если квартира многокомнатная. Более того, в современных домах раздельный санузел встречается и у 1-комнатных/студий. Отсюда следует, что квартир с совмещенной ванной должно быть меньше, что и подтверждается эмпирическими данными.

10. Число квартир по наличию ремонта

Данные по наличию ремонта содержали схожие по смыслу категории. Мы объединили “Evrostandart”, “Proizveden” и “Ne trebuetsya” в “Yes”, “Trebuetsya” в “No”, ошибочные значения (например, “Dush”, “Otdel’naya”) мы перевели в формат NA.

Число квартир по наличию ремонта
Наличие ремонта Число квартир
No 14
Yes 1684

График показывает, что большинство квартир под сдачу, даже с учетом отсутствующих данных, имеют ремонт. Это можно объяснить тем, что арендодателям выгоднее сделать ремонт и сдать квартиру дороже, удовлетворив потребности потребителей в комфорте. Тем более, арендаторы почти всегда не готовы самостоятельно делать ремонт в съемной квартире, а базовый ремонт при этом является одним из критериев выбора.

11. Число квартир по наличию балкона

В данных о наличии балкона мы сгруппировали некоторые категории: если в квартире больше одного балкона, то категория “Balkon”, если больше одной лоджии, то “Lodjiya”, если ничего нет - “No”. Пропуски и ошибочные данные мы не стали отражать в таблице.

Число квартир по наличию балкона
Балкон Число квартир
Balkon 1013
Lodjiya 601
No 287

Гистограмма показывает, что в большинстве квартир присутствуют балкон, в меньшем количестве - лоджия. Это отчасти кореллирует с информацией о типах домов. Многие кирпичные дома, где сдается больше всего квартир, и дома советской застройки обычно имеют балконы. В кирпично-монолитных и монолитных новостройках, занимающих 2е и 3е места по количеству квартир для сдачи соответственно, чаще встречаются лоджии.

12. Число квартир по этажам

В таблице показано, сколько квартир соответствует каждому этажу. Мы не стали отражать число пропущенных данных.

Из графика следует, что больше всего квартир сдается на 3 и 4 этажах, далее следуют 2 и 5. Как было упомянуто выше, самые популярные районы под сдачу - Центральный и Московский, где присутствуют как дореволюционные здания высотой до 5 этажей и советские дома до 9 этажей, так и невысокие новостройки бизнес-класса. Кроме того, с точки зрения спроса, наиболее предпочтительными считаются этажи с 3 по 10: они сочетают в себе большую часть плюсов (не очень далеко от первого этажа) и исключают почти все минусы нижних квартир (меньше шума с улицы и от входа людей).

Задание 2(b)

# Таблица числовых данных

# создаем функцию для расчета моды, т.к. встроенной функции в R нет
for_moda <- function(x) {
   uni = unique(x)
   uni[which(tabulate(match(na.omit(x), uni)) == max(tabulate(match(na.omit(x), uni))))]
}

# na.omit удаляет строки с NA, они мешают, т.к. есть шанс, что NA станет модой
# match расставляет порядковые номера из уникального списка элементам "большого" списка
# tabulate считает, сколько раз повторялось каждое число в списке, получается массив
#   "сколько раз повторялось каждое число из уникального списка"
# which находит позицию элемента в списке, заданную логическим выражением
# max ищем числа с наибольшим количеством повторений(на случай мультимодального распределения)
# uni[] получаем массив из мод

o_chislah = function(x){
  mini = min(x, na.rm = T) # аргумент na.rm убирает NA из расчетов
  perv_kvart = summary(x)["1st Qu."][[1]]
  mediiana = median(x, na.rm = T)
  srednee = mean(x, na.rm = T)
  moda = for_moda(x)
  tret_kvart = quantile(x, p = 0.75, na.rm = T)[[1]]
  maksi = max(x, na.rm = T)
  stand_otkl = sd(x, na.rm = T)
  r = maksi - mini
  assim = skewness(x, na.rm = T)
  curtozis = kurtosis(x, na.rm = T)
  list_character = c(mini, perv_kvart, mediiana, srednee, moda, tret_kvart, maksi, stand_otkl, r, assim, curtozis)
  return(list_character)
}

names_chisla = c("Минимум", "Первый квартиль", "Медиана", "Среднее", "Мода", "Третий квартиль", "Максимум", "Стандартное отклонение", 'Размах', "Коэф. асимметрии", "Куртозис")

options(scipen = 100, digits = 3) # для отображения чисел в привычном формате, а не экспоненциальном

li = list()

# Смысл цикла: к каждому числовому столбцу применяется вышеизложенная функция и помещает полученный массив чисел в список*, затем из списков характеристик каждого столбца формируется список списков для удобства создания таблицы.
# *Примечание: авторы часто употребляют слово "список", имея в виду вектор, из-за схожести свойств и для упрощения языка, хотя такое употребление не совсем корректно по смыслу. В данном же случае под термином "список" имеется в виду настоящий список, т.е. объект такого класса.

for (i in numeric_col){
  stolb_list = list(o_chislah(spb_df[[i]]))
  li = append(li, stolb_list)
}
rm(stolb_list, i) # удаляем переменные stolb_list и i за ненадобностью
chisla_df = data.frame(li, row.names = names_chisla)
colnames(chisla_df) = numeric_col

list_not_numeric_col[which(list_not_numeric_col == "No_agents")] = "Agents" # переименовываем название столбца в списке(ранее такое преобразование производилось только в датафрейме)

# обновляем дфы, т.к. изменяли списки номинальных и числовых переменных
df_nominal = spb_df[ ,list_not_numeric_col]
df_numeric = spb_df[ , numeric_col]

chisla_df %>%
  kable(caption = "Таблица характеристик числовых данных") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "responsive"), full_width = F, position = "center") %>% 
  column_spec(1, bold = T)
Таблица характеристик числовых данных
Dist_metro_ad Price Area_total Area_living Area_kitchen Latitude Longitude Year_construction Minimum_duration, months
Минимум 0.00 10.00 15.00 10.0 1.00 59.600 28.800 1838.00 1.00
Первый квартиль 355.00 22000.00 39.00 19.0 8.00 59.900 30.300 2002.00 11.00
Медиана 790.00 30000.00 50.00 30.0 10.00 59.900 30.300 2012.00 11.00
Среднее 1495.12 45505.32 63.09 37.7 13.36 59.933 30.326 2000.83 10.51
Мода 50.00 20000.00 40.00 18.0 10.00 59.900 30.300 2016.00 11.00
Третий квартиль 1570.00 50000.00 74.00 46.0 15.00 60.000 30.400 2015.00 11.00
Максимум 31700.00 690000.00 514.00 300.0 165.00 60.700 30.600 2017.00 31.00
Стандартное отклонение 2680.76 47222.75 40.28 27.3 10.79 0.076 0.095 26.73 3.14
Размах 31700.00 689990.00 499.00 290.0 164.00 1.100 1.800 179.00 30.00
Коэф. асимметрии 5.59 4.89 3.45 3.1 4.48 0.289 -1.626 -3.08 1.15
Куртозис 43.63 40.97 24.79 19.4 36.43 6.788 29.774 14.28 20.47

Задание 3(b)

1. Число квартир в зависимости от цены

Ранее мы определили, что наиболее популярными квартирами для сдачи являются однокомнатные квартиры, реже - двухкомнатные. Стоимость месячной аренды таких квартир чаще всего составляет 20-40 тысяч рублей. Полученная гистограмма демонстрирует, что наибольшее предложение как раз достигается в данной ценовой категории (конкретнее, модальное значение - 20 тыс.руб). Также можно наблюдать значительное уменьшение предложения квартир по мере увеличения цены аренды. Коэффициент асимметрии цен (>0) подтверждает, что в распределении чаще встречаются значения меньше среднего в размере 45505.3руб.

2. Число квартир в зависимости от общей площади

Общая площадь представляет собой сумму площадей всех помещений в квартире. Гистограмма иллюстрирует, что больше всего квартир имеют общую площадь 40 \(м^{2}\), меньше квартир - 30 и 50 \(м^{2}\).

Диапазон 38-45 \(м^{2}\) соответствует стандартной площади однокомнатных квартир, которые наиболее часто предлагаются для сдачи по сравнению с квартирами с большим количеством комнат. Кроме того, т.к. больше всего квартир сдается в кирпичных и кирпично-монолитных домах, то квартиры имеют стандартные размеры, поэтому и предложение квартир площадью сильно больше 100 \(м^{2}\) минимально.

3. Число квартир в зависимости от жилой площади

Жилой является площадь комнат, предназначенных для постоянного проживания, то есть гостиных и спален. Из графика плотности видно, что чаще всего жилая площадь составляет 18 \(м^{2}\). Это соответствует размерам стандартных однокомнатных квартир, которые, как мы выяснили ранее, лидируют по предложению для сдачи в аренду.

Столбики диаграммы смещены вправо от начала координат на 10 единиц, т.к. согласно таблице числовых характеристик, 10 \(м^{2}\) - минимальное значение жилой площади.

4. Число квартир в зависимости от площади кухни

Кухня не входит в жилую площадь квартиры и является частью общей площади. Наиболее частое значение площади кухни, как видно из графика, 10 \(м^{2}\). Это объяснимо, ведь, как мы выяснили ранее, больше всего квартир сдается в кирпичных домах, где планировка такова, что кухни небольшие по метражу.

5. Число квартир в зависимости от координат широты

Больше всего квартир для сдачи находится на 59.9 широте. Это объяснимо с точки зрения ранее полученных данных о том, что наиболее популярным районом для сдачи является Центральный. Координата широты данного района также составляет примерно 59.9. Более того, координата широты равная 60.0 соответствует расположению метро Комендантский проспект, и, как мы уже выяснили, рядом с этой станцией сдается больше всего квартир. Волнообразный вид графика плотности обусловлен дискретным характером данных о широте.

6. Число квартир в зависимости от координат долготы

По графику мы можем заметить, что больше всего квартир расположено на долготе 30.3, что, в свою очередь, соответствует расположению второго по популярности среди арендаторов району - Московскому и в принципе меридиан этой широты проходит через центр Петербурга. Проанализировав координаты, мы можем сделать вывод, что все 5 районов с наибольшим предложением квартир для аренды располагаются в координатах 30.3–30.4. Волнообразный вид графика плотности обусловлен дискретным характером данных о долготе.

7. Число квартир в зависимости от минимального срока аренды

Исходя из графика, арендодатели предпочитают сдавать квартиры на срок минимум 11 месяцев. Меньший срок договора может быть не очень выгоден, поскольку на поиск арендаторов уходит от 20 дней, а в сумме услугами посредника это выливается в большие затраты. В то же время долгосрочная сделка (от 12 месяцев) требует регистрации в Росреестре. Поэтому многие арендодатели заключают договор минимум на 11 месяцев, что и можно пронаблюдать на графике.

Задание 4

1. Величина логарифма цены квартиры в зависимости от величины общей площади

Диаграмма рассеяния показывает, что большинство квартир сосредоточено в рамках площади до 100 \(м^{2}\) и значениях логарифма цены в районе 10. Это объяснимо с точки зрения вычисленных характеристик.

Модальное значение цены составляет 20 тыс.р., логарифм этого числа - приблизительно 9.9. В районе этой отметки по оси Y как раз и сосредоточено большинство наборов площадь - логарифм цены.

Среднее значение площади составляет, согласно таблице числовых характеристик, 63.09 \(м^{2}\), а стандартное отклонение от него задает диапазон величиной приблизительно от 22.81 до 103.37 \(м^{2}\), в пределах которого варьируется площадь большинства квартир, что и отражено на графике.

Линия тренда указывает на зависимость: чем больше площадь квартиры, тем выше цена аренды. Особенно крутой наклон линии тренда приходится на квартиры площадью до 100 \(м^{2}\). Это говорит о том, что для квартир стандартных размеров даже небольшое превосходство по площади позволяет претендовать на более высокую цену аренды.

2. Величина логарифма цены квартиры в зависимости от величины жилой площади

Визуально диаграмма очень похожа на предыдущую со сдвигом влево на 5 единиц - разница в минимальных значениях общей и жилой площадей. Ядро из точек на графике сосредоточено в левой части, приблизительно от координаты 10 до 40 \(м^{2}\) по оси X. Это означает, что наибольшее количество квартир под сдачу имеют жилую площадь в данном диапазоне. Данная закономерность согласуется с таблицей числовых характеристик: среднее значение жилой площади 37.7 \(м^{2}\), а т.к. коэффициент асимметрии положителен, то в распределении чаще встречаются значения меньше среднего.

Линия тренда показывает, что, так же как и общая площадь, жилая подчиняется той закономерности: чем больше площадь, тем выше цена. Это значит, что арендодатели традиционно считают большее количество квадратных метров своим конкурентным преимуществом на рынке съемного жилья.

3. Величина логарифма цены квартиры в зависимости от величины площади кухни

Диаграмма рассеяния отражает несколько важных фактов.

Квартиры с минимальной площадью кухни (1 \(м^{2}\), что известно из таблицы числовых характеристик и скорее напоминает ошибочное данное, нежели площадь реальной кухни) находятся в ценовом диапазоне от почти \(e^{10}\) руб. до примерно \(e^{12}\) руб., что в денежном выражении составляет достаточно большой разброс цен от 22 до 163 тыс.р. Дело в том, что в отличие от жилой площади, площадь кухни не так сильно коррелирует с ценой квартиры. Это можно объясить тем, что отдельной кухни нет как в маленьких по площади и цене студиях, так и в квартирах студийного типа любой площади и любой ценовой категории. Далее примерно до 5 \(м^{2}\) по оси X на диаграмме наблюдается пробел в связи с отсутствием данных о квартирах с меньшими размерами. Это может быть обусловлено тем, что даже в квартирах старой планировки чаще всего при наличии кухни ее размер хотя бы 5 \(м^{2}\).

Больше всего наборов площадь кухни-логарифм цены сосредоточено в районе 10 \(м^{2}\) (согласно таблице, это модальное значение). На участке примерно 10-20 \(м^{2}\) линия тренда возрастает и имеет крутой наклон. Скорее всего, это косвенно указывает на увеличение общей площади квартиры, а значит и ее цены.

Данных о квартирах с кухней свыше 20 \(м^{2}\) уже меньше. Разброс цен сохраняется тот же, линия тренда слабо возрастает за исключением убывания цены с ростом площади приблизительно от 25 до 35 \(м^{2}\). Колебания цены могут быть связаны с другими факторами, в частности, наличием ремонта или, как мы убедимся позднее, размерами жилой площади.

4. Цена квартиры в тыс. руб. в зависимости от координаты широты дома

В связи с дискретностью данных о широте, невозможно выявить зависимость между тем, в какой широте расположен дом, и ценой квартиры в нем. Однако диаграмма показывает, что больше всего квартир сосредоточено на широте 59.9-60. Диапазон цен на аренду в большинстве квартир этой широты от приблизительно 15 до 300 тыс.руб., а в редких случаях и выше. Как мы выяснили ранее, в этой широте находится район-лидер по количеству сдаваемых квартир - Центральный. Конечно, цены на квартиры там сильно различны в зависимости от площади, состояния дома и других факторов.

5. Цена квартиры в тыс. руб. в зависимости от координаты долготы дома

Ситуация с долготой практически аналогична предыдущей: дискретность данных позволяет сравнить только количество квартир на той или иной долготе. Очевидно, больше всего наборов цена квартиры-долгота сосредоточено в районе отметки 30.3. Это соответствует Московскому району, одному из лидеров по предложению квартир. По сравнению с соседней долготой, 30.4, здесь представлено больше квартир в ценовом диапазоне от 100 до 300 тыс. руб. Это может быть обусловлено близостью к аэропорту, наличием большого числа зеленых зон и развитой инфраструктурой района.

6. Величина логарифма цены квартиры в зависимости от удаленности дома от ближайшего метро

Диаграмма показывает несколько трендов. Во-первых, квартиры в домах у метро достигают самой большой цены аренды - до \(e^{13}\) руб, что приблизительно 442 тыс. руб. Больше всего квартир сосредоточено в домах, которые находятся на расстоянии до 5 км от метро. Линия тренда на этом участке убывает, что говорит об обратной зависимости: чем дальше от метро, тем ниже цена. Это объяснимо с точки зрения потребности людей, пользующихся услугами метро, в его пешей доступности.

Тем не менее, для удаленности свыше 5 км наблюдается прямая зависимость между ценой квартир и расстоянием до метро. Возможно, предложение таких квартир ориентируется на потребность арендаторов в квартирах подальше от городского шума и суеты (которые превалируют в районе станций метро) и готовность добираться на личном транспорте/такси.

Задание 5

Построим матрицу коэффициентов корреляции для очищенных данных, т.к. при наличии пропущенных значений коэф. корреляции не будет вычисляться. Также удалим столбцы “Широта”, “Долгота” и “Год постройки” (в них очень много пропущенных значений, а для вычисления наиболее близкого к истине коэффициента требуется как можно больше значений).

1. Цена и общая площадь квартиры

Коэффициент корреляции между ценой и площадью квартиры равен 0.79. Это означает сильную прямую зависимость: чем больше размеры квартиры, тем дороже арендаторы стремятся ее сдавать.

2. Цена и жилая площадь квартиры

Коэффициент корреляции между ценой и площадью квартиры равен 0.75. Логично, что, являясь главной составляющей общей площади, жилая так же коррелирует с ценой квартиры: с каждым квадратным метром квартира предлагается по более высокой цене на рынке.

3. Цена и площадь кухни

Коэффициент корреляции между ценой и площадью кухни равен 0.52. Как и в предыдущих случаях, для этой площади работает принцип “больше \(\Rightarrow\) лучше”, иными словами, прямая зависимость. Однако коррелируют показатели в меньшей степени.

Как было сказано ранее, есть квартиры (любого ценового диапазона), где кухня совмещена с комнатой и учитывается в составе жилой площади. Цена таких квартир в большей степени зависит от жилой площади, и в меньшей - от площади кухни.

При этом, такая планировка не являтся стандартной, поэтому представлена на рынке в меньшем количестве, что позволяет не нарушать прямую зависимость цены и площади кухни.

4. Цена и удаленность от метро

Коэффициент корреляции между ценой и удаленностью дома от метро составляет -0.14. Следовательно, между показателями присутствует очень слабая обратная зависимость: чем дальше дом от метро, тем меньше цена аренды квартиры в нем. Ранее было сказано, что чаще всего многие потребители требуют пешую доступность станций метро. Арендодатели, соответственно, оценивают это как свое конкурентное преимщество и включают в стоимость. Однако есть жилые комплексы повышенной комфортности, которые наоборот располагаются подальше от городского шума, и предполагают наличие личных автомобилей у жильцов. Возможно, наличие данных о таких квартирах в выборке уменьшает абсолютное значение коэффициента корреляции.

Для проверки статистической значимости взаимосвязи между переменными мы нашли p-value стат. тестов. Также для простоты восприятия, мы округлили полученные значения p-value до 6 знаков после запятой.

Видно, что не все результаты стат. тестов являются статистически значимыми. Практически все тесты с переменной “Мин. продолжит.” имеют высокий p-value: единственным претендентом на статистическую значимость является тест с “Расстоянием до метро”, но всё равно p-value довольно велик (окончательный вывод можно сделать, зная уровень значимости). В остальных же тестах с этой переменной p-value более 0.4, что означает отсутствие у результатов статистической значимости и, другими словами, устойчивого и однозначного характера взаимосвязи переменных.

Таблица p-value
Общ.площадь Жилплощадь Цена Площадь кухни Мин.продолжит. Расст. до метро
Общ.площадь 0 0 0 0 0.80197 0.000002
Жилплощадь 0 0 0 0.757987 0.00002
Цена 0 0 0.400038 0
Площадь кухни 0 0.86739 0.000043
Мин.продолжит. 0 0.054057
Расст. до метро 0