Начнем расследовательную аналитику датанных с рассмотрения основных характеристик исходного датасета.

summary(X)
##    Date_entry            Region          District_ad          Address         
##  Min.   :2012-08-24   Length:3000        Length:3000        Length:3000       
##  1st Qu.:2016-05-31   Class :character   Class :character   Class :character  
##  Median :2016-12-19   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :2016-10-31                                                           
##  3rd Qu.:2017-04-21                                                           
##  Max.   :2017-07-23                                                           
##                                                                               
##     Metro           Dist_metro_ad       Rooms               Price       
##  Length:3000        Min.   :     0   Length:3000        Min.   :    18  
##  Class :character   1st Qu.:   320   Class :character   1st Qu.: 22000  
##  Mode  :character   Median :   770   Mode  :character   Median : 30000  
##                     Mean   :  1578                      Mean   : 44922  
##                     3rd Qu.:  1550                      3rd Qu.: 50000  
##                     Max.   :152390                      Max.   :750000  
##                     NA's   :80                                          
##  Minimum_duration    No_agents           Building           Area_total    
##  Length:3000        Length:3000        Length:3000        Min.   : 12.00  
##  Class :character   Class :character   Class :character   1st Qu.: 38.00  
##  Mode  :character   Mode  :character   Mode  :character   Median : 50.00  
##                                                           Mean   : 61.98  
##                                                           3rd Qu.: 70.00  
##                                                           Max.   :400.00  
##                                                           NA's   :182     
##   Area_living      Area_kitchen        Floor           NFloor         
##  Min.   :  2.00   Min.   :  1.00   Min.   : 1.000   Length:3000       
##  1st Qu.: 19.00   1st Qu.:  8.00   1st Qu.: 3.000   Class :character  
##  Median : 30.00   Median : 10.00   Median : 5.000   Mode  :character  
##  Mean   : 38.12   Mean   : 14.19   Mean   : 6.634                     
##  3rd Qu.: 46.00   3rd Qu.: 15.00   3rd Qu.: 9.000                     
##  Max.   :300.00   Max.   :210.00   Max.   :31.000                     
##  NA's   :41       NA's   :380      NA's   :169                        
##      Lift            Furnished             Bath           Refurbished       
##  Length:3000        Length:3000        Length:3000        Length:3000       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##                                                                             
##    Balcony             Latitude       Longitude     Year_construction
##  Length:3000        Min.   :59.57   Min.   :30.07   Min.   :1818     
##  Class :character   1st Qu.:59.88   1st Qu.:30.28   1st Qu.:2002     
##  Mode  :character   Median :59.94   Median :30.32   Median :2011     
##                     Mean   :59.94   Mean   :30.33   Mean   :2001     
##                     3rd Qu.:59.98   3rd Qu.:30.38   3rd Qu.:2015     
##                     Max.   :60.08   Max.   :30.66   Max.   :2017     
##                     NA's   :502     NA's   :502     NA's   :2674

Задание №1

 В первом датасете представлены категориальные, они же качественные данные. В данной категории не наблюдается категориальных порядковых переменных, то есть тех, которые имеют иерархию, а следовательно, все данные принадлежат к разряду номинальных.

categorical  = X %>%  select(Date_entry,Region, District_ad, Address, Metro, Lift,Furnished, Bath, Balcony, Refurbished, Building, No_agents)
datatable(categorical)

 Порядковыми являются все, что не вошли в разряд категориальных. Тут присутствует бо́льшее разнообразие классификаций, так как на ряду с непрерывными данными (например, цена) присутствуют и дискретные (количество комнат).

Задание 2

 Как было сказано на леции, нашей первостепенной задачей является переформатирование разрозненных данных в репрезентативную выборку, для чего необходимо критически подойти к исходным наблюдениям.

 В начале работы небходимо преобразовать данные, чтобы работа с ними в R была возможна и наиболее удобна.

# преобразовываем данные в пригодный для работы формат
X$Rooms = as.numeric(X$Rooms)
## Warning: NAs introduced by coercion
X$NFloor = as.numeric(X$NFloor)
## Warning: NAs introduced by coercion
#Логарифмируем цену, чтобы удобнее было работать с числами и оставляем цену выше 7, так как остальные являются выбросами
X$Price = log(X$Price)
X$Price = round(X$Price,2)
X = X %>% filter(Price>7)

# преобразуем Minimum_duration к виду, с которым можно будет работать данные в месяцах

X$Minimum_duration = as.factor(X$Minimum_duration)
X$Minimum_duration <-gsub("mes.", "", X$Minimum_duration )
X$Minimum_duration = as.numeric(X$Minimum_duration)

 Так как в стандарнтом саммари по количественным данным отсутствует функция, определяющая моду, мы написали ее самостоятельно.

moda_function1<- function(v) {
   uniqv <- unique(v)
   uniqv[which.max(tabulate(match(v, uniqv)))]
}

Для работы с репрезентативными данными без явно выраженных выбросов нам необходимо подробно рассмотреть наблюдения и по возможности исключить ошибки.

 Расстояние до метро: Существует небольшое количество выбросов (так как минимум равен 0 метру и максимум - 152,39 км), тем не менее, судя по первому и третьему квантилю, для большинства объектов данный показатель был указан корректно. Медиана также выглядит приемлемой, чего нельзя сказать о среднем (больше чем значение третьего квантиля, что может сигнализировать о большой дисперсии значений). Можно полагать, последнее скорее всего обусловлено большим относительно числа объектов количеством выбросов (а также большими значениями этих выбросов (максимум приблизительно в десять раз больше, чем медиана). Пропусков очень немного, это может быть связано с тем, что расстояние до метро вычисляется автоматически при указании адреса объекта. Из этого можно сделать достаточно вывод: причиной вышеуказанных выбросов является сбой в работе программного обеспечения.

 Число комнат: Все выглядит предельно корректно, пропусков не так много. Интересно, что медиана больше, чем среднее => большинство объектов – небольшие (по числу комнат) квартиры.

  Цена: Изначально от цены был взят натуральный логарифм для меньшего размаха во время анализа. В столбце с ценами отстуствуют пропуски, что может указывать, что элитная недвижимость в датасете не представлена (в основном именно у таких объектов вместо цены указывают предложение Price upon request). Нами также были обнаружены квартиры, цена на съем которых была ниже 7 тысяч, с нашей точки зрения, едва ли можно найти квартиру по такой цене, возможно, объявление было дано о съеме комнаты в квартире. Нами было принято решение удалить такие квартиры

  Минимальная продолжительность договора: Замечены выбросы: максимум 11 тысяч месяцев (~917 лет) не является приемлемым сроком даже для долгосрочной аренды (все известные случаи долгосрочной аренды имели срок не больше 90-150 лет). В остальном все корректно: минимальный срок сдачи - 1 месяц. Среднее смещено, вероятно, из-за наличия значительных выбросоов). Достаточно много пропусков: видимо, многие арендодатели - люди дотовые к компроссу и согласны договариваться в частном порядке.

  Общая площадь: Выбросов не обнаружено. Объектами с площадью от 12 до 20 квадратных метров вполне могут оказаться сдаваемые комнаты (известно, что в Петербурге проживает достаточно много студентов, часть из которых стеснена в средствах, но не имееют права на общежитие, поэтому спрос на такие объекты существует). Квартиры с площадью 400 квадратных метров тоже вполне могут существовать. Однако большинство объектов имеют небольшую площадь.

  Жилая площадь: Обнаружены выбросы! Человек не сможет существовать в квартире площадью 2х2 метра. Полагаю, это была ошибка человека, подавшего объявление. В остальном, распределение этой переменной очень похоже на распределение параметра общая площадь. Пропусков куда меньше, чем в предыдущем случае. Возможно, арендодатели считают жилую площадь более важным для клиента параметром.

  Площадь кухни: Обнаружены выбросы: не могу сказать, насколько невозможна кухня площадью 1 кв метр, возможно это объявление было размещено владельцем студии, но вот кухню площадью 210 квадратных метров представить себе невозможно (если это конечно не объявление о сдаче в аренду ресторана, но насколько я понимаю, этот датасет не должен в себя включать объявления о сдаче в аренду коммерческой недвижимости). В остальном, все корректно. Среднее опять смещено в сторону третьего квантиля (очевидно, из-за выбросов). Много пропусков: в каких-то объектах кухни может не быть вообще, если это, например, комната, да и в целом, площадь кухни - параметр не первой необходимости.

  Этаж: Выбросов нет, распределение корректное, небольшое количество пропусков.

  Число этажей: выбросов нет, распределение корректное, число пропусков невелико.

  Год строительства: выбросов в данных нет, так как в Петербурге существуют жилые дома 1818 года и даже более старые. Очень много пропусков - 2663. Также важно отметить, что значение среднего меньше значения первого квантиля, что является доводом в пользу позиции о наличии выбросов, которые могут наблюдаться из-за неправильного указания даты постройки старых домов. Это может быть связано с халатным отношением к фактам об исторических зданиях: арендодателям, не знающим точный год постройки, может показаться неважным, построен дом в 1830 или 1870 году.

 Делаем столбец с ценой за кв. метр и считаем оставшуюся площадь квартиры за вычетом кухни и гостиной

X = X %>% mutate(Price_for_meter = Price/Area_total)
X = X %>% mutate(Rest_of_area = Area_total - Area_kitchen-Area_living)
X_filtered = X %>% mutate(Price_for_meter = Price/Area_total)
X_filtered = X_filtered %>% mutate(Rest_of_area = Area_total - Area_kitchen-Area_living)

 Убираем те данные, где оставшаяся площадь квартиры меньше 0, так как там очевидно ошибки.

 Выведем основные характеристики по количественным переменным, каждая из которых будет более подробно рассмотрена ниже.

##  Dist_metro_ad       Rooms               Price        Minimum_duration  
##  Min.   :     0   Length:3000        Min.   :    18   Length:3000       
##  1st Qu.:   320   Class :character   1st Qu.: 22000   Class :character  
##  Median :   770   Mode  :character   Median : 30000   Mode  :character  
##  Mean   :  1578                      Mean   : 44922                     
##  3rd Qu.:  1550                      3rd Qu.: 50000                     
##  Max.   :152390                      Max.   :750000                     
##  NA's   :80                                                             
##    Area_total      Area_living      Area_kitchen        Floor       
##  Min.   : 12.00   Min.   :  2.00   Min.   :  1.00   Min.   : 1.000  
##  1st Qu.: 38.00   1st Qu.: 19.00   1st Qu.:  8.00   1st Qu.: 3.000  
##  Median : 50.00   Median : 30.00   Median : 10.00   Median : 5.000  
##  Mean   : 61.98   Mean   : 38.12   Mean   : 14.19   Mean   : 6.634  
##  3rd Qu.: 70.00   3rd Qu.: 46.00   3rd Qu.: 15.00   3rd Qu.: 9.000  
##  Max.   :400.00   Max.   :300.00   Max.   :210.00   Max.   :31.000  
##  NA's   :182      NA's   :41       NA's   :380      NA's   :169     
##     NFloor             Latitude       Longitude     Year_construction
##  Length:3000        Min.   :59.57   Min.   :30.07   Min.   :1818     
##  Class :character   1st Qu.:59.88   1st Qu.:30.28   1st Qu.:2002     
##  Mode  :character   Median :59.94   Median :30.32   Median :2011     
##                     Mean   :59.94   Mean   :30.33   Mean   :2001     
##                     3rd Qu.:59.98   3rd Qu.:30.38   3rd Qu.:2015     
##                     Max.   :60.08   Max.   :30.66   Max.   :2017     
##                     NA's   :502     NA's   :502     NA's   :2674

Числовые характеристики для широты

print(describe(X$Latitude))
##    vars    n  mean   sd median trimmed  mad   min   max range  skew kurtosis se
## X1    1 2495 59.94 0.07  59.94   59.94 0.08 59.57 60.08  0.51 -0.08     -0.4  0

 Мода широт

b = X$Latitude
b = na.omit(b)
print(moda_function1(b))
## [1] 59.97085

 В последствии совершались одни и те же дейстия для вычисления характеристик по всем количественным переменным.

 Числовые характеристики для минимальной продолжительности

##    vars    n  mean     sd median trimmed mad min   max range  skew kurtosis
## X1    1 2106 15.67 239.49     11    10.9   0   1 11000 10999 45.81  2098.25
##      se
## X1 5.22

 Мода минимальной продолжительности съема

## [1] 11

Числовые характеристики для долготы

##    vars    n  mean   sd median trimmed  mad   min   max range skew kurtosis se
## X1    1 2495 30.33 0.08  30.32   30.33 0.07 30.07 30.66  0.59 0.12     0.48  0

Мода долготы

## [1] 30.31927

Числовые характеристики для дистанции до близлежайшей станции метро

##    vars    n    mean      sd median trimmed    mad min    max  range  skew
## X1    1 2918 1578.25 4543.49    770  943.95 815.43   0 152390 152390 19.23
##    kurtosis    se
## X1   542.79 84.11

Мода расстояния до ближайшей станции метро

## [1] 50

Числовые характеристики для количества комнат

##    vars    n mean sd median trimmed  mad min max range skew kurtosis   se
## X1    1 2833 1.94  1      2    1.81 1.48   1   8     7 1.17     1.95 0.02

Мода количества комнат

## [1] 1

Числовые характеристики для цены

##    vars    n  mean   sd median trimmed  mad  min   max range skew kurtosis   se
## X1    1 2996 10.46 0.66  10.31   10.39 0.59 7.28 13.53  6.25 0.71     1.76 0.01

Мода цены

## [1] 9.9

Числовые характеристики для общей площади

print(describe(X$Area_total))
##    vars    n  mean    sd median trimmed   mad min max range skew kurtosis   se
## X1    1 2814 62.03 38.07     50   55.12 20.76  12 400   388  2.8    12.39 0.72

Мода общей площади жилья

## [1] 40

Числовые характеристики для площади кухни

##    vars    n mean    sd median trimmed  mad min max range skew kurtosis   se
## X1    1 2617 14.2 13.15     10   11.57 4.45   1 210   209 4.76    36.08 0.26

Мода площади кухни

## [1] 10

Числовые характеристики для жилой площади квартиры/дома

##    vars    n  mean    sd median trimmed   mad min max range skew kurtosis   se
## X1    1 2956 38.14 28.23     30   32.79 17.79   2 300   298 2.84    12.91 0.52

Мода жилой площади

## [1] 18

Числовые характеристики для года постройки

print(describe(X$Year_construction))
##    vars   n    mean    sd median trimmed  mad  min  max range  skew kurtosis
## X1    1 324 2001.35 24.66   2011 2006.56 5.93 1818 2017   199 -3.36    16.19
##      se
## X1 1.37

Мода года постройки дома

## [1] 2015

Задание №3

 В данном задании мы отразили таблицы частот значений для некоторых качественных данных, а также графики частотностей для каждой переменной такого типа.

 Для параметров, отвечающих критериям количественных переменных, было произведено построение гистограмм и функций плотности распределения. Гистограммы и плотность распределения представлены на одном графике для каждой переменной для наибольшей наглядности.

m1 = X_filtered %>% group_by(Metro) %>% tally()
m1 = m1[order(m1$n),]
names(m1)[2]<-'Quantity'

 При аренде жилья очень важно его расположение. Зачастую, арендаторы рассматривают квартиры, которые находятся вблизи определенных станций метро. Рассмотрим распределение квартир по близлежащим к ним станциям место.

 Данные показали, что наибольшее количество квартир, в соответствии с информацией из объявлений, находятся неподалеку от станции метро Приморская – в количестве 109 штук. Наименьшее число квартир, выставленных в аренду, расположено у таких станций метро, как Кириши, Обухово, Разлив и др., примечательно, что несмотря на значительную удаленность от центра Санкт-Петербурга, в частности расположение в черте или даже за чертой города, предложение к съему таких квартир очень велико.

 Важно отметить, что большинство квартир расположено в центральных районах города, которым соответствуют определенные станции метрополитена. Такое расположение квартир выгодно и очень удобно, оно позволяет арендаторам быстро и беспрепятственно перемещаться в любые точки города.

 Можно также заметить, что значительная часть квартир находится в спальных районах города. Это несколько отдаленные от центра дома, но не менее выгодные в ценовом соотношении.

Таблица частотности по виду строений
Building Quantity
Staryi fond bez KR 1
121(Gatchinskaya) 2
602 seriya 2
Kottedj 2
504D seriya 4
Besshovnaya tehnologiya 4
600.11 seriya 9
606 seriya 9
Korabl’ 14
504 seriya 15
Brejnevka 16
Hrushchevka 24
Staryi fond s KR 33
137 seriya 37
Individual’nyi proekt 38
Stalinskii 53
Staryi fond 65
Monol.Panel’nyi 77
Blochnyi 104
Panel’nyi 179
Monolit 214
NA 228
Kirp.Monolit 435
Kirpichnyi 803

 Результаты анализа данных показали, что выделяют несколько основных видов строений домов, которые в свою очередь различаются годом и качеством постройки.

 Как показано на диаграмме, наибольшее количество квартир сдаётся в домах кирпичного типа – 802 объявления, почти вдвое меньше кирпично-монолитного – 433, и 214 объявлений о сдачи квартир в монолитных домах.

 Кроме того, не все арендодатели считают необходимым указать вид строения, поэтому 228 объявлений вообще не содержат такой информации.

 Наименьшее количество объявлений можно найти о сдачи квартир в домах Старого фонда без капитального ремонта (Staryi fond bez KR), в доме 121 типа и коттеджах, по одному объявлению, соответственно.

Таблица частотности по виду балкона
Balcony Quantity
4 balkona 1
3 lodjii 2
Erker 3
Terrasa 9
Balkon i lodjiya 10
2 lodjii 18
2 balkona 21
Zasteklennyi balkon 83
Zasteklennaya lodjiya 177
Net 255
Lodjiya 295
Balkon 701
NA 793

 Как показали результаты, зачастую арендодатели/риелторы не указывают наличие балкона/лоджии/террасы в объявлениях, по той причине, для будущих жильцов эта информация не будет принципиально важной и информативной, поэтому 792 объявления не содержат никакой информации о виде балкона. С другой стороны, наличие балкона может привлечь потенциальных жильцов, а также повлиять на ценность и стоимость аренды жилья, поэтому остальные ~1500 объявлений содержат информацию о наличии или отсутствии балкона в квартирах.

 Чаще всего (699 раз) можно встретить объявления с одним балконом в квартире, или с одной лоджией (293 наблюдения), или вообще квартиры без какого-либо балкона (255 объявлений). Стоит отметить, что некоторые домовладельцы разделяют застекленные и незастекленные балконы/лоджии, которые являются отдельными категориями в нашем отчете и видны на диаграмме ниже.

 Реже, но встречаются квартиры с эркерами, террасами, и с несколькими балконами, что представляет собой меньшинство в категории «Вид балкона».

 Теперь перейдем к рассмотрению данных по отсутствие/наличию лифта.

Таблица частотности по наличию/отсутстию лифта
Lift Quantity
Est’ 1376
Net 992

 Наличие и отсутствие лифта – еще один немаловажный пункт, который волнует арендаторов квартир многоэтажных домов. Некоторые могут даже не рассматривать дома без лифтов. Однако это проблема многоэтажных домов характерного типа, который указан в диаграмме 2. Некоторые высотные дома, например, 121 типа строения, не имеют лифтов, но могут достигать и 9-10 этажей, что крайне неудобно и может доставить проблемы жителям преклонного возраста или людям с дополнительными потребностями.

 Что касается наших данных, лифт есть в большинстве домов, указанных в объявлении – 1371 шт., и отсутствует лифт в 991 доме.

 Немаловажным аспектом аренды жилья считается ремонт. Принято считать, что чем свежее ремонт, тем дороже квартира. Однако, как показывают данные, не во всех объявлениях указан тип ремонта.

 Рассмотрим представленные ниже таблицу данных и график.

Таблица частотности по наличию / отсутствию мебелировки в квартире
Refurbished Quantity
Evrostandart 693
Ne trebuetsya 147
Proizveden 519
Trebuetsya 6
NA 1003

 Более чем в 1000 публикациях информация о ремонте отсутствует, а это около 42.5% всей выборки. На наш взгляд, на это есть несколько причин: + Ремонт отсутствует, но собственники жилья не желают сбавлять цену; + К объявлению прикреплены фотографии, на которых видно состояние квартиры; + Ремонт не соответствует ни одной категории, доступной для выбора.

 Что касается других публикаций, то во многих квартирах сделан ремонт по типу Евростандарта – 690 объявлений (29.2%), произведен классический косметический ремонт (21.8%), или он вовсе не требуется (6.2%).

 Очень малое количество квартир (0.3%) нуждается в ремонте, что указано арендодателями. Стоит отметить, что нередко съемщики не рассматривают квартиры, в которых нужно делать ремонт, по этой причине собственникам/риелторам легче не отмечать отсутствие ремонта, а просто пропустить этот пункт.

 Наличие или отсутствие ремонта не всегда дает полную информацию о состоянии санузла. Как и в случае с ремонтом, половина объявлений не содержит никакой информации о типе ванной комнаты – это около 1400 публикаций.

Таблица частотности типу ванной комнаты
Bath Quantity
Na kuhne 2
Poperechnaya 7
Prodol’naya 10
Dush 38
Sovmeshchennaya 291
Otdel’naya 689
NA 1331

 В данных выделяется несколько типов ванных комнат: совмещенная/отдельная, продольная/поперечная, душ, и «на кухне».

 Большая часть квартир выставленных в аренду – с отдельной ванной – 686 объявлений, почти вдвое меньше квартир – 290 шт. – с совмещенной ванной, небольшая часть квартир оборудована душем, что в 2.2 раза больше, чем квартиры с продольной или поперечной ванной комнатой, которые в сумме дают 17 публикаций.

 Кроме того, встречаются и объявления, в которых санузел совмещен с кухней или находится на кухне. Таких объявлений очень мало, 2 шт., но они имеют место быть. Обычно, ванные комнаты такого типа встречаются в таких типах домов, как сталинские или в домах Старого Фонда.

Таблица распредления по субъекту РФ
Region Quantity
Leningradskaya oblast’ 109
gorod Sankt-Peterburg 2259

 Квартиры в аренду в основном сдаются в городе. В разных его частях более двух тысяч объявлений о сдаче 1-8 комнатных квартир разных периодов постройки, типов домов и ремонта, самой разной отдаленности от центра, с разной инфраструктурой.

 Меньшинство, около 4.6% – квартиры, предлагаемые за пределами города в Ленинградской области, расположенные в основном во Всеволожском районе, количество комнат которых варьируется от 1 до 3.

 Данный показатель помогает нам понять, что большинство объявлений, которые появляются, рано или поздно находят своих жильцов. Достаточно странно выглядят объявления, которые датируются ранее, чем 2015 годом. Есть две гипотезы наличия таких наблюдений: + Эти объявления были изначально непрезентабельно составлены; + Объявления давно нашли жильцов, но были забыты теми, кто их размещал.

 Остальные наблюдения выглядят закономерно, предполагая, что база данных была составлена и выгружена в конце 2017 года.

 Несомненно, одним из самых важных параметров при выборе жилья в долгосрочной перспективе является местоположение съемной квартиры/дома. На графике ниже к рассмотрению представлено распределение жилья по районам.

 Стоит заметить, что чаще всего встречаются объявления о сдаче квартиры в аренду в Центральном, Московском, Приморском и Выборгском районах. Такие данные – не случайность, по той причине, что названные районы претендуют на звания лучших в Санкт-Петербурге. С развитой социально-бытовой инфраструктурой они обладают всеми необходимыми характеристиками для комфортной жизни.

 Меньшее предложение рождают такие районы как Лужский, Кронштадтский, Киришский. Они отличаются отдаленностью от административного центрального района города, обладая статусом пригородов, или находясь на островах. Трудности в передвижении, удаленность, низкая транспортная доступность делает эти районы менее привлекательными для съема жилья.

 Рассмотрение распределения по адресам несколько сложнее, чем по остальным качественным данным. Естественно, будет наблюдаться мало полных соответствий (Адреса и дома), поэтому было принято решение разделить улицу и дом. К сожалению, даже это не позволяет сделать данные визуально нагрядными. Рассмотрим на графике ниже толькот улицы,встретившиеся в данных более 10 раз.

 Лидером данной категории является Парголово, которое не является улицей, а с недавнего времени микрорайон в составе Выборгского района. Более 30 объявлений с неправильно заполненной “Улицей” являются символом того, что нередко для арендаторов наиболее принципиально расположение жилья в данном районе, а улице играет не такую значимую роль, а следовательно, точное местоположение может быть выяснено позже. Аналогичная ситуация с районом Мурино.

 Замыкают тройку популярнейших улиц Московский и Ленинский проспекты, расположенные в Кировском районе. Популярность этих улиц объясняется их протяженностью и принадлежностью (по крайней мере их значительной части) к спальным районам Петербурга.

 Как показывает столбчатый график, расположенный ниже, большинство квартир сдаются в аренду без агентов. Как правило, квартиры в аренду сдают собственники жилья. Однако не все обходятся без посредников. Зачастую агентов нанимают с целью сделать объявление более качественным, поднять его в «поиске», сделать процесс аренды более быстрым и продуктивным: хорошие фото, информативный текст и реклама позволят «продать» квартиру быстро. Разумеется, такая услуга оплачивается соответствующе, поэтому не все готовы и считают необходимым ею воспользоваться. Более того, современные сервисы позволяют выкладывать объявления самостоятельно, полагаясь только на собственные силы, экономя при этом некоторую деньги на услугах посредников.

 Перейдем к анализу числовых данных, проводить который мы будем на основе гистограммы и плотности распределения.

 Учитывая тот факт, что большинство квартир находятся в кирпичных и кирпично-монолитных домах, где площадь кухни в большинстве своем стандартизирована и по ГОСТу не должна быть меньше 5-7 кв.м, наиболее характерным для анализируемых данных является площадь кухни ~10-12 кв.м, обозначенная на графике ниже.

 

 Стоит также отметить немалое количество домов таких категорий, как Хрущевки, или дома Старого Фонда, кухонное пространство которых довольно ограниченно, поэтому на графике видна большая частота появления площади кухни 5-6 кв.м.

 Кроме того, встречаются кухни площадь которых превышает 40 квадратных метров. Это, разумеется, редкость, однако квартиры с такой планировкой имеют место быть.

 Общая площадь квартиры обычно тесно коррелирует с площадью кухни. В маленьких квартирах кухня обычно маленькая, а в больших – более просторная.

 Что касается площади квартир, размещенных в списке, то наиболее часто встречаются квартиры, общая площадь которых примерно 40 квадратных метров. Такие квартиры обычно 1-2-ух комнатные.

 Объявления также предлагают более просторные квартиры, площадь которых достигает 70-100 квадратных метров, чаще всего такие квартиры встречаются в домах нового типа, относительно недавней застройки, в Кирпичных, Кирпично-Монолитных и др.

 Реже встречаются квартиры 200-400 квадратных метров, их зачастую можно встретить в домах Старого Фонда, построенных еще до 1917 года.

 В силу того, что большинство квартир имеют общую площадь около 40 квадратных метров, относительно просторные кухни, то наиболее часто встречаемая жилая площадь примерно 20 квадратных метров.

 В аренду, в большинстве своем, сдаются квартиры с одной/двумя комнатами, площадь которых за редким исключением превышает 100 кв.м. По этой причине доступная жилая площадь выборки относительно мала.

 Однако немало квартир и с большей доступной для жилья площадью, примерно 35-50 кв.м. Обычно это 2-3-х комнатные квартиры, в типовых домах, описанные выше.

 Еще одним исключением являются квартиры с жилой площадью, превышающей 150 квадратных метров. Такие квартиры зачастую имеют большую общую площадь и кухню, расположены они не в типовых проектах, а в редких на сегодняшний день домах старого фонда или кирпичных домах, со специфичной планировкой.

 Как уже описывалось ранее, наибольшее число квартир – однокомнатные, с небольшой площадью и кухней. В объявлениях так же много квартир двухкомнатных, площадь которых может превышать 120 квадратных метров.

 За редким исключением можно встретить квартиры с 8 комнатами, площадь которой достигает 400 квадратных метров.

 Это обусловлено тем, что небольшие квартиры намного дешевле и, в некотором смысле, удобнее: больше соответствуют потребностям рынка. Удобнее в том плане, что чаще их снимают студенты и молодые люди, вблизи рабочих мест и учебных заведений. Молодежь, только начинающая свой карьерный путь, не готова отдавать весь свой доход на аренду дорогого жилья, в то время как однокомнатные небольшие квартиры обходятся им в разы дешевле, поэтому и пользуются большим спросом. А как мы знаем, спрос рождает предложение.

 Этажность дома и наличие/отсутствие лифта тесно связаны. Более того, стоит отметить, что большинство типов домов, построенных до 1950 года, вовсе не предусматривали наличие лифта.

 Есть брать в рассмотрение типы домов, то можно отметить, что многие дома таких типов как Хрущевки, Сталинские, дома Старого Фонда, Брежневки не превышали 5 – 7 этажей, где лифт не был нужен.

 В силу того, что этажность большинства домов Санкт-Петербурга не превышает 7 этажей, логично, что наиболее характерный этаж расположения квартиры от 3 до 5. Также часто встречаются квартиры, расположенные на 1-2 этажах.

 Когда началась застройка города и начали появляться первые высотки, этажность домов доходила до 9-12 этажей, поэтому 9-10 этаже получили распространение и часто встречаются в нашей выборке.

 Меньшими по частоте, но не менее важными являются квартиры, находящиеся на 15+ этажах. Такие квартиры встречаются в современных высотках, построенных уже в 21 веке.

 Как уже отмечалось ранее, количество этажей связано с типом дома. Большинство домов по-прежнему – дома построенные в 20 веке. Этажность таких домов чаще всего не превышает 7 этажей, что показано на графике ниже. Также часто встречаются 9-этажные дома, и дома в 15 этажей, которые обычно относят к категории блочные, панельные и пр., построенные уже после 50-х годов 20-го века. Данные проекты считались типовыми, поэтому в городе можно встретить достаточное количество домов такой относительно высокой этажности.

 Важно также отразить распределение цен в зависимости от количества комнат с помощь диаграммы “ящик с усами”. Как можно увидеть на графике, цены постепенно увеличиваются с увеличением количества комнат, однако, можно заметить, что есть квартиры с меньшим количеством комнат, которые стоят больше чем медианные значения квартир бОльших по данному признаку. Можно сделать вывод, что некоторые однокомнатные и двухкомнатные квартиры находятся в более экономически выгодных местах.

 Поскольку рынок недвижимости не стоит на месте и огромное количество домов было построено уже в 21 веке по новым стандартам и технологиям, этажность современных домов постепенно росла. В нашей выборке этажность варьируется и достигает 35.

 В силу того, что большинство квартир имеет относительно маленькую площадь и количество комнат, можно сделать вывод, что месячная плата за такие квартиры достигает 9.5 – 10.5 рублей.

 Цены варьируются в зависимости от состояния квартиры, ремонта, наличия кухни, типа ванной комнаты, наличия балкона, лифта и др.

 Чем больше площадь, тем выше цена. Чем лучше ремонт, тем выше цена. Однако несмотря на огромную разницу в площади, ремонте и прочем, более 95% цен в выборке находятся в промежутке от 8 до 13 рублей, что представляет собой довольно небольшой размах. Большинство цен принимают значения от 9.5 до 11 рублей.

 Зачастую квартиры берут в аренду близ тех мест, с которых удобно и легко добираться до места учебы или работы. По этой причине большинство домов находятся недалеко от подходящих станций метро, в пределах 200-300 метров.

 Меньшинство квартир расположено за 3-5 км от метрополитена. На это можно найти несколько причин: наличие личного транспорта или огромная ценовая разница квартир, которые находятся близ метро и на большем расстоянии от него. Цены могут ранжироваться в зависимости от месторасположения арендного жилья. Стоит также отметить, что квартиры находящиеся в 500-1000 м от ближайшей станции метро пользуются высоким спросом в силу того, что находятся в 10-15 минутах ходьбы до него.

 Как показано на графике выше, географические широты выборки имеют относительно маленький разброс, который был нами скорректирован на выбросы. Корректировка была сделана из расчета, что широта местоположения должна принадлежать к определенному промежутку, определяющему Санкт-Петербург и его окрестности. Это значит, что объекты могут быть расположены недалеко друг от друга (в одном городе/области), некоторые даже расположены на одинаковых параллелях (в одном районе), если разброс значений долготы будет соответствующий. Однако совпадение широт еще недостаточно для того, чтобы квартиры располагались очень близко друг к другу.

 В нашей выборке существуют случаи, когда широты отличаются друг от друга всего на 0.3 единицы, тогда о местонахождении делают такое суждение – объекты находятся на значительном для региона расстоянии друг от друга. В анализируемых данных расстояние квартир, находящихся в широтах, отличающихся на 0.3 единицы, составляет около 80 км. Таким образом, данные показывают, что квартиры расположены в разных частях города. Объявления предоставляют широкий выбор квартир в разных частях Санкт-Петербурга.

 По аналогии с широтой разброс долготы местонахождения объекты на несколько десятых единиц может оказать огромное влияние на его адрес, район или регион.

 Так, анализируя данные, большое количество квартир находится в относительно приближенной друг к другу долготе. Эти квартиры при совпадении широты могут находиться в одном квартале или районе города. Они также могут находиться на одной параллели, но в десятках километров друг от друга.

 Сравнив минимальное и максимальное значения долготы квартир вместе с соответствующими широтами в объявлениях, можно сделать вывод, что квартиры находятся на значительном расстоянии друг от друга, однако данные выборки не уходят за пределы ЛО. Так квартиры могут находиться на расстоянии 50-70 км друг от друга, что говорит о широком разнообразии предлагаемых квартир в объявлениях.

 Год постройки зданий сильно варьируется. Так, некоторые дома были построены еще в 19 веке. К таким домам относятся дома Старого Фонда, с большой общей площадью и небольшой этажностью здания. Часть домов построена в начале 20-го века. Такие квартиры в основном относят к Сталинским, или к домам Старго Фонда. Существует характерное отличие домов того периода, а именно это 2-3 этажные здания, типовые проекты, большая площадь квартир. Такие дома строились для элиты того времени, поэтому они отличаются планировкой, качеством застройки и др.

 Многие дома старого фонда, дома построенные в начале 20-го века, были снесены или до сих пор считаются ветхими, аварийными, поэтому большинство квартир в объявлениях имеют более свежий год постройки. Однако многие дома сохранились и сегодня пользуются спросом.

 Значительное количество домов построено после 50-х годов 20-го века, когда пришли типовые Хрущевки, отличающиеся маленькой площадью квартиры, небольшой кухней и совместным санузлом. Такие квартиры находились в 5-этажных зданиях. Факт того, что квартиры и дома были типовые объясняет причину высокой частоты объявлений с квартирами, характерного года постройки.

 Большая категория домов построена в 21 веке, когда на смену 5-7 этажам пришли высотки, строившиеся по новым технологиям и стандартам. Период с 2001 по 2007 называют золотым в России, он характеризуется как период с самым большим темпом строительства жилья, потому что после распада СССР это были первые удачные проекты, прилив капитала, повышение спроса и предложения на жилье.

Задание №4

 График рассеивания, представленный ниже, демонстрирует зависимость между общей площадью квартиры и ее стоимостью. Как мы видим, цена почти всех квартир напрямую определяется количеством квадратных метров – чем больше общая площадь квартиры, тем дороже она сдается в аренду.

 Этот график рассеивания показывает, как изменяется цена на жилье в зависимости от расстояния квартиры до ближайшей станции метро. Как мы видим, большинство квартир находятся в радиусе 5 километров от метро, это не случайно, так как на основе данных и принадлежности этих кварртир к Санкт-Петербургу, жилье не может быть сильно отдалено от метро, так как большая дальность - сигнал о выбросе.

 На данном графике аналогично предыдущему показана зависимость, особенность этого соотношения является то,что цена отложена на логарифмической шкале. Это в свою очередь позволяет нам оценить величину или скорость изменения цены в зависимости от площади квартиры.

 Как мы видим, есть обратная зависимость цены аренды квартиры и общей площади: больше площадь – меньше цена за квадратный метр. С увеличением общей площади квартиры дополнительный метр дешевеет, при этом особенно этот эффект заметен с приблизительно 100-125 метров.

 На данном графике рассеивания показана зависимость между изменением стоимости аренды квартиры и площадью кухни. Как и на предыдущих графиках цена отложена на логарифмической шкале. По этому графику можно утверждать, что размер кухни заметно влияет на цену – чем больше кухня, тем соответственно дороже квартира. Помимо этого, можно отметить, что аналогично любым метрам в квартире, с увеличением размера кухни каждый дополнительный метр так же начинает дорожать.

 Можно сказать, что такая обратная зависимость обусловлена площадью гостиной и в меньшей мере площадью остальной квартиры, но судя по графику не кухней.

Задание №5

 Формула,по которой нами была посчитата корреляция \(r = \frac{\sum{(x-m_x)(y-m_y)}}{\sqrt{\sum{(x-m_x)^2}\sum{(y-m_y)^2}}}\)

 p-value очень близкое к нулю показывает, что вероятность ошибки крайне мала

cor.test(X$Price, X$Floor, 
                    method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  X$Price and X$Floor
## t = -6.5888, df = 2825, p-value = 5.269e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.15916665 -0.08655026
## sample estimates:
##        cor 
## -0.1230231

 На данном графике рассеивания показано множество данных о цене и этаже, на котором расположена квартира. На основании этих данных построена линейная регрессия по этим двум переменным, коэффициент корреляции указывает на существование зависимости между двумя переменными, но несильную, так как величина корреляции лишь -0.12. Такой результат может быть обусловлен тем, что более дорогие квартиры находятся в старых домах ближе к центру города, которые, как правило, малоэтажные.

 Как и с предыдущим показателем, практически не наблюдается взаимосвязи между расстоянием до ближайшего метро и стоимостью жилье. Данное наблюдение кажется нам примечательным, так как ранее мы отмечали, что с нашей точки зрения, метро - важная городская инфраструктура, играющая значимую роль в ценообразовании. Вероятно, почти полное отсутствие корреляции связано с тем, что в городе достаточно много станций метро, которые расположены, как в престижных районах, историческим центре, так и на окраине города, где стоимость жилья достаточно низкая.

 Здесь на основании предоставленных данных построена модель зависимости количества комнат в квартире от цены ее аренды. Как мы видим, наблюдается прямая связь между двумя характеристиками: чем больше комнат, тем за большую сумму сдается квартира, об этом говорит высокое значение корреляции двух величин равное 0.71. Это не удивительно, ведь порой при выборе квартиры при равной площади арендатор может предпочесть ту, в которой больше комнат. Это связано с тем, что периодически люди заинтересованы в том, чтобы иметь раздельные комнаты для себя и детей, утроить кабинет или не соединять гостиную с кухней.

 На этом графике аналогично предыдущему построена модель зависимости площади квартиры от ее арендной цены. Видна, сильная зависимость двух величин, на это указывает большое значение коэффициента корреляции равное 0.81. Таким образом, подобно количеству комнат, общая площадь квартиры определяет цену ее аренды: чем больше метров, тем дороже аренда.

 Сравнивая взаимсвязь между общей площадью квартиры и жилой площадью, мы наблюдаем большую корреляцию между общей площадью и ценой. Такой результат является некоторым показателем, отражающим тот факт, что размер жилой площади, в которую принято включать площади спален и иногда гостиной, не полностью характеризует размер квартиры. Мы можем предположить, что наличие большой ванной комнаты может также становиться камнем преткновения при выборе жилья для долгосрочной аренды.

 На этом графике рассеивания построена модель зависимости площади кухни от цены. Наблюдается менее слабая корреляция (0.47) по сравнению с предыдущими моделями, это объясняется тем, что размер кухни не всегда определяет размер всей квартиры: например, может быть квартира с огромной кухней и всего лишь с двумя небольшими комнатами, поэтому размер кухни играет меньшую роль в определении арендной платы по сравнению с общей площадью квартиры.

 На двух выше представленных графиках рассеивания построены модели зависимости широты и долготы от цены аренды квартиры. Значения корреляции величин - для широты (0.043), для долготы (-0.087) – обе величины близки к 0, что говорит о том, что зависимость крайне незначительна и, скорее всего, связана с приближением сдаваемых квартир к центру города. Для более точного выявления зависимости от расположения требуется более глубокий анализ, например, разбиение квартир на группы по комнатам, по общей площади и другим характеристикам.

 Взглянув на график выше, можно даже без вычислений заметить, что связь практически отсутствует. Более того, присутствует немалое количество данных, которые значительно отличаются от общей тенденции. Принимая в расчет тот факт, что большинство жилья расположено в культурной столице, а в ней, как известно, немалое количество домов принадлежит достаточно старому жилищному фонду, то есть были построены значительно раньше XX века.

Заключение

 Итак, проанализировав данные на репрезентативность и отсутсвие ошибок, а также проведя ряд исследований на взаимосвязь между данными, нашей группе удалось сделать немало во многом ожидаемых, но теперь обоснованных выводов. Данная работа могла бы базавой стадией реального исследования, посвященного ценообразованию на рынке аренды жилой недвижимости.