Числовые переменные:
Dist_metro_ad - расстояние до ближайшей станции метро, согласно объявлению (м)
Price - наёмная цена (рублей / месяц)
Area_total - общая площадь (кв. м)
Area_living - жилая площадь (кв. м)
Area_kitchen - площадь кухни (кв. м)
Floor - этаж, на котором расположена квартира
Latitude - географическая широта
Longitude - географическая долгота
Year_construction - год постройки
Номинальные переменные:
Date_entry - дата размещения объявления (гггг-мм-дд)
Region - регион
District_ad - городской район, согласно объявлению
Address - адрес
Metro - ближайшая станция метро, согласно объявлению
Rooms - количество комнат
Minimum_duration - минимальная продолжительность договора (месяц)
No_agents - сдача через посредника или без
Building - материал, из которого построено здание
NFloor - число этажей в доме
Lift - наличие лифта
Furnished - меблирована квартира или нет
Bath - тип ванной
Refurbished - тип ремонта
Balcony - наличие балкона
Анализ номинальных перменных
Для начала заметим, что переменные обозначающие адрес дома, район, метро, материал здания, дату размещения объявления и минимальную длительность договора имеют слишком много уникальных значенй(1000, 23, 79, 24, 624 и 16 соответственно), поэтому таблицы частот для них будут неинформативными.
Рассмотрим остальные переменные.
Таблица 1. Распределение домов по регионам.
| Region | Freq |
|---|---|
| gorod Sankt-Peterburg | 2865 |
| Leningradskaya oblast’ | 135 |
Подавляющее большинство домов (2865) расположено в Санкт-Петербурге, в то время как 135 домов (менее 5%) расположено в Ленинградской области.
Таблица 2. Количество комнат в доме.
| Rooms | Freq |
|---|---|
| 1 | 1183 |
| 1 (studiya) | 104 |
| 1 (studiya) | 39 |
| 2 | 910 |
| 3 | 581 |
| 4 | 138 |
| 5 | 33 |
| 6 | 7 |
| 7 | 1 |
| 8 | 1 |
| 9 | 1 |
Как мы можем видеть, при заполнении данных была допущена ошибка, и квартиры-студии были записаны с разным количеством пробелов. Объединим их для дальнейшей работы.
Таблица 3. Количество комнат в доме. Исправленная
| Rooms | Freq |
|---|---|
| 1 | 1183 |
| 1 (studiya) | 143 |
| 2 | 910 |
| 3 | 581 |
| 4 | 138 |
| 5 | 33 |
| 6 | 7 |
| 7 | 1 |
| 8 | 1 |
| 9 | 1 |
Наибольшее количество наблюдений относится к однокомнатным квартирам (1183), в то время как студий довольно мало, их количество равно 143. Число двухкомнатных квартир также велико и равно 910. Далее с увеличением количества комнат - количество сдаваемых квартир уменьшается. Также встречается по 1 квартире с 7, 8 и 9 комнатами.
Анализ переменной наличие посредников при сдаче квартиры показывает, что 395 квартир имели посредников, в то время как по остальным наблюдениям нет никаких данных.
| No_agents | Freq |
|---|---|
| Da | 395 |
Переменная количество числа этажей в доме также вызывает вопросы, так как единицы измерения для некоторых наблюдений - квадратные метры. Исключим эту переменную из дальнейшего анализа.
Что касается лифта, он присутсвует почти в 60% домов.
Таблица 4. Наличие лифта в доме
| Lift | Freq |
|---|---|
| Est’ | 1666 |
| Net | 1186 |
Рассмотрим данные, касающиеся мебелированности квартир.
Таблица 5. Наличие мебели в доме
| Furnished | Freq |
|---|---|
| Est’ | 73 |
| Garnit+kuh.nab. | 90 |
| Garnitur 70-80 | 8 |
| Garnitur Sovr. | 324 |
| Minimum | 86 |
| Net | 131 |
| Sbor.+kuh.garn. | 578 |
| Sbornaya 70-80 | 28 |
| Sbornaya Sovr. | 800 |
| Tol’ko kuhnya | 29 |
Для одних наблюдений указано только наличие мебели, в то время для других указано описание мебели. Объединим все наблюдения, имеющие хоть какую-то мебель. Тогда таблица выглядит следующим образом.
Таблица 6. Наличие мебели в доме. Исправленная
| Var1 | Freq |
|---|---|
| Da | 2016 |
| Net | 131 |
Как мы можем видеть, данные по мебели представлены для 2147 домов, из них 2016 имеют мебель.
Аналогичным образом поступим с переменной тип ванной.
Таблица 7. Тип ванной.
| Bath | Freq |
|---|---|
| Bol’shoi | 6 |
| Dush | 49 |
| Est’ | 134 |
| Na kuhne | 2 |
| Net | 3 |
| Otdel’naya | 785 |
| Poperechnaya | 6 |
| Prodol’naya | 14 |
| Sidyachaya | 1 |
| Sovmeshchennaya | 403 |
Таблица 8. Тип ванной.Исправленная
| Var1 | Freq |
|---|---|
| Da | 1400 |
| Net | 3 |
Заметим, что данные о наличии ванной есть менее, чем у половины домов. Тем не менее, почти во всех домах, по которым есть информация, ванна есть.
Переменную ремонт трудо анализированить, так как для одних наблюдений указано наличие/отстутствие для ремонта, а для других необходимость/отстутствие необходимости проведения ремонта, или же указан конкретный тип ремонта. Поэтому мы убираем данную переменную из рассмотрения.
Из-за большого количества типов балконов разделим дома на имеющие балкон и не имеющие.
Таблица 9. Наличие балкона.
| Var1 | Freq |
|---|---|
| Da | 1635 |
| Net | 286 |
Данные по балконам есть у 1921 наблюдения. Из них в более чем 85% случаев есть хотя бы 1 балкон.
Анализ числовых переменных
Теперь обратимся к количественным переменным. Описание первоначальных данных представлено в таблице ниже.
Таблица 10. Описательные статистики числовых переменных
| n | mean | sd | median | min | max | range | skew | kurtosis | mode | |
|---|---|---|---|---|---|---|---|---|---|---|
| Dist_metro_ad | 2908 | 2870.7 | 73770.1 | 770 | 0 | 3975150 | 3975150 | 53.7 | 2888.0 | 50 |
| Price | 3000 | 46060.4 | 50335.5 | 30000 | 19 | 900000 | 899981 | 5.5 | 51.3 | 20000 |
| Area_total | 2843 | 74.8 | 154.0 | 50 | 12 | 5745 | 5733 | 26.3 | 873.6 | 40 |
| Area_living | 2964 | 49.0 | 172.1 | 31 | 2 | 8228 | 8226 | 37.8 | 1733.2 | 18 |
| Area_kitchen | 2664 | 20.7 | 67.9 | 11 | 1 | 2145 | 2144 | 20.5 | 512.5 | 10 |
| Floor | 2852 | 6.5 | 4.8 | 5 | 1 | 31 | 30 | 1.4 | 1.9 | 3 |
| Latitude | 2541 | 142901080.8 | 711931910.9 | 59935931 | 59933 | 6007165857 | 6007105924 | 8.1 | 63.4 | 59970846 |
| Longitude | 2541 | 212013541.8 | 462901602.4 | 30402052 | 30361 | 6008158472 | 6008128111 | 5.8 | 37.6 | 303192712 |
| Year_construction | 365 | 1999.4 | 27.7 | 2011 | 1860 | 2017 | 157 | -2.7 | 8.2 | 2016 |
Во-первых, заметим, что данные долготы и широты даны не в верном формате, и необходимо добавить запятую после первых двух цифр, что вызовет изменение всех остальных описательных статистик. Более того, с учётом вышесказанного максимальные значения долготы и широты похожи, что однако невозможно на территории Санкт-Петербурга и Ленинградской области, поэтому скорее всего при заполнении данных была допущена ошибка. Мы это учли для дальнейшей работы.
Далее, расстояние до метро не может составлять более 3 млн км, даже если дом находится в Ленинградской области.
Что касается цены, наёмная цена за квартиру равная 19 рублей в месяц кажется направдоподобной, как и цена 900000 рублей.
Максимальные значения общей площади жилых помещений, а также площади кухни и жилой зоны также кажутся неправдоподобными. Кроме того, мы должны учесть, что ни для одного дома общая площадь не может превышать сумму площади жилого помещения и площади кухни.
Отфильтрованные данные представлены в таблице ниже.
Таблица 11. Описательные статистики числовых переменных для очищенных данных
| n | mean | sd | median | min | max | range | skew | kurtosis | mode | |
|---|---|---|---|---|---|---|---|---|---|---|
| Dist_metro_ad | 1954 | 1134.2 | 1685.4 | 700.0 | 0.0 | 24200.0 | 24200.0 | 5.32 | 44.1 | 50 |
| Price | 1954 | 45044.8 | 40971.2 | 30000.0 | 3500.0 | 400000.0 | 396500.0 | 3.65 | 18.4 | 20000 |
| Area_total | 1954 | 70.8 | 64.1 | 52.0 | 15.0 | 766.0 | 751.0 | 5.09 | 34.5 | 40 |
| Area_living | 1954 | 36.8 | 28.2 | 30.0 | 10.0 | 401.0 | 391.0 | 4.01 | 29.5 | 18 |
| Area_kitchen | 1954 | 12.8 | 10.4 | 10.0 | 1.0 | 147.0 | 146.0 | 6.30 | 60.3 | 10 |
| Floor | 1954 | 6.4 | 4.7 | 5.0 | 1.0 | 29.0 | 28.0 | 1.42 | 2.0 | 3 |
| Latitude | 1954 | 59.9 | 0.1 | 59.9 | 59.6 | 60.1 | 0.6 | -0.22 | 0.1 | 60 |
| Longitude | 1954 | 30.3 | 0.1 | 30.3 | 30.1 | 30.7 | 0.6 | 0.09 | 0.5 | 30 |
| Year_construction | 221 | 1995.8 | 31.6 | 2010.0 | 1860.0 | 2017.0 | 157.0 | -2.40 | 5.9 | 2015 |
Как мы можем заметить, средняя цена съёмной квартиры составила 30000 рублей в месяц, а медианная чуть больше 45000 рублей. Самый популярный этаж сдаваемой квартиры - третий, медианный - пятый. Площадь жилья варьируется значительно - от 15 до 766 квадратных метров. Это касается в том числе жилой площади (от 10 до 401 м2) и площади кухни (от 1 до 147 м2). Большой размах также наблюдается у переменной расстояние до метро, так как часть домов расположена в Ленинградской области.
Теперь построим графики для числовых переменных, чтобы подробнее взглянуть на распределение переменных.
Заметим, что распределение расстояния до метро сильно скошено влево, однако мы не имеем право исключать наблюдения из Ленинградской области. Тем не менее большинство квартир расположено в пешей доступности от метро.
Наиболее частыми являются дома с ценой 40000-50000 рублей в месяц, однако в датасете встречаются и дома превышающие 200000 и 300000 рублей. Распределение похоже на Хи-квадрат.
Распределения общей площади, жилой площади и площади кухни похожи между собой. Визулально центрами распределения этих покателей являются - 45, 35 и 10 квадратных метров соотвественно.
Наиболее популярными являются 2-4 этажи. Далее при увеличиении этажа количество наблюдений падает.
В соответствии с графиками распределения долготы и широты, большинство квартир находится в центре города. Более того, разброс по долготе больше, чем разброс по широте.
Большинство домов, имеющих информацию о постройке дома, являются новостройками (были построены в 21 веке).
Теперь посмотрим на диаграммы рассеивания между ценой и количественными переменными. Коэффициент корреляции указан под каждым из графиков.
## [1] -0.09497689
Как мы видим связи между расстоянием до метро и ценой практически нет.
## [1] 0.2155289
При увеличении площади квартиры цена на квартиру увеличивается.
## [1] 0.2216337
Аналогичным образом, увеличение жилой площади увеличивает цену квартиры.
## [1] 0.0555402
Однако размер кухни не оказывает влияние на цену квартиры.
## [1] -0.1479495
Наблюдается небольшая негативная связь цены и этажа, на котором расположена квартира. Чем больше номер этажа, тем ниже цена на квартиру.
## [1] -0.07418348
## [1] 0.07474699
Корреляция между долготой и ценой квартиры, а также широтой и ценой квартиры практически отстуствует. Однако заметим, что большинство дорогих домов располагается в центре города.
## [1] -0.007118181
Связь между годом постройки жилья и ценой отсутствует: коэффициент корреляции близок к нулю.