Задание 1

Числовые переменные:

  1. Dist_metro_ad - расстояние до ближайшей станции метро, согласно объявлению (м)

  2. Price - наёмная цена (рублей / месяц)

  3. Area_total - общая площадь (кв. м)

  4. Area_living - жилая площадь (кв. м)

  5. Area_kitchen - площадь кухни (кв. м)

  6. Floor - этаж, на котором расположена квартира

  7. Latitude - географическая широта

  8. Longitude - географическая долгота

  9. Year_construction - год постройки

Номинальные переменные:

  1. Date_entry - дата размещения объявления (гггг-мм-дд)

  2. Region - регион

  3. District_ad - городской район, согласно объявлению

  4. Address - адрес

  5. Metro - ближайшая станция метро, согласно объявлению

  6. Rooms - количество комнат

  7. Minimum_duration - минимальная продолжительность договора (месяц)

  8. No_agents - сдача через посредника или без

  9. Building - материал, из которого построено здание

  10. NFloor - число этажей в доме

  11. Lift - наличие лифта

  12. Furnished - меблирована квартира или нет

  13. Bath - тип ванной

  14. Refurbished - тип ремонта

  15. Balcony - наличие балкона

Задание 2 + Задание 3

Анализ номинальных перменных

Для начала заметим, что переменные обозначающие адрес дома, район, метро, материал здания, дату размещения объявления и минимальную длительность договора имеют слишком много уникальных значенй(1000, 23, 79, 24, 624 и 16 соответственно), поэтому таблицы частот для них будут неинформативными.

Рассмотрим остальные переменные.

Таблица 1. Распределение домов по регионам.

Region Freq
gorod Sankt-Peterburg 2865
Leningradskaya oblast’ 135

Подавляющее большинство домов (2865) расположено в Санкт-Петербурге, в то время как 135 домов (менее 5%) расположено в Ленинградской области.

Таблица 2. Количество комнат в доме.

Rooms Freq
1 1183
1 (studiya) 104
1 (studiya) 39
2 910
3 581
4 138
5 33
6 7
7 1
8 1
9 1

Как мы можем видеть, при заполнении данных была допущена ошибка, и квартиры-студии были записаны с разным количеством пробелов. Объединим их для дальнейшей работы.

Таблица 3. Количество комнат в доме. Исправленная

Rooms Freq
1 1183
1 (studiya) 143
2 910
3 581
4 138
5 33
6 7
7 1
8 1
9 1

Наибольшее количество наблюдений относится к однокомнатным квартирам (1183), в то время как студий довольно мало, их количество равно 143. Число двухкомнатных квартир также велико и равно 910. Далее с увеличением количества комнат - количество сдаваемых квартир уменьшается. Также встречается по 1 квартире с 7, 8 и 9 комнатами.

Анализ переменной наличие посредников при сдаче квартиры показывает, что 395 квартир имели посредников, в то время как по остальным наблюдениям нет никаких данных.

No_agents Freq
Da 395

Переменная количество числа этажей в доме также вызывает вопросы, так как единицы измерения для некоторых наблюдений - квадратные метры. Исключим эту переменную из дальнейшего анализа.

Что касается лифта, он присутсвует почти в 60% домов.

Таблица 4. Наличие лифта в доме

Lift Freq
Est’ 1666
Net 1186

Рассмотрим данные, касающиеся мебелированности квартир.

Таблица 5. Наличие мебели в доме

Furnished Freq
Est’ 73
Garnit+kuh.nab. 90
Garnitur 70-80 8
Garnitur Sovr. 324
Minimum 86
Net 131
Sbor.+kuh.garn. 578
Sbornaya 70-80 28
Sbornaya Sovr. 800
Tol’ko kuhnya 29

Для одних наблюдений указано только наличие мебели, в то время для других указано описание мебели. Объединим все наблюдения, имеющие хоть какую-то мебель. Тогда таблица выглядит следующим образом.

Таблица 6. Наличие мебели в доме. Исправленная

Var1 Freq
Da 2016
Net 131

Как мы можем видеть, данные по мебели представлены для 2147 домов, из них 2016 имеют мебель.

Аналогичным образом поступим с переменной тип ванной.

Таблица 7. Тип ванной.

Bath Freq
Bol’shoi 6
Dush 49
Est’ 134
Na kuhne 2
Net 3
Otdel’naya 785
Poperechnaya 6
Prodol’naya 14
Sidyachaya 1
Sovmeshchennaya 403

Таблица 8. Тип ванной.Исправленная

Var1 Freq
Da 1400
Net 3

Заметим, что данные о наличии ванной есть менее, чем у половины домов. Тем не менее, почти во всех домах, по которым есть информация, ванна есть.

Переменную ремонт трудо анализированить, так как для одних наблюдений указано наличие/отстутствие для ремонта, а для других необходимость/отстутствие необходимости проведения ремонта, или же указан конкретный тип ремонта. Поэтому мы убираем данную переменную из рассмотрения.

Из-за большого количества типов балконов разделим дома на имеющие балкон и не имеющие.

Таблица 9. Наличие балкона.

Var1 Freq
Da 1635
Net 286

Данные по балконам есть у 1921 наблюдения. Из них в более чем 85% случаев есть хотя бы 1 балкон.

Анализ числовых переменных

Теперь обратимся к количественным переменным. Описание первоначальных данных представлено в таблице ниже.

Таблица 10. Описательные статистики числовых переменных

n mean sd median min max range skew kurtosis mode
Dist_metro_ad 2908 2870.7 73770.1 770 0 3975150 3975150 53.7 2888.0 50
Price 3000 46060.4 50335.5 30000 19 900000 899981 5.5 51.3 20000
Area_total 2843 74.8 154.0 50 12 5745 5733 26.3 873.6 40
Area_living 2964 49.0 172.1 31 2 8228 8226 37.8 1733.2 18
Area_kitchen 2664 20.7 67.9 11 1 2145 2144 20.5 512.5 10
Floor 2852 6.5 4.8 5 1 31 30 1.4 1.9 3
Latitude 2541 142901080.8 711931910.9 59935931 59933 6007165857 6007105924 8.1 63.4 59970846
Longitude 2541 212013541.8 462901602.4 30402052 30361 6008158472 6008128111 5.8 37.6 303192712
Year_construction 365 1999.4 27.7 2011 1860 2017 157 -2.7 8.2 2016

Во-первых, заметим, что данные долготы и широты даны не в верном формате, и необходимо добавить запятую после первых двух цифр, что вызовет изменение всех остальных описательных статистик. Более того, с учётом вышесказанного максимальные значения долготы и широты похожи, что однако невозможно на территории Санкт-Петербурга и Ленинградской области, поэтому скорее всего при заполнении данных была допущена ошибка. Мы это учли для дальнейшей работы.

Далее, расстояние до метро не может составлять более 3 млн км, даже если дом находится в Ленинградской области.

Что касается цены, наёмная цена за квартиру равная 19 рублей в месяц кажется направдоподобной, как и цена 900000 рублей.

Максимальные значения общей площади жилых помещений, а также площади кухни и жилой зоны также кажутся неправдоподобными. Кроме того, мы должны учесть, что ни для одного дома общая площадь не может превышать сумму площади жилого помещения и площади кухни.

Отфильтрованные данные представлены в таблице ниже.

Таблица 11. Описательные статистики числовых переменных для очищенных данных

n mean sd median min max range skew kurtosis mode
Dist_metro_ad 1954 1134.2 1685.4 700.0 0.0 24200.0 24200.0 5.32 44.1 50
Price 1954 45044.8 40971.2 30000.0 3500.0 400000.0 396500.0 3.65 18.4 20000
Area_total 1954 70.8 64.1 52.0 15.0 766.0 751.0 5.09 34.5 40
Area_living 1954 36.8 28.2 30.0 10.0 401.0 391.0 4.01 29.5 18
Area_kitchen 1954 12.8 10.4 10.0 1.0 147.0 146.0 6.30 60.3 10
Floor 1954 6.4 4.7 5.0 1.0 29.0 28.0 1.42 2.0 3
Latitude 1954 59.9 0.1 59.9 59.6 60.1 0.6 -0.22 0.1 60
Longitude 1954 30.3 0.1 30.3 30.1 30.7 0.6 0.09 0.5 30
Year_construction 221 1995.8 31.6 2010.0 1860.0 2017.0 157.0 -2.40 5.9 2015

Как мы можем заметить, средняя цена съёмной квартиры составила 30000 рублей в месяц, а медианная чуть больше 45000 рублей. Самый популярный этаж сдаваемой квартиры - третий, медианный - пятый. Площадь жилья варьируется значительно - от 15 до 766 квадратных метров. Это касается в том числе жилой площади (от 10 до 401 м2) и площади кухни (от 1 до 147 м2). Большой размах также наблюдается у переменной расстояние до метро, так как часть домов расположена в Ленинградской области.

Теперь построим графики для числовых переменных, чтобы подробнее взглянуть на распределение переменных.

Заметим, что распределение расстояния до метро сильно скошено влево, однако мы не имеем право исключать наблюдения из Ленинградской области. Тем не менее большинство квартир расположено в пешей доступности от метро.

Наиболее частыми являются дома с ценой 40000-50000 рублей в месяц, однако в датасете встречаются и дома превышающие 200000 и 300000 рублей. Распределение похоже на Хи-квадрат.

Распределения общей площади, жилой площади и площади кухни похожи между собой. Визулально центрами распределения этих покателей являются - 45, 35 и 10 квадратных метров соотвественно.

Наиболее популярными являются 2-4 этажи. Далее при увеличиении этажа количество наблюдений падает.

В соответствии с графиками распределения долготы и широты, большинство квартир находится в центре города. Более того, разброс по долготе больше, чем разброс по широте.

Большинство домов, имеющих информацию о постройке дома, являются новостройками (были построены в 21 веке).

Задание 4 и Задание 5

Теперь посмотрим на диаграммы рассеивания между ценой и количественными переменными. Коэффициент корреляции указан под каждым из графиков.

## [1] -0.09497689

Как мы видим связи между расстоянием до метро и ценой практически нет.

## [1] 0.2155289

При увеличении площади квартиры цена на квартиру увеличивается.

## [1] 0.2216337

Аналогичным образом, увеличение жилой площади увеличивает цену квартиры.

## [1] 0.0555402

Однако размер кухни не оказывает влияние на цену квартиры.

## [1] -0.1479495

Наблюдается небольшая негативная связь цены и этажа, на котором расположена квартира. Чем больше номер этажа, тем ниже цена на квартиру.

## [1] -0.07418348

## [1] 0.07474699

Корреляция между долготой и ценой квартиры, а также широтой и ценой квартиры практически отстуствует. Однако заметим, что большинство дорогих домов располагается в центре города.

## [1] -0.007118181

Связь между годом постройки жилья и ценой отсутствует: коэффициент корреляции близок к нулю.