Мы загрузили файл с исходными данными и создали на его основе датафрейм X.
sFolder = "C:/Users/karya/Desktop/University/Prikladnayast/DZ1"
sInFile = "/SPb_dwellings_for_rent_EMLS_sample_6.csv"
sOutFile = "/Dwellings.pdf"
X = read.csv(paste(sFolder, sInFile, sep=""), dec = ",", sep = ";")
head(X)
## Date_entry Region District_ad
## 1 2016-01-27 gorod Sankt-Peterburg Приморский
## 2 2016-05-31 Leningradskaya oblast' Всеволожский
## 3 2017-04-10 gorod Sankt-Peterburg Приморский
## 4 2017-02-20 gorod Sankt-Peterburg Выборгский
## 5 2016-08-16 gorod Sankt-Peterburg Адмиралтейский
## 6 2017-07-23 gorod Sankt-Peterburg Центральный
## Address Metro Dist_metro_ad
## 1 Королева пр., 63к1 Komendantskii pr. 2800
## 2 р-н Кудрово дер. Областная ул., 1 Dybenko ul. 1520
## 3 Маршала Новикова ул., 7 Komendantskii pr. 660
## 4 Сиреневый бул., 22/26 Prosveshcheniya pr. 1910
## 5 Спасский пер., 10 Sadovaya 190
## 6 Апраксин пер., 7 Sennaya pl. 10
## Rooms Price Minimum_duration No_agents Building Area_total
## 1 2 30000 11 mes. Kirpichnyi 72
## 2 1 (studiya) 20000 Monolit NA
## 3 1 20000 11 mes. 137 seriya 48
## 4 2 22000 11 mes. Monol.Panel'nyi 46
## 5 2 35000 12 mes. Da Staryi fond 67
## 6 2 65000 11 mes. Kirpichnyi 65
## Area_living Area_kitchen Floor NFloor Lift Furnished Bath
## 1 37 11 9 22 Net
## 2 32 17 NA kv.m. Net Est'
## 3 20 9 4 12 Est'
## 4 29 8 6 9 Est'
## 5 37 8 4 5 Net Sbornaya Sovr. Otdel'naya
## 6 46 10 2 3 Est' Sbor.+kuh.garn.
## Refurbished Balcony Latitude Longitude Year_construction
## 1 Balkon 60.03248 30.24363 NA
## 2 Otdel'naya est' NA NA NA
## 3 60.01157 30.26933 NA
## 4 Balkon 60.05118 30.36699 NA
## 5 Evrostandart 59.92867 30.31940 1930
## 6 59.92810 30.32548 NA
Полученный датафрейм мы разделим на два: один с числовыми переменными,второй с номинальными. Для группировки данных по виду необходимо сначала узнать, в каком типе данных представлен каждый столбец и переформатировать некоторые столбцы в соответствии с необходимым типом.
str(X)
## 'data.frame': 3000 obs. of 24 variables:
## $ Date_entry : chr "2016-01-27" "2016-05-31" "2017-04-10" "2017-02-20" ...
## $ Region : chr "gorod Sankt-Peterburg" "Leningradskaya oblast'" "gorod Sankt-Peterburg" "gorod Sankt-Peterburg" ...
## $ District_ad : chr "Приморский" "Всеволожский" "Приморский" "Выборгский" ...
## $ Address : chr "Королева пр., 63к1" "р-н Кудрово дер. Областная ул., 1" "Маршала Новикова ул., 7" "Сиреневый бул., 22/26" ...
## $ Metro : chr "Komendantskii pr." "Dybenko ul." "Komendantskii pr." "Prosveshcheniya pr." ...
## $ Dist_metro_ad : int 2800 1520 660 1910 190 10 530 630 750 1050 ...
## $ Rooms : chr "2" "1 (studiya)" "1" "2" ...
## $ Price : num 30000 20000 20000 22000 35000 65000 48000 55000 26000 130000 ...
## $ Minimum_duration : chr "11 mes." "" "11 mes." "11 mes." ...
## $ No_agents : chr "" "" "" "" ...
## $ Building : chr "Kirpichnyi" "Monolit" "137 seriya" "Monol.Panel'nyi" ...
## $ Area_total : num 72 NA 48 46 67 65 64 85 44.3 NA ...
## $ Area_living : num 37 32 20 29 37 46 38 55 18 150 ...
## $ Area_kitchen : num 11 17 9 8 8 10 15 NA 10.3 115 ...
## $ Floor : int 9 NA 4 6 4 2 10 3 5 NA ...
## $ NFloor : chr "22" " kv.m." "12" "9" ...
## $ Lift : chr "Net" "" "Est'" "Est'" ...
## $ Furnished : chr "" "Net" "" "" ...
## $ Bath : chr "" "Est'" "" "" ...
## $ Refurbished : chr "" "Otdel'naya" "" "" ...
## $ Balcony : chr "Balkon" "est'" "" "Balkon" ...
## $ Latitude : num 60 NA 60 60.1 59.9 ...
## $ Longitude : num 30.2 NA 30.3 30.4 30.3 ...
## $ Year_construction: int NA NA NA NA 1930 NA NA NA NA NA ...
Переменная Количество комнат(Rooms) сейчас представлена в виде номинальной переменной, заменим строковые значения на числовые. После преобразования создаем новые датафреймы.
X$Rooms[X$Rooms=="1 (studiya)" | X$Rooms=="1 (studiya)" ]<- 1
X$Rooms<-as.numeric(X$Rooms)
## Warning: в результате преобразования созданы NA
X_num=data.frame(X[,sapply(X, is.numeric)])
X_nominal=data.frame(X[,sapply(X, is.character)])
head(X_num)
## Dist_metro_ad Rooms Price Area_total Area_living Area_kitchen Floor Latitude
## 1 2800 2 30000 72 37 11 9 60.03248
## 2 1520 1 20000 NA 32 17 NA NA
## 3 660 1 20000 48 20 9 4 60.01157
## 4 1910 2 22000 46 29 8 6 60.05118
## 5 190 2 35000 67 37 8 4 59.92867
## 6 10 2 65000 65 46 10 2 59.92810
## Longitude Year_construction
## 1 30.24363 NA
## 2 NA NA
## 3 30.26933 NA
## 4 30.36699 NA
## 5 30.31940 1930
## 6 30.32548 NA
head(X_nominal)
## Date_entry Region District_ad
## 1 2016-01-27 gorod Sankt-Peterburg Приморский
## 2 2016-05-31 Leningradskaya oblast' Всеволожский
## 3 2017-04-10 gorod Sankt-Peterburg Приморский
## 4 2017-02-20 gorod Sankt-Peterburg Выборгский
## 5 2016-08-16 gorod Sankt-Peterburg Адмиралтейский
## 6 2017-07-23 gorod Sankt-Peterburg Центральный
## Address Metro Minimum_duration
## 1 Королева пр., 63к1 Komendantskii pr. 11 mes.
## 2 р-н Кудрово дер. Областная ул., 1 Dybenko ul.
## 3 Маршала Новикова ул., 7 Komendantskii pr. 11 mes.
## 4 Сиреневый бул., 22/26 Prosveshcheniya pr. 11 mes.
## 5 Спасский пер., 10 Sadovaya 12 mes.
## 6 Апраксин пер., 7 Sennaya pl. 11 mes.
## No_agents Building NFloor Lift Furnished Bath Refurbished
## 1 Kirpichnyi 22 Net
## 2 Monolit kv.m. Net Est' Otdel'naya
## 3 137 seriya 12 Est'
## 4 Monol.Panel'nyi 9 Est'
## 5 Da Staryi fond 5 Net Sbornaya Sovr. Otdel'naya Evrostandart
## 6 Kirpichnyi 3 Est' Sbor.+kuh.garn.
## Balcony
## 1 Balkon
## 2 est'
## 3
## 4 Balkon
## 5
## 6
Начинаем обработку данных с основных статистических показателей.
##
## Please cite as:
## Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
## R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
describe(X_num)
## vars n mean sd median trimmed mad
## Dist_metro_ad 1 2912 1478.32 2836.75 800.00 932.05 815.43
## Rooms 2 2893 1.88 0.96 2.00 1.77 1.48
## Price 3 3000 43619.47 43751.31 30000.00 34628.04 14826.00
## Area_total 4 2860 61.53 37.93 50.00 54.78 22.24
## Area_living 5 2962 37.50 66.41 30.00 31.70 17.79
## Area_kitchen 6 2678 13.36 11.87 10.00 11.17 2.97
## Floor 7 2875 6.78 4.93 5.00 6.08 4.45
## Latitude 8 2525 59.94 0.07 59.94 59.94 0.08
## Longitude 9 2525 30.33 0.09 30.33 30.33 0.07
## Year_construction 10 355 1999.46 24.63 2010.00 2004.27 7.41
## min max range skew kurtosis se
## Dist_metro_ad 0.00 40250.00 40250.00 6.21 52.46 52.57
## Rooms 1.00 9.00 8.00 1.17 2.38 0.02
## Price 2.00 508801.00 508799.00 4.49 29.52 798.79
## Area_total 15.00 500.00 485.00 3.30 20.00 0.71
## Area_living 1.00 3362.00 3361.00 42.54 2117.41 1.22
## Area_kitchen 1.00 200.00 199.00 5.95 62.09 0.23
## Floor 1.00 32.00 31.00 1.27 1.35 0.09
## Latitude 59.57 60.70 1.14 0.30 5.51 0.00
## Longitude 28.77 30.66 1.89 -2.11 40.68 0.00
## Year_construction 1838.00 2017.00 179.00 -2.61 9.32 1.31
summary(X_num)
## Dist_metro_ad Rooms Price Area_total
## Min. : 0 Min. :1.000 Min. : 2 Min. : 15.00
## 1st Qu.: 320 1st Qu.:1.000 1st Qu.: 21000 1st Qu.: 38.00
## Median : 800 Median :2.000 Median : 30000 Median : 50.00
## Mean : 1478 Mean :1.885 Mean : 43620 Mean : 61.53
## 3rd Qu.: 1500 3rd Qu.:2.000 3rd Qu.: 50000 3rd Qu.: 70.00
## Max. :40250 Max. :9.000 Max. :508801 Max. :500.00
## NA's :88 NA's :107 NA's :140
## Area_living Area_kitchen Floor Latitude
## Min. : 1.00 Min. : 1.00 Min. : 1.000 Min. :59.57
## 1st Qu.: 19.00 1st Qu.: 8.00 1st Qu.: 3.000 1st Qu.:59.88
## Median : 30.00 Median : 10.00 Median : 5.000 Median :59.94
## Mean : 37.50 Mean : 13.36 Mean : 6.784 Mean :59.94
## 3rd Qu.: 44.75 3rd Qu.: 14.00 3rd Qu.: 9.000 3rd Qu.:59.99
## Max. :3362.00 Max. :200.00 Max. :32.000 Max. :60.70
## NA's :38 NA's :322 NA's :125 NA's :475
## Longitude Year_construction
## Min. :28.77 Min. :1838
## 1st Qu.:30.28 1st Qu.:1994
## Median :30.33 Median :2010
## Mean :30.33 Mean :1999
## 3rd Qu.:30.38 3rd Qu.:2015
## Max. :30.66 Max. :2017
## NA's :475 NA's :2645
Построим ящиковые диаграммы для числовых данных:
boxplot(X_num$Dist_metro_ad, col="cyan4", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Расстояние до метро ", varwidth=F, horizontal=F, las=2)
Можно заметить, что количество выбросов велико и имеет достаточно большую разницу по сравнению с максимальным наблюдаемым значением, недалеко расположенным от основных значений. Медиана делит ящик практически в равных пропорциях, однако, длина усов довольно разнится, что говорит о наличии ассиметрии. Правосторонняя ассиметрия, больше количество выбросов, достигающих отметки в 40 тыс. метров, что свидетельствует о нахождении жилой площади в Ленинградской Области. Максимальное наблюдаемое значение не достигает и 5 тыс. метров.
boxplot(X_num$Rooms, col="indianred3", xlab="", ylab="",
main = "Ящиковая диаграмма для переменной \n Количество комнат ", varwidth=F, horizontal=F, las=2)
Данный график дает информацию о довольно-таки большой ассиметрии, так как медиана смещена к третьему квартилю, а линия, идущая к минимальному значению, отсутствует. Показатели выбросов разнятся с шагом 1, начиная с отметки в 4 комнаты и заканчивая 9-тью комнатами, однако их количество невелико по сравнению с основной массой.
boxplot(X_num$Price, col="green", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Цена аренды", varwidth=F, horizontal=F, las=2)
Наличие ассиметрии и большое количество выбросов, расположенных плотно по числовой прямой. Медианное значение смещено к первому квартилю. Большинство выбросов сосредоточено к наблюдаемому максимуму.
boxplot(X_num$Area_total, X_num$Area_living, X_num$Area_kitchen, col=c("blue", "purple","orange"), xlab="", ylab="", main = "Диаграммы для переменных \n Площадь(общая, жилая, кухни)", varwidth=F, horizontal=F, las=2)
Рассматривая графики, сделанные на основе данных по площадям квартир, можно сказать о наличии небольшой ассиметрии, так как линия, идущая к максимуму длиннее той, что идет к минимуму. Общая площадь больше жилой площади и площади кухни, поэтому можно предположить, что большинство построек подразумевало наличие кухни, хоть и маленькой, так как основная масса значений сконцентрирована в нижней части вертикальной оси. Наблюдается выбросовое значение в случае с жилой площадью, значительно отличающееся от максимума.
boxplot(X_num$Floor, col="olivedrab3", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Этаж", varwidth=F, horizontal=F, las=2)
Правосторонняя ассиметрия, значительная разница между расстояниями от наблюдаемого минимума и первого квартиля и третьего квартиля и наблюдаемого максимума. Большое количество выбросов до значения 26, далее несколько выбросов наблюдается на значениях в диапазоне от 29 до 32.
boxplot(X_num$Latitude,X_num$Longitude, col=c("steelblue","aliceblue"), xlab="", ylab="", main = "Ящиковые диаграммы для переменных \n Широта и долгота", varwidth=F, horizontal=F, las=2)
Можно сказать о минимальной ассиметрии и незначительном количестве выбросов, так как рассматриваем один географический диапазон. Больший размах в данных по долготе из-за специфики расположения Санкт-Петербурга.
boxplot(X_num$Year_construction, col="violet", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Год постройки", varwidth=F, horizontal=F, las=2)
Ярко выраженная левосторонняя ассиметрия. Медиана смещена к третьему квартилю, большой размах между выбросами и наблюдаемым минимумом. Наибольшая плотность выбросовых значение наблюдается до 1950 года, далее – достаточно рассеяны.
Для каждой переменной существует достаточное количество данных n, поэтому мы вполне можем рассуждать о наличии каких-либо тенденций. Анализируя показатели коэффициента ассиметрии, можно заметить, что наибольшая ассиметричность наблюдается в случае следующих переменных: жилая площадь, площадь кухни, цена, расстояние до ближайшей станции метро, общая площадь. Следовательно, в этой ситуации средняя величина подвержена большему влиянию выбросов, поэтому медианные значения будут более точными из-за их близкого расположения к пику распределения по сравнению со средними. О неоднородности и рассеянии имеющихся данных также свидетельствуют: 1) большой показатель размаха; 2) значительная разница между верхним и нижним квартилем; 3) среднее значение выше значения медианы из-за его сдвига в сторону аномальных и редких значений, значит мы имеем дело с правосторонней ассиметрией; 4) положительный коэффициент эксцесса указывает на островершинное распределение 5) в случае с расстоянием до метро и ценой можем заметить большое значение среднеквадратичного отклонения.
Вторая группа данных по переменным количество комнат, этаж, географическая широта, географическая долгота, год постройки, отличается большей симметричностью, меньшим размахом. В случае с шириной и долготой наблюдается распределение с невысокими отклонениями от среднего значения и маленькой разницей между квартилями. Это объясняется тем, что вся совокупность данных соответствует одному географическому региону. Значения коэффициента ассиметрии для долготы и года постройки отрицательны, значит имеется несколько экстремальных величин, меньше среднего значения. Это объясняется тем, что здания были построены преимущественно до 2000-х, а также имеется ряд уклоняющихся от нормы значений, например, минимум равный 1838 году постройки, и в выборке был ряд зданий, расположенных западнее остальных. Анализируя переменные комнаты и этаж, можно заметить, что максимальное значение выбивается из диапазона средних значений и равно 9 и 32 соответственно. В случае с комнатами разница между первым и третьим квартилем равняется единице, что означает, что большое количество комнат присутствует лишь в 25% случаев. Тогда как, наибольшая заселенность отмечается до 9 этажа. Это объясняется преобладанием домов раннего года постройки, когда акцент был на малоэтажных постройках.
X_nominal$Lift<- as.factor(X_nominal$Lift)
X_nominal$Furnished <- as.factor(X_nominal$Furnished)
X_nominal$Bath<- as.factor(X_nominal$Bath)
X_nominal$Refurbished<- as.factor(X_nominal$Refurbished)
X_nominal$District_ad<- as.factor(X_nominal$District_ad)
X_nominal$Minimum_duration<- as.factor(X_nominal$Minimum_duration)
X_nominal$Region<- as.factor(X_nominal$Region)
X_nominal$Balcony<- as.factor(X_nominal$Balcony)
X_nominal$No_agents<- as.factor(X_nominal$No_agents)
X_nominal <- X_nominal[ , -c(1,4,5,8,9)]
summary(X_nominal)
## Region District_ad Minimum_duration No_agents
## gorod Sankt-Peterburg :2862 Центральный : 359 11 mes.:1595 :2587
## Leningradskaya oblast': 138 Приморский : 325 : 876 Da: 413
## Московский : 309 12 mes.: 213
## Выборгский : 282 6 mes. : 115
## Петроградский: 258 1 mes. : 83
## Калининский : 236 10 mes.: 42
## (Other) :1231 (Other): 76
## Lift Furnished Bath Refurbished
## : 125 :872 :1541 :1227
## Est':1742 Sbornaya Sovr. :815 Otdel'naya : 830 Evrostandart : 924
## Net :1133 Sbor.+kuh.garn.:584 Sovmeshchennaya: 425 Proizveden : 611
## Garnitur Sovr. :313 Est' : 115 Ne trebuetsya: 184
## Net :114 Dush : 43 Otdel'naya : 28
## Minimum : 95 Prodol'naya : 19 Trebuetsya : 14
## (Other) :207 (Other) : 27 (Other) : 12
## Balcony
## :1019
## Balkon : 779
## Lodjiya : 372
## Net : 327
## Zasteklennaya lodjiya: 234
## est' : 121
## (Other) : 148
По результатам выборки большинство людей проживают в Санкт-Петербурге, тогда как в Ленинградской области значительно меньшее количество наблюдений. Самыми популярными оказались районы Центральный, Приморский и Московский. Чаще всего люди снимают квартиру на срок 11 месяцев, не используя при этом посредников. Говоря об оснащенности дома и квартиры, можно заметить, что чаще выбирают дома с лифтом, квартиры мебелированные, с наличием отдельной ванной комнаты, евроремонтом, балконом.
Большое количество данных с пропусками.
В качестве интересных особенностей можно отметить разную формулировку по определенным разделам номинальных данных, которая впоследствии влияет на статистику и выбор человека. Так, например, в случае с наличием ремонта вариант «не требуется» соответствует меньшему количеству значений по сравнению с вариантами «евростандарт» и «произведен», что по сути одно и то же и означает наличие ремонта.
Такую же закономерность можно выделить, говоря о наличии ванной комнаты с вариантами «продольная», «большой», «поперечная», тогда как это чаще всего входит в понятие «отдельная».
Для того, чтобы сделать анализ более точным, мы решили почистить данные: в числовых данных убрали выбросовые значения, также заменили текстовые значения на пропуски, так как они нам не дают информации о значениях. Переменную Цена изменили только по нижней границе, так как на данный момент на сайтах сдачи Жилья действительно сдаются квартиры стоимостью более 500 тысяч в месяц. Для чистки использовали личный опыт и данные сети Интернет. В номинальных данных объединили значения с общим смыслом в одно, стараясь минимизировать количество категорий.
data_numeric_clean = X_num %>%
filter(Area_living > 3,
Area_living < 3362,
Dist_metro_ad > 50,
Dist_metro_ad < 20000,
Price > 8000,
Area_total > 5,
Area_living > 5, Area_living < 2500,
Area_kitchen >5)
X_num<-data_numeric_clean
newX_nom_clean = X_nominal %>%
filter(Minimum_duration != "11000 mes.",
Minimum_duration != "2500 mes.",
Bath != "V koridore",
Bath != "Sidyachaya",
Bath != "Prodol'naya",
Bath != "Poperechnaya",
Bath != "Bol'shoi",
Refurbished != "Trebuetsya",
Refurbished != "Sovmeshchennaya",
Refurbished != "Dush",
Refurbished != "Prodol'naya")
newX_nom_clean$Bath <- droplevels(newX_nom_clean$Bath)
newX_nom_clean$Refurbished <- droplevels(newX_nom_clean$Refurbished)
newX_nom_clean$Minimum_duration <- droplevels(newX_nom_clean$Minimum_duration)
X_nominal <-newX_nom_clean
summary(X_nominal)
## Region District_ad Minimum_duration No_agents
## gorod Sankt-Peterburg :2798 Центральный : 354 11 mes.:1552 :2529
## Leningradskaya oblast': 135 Приморский : 313 : 871 Da: 404
## Московский : 305 12 mes.: 208
## Выборгский : 276 6 mes. : 111
## Петроградский: 256 1 mes. : 79
## Калининский : 230 10 mes.: 40
## (Other) :1199 (Other): 72
## Lift Furnished Bath Refurbished
## : 111 :864 :1538 :1226
## Est':1705 Sbornaya Sovr. :806 Dush : 41 Evrostandart : 904
## Net :1117 Sbor.+kuh.garn.:576 Est' : 106 Ne trebuetsya: 179
## Garnitur Sovr. :298 Net : 3 Otdel'naya : 26
## Net :107 Otdel'naya : 822 Proizveden : 598
## Minimum : 91 Sovmeshchennaya: 423
## (Other) :191
## Balcony
## :1011
## Balkon : 765
## Lodjiya : 359
## Net : 321
## Zasteklennaya lodjiya: 227
## est' : 107
## (Other) : 143
Построим ящиковые диаграммы для числовых данных:
boxplot(X_num$Dist_metro_ad, col="cyan4", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Расстояние до метро ", varwidth=F, horizontal=F, las=2)
## Анализ Большая часть наблюдений находится в пределах 3000 метрах от метро. Однако сохраняется большое количество выбросовых значений. Это объясняется тем, что жилье в области находится далеко от метро.
boxplot(X_num$Rooms, col="indianred3", xlab="", ylab="",
main = "Ящиковая диаграмма для переменной \n Количество комнат ", varwidth=F, horizontal=F, las=2)
## Анализ
Существенные изменения не наблюдаются.
boxplot(X_num$Price, col="green", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Цена аренды", varwidth=F, horizontal=F, las=2)
## Анализ
Нижняя граница переменной была увеличена, что видно по диаграмме.
boxplot(X_num$Area_total, X_num$Area_living, X_num$Area_kitchen, col=c("blue", "purple","orange"), xlab="", ylab="", main = "Диаграммы для переменных \n Площадь(общая, жилая, кухни)", varwidth=F, horizontal=F, las=2)
## Анализ Благодаря чистке диаграмма стала точнее отображать статистическую картину.
boxplot(X_num$Floor, col="olivedrab3", xlab="", ylab="", main = "Ящиковая диаграмма для переменной Этаж", varwidth=F, horizontal=F, las=3)
boxplot(X_num$Latitude,X_num$Longitude, col=c("steelblue","aliceblue"), xlab="", ylab="", main = "Ящиковые диаграммы для переменных \n Широта и долгота", varwidth=F, horizontal=F, las=2)
## Анализ
Существенные изменения после чистки не наблюдаются.
boxplot(X_num$Year_construction, col="violet", xlab="", ylab="", main = "Ящиковая диаграмма для переменной \n Год постройки", varwidth=F, horizontal=F, las=2)
Существенные изменения после чистки не наблюдаются.
par(mar=c(7,5,5,2), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Region, lwd=5, col="red2", xlab="Регион квартир", ylab="Количество квартир ", main = "Количество квартир\n в разных регионах\n Санкт-Петербурга", horiz=F)
Наибольшее количество из наблюдаемых квартир находится в Санкт-Петербурге, в то время как остальные составляют лишь 5% от квартир в городе.
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.5)
plot(X_nominal$District_ad, lwd=5, col="blue", xlab="Районы Петербурга", ylab="Количество квартир ", main = "Количество квартир \n в разных районах города", horiz=F, las=3)
Наибольшее количество квартир расположено в Центральном, Приморском, Московском и Выборгском районах, тогда как наименьшее – в Гатчинском, Колпинском, Кронштадтском, Приозерском, Тосненском.
par(mar=c(6,4,4,2), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Minimum_duration, lwd=5, col="green", xlab="Минимальный период", ylab="Количество упоминаний", main = "Минимальная длительность \n снятия квартир", horiz=F, las=3)
Наибольшее количество упоминаний соответствует периоду длиной 11 месяцев
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$No_agents, lwd=5, col="pink", xlab="Сдача квартиры с посредником или без", ylab="Количество ответов", main = "Проходила ли сдача \n квартиры с посредником", horiz=F)
Большинство отдает предпочтение сдаче квартиры без посредника.
par(mar=c(5,4,4,2), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Lift, lwd=5, col="grey", xlab="Наличие лифтов в доме", ylab="Количество упоминаний", main = "Наличие лифта в доме \n при снятии квартиры", horiz=F)
В большинстве выбранных домов имеется лифт.
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Furnished, lwd=5, col="orange", xlab="Тип отделки в картире", ylab="Количество видов отделки квартиры ", main = "Наличие в доме разных\n видов отделки квартиры", horiz=F, las=3)
Наибольшее количество наблюдений соответствует помещениям, обставленным современной мебелью, далее идет переменная с мебелью и кухонным гарнитуром. Наименьшее предпочтение отдается квартире с мебелью 70-80-х годов.
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Bath, lwd=5, col="purple", xlab="Наличие ванной комнаты в картире", ylab="Количество ответов", main = "Наличие ванных комнат\n в квартирах", horiz=F, las=3)
Большинство людей отдает предпочтение наличию отдельной ванной комнаты в квартире, тогда как такие варианты, как отсутствие ванной комнаты, ванная комната в коридоре, сидячая ванная наименее популярны.
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Refurbished, lwd=5, col="red", xlab="Виды переоборудованных комнат", ylab="Количество переоборудованных комнат", main = "Наличие переоборудованных \n комнат в квартирах", horiz=F, las=3)
Предпочтительны квартиры с евроремонтом или с произведенным ремонтом.
par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Balcony, lwd=5, col="blue", xlab="Наличие балкона или его отсутсвие", ylab="Количество ответов", main = "Наличие балконов \nв квартирах", horiz=F, las=3)
Наиболее популярные варианты – наличие балкона, лоджия, отсутствие балкона, застекленная лоджия. Меньше всего предпочтений отдают наличию нескольких балконов.
hist(X_num$Dist_metro_ad, xlab = "Расстояние до ближайшей станции метро, в метрах", ylab = "Число наблюдений", cex.lab = 0.8, main = "Гистограмма распределения расстояния до ближайшей станции метро", cex.main = 0.8, col = "cyan4", ylim = c(0,3000), xlim = c(0,50000), cex.axis = 0.8, las = 1)
na.omit(X_num$Dist_metro_ad)
## [1] 2800 660 1910 190 530 750 490 1990 500 13170 390 2050
## [13] 1400 440 280 310 910 1490 990 4050 3030 1630 1110 690
## [25] 380 240 3330 1420 1100 90 610 90 2990 2700 320 490
## [37] 1310 110 1170 730 1500 80 520 1100 1270 60 570 1420
## [49] 4630 4280 70 3040 1190 950 2310 630 2340 240 310 240
## [61] 160 7250 490 90 90 13130 850 80 680 540 200 1130
## [73] 110 500 420 700 330 1690 60 830 210 840 650 1160
## [85] 5440 900 80 1650 620 1060 1920 60 820 230 3260 1240
## [97] 960 230 1250 660 150 1470 850 730 1590 650 1710 2050
## [109] 830 5380 850 60 660 1190 600 1280 2670 460 160 370
## [121] 440 230 1740 1870 1030 280 2350 2760 380 770 130 470
## [133] 17040 1280 1770 940 1070 1920 1270 870 4930 3420 760 80
## [145] 970 830 470 2290 640 2130 2380 200 140 1060 480 710
## [157] 870 960 950 900 410 70 1130 320 1520 2750 1520 3940
## [169] 1270 2470 770 580 60 1020 120 1020 80 1400 400 380
## [181] 80 70 5540 90 570 480 1070 2330 230 650 2260 80
## [193] 70 590 1160 1660 1420 1880 4470 460 570 1150 460 1210
## [205] 960 790 3940 320 3730 2840 1230 470 720 1560 230 1360
## [217] 1100 910 1090 1710 160 3470 1770 60 1480 90 220 2220
## [229] 990 1360 1540 510 2970 780 310 500 1080 1400 2980 2160
## [241] 390 1690 880 2200 330 1190 1100 2090 660 140 580 1280
## [253] 730 700 4030 740 2030 17060 1060 70 80 220 1610 3580
## [265] 1560 1350 420 2010 470 990 680 6540 2180 1380 710 280
## [277] 1060 1310 1740 960 730 1160 1040 180 650 70 400 1800
## [289] 250 160 980 7260 1450 2270 580 950 3590 670 710 300
## [301] 900 1070 3080 1050 390 190 220 460 1860 810 500 870
## [313] 260 1380 3530 130 1700 710 460 4350 1660 1230 1050 8850
## [325] 70 6290 350 1630 360 3850 2990 1060 650 340 1010 2380
## [337] 360 3310 1160 1280 170 420 1300 1030 1160 1100 410 1650
## [349] 530 430 800 490 1540 7120 1710 3370 850 60 90 4010
## [361] 1150 690 1480 240 1640 1130 470 3840 460 15550 540 230
## [373] 1640 720 6780 900 2610 350 750 800 640 2880 720 180
## [385] 560 830 3280 1390 940 10850 510 3730 70 3140 420 100
## [397] 3120 840 510 470 4630 510 440 1200 190 80 2290 790
## [409] 510 1060 810 3530 380 1290 1190 640 540 380 1670 260
## [421] 2790 1370 1080 4040 90 90 2580 1940 1730 870 4620 2430
## [433] 580 1060 2770 260 80 710 1740 1400 1050 1110 1070 2070
## [445] 490 640 250 2700 1080 1060 410 1300 180 14380 4610 100
## [457] 180 540 350 190 1000 1970 60 410 470 1430 350 1210
## [469] 10850 1050 340 2890 1400 1790 320 1250 570 310 870 690
## [481] 670 1020 390 2090 1120 220 340 8780 690 880 1440 2630
## [493] 1530 640 90 750 390 1010 680 560 690 570 9700 620
## [505] 350 450 830 2270 350 1710 1530 2840 740 6100 700 1640
## [517] 720 220 4200 650 2100 120 480 520 1070 900 2150 660
## [529] 800 620 140 1430 510 4360 1830 480 350 1080 690 820
## [541] 560 1980 400 90 1160 1740 60 2100 840 1040 1060 620
## [553] 1890 1110 380 6360 740 270 210 760 5740 3410 1130 1010
## [565] 720 770 1450 360 180 1110 3200 70 2040 2170 360 1560
## [577] 2440 1050 1230 3500 1020 880 90 960 1250 1740 170 850
## [589] 880 690 1290 4520 470 1570 1070 440 3400 1030 2570 7530
## [601] 550 13790 1070 540 1530 1680 370 1150 110 3340 1940 3650
## [613] 670 1650 1470 670 360 770 570 560 2840 1520 5220 190
## [625] 440 580 630 2020 1040 810 1240 250 1100 260 390 1500
## [637] 870 1480 310 230 320 380 1960 260 15970 110 290 10720
## [649] 420 1430 2270 14260 150 90 820 640 850 400 60 360
## [661] 1560 2730 330 920 310 240 90 640 1200 280 3210 200
## [673] 17550 90 260 130 550 670 400 310 1050 200 90 1200
## [685] 2470 1610 700 1630 3940 90 400 990 1250 1590 980 740
## [697] 530 940 500 70 510 60 1580 2320 1140 610 1050 620
## [709] 3270 13300 4010 1110 440 680 850 1650 930 1070 2360 1530
## [721] 2830 1740 1220 880 1180 390 3780 1690 530 380 490 660
## [733] 960 320 970 410 1110 660 610 2570 1000 260 840 1140
## [745] 90 2850 2720 910 2060 1010 860 990 800 1120 890 420
## [757] 180 1200 260 220 4550 940 80 2570 240 3390 70 640
## [769] 70 3300 230 1120 1540 510 2190 370 1550 1030 430 450
## [781] 270 70 1990 650 410 90 1260 1140 90 460 170 760
## [793] 1270 440 1030 670 2910 800 700 2090 160 560 1360 60
## [805] 250 3480 80 1550 160 70 710 1140 1370 110 670 1790
## [817] 140 570 2190 1050 300 610 1190 70 1120 1390 6880 630
## [829] 290 3120 320 4860 240 940 110 760 830 1070 740 910
## [841] 550 1140 370 2540 800 420 1900 1230 1070 530 570 1490
## [853] 2100 2700 860 790 1550 810 480 90 140 520 1850 4520
## [865] 580 960 460 70 860 1000 390 1230 1210 620 250 900
## [877] 860 910 740 1610 2530 3320 810 1260 440 450 1490 220
## [889] 260 390 60 4200 110 270 2930 510 280 4000 710 550
## [901] 1920 200 2990 620 1390 860 600 310 3030 1520 1070 810
## [913] 190 2980 350 1710 870 690 1570 1330 1000 1020 910 60
## [925] 1250 1380 610 680 280 1590 220 430 1100 900 1080 830
## [937] 2050 1740 730 2520 80 90 650 610 2060 540 1560 3410
## [949] 2450 1450 60 950 1850 380 830 970 790 1080 1340 710
## [961] 2950 1320 310 650 540 490 3240 60 1080 1350 2270 350
## [973] 1190 590 2520 670 2150 90 360 760 5320 17560 10930 2500
## [985] 3400 900 450 1450 1380 60 2750 1040 90 850 1170 990
## [997] 180 540 170 70 410 1710 1560 110 730 530 1210 2560
## [1009] 1390 510 70 710 990 560 1400 970 1030 3180 2280 3330
## [1021] 80 960 1230 3080 1030 990 220 1090 330 430 8000 5320
## [1033] 380 900 1380 320 510 1420 190 970 1530 220 920 3060
## [1045] 860 750 1200 940 630 1420 90 950 80 1040 1760 1890
## [1057] 2650 1030 590 1750 2720 880 860 2900 2220 1140 230 4860
## [1069] 1300 180 1900 1910 320 3050 330 1510 300 1690 940 690
## [1081] 680 1210 200 720 210 70 1850 6360 600 6000 1850 1790
## [1093] 4180 450 3070 6710 720 610 2410 80 460 3000 550 5300
## [1105] 2880 1110 630 330 1650 1330 1470 80 1210 350 820 70
## [1117] 150 640 1860 920 910 370 1740 700 960 490 570 640
## [1129] 470 420 760 2220 960 2270 6290 1770 2770 60 1220 6960
## [1141] 1750 630 1110 1250 810 2100 1020 380 1860 200 3640 80
## [1153] 800 1650 930 660 10150 80 200 70 200 90 80 3230
## [1165] 870 510 90 430 390 70 200 840 810 640 780 1300
## [1177] 300 2580 6390 1050 1080 1260 450 90 210 8920 1070 8120
## [1189] 450 650 1930 3530 3310 660 2160 220 4700 680 1210 1610
## [1201] 2180 540 570 90 140 2070 270 540 860 810 390 1320
## [1213] 250 11360 1000 1420 1930 450 260 1100 90 590 70 4980
## [1225] 1250 1360 1800 350 3010 90 150 1570 510 1290 500 610
## [1237] 990 2160 2350 130 1110 1130 2590 200 1900 1630 1100 1150
## [1249] 240 110 790 850 1200 1970 90 650 1500 2010 1030 2280
## [1261] 280 1250 600 4200 690 800 1940 13130 260 480 800 1000
## [1273] 210 1230 1040 1880 700 1790 800 570 620 850 1790 70
## [1285] 420 1220 1540 4210 680 830 2050 2980 60 150 980 80
## [1297] 460 830 1270 2540 600 1480 1330 110 11080 2220 3260 860
## [1309] 810 740 2020 590 480 2220 4200 1610 1330 2660 2000 1380
## [1321] 2980 680 60 1140 2160 940 560 170 2200 520 1120 1660
## [1333] 1610 6790 580 760 2220 1420 260 300 490 600 1380 60
## [1345] 320 940 320 730 460 2730 3130 560 2400 810 280 700
## [1357] 810 250 910 450 340 610 8080 1180 1020 430 730 1380
## [1369] 690 2930 520 2350 2320 1080 880 650 240 2050 1780 90
## [1381] 570 60 340 240 2580 1480 690 540 540 3890 2900 1190
## [1393] 1370 280 14450 800 570 13290 320 770 150 1370 90 540
## [1405] 360 80 750 920 1050 500 7910 1070 2600 760 1850 690
## [1417] 630 1710 80 1330 790 2990 1630 2930 1740 1510 5190 3520
## [1429] 6360 1260 680 470 480 1360 400 1230 70 1010 1070 18510
## [1441] 930 6000 730 1220 1670 5320 1400 2820 1970 510 2200 710
## [1453] 270 1580 340 3100 700 650 770 1670 100 1240 640 750
## [1465] 1740 810 340 930 800 480 470 470 890 1230 890 690
## [1477] 660 2300 3110 1060 410 590 980 1520 700 1550 2370 1030
## [1489] 6360 320 1500 860 1390 2650 2090 550 150 570 790 1600
## [1501] 1080 16890 320 1650 1220 1150 290 970 1170 540 1010 380
## [1513] 1150 520 100 2980 5930 1010 300 3850 1360 1110 1140 1010
## [1525] 110 1370 1180 840 340 590 830 550 3650 2370 560 280
## [1537] 2020 80 1030 2090 970 900 620 90 1200 1940 1430 160
## [1549] 430 680 580 930 960 300 1180 380 110 1040 1250 1090
## [1561] 2050 820 580 1230 13820 950 290 570 2980 640 1860 820
## [1573] 6130 3950 410 2270 1920 500 1580 460 840 1110 2000 270
## [1585] 2160 970 180 570 2110 1270 1370 180 1220 650 4330 2180
## [1597] 130 870 960 740 1020 4980 750 790 1360 870 2870 800
## [1609] 890 80 2100 120 410 260 250 1060 1020 870 610 60
## [1621] 2740 760 870 14070 3330 240 1160 900 70 310 1610 2810
## [1633] 3480 410 1030 70 1000 2220 980 90 1410 1050 780 90
## [1645] 900 950 1200 80 90 2170 70 820 2800 1390 790 60
## [1657] 690 380 830 570 240 640 70 950 1380 360 420 1070
## [1669] 5490 240 480 610 290 200 370 5510 4060 70 500 1470
## [1681] 1140 850 660 580 3330 750 1180 14970 410 1700 1500 650
## [1693] 970 950 1670 90 840 1250 750 2880 1220 80 4290 1370
## [1705] 1050 4140 480 720 90 1000 510 2350 3900 4410 4620 290
## [1717] 480 560 2030 510 1710 570 2070 410 1370 80 1040 1150
## [1729] 1530 440 320 770 970 2220 1110 330 710 70 1140 2100
## [1741] 660 5540 340 3740 1000 10810 1120 960 1680 1990 470 900
## [1753] 3050 180 14540 2540 280 2990 400 630 14850 2130 360 1300
## [1765] 2930 1020 1280 1070 15040 1330 5110 80 1880 1060 970 70
## [1777] 310 2240 1150 1390 900 3410 80 3400 710 1070 760 690
## [1789] 720 1690 12890 1370 1800 80 390 820 90 1380 80 150
## [1801] 260 600 110 2410 110 680 990 1550 1190 180 820 1220
## [1813] 1130 580 550 2380 280 570 6130 15900 470 400 980 370
## [1825] 610 140 17990 8120 1430 6530 1030 460 1060 400 350 640
## [1837] 420 700 1220 280 900 1080 590 380 660 10900 580 1260
## [1849] 800 4280 650 180 2920 5580 3940 2050 2100 1140 1250 1540
## [1861] 510 930 810 920 230 380 70 2930 60 90 1780 1000
## [1873] 1530 570 800 1120 660 1540 170 150 1850 730 2880 6490
## [1885] 2570 320 310 1150 2220 90 1590 1300 270 16580 1230 3300
## [1897] 980 80 1040 550 360 80 320 320 430 1680 730 2470
## [1909] 2560 930 850 400 1090 690 7410 3150 2880 400 250 850
## [1921] 870 860 140 60 230 280 1130 900 2480 950 2120 12910
## [1933] 560 560 260 830 320 1000 3040 2520 4470 2880 860 800
## [1945] 170 1470 80 2900 180 1220 1210 70 510 11480 810 4020
## [1957] 1070 190 1470 1060 3330 600 580 2520 1750 5010 710 550
## [1969] 1140 1140 6360 260 380 3540 270 690 60 1060 60 2080
## [1981] 1430 440 370 210 900 1270 1640 5180 920 1070 720 900
## [1993] 1060 70 4560 910 1250 2070 1690 3530 910 240 450 740
## [2005] 3200 2710 2290 3310 1360 460 3350 1000 260 540 3010 1410
## [2017] 1550 1110 530 830 900 370 720 1010 110 90 1200 1220
## [2029] 390 250 550 1360 540 190 830 1000 160 610 610 1350
## [2041] 900 1700 6120 250 380 210 80 230 11360 690 1390 1710
## [2053] 1170 690 490 470 3370 410 2900 110 540 2700 1410 3500
## [2065] 330 460 240 1060 850 1070 2270 170 1980 80 2490 310
## [2077] 880 1050 2050 190 490 970 480 200 1520 760 2440 1610
## [2089] 250 570 450 1930 340 18180 1330 2110 2240 2650 670 90
## [2101] 3170 3250 11390 620 460 1780 560 580 930 1740 2330 1330
## [2113] 840 4080 530 610 120 90 90 5900 1180 70 4810 660
## [2125] 2100 4410 2560 500 1320 610
options(scipen = 99999)
par(mar = c(5,4,4,2))
plot(density(X_num$Dist_metro_ad, na.rm = TRUE), las = 1, cex.axis = 0.7, xlab = "Расстояние до ближайшей станции метро, в метрах", ylab = "Вероятность", lwd = 3, col = "cyan4", main = "Эмпирическая плотность распределения расстояния до ближайшей станции метро", cex.main = 0.78, cex.lab = 0.7)
Наибольшее количество наблюдений заключено в диапазоне до 5000 метров до станции метро.
По плотности распределения можно сказать о статистических показателях, таких как правосторонняя ассиметрия, положительный коэффициент эксцесса, так как график островершинный, значительных размах данных. Основная масса данных распределена в пределах до 10000 метров.
hist(X_num$Rooms, xlab = "Количество комнат", ylab = "Число наблюдений", ylim = c(0,1400), xlim = c(1,13), cex.main = 0.95, las = 1, cex.lab = 0.9, cex.axis = 0.9, main = "Гистограмма числа комнат в арендуемых квартирах", col = "red")
plot(density(X_num$Rooms, na.rm = TRUE), xlab = "Количество комнат", ylab = "Вероятность", cex.main = 0.78, las = 1, col = "red", main = "Эмпирическая плотность распределения числа комнат в арендуемых квартирах", lwd = 3)
По гистограмме видно, что, в основном, люди снимают однокомнатные, либо двухкомнатные квартиры. Случаи снятия больших квартир довольно редки. Наибольшие значения распределены на отметках в 1, 2, 3 комнаты. Далее идут редкие значения. Правосторонняя ассиметрия.
hist(X_num$Price, xlab = "Цена", ylab = "Число наблюдений", ylim = c(0,2500), xlim = c(0,550000), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма цен на аренду жилья", col = "red")
options(scipen = 999999)
par(mar = c(4,5,3,5))
plot(density(X_num$Price), xlab = "Цена", ylab = "Вероятность", cex.main = 0.8, cex.axis = 0.8, cex.axis = 0.53, las = 1, col = "red", main = "Эмпирическая плотность распределения цен на аренду жилья", lwd = 3, cex.lab = 0.7)
Основная масса людей выбирает съем жилья до 100000.
Пик распределения плотности приходится на цену в примерный диапазон 30-40 тыс. рублей. Правосторонняя ассиметрия.
hist(X_num$Area_total, xlab = "Общая площадь", ylab = "Число наблюдений", cex.axis = 0.8, cex.lab = 0.8, las = 1, cex.axis = 0.9, main = "Гистограмма общей площади арендного жилья", col = "brown")
plot(density(X_num$Area_total, na.rm = TRUE), xlab = "Общая площадь", cex.axis = 0.7, cex.lab = 0.8, ylab = "Вероятность", las = 1, col = "brown", lwd = 2, main = "Эмпирическая плотность распределения общей площади арендных квартир", cex.main = 0.8)
Наиболее частые значения находятся в диапазоне до 100 кв.м. Функция принимает наибольшее значение в точке приблизительно равной 40 кв.м. Правосторонняя ассиметрия. Наблюдаемый максимум равен 200 кв.м.
hist(X_num$Area_living, xlab = "Жилая площадь", ylab = "Число наблюдений", cex.lab = 0.8, cex.axis = 0.8, las = 1, main = "Гистограмма жилой площади арендного жилья", col = "lightgreen")
plot(density(X_num$Area_living, na.rm = TRUE), xlab = "Жилая площадь", cex.lab = 0.8, cex.axis = 0.8, ylab = "Вероятность", las = 1, col = "lightgreen", lwd = 2, main = "Эмпирическая плотность распределения жилой площади арендного жилья", cex.main = 0.8)
Наибольшая масса людей выбирает жилую площадь до 200 кв.м. Пик приходится приблизительно на 50 кв.м.
hist(X_num$Area_kitchen, xlab = "Кухонные площади", ylab = "Число наблюдений", cex.lab = 0.8, las = 1, cex.axis = 0.9, main = "Гистограмма кухонных площадей арендного жилья", col = "pink")
plot(density(X_num$Area_kitchen, na.rm = TRUE), xlab = "Кухонные площади", cex.axis = 0.8, ylab = "Вероятность", las = 1, col = "pink", lwd = 2, main = "Эмпирическая плотность распределения кухонных площадей арендного жилья", cex.main = 0.8)
Большее предпочтение отдается кухням до 20 кв.м., тогда как максимальная плоащдь достигает 100 кв.м. Пик плотности распределения приходится на кухни площадью 20 кв.м.
hist(X_num$Floor, xlab = "Этаж", ylab = "Число наблюдений", ylim = c(0,800), las = 1, cex.axis = 0.8, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма количества этажей, на которых расположены квартиры", col = "blue", cex.main = 0.8)
plot(density(X_num$Floor, na.rm = TRUE), xlab = "Этаж", ylab = "Вероятность", cex.axis = 0.8, cex.lab = 0.8, las = 1, col = "blue", lwd = 2, main = "Эмпирическая плотность распределения этажей, на которых расположены квартиры", cex.main = 0.75)
Наиболее популярными являются этажи с первого по десятый, тогда как с 26-ого по 28-ой нет данных, а наиболее высокий этаж – 32-ой. Пик распределения приходится на 4-ый этаж.
hist(X_num$Latitude, xlab = "Широта", ylab = "Число наблюдений", ylim = c(0,1400), xlim = c(59.4, 60.8), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма широт", col = "red")
plot(density(X_num$Latitude, na.rm = TRUE), xlab = "Широта", ylab = "Вероятность", las = 1, col = "red", lwd = 2, main = "Эмпирическая плотность распределения широт")
Основная масса показателей колеблется в диапазоне от 59.8 до 60.70, также присутствует аномальное значение меньше 59.8. Правосторонняя ассиметрия. Наибольшая плотность значений наблюдается в точке 59.94.
hist(X_num$Longitude, xlab = "Долгота", ylab = "Число наблюдений", xlim = c(28.5,31), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма долготы", col = "cyan4")
plot(density(X_num$Longitude, na.rm = TRUE), xlab = "Долгота", cex.axis = 0.8, cex.lab = 0.8, ylab = "Вероятность", las = 1, col = "cyan4", lwd = 2, main = "Эмпирическая плотность распределения долготы")
Значения колеблются от 28.77 до 30.66. Наибольшее количество наблюдений в диапазоне 30.33. Левосторонняя ассиметрия. Аномальные значения от 28.77 до 30.00. Основная масса значений сосредоточена в диапазоне от 30.00 до 30.05.
hist(X_num$Year_construction, xlab = "Год постройки жилья", xlim = c(1800,2050), ylab = "Число наблюдений", cex.lab = 0.8, cex.axis = 0.8, las = 1, lab = 1, main = "Гистограмма годов постройки жилья", col = "red")
plot(density(X$Year_construction, na.rm = TRUE), cex.lab = 0.8, cex.axis = 0.8, xlab = "Год постройки", ylab = "Вероятность", cex.main = 0.8, las = 1, col = "red", lwd = 2, main = "Эмпирическая плотность распределения годов постройки жилья", xlim = c(1830,2020), ylim = c(0,0.05))
Большинство построек было сооружено после 2000-х. Меньше всего квартир снимают в зданиях до 1950-х годов. Самыми популярными являются постройки примерно 2010 года, далее по популярности идут постройки 1970-х. Однако минимальное значение принадлежит 1835 году.
plot(data_numeric_clean$Price, data_numeric_clean$Rooms,xlab = "Цена ",ylab = "Комнаты", col = "chocolate",
cex = 0.8,)
Теперь попробуем отрисовать применив к цене десятичный логарифм
plot(log10(data_numeric_clean$Price), data_numeric_clean$Rooms, xlab = "Цена в десятичном логарифме", ylab = "Комнаты", col = "chocolate", cex = 0.8,)
Можно заметить что наш график раширился и данные по х выглядят более опрятно.
По графику можно заметить, что существует прямая связь между количеством комнат и стоимостью проживания. С ростом количества комнат постепенно растет и стоимость, хотя важно отметить наличие пересечений. Это может быть вызвано разными факторами, например, качество жилья и т.д. Также существуют и значения-выбросы, такие как цена за 3-х комнатную квартиру, равная цене за однокомнатную. Также и двухкомнатные квартиры могут достигать цен за квартиру с шестью комнатами. Таким образом, можно сделать
вывод, что количество комнат в квартире не самый главный показатель при установлении стоимости жилья. Существуют и другие, более важные факторы.
Посмотрим зависимость цены от полной площади.
plot(data_numeric_clean$Price, data_numeric_clean$Area_total, xlab = "Цена", ylab = "Общая площадь", col = "blue", cex = 1.2,)
По графику можно сказать, что квартиры до 150 кв.м. сдаются по цене до 100000 рублей. Наблюдается увеличение цены при бОльшей площади квартиры.
plot(data_numeric_clean$Price, data_numeric_clean$Floor,col = "orange", xlab = "Цена", ylab = "Этаж", cex = 1.2,)
В данном примере чтобы данные выглядели более опрятно, возьмем логарифм десятичный из Price(Цена).
plot(log10(data_numeric_clean$Price), data_numeric_clean$Floor, xlab = "Десятичный логарифм от Цены", ylab = "Этаж", col = "brown",
cex = 0.7)
По графику можем наблюдать, что у стоимости нет тенденции к особым колебаниям в зависимости от того, на каком этаже находится квартира. Однако, можно отметить, что цена выше среднего стоит только на квартирах с первого по 15-ый этаж. Основная масса сдающихся в аренду квартир стоимостью до 100 тыс.руб. расположена на этажах с первого по 32-ой. Также максимальная цена установлена на квартиры, расположенные на 4-6-ом этажах. Можно сделать вывод, что самые дорогие квартиры находятся не в многоэтажных постройках, в то время как средняя цена актуальна для любой постройки.
Создаем таблицу со значениями коэффицентов корреляции.
mat_1 <- as.dist(round(cor(data_numeric_clean, use = "complete.obs"),3))
mat_1
## Dist_metro_ad Rooms Price Area_total Area_living
## Rooms -0.054
## Price -0.098 0.549
## Area_total -0.088 0.784 0.854
## Area_living -0.065 0.782 0.881 0.948
## Area_kitchen -0.128 0.338 0.575 0.653 0.510
## Floor 0.051 -0.116 -0.100 -0.075 -0.110
## Latitude -0.107 -0.054 0.048 0.031 0.017
## Longitude -0.159 -0.165 -0.095 -0.118 -0.130
## Year_construction 0.100 -0.148 0.023 0.017 -0.047
## Area_kitchen Floor Latitude Longitude
## Rooms
## Price
## Area_total
## Area_living
## Area_kitchen
## Floor 0.011
## Latitude 0.062 0.134
## Longitude -0.065 0.005 0.027
## Year_construction 0.186 0.405 0.138 -0.028
library(GGally)
## Loading required package: ggplot2
##
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
##
## %+%, alpha
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggcorr(data_numeric_clean, nbreaks = 6,
low = "steelblue",
mid = "white",
high = "darkred",
label = TRUE,
label_size = 2)
Наблюдается сильная корреляция цены съёма и общей площади (0.8), а также общей площади и количества комнат, то есть с увеличением общей площади квартиры возрастает и цена за её аренду, и количество комнат в ней. Менее сильная корреляция наблюдается в количестве комнат и цены за аренду квартиры, а также жилой и кухонной площадей. Следовательно, с ростом количества комнат увеличивается жилая и кухонная площади и цена за квартиру. Затем можно заметить корреляцию между общей площадью и жилой, кухонной площадями, при этом корреляция с кухонной площадью выше. То есть при увеличении общей площади увеличивается площадь жилых и кухонных помещений, при этом размер кухни растёт быстрее, чем размер жилых помещений. Также стоит отметить корреляцию между этажом, где находится квартира, и годом постройки здания, что может быть интерпретировано как количество этажей в здании, зависящее от года постройки этого здания.