Мы загрузили файл с исходными данными и создали на его основе датафрейм X.

sFolder = "C:/Users/karya/Desktop/University/Prikladnayast/DZ1"
sInFile = "/SPb_dwellings_for_rent_EMLS_sample_6.csv"
sOutFile = "/Dwellings.pdf"
X = read.csv(paste(sFolder, sInFile, sep=""), dec = ",", sep = ";")

head(X)
##   Date_entry                 Region    District_ad
## 1 2016-01-27  gorod Sankt-Peterburg     Приморский
## 2 2016-05-31 Leningradskaya oblast'   Всеволожский
## 3 2017-04-10  gorod Sankt-Peterburg     Приморский
## 4 2017-02-20  gorod Sankt-Peterburg     Выборгский
## 5 2016-08-16  gorod Sankt-Peterburg Адмиралтейский
## 6 2017-07-23  gorod Sankt-Peterburg    Центральный
##                             Address               Metro Dist_metro_ad
## 1                Королева пр., 63к1   Komendantskii pr.          2800
## 2 р-н Кудрово дер. Областная ул., 1         Dybenko ul.          1520
## 3           Маршала Новикова ул., 7   Komendantskii pr.           660
## 4             Сиреневый бул., 22/26 Prosveshcheniya pr.          1910
## 5                 Спасский пер., 10            Sadovaya           190
## 6                  Апраксин пер., 7         Sennaya pl.            10
##         Rooms Price Minimum_duration No_agents        Building Area_total
## 1           2 30000          11 mes.                Kirpichnyi         72
## 2 1 (studiya) 20000                                    Monolit         NA
## 3           1 20000          11 mes.                137 seriya         48
## 4           2 22000          11 mes.           Monol.Panel'nyi         46
## 5           2 35000          12 mes.        Da     Staryi fond         67
## 6           2 65000          11 mes.                Kirpichnyi         65
##   Area_living Area_kitchen Floor NFloor Lift       Furnished       Bath
## 1          37           11     9     22  Net                           
## 2          32           17    NA  kv.m.                  Net       Est'
## 3          20            9     4     12 Est'                           
## 4          29            8     6      9 Est'                           
## 5          37            8     4      5  Net  Sbornaya Sovr. Otdel'naya
## 6          46           10     2      3 Est' Sbor.+kuh.garn.           
##    Refurbished Balcony Latitude Longitude Year_construction
## 1               Balkon 60.03248  30.24363                NA
## 2   Otdel'naya    est'       NA        NA                NA
## 3                      60.01157  30.26933                NA
## 4               Balkon 60.05118  30.36699                NA
## 5 Evrostandart         59.92867  30.31940              1930
## 6                      59.92810  30.32548                NA

Задание 1

Полученный датафрейм мы разделим на два: один с числовыми переменными,второй с номинальными. Для группировки данных по виду необходимо сначала узнать, в каком типе данных представлен каждый столбец и переформатировать некоторые столбцы в соответствии с необходимым типом.

str(X)
## 'data.frame':    3000 obs. of  24 variables:
##  $ Date_entry       : chr  "2016-01-27" "2016-05-31" "2017-04-10" "2017-02-20" ...
##  $ Region           : chr  "gorod Sankt-Peterburg" "Leningradskaya oblast'" "gorod Sankt-Peterburg" "gorod Sankt-Peterburg" ...
##  $ District_ad      : chr  "Приморский" "Всеволожский" "Приморский" "Выборгский" ...
##  $ Address          : chr  "Королева пр., 63к1" "р-н Кудрово дер. Областная ул., 1" "Маршала Новикова ул., 7" "Сиреневый бул., 22/26" ...
##  $ Metro            : chr  "Komendantskii pr." "Dybenko ul." "Komendantskii pr." "Prosveshcheniya pr." ...
##  $ Dist_metro_ad    : int  2800 1520 660 1910 190 10 530 630 750 1050 ...
##  $ Rooms            : chr  "2" "1 (studiya)" "1" "2" ...
##  $ Price            : num  30000 20000 20000 22000 35000 65000 48000 55000 26000 130000 ...
##  $ Minimum_duration : chr  "11 mes." "" "11 mes." "11 mes." ...
##  $ No_agents        : chr  "" "" "" "" ...
##  $ Building         : chr  "Kirpichnyi" "Monolit" "137 seriya" "Monol.Panel'nyi" ...
##  $ Area_total       : num  72 NA 48 46 67 65 64 85 44.3 NA ...
##  $ Area_living      : num  37 32 20 29 37 46 38 55 18 150 ...
##  $ Area_kitchen     : num  11 17 9 8 8 10 15 NA 10.3 115 ...
##  $ Floor            : int  9 NA 4 6 4 2 10 3 5 NA ...
##  $ NFloor           : chr  "22" " kv.m." "12" "9" ...
##  $ Lift             : chr  "Net" "" "Est'" "Est'" ...
##  $ Furnished        : chr  "" "Net" "" "" ...
##  $ Bath             : chr  "" "Est'" "" "" ...
##  $ Refurbished      : chr  "" "Otdel'naya" "" "" ...
##  $ Balcony          : chr  "Balkon" "est'" "" "Balkon" ...
##  $ Latitude         : num  60 NA 60 60.1 59.9 ...
##  $ Longitude        : num  30.2 NA 30.3 30.4 30.3 ...
##  $ Year_construction: int  NA NA NA NA 1930 NA NA NA NA NA ...

Переменная Количество комнат(Rooms) сейчас представлена в виде номинальной переменной, заменим строковые значения на числовые. После преобразования создаем новые датафреймы.

X$Rooms[X$Rooms=="1 (studiya)" | X$Rooms=="1 (studiya)" ]<- 1
X$Rooms<-as.numeric(X$Rooms)
## Warning: в результате преобразования созданы NA
X_num=data.frame(X[,sapply(X, is.numeric)])
X_nominal=data.frame(X[,sapply(X, is.character)])
head(X_num)
##   Dist_metro_ad Rooms Price Area_total Area_living Area_kitchen Floor Latitude
## 1          2800     2 30000         72          37           11     9 60.03248
## 2          1520     1 20000         NA          32           17    NA       NA
## 3           660     1 20000         48          20            9     4 60.01157
## 4          1910     2 22000         46          29            8     6 60.05118
## 5           190     2 35000         67          37            8     4 59.92867
## 6            10     2 65000         65          46           10     2 59.92810
##   Longitude Year_construction
## 1  30.24363                NA
## 2        NA                NA
## 3  30.26933                NA
## 4  30.36699                NA
## 5  30.31940              1930
## 6  30.32548                NA
head(X_nominal)
##   Date_entry                 Region    District_ad
## 1 2016-01-27  gorod Sankt-Peterburg     Приморский
## 2 2016-05-31 Leningradskaya oblast'   Всеволожский
## 3 2017-04-10  gorod Sankt-Peterburg     Приморский
## 4 2017-02-20  gorod Sankt-Peterburg     Выборгский
## 5 2016-08-16  gorod Sankt-Peterburg Адмиралтейский
## 6 2017-07-23  gorod Sankt-Peterburg    Центральный
##                             Address               Metro Minimum_duration
## 1                Королева пр., 63к1   Komendantskii pr.          11 mes.
## 2 р-н Кудрово дер. Областная ул., 1         Dybenko ul.                 
## 3           Маршала Новикова ул., 7   Komendantskii pr.          11 mes.
## 4             Сиреневый бул., 22/26 Prosveshcheniya pr.          11 mes.
## 5                 Спасский пер., 10            Sadovaya          12 mes.
## 6                  Апраксин пер., 7         Sennaya pl.          11 mes.
##   No_agents        Building NFloor Lift       Furnished       Bath  Refurbished
## 1                Kirpichnyi     22  Net                                        
## 2                   Monolit  kv.m.                  Net       Est'   Otdel'naya
## 3                137 seriya     12 Est'                                        
## 4           Monol.Panel'nyi      9 Est'                                        
## 5        Da     Staryi fond      5  Net  Sbornaya Sovr. Otdel'naya Evrostandart
## 6                Kirpichnyi      3 Est' Sbor.+kuh.garn.                        
##   Balcony
## 1  Balkon
## 2    est'
## 3        
## 4  Balkon
## 5        
## 6

Задание 2

Начинаем обработку данных с основных статистических показателей.

## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
describe(X_num)
##                   vars    n     mean       sd   median  trimmed      mad
## Dist_metro_ad        1 2912  1478.32  2836.75   800.00   932.05   815.43
## Rooms                2 2893     1.88     0.96     2.00     1.77     1.48
## Price                3 3000 43619.47 43751.31 30000.00 34628.04 14826.00
## Area_total           4 2860    61.53    37.93    50.00    54.78    22.24
## Area_living          5 2962    37.50    66.41    30.00    31.70    17.79
## Area_kitchen         6 2678    13.36    11.87    10.00    11.17     2.97
## Floor                7 2875     6.78     4.93     5.00     6.08     4.45
## Latitude             8 2525    59.94     0.07    59.94    59.94     0.08
## Longitude            9 2525    30.33     0.09    30.33    30.33     0.07
## Year_construction   10  355  1999.46    24.63  2010.00  2004.27     7.41
##                       min       max     range  skew kurtosis     se
## Dist_metro_ad        0.00  40250.00  40250.00  6.21    52.46  52.57
## Rooms                1.00      9.00      8.00  1.17     2.38   0.02
## Price                2.00 508801.00 508799.00  4.49    29.52 798.79
## Area_total          15.00    500.00    485.00  3.30    20.00   0.71
## Area_living          1.00   3362.00   3361.00 42.54  2117.41   1.22
## Area_kitchen         1.00    200.00    199.00  5.95    62.09   0.23
## Floor                1.00     32.00     31.00  1.27     1.35   0.09
## Latitude            59.57     60.70      1.14  0.30     5.51   0.00
## Longitude           28.77     30.66      1.89 -2.11    40.68   0.00
## Year_construction 1838.00   2017.00    179.00 -2.61     9.32   1.31
summary(X_num)
##  Dist_metro_ad       Rooms           Price          Area_total    
##  Min.   :    0   Min.   :1.000   Min.   :     2   Min.   : 15.00  
##  1st Qu.:  320   1st Qu.:1.000   1st Qu.: 21000   1st Qu.: 38.00  
##  Median :  800   Median :2.000   Median : 30000   Median : 50.00  
##  Mean   : 1478   Mean   :1.885   Mean   : 43620   Mean   : 61.53  
##  3rd Qu.: 1500   3rd Qu.:2.000   3rd Qu.: 50000   3rd Qu.: 70.00  
##  Max.   :40250   Max.   :9.000   Max.   :508801   Max.   :500.00  
##  NA's   :88      NA's   :107                      NA's   :140     
##   Area_living       Area_kitchen        Floor           Latitude    
##  Min.   :   1.00   Min.   :  1.00   Min.   : 1.000   Min.   :59.57  
##  1st Qu.:  19.00   1st Qu.:  8.00   1st Qu.: 3.000   1st Qu.:59.88  
##  Median :  30.00   Median : 10.00   Median : 5.000   Median :59.94  
##  Mean   :  37.50   Mean   : 13.36   Mean   : 6.784   Mean   :59.94  
##  3rd Qu.:  44.75   3rd Qu.: 14.00   3rd Qu.: 9.000   3rd Qu.:59.99  
##  Max.   :3362.00   Max.   :200.00   Max.   :32.000   Max.   :60.70  
##  NA's   :38        NA's   :322      NA's   :125      NA's   :475    
##    Longitude     Year_construction
##  Min.   :28.77   Min.   :1838     
##  1st Qu.:30.28   1st Qu.:1994     
##  Median :30.33   Median :2010     
##  Mean   :30.33   Mean   :1999     
##  3rd Qu.:30.38   3rd Qu.:2015     
##  Max.   :30.66   Max.   :2017     
##  NA's   :475     NA's   :2645

Построим ящиковые диаграммы для числовых данных:

boxplot(X_num$Dist_metro_ad, col="cyan4", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Расстояние до метро ", varwidth=F, horizontal=F, las=2)

Анализ

Можно заметить, что количество выбросов велико и имеет достаточно большую разницу по сравнению с максимальным наблюдаемым значением, недалеко расположенным от основных значений. Медиана делит ящик практически в равных пропорциях, однако, длина усов довольно разнится, что говорит о наличии ассиметрии. Правосторонняя ассиметрия, больше количество выбросов, достигающих отметки в 40 тыс. метров, что свидетельствует о нахождении жилой площади в Ленинградской Области. Максимальное наблюдаемое значение не достигает и 5 тыс. метров.

boxplot(X_num$Rooms, col="indianred3", xlab="", ylab="", 
        main = "Ящиковая диаграмма для переменной \n Количество комнат ", varwidth=F, horizontal=F, las=2)

Анализ

Данный график дает информацию о довольно-таки большой ассиметрии, так как медиана смещена к третьему квартилю, а линия, идущая к минимальному значению, отсутствует. Показатели выбросов разнятся с шагом 1, начиная с отметки в 4 комнаты и заканчивая 9-тью комнатами, однако их количество невелико по сравнению с основной массой.

boxplot(X_num$Price, col="green", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Цена аренды", varwidth=F, horizontal=F, las=2)

Анализ

Наличие ассиметрии и большое количество выбросов, расположенных плотно по числовой прямой. Медианное значение смещено к первому квартилю. Большинство выбросов сосредоточено к наблюдаемому максимуму.

boxplot(X_num$Area_total, X_num$Area_living, X_num$Area_kitchen, col=c("blue", "purple","orange"), xlab="", ylab="", main = "Диаграммы для переменных \n Площадь(общая, жилая, кухни)", varwidth=F, horizontal=F, las=2)

Анализ

Рассматривая графики, сделанные на основе данных по площадям квартир, можно сказать о наличии небольшой ассиметрии, так как линия, идущая к максимуму длиннее той, что идет к минимуму. Общая площадь больше жилой площади и площади кухни, поэтому можно предположить, что большинство построек подразумевало наличие кухни, хоть и маленькой, так как основная масса значений сконцентрирована в нижней части вертикальной оси. Наблюдается выбросовое значение в случае с жилой площадью, значительно отличающееся от максимума.

boxplot(X_num$Floor, col="olivedrab3", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Этаж", varwidth=F, horizontal=F, las=2)

Анализ

Правосторонняя ассиметрия, значительная разница между расстояниями от наблюдаемого минимума и первого квартиля и третьего квартиля и наблюдаемого максимума. Большое количество выбросов до значения 26, далее несколько выбросов наблюдается на значениях в диапазоне от 29 до 32.

boxplot(X_num$Latitude,X_num$Longitude, col=c("steelblue","aliceblue"), xlab="", ylab="",  main = "Ящиковые диаграммы для переменных \n Широта и долгота", varwidth=F, horizontal=F, las=2)

Анализ

Можно сказать о минимальной ассиметрии и незначительном количестве выбросов, так как рассматриваем один географический диапазон. Больший размах в данных по долготе из-за специфики расположения Санкт-Петербурга.

boxplot(X_num$Year_construction, col="violet", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Год постройки", varwidth=F, horizontal=F, las=2)

Анализ

Ярко выраженная левосторонняя ассиметрия. Медиана смещена к третьему квартилю, большой размах между выбросами и наблюдаемым минимумом. Наибольшая плотность выбросовых значение наблюдается до 1950 года, далее – достаточно рассеяны.

Интерпретация

Для каждой переменной существует достаточное количество данных n, поэтому мы вполне можем рассуждать о наличии каких-либо тенденций. Анализируя показатели коэффициента ассиметрии, можно заметить, что наибольшая ассиметричность наблюдается в случае следующих переменных: жилая площадь, площадь кухни, цена, расстояние до ближайшей станции метро, общая площадь. Следовательно, в этой ситуации средняя величина подвержена большему влиянию выбросов, поэтому медианные значения будут более точными из-за их близкого расположения к пику распределения по сравнению со средними. О неоднородности и рассеянии имеющихся данных также свидетельствуют: 1) большой показатель размаха; 2) значительная разница между верхним и нижним квартилем; 3) среднее значение выше значения медианы из-за его сдвига в сторону аномальных и редких значений, значит мы имеем дело с правосторонней ассиметрией; 4) положительный коэффициент эксцесса указывает на островершинное распределение 5) в случае с расстоянием до метро и ценой можем заметить большое значение среднеквадратичного отклонения.

Вторая группа данных по переменным количество комнат, этаж, географическая широта, географическая долгота, год постройки, отличается большей симметричностью, меньшим размахом. В случае с шириной и долготой наблюдается распределение с невысокими отклонениями от среднего значения и маленькой разницей между квартилями. Это объясняется тем, что вся совокупность данных соответствует одному географическому региону. Значения коэффициента ассиметрии для долготы и года постройки отрицательны, значит имеется несколько экстремальных величин, меньше среднего значения. Это объясняется тем, что здания были построены преимущественно до 2000-х, а также имеется ряд уклоняющихся от нормы значений, например, минимум равный 1838 году постройки, и в выборке был ряд зданий, расположенных западнее остальных. Анализируя переменные комнаты и этаж, можно заметить, что максимальное значение выбивается из диапазона средних значений и равно 9 и 32 соответственно. В случае с комнатами разница между первым и третьим квартилем равняется единице, что означает, что большое количество комнат присутствует лишь в 25% случаев. Тогда как, наибольшая заселенность отмечается до 9 этажа. Это объясняется преобладанием домов раннего года постройки, когда акцент был на малоэтажных постройках.

X_nominal$Lift<- as.factor(X_nominal$Lift)
X_nominal$Furnished <- as.factor(X_nominal$Furnished)
X_nominal$Bath<- as.factor(X_nominal$Bath)
X_nominal$Refurbished<- as.factor(X_nominal$Refurbished)
X_nominal$District_ad<- as.factor(X_nominal$District_ad)
X_nominal$Minimum_duration<- as.factor(X_nominal$Minimum_duration)
X_nominal$Region<- as.factor(X_nominal$Region)
X_nominal$Balcony<- as.factor(X_nominal$Balcony)
X_nominal$No_agents<- as.factor(X_nominal$No_agents)
X_nominal <- X_nominal[ , -c(1,4,5,8,9)]
summary(X_nominal)
##                     Region            District_ad   Minimum_duration No_agents
##  gorod Sankt-Peterburg :2862   Центральный  : 359   11 mes.:1595       :2587  
##  Leningradskaya oblast': 138   Приморский   : 325          : 876     Da: 413  
##                                Московский   : 309   12 mes.: 213              
##                                Выборгский   : 282   6 mes. : 115              
##                                Петроградский: 258   1 mes. :  83              
##                                Калининский  : 236   10 mes.:  42              
##                                (Other)      :1231   (Other):  76              
##    Lift                Furnished                Bath             Refurbished  
##      : 125                  :872                  :1541                :1227  
##  Est':1742   Sbornaya Sovr. :815   Otdel'naya     : 830   Evrostandart : 924  
##  Net :1133   Sbor.+kuh.garn.:584   Sovmeshchennaya: 425   Proizveden   : 611  
##              Garnitur Sovr. :313   Est'           : 115   Ne trebuetsya: 184  
##              Net            :114   Dush           :  43   Otdel'naya   :  28  
##              Minimum        : 95   Prodol'naya    :  19   Trebuetsya   :  14  
##              (Other)        :207   (Other)        :  27   (Other)      :  12  
##                   Balcony    
##                       :1019  
##  Balkon               : 779  
##  Lodjiya              : 372  
##  Net                  : 327  
##  Zasteklennaya lodjiya: 234  
##  est'                 : 121  
##  (Other)              : 148

Интерпретация

По результатам выборки большинство людей проживают в Санкт-Петербурге, тогда как в Ленинградской области значительно меньшее количество наблюдений. Самыми популярными оказались районы Центральный, Приморский и Московский. Чаще всего люди снимают квартиру на срок 11 месяцев, не используя при этом посредников. Говоря об оснащенности дома и квартиры, можно заметить, что чаще выбирают дома с лифтом, квартиры мебелированные, с наличием отдельной ванной комнаты, евроремонтом, балконом.

Большое количество данных с пропусками.

В качестве интересных особенностей можно отметить разную формулировку по определенным разделам номинальных данных, которая впоследствии влияет на статистику и выбор человека. Так, например, в случае с наличием ремонта вариант «не требуется» соответствует меньшему количеству значений по сравнению с вариантами «евростандарт» и «произведен», что по сути одно и то же и означает наличие ремонта.

Такую же закономерность можно выделить, говоря о наличии ванной комнаты с вариантами «продольная», «большой», «поперечная», тогда как это чаще всего входит в понятие «отдельная».

Чистим Данные

Для того, чтобы сделать анализ более точным, мы решили почистить данные: в числовых данных убрали выбросовые значения, также заменили текстовые значения на пропуски, так как они нам не дают информации о значениях. Переменную Цена изменили только по нижней границе, так как на данный момент на сайтах сдачи Жилья действительно сдаются квартиры стоимостью более 500 тысяч в месяц. Для чистки использовали личный опыт и данные сети Интернет. В номинальных данных объединили значения с общим смыслом в одно, стараясь минимизировать количество категорий.

data_numeric_clean = X_num %>%
  filter(Area_living > 3,
         Area_living < 3362,
         Dist_metro_ad > 50,
         Dist_metro_ad < 20000,
         Price > 8000,
         Area_total > 5,
         Area_living > 5, Area_living < 2500,
         Area_kitchen >5)
X_num<-data_numeric_clean
newX_nom_clean = X_nominal %>%
  filter(Minimum_duration != "11000 mes.",
      Minimum_duration != "2500 mes.",
      Bath != "V koridore",
      Bath != "Sidyachaya",
      Bath != "Prodol'naya",
      Bath != "Poperechnaya",
      Bath != "Bol'shoi",
      Refurbished != "Trebuetsya",
      Refurbished != "Sovmeshchennaya",
      Refurbished != "Dush",
      Refurbished != "Prodol'naya")

newX_nom_clean$Bath <- droplevels(newX_nom_clean$Bath)
newX_nom_clean$Refurbished <- droplevels(newX_nom_clean$Refurbished)
newX_nom_clean$Minimum_duration <- droplevels(newX_nom_clean$Minimum_duration)
X_nominal <-newX_nom_clean
summary(X_nominal)
##                     Region            District_ad   Minimum_duration No_agents
##  gorod Sankt-Peterburg :2798   Центральный  : 354   11 mes.:1552       :2529  
##  Leningradskaya oblast': 135   Приморский   : 313          : 871     Da: 404  
##                                Московский   : 305   12 mes.: 208              
##                                Выборгский   : 276   6 mes. : 111              
##                                Петроградский: 256   1 mes. :  79              
##                                Калининский  : 230   10 mes.:  40              
##                                (Other)      :1199   (Other):  72              
##    Lift                Furnished                Bath             Refurbished  
##      : 111                  :864                  :1538                :1226  
##  Est':1705   Sbornaya Sovr. :806   Dush           :  41   Evrostandart : 904  
##  Net :1117   Sbor.+kuh.garn.:576   Est'           : 106   Ne trebuetsya: 179  
##              Garnitur Sovr. :298   Net            :   3   Otdel'naya   :  26  
##              Net            :107   Otdel'naya     : 822   Proizveden   : 598  
##              Minimum        : 91   Sovmeshchennaya: 423                       
##              (Other)        :191                                              
##                   Balcony    
##                       :1011  
##  Balkon               : 765  
##  Lodjiya              : 359  
##  Net                  : 321  
##  Zasteklennaya lodjiya: 227  
##  est'                 : 107  
##  (Other)              : 143

Построим ящиковые диаграммы для числовых данных:

boxplot(X_num$Dist_metro_ad, col="cyan4", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Расстояние до метро ", varwidth=F, horizontal=F, las=2)

## Анализ Большая часть наблюдений находится в пределах 3000 метрах от метро. Однако сохраняется большое количество выбросовых значений. Это объясняется тем, что жилье в области находится далеко от метро.

boxplot(X_num$Rooms, col="indianred3", xlab="", ylab="", 
        main = "Ящиковая диаграмма для переменной \n Количество комнат ", varwidth=F, horizontal=F, las=2)

## Анализ

Существенные изменения не наблюдаются.

boxplot(X_num$Price, col="green", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Цена аренды", varwidth=F, horizontal=F, las=2)

## Анализ

Нижняя граница переменной была увеличена, что видно по диаграмме.

boxplot(X_num$Area_total, X_num$Area_living, X_num$Area_kitchen, col=c("blue", "purple","orange"), xlab="", ylab="", main = "Диаграммы для переменных \n Площадь(общая, жилая, кухни)", varwidth=F, horizontal=F, las=2)

## Анализ Благодаря чистке диаграмма стала точнее отображать статистическую картину.

boxplot(X_num$Floor, col="olivedrab3", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной Этаж", varwidth=F, horizontal=F, las=3)

boxplot(X_num$Latitude,X_num$Longitude, col=c("steelblue","aliceblue"), xlab="", ylab="",  main = "Ящиковые диаграммы для переменных \n Широта и долгота", varwidth=F, horizontal=F, las=2)

## Анализ

Существенные изменения после чистки не наблюдаются.

boxplot(X_num$Year_construction, col="violet", xlab="", ylab="",  main = "Ящиковая диаграмма для переменной \n Год постройки", varwidth=F, horizontal=F, las=2)

Анализ

Существенные изменения после чистки не наблюдаются.

Задание 3

par(mar=c(7,5,5,2), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Region, lwd=5, col="red2", xlab="Регион квартир", ylab="Количество квартир ", main = "Количество квартир\n в разных регионах\n Санкт-Петербурга", horiz=F)

Анализ

Наибольшее количество из наблюдаемых квартир находится в Санкт-Петербурге, в то время как остальные составляют лишь 5% от квартир в городе.

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.5)
plot(X_nominal$District_ad, lwd=5, col="blue", xlab="Районы Петербурга", ylab="Количество квартир ", main = "Количество квартир \n в разных районах города", horiz=F, las=3)

Анализ

Наибольшее количество квартир расположено в Центральном, Приморском, Московском и Выборгском районах, тогда как наименьшее – в Гатчинском, Колпинском, Кронштадтском, Приозерском, Тосненском.

par(mar=c(6,4,4,2), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Minimum_duration, lwd=5, col="green", xlab="Минимальный период", ylab="Количество упоминаний", main = "Минимальная длительность \n снятия квартир", horiz=F, las=3)

Анализ

Наибольшее количество упоминаний соответствует периоду длиной 11 месяцев

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$No_agents, lwd=5, col="pink", xlab="Сдача квартиры с посредником или без", ylab="Количество ответов", main = "Проходила ли сдача \n квартиры с посредником", horiz=F)

Анализ

Большинство отдает предпочтение сдаче квартиры без посредника.

par(mar=c(5,4,4,2), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Lift, lwd=5, col="grey", xlab="Наличие лифтов в доме", ylab="Количество упоминаний", main = "Наличие лифта в доме \n при снятии квартиры", horiz=F)

Анализ

В большинстве выбранных домов имеется лифт.

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Furnished, lwd=5, col="orange", xlab="Тип отделки в картире", ylab="Количество видов отделки квартиры ", main = "Наличие в доме разных\n видов отделки квартиры", horiz=F, las=3)

Анализ

Наибольшее количество наблюдений соответствует помещениям, обставленным современной мебелью, далее идет переменная с мебелью и кухонным гарнитуром. Наименьшее предпочтение отдается квартире с мебелью 70-80-х годов.

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Bath, lwd=5, col="purple", xlab="Наличие ванной комнаты в картире", ylab="Количество ответов", main = "Наличие ванных комнат\n в квартирах", horiz=F, las=3)

Анализ

Большинство людей отдает предпочтение наличию отдельной ванной комнаты в квартире, тогда как такие варианты, как отсутствие ванной комнаты, ванная комната в коридоре, сидячая ванная наименее популярны.

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,1), cex.axis=0.6)
plot(X_nominal$Refurbished, lwd=5, col="red", xlab="Виды переоборудованных комнат", ylab="Количество переоборудованных комнат", main = "Наличие переоборудованных \n комнат в квартирах", horiz=F, las=3)

Анализ

Предпочтительны квартиры с евроремонтом или с произведенным ремонтом.

par(mar=c(6,4,4,1), bty="l", mfcol=c(1,2), cex.axis=0.6)
plot(X_nominal$Balcony, lwd=5, col="blue", xlab="Наличие балкона или его отсутсвие", ylab="Количество ответов", main = "Наличие балконов \nв квартирах", horiz=F, las=3)

Анализ

Наиболее популярные варианты – наличие балкона, лоджия, отсутствие балкона, застекленная лоджия. Меньше всего предпочтений отдают наличию нескольких балконов.

hist(X_num$Dist_metro_ad, xlab = "Расстояние до ближайшей станции метро, в метрах", ylab = "Число наблюдений", cex.lab = 0.8, main = "Гистограмма распределения расстояния до ближайшей станции метро", cex.main = 0.8, col = "cyan4", ylim = c(0,3000), xlim = c(0,50000), cex.axis = 0.8, las = 1)

na.omit(X_num$Dist_metro_ad)
##    [1]  2800   660  1910   190   530   750   490  1990   500 13170   390  2050
##   [13]  1400   440   280   310   910  1490   990  4050  3030  1630  1110   690
##   [25]   380   240  3330  1420  1100    90   610    90  2990  2700   320   490
##   [37]  1310   110  1170   730  1500    80   520  1100  1270    60   570  1420
##   [49]  4630  4280    70  3040  1190   950  2310   630  2340   240   310   240
##   [61]   160  7250   490    90    90 13130   850    80   680   540   200  1130
##   [73]   110   500   420   700   330  1690    60   830   210   840   650  1160
##   [85]  5440   900    80  1650   620  1060  1920    60   820   230  3260  1240
##   [97]   960   230  1250   660   150  1470   850   730  1590   650  1710  2050
##  [109]   830  5380   850    60   660  1190   600  1280  2670   460   160   370
##  [121]   440   230  1740  1870  1030   280  2350  2760   380   770   130   470
##  [133] 17040  1280  1770   940  1070  1920  1270   870  4930  3420   760    80
##  [145]   970   830   470  2290   640  2130  2380   200   140  1060   480   710
##  [157]   870   960   950   900   410    70  1130   320  1520  2750  1520  3940
##  [169]  1270  2470   770   580    60  1020   120  1020    80  1400   400   380
##  [181]    80    70  5540    90   570   480  1070  2330   230   650  2260    80
##  [193]    70   590  1160  1660  1420  1880  4470   460   570  1150   460  1210
##  [205]   960   790  3940   320  3730  2840  1230   470   720  1560   230  1360
##  [217]  1100   910  1090  1710   160  3470  1770    60  1480    90   220  2220
##  [229]   990  1360  1540   510  2970   780   310   500  1080  1400  2980  2160
##  [241]   390  1690   880  2200   330  1190  1100  2090   660   140   580  1280
##  [253]   730   700  4030   740  2030 17060  1060    70    80   220  1610  3580
##  [265]  1560  1350   420  2010   470   990   680  6540  2180  1380   710   280
##  [277]  1060  1310  1740   960   730  1160  1040   180   650    70   400  1800
##  [289]   250   160   980  7260  1450  2270   580   950  3590   670   710   300
##  [301]   900  1070  3080  1050   390   190   220   460  1860   810   500   870
##  [313]   260  1380  3530   130  1700   710   460  4350  1660  1230  1050  8850
##  [325]    70  6290   350  1630   360  3850  2990  1060   650   340  1010  2380
##  [337]   360  3310  1160  1280   170   420  1300  1030  1160  1100   410  1650
##  [349]   530   430   800   490  1540  7120  1710  3370   850    60    90  4010
##  [361]  1150   690  1480   240  1640  1130   470  3840   460 15550   540   230
##  [373]  1640   720  6780   900  2610   350   750   800   640  2880   720   180
##  [385]   560   830  3280  1390   940 10850   510  3730    70  3140   420   100
##  [397]  3120   840   510   470  4630   510   440  1200   190    80  2290   790
##  [409]   510  1060   810  3530   380  1290  1190   640   540   380  1670   260
##  [421]  2790  1370  1080  4040    90    90  2580  1940  1730   870  4620  2430
##  [433]   580  1060  2770   260    80   710  1740  1400  1050  1110  1070  2070
##  [445]   490   640   250  2700  1080  1060   410  1300   180 14380  4610   100
##  [457]   180   540   350   190  1000  1970    60   410   470  1430   350  1210
##  [469] 10850  1050   340  2890  1400  1790   320  1250   570   310   870   690
##  [481]   670  1020   390  2090  1120   220   340  8780   690   880  1440  2630
##  [493]  1530   640    90   750   390  1010   680   560   690   570  9700   620
##  [505]   350   450   830  2270   350  1710  1530  2840   740  6100   700  1640
##  [517]   720   220  4200   650  2100   120   480   520  1070   900  2150   660
##  [529]   800   620   140  1430   510  4360  1830   480   350  1080   690   820
##  [541]   560  1980   400    90  1160  1740    60  2100   840  1040  1060   620
##  [553]  1890  1110   380  6360   740   270   210   760  5740  3410  1130  1010
##  [565]   720   770  1450   360   180  1110  3200    70  2040  2170   360  1560
##  [577]  2440  1050  1230  3500  1020   880    90   960  1250  1740   170   850
##  [589]   880   690  1290  4520   470  1570  1070   440  3400  1030  2570  7530
##  [601]   550 13790  1070   540  1530  1680   370  1150   110  3340  1940  3650
##  [613]   670  1650  1470   670   360   770   570   560  2840  1520  5220   190
##  [625]   440   580   630  2020  1040   810  1240   250  1100   260   390  1500
##  [637]   870  1480   310   230   320   380  1960   260 15970   110   290 10720
##  [649]   420  1430  2270 14260   150    90   820   640   850   400    60   360
##  [661]  1560  2730   330   920   310   240    90   640  1200   280  3210   200
##  [673] 17550    90   260   130   550   670   400   310  1050   200    90  1200
##  [685]  2470  1610   700  1630  3940    90   400   990  1250  1590   980   740
##  [697]   530   940   500    70   510    60  1580  2320  1140   610  1050   620
##  [709]  3270 13300  4010  1110   440   680   850  1650   930  1070  2360  1530
##  [721]  2830  1740  1220   880  1180   390  3780  1690   530   380   490   660
##  [733]   960   320   970   410  1110   660   610  2570  1000   260   840  1140
##  [745]    90  2850  2720   910  2060  1010   860   990   800  1120   890   420
##  [757]   180  1200   260   220  4550   940    80  2570   240  3390    70   640
##  [769]    70  3300   230  1120  1540   510  2190   370  1550  1030   430   450
##  [781]   270    70  1990   650   410    90  1260  1140    90   460   170   760
##  [793]  1270   440  1030   670  2910   800   700  2090   160   560  1360    60
##  [805]   250  3480    80  1550   160    70   710  1140  1370   110   670  1790
##  [817]   140   570  2190  1050   300   610  1190    70  1120  1390  6880   630
##  [829]   290  3120   320  4860   240   940   110   760   830  1070   740   910
##  [841]   550  1140   370  2540   800   420  1900  1230  1070   530   570  1490
##  [853]  2100  2700   860   790  1550   810   480    90   140   520  1850  4520
##  [865]   580   960   460    70   860  1000   390  1230  1210   620   250   900
##  [877]   860   910   740  1610  2530  3320   810  1260   440   450  1490   220
##  [889]   260   390    60  4200   110   270  2930   510   280  4000   710   550
##  [901]  1920   200  2990   620  1390   860   600   310  3030  1520  1070   810
##  [913]   190  2980   350  1710   870   690  1570  1330  1000  1020   910    60
##  [925]  1250  1380   610   680   280  1590   220   430  1100   900  1080   830
##  [937]  2050  1740   730  2520    80    90   650   610  2060   540  1560  3410
##  [949]  2450  1450    60   950  1850   380   830   970   790  1080  1340   710
##  [961]  2950  1320   310   650   540   490  3240    60  1080  1350  2270   350
##  [973]  1190   590  2520   670  2150    90   360   760  5320 17560 10930  2500
##  [985]  3400   900   450  1450  1380    60  2750  1040    90   850  1170   990
##  [997]   180   540   170    70   410  1710  1560   110   730   530  1210  2560
## [1009]  1390   510    70   710   990   560  1400   970  1030  3180  2280  3330
## [1021]    80   960  1230  3080  1030   990   220  1090   330   430  8000  5320
## [1033]   380   900  1380   320   510  1420   190   970  1530   220   920  3060
## [1045]   860   750  1200   940   630  1420    90   950    80  1040  1760  1890
## [1057]  2650  1030   590  1750  2720   880   860  2900  2220  1140   230  4860
## [1069]  1300   180  1900  1910   320  3050   330  1510   300  1690   940   690
## [1081]   680  1210   200   720   210    70  1850  6360   600  6000  1850  1790
## [1093]  4180   450  3070  6710   720   610  2410    80   460  3000   550  5300
## [1105]  2880  1110   630   330  1650  1330  1470    80  1210   350   820    70
## [1117]   150   640  1860   920   910   370  1740   700   960   490   570   640
## [1129]   470   420   760  2220   960  2270  6290  1770  2770    60  1220  6960
## [1141]  1750   630  1110  1250   810  2100  1020   380  1860   200  3640    80
## [1153]   800  1650   930   660 10150    80   200    70   200    90    80  3230
## [1165]   870   510    90   430   390    70   200   840   810   640   780  1300
## [1177]   300  2580  6390  1050  1080  1260   450    90   210  8920  1070  8120
## [1189]   450   650  1930  3530  3310   660  2160   220  4700   680  1210  1610
## [1201]  2180   540   570    90   140  2070   270   540   860   810   390  1320
## [1213]   250 11360  1000  1420  1930   450   260  1100    90   590    70  4980
## [1225]  1250  1360  1800   350  3010    90   150  1570   510  1290   500   610
## [1237]   990  2160  2350   130  1110  1130  2590   200  1900  1630  1100  1150
## [1249]   240   110   790   850  1200  1970    90   650  1500  2010  1030  2280
## [1261]   280  1250   600  4200   690   800  1940 13130   260   480   800  1000
## [1273]   210  1230  1040  1880   700  1790   800   570   620   850  1790    70
## [1285]   420  1220  1540  4210   680   830  2050  2980    60   150   980    80
## [1297]   460   830  1270  2540   600  1480  1330   110 11080  2220  3260   860
## [1309]   810   740  2020   590   480  2220  4200  1610  1330  2660  2000  1380
## [1321]  2980   680    60  1140  2160   940   560   170  2200   520  1120  1660
## [1333]  1610  6790   580   760  2220  1420   260   300   490   600  1380    60
## [1345]   320   940   320   730   460  2730  3130   560  2400   810   280   700
## [1357]   810   250   910   450   340   610  8080  1180  1020   430   730  1380
## [1369]   690  2930   520  2350  2320  1080   880   650   240  2050  1780    90
## [1381]   570    60   340   240  2580  1480   690   540   540  3890  2900  1190
## [1393]  1370   280 14450   800   570 13290   320   770   150  1370    90   540
## [1405]   360    80   750   920  1050   500  7910  1070  2600   760  1850   690
## [1417]   630  1710    80  1330   790  2990  1630  2930  1740  1510  5190  3520
## [1429]  6360  1260   680   470   480  1360   400  1230    70  1010  1070 18510
## [1441]   930  6000   730  1220  1670  5320  1400  2820  1970   510  2200   710
## [1453]   270  1580   340  3100   700   650   770  1670   100  1240   640   750
## [1465]  1740   810   340   930   800   480   470   470   890  1230   890   690
## [1477]   660  2300  3110  1060   410   590   980  1520   700  1550  2370  1030
## [1489]  6360   320  1500   860  1390  2650  2090   550   150   570   790  1600
## [1501]  1080 16890   320  1650  1220  1150   290   970  1170   540  1010   380
## [1513]  1150   520   100  2980  5930  1010   300  3850  1360  1110  1140  1010
## [1525]   110  1370  1180   840   340   590   830   550  3650  2370   560   280
## [1537]  2020    80  1030  2090   970   900   620    90  1200  1940  1430   160
## [1549]   430   680   580   930   960   300  1180   380   110  1040  1250  1090
## [1561]  2050   820   580  1230 13820   950   290   570  2980   640  1860   820
## [1573]  6130  3950   410  2270  1920   500  1580   460   840  1110  2000   270
## [1585]  2160   970   180   570  2110  1270  1370   180  1220   650  4330  2180
## [1597]   130   870   960   740  1020  4980   750   790  1360   870  2870   800
## [1609]   890    80  2100   120   410   260   250  1060  1020   870   610    60
## [1621]  2740   760   870 14070  3330   240  1160   900    70   310  1610  2810
## [1633]  3480   410  1030    70  1000  2220   980    90  1410  1050   780    90
## [1645]   900   950  1200    80    90  2170    70   820  2800  1390   790    60
## [1657]   690   380   830   570   240   640    70   950  1380   360   420  1070
## [1669]  5490   240   480   610   290   200   370  5510  4060    70   500  1470
## [1681]  1140   850   660   580  3330   750  1180 14970   410  1700  1500   650
## [1693]   970   950  1670    90   840  1250   750  2880  1220    80  4290  1370
## [1705]  1050  4140   480   720    90  1000   510  2350  3900  4410  4620   290
## [1717]   480   560  2030   510  1710   570  2070   410  1370    80  1040  1150
## [1729]  1530   440   320   770   970  2220  1110   330   710    70  1140  2100
## [1741]   660  5540   340  3740  1000 10810  1120   960  1680  1990   470   900
## [1753]  3050   180 14540  2540   280  2990   400   630 14850  2130   360  1300
## [1765]  2930  1020  1280  1070 15040  1330  5110    80  1880  1060   970    70
## [1777]   310  2240  1150  1390   900  3410    80  3400   710  1070   760   690
## [1789]   720  1690 12890  1370  1800    80   390   820    90  1380    80   150
## [1801]   260   600   110  2410   110   680   990  1550  1190   180   820  1220
## [1813]  1130   580   550  2380   280   570  6130 15900   470   400   980   370
## [1825]   610   140 17990  8120  1430  6530  1030   460  1060   400   350   640
## [1837]   420   700  1220   280   900  1080   590   380   660 10900   580  1260
## [1849]   800  4280   650   180  2920  5580  3940  2050  2100  1140  1250  1540
## [1861]   510   930   810   920   230   380    70  2930    60    90  1780  1000
## [1873]  1530   570   800  1120   660  1540   170   150  1850   730  2880  6490
## [1885]  2570   320   310  1150  2220    90  1590  1300   270 16580  1230  3300
## [1897]   980    80  1040   550   360    80   320   320   430  1680   730  2470
## [1909]  2560   930   850   400  1090   690  7410  3150  2880   400   250   850
## [1921]   870   860   140    60   230   280  1130   900  2480   950  2120 12910
## [1933]   560   560   260   830   320  1000  3040  2520  4470  2880   860   800
## [1945]   170  1470    80  2900   180  1220  1210    70   510 11480   810  4020
## [1957]  1070   190  1470  1060  3330   600   580  2520  1750  5010   710   550
## [1969]  1140  1140  6360   260   380  3540   270   690    60  1060    60  2080
## [1981]  1430   440   370   210   900  1270  1640  5180   920  1070   720   900
## [1993]  1060    70  4560   910  1250  2070  1690  3530   910   240   450   740
## [2005]  3200  2710  2290  3310  1360   460  3350  1000   260   540  3010  1410
## [2017]  1550  1110   530   830   900   370   720  1010   110    90  1200  1220
## [2029]   390   250   550  1360   540   190   830  1000   160   610   610  1350
## [2041]   900  1700  6120   250   380   210    80   230 11360   690  1390  1710
## [2053]  1170   690   490   470  3370   410  2900   110   540  2700  1410  3500
## [2065]   330   460   240  1060   850  1070  2270   170  1980    80  2490   310
## [2077]   880  1050  2050   190   490   970   480   200  1520   760  2440  1610
## [2089]   250   570   450  1930   340 18180  1330  2110  2240  2650   670    90
## [2101]  3170  3250 11390   620   460  1780   560   580   930  1740  2330  1330
## [2113]   840  4080   530   610   120    90    90  5900  1180    70  4810   660
## [2125]  2100  4410  2560   500  1320   610
options(scipen = 99999)
par(mar = c(5,4,4,2))
plot(density(X_num$Dist_metro_ad, na.rm = TRUE), las = 1, cex.axis = 0.7, xlab = "Расстояние до ближайшей станции метро, в метрах", ylab = "Вероятность", lwd = 3, col = "cyan4", main = "Эмпирическая плотность распределения расстояния до ближайшей станции метро", cex.main = 0.78, cex.lab = 0.7)

Анализ

Наибольшее количество наблюдений заключено в диапазоне до 5000 метров до станции метро.

По плотности распределения можно сказать о статистических показателях, таких как правосторонняя ассиметрия, положительный коэффициент эксцесса, так как график островершинный, значительных размах данных. Основная масса данных распределена в пределах до 10000 метров.

hist(X_num$Rooms, xlab = "Количество комнат", ylab = "Число наблюдений", ylim = c(0,1400), xlim = c(1,13), cex.main = 0.95, las = 1, cex.lab = 0.9, cex.axis = 0.9, main = "Гистограмма числа комнат в арендуемых квартирах", col = "red")

plot(density(X_num$Rooms, na.rm = TRUE), xlab = "Количество комнат", ylab = "Вероятность", cex.main = 0.78, las = 1, col = "red", main = "Эмпирическая плотность распределения числа комнат в арендуемых квартирах", lwd = 3)

Анализ

По гистограмме видно, что, в основном, люди снимают однокомнатные, либо двухкомнатные квартиры. Случаи снятия больших квартир довольно редки. Наибольшие значения распределены на отметках в 1, 2, 3 комнаты. Далее идут редкие значения. Правосторонняя ассиметрия.

hist(X_num$Price, xlab = "Цена", ylab = "Число наблюдений", ylim = c(0,2500), xlim = c(0,550000), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма цен на аренду жилья", col = "red")

options(scipen = 999999)
par(mar = c(4,5,3,5))
plot(density(X_num$Price), xlab = "Цена", ylab = "Вероятность", cex.main = 0.8, cex.axis = 0.8, cex.axis = 0.53, las = 1, col = "red", main = "Эмпирическая плотность распределения цен на аренду жилья", lwd = 3, cex.lab = 0.7)

Анализ

Основная масса людей выбирает съем жилья до 100000.

Пик распределения плотности приходится на цену в примерный диапазон 30-40 тыс. рублей. Правосторонняя ассиметрия.

hist(X_num$Area_total, xlab = "Общая площадь", ylab = "Число наблюдений", cex.axis = 0.8, cex.lab = 0.8, las = 1, cex.axis = 0.9, main = "Гистограмма общей площади арендного жилья", col = "brown")

plot(density(X_num$Area_total, na.rm = TRUE), xlab = "Общая площадь", cex.axis = 0.7, cex.lab = 0.8, ylab = "Вероятность", las = 1, col = "brown", lwd = 2, main = "Эмпирическая плотность распределения общей площади арендных квартир", cex.main = 0.8)

Анализ

Наиболее частые значения находятся в диапазоне до 100 кв.м. Функция принимает наибольшее значение в точке приблизительно равной 40 кв.м. Правосторонняя ассиметрия. Наблюдаемый максимум равен 200 кв.м.

hist(X_num$Area_living, xlab = "Жилая площадь", ylab = "Число наблюдений", cex.lab = 0.8, cex.axis = 0.8, las = 1, main = "Гистограмма жилой площади арендного жилья", col = "lightgreen")

plot(density(X_num$Area_living, na.rm = TRUE), xlab = "Жилая площадь", cex.lab = 0.8, cex.axis = 0.8, ylab = "Вероятность", las = 1, col = "lightgreen", lwd = 2, main = "Эмпирическая плотность распределения жилой площади арендного жилья", cex.main = 0.8)

Анализ

Наибольшая масса людей выбирает жилую площадь до 200 кв.м. Пик приходится приблизительно на 50 кв.м.

hist(X_num$Area_kitchen, xlab = "Кухонные площади", ylab = "Число наблюдений", cex.lab = 0.8, las = 1, cex.axis = 0.9, main = "Гистограмма кухонных площадей арендного жилья", col = "pink")

plot(density(X_num$Area_kitchen, na.rm = TRUE), xlab = "Кухонные площади", cex.axis = 0.8, ylab = "Вероятность", las = 1, col = "pink", lwd = 2, main = "Эмпирическая плотность распределения кухонных площадей арендного жилья", cex.main = 0.8)

Анализ

Большее предпочтение отдается кухням до 20 кв.м., тогда как максимальная плоащдь достигает 100 кв.м. Пик плотности распределения приходится на кухни площадью 20 кв.м.

hist(X_num$Floor, xlab = "Этаж", ylab = "Число наблюдений", ylim = c(0,800), las = 1, cex.axis = 0.8, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма количества этажей, на которых расположены квартиры", col = "blue", cex.main = 0.8)

plot(density(X_num$Floor, na.rm = TRUE), xlab = "Этаж", ylab = "Вероятность", cex.axis = 0.8, cex.lab = 0.8, las = 1, col = "blue", lwd = 2, main = "Эмпирическая плотность распределения этажей, на которых расположены квартиры", cex.main = 0.75)

Анализ

Наиболее популярными являются этажи с первого по десятый, тогда как с 26-ого по 28-ой нет данных, а наиболее высокий этаж – 32-ой. Пик распределения приходится на 4-ый этаж.

hist(X_num$Latitude, xlab = "Широта", ylab = "Число наблюдений", ylim = c(0,1400), xlim = c(59.4, 60.8), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма широт", col = "red")

plot(density(X_num$Latitude, na.rm = TRUE), xlab = "Широта", ylab = "Вероятность", las = 1, col = "red", lwd = 2, main = "Эмпирическая плотность распределения широт")

Анализ

Основная масса показателей колеблется в диапазоне от 59.8 до 60.70, также присутствует аномальное значение меньше 59.8. Правосторонняя ассиметрия. Наибольшая плотность значений наблюдается в точке 59.94.

hist(X_num$Longitude, xlab = "Долгота", ylab = "Число наблюдений", xlim = c(28.5,31), las = 1, cex.lab = 0.8, cex.axis = 0.8, main = "Гистограмма долготы", col = "cyan4")

plot(density(X_num$Longitude, na.rm = TRUE), xlab = "Долгота", cex.axis = 0.8, cex.lab = 0.8, ylab = "Вероятность", las = 1, col = "cyan4", lwd = 2, main = "Эмпирическая плотность распределения долготы")

Анализ

Значения колеблются от 28.77 до 30.66. Наибольшее количество наблюдений в диапазоне 30.33. Левосторонняя ассиметрия. Аномальные значения от 28.77 до 30.00. Основная масса значений сосредоточена в диапазоне от 30.00 до 30.05.

hist(X_num$Year_construction, xlab = "Год постройки жилья", xlim = c(1800,2050), ylab = "Число наблюдений", cex.lab = 0.8, cex.axis = 0.8, las = 1, lab = 1, main = "Гистограмма годов постройки жилья", col = "red")

plot(density(X$Year_construction, na.rm = TRUE), cex.lab = 0.8, cex.axis = 0.8, xlab = "Год постройки", ylab = "Вероятность", cex.main = 0.8, las = 1, col = "red", lwd = 2, main = "Эмпирическая плотность распределения годов постройки жилья", xlim = c(1830,2020), ylim = c(0,0.05))

Анализ

Большинство построек было сооружено после 2000-х. Меньше всего квартир снимают в зданиях до 1950-х годов. Самыми популярными являются постройки примерно 2010 года, далее по популярности идут постройки 1970-х. Однако минимальное значение принадлежит 1835 году.

Задание 4

plot(data_numeric_clean$Price, data_numeric_clean$Rooms,xlab = "Цена ",ylab = "Комнаты",  col = "chocolate", 
     cex = 0.8,)

Теперь попробуем отрисовать применив к цене десятичный логарифм

plot(log10(data_numeric_clean$Price), data_numeric_clean$Rooms, xlab = "Цена в десятичном логарифме", ylab = "Комнаты", col = "chocolate", cex = 0.8,)

Можно заметить что наш график раширился и данные по х выглядят более опрятно.

Анализ

По графику можно заметить, что существует прямая связь между количеством комнат и стоимостью проживания. С ростом количества комнат постепенно растет и стоимость, хотя важно отметить наличие пересечений. Это может быть вызвано разными факторами, например, качество жилья и т.д. Также существуют и значения-выбросы, такие как цена за 3-х комнатную квартиру, равная цене за однокомнатную. Также и двухкомнатные квартиры могут достигать цен за квартиру с шестью комнатами. Таким образом, можно сделать

вывод, что количество комнат в квартире не самый главный показатель при установлении стоимости жилья. Существуют и другие, более важные факторы.

Посмотрим зависимость цены от полной площади.

plot(data_numeric_clean$Price, data_numeric_clean$Area_total, xlab = "Цена", ylab = "Общая площадь", col = "blue", cex = 1.2,)

Анализ

По графику можно сказать, что квартиры до 150 кв.м. сдаются по цене до 100000 рублей. Наблюдается увеличение цены при бОльшей площади квартиры.

plot(data_numeric_clean$Price, data_numeric_clean$Floor,col = "orange", xlab = "Цена", ylab = "Этаж", cex = 1.2,)

В данном примере чтобы данные выглядели более опрятно, возьмем логарифм десятичный из Price(Цена).

plot(log10(data_numeric_clean$Price), data_numeric_clean$Floor, xlab = "Десятичный логарифм от Цены", ylab = "Этаж", col = "brown", 
     cex = 0.7)

Анализ

По графику можем наблюдать, что у стоимости нет тенденции к особым колебаниям в зависимости от того, на каком этаже находится квартира. Однако, можно отметить, что цена выше среднего стоит только на квартирах с первого по 15-ый этаж. Основная масса сдающихся в аренду квартир стоимостью до 100 тыс.руб. расположена на этажах с первого по 32-ой. Также максимальная цена установлена на квартиры, расположенные на 4-6-ом этажах. Можно сделать вывод, что самые дорогие квартиры находятся не в многоэтажных постройках, в то время как средняя цена актуальна для любой постройки.

Задание 5

Создаем таблицу со значениями коэффицентов корреляции.

mat_1 <- as.dist(round(cor(data_numeric_clean, use = "complete.obs"),3))
mat_1
##                   Dist_metro_ad  Rooms  Price Area_total Area_living
## Rooms                    -0.054                                     
## Price                    -0.098  0.549                              
## Area_total               -0.088  0.784  0.854                       
## Area_living              -0.065  0.782  0.881      0.948            
## Area_kitchen             -0.128  0.338  0.575      0.653       0.510
## Floor                     0.051 -0.116 -0.100     -0.075      -0.110
## Latitude                 -0.107 -0.054  0.048      0.031       0.017
## Longitude                -0.159 -0.165 -0.095     -0.118      -0.130
## Year_construction         0.100 -0.148  0.023      0.017      -0.047
##                   Area_kitchen  Floor Latitude Longitude
## Rooms                                                   
## Price                                                   
## Area_total                                              
## Area_living                                             
## Area_kitchen                                            
## Floor                    0.011                          
## Latitude                 0.062  0.134                   
## Longitude               -0.065  0.005    0.027          
## Year_construction        0.186  0.405    0.138    -0.028
library(GGally)
## Loading required package: ggplot2
## 
## Attaching package: 'ggplot2'
## The following objects are masked from 'package:psych':
## 
##     %+%, alpha
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggcorr(data_numeric_clean, nbreaks = 6,
       low = "steelblue",
       mid = "white",
       high = "darkred",
       label = TRUE,
       label_size = 2)

Интерпретация

Наблюдается сильная корреляция цены съёма и общей площади (0.8), а также общей площади и количества комнат, то есть с увеличением общей площади квартиры возрастает и цена за её аренду, и количество комнат в ней. Менее сильная корреляция наблюдается в количестве комнат и цены за аренду квартиры, а также жилой и кухонной площадей. Следовательно, с ростом количества комнат увеличивается жилая и кухонная площади и цена за квартиру. Затем можно заметить корреляцию между общей площадью и жилой, кухонной площадями, при этом корреляция с кухонной площадью выше. То есть при увеличении общей площади увеличивается площадь жилых и кухонных помещений, при этом размер кухни растёт быстрее, чем размер жилых помещений. Также стоит отметить корреляцию между этажом, где находится квартира, и годом постройки здания, что может быть интерпретировано как количество этажей в здании, зависящее от года постройки этого здания.