I Группировка по переменным
С точки зрения статистики, данные принято делить на несколько типов, два из которых - номинальные и числовые. Под номинальными данными подразумевается информация, обозначающая названия различных категорий предметов, например мужчины и женщины, женатые и одинокие. Данные такого типа мы можем только сравнивать между собой. Что касается данных числового типа, их также называют количественными, они могут быть сравнены, упорядочены и измерены. Числовые данные могут быть дискретными и непрерывными. Дискретными данные можно назвать при условии, что набор возможных реализаций – счётное множество. Например, количество клиентов страховой компании или число школ в районе. А непрерывные, в свою очередь, представляют собой набор возможных реализаций из несчётного множества – рост человека или температура воздуха.
К номинальному типу данных мы решили отнести: регион (Region), район (District_ad), адрес (Adress), станции метро (Metro), наличие посредников (Agents), тип здания (Building), наличие лифта (Lift), вид мебелировки (Furnished), тип ванной (Bath),тип ремонта (Refurbished), наличие балкона (Balcony) и переменную, которая показывает, является ли квартира студией или нет. Последней переменной нет в исходном датасете, поскольку она получилась путём преобразования данных. В переменной Rooms было указано, является ли квартира студией или нет. Мы решили сохранить эту информацию отдельно, чтобы не потерять ее, и поэтому создали отдельную переменную Studia.
К числовому типу данных мы отнесли: расстояние до метро (Dist_metro_ad), цену жилья (Price), площадь квартиры (Area_total), жилую площадь (Area_living), площадь кухни (Area_kitchen), номер этажа (Floor), широту (Latitude), долготу (Longitude), год постройки (Year_construction), количество этажей в доме (Nfloor), количество комнат (Rooms), минимальную длительность контракта (Min_duration) и дату размещения объявления (Date_entry)
Год (Year) мы можем отнести к числовому виду данных, так как мы можем найти разницу между двумя выбранными годами, мы не только можем сравнить данные, но и произвести вычисления над ними. То же самое можно сказать и о количестве этажей в доме - мы можем сравнить дома между собой, посчитав разницу в числе этажей этих домов.
По этим же соображениям дата размещения объявления была отнесена к числовому типу данных. Откровенно говоря, дата не является чистой числовой переменной, так как для неё невозможно вычислить многие описательные статистики. Однако некоторые из них вычислить возможно (например, среднее значение или медиану). А если мы говорим про разницу между датами, то в данном случае можно посчитать абсолютно все описательные статистики.
В таблице выше можно ознакомиться со структурой данных
Посмотрим на таблицы с описательными статистиками для каждого типа переменных:
| Statistics | Dist_metro_ad | Price | Area_total | Area_living | Area_kitchen | Floor | Latitude | Longitude | Year_constuction | Nfloor_real | Rooms_real | Min_duration | Date_entry |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| mean | 1486.583675 | 45776.451333 | 79.18013 | 38.068875 | 13.812818 | 6.668999 | 59.9390368 | 30.3231117 | 1999.212308 | 11.7354641 | 1.917945 | 11.58418 | 2016-10-31 |
| median | 780.000000 | 30000.000000 | 50.00000 | 30.000000 | 10.000000 | 5.000000 | 59.9406271 | 30.3221920 | 2010.000000 | 10.0000000 | 2.000000 | 11.00000 | 2017-01-04 |
| min | 0.000000 | 15.000000 | 15.00000 | 1.000000 | 1.000000 | 1.000000 | 59.5598793 | 30.0755290 | 1838.000000 | 0.0000000 | 1.000000 | 1.00000 | 2012-02-27 |
| max | 42570.000000 | 500000.000000 | 45000.00000 | 400.000000 | 182.000000 | 32.000000 | 60.1083380 | 30.6497170 | 2017.000000 | 36.0000000 | 60.000000 | 2500.00000 | 2017-07-23 |
| mode | 50.000000 | 20000.000000 | 40.00000 | 18.000000 | 10.000000 | 3.000000 | 59.9708460 | 30.3192712 | 2016.000000 | 5.0000000 | 1.000000 | 11.00000 | 2017-04-04 |
| q_25 | 320.000000 | 21000.000000 | 39.00000 | 19.000000 | 8.000000 | 3.000000 | 59.8766390 | 30.2722820 | 1998.000000 | 6.0000000 | 1.000000 | 11.00000 | 2016-05-31 |
| q_75 | 1570.000000 | 50000.000000 | 75.00000 | 46.000000 | 15.000000 | 9.000000 | 59.9965567 | 30.3712220 | 2015.000000 | 16.0000000 | 2.000000 | 11.00000 | 2017-04-24 |
| std_div | 2702.728753 | 46670.647523 | 843.30239 | 28.941657 | 12.356033 | 4.911355 | 0.0693027 | 0.0816599 | 26.689594 | 6.8050649 | 1.477426 | 54.78609 | NA |
| range | 42570.000000 | 499985.000000 | 44985.00000 | 399.000000 | 181.000000 | 31.000000 | 0.5484587 | 0.5741880 | 179.000000 | 36.0000000 | 59.000000 | 2499.00000 | NA |
| assym | 5.770642 | 3.963454 | 53.13597 | 3.203321 | 4.868682 | 1.366465 | -0.2584489 | -0.0087459 | -2.745163 | 0.6030862 | 20.725965 | 45.23480 | NA |
| kurtosis | 50.193754 | 25.065724 | 2830.92092 | 21.271094 | 39.160880 | 4.710654 | 3.1047583 | 3.2447706 | 12.052341 | 2.3110917 | 798.710399 | 2055.08867 | NA |
II Очистка данных
Во время построения таблиц нами были обнаружены некоторые «выбросы» и неточности иного рода, которые препятствовали вычислению описательных статистик и корректному восприятию информации. Мы предприняли следующие шаги для их устранения:
В исходной таблице в переменных Nfloor и Dist_metro_ad минимальным значением был 0, но такого быть не может. Мы исправили данное значение на NA, чтобы оставить только реальные значения этажности зданий и дистанции до ближайшей станции
В ячейке минимальной наёмной цены за жилье отображалось значение 15 руб/мес и 36 руб/мес, что, очевидным образом, является неточностью. Мы исправили эти значения на 15 000 и 36 000 соответственно; после этого минимальным стало значение 1450 руб/месяц, и тут мы уже не можем предположить, о тысячах ли шла речь или о сотнях, поэтому заменили все величины меньше 10 000 на NA (из того соображения, что жильё стоимостью меньше десяти тысяч - большая редкость). Аналогичные исправления мы произвели для переменных Area_kitchen и Area_living, минимальные значения которых мы изменили с 1 м2 на 10 м2
Максимальное значение в переменной Rooms было равно 60, что снова указывает на «выброс», поскольку соответствующая этому количеству общая площадь весьма невелика (60 м2), поэтому мы исправили это значение на 6
В переменной Min_duration было найдено значение, превышающее тысячу месяцев а в переменной Area_total - превышающее 10 000 м2. Мы заменили эти, очевидно, аномальные значения на NA.
Таблица с исправленными данными:
| Statistics | Dist_metro_ad | Price | Area_total | Area_living | Area_kitchen | Floor | Latitude | Longitude | Year_constuction | Nfloor_real | Rooms_real | Min_duration | Date_entry |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| mean | 1503.53 | 46022.70 | 63.39 | 38.07 | 13.81 | 6.67 | 59.94 | 30.32 | 1999.21 | 11.88 | 1.90 | 10.38 | 2016-10-31 |
| median | 800.00 | 30000.00 | 50.00 | 30.00 | 10.00 | 5.00 | 59.94 | 30.32 | 2010.00 | 10.00 | 2.00 | 11.00 | 2017-01-04 |
| min | 7.00 | 10000.00 | 15.00 | 5.00 | 1.00 | 1.00 | 59.56 | 30.08 | 1838.00 | 1.00 | 1.00 | 1.00 | 2012-02-27 |
| max | 42570.00 | 500000.00 | 456.00 | 400.00 | 182.00 | 32.00 | 60.11 | 30.65 | 2017.00 | 36.00 | 10.00 | 31.00 | 2017-07-23 |
| mode | 50.00 | 20000.00 | 40.00 | 18.00 | 10.00 | 3.00 | 59.97 | 30.32 | 2016.00 | 5.00 | 1.00 | 11.00 | 2017-04-04 |
| q_25 | 340.00 | 22000.00 | 39.00 | 19.00 | 8.00 | 3.00 | 59.88 | 30.27 | 1998.00 | 6.00 | 1.00 | 11.00 | 2016-05-31 |
| q_75 | 1570.00 | 50000.00 | 75.00 | 46.00 | 15.00 | 9.00 | 60.00 | 30.37 | 2015.00 | 16.00 | 2.00 | 11.00 | 2017-04-24 |
| std_div | 2713.40 | 46678.66 | 40.47 | 28.94 | 12.36 | 4.91 | 0.07 | 0.08 | 26.69 | 6.72 | 1.03 | 3.40 | NA |
| range | 42563.00 | 490000.00 | 441.00 | 395.00 | 181.00 | 31.00 | 0.55 | 0.57 | 179.00 | 35.00 | 9.00 | 30.00 | NA |
| assym | 5.75 | 3.97 | 2.98 | 3.20 | 4.87 | 1.37 | -0.26 | -0.01 | -2.75 | 0.64 | 1.40 | 0.95 | NA |
| kurtosis | 49.83 | 25.09 | 17.41 | 21.28 | 39.16 | 4.71 | 3.10 | 3.24 | 12.05 | 2.29 | 6.28 | 17.16 | NA |
III Описание данных
В приведённой таблице зафиксированы описательные статистики всех указанных переменных. Рассмотрим подробно особенности каждой переменной и проанализируем полученные данные.
1) Первой в нашем списке переменных стоит переменная «Dist_metro_ad», иллюстрирующая расстояние до ближайшей станции метро. Данные предоставлены в метрах. Судя по значениям, полученным в таблице, среднее расстояние составляет около 1503,5 метра. Минимальное расстояние до метро – 7 метров, а максимальное – 42 570 метров. Тем самым, размах для этой переменной будет равен 42 563 м. Медиана, в свою очередь, является такой отметкой, которая делит ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Здесь медианное значение будет равно 800; оно, в свою очередь меньше среднего значения почти в 2 раза. Стоит отметить, что мода для данной переменной равна 50. Здесь у нас указаны две разновидности квантилей, а именно - первый квартиль, который отделяет 25% самых маленьких наблюдений от всех остальных, и третий квартиль, отделяющий 75% самых маленьких наблюдений от числа остальных наблюдений. Можно заметить, что 0,25-квантиль здесь будет равен 340, а 0,75-квантиль – 1570. Для всех переменных было также найдено среднее квадратическое отклонение, отражающее резкие изменения в распределении. Здесь оно равно 2713,40. Коэффициент асимметрии и куртозис для данной переменной соответственно равны 5,75 и 49,83. Такое значение куртозиса говорит об остропиковости распределения. Положительный коэффициент асимметрии иллюстрирует то, что распределение скошено вправо.
2) Следующая переменная «Price», обозначающая наёмную цену, имеет самое большое среднее значение среди всех остальных переменных. Оно составляет 46 000,75 руб/мес. Медианное значение для данной переменной составляет 30 000, при том, что максимальное значение – 500 000, а минимальное – 10 000. При таких данных размах будет составлять 490 000. Мода (самое часто встречающееся значение) в данном множестве наблюдений равна 20 000 руб./месяц. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 22 000, а 0,75-квантиль – 50 000. Что касается отображения резких изменений, возникающих в распределении, то среднее квадратическое отклонение для данной переменной составляет 46 670,73. Коэффициент асимметрии для переменной «Price» положительный и равен 3,97, что говорит о том, что распределение скошено вправо. Значение куртозиса (25,10) даёт нам понять, что распределение для данной переменной является остропиковым.
3) Переменная «Area_total» описывает общую площадь квартир и измеряется в квадратных метрах. Здесь среднее значение составляет 63,39 м2. Максимальное достигаемое значение - 456, а минимальное – 15. Соответственно размах здесь равен 441 м2. Что касается медианного значения, здесь оно будет составлять 50, а мода будет равна 40. Получается, что самое часто встречающееся значение в данном множестве наблюдений - 40 м2. Для данной переменной было также найдено среднее квадратическое отклонение (положительный квадратный корень из дисперсии), отражающее резкие изменения в распределении. Здесь оно равно 40,47. Куртозис для переменной «Area_total» составляет 17,41. Значение куртозиса даёт нам понять, что распределение для данной переменной является остропиковым. Коэффициент асимметрии для данной переменной равен 2,98.
4) Следующая рассматриваемая нами переменная – «Area_living», отображающая жилую площадь в квадратных метрах. Исходя из полученных данных, мы видим, что максимальное значение в данном наблюдении – это 400 м2, а минимальное – 5 м2. Размах получается равным 395. Среднее значение данной переменной составляет 38,07 м2, что чуть больше, чем ее медианное значение, равное 30. Самое часто встречающееся значение в данном множестве наблюдений (мода) равно 18 м2. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 19, а 0,75-квантиль – 46. При нахождении значения отображения резких изменений, возникающих в распределении, мы видим, что среднее квадратическое отклонение для данной переменной составляет 28,94. Коэффициент асимметрии для переменной «Area_living» положительный и равен ~3,20, что говорит о том, что распределение скошено вправо. Куртозис, в свою очередь равен 21,28 и даёт нам понять, что распределение для данной переменной является остропиковым.
5) Проведём анализ для переменной, обозначающей площадь кухни в кв. метрах – «Area_kitchen». Среднее значение, которое принимает эта переменная, равно 14,02 м2. Что касается наибольшего и наименьшего значения, максимальное – 182, минимальное – 2. Видим сходство с предыдущей переменной «Area_living», у которой также минимальное значение равно единице. Размах здесь равен 180 м2. Медианное значение меньше среднего и составляет 10 м2. Что касается отображения резких изменений, возникающих в распределении, то среднее квадратическое отклонение для данной переменной составляет 12,21. Мода для этой переменной равна 10 м2. - соответственно, кухни в квартирах из выборки чаще всего занимают 10 м2. Куртозис для переменной «Area_kitchen» равен приблизительно 40,66. Значит распределение для данной переменной является остропиковым. Коэффициент асимметрии положителен и равен 5,02. Можем сделать вывод, что распределение скошено вправо.
6) Следующая переменная, которую мы рассмотрим – «Floor», обозначает этаж, на котором расположена квартира. Самый часто встречающийся номер этажа – 3. Среднее значение для этой переменной равно 6,67, а медианное значение – 5. Максимальное значение, принимаемое этой переменной, равно 32, а минимальное – 1. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 3, а 0,75-квантиль - 9. Среднее квадратическое отклонение, которое имеет эта переменная, равно 4,91. Коэффициент асимметрии положителен и равен 1,37. Это позволяет нам сделать вывод, что распределение скошено вправо. Куртозис для переменной «Floor» равен приблизительно 4,71, а это значит, что распределение для данной переменной является остропиковым.
7) Переменная «Latitude» отображает географические широты местоположения квартир из выборки. Медиана составляет 59,94, а среднее значение – 59,939: практически равные значения. Мода для этой переменной равна 59,97 – это означает, что именно такое значение чаще всего встречается в данном множестве. Коэффициент асимметрии отрицателен и принимает значение -0,26. Это позволяет нам сделать вывод, что распределение скошено влево. Куртозис для данной переменной равен 3,104. Такое значение является наименьшим среди всех ранее рассмотренных переменных. 0,25-квантиль здесь равен 59,88, а 0,75-квантиль равен 59,99. Что касается среднего квадратического отклонения – оно равно 0,07. Схожесть многих статистических харктеристик переменной говорит о том, что ее распределение близко к нормальному.
8) Следующая переменная «Longitude» обозначает географическую долготу, в которой расположены предлагаемые квартиры. Минимальное значение равно 30,07553, максимальное 30,64972; соответственно размах составляет 0,57419. Среднее арифметическое равно 30,323112, медианное значение соответствует 30,32219. Самое часто встречающееся значение в этом показателе - 30,64972. Если рассматривать среднее квадратическое отклонение, то оно равно 0,08. 0,25-квантиль составляет 30,27228, а 0,75-квантиль - 30,37122. Коэффициент асимметрии и куртозис равны -0,008745862 и 3,244771. Отрицательное значение асимметрии говорит о том, что распределение скошено влево.
9) Для переменной «Year_construction», которая содержит года постройки домов, где сдаются квартиры, среднее значение составляет 1999,21. Касаемо медианы, здесь она превышает значение среднего арифметического более чем на 10 единиц и равна 2010. Самый ранний год постройки - 1838, а поздний - 2017; размах составляет 179 лет. Однако в выборке старые постройки занимают не самую большую часть, о чем говорит 0.25-квантиль. Исходя из вычислений, только 25% домов в объявлениях построены до 1998 года. 0.75-квантиль равен 2015, следовательно, 25% всех объявлений о квартирах в домах, построенных с 2015 до 2017 года. При этом мода равна 2016. Это говорит об ускоряющихся темпах строительства жилых домов в последние годы. Среднее квадратическое отклонение для этой переменной равно 26,69. Коэффициент асимметрии и куртозис равны -2,75 и 12,05 соответственно. Отрицательное значение первого говорит о том, что распределение скошено влево.
10) Рассмотрим следующую переменную, называемую «Nfloor_real». Она содержит в себе информацию о количестве этажей в доме. Средним арифметическим является отметка в 11,88; медиана не отличается от него существенным образом и равна 10. Размах среди этажей в объявлениях достаточно велик, и составляет 35. В самом низком доме из выборки 1 этаж, а в самом высоком - 36. Но чаще всего в выборке встречается 5 этаж, о чем говорит мода. 0,25 квантиль равен 6, то есть случайно найденное объявление будет с вероятностью 0,25 находится ниже шестого этажа, 0,75 квантиль равен уже 16. Среднее квадратическое отклонение в этом критерии составляет 6,72. Коэффициент асимметрии и куртозис равны 0,64 и 2,29 соответственно. Положительное значение первой говорит о том, что распределение скошено вправо.
11) Переменная «Rooms_real» обозначает количество комнат в предложенных объявлениях. Количество комнат разнится от одной до десяти, размах равен 9 соответственно. Среднее арифметическое и медиана примерно равны между собой - первое составляет 1,9, второе 2. Самое часто встречающееся значение, то есть мода, равно 1. Все это говорит нам о преобладании небольших квартир на рынке сдачи недвижимости. Основываясь на вычислениях, 0,25-квантиль равен 1, 0,75-квантиль больше на единицу и, соответственно, равен 2. Следующая рассматриваемая характеристика – среднее квадратическое отклонение, и оно равно 1,03. Осталось сказать только про коэффициент асимметрии и куртозис, они составляют 1,40 и 6,28 соответственно. Основываясь на том, что коэффициент асимметрии положительный, мы можем сделать вывод, что распределение скошено вправо.
12) Рассмотрим переменную «Min_duration», обозначающую минимальный срок, на который арендодатель готов предложить свою квартиру в месяцах. Начнем с минимального значения - 1 месяц, максимальное - 31 месяц. Размах, соответственно, 30; то есть, на рынке можно найти квартиры и для длительного съема, и для короткого. Среднее арифметическое значение равно 10,38, медиана - 11, что очень близко друг к другу. Среднее квадратическое отклонение в этом показателе критерия составляет 3,4. Чаще всего встречается минимальная длительность 11 месяцев, об этом говорит значение моды, рассчитанное для этой переменной. Значение 0,25-квантиля совпадает со значением 0,75-квантиля - оно равно 11, а это значит, что только 25% объявлений рассчитаны на срок сдачи от 11 месяцев Коэффициент асимметрии равен 0,95, а куртозис - 17,16. Распределение скошено вправо.
13) Переменная Date_entry показывает дату размещения объявления. В связи со спецификой данной переменной, невозможно получить для неё все описательные статистики. Однако возможно получить некоторые из них, а именно: минимальное значение, среднее значение, максимальное значение, медиану, моду, первый и третий квартили. Среднее значение - 2016-10-31. Самое ранее объявление датируется 27-м февраля 2012-го года, а самое поздее - 23-м июня 2017-го года. Больше всего объявлений было опубликовано 2017-04-04. Медиана - 2017-01-04 (50% объявлений было опубликовано раньше), первый квартиль - 31-е мая 2016-го года (25% объявлений было опубликовано раньше), третий квартиль - 24-е апреля 2017-го года (75% объявлений было опубликовано раньше).
IV Графики и их описание для числовых данных
1) Смотря на график функции плотности распределения расстояния от метро, становится очевидно, что практически все квартиры расположены менее чем в 10 километрах от ближайшей станции метро. Это подтверждает и график значений, судя по которому абсолютное большинство квартир находятся менее чем в 5 километрах от метро; более 1500 квартир располагаются в радиусе километра от ближайшей станции метро.
2) Значения цен на аренду квартир ежемесячно в основном не превышают 200 тыс рублей; большая часть значений цен сконцентрирована между 0 и 50 тысячами рублей, судя по графику функции плотности значений. Из графика значений видно, что имеют место быть единичные квартиры, чья стоимость выше 200 и 300 тысяч в месяц. Также из этого графика видно, что минимальная цена составляет около 20-25 тысяч рублей.
3) Большая часть значений площади квартир (в метрах квадратных) расположены в пределах от 20 до 90 м2, в дальнейшем плотность функции значений относительно равномерно убывает, пока не становится минимальной после 200 м2. Однако, встречаются единичные квартиры, чья площадь больше 300 м2.
4) Значения жилой площади в квартирах в метрах квадратных, очевидно, некоторым образом связаны со значениями площадей квартир, и будут несколько меньше первых. График функции плотности значений и график значений это подтверждает – большая часть квартир из выборки обладает жилой площадью не более 30 м2. За редким исключением жилая площадь превышает 100 м2, и даже доходит до 200 м2 – вероятно, речь о немногих квартирах, где общая площадь комнат превышает 300 м2.
5) В большей части квартир из выборки площадь кухни – от 5 до 20 м2. Менее чем в 600 квартирах площадь кухни больше 20 м2; имеют место быть квартиры, где площадь кухни в пределах от 50 до 100 м2. Однако, в таком случае речь скорее всего идет об объединенной с гостиной кухне.
6) Квартиры из выборки за редким исключением расположены не выше 20 этажа. Это имеет определенный смысл, ведь мало кто будет переплачивать за квартиру под сдачу на высоком этаже исключительно из-за вида. Больше всего квартир расположено с 3 по 8 этаж.
7-8) Рассчитав статистические показатели по ширине и долготе квартир из выборки, можно сделать вывод, что ширина и долгота являются нормально распределенными величинами. Однако, относительно координат центра Санкт-Петербурга (59.9386, 30.3141) оба графика несколько смещены вправо – это говорит о том, что большая часть квартир находится на северо-востоке относительно центра города.
9) Значения года постройки располагаются в пределах от 1838 до 2017 года, но наибольшее число квартир располагается в домах, построенных уже в 21-м веке. Дома, построенные в 60е-80е года прошлого века, составляют вторую по численности группу. Редко встречаются единичные случаи сдачи квартир в домах, построенных в 19-м веке, немного чаще можно встретить квартиры, расположенные в домах, построенных в первой половине 20-го века
10) Количество этажей в домах, где сдаются квартиры, варьируется довольно сильно. Большинство квартир расположены в домах не выше 10-ти этажей, вероятно, это связано с преимущественно малоэтажной застройкой в центральных районах Санкт-Петербурга. Однако, в новостройках от 15-ти этажей также сдается довольно много квартир – такая застройка практикуется в районах, удаленных от центра, и на окраинах города.
11) С количеством комнат в сдаваемых квартирах все просто – чем больше комнат, тем меньше таких квартир присутствует в выборке. При этом максимальное число комнат – 7.
12) Абсолютное большинство арендодателей указали, что рассчитывают сдавать квартиру как минимум на 12 месяцев; относительно часто встречаются объявления о сдаче на срок от 1 месяца и полугода. Максимальное значение в выборке – 31 месяц. Очевидно,что большая часть владельцев квартир предпочитает заключать договор на долгий срок.
13) Абсолютное большинство объявлений было размещено в 2016-2017 годах. Самое раннее объявление датируется февралем 2012 года.
V Графики и их описание для номинальных данных
Так как построенные нами таблицы для номинальных переменных находятся в приложении, и в них представлены только частоты, их описание содержится в представлении столбиковых диаграмм. Поэтому описание таблиц с частотой для номинальных переменных не требуется; достаточно обойтись описанием диаграмм.
1) Абсолютное большинство квартир из выборки расположено в черте города Санкт-Петербург (2855); всего 4,83% квартир (145) расположены в Ленинградской области
2) Самыми популярными районами для сдачи квартир являются Центральный (409), Приморский (340), Московский (318), Выборгский (274), Петроградский (252) районы; основные причины этого – наличие в районах университетов и офисов различных компаний, а также большое количество новостроек с квартирами под сдачу (для Приморского, Выборгского, Московского районов). Районы с наименьшим количеством квартир под сдачу – Тосненский (1), Ломоносовский (4), Колпинский (5); вероятно, причина в удаленности данных районов от города (Тосненский и Ломоносовский районы принадлежат Ленинградской области)
3) В данный критерий были включены не только станции метро Санкт-Петербурга, но и некоторые железнодорожные станции Ленинградской области, однако ни одна из этих станций не попала в топ-10 наблюдений для катерогии “Метро”. Станции, вблизи которых сдается более ста квартир - Чернышевская (134), Комендантский Проспект (134), Приморская (133), Проспект Ветеранов (127), Московская (114). В остальных районах сдаётся менее ста квартир,однако всё же в некоторых районах, как можно заметить, число квартир, доступных для аренды, близится к значению 100.
4) Больше всего квартир сдается в кирпичных домах (999), домах из кирпичного монолита (634); остальные типы домов с большим отрывом уступают данным двум в популярности. Относительно часто встречаются квартиры в монолитных и панельных домах (332 и 209 соответственно).
5) Из 3000 квартир в выборке при 1676 имеется лифт; в домах, где расположены 1184 квартиры (почти 40% от общего числа), лифта нет – как правило, это малоэтажные здания не выше 5 этажей, дореволюционного и советского периода постройки. В 140 объявлениях о сдаче квартиры не указано наличие/отсутствие лифта.
6) Большая часть квартир оборудована современной сборной мебелью (829), довольно часто в квартирах с такой мебелью имеется и кухонный гарнитур (600). Следующие по популярности с большим отрывом идут квартиры, оборудованные только кухонным гарнитуром (290). Наименее часто встречаются квартиры, оборудованные сборной мебелью или гарнитуром 70х-80х годов выпуска (21 и 10 квартир соответственно). В 29% объявлений о сдаче квартир информация о наличии/отсутствии мебели не указана.
7) Большинство объявлений о сдаче квартир не содержат информации по данному критерию (1591). Среди остальных наиболее популярным является отдельная ванная– она имеется в 793 квартирах. Также часто встречается ванная, совмещенная с душем (401). Во многих объявлениях указано лишь наличие ванны, без указания ее типа. В 4% квартир имеется лишь душ.
8) Из 1720 квартир, для которых информация по данному критерию была указана, почти в половине (858) был произведен ремонт по евростандарту. В 651 объявлении без подробностей указано, что ремонт был произведен; в 151 квартире, согласно объявлению, ремонт не требуется. В абсолютном меньшинстве квартир (11) ремонт требуется.
9) 2/3 объявлений содержат информацию о наличии/отсутствии балконов и лоджий в квартирах. 67% квартир от всего количества обладают балконом, лоджией или террасой – одними или несколькими; но больше всего квартир имеют один балкон (805) или одну лоджию (349). Также, 5 квартир имеют эркер.
10) Студии составляют около 6% от всех квартир для сдачи в аренду.
VI Диаграммы рассеяния и их описание. Коэффициент корреляции
Диаграммы рассеяния
Стоит отметить, что описаны были не все диаграммы, поскольку некоторые из них напрямую коррелируют с диаграммами, построенными по другим переменным. К таковым были отнесены “Number of floors” и “Number of rooms”. Тем не менее, графики построены и находятся в приложении.
1) На этом графике можно проследить зависимость стоимости аренды квартиры и ее близости к метро. Нельзя сказать, что перед нами ярко выраженная обратная зависимость, так как при относительно одинаковой удаленности от станции метро, цены встречаются совершенно разные. Как мы видим из графика, большая часть квартир располагается на расстоянии до 3-5 км от метро. Мы полагаем, что это объясняется прежде всего спецификой спроса. Обычно люди снимают квартиры в аренду, когда временно пребывают в городе, либо когда только переехали в город, и для них близость к метро крайне важна, так как это их основное средство передвижения в большом городе.
2) На данном графике мы можем проследить характер зависимости между ценой квартиры и ее общей площадью. В большинстве своем, зависимость между ними прямо пропорциональная. Соответственно, чем больше площадь, тем выше стоимость аренды квартиры, что довольно очевидно. Также, можно заметить, что большая часть квартир имеет площадь меньше 150 м2, а их стоимость составляет менее 100 тысяч рублей.
3) Данный график показывает зависимость между ценой и жилой площадью квартир. Здесь присутствует прямо пропорциональная зависимость. С ростом жилой площади растет и сама стоимость аренды. Большая часть квартир имеет жилую площадь меньше 100 м2, и их цена при этом в большинстве случаев не превышает 100 тысяч рублей. Из данной и предыдущей диаграммы в совокупности можно сделать вывод, что нежилая площадь квартиры слабо влияет на изменение стоимости ее аренды.
4) Этот график так же, как и два предыдущих, имеет прямо пропорциональную зависимость. С увеличением площади кухни увеличивается и стоимость квартиры. И на самом деле это вполне закономерно, ведь в большинстве случаев при классических планировках: чем больше кухня, тем больше и сама квартира. К тому же, во многих квартирах кухня также выполняет функцию гостиной, технически таковой не являясь. Но есть на этом графике и интересное отличие, которое стоит упомянуть. На графике мы видим, что существуют квартиры, у которых кухня имеет нулевую площадь (или очень близкое к этому значение). Несмотря на это, они зачастую стоят довольно дорого. Дело в том, что сейчас на рынке много квартир европейской планировки, в которых как таковой кухни не подразумевается. Кухню объединяют с жилой комнатой, и вся площадь кухни уходит в жилую площадь. Наглядным примером может послужить квартира-студия.
5) На данном графике мы видим зависимость стоимости аренды и этажа, на котором располагается квартира. Арендная плата большей части квартир составляет менее 70 тысяч рублей, и располагаются они преимущественно до 20 этажа. Как уже было написано выше, это вероятно связано с тем, что редко съемщики будут переплачивать за высокий этаж, а арендодатели, соответственно, не хотят переплачивать за него при покупке квартиры под съем. Но совсем иначе дело обстоит с недвижимостью дороже среднего; квартиры с арендной платой выше 150 тысяч рублей располагаются исключительно ниже 15 этажа. Это обусловлено, спецификой застройки города, так как в центральных районах, где арендная плата на порядок выше, высокоэтажных строений практически нет.
6) В этом случае стоит рассматривать сразу две переменные одновременно, а именно сопоставлять стоимость арендной платы с долготой и широтой; ведь широта и долгота как значения местоположения недвижимости имеют смысл только вместе. Из графиков видно, что стоимость арендной платы растет, когда широта находится в диапазоне 59,9 и 60, а долгота в районе 30,2 и 30,3. Посмотрев на диаграмму рассеяния для этих двух величин, становится очевидно, что в этих координатах располагается Васильевский остров (59,95 и 30,25) и Крестовский остров (59,97 и 30,24). Из этого следует, что в этих районах сдаются наиболее дорогие квартиры.
7) Как можно заметить, значительная часть квартир сдается на длительный срок (на полгода и на год). Квартиры со стоимости аренды от 200-220 тысяч рублей и выше сдаются исключительно на срок от полугода и выше. Очевидно, что арендодатели заинтересованы в аренде на длительный срок, так как они хотят долго и стабильно получать доход со сдачи недвижимости. Для них поиск новых клиентов – это простой квартиры и потеря потенциальной прибыли.
8) На графике наглядно представлено, что большая часть объявлений была размещена начиная с 2016 года, и лишь единичные случаи были созданы раньше. В какой-то мере это можно объяснить ростом рынка недвижимости. Также, большинство старых объявлений удаляется, причем их удаляют как сами торговые площадки, так и люди, которые создают эти объявления. Немногочисленные объявления с 2012, 2013, 2014 годов - редкие случаи, когда арендодатели все время поднимают свои старые объявления.
Коэффициенты корреляции
Теперь посчитаем коэффиценты корреляции, чтобы убедиться в справедливости диаграмм рассеяния
При анализе таблицы ниже мы руководствовались следующими определениями значений корреляции
Таблица сопровождается графиком, который представляет ту же самую информацию, что и таблица, только в более простом для восприятия виде. Чем больше белый кружок, тем больше положительный коэффициент корреляции. Чем больше черный кружок, тем ближе корреляция к значению -1.
Явно выраженная корреляция наблюдается между стоимостью аренды жилья и площадью кухни (0,49) и жилых помещений (0,74), несмотря на то, что какой-либо видимой зависимости между ценой и общей площадью (0,03) зафиксировано не было. Также стоит отметить, что есть зависимость между стоимостью аренды жилья и количеством комнат в съёмной квартире (0,46). Очевидна зависимость между количеством комнат, площадью кухни и площадью всего жилого помещения. Кроме этого, хочется отметить достаточно заметную корреляцию между годом постройки здания и количеством этажей в доме.
| Variables | Metro_distance | Price | Area_total | Area_living | Area_kitchen | Floor | Latitude | Longitude | Year_construction | Nfloor_real | Rooms_real | Min_dur |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Metro_distance | 1.0000000 | -0.1206124 | -0.0918905 | -0.0930342 | -0.0680493 | -0.0256612 | -0.2034410 | -0.2906412 | 0.0757886 | -0.0301536 | -0.0603036 | -0.0454172 |
| Price | -0.1206124 | 1.0000000 | 0.8131708 | 0.7442123 | 0.4934942 | -0.1457202 | 0.0559214 | -0.0370801 | -0.0886610 | -0.2491651 | 0.6627634 | -0.0150967 |
| Area_total | -0.0918905 | 0.8131708 | 1.0000000 | 0.9385580 | 0.5784405 | -0.1335834 | 0.0717165 | -0.0292531 | -0.1889796 | -0.2556741 | 0.8483727 | -0.0187120 |
| Area_living | -0.0930342 | 0.7442123 | 0.9385580 | 1.0000000 | 0.6358728 | -0.1516852 | 0.0485869 | -0.0151767 | -0.2521660 | -0.2903811 | 0.8086636 | -0.0226211 |
| Area_kitchen | -0.0680493 | 0.4934942 | 0.5784405 | 0.6358728 | 1.0000000 | -0.0201479 | 0.0353711 | -0.0108350 | 0.0018843 | -0.1213568 | 0.3952295 | -0.0227129 |
| Floor | -0.0256612 | -0.1457202 | -0.1335834 | -0.1516852 | -0.0201479 | 1.0000000 | 0.1034846 | 0.0081280 | 0.3415375 | 0.6826485 | -0.1760141 | 0.0149565 |
| Latitude | -0.2034410 | 0.0559214 | 0.0717165 | 0.0485869 | 0.0353711 | 0.1034846 | 1.0000000 | 0.0973085 | 0.0850567 | 0.1030465 | 0.0209695 | 0.0235310 |
| Longitude | -0.2906412 | -0.0370801 | -0.0292531 | -0.0151767 | -0.0108350 | 0.0081280 | 0.0973085 | 1.0000000 | -0.0385457 | -0.0053563 | -0.0070116 | 0.0086314 |
| Year_construction | 0.0757886 | -0.0886610 | -0.1889796 | -0.2521660 | 0.0018843 | 0.3415375 | 0.0850567 | -0.0385457 | 1.0000000 | 0.5176553 | -0.2642816 | 0.1036042 |
| Nfloor_real | -0.0301536 | -0.2491651 | -0.2556741 | -0.2903811 | -0.1213568 | 0.6826485 | 0.1030465 | -0.0053563 | 0.5176553 | 1.0000000 | -0.3205436 | 0.0496926 |
| Rooms_real | -0.0603036 | 0.6627634 | 0.8483727 | 0.8086636 | 0.3952295 | -0.1760141 | 0.0209695 | -0.0070116 | -0.2642816 | -0.3205436 | 1.0000000 | -0.0163105 |
| Min_duration | -0.0454172 | -0.0150967 | -0.0187120 | -0.0226211 | -0.0227129 | 0.0149565 | 0.0235310 | 0.0086314 | 0.1036042 | 0.0496926 | -0.0163105 | 1.0000000 |
Приложения к домашнему заданию
| Region | Frequency |
|---|---|
| gorod Sankt-Peterburg | 2855 |
| Leningradskaya oblast’ | 145 |
| District_ad | Frequency |
|---|---|
| Адмиралтейский | 135 |
| Василеостровский | 182 |
| Всеволожский | 130 |
| Выборгский | 274 |
| Гатчинский | 7 |
| Калининский | 211 |
| Кировский | 122 |
| Колпинский | 5 |
| Красногвардейский | 102 |
| Красносельский | 167 |
| Курортный | 16 |
| Ломоносовский | 4 |
| Московский | 318 |
| Невский | 190 |
| Петроградский | 252 |
| Петродворцовый | 8 |
| Приморский | 340 |
| Пушкинский | 30 |
| Тосненский | 1 |
| Фрунзенский | 97 |
| Центральный | 409 |
| Metro | Frequency |
|---|---|
| 73 | |
| A.Hevskogo pl. | 26 |
| Admiralteiskaya | 28 |
| Akademicheskaya | 81 |
| Antropshino | 1 |
| Avtovo | 46 |
| Baltiiskaya | 18 |
| Berngardovka | 1 |
| Bol’shevikov pr. | 69 |
| Carskoe selo | 4 |
| Chernaya rechka | 35 |
| Chernyshevskaya | 134 |
| Chkalovskaya | 46 |
| Devyatkino | 62 |
| Dostoevskaya | 9 |
| Dybenko ul. | 78 |
| Elektrosila | 29 |
| Elizarovskaya | 4 |
| Frunzenskaya | 52 |
| Gor’kovskaya | 36 |
| Gostinyi Dvor | 28 |
| Grajdanskii pr. | 75 |
| Kirovskii zavod | 8 |
| Komendantskii pr. | 134 |
| Krestovskii ostrov | 45 |
| Kupchino | 62 |
| Kuz’molovo | 2 |
| Ladojskaya | 61 |
| Lenina pl. | 29 |
| Leninskii pr. | 88 |
| Lesnaya | 26 |
| Ligovskii pr. | 8 |
| Lomonosovskaya | 27 |
| Mayakovskaya | 26 |
| Mejdunarodnaya | 39 |
| Moskovskaya | 114 |
| Moskovskie vorota | 8 |
| Mujestva pl. | 29 |
| Narvskaya | 6 |
| Nevskii pr. | 43 |
| Novocherkasskaya | 32 |
| Novyi Petergof | 2 |
| Obuhovo | 2 |
| Obvodnyi Kanal | 6 |
| Ozerki | 68 |
| Park Pobedy | 56 |
| Parnas | 44 |
| Pavlovsk | 1 |
| Pesochnaya | 1 |
| Petrogradskaya | 98 |
| Pionerskaya | 63 |
| Politehnicheskaya | 13 |
| Primorskaya | 133 |
| Proletarskaya | 30 |
| Prosveshcheniya pr. | 97 |
| Pushkinskaya | 7 |
| Repino | 1 |
| Rybackoe | 23 |
| Sadovaya | 29 |
| Sennaya pl. | 25 |
| Sestroreck | 2 |
| Shushary | 1 |
| Spasskaya | 6 |
| Sportivnaya | 24 |
| Staraya Derevnya | 88 |
| Staryi Petergof | 1 |
| Tarhovka | 2 |
| Tat’yanino | 1 |
| Tehnologicheskii i-t | 13 |
| Tosno | 1 |
| Udel’naya | 49 |
| Vasileostrovskaya | 44 |
| Veteranov pr. | 127 |
| Vladimirskaya | 24 |
| Volkovskaya | 1 |
| Vosstaniya pl. | 100 |
| Vsevolojskaya | 3 |
| Vyborgskaya | 4 |
| Zelenogorsk | 1 |
| Zvenigorodskaya | 5 |
| Zvezdnaya | 82 |
| Building | Frequency |
|---|---|
| 307 | |
| 121(Gatchinskaya) | 5 |
| 137 seriya | 31 |
| 504 seriya | 12 |
| 504D seriya | 3 |
| 600.11 seriya | 11 |
| 606 seriya | 8 |
| Besshovnaya tehnologiya | 2 |
| Blochnyi | 99 |
| Brejnevka | 17 |
| Hrushchevka | 31 |
| Individual’nyi proekt | 34 |
| Kirp.Monolit | 634 |
| Kirpichnyi | 999 |
| Korabl’ | 14 |
| Kottedj | 4 |
| Monol.Panel’nyi | 72 |
| Monolit | 332 |
| Panel’nyi | 209 |
| Rekonstrukciya | 6 |
| Stalinskii | 42 |
| Staryi fond | 75 |
| Staryi fond bez KR | 4 |
| Staryi fond s KR | 49 |
| Lift | Frequency |
|---|---|
| 140 | |
| Est’ | 1676 |
| Net | 1184 |
| Furnished | Frequency |
|---|---|
| 865 | |
| Est’ | 70 |
| Garnit+kuh.nab. | 85 |
| Garnitur 70-80 | 10 |
| Garnitur Sovr. | 290 |
| Minimum | 93 |
| Net | 101 |
| Sbor.+kuh.garn. | 600 |
| Sbornaya 70-80 | 21 |
| Sbornaya Sovr. | 829 |
| Tol’ko kuhnya | 36 |
| Bath | Frequency |
|---|---|
| 1591 | |
| Bol’shoi | 9 |
| Dush | 54 |
| Est’ | 129 |
| Na kuhne | 3 |
| Net | 1 |
| Net vanny | 1 |
| Otdel’naya | 793 |
| Poperechnaya | 11 |
| Prodol’naya | 7 |
| Sovmeshchennaya | 401 |
| Refurbished | Frequency |
|---|---|
| 1279 | |
| Dush | 1 |
| Evrostandart | 858 |
| Ne trebuetsya | 151 |
| Otdel’naya | 29 |
| Proizveden | 651 |
| Sovmeshchennaya | 20 |
| Trebuetsya | 11 |
| Balcony | Frequency |
|---|---|
| 1063 | |
| 2 balkona | 16 |
| 2 lodjii | 18 |
| 3 balkona | 2 |
| 3 lodjii | 3 |
| 4 balkona | 2 |
| Balkon | 805 |
| Balkon i lodjiya | 9 |
| Erker | 5 |
| est’ | 138 |
| Lodjiya | 349 |
| net | 2 |
| Net | 279 |
| Terrasa | 14 |
| Zasteklennaya lodjiya | 218 |
| Zasteklennyi balkon | 77 |