I Группировка по переменным

С точки зрения статистики, данные принято делить на несколько типов, два из которых - номинальные и числовые. Под номинальными данными подразумевается информация, обозначающая названия различных категорий предметов, например мужчины и женщины, женатые и одинокие. Данные такого типа мы можем только сравнивать между собой. Что касается данных числового типа, их также называют количественными, они могут быть сравнены, упорядочены и измерены. Числовые данные могут быть дискретными и непрерывными. Дискретными данные можно назвать при условии, что набор возможных реализаций – счётное множество. Например, количество клиентов страховой компании или число школ в районе. А непрерывные, в свою очередь, представляют собой набор возможных реализаций из несчётного множества – рост человека или температура воздуха.

К номинальному типу данных мы решили отнести: регион (Region), район (District_ad), адрес (Adress), станции метро (Metro), наличие посредников (Agents), тип здания (Building), наличие лифта (Lift), вид мебелировки (Furnished), тип ванной (Bath),тип ремонта (Refurbished), наличие балкона (Balcony) и переменную, которая показывает, является ли квартира студией или нет. Последней переменной нет в исходном датасете, поскольку она получилась путём преобразования данных. В переменной Rooms было указано, является ли квартира студией или нет. Мы решили сохранить эту информацию отдельно, чтобы не потерять ее, и поэтому создали отдельную переменную Studia.

К числовому типу данных мы отнесли: расстояние до метро (Dist_metro_ad), цену жилья (Price), площадь квартиры (Area_total), жилую площадь (Area_living), площадь кухни (Area_kitchen), номер этажа (Floor), широту (Latitude), долготу (Longitude), год постройки (Year_construction), количество этажей в доме (Nfloor), количество комнат (Rooms), минимальную длительность контракта (Min_duration) и дату размещения объявления (Date_entry)

Год (Year) мы можем отнести к числовому виду данных, так как мы можем найти разницу между двумя выбранными годами, мы не только можем сравнить данные, но и произвести вычисления над ними. То же самое можно сказать и о количестве этажей в доме - мы можем сравнить дома между собой, посчитав разницу в числе этажей этих домов.

По этим же соображениям дата размещения объявления была отнесена к числовому типу данных. Откровенно говоря, дата не является чистой числовой переменной, так как для неё невозможно вычислить многие описательные статистики. Однако некоторые из них вычислить возможно (например, среднее значение или медиану). А если мы говорим про разницу между датами, то в данном случае можно посчитать абсолютно все описательные статистики.

В таблице выше можно ознакомиться со структурой данных

Посмотрим на таблицы с описательными статистиками для каждого типа переменных:

Descriptive statistics
Statistics Dist_metro_ad Price Area_total Area_living Area_kitchen Floor Latitude Longitude Year_constuction Nfloor_real Rooms_real Min_duration Date_entry
mean 1486.583675 45776.451333 79.18013 38.068875 13.812818 6.668999 59.9390368 30.3231117 1999.212308 11.7354641 1.917945 11.58418 2016-10-31
median 780.000000 30000.000000 50.00000 30.000000 10.000000 5.000000 59.9406271 30.3221920 2010.000000 10.0000000 2.000000 11.00000 2017-01-04
min 0.000000 15.000000 15.00000 1.000000 1.000000 1.000000 59.5598793 30.0755290 1838.000000 0.0000000 1.000000 1.00000 2012-02-27
max 42570.000000 500000.000000 45000.00000 400.000000 182.000000 32.000000 60.1083380 30.6497170 2017.000000 36.0000000 60.000000 2500.00000 2017-07-23
mode 50.000000 20000.000000 40.00000 18.000000 10.000000 3.000000 59.9708460 30.3192712 2016.000000 5.0000000 1.000000 11.00000 2017-04-04
q_25 320.000000 21000.000000 39.00000 19.000000 8.000000 3.000000 59.8766390 30.2722820 1998.000000 6.0000000 1.000000 11.00000 2016-05-31
q_75 1570.000000 50000.000000 75.00000 46.000000 15.000000 9.000000 59.9965567 30.3712220 2015.000000 16.0000000 2.000000 11.00000 2017-04-24
std_div 2702.728753 46670.647523 843.30239 28.941657 12.356033 4.911355 0.0693027 0.0816599 26.689594 6.8050649 1.477426 54.78609 NA
range 42570.000000 499985.000000 44985.00000 399.000000 181.000000 31.000000 0.5484587 0.5741880 179.000000 36.0000000 59.000000 2499.00000 NA
assym 5.770642 3.963454 53.13597 3.203321 4.868682 1.366465 -0.2584489 -0.0087459 -2.745163 0.6030862 20.725965 45.23480 NA
kurtosis 50.193754 25.065724 2830.92092 21.271094 39.160880 4.710654 3.1047583 3.2447706 12.052341 2.3110917 798.710399 2055.08867 NA

II Очистка данных

Во время построения таблиц нами были обнаружены некоторые «выбросы» и неточности иного рода, которые препятствовали вычислению описательных статистик и корректному восприятию информации. Мы предприняли следующие шаги для их устранения:

Таблица с исправленными данными:

Descriptive statistics
Statistics Dist_metro_ad Price Area_total Area_living Area_kitchen Floor Latitude Longitude Year_constuction Nfloor_real Rooms_real Min_duration Date_entry
mean 1503.53 46022.70 63.39 38.07 13.81 6.67 59.94 30.32 1999.21 11.88 1.90 10.38 2016-10-31
median 800.00 30000.00 50.00 30.00 10.00 5.00 59.94 30.32 2010.00 10.00 2.00 11.00 2017-01-04
min 7.00 10000.00 15.00 5.00 1.00 1.00 59.56 30.08 1838.00 1.00 1.00 1.00 2012-02-27
max 42570.00 500000.00 456.00 400.00 182.00 32.00 60.11 30.65 2017.00 36.00 10.00 31.00 2017-07-23
mode 50.00 20000.00 40.00 18.00 10.00 3.00 59.97 30.32 2016.00 5.00 1.00 11.00 2017-04-04
q_25 340.00 22000.00 39.00 19.00 8.00 3.00 59.88 30.27 1998.00 6.00 1.00 11.00 2016-05-31
q_75 1570.00 50000.00 75.00 46.00 15.00 9.00 60.00 30.37 2015.00 16.00 2.00 11.00 2017-04-24
std_div 2713.40 46678.66 40.47 28.94 12.36 4.91 0.07 0.08 26.69 6.72 1.03 3.40 NA
range 42563.00 490000.00 441.00 395.00 181.00 31.00 0.55 0.57 179.00 35.00 9.00 30.00 NA
assym 5.75 3.97 2.98 3.20 4.87 1.37 -0.26 -0.01 -2.75 0.64 1.40 0.95 NA
kurtosis 49.83 25.09 17.41 21.28 39.16 4.71 3.10 3.24 12.05 2.29 6.28 17.16 NA

III Описание данных

В приведённой таблице зафиксированы описательные статистики всех указанных переменных. Рассмотрим подробно особенности каждой переменной и проанализируем полученные данные.

1) Первой в нашем списке переменных стоит переменная «Dist_metro_ad», иллюстрирующая расстояние до ближайшей станции метро. Данные предоставлены в метрах. Судя по значениям, полученным в таблице, среднее расстояние составляет около 1503,5 метра. Минимальное расстояние до метро – 7 метров, а максимальное – 42 570 метров. Тем самым, размах для этой переменной будет равен 42 563 м. Медиана, в свою очередь, является такой отметкой, которая делит ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Здесь медианное значение будет равно 800; оно, в свою очередь меньше среднего значения почти в 2 раза. Стоит отметить, что мода для данной переменной равна 50. Здесь у нас указаны две разновидности квантилей, а именно - первый квартиль, который отделяет 25% самых маленьких наблюдений от всех остальных, и третий квартиль, отделяющий 75% самых маленьких наблюдений от числа остальных наблюдений. Можно заметить, что 0,25-квантиль здесь будет равен 340, а 0,75-квантиль – 1570. Для всех переменных было также найдено среднее квадратическое отклонение, отражающее резкие изменения в распределении. Здесь оно равно 2713,40. Коэффициент асимметрии и куртозис для данной переменной соответственно равны 5,75 и 49,83. Такое значение куртозиса говорит об остропиковости распределения. Положительный коэффициент асимметрии иллюстрирует то, что распределение скошено вправо.

2) Следующая переменная «Price», обозначающая наёмную цену, имеет самое большое среднее значение среди всех остальных переменных. Оно составляет 46 000,75 руб/мес. Медианное значение для данной переменной составляет 30 000, при том, что максимальное значение – 500 000, а минимальное – 10 000. При таких данных размах будет составлять 490 000. Мода (самое часто встречающееся значение) в данном множестве наблюдений равна 20 000 руб./месяц. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 22 000, а 0,75-квантиль – 50 000. Что касается отображения резких изменений, возникающих в распределении, то среднее квадратическое отклонение для данной переменной составляет 46 670,73. Коэффициент асимметрии для переменной «Price» положительный и равен 3,97, что говорит о том, что распределение скошено вправо. Значение куртозиса (25,10) даёт нам понять, что распределение для данной переменной является остропиковым.

3) Переменная «Area_total» описывает общую площадь квартир и измеряется в квадратных метрах. Здесь среднее значение составляет 63,39 м2. Максимальное достигаемое значение - 456, а минимальное – 15. Соответственно размах здесь равен 441 м2. Что касается медианного значения, здесь оно будет составлять 50, а мода будет равна 40. Получается, что самое часто встречающееся значение в данном множестве наблюдений - 40 м2. Для данной переменной было также найдено среднее квадратическое отклонение (положительный квадратный корень из дисперсии), отражающее резкие изменения в распределении. Здесь оно равно 40,47. Куртозис для переменной «Area_total» составляет 17,41. Значение куртозиса даёт нам понять, что распределение для данной переменной является остропиковым. Коэффициент асимметрии для данной переменной равен 2,98.

4) Следующая рассматриваемая нами переменная – «Area_living», отображающая жилую площадь в квадратных метрах. Исходя из полученных данных, мы видим, что максимальное значение в данном наблюдении – это 400 м2, а минимальное – 5 м2. Размах получается равным 395. Среднее значение данной переменной составляет 38,07 м2, что чуть больше, чем ее медианное значение, равное 30. Самое часто встречающееся значение в данном множестве наблюдений (мода) равно 18 м2. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 19, а 0,75-квантиль – 46. При нахождении значения отображения резких изменений, возникающих в распределении, мы видим, что среднее квадратическое отклонение для данной переменной составляет 28,94. Коэффициент асимметрии для переменной «Area_living» положительный и равен ~3,20, что говорит о том, что распределение скошено вправо. Куртозис, в свою очередь равен 21,28 и даёт нам понять, что распределение для данной переменной является остропиковым.

5) Проведём анализ для переменной, обозначающей площадь кухни в кв. метрах – «Area_kitchen». Среднее значение, которое принимает эта переменная, равно 14,02 м2. Что касается наибольшего и наименьшего значения, максимальное – 182, минимальное – 2. Видим сходство с предыдущей переменной «Area_living», у которой также минимальное значение равно единице. Размах здесь равен 180 м2. Медианное значение меньше среднего и составляет 10 м2. Что касается отображения резких изменений, возникающих в распределении, то среднее квадратическое отклонение для данной переменной составляет 12,21. Мода для этой переменной равна 10 м2. - соответственно, кухни в квартирах из выборки чаще всего занимают 10 м2. Куртозис для переменной «Area_kitchen» равен приблизительно 40,66. Значит распределение для данной переменной является остропиковым. Коэффициент асимметрии положителен и равен 5,02. Можем сделать вывод, что распределение скошено вправо.

6) Следующая переменная, которую мы рассмотрим – «Floor», обозначает этаж, на котором расположена квартира. Самый часто встречающийся номер этажа – 3. Среднее значение для этой переменной равно 6,67, а медианное значение – 5. Максимальное значение, принимаемое этой переменной, равно 32, а минимальное – 1. Если рассматривать наблюдения для данной переменной по частям, то становится ясно, что 0,25-квантиль здесь будет равен 3, а 0,75-квантиль - 9. Среднее квадратическое отклонение, которое имеет эта переменная, равно 4,91. Коэффициент асимметрии положителен и равен 1,37. Это позволяет нам сделать вывод, что распределение скошено вправо. Куртозис для переменной «Floor» равен приблизительно 4,71, а это значит, что распределение для данной переменной является остропиковым.

7) Переменная «Latitude» отображает географические широты местоположения квартир из выборки. Медиана составляет 59,94, а среднее значение – 59,939: практически равные значения. Мода для этой переменной равна 59,97 – это означает, что именно такое значение чаще всего встречается в данном множестве. Коэффициент асимметрии отрицателен и принимает значение -0,26. Это позволяет нам сделать вывод, что распределение скошено влево. Куртозис для данной переменной равен 3,104. Такое значение является наименьшим среди всех ранее рассмотренных переменных. 0,25-квантиль здесь равен 59,88, а 0,75-квантиль равен 59,99. Что касается среднего квадратического отклонения – оно равно 0,07. Схожесть многих статистических харктеристик переменной говорит о том, что ее распределение близко к нормальному.

8) Следующая переменная «Longitude» обозначает географическую долготу, в которой расположены предлагаемые квартиры. Минимальное значение равно 30,07553, максимальное 30,64972; соответственно размах составляет 0,57419. Среднее арифметическое равно 30,323112, медианное значение соответствует 30,32219. Самое часто встречающееся значение в этом показателе - 30,64972. Если рассматривать среднее квадратическое отклонение, то оно равно 0,08. 0,25-квантиль составляет 30,27228, а 0,75-квантиль - 30,37122. Коэффициент асимметрии и куртозис равны -0,008745862 и 3,244771. Отрицательное значение асимметрии говорит о том, что распределение скошено влево.

9) Для переменной «Year_construction», которая содержит года постройки домов, где сдаются квартиры, среднее значение составляет 1999,21. Касаемо медианы, здесь она превышает значение среднего арифметического более чем на 10 единиц и равна 2010. Самый ранний год постройки - 1838, а поздний - 2017; размах составляет 179 лет. Однако в выборке старые постройки занимают не самую большую часть, о чем говорит 0.25-квантиль. Исходя из вычислений, только 25% домов в объявлениях построены до 1998 года. 0.75-квантиль равен 2015, следовательно, 25% всех объявлений о квартирах в домах, построенных с 2015 до 2017 года. При этом мода равна 2016. Это говорит об ускоряющихся темпах строительства жилых домов в последние годы. Среднее квадратическое отклонение для этой переменной равно 26,69. Коэффициент асимметрии и куртозис равны -2,75 и 12,05 соответственно. Отрицательное значение первого говорит о том, что распределение скошено влево.

10) Рассмотрим следующую переменную, называемую «Nfloor_real». Она содержит в себе информацию о количестве этажей в доме. Средним арифметическим является отметка в 11,88; медиана не отличается от него существенным образом и равна 10. Размах среди этажей в объявлениях достаточно велик, и составляет 35. В самом низком доме из выборки 1 этаж, а в самом высоком - 36. Но чаще всего в выборке встречается 5 этаж, о чем говорит мода. 0,25 квантиль равен 6, то есть случайно найденное объявление будет с вероятностью 0,25 находится ниже шестого этажа, 0,75 квантиль равен уже 16. Среднее квадратическое отклонение в этом критерии составляет 6,72. Коэффициент асимметрии и куртозис равны 0,64 и 2,29 соответственно. Положительное значение первой говорит о том, что распределение скошено вправо.

11) Переменная «Rooms_real» обозначает количество комнат в предложенных объявлениях. Количество комнат разнится от одной до десяти, размах равен 9 соответственно. Среднее арифметическое и медиана примерно равны между собой - первое составляет 1,9, второе 2. Самое часто встречающееся значение, то есть мода, равно 1. Все это говорит нам о преобладании небольших квартир на рынке сдачи недвижимости. Основываясь на вычислениях, 0,25-квантиль равен 1, 0,75-квантиль больше на единицу и, соответственно, равен 2. Следующая рассматриваемая характеристика – среднее квадратическое отклонение, и оно равно 1,03. Осталось сказать только про коэффициент асимметрии и куртозис, они составляют 1,40 и 6,28 соответственно. Основываясь на том, что коэффициент асимметрии положительный, мы можем сделать вывод, что распределение скошено вправо.

12) Рассмотрим переменную «Min_duration», обозначающую минимальный срок, на который арендодатель готов предложить свою квартиру в месяцах. Начнем с минимального значения - 1 месяц, максимальное - 31 месяц. Размах, соответственно, 30; то есть, на рынке можно найти квартиры и для длительного съема, и для короткого. Среднее арифметическое значение равно 10,38, медиана - 11, что очень близко друг к другу. Среднее квадратическое отклонение в этом показателе критерия составляет 3,4. Чаще всего встречается минимальная длительность 11 месяцев, об этом говорит значение моды, рассчитанное для этой переменной. Значение 0,25-квантиля совпадает со значением 0,75-квантиля - оно равно 11, а это значит, что только 25% объявлений рассчитаны на срок сдачи от 11 месяцев Коэффициент асимметрии равен 0,95, а куртозис - 17,16. Распределение скошено вправо.

13) Переменная Date_entry показывает дату размещения объявления. В связи со спецификой данной переменной, невозможно получить для неё все описательные статистики. Однако возможно получить некоторые из них, а именно: минимальное значение, среднее значение, максимальное значение, медиану, моду, первый и третий квартили. Среднее значение - 2016-10-31. Самое ранее объявление датируется 27-м февраля 2012-го года, а самое поздее - 23-м июня 2017-го года. Больше всего объявлений было опубликовано 2017-04-04. Медиана - 2017-01-04 (50% объявлений было опубликовано раньше), первый квартиль - 31-е мая 2016-го года (25% объявлений было опубликовано раньше), третий квартиль - 24-е апреля 2017-го года (75% объявлений было опубликовано раньше).

IV Графики и их описание для числовых данных

1) Смотря на график функции плотности распределения расстояния от метро, становится очевидно, что практически все квартиры расположены менее чем в 10 километрах от ближайшей станции метро. Это подтверждает и график значений, судя по которому абсолютное большинство квартир находятся менее чем в 5 километрах от метро; более 1500 квартир располагаются в радиусе километра от ближайшей станции метро.

2) Значения цен на аренду квартир ежемесячно в основном не превышают 200 тыс рублей; большая часть значений цен сконцентрирована между 0 и 50 тысячами рублей, судя по графику функции плотности значений. Из графика значений видно, что имеют место быть единичные квартиры, чья стоимость выше 200 и 300 тысяч в месяц. Также из этого графика видно, что минимальная цена составляет около 20-25 тысяч рублей.

3) Большая часть значений площади квартир (в метрах квадратных) расположены в пределах от 20 до 90 м2, в дальнейшем плотность функции значений относительно равномерно убывает, пока не становится минимальной после 200 м2. Однако, встречаются единичные квартиры, чья площадь больше 300 м2.

4) Значения жилой площади в квартирах в метрах квадратных, очевидно, некоторым образом связаны со значениями площадей квартир, и будут несколько меньше первых. График функции плотности значений и график значений это подтверждает – большая часть квартир из выборки обладает жилой площадью не более 30 м2. За редким исключением жилая площадь превышает 100 м2, и даже доходит до 200 м2 – вероятно, речь о немногих квартирах, где общая площадь комнат превышает 300 м2.

5) В большей части квартир из выборки площадь кухни – от 5 до 20 м2. Менее чем в 600 квартирах площадь кухни больше 20 м2; имеют место быть квартиры, где площадь кухни в пределах от 50 до 100 м2. Однако, в таком случае речь скорее всего идет об объединенной с гостиной кухне.

6) Квартиры из выборки за редким исключением расположены не выше 20 этажа. Это имеет определенный смысл, ведь мало кто будет переплачивать за квартиру под сдачу на высоком этаже исключительно из-за вида. Больше всего квартир расположено с 3 по 8 этаж.

7-8) Рассчитав статистические показатели по ширине и долготе квартир из выборки, можно сделать вывод, что ширина и долгота являются нормально распределенными величинами. Однако, относительно координат центра Санкт-Петербурга (59.9386, 30.3141) оба графика несколько смещены вправо – это говорит о том, что большая часть квартир находится на северо-востоке относительно центра города.

9) Значения года постройки располагаются в пределах от 1838 до 2017 года, но наибольшее число квартир располагается в домах, построенных уже в 21-м веке. Дома, построенные в 60е-80е года прошлого века, составляют вторую по численности группу. Редко встречаются единичные случаи сдачи квартир в домах, построенных в 19-м веке, немного чаще можно встретить квартиры, расположенные в домах, построенных в первой половине 20-го века

10) Количество этажей в домах, где сдаются квартиры, варьируется довольно сильно. Большинство квартир расположены в домах не выше 10-ти этажей, вероятно, это связано с преимущественно малоэтажной застройкой в центральных районах Санкт-Петербурга. Однако, в новостройках от 15-ти этажей также сдается довольно много квартир – такая застройка практикуется в районах, удаленных от центра, и на окраинах города.

11) С количеством комнат в сдаваемых квартирах все просто – чем больше комнат, тем меньше таких квартир присутствует в выборке. При этом максимальное число комнат – 7.

12) Абсолютное большинство арендодателей указали, что рассчитывают сдавать квартиру как минимум на 12 месяцев; относительно часто встречаются объявления о сдаче на срок от 1 месяца и полугода. Максимальное значение в выборке – 31 месяц. Очевидно,что большая часть владельцев квартир предпочитает заключать договор на долгий срок.

13) Абсолютное большинство объявлений было размещено в 2016-2017 годах. Самое раннее объявление датируется февралем 2012 года.

V Графики и их описание для номинальных данных

Так как построенные нами таблицы для номинальных переменных находятся в приложении, и в них представлены только частоты, их описание содержится в представлении столбиковых диаграмм. Поэтому описание таблиц с частотой для номинальных переменных не требуется; достаточно обойтись описанием диаграмм.

1) Абсолютное большинство квартир из выборки расположено в черте города Санкт-Петербург (2855); всего 4,83% квартир (145) расположены в Ленинградской области

2) Самыми популярными районами для сдачи квартир являются Центральный (409), Приморский (340), Московский (318), Выборгский (274), Петроградский (252) районы; основные причины этого – наличие в районах университетов и офисов различных компаний, а также большое количество новостроек с квартирами под сдачу (для Приморского, Выборгского, Московского районов). Районы с наименьшим количеством квартир под сдачу – Тосненский (1), Ломоносовский (4), Колпинский (5); вероятно, причина в удаленности данных районов от города (Тосненский и Ломоносовский районы принадлежат Ленинградской области)

3) В данный критерий были включены не только станции метро Санкт-Петербурга, но и некоторые железнодорожные станции Ленинградской области, однако ни одна из этих станций не попала в топ-10 наблюдений для катерогии “Метро”. Станции, вблизи которых сдается более ста квартир - Чернышевская (134), Комендантский Проспект (134), Приморская (133), Проспект Ветеранов (127), Московская (114). В остальных районах сдаётся менее ста квартир,однако всё же в некоторых районах, как можно заметить, число квартир, доступных для аренды, близится к значению 100.

4) Больше всего квартир сдается в кирпичных домах (999), домах из кирпичного монолита (634); остальные типы домов с большим отрывом уступают данным двум в популярности. Относительно часто встречаются квартиры в монолитных и панельных домах (332 и 209 соответственно).

5) Из 3000 квартир в выборке при 1676 имеется лифт; в домах, где расположены 1184 квартиры (почти 40% от общего числа), лифта нет – как правило, это малоэтажные здания не выше 5 этажей, дореволюционного и советского периода постройки. В 140 объявлениях о сдаче квартиры не указано наличие/отсутствие лифта.

6) Большая часть квартир оборудована современной сборной мебелью (829), довольно часто в квартирах с такой мебелью имеется и кухонный гарнитур (600). Следующие по популярности с большим отрывом идут квартиры, оборудованные только кухонным гарнитуром (290). Наименее часто встречаются квартиры, оборудованные сборной мебелью или гарнитуром 70х-80х годов выпуска (21 и 10 квартир соответственно). В 29% объявлений о сдаче квартир информация о наличии/отсутствии мебели не указана.

7) Большинство объявлений о сдаче квартир не содержат информации по данному критерию (1591). Среди остальных наиболее популярным является отдельная ванная– она имеется в 793 квартирах. Также часто встречается ванная, совмещенная с душем (401). Во многих объявлениях указано лишь наличие ванны, без указания ее типа. В 4% квартир имеется лишь душ.

8) Из 1720 квартир, для которых информация по данному критерию была указана, почти в половине (858) был произведен ремонт по евростандарту. В 651 объявлении без подробностей указано, что ремонт был произведен; в 151 квартире, согласно объявлению, ремонт не требуется. В абсолютном меньшинстве квартир (11) ремонт требуется.

9) 2/3 объявлений содержат информацию о наличии/отсутствии балконов и лоджий в квартирах. 67% квартир от всего количества обладают балконом, лоджией или террасой – одними или несколькими; но больше всего квартир имеют один балкон (805) или одну лоджию (349). Также, 5 квартир имеют эркер.

10) Студии составляют около 6% от всех квартир для сдачи в аренду.

VI Диаграммы рассеяния и их описание. Коэффициент корреляции

Диаграммы рассеяния

Стоит отметить, что описаны были не все диаграммы, поскольку некоторые из них напрямую коррелируют с диаграммами, построенными по другим переменным. К таковым были отнесены “Number of floors” и “Number of rooms”. Тем не менее, графики построены и находятся в приложении.

1) На этом графике можно проследить зависимость стоимости аренды квартиры и ее близости к метро. Нельзя сказать, что перед нами ярко выраженная обратная зависимость, так как при относительно одинаковой удаленности от станции метро, цены встречаются совершенно разные. Как мы видим из графика, большая часть квартир располагается на расстоянии до 3-5 км от метро. Мы полагаем, что это объясняется прежде всего спецификой спроса. Обычно люди снимают квартиры в аренду, когда временно пребывают в городе, либо когда только переехали в город, и для них близость к метро крайне важна, так как это их основное средство передвижения в большом городе.

2) На данном графике мы можем проследить характер зависимости между ценой квартиры и ее общей площадью. В большинстве своем, зависимость между ними прямо пропорциональная. Соответственно, чем больше площадь, тем выше стоимость аренды квартиры, что довольно очевидно. Также, можно заметить, что большая часть квартир имеет площадь меньше 150 м2, а их стоимость составляет менее 100 тысяч рублей.

3) Данный график показывает зависимость между ценой и жилой площадью квартир. Здесь присутствует прямо пропорциональная зависимость. С ростом жилой площади растет и сама стоимость аренды. Большая часть квартир имеет жилую площадь меньше 100 м2, и их цена при этом в большинстве случаев не превышает 100 тысяч рублей. Из данной и предыдущей диаграммы в совокупности можно сделать вывод, что нежилая площадь квартиры слабо влияет на изменение стоимости ее аренды.

4) Этот график так же, как и два предыдущих, имеет прямо пропорциональную зависимость. С увеличением площади кухни увеличивается и стоимость квартиры. И на самом деле это вполне закономерно, ведь в большинстве случаев при классических планировках: чем больше кухня, тем больше и сама квартира. К тому же, во многих квартирах кухня также выполняет функцию гостиной, технически таковой не являясь. Но есть на этом графике и интересное отличие, которое стоит упомянуть. На графике мы видим, что существуют квартиры, у которых кухня имеет нулевую площадь (или очень близкое к этому значение). Несмотря на это, они зачастую стоят довольно дорого. Дело в том, что сейчас на рынке много квартир европейской планировки, в которых как таковой кухни не подразумевается. Кухню объединяют с жилой комнатой, и вся площадь кухни уходит в жилую площадь. Наглядным примером может послужить квартира-студия.

5) На данном графике мы видим зависимость стоимости аренды и этажа, на котором располагается квартира. Арендная плата большей части квартир составляет менее 70 тысяч рублей, и располагаются они преимущественно до 20 этажа. Как уже было написано выше, это вероятно связано с тем, что редко съемщики будут переплачивать за высокий этаж, а арендодатели, соответственно, не хотят переплачивать за него при покупке квартиры под съем. Но совсем иначе дело обстоит с недвижимостью дороже среднего; квартиры с арендной платой выше 150 тысяч рублей располагаются исключительно ниже 15 этажа. Это обусловлено, спецификой застройки города, так как в центральных районах, где арендная плата на порядок выше, высокоэтажных строений практически нет.

6) В этом случае стоит рассматривать сразу две переменные одновременно, а именно сопоставлять стоимость арендной платы с долготой и широтой; ведь широта и долгота как значения местоположения недвижимости имеют смысл только вместе. Из графиков видно, что стоимость арендной платы растет, когда широта находится в диапазоне 59,9 и 60, а долгота в районе 30,2 и 30,3. Посмотрев на диаграмму рассеяния для этих двух величин, становится очевидно, что в этих координатах располагается Васильевский остров (59,95 и 30,25) и Крестовский остров (59,97 и 30,24). Из этого следует, что в этих районах сдаются наиболее дорогие квартиры.

7) Как можно заметить, значительная часть квартир сдается на длительный срок (на полгода и на год). Квартиры со стоимости аренды от 200-220 тысяч рублей и выше сдаются исключительно на срок от полугода и выше. Очевидно, что арендодатели заинтересованы в аренде на длительный срок, так как они хотят долго и стабильно получать доход со сдачи недвижимости. Для них поиск новых клиентов – это простой квартиры и потеря потенциальной прибыли.

8) На графике наглядно представлено, что большая часть объявлений была размещена начиная с 2016 года, и лишь единичные случаи были созданы раньше. В какой-то мере это можно объяснить ростом рынка недвижимости. Также, большинство старых объявлений удаляется, причем их удаляют как сами торговые площадки, так и люди, которые создают эти объявления. Немногочисленные объявления с 2012, 2013, 2014 годов - редкие случаи, когда арендодатели все время поднимают свои старые объявления.

Коэффициенты корреляции

Теперь посчитаем коэффиценты корреляции, чтобы убедиться в справедливости диаграмм рассеяния

При анализе таблицы ниже мы руководствовались следующими определениями значений корреляции Alt text

Таблица сопровождается графиком, который представляет ту же самую информацию, что и таблица, только в более простом для восприятия виде. Чем больше белый кружок, тем больше положительный коэффициент корреляции. Чем больше черный кружок, тем ближе корреляция к значению -1.

Явно выраженная корреляция наблюдается между стоимостью аренды жилья и площадью кухни (0,49) и жилых помещений (0,74), несмотря на то, что какой-либо видимой зависимости между ценой и общей площадью (0,03) зафиксировано не было. Также стоит отметить, что есть зависимость между стоимостью аренды жилья и количеством комнат в съёмной квартире (0,46). Очевидна зависимость между количеством комнат, площадью кухни и площадью всего жилого помещения. Кроме этого, хочется отметить достаточно заметную корреляцию между годом постройки здания и количеством этажей в доме.

Correlation coefficients
Variables Metro_distance Price Area_total Area_living Area_kitchen Floor Latitude Longitude Year_construction Nfloor_real Rooms_real Min_dur
Metro_distance 1.0000000 -0.1206124 -0.0918905 -0.0930342 -0.0680493 -0.0256612 -0.2034410 -0.2906412 0.0757886 -0.0301536 -0.0603036 -0.0454172
Price -0.1206124 1.0000000 0.8131708 0.7442123 0.4934942 -0.1457202 0.0559214 -0.0370801 -0.0886610 -0.2491651 0.6627634 -0.0150967
Area_total -0.0918905 0.8131708 1.0000000 0.9385580 0.5784405 -0.1335834 0.0717165 -0.0292531 -0.1889796 -0.2556741 0.8483727 -0.0187120
Area_living -0.0930342 0.7442123 0.9385580 1.0000000 0.6358728 -0.1516852 0.0485869 -0.0151767 -0.2521660 -0.2903811 0.8086636 -0.0226211
Area_kitchen -0.0680493 0.4934942 0.5784405 0.6358728 1.0000000 -0.0201479 0.0353711 -0.0108350 0.0018843 -0.1213568 0.3952295 -0.0227129
Floor -0.0256612 -0.1457202 -0.1335834 -0.1516852 -0.0201479 1.0000000 0.1034846 0.0081280 0.3415375 0.6826485 -0.1760141 0.0149565
Latitude -0.2034410 0.0559214 0.0717165 0.0485869 0.0353711 0.1034846 1.0000000 0.0973085 0.0850567 0.1030465 0.0209695 0.0235310
Longitude -0.2906412 -0.0370801 -0.0292531 -0.0151767 -0.0108350 0.0081280 0.0973085 1.0000000 -0.0385457 -0.0053563 -0.0070116 0.0086314
Year_construction 0.0757886 -0.0886610 -0.1889796 -0.2521660 0.0018843 0.3415375 0.0850567 -0.0385457 1.0000000 0.5176553 -0.2642816 0.1036042
Nfloor_real -0.0301536 -0.2491651 -0.2556741 -0.2903811 -0.1213568 0.6826485 0.1030465 -0.0053563 0.5176553 1.0000000 -0.3205436 0.0496926
Rooms_real -0.0603036 0.6627634 0.8483727 0.8086636 0.3952295 -0.1760141 0.0209695 -0.0070116 -0.2642816 -0.3205436 1.0000000 -0.0163105
Min_duration -0.0454172 -0.0150967 -0.0187120 -0.0226211 -0.0227129 0.0149565 0.0235310 0.0086314 0.1036042 0.0496926 -0.0163105 1.0000000

Приложения к домашнему заданию

Table 1.1: Frequency of each obsevation for Region
Region Frequency
gorod Sankt-Peterburg 2855
Leningradskaya oblast’ 145
Table 1.2: Frequency of each obsevation for District
District_ad Frequency
Адмиралтейский 135
Василеостровский 182
Всеволожский 130
Выборгский 274
Гатчинский 7
Калининский 211
Кировский 122
Колпинский 5
Красногвардейский 102
Красносельский 167
Курортный 16
Ломоносовский 4
Московский 318
Невский 190
Петроградский 252
Петродворцовый 8
Приморский 340
Пушкинский 30
Тосненский 1
Фрунзенский 97
Центральный 409
Table 1.3: Frequency of each obsevation for Metro
Metro Frequency
73
A.Hevskogo pl. 26
Admiralteiskaya 28
Akademicheskaya 81
Antropshino 1
Avtovo 46
Baltiiskaya 18
Berngardovka 1
Bol’shevikov pr. 69
Carskoe selo 4
Chernaya rechka 35
Chernyshevskaya 134
Chkalovskaya 46
Devyatkino 62
Dostoevskaya 9
Dybenko ul. 78
Elektrosila 29
Elizarovskaya 4
Frunzenskaya 52
Gor’kovskaya 36
Gostinyi Dvor 28
Grajdanskii pr. 75
Kirovskii zavod 8
Komendantskii pr. 134
Krestovskii ostrov 45
Kupchino 62
Kuz’molovo 2
Ladojskaya 61
Lenina pl. 29
Leninskii pr. 88
Lesnaya 26
Ligovskii pr. 8
Lomonosovskaya 27
Mayakovskaya 26
Mejdunarodnaya 39
Moskovskaya 114
Moskovskie vorota 8
Mujestva pl. 29
Narvskaya 6
Nevskii pr. 43
Novocherkasskaya 32
Novyi Petergof 2
Obuhovo 2
Obvodnyi Kanal 6
Ozerki 68
Park Pobedy 56
Parnas 44
Pavlovsk 1
Pesochnaya 1
Petrogradskaya 98
Pionerskaya 63
Politehnicheskaya 13
Primorskaya 133
Proletarskaya 30
Prosveshcheniya pr. 97
Pushkinskaya 7
Repino 1
Rybackoe 23
Sadovaya 29
Sennaya pl. 25
Sestroreck 2
Shushary 1
Spasskaya 6
Sportivnaya 24
Staraya Derevnya 88
Staryi Petergof 1
Tarhovka 2
Tat’yanino 1
Tehnologicheskii i-t 13
Tosno 1
Udel’naya 49
Vasileostrovskaya 44
Veteranov pr. 127
Vladimirskaya 24
Volkovskaya 1
Vosstaniya pl. 100
Vsevolojskaya 3
Vyborgskaya 4
Zelenogorsk 1
Zvenigorodskaya 5
Zvezdnaya 82
Table 1.4: Frequency of each obsevation for Building
Building Frequency
307
121(Gatchinskaya) 5
137 seriya 31
504 seriya 12
504D seriya 3
600.11 seriya 11
606 seriya 8
Besshovnaya tehnologiya 2
Blochnyi 99
Brejnevka 17
Hrushchevka 31
Individual’nyi proekt 34
Kirp.Monolit 634
Kirpichnyi 999
Korabl’ 14
Kottedj 4
Monol.Panel’nyi 72
Monolit 332
Panel’nyi 209
Rekonstrukciya 6
Stalinskii 42
Staryi fond 75
Staryi fond bez KR 4
Staryi fond s KR 49
Table 1.5: Frequency of each obsevation for Lift
Lift Frequency
140
Est’ 1676
Net 1184
Table 1.6: Frequency of each obsevation for Furnished
Furnished Frequency
865
Est’ 70
Garnit+kuh.nab. 85
Garnitur 70-80 10
Garnitur Sovr. 290
Minimum 93
Net 101
Sbor.+kuh.garn. 600
Sbornaya 70-80 21
Sbornaya Sovr. 829
Tol’ko kuhnya 36
Table 1.7: Frequency of each obsevation for Bath
Bath Frequency
1591
Bol’shoi 9
Dush 54
Est’ 129
Na kuhne 3
Net 1
Net vanny 1
Otdel’naya 793
Poperechnaya 11
Prodol’naya 7
Sovmeshchennaya 401
Table 1.8: Frequency of each obsevation for Refurbished
Refurbished Frequency
1279
Dush 1
Evrostandart 858
Ne trebuetsya 151
Otdel’naya 29
Proizveden 651
Sovmeshchennaya 20
Trebuetsya 11
Table 1.9: Frequency of each obsevation for Balcony
Balcony Frequency
1063
2 balkona 16
2 lodjii 18
3 balkona 2
3 lodjii 3
4 balkona 2
Balkon 805
Balkon i lodjiya 9
Erker 5
est’ 138
Lodjiya 349
net 2
Net 279
Terrasa 14
Zasteklennaya lodjiya 218
Zasteklennyi balkon 77