Построем регрессионную модель, чтобы установить, каким образом потребительская активность зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.
##
## =================================================
## Dependent variable:
## ---------------------------
## Индекс.ПА
## -------------------------------------------------
## `Средняя зарплата` -0.00001
## (0.00001)
##
## `Число абонентов` 0.0004***
## (0.0001)
##
## `Уровень безработицы` -0.428***
## (0.079)
##
## СезонЗима 8.500***
## (0.650)
##
## СезонЛето 13.578***
## (0.656)
##
## СезонОсень 13.549***
## (0.655)
##
## Constant 59.647***
## (0.922)
##
## -------------------------------------------------
## Observations 876
## R2 0.408
## Adjusted R2 0.404
## Residual Std. Error 6.798 (df = 869)
## F Statistic 99.689*** (df = 6; 869)
## =================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Прежде чем, проинтерпретировать результаты, полученной модели,оценим ее качество.
## Средняя зарплата Число абонентов Уровень безработицы
## Средняя зарплата 1.0000000 0.3298651 -0.2553532
## Число абонентов 0.3298651 1.0000000 -0.2360275
## Уровень безработицы -0.2553532 -0.2360275 1.0000000
По результатам видно, что ярко выраженной связи между показателями нет.
Влиятельных наблюдений также не обнаружено.
Используем тест Бройша-Пагана на гетероскедастичность, чтобы определить, есть ли систематическая зависимость между остатками модели и независимыми переменными.
##
## studentized Breusch-Pagan test
##
## data: mod_pa
## BP = 118.57, df = 6, p-value < 2.2e-16
p-value значительно меньше 0.05, что указывает на то, что мы можем откинуть нулевую гипотезу об отсутвии зависимости, следовательно гетероскедастичность у модели есть.
На графике прогнозируемых значений и остатков, остатки не распределены случайно. Там, где прогнозируемы значения выше, остатки меньше. Это еще раз подтверждает то, что у модели присутствует гетероскедастичность.
Скорректируем способ вычисления коэффициентов модели, используя метод, который позволяет вычислять стандартные ошибки коэффициентов, устойчивые к наличию гетероскедастичности. Вынесем новые коэффициенты и ошибки в отдельную таблицу:
##
## =============================================================
## Estimate Std. Error t value Pr(> | t| )
## -------------------------------------------------------------
## (Intercept) 59.647 1.029 57.969 0
## `Средняя зарплата` -0.00001 0.00001 -1.255 0.210
## `Число абонентов` 0.0004 0.0002 2.666 0.008
## `Уровень безработицы` -0.428 0.079 -5.438 0.00000
## СезонЗима 8.500 0.762 11.150 0
## СезонЛето 13.578 0.715 18.982 0
## СезонОсень 13.549 0.754 17.963 0
## -------------------------------------------------------------
После коррекции модели, мы можем заняться ее интерпретацией. При увеличении числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет на 1, индекс потребительской активности в среднем увеличивается на 0.0004 при прочих равных условиях. При увеличении уровня безработицы на 1 процент индекс потребительской активности уменьшается в среднем на 0.428. Зимой индекс потребительской активности на 8.5 больше, чем весной. Летом индекс потребительской активности на 13.57 больше, чем весной, а осенью на 13.549 больше, чем весной. Показалтель “Средняя зарплата” при этом является статистически незначимым. Модель в целом является качественной, однако обладает низкой прогностической силой с коэффициентом детерминации R-квадратом в 40%.
Теперь построем регрессионную модель, чтобы установить, каким образом доля безналичных платежей зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.
##
## =================================================
## Dependent variable:
## ---------------------------
## Индекс.БП
## -------------------------------------------------
## `Средняя зарплата` 0.0002***
## (0.00001)
##
## `Число абонентов` -0.0002*
## (0.0001)
##
## `Уровень безработицы` -1.135***
## (0.068)
##
## СезонЗима -0.093
## (0.554)
##
## СезонЛето 1.077*
## (0.559)
##
## СезонОсень 3.344***
## (0.558)
##
## Constant 51.691***
## (0.786)
##
## -------------------------------------------------
## Observations 876
## R2 0.430
## Adjusted R2 0.426
## Residual Std. Error 5.792 (df = 869)
## F Statistic 109.190*** (df = 6; 869)
## =================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Также как и в предыдущем блоке, оценим качество модели.
В предыюущем блоке мы установили что ярко выраженной связи между показателями нет.
Влиятельных наблюдений не обнаружено.
Используем теже метоты, что и в первом блоке. Проведем тест Бройша-Пагана на гетероскедастичность:
##
## studentized Breusch-Pagan test
##
## data: mod_bp
## BP = 328.91, df = 6, p-value < 2.2e-16
p-value значительно меньше 0.05, что указывает на то, что мы можем откинуть нулевую гипотезу об отсутвии зависимости, следовательно гетероскедастичность у модели есть.
На графике прогнозируемых значений и остатков видно, что остатки не распределены случайным образом. Отметим, что начиная с значения 60 на шкале прогнозируемых значений, остатки линейно уменьшаются. Это еще раз подтверждает наличие гетероскедастичности в модели.
Скорректируем способ вычисления коэффициентов модели, используя тот же метод, что и в прошлом блоке. Занесем новые коэффициенты и ошибки в отдельную таблицу:
##
## =============================================================
## Estimate Std. Error t value Pr(> | t| )
## -------------------------------------------------------------
## (Intercept) 51.691 0.985 52.467 0
## `Средняя зарплата` 0.0002 0.00001 12.228 0
## `Число абонентов` -0.0002 0.0001 -1.930 0.054
## `Уровень безработицы` -1.135 0.132 -8.593 0
## СезонЗима -0.093 0.545 -0.171 0.865
## СезонЛето 1.077 0.572 1.882 0.060
## СезонОсень 3.344 0.566 5.907 0
## -------------------------------------------------------------
При увеличении средней зарплаты на 1 рубль индекс безналичных платежей увеличивается в среднем на 0.0002 при прочих равных условиях. При увеличении уровня безработицы на 1% индекс безналичных платежей уменьшается в среднем на 1.135 при прочих равных условиях. Осенью индекс безналичных платежей в среднем больше на 3.344 по сравнению с весной. Остальные показатели статистически не значимы. Модель в целом является качественной, однако обладает низкой прогностической силой с коэффициентом детерминации R-квадратом в 43%.
Построем регрессионную модель, чтобы установить, каким образом склонность населения предпочитать онлайн-услуги банка зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.
##
## ===============================================
## Dependent variable:
## ---------------------------
## comparison_online_offline
## -----------------------------------------------
## Средняя_зарплата 0.0001***
## (0.00001)
##
## Число_абонентов 0.0001**
## (0.00005)
##
## Уровень_безработицы 0.227***
## (0.037)
##
## СезонЗима -1.720***
## (0.383)
##
## СезонЛето -1.811***
## (0.377)
##
## СезонОсень -0.830***
## (0.318)
##
## Constant -6.333***
## (0.533)
##
## -----------------------------------------------
## Observations 876
## Log Likelihood -221.826
## Akaike Inf. Crit. 457.652
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Из полученных результатов модели видно, что каждый показатель является статистически значимым. Чтобы проинтерпретировать результаты модели, экспоненцируем ее коэффициенты.
При увеличении средней зарплаты на 1 рубль вероятность склонности населения предпочитать онлайн-услуги банка увеличивается в среднем в 1 раз при прочих равных условиях. При увеличении числа абонентов на 1 вероятность склонности населения предпочитать онлайн-услуги банка также увеличивается в 1 раз при прочих равных условиях. При увеличении уровня безработицы на 1 % вероятность склонности населения предпочитать онлайн-услуги банка увеличивается в 1.255 раза при прочих равных условиях. Зимой вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 5,587 раза (1/0.179). Летом вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 6,098 раза (1/0.164). Осенью вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 2,294 раза (1/0.436).
Проверим качество модели.
У модели наблюдается низкая чувствительность, что означает, что в более чем половине случаев модель предсказывает неверную склонность населения к предпочтению онлайн-услуг банка. Однако, модель обладает очень высокой специфичностью, которая позволяет с высокой точностью предсказывать отсутствие склонности у населения к предпочтению онлайн-услуг банка. AUC (площадь под кривой ROC) у модели достаточно высокий и составляет 0.877, что указывает на высокую производительность модели.
##
## ===============================================
## Dependent variable:
## ---------------------------
## mortgage_deals_greater_500
## -----------------------------------------------
## Средняя_зарплата -0.00001***
## (0.00000)
##
## Число_абонентов 0.001***
## (0.0001)
##
## Уровень_безработицы -0.249***
## (0.036)
##
## СезонЗима 0.426*
## (0.225)
##
## СезонЛето 1.265***
## (0.235)
##
## СезонОсень 2.339***
## (0.265)
##
## Constant 0.805**
## (0.359)
##
## -----------------------------------------------
## Observations 876
## Log Likelihood -432.911
## Akaike Inf. Crit. 879.821
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Из полученных результатов модели видно, что каждый показатель является статистически значимым. Чтобы проинтерпретировать результаты модели, также экспоненцируем ее коэффициенты.
При увеличении средней зарплаты на 1 рубль вероятность склонности населения оформлять ипотеку увеличивается в 1 раз при прочих равных условиях. При увеличении числа абонентов на 1 вероятность склонности населения оформлять ипотеку увеличивается в 1.001 при прочих равных условиях. При увеличении уровня безработицы на 1 % вероятность склонности населения оформлять ипотеку уменьшается в (1/0.779) 1,284 раза при прочих равных условиях. Зимой вероятность склонности населения оформлять ипотеку больше чем весной в 1.532 раза. Летом вероятность склонности населения оформлять ипотеку больше чем весной в 3.544 раза. Осенью вероятность склонности населения оформлять ипотеку больше чем весной в 10.368.
Проверим качество модели.
У модели хорошая чувствительность, что говорит о том, что в более чем в половине случаев модель предсказывает правильную склонность населения оформлять ипотеку. Хорошая специфичность позволяет с высокой точностью предсказывать отсутствие склонности населения к оформлению ипотеки. AUC (площадь под кривой ROC) у модели достаточно высокая и составляет 0.822, что указывает на высокую производительность модели.