Построение регрессионной модели зависимости потребительской активности, интерпретация и оценка её качества

Построем регрессионную модель, чтобы установить, каким образом потребительская активность зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.

## 
## =================================================
##                           Dependent variable:    
##                       ---------------------------
##                                Индекс.ПА         
## -------------------------------------------------
## `Средняя зарплата`             -0.00001          
##                                (0.00001)         
##                                                  
## `Число абонентов`              0.0004***         
##                                (0.0001)          
##                                                  
## `Уровень безработицы`          -0.428***         
##                                 (0.079)          
##                                                  
## СезонЗима                      8.500***          
##                                 (0.650)          
##                                                  
## СезонЛето                      13.578***         
##                                 (0.656)          
##                                                  
## СезонОсень                     13.549***         
##                                 (0.655)          
##                                                  
## Constant                       59.647***         
##                                 (0.922)          
##                                                  
## -------------------------------------------------
## Observations                      876            
## R2                               0.408           
## Adjusted R2                      0.404           
## Residual Std. Error        6.798 (df = 869)      
## F Statistic             99.689*** (df = 6; 869)  
## =================================================
## Note:                 *p<0.1; **p<0.05; ***p<0.01

Прежде чем, проинтерпретировать результаты, полученной модели,оценим ее качество.

  1. Проверка на мультиколлинеарность
##                     Средняя зарплата Число абонентов Уровень безработицы
## Средняя зарплата           1.0000000       0.3298651          -0.2553532
## Число абонентов            0.3298651       1.0000000          -0.2360275
## Уровень безработицы       -0.2553532      -0.2360275           1.0000000

По результатам видно, что ярко выраженной связи между показателями нет.

  1. Проверка на наличие влиятельных наблюдений

Влиятельных наблюдений также не обнаружено.

  1. Проверка на гетероскедастичность

Используем тест Бройша-Пагана на гетероскедастичность, чтобы определить, есть ли систематическая зависимость между остатками модели и независимыми переменными.

## 
##  studentized Breusch-Pagan test
## 
## data:  mod_pa
## BP = 118.57, df = 6, p-value < 2.2e-16

p-value значительно меньше 0.05, что указывает на то, что мы можем откинуть нулевую гипотезу об отсутвии зависимости, следовательно гетероскедастичность у модели есть.

На графике прогнозируемых значений и остатков, остатки не распределены случайно. Там, где прогнозируемы значения выше, остатки меньше. Это еще раз подтверждает то, что у модели присутствует гетероскедастичность.

Скорректируем способ вычисления коэффициентов модели, используя метод, который позволяет вычислять стандартные ошибки коэффициентов, устойчивые к наличию гетероскедастичности. Вынесем новые коэффициенты и ошибки в отдельную таблицу:

## 
## =============================================================
##                       Estimate Std. Error t value Pr(> | t| )
## -------------------------------------------------------------
## (Intercept)            59.647    1.029    57.969       0     
## `Средняя зарплата`    -0.00001  0.00001   -1.255     0.210   
## `Число абонентов`      0.0004    0.0002    2.666     0.008   
## `Уровень безработицы`  -0.428    0.079    -5.438    0.00000  
## СезонЗима              8.500     0.762    11.150       0     
## СезонЛето              13.578    0.715    18.982       0     
## СезонОсень             13.549    0.754    17.963       0     
## -------------------------------------------------------------

После коррекции модели, мы можем заняться ее интерпретацией. При увеличении числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет на 1, индекс потребительской активности в среднем увеличивается на 0.0004 при прочих равных условиях. При увеличении уровня безработицы на 1 процент индекс потребительской активности уменьшается в среднем на 0.428. Зимой индекс потребительской активности на 8.5 больше, чем весной. Летом индекс потребительской активности на 13.57 больше, чем весной, а осенью на 13.549 больше, чем весной. Показалтель “Средняя зарплата” при этом является статистически незначимым. Модель в целом является качественной, однако обладает низкой прогностической силой с коэффициентом детерминации R-квадратом в 40%.

Построение регрессионной модели зависимости доли безналичных платежей, интерпретация и оценка её качества

Теперь построем регрессионную модель, чтобы установить, каким образом доля безналичных платежей зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.

## 
## =================================================
##                           Dependent variable:    
##                       ---------------------------
##                                Индекс.БП         
## -------------------------------------------------
## `Средняя зарплата`             0.0002***         
##                                (0.00001)         
##                                                  
## `Число абонентов`              -0.0002*          
##                                (0.0001)          
##                                                  
## `Уровень безработицы`          -1.135***         
##                                 (0.068)          
##                                                  
## СезонЗима                       -0.093           
##                                 (0.554)          
##                                                  
## СезонЛето                       1.077*           
##                                 (0.559)          
##                                                  
## СезонОсень                     3.344***          
##                                 (0.558)          
##                                                  
## Constant                       51.691***         
##                                 (0.786)          
##                                                  
## -------------------------------------------------
## Observations                      876            
## R2                               0.430           
## Adjusted R2                      0.426           
## Residual Std. Error        5.792 (df = 869)      
## F Statistic            109.190*** (df = 6; 869)  
## =================================================
## Note:                 *p<0.1; **p<0.05; ***p<0.01

Также как и в предыдущем блоке, оценим качество модели.

  1. Проверка на мультиколлинеарность

В предыюущем блоке мы установили что ярко выраженной связи между показателями нет.

  1. Проверка на наличие влиятельных наблюдений

Влиятельных наблюдений не обнаружено.

  1. Проверка на гетероскедастичность

Используем теже метоты, что и в первом блоке. Проведем тест Бройша-Пагана на гетероскедастичность:

## 
##  studentized Breusch-Pagan test
## 
## data:  mod_bp
## BP = 328.91, df = 6, p-value < 2.2e-16

p-value значительно меньше 0.05, что указывает на то, что мы можем откинуть нулевую гипотезу об отсутвии зависимости, следовательно гетероскедастичность у модели есть.

На графике прогнозируемых значений и остатков видно, что остатки не распределены случайным образом. Отметим, что начиная с значения 60 на шкале прогнозируемых значений, остатки линейно уменьшаются. Это еще раз подтверждает наличие гетероскедастичности в модели.

Скорректируем способ вычисления коэффициентов модели, используя тот же метод, что и в прошлом блоке. Занесем новые коэффициенты и ошибки в отдельную таблицу:

## 
## =============================================================
##                       Estimate Std. Error t value Pr(> | t| )
## -------------------------------------------------------------
## (Intercept)            51.691    0.985    52.467       0     
## `Средняя зарплата`     0.0002   0.00001   12.228       0     
## `Число абонентов`     -0.0002    0.0001   -1.930     0.054   
## `Уровень безработицы`  -1.135    0.132    -8.593       0     
## СезонЗима              -0.093    0.545    -0.171     0.865   
## СезонЛето              1.077     0.572     1.882     0.060   
## СезонОсень             3.344     0.566     5.907       0     
## -------------------------------------------------------------

При увеличении средней зарплаты на 1 рубль индекс безналичных платежей увеличивается в среднем на 0.0002 при прочих равных условиях. При увеличении уровня безработицы на 1% индекс безналичных платежей уменьшается в среднем на 1.135 при прочих равных условиях. Осенью индекс безналичных платежей в среднем больше на 3.344 по сравнению с весной. Остальные показатели статистически не значимы. Модель в целом является качественной, однако обладает низкой прогностической силой с коэффициентом детерминации R-квадратом в 43%.

Построение регрессионной модели зависимости склонности населения предпочитать онлайн-услуги банка, интерпретация и оценка её качества

Построем регрессионную модель, чтобы установить, каким образом склонность населения предпочитать онлайн-услуги банка зависит от средней заработной платы в регионе, числа активных абонентов беспроводного наземного фиксированного доступа к сети Интернет и уровня безработицы населения.

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                      comparison_online_offline 
## -----------------------------------------------
## Средняя_зарплата             0.0001***         
##                              (0.00001)         
##                                                
## Число_абонентов              0.0001**          
##                              (0.00005)         
##                                                
## Уровень_безработицы          0.227***          
##                               (0.037)          
##                                                
## СезонЗима                    -1.720***         
##                               (0.383)          
##                                                
## СезонЛето                    -1.811***         
##                               (0.377)          
##                                                
## СезонОсень                   -0.830***         
##                               (0.318)          
##                                                
## Constant                     -6.333***         
##                               (0.533)          
##                                                
## -----------------------------------------------
## Observations                    876            
## Log Likelihood               -221.826          
## Akaike Inf. Crit.             457.652          
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Из полученных результатов модели видно, что каждый показатель является статистически значимым. Чтобы проинтерпретировать результаты модели, экспоненцируем ее коэффициенты.

При увеличении средней зарплаты на 1 рубль вероятность склонности населения предпочитать онлайн-услуги банка увеличивается в среднем в 1 раз при прочих равных условиях. При увеличении числа абонентов на 1 вероятность склонности населения предпочитать онлайн-услуги банка также увеличивается в 1 раз при прочих равных условиях. При увеличении уровня безработицы на 1 % вероятность склонности населения предпочитать онлайн-услуги банка увеличивается в 1.255 раза при прочих равных условиях. Зимой вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 5,587 раза (1/0.179). Летом вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 6,098 раза (1/0.164). Осенью вероятность склонности населения предпочитать онлайн-услуги банка меньше, чем весной, в 2,294 раза (1/0.436).

Проверим качество модели.

У модели наблюдается низкая чувствительность, что означает, что в более чем половине случаев модель предсказывает неверную склонность населения к предпочтению онлайн-услуг банка. Однако, модель обладает очень высокой специфичностью, которая позволяет с высокой точностью предсказывать отсутствие склонности у населения к предпочтению онлайн-услуг банка. AUC (площадь под кривой ROC) у модели достаточно высокий и составляет 0.877, что указывает на высокую производительность модели.

Построение регрессионной модели зависимости склонности населения оформлять ипотеку, интерпретация и оценка её качества

## 
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                     mortgage_deals_greater_500 
## -----------------------------------------------
## Средняя_зарплата            -0.00001***        
##                              (0.00000)         
##                                                
## Число_абонентов              0.001***          
##                              (0.0001)          
##                                                
## Уровень_безработицы          -0.249***         
##                               (0.036)          
##                                                
## СезонЗима                     0.426*           
##                               (0.225)          
##                                                
## СезонЛето                    1.265***          
##                               (0.235)          
##                                                
## СезонОсень                   2.339***          
##                               (0.265)          
##                                                
## Constant                      0.805**          
##                               (0.359)          
##                                                
## -----------------------------------------------
## Observations                    876            
## Log Likelihood               -432.911          
## Akaike Inf. Crit.             879.821          
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

Из полученных результатов модели видно, что каждый показатель является статистически значимым. Чтобы проинтерпретировать результаты модели, также экспоненцируем ее коэффициенты.

При увеличении средней зарплаты на 1 рубль вероятность склонности населения оформлять ипотеку увеличивается в 1 раз при прочих равных условиях. При увеличении числа абонентов на 1 вероятность склонности населения оформлять ипотеку увеличивается в 1.001 при прочих равных условиях. При увеличении уровня безработицы на 1 % вероятность склонности населения оформлять ипотеку уменьшается в (1/0.779) 1,284 раза при прочих равных условиях. Зимой вероятность склонности населения оформлять ипотеку больше чем весной в 1.532 раза. Летом вероятность склонности населения оформлять ипотеку больше чем весной в 3.544 раза. Осенью вероятность склонности населения оформлять ипотеку больше чем весной в 10.368.

Проверим качество модели.

У модели хорошая чувствительность, что говорит о том, что в более чем в половине случаев модель предсказывает правильную склонность населения оформлять ипотеку. Хорошая специфичность позволяет с высокой точностью предсказывать отсутствие склонности населения к оформлению ипотеки. AUC (площадь под кривой ROC) у модели достаточно высокая и составляет 0.822, что указывает на высокую производительность модели.