В нашей работе мы рассматриваем такую проблему, как влияние безработицы на уровень бедности в стране.

Прежде всего стоит конкретизировать эти два основных параметра- ключевой регрессор и объясняемая переменная (безработица “unemployment rate” и “poverty_gap”). В нашем проекте мы стремимся проанализировать такое сложное экономическое явление как уровень бедности, который просто нельзя анализировать только с точи зрения экономических терминов. Мы подходим к решению экономического вопроса с о стороны институционально-экономических и экономико-культурных сторон. Экономисты при рассмотрении понятия безработицы разделяют ее на три ключевых вида: структурную, фрикционную и сезонную безработицу. Каждая из трех видов имеет свои предпосылки возникновения и тенденции, однако в нашем исследовании мы не разделяем общую безработицу на подтипы, так как область наших интересов лежит вне этого деления. Мы выбрали ключевым регрессором именно безработицу, а не другие социально-экономические регрессоры, так как нам были близки по взглядам идеи

Джозефа Раунти, который изучал бедность не только с точки зрения экономики, но и с социальной точки зрения, уделяя особое внимание безработице не как экономическому циклу с поддержанием системы жёстких цен, а как фундаментальную причину в сбое работы рынка и государственной помощи для устранения причин бедности. Именно поэтому мы не делим безработицу на подвиды, но уделяем особое внимание ее связи с государством и социальными институтами. Мы хотим показать, что уровень занятости имеет особое значения для благосостояния каждого отдельного индивида, на его социальное положение и уровень его заработка.

И главным нашим вопросом проекта стал вопрос:

“Правда ли, что на уровень бедности в большей степени влияет уровень безработицы?”.

Мы поставили именно этот вопрос, так как хотели проверить суть теории Раунта, которую можно представить через такое короткое цитирование из его статьи:

“По мере роста безработицы и изменений в обществе все больше людей оказывется в зависимости от пособий по социальному обеспечению, которые отстают от среднего уровня жизни. В результате обоих факторов бедность ростет.”

Однако, эта теория была создана в середине прошлого века,а мы хотим проверить, сохранила ли она актуальность и на сегодняшний день или нет?

Это и станет нашим экономическим механизмом при проведении проектных исследований.

Для начала закгрузим данные и визуализируем основные регрессоры нашей модели:уровень бедности и безработицы в странах.

Мы можем заметить, что уровень бедности в развитых странах ниже, чем в целом во всех развивающихся странах.Это подтверждает нашу первоначальный аргумент о том, что развитые страны поддерживают уровень бедность на относительно низком уровне, даже не смотря на высокий уровень безработицы за счет гос.поддержки нуждающихся при том что развитые страны, как и развивающиеся, имеют как высокую, так и низкий уровень безработицы, что видно из грайика. Давайте подтвердим наши умозаключения н данных: для этого врозьмем такие социально-экономические показатели, как траты на здравоохранение в процентном соотношении от ВВП страны, уровень демократии и криминала в стране и доступ к интернету, а также траты на образование по двум типам стран.

Как мы видим, наши рассуждения подтверждаются на данных, однако не все.Так, если рассмотреть траты на обучение, то большинство развивающихся стран тратят на обучение такой же процент ВВПкак и развитые, однако уровень бедности там заметно выше, это может быть связано с тем, что абсолютная величина ВВП развивающихся стран ниже.В дальнейшем мы это проверим.

Процент верующих людей явно коррелирует с уровнем бедности, и , хотя в развитых странах наблюдается разные уровни верующих, все же в развивающихся их больше, а с ростом “верующих” растет и уровень бедности.

Траты на здравоохранение также коррелируют с уровнем бедности- особенно это видно в развивающихся странах- там, где они особо малы, люди живут за гранью нищеты.

Что касается уровня преступности- здесь похожая картина- в развивающихся странах уровень преступности в среднем выше 40%, тогда как для развитых этот показатель не превышает 50%.Чем выше преступность- тем выше уровень бедности, это верно как для развитых, так и для развивающихся стран.

И, наконец, уровень доступа людей к интернету, взятый нами как аналог индекса демократии-показывает насколько страна интегрированна в мировое пространство, показывает похожие результаты при анализе: в большинстве развивающихся стран уровень доступа людей к мировому интернетному ресурсу не превышает 50%, тогда как в развитых эта цифра превышает порог 50% в 90% случаев.

## Warning: Removed 11 rows containing missing values (geom_point).

Конечно, при изучении таких глобальных макроэкономических проблем мы не можем быть уверены, что учли все факторы, которые в той или иной степени могли повлиять на корректность нашего исследовательского вопроса и выводов.Поэтому прежде чем строить модели множественных регрессий мы должны выяснить, а могли мы не учесть какие-то факторы, которые могут привести к смещению оценки МНК.

Первым делом посмотрим на таблицу корреляций наших переменных:

Переменные Unemployment_rate и Povety_gap слабо коррелируют, тогда как уровень расходов на здравоохранение и уровень преступности,религиозности и индекс Джини положительно коррелируют с изучаемой переменной. Однако, мы не должны забывать, что наша модель может быть смещенной из-за нерасматриваемых факторов, которые просто не анализировались в нашей модели.Так, например, мы проигнориовали в силу отсутствия полных данных- такой фактор как погодные условия и климат.А ведь в странах ближе к экватору уровень жизни заметно падает из-за тяжелых погодных условий, то же происходит и в крайне северных городах, мы также не рассматриваем переменные, связанные с миграцией населения,процент трудоспособных мужчин в стране, зачастую составляющий основную экономическую силу, не рассматриваем образование по полу и многие другие факторы.

Построим модель множественной линейной регресии:

## 
## Call:
## lm(formula = Poverty_gap ~ Gini + PPP_perc + religion + crime + 
##     Unemployment_rate, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.166  -9.858  -3.447   8.889  43.158 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        3.05463    9.89566   0.309    0.758    
## Gini               0.28439    0.20694   1.374    0.172    
## PPP_perc          -4.27031    0.83541  -5.112 1.08e-06 ***
## religion           0.15688    0.08335   1.882    0.062 .  
## crime              0.17496    0.11174   1.566    0.120    
## Unemployment_rate  0.15549    0.20622   0.754    0.452    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.81 on 134 degrees of freedom
## Multiple R-squared:  0.4927, Adjusted R-squared:  0.4738 
## F-statistic: 26.03 on 5 and 134 DF,  p-value: < 2.2e-16
##       (Intercept)              Gini          PPP_perc          religion 
##         3.0546345         0.2843937        -4.2703119         0.1568802 
##             crime Unemployment_rate 
##         0.1749555         0.1554942

При построении данной множественной линейной регрессии только расходы государства является значмой переменной.То есть с ростом расходов государства на здоравоохраннение, уровень бедности индивида падает в среднем на 4.27 проц.пункта.

При добавлении регрессора типа страны в нашу модель:

## 
## Call:
## lm(formula = Poverty_gap ~ Gini + PPP_perc + religion + crime + 
##     Unemployment_rate + country_type + education + literacy, 
##     data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.934  -7.832  -1.430   5.429  34.428 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            67.27147    9.10189   7.391 1.53e-11 ***
## Gini                    0.62913    0.15507   4.057 8.48e-05 ***
## PPP_perc               -3.02933    0.70660  -4.287 3.48e-05 ***
## religion                0.06705    0.06205   1.081   0.2819    
## crime                   0.02839    0.08062   0.352   0.7253    
## Unemployment_rate       0.19519    0.14972   1.304   0.1946    
## country_typedeveloping  5.02293    3.78524   1.327   0.1868    
## education               1.41433    0.74499   1.898   0.0598 .  
## literacy               -0.89888    0.07707 -11.663  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.15 on 131 degrees of freedom
## Multiple R-squared:  0.7536, Adjusted R-squared:  0.7386 
## F-statistic: 50.08 on 8 and 131 DF,  p-value: < 2.2e-16
##            (Intercept)                   Gini               PPP_perc 
##            67.27147485             0.62913467            -3.02932714 
##               religion                  crime      Unemployment_rate 
##             0.06704692             0.02839000             0.19518656 
## country_typedeveloping              education               literacy 
##             5.02293036             1.41432998            -0.89887744

Проведем дополнительные тесты с типом страны, чтобы узнать какие еще взаимосвязи нам удасться выявить:

## # A tibble: 1 × 10
##   estimate estimate1 estimate2 statistic p.value parameter conf.low conf.high
##      <dbl>     <dbl>     <dbl>     <dbl>   <dbl>     <dbl>    <dbl>     <dbl>
## 1    -1.54      8.99      10.5     -1.72  0.0879      128.    -3.30     0.231
## # … with 2 more variables: method <chr>, alternative <chr>
## # A tibble: 1 × 10
##   estimate estimate1 estimate2 statistic  p.value parameter conf.low conf.high
##      <dbl>     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1    -26.1     0.582      26.7     -12.6 8.95e-23      106.    -30.2     -22.0
## # … with 2 more variables: method <chr>, alternative <chr>
## # A tibble: 1 × 10
##   estimate estimate1 estimate2 statistic  p.value parameter conf.low conf.high
##      <dbl>     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1     3.69      6.38      2.69      10.9 1.48e-14      48.1     3.01      4.37
## # … with 2 more variables: method <chr>, alternative <chr>
## # A tibble: 1 × 10
##   estimate estimate1 estimate2 statistic  p.value parameter conf.low conf.high
##      <dbl>     <dbl>     <dbl>     <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1    -8.95      31.5      40.5     -9.22 3.67e-15      104.    -10.9     -7.03
## # … with 2 more variables: method <chr>, alternative <chr>

При проведении тестов было выявлено, что тип страны взаимосвязан с уровнем бедности, неравенством распределения доходов (индекс GINI) и расходами госудорства на здоровье. Взаимосвязь уровня безработицы и типа страны незначимая.

Предположение: в связи с развитием транснациональных компаний большая часть производства была перенесена в развивающиеся страны, следовательно это значит наличие большого количества рабочих мест там. Но из-за низких заработных плат, уровень бедности в развивающихся странах все равно высок.

Построим регрессионную модель, основываясь на графиках выше, а также наших предположениях о важности регрессоров для нашей исходной модели и посмотрим на качество модели:

## 
## Please cite as:
##  Hlavac, Marek (2018). stargazer: Well-Formatted Regression and Summary Statistics Tables.
##  R package version 5.2.2. https://CRAN.R-project.org/package=stargazer
## 
## ========================================================
##                                  Dependent variable:    
##                              ---------------------------
##                                      Poverty_gap        
## --------------------------------------------------------
## I(log(Gini))                          31.438***         
##                                        (5.377)          
##                                                         
## I(literacy * democracy_rate)          -0.166***         
##                                        (0.018)          
##                                                         
## --------------------------------------------------------
## Observations                             129            
## R2                                      0.770           
## Adjusted R2                             0.756           
## Residual Std. Error               10.776 (df = 121)     
## F Statistic                    57.708*** (df = 7; 121)  
## ========================================================
## Note:                        *p<0.1; **p<0.05; ***p<0.01
## 
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + 
##     I(log(PPP_perc)) + I(education * religion) + I(log(Gini)) + 
##     democracy_rate + I(literacy * democracy_rate), data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.741  -7.832  -0.585   5.588  34.483 
## 
## Coefficients:
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  -80.660070  20.028450  -4.027 9.89e-05 ***
## Unemployment_rate             -0.427367   0.367214  -1.164   0.2468    
## I(Unemployment_rate^2)         0.018735   0.010697   1.751   0.0824 .  
## I(log(PPP_perc))              -8.916593   1.783697  -4.999 1.97e-06 ***
## I(education * religion)        0.018975   0.007749   2.449   0.0158 *  
## I(log(Gini))                  31.438083   5.492326   5.724 7.71e-08 ***
## democracy_rate                13.311077   1.621380   8.210 2.77e-13 ***
## I(literacy * democracy_rate)  -0.165690   0.016469 -10.061  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.78 on 121 degrees of freedom
##   (11 observations deleted due to missingness)
## Multiple R-squared:  0.7695, Adjusted R-squared:  0.7562 
## F-statistic: 57.71 on 7 and 121 DF,  p-value: < 2.2e-16
##                  (Intercept)            Unemployment_rate 
##                 -80.66006965                  -0.42736667 
##       I(Unemployment_rate^2)             I(log(PPP_perc)) 
##                   0.01873458                  -8.91659255 
##      I(education * religion)                 I(log(Gini)) 
##                   0.01897523                  31.43808291 
##               democracy_rate I(literacy * democracy_rate) 
##                  13.31107666                  -0.16569006

В нововой модели мы решили применить экспоненциальную функцию к религии, так как рост религии по отношению к росту бедности вел себы как экспоненциальная функция на графиках выше, по тем же причинам мы возвели в квадрат траты на здравоохранение.

Посмотрим на качество нашей модели: посмотрим на скорректированный коэффициент детерминации Adjusted R-squared: 0.7657. Доля выборочной дисперсии, объясняемая регрессорами довольно хорошее значение, тогда как Residual standard error: 10.56

Сравнивая нашу модель с базовой множественной линейной регрессией мы видим, что изменение предстваленных регрессором через экспоненциальную функцию и квадрат сильно увеличило качество приближения данных второй моделью,также регрессоры модели, такие как crime, PPP_perc и religion,literacy стали значимыми в нашей модели.Мы видим, что модель в целом значима, а также есть значимые регрессоры, значит мультиколинеарности нет.

Нормальность: (выполнено)

## 
## Attaching package: 'MASS'
## The following object is masked from 'package:dplyr':
## 
##     select
## 
##  Shapiro-Wilk normality test
## 
## data:  sresid
## W = 0.96125, p-value = 0.0009754

Гомоскедастичность: p =3.408e-05<0.05 нет гомоскедостичности.

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 21.54767, Df = 1, p = 3.4514e-06

## 
## Suggested power transformation:  0.4158883

У нас нет теоритических оснований ожидать гетероскедастичность, однако нам нужно знать наверняка, так как в дальнейшем это может повлиять на эффективность оценок.У нас достаточно наблюдений и в случае выявления гетераскедостиячости мы используем устойчивые стандартные ошибки для проверки гипотез.

Гетероскедастичность — Var(ϵi|xi)≠const.

Так как нет единого подхода по выявлению гетероскедастичности, то использем наиболее распространенный подход - тест White’s test.

Покажем доверительные интервалы для коэффициентов из регрессии и дисперсию регрессионных констант на регрессоры:

##                                      2.5 %       97.5 %
## (Intercept)                  -1.203117e+02 -41.00847109
## Unemployment_rate            -1.154364e+00   0.29963094
## I(Unemployment_rate^2)       -2.442461e-03   0.03991162
## I(log(PPP_perc))             -1.244789e+01  -5.38529410
## I(education * religion)       3.634526e-03   0.03431593
## I(log(Gini))                  2.056458e+01  42.31159056
## democracy_rate                1.010113e+01  16.52102609
## I(literacy * democracy_rate) -1.982946e-01  -0.13308549

Так как предположение об условной гомоскедастичносити в нашей модели была отвергнута,то как и ожидалось в нашей модели имеет место быть условная гетероскедастичность.

Робастные стандартные ошибки:

## 
##  studentized Breusch-Pagan test
## 
## data:  final_regr
## BP = 24.936, df = 7, p-value = 0.000779

Goldfeld-Quandt Test: мы предполагаем, что разброс дисперсииуровня бедности зависит от типа страны: p-value = 0.002232 Гомоскедастичность отвергается.

Null (H0): Homoscedasticity is present. Alternative (HA): Heteroscedasticity is present.

Поскольку значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. У нас нет достаточных доказательств, чтобы утверждать, что гетероскедастичность присутствует в регрессионной модели.

## 
##  Goldfeld-Quandt test
## 
## data:  final_regr
## GQ = 1.4673, df1 = 57, df2 = 56, p-value = 0.07655
## alternative hypothesis: variance increases from segment 1 to 2

Попробуем использовать тест на гетероскедастичность Бреуша-Пагана (используем робастный (стьюдентизированный) вариант теста ) :

## 
##  studentized Breusch-Pagan test
## 
## data:  final_regr
## BP = 24.936, df = 7, p-value = 0.000779

Так как тест указывает на наличие гетероскедастичности, то следует использовать робастные тестовые статистики:

## 
## t test of coefficients:
## 
##                                 Estimate  Std. Error t value  Pr(>|t|)    
## (Intercept)                  -80.6600696  19.2142584 -4.1979 5.170e-05 ***
## Unemployment_rate             -0.4273667   0.3740462 -1.1426   0.25548    
## I(Unemployment_rate^2)         0.0187346   0.0091717  2.0426   0.04326 *  
## I(log(PPP_perc))              -8.9165926   2.0538474 -4.3414 2.957e-05 ***
## I(education * religion)        0.0189752   0.0084672  2.2410   0.02685 *  
## I(log(Gini))                  31.4380829   5.3771092  5.8467 4.353e-08 ***
## democracy_rate                13.3110767   1.7222965  7.7287 3.556e-12 ***
## I(literacy * democracy_rate)  -0.1656901   0.0179185 -9.2469 1.003e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Как видим, влияние уровня безработицы Unemployment_rate+I(Unemployment_rate^2) стало значимым на уровне 1%.

Проведем тест, выясняющий, есть ли значимое влияние безработицы на уровень бедности.

H0 :Unemployment_rate=0,Unemployment_rate^2=0 H1 :Unemployment_rate!=0,Unemployment_rate^2!=0

## Linear hypothesis test
## 
## Hypothesis:
## Unemployment_rate = 0
## I(Unemployment_rate^2) = 0
## 
## Model 1: restricted model
## Model 2: Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + I(log(PPP_perc)) + 
##     I(education * religion) + I(log(Gini)) + democracy_rate + 
##     I(literacy * democracy_rate)
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F   Pr(>F)   
## 1    123                      
## 2    121  2 6.9147 0.001434 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Тестовая статистика равна 6.9147. На уровне значимости меньше в 10% мы можем отвергнуть нулевую гипотезу о том, что оба коэффициента равны нулю.

Проведем дополнительные тесты :

Посмотрим на такие переменные как уровень демократии и грамотности населения: Потестируем значимость влияния уровня образования , т.е. гипотезу

H0 :democracy_rate=0,literacydemocracy_rate=0 H1 :democracy_rate!=0,literacydemocracy_rate!=0

используя робастный F тест

## Linear hypothesis test
## 
## Hypothesis:
## democracy_rate = 0
## I(literacy * democracy_rate) = 0
## 
## Model 1: restricted model
## Model 2: Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + I(log(PPP_perc)) + 
##     I(education * religion) + I(log(Gini)) + democracy_rate + 
##     I(literacy * democracy_rate)
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F    Pr(>F)    
## 1    123                        
## 2    121  2 50.934 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Тестовая статистика равна 50.934, мы можем отвергнуть нулевую гипотезу о том, что оба коэффициента равны нулю на любом уровне значимости, обычно используемом на практике.

HO:democracy_rate=I(literacy * democracy_rate) = 0

## Linear hypothesis test
## 
## Hypothesis:
## democracy_rate = 0
## I(literacy * democracy_rate) = 0
## 
## Model 1: restricted model
## Model 2: Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + I(log(PPP_perc)) + 
##     I(education * religion) + I(log(Gini)) + democracy_rate + 
##     I(literacy * democracy_rate)
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F    Pr(>F)    
## 1    123                        
## 2    121  2 43.969 4.442e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Влияние демократи значимо на любом уровне значимости.

Выводы: построенная нами модель отражает зависимость уровня бедности от таких регрессоров как безработица, религиозность,уровень демократии, образования среди молодежи и трат на здравоохранение. Мы построили модель, которая досточно хорошо определяет уровень бедности, однако изначально она обладала свойством гетероскедастичности из-за чего мы могли неверно интепретировать значимость регрессоров .Мы провели дополнительные исследования по устранению этого признака и обнаружили, что на уровне значимости в 1% регрессор Unemploymen_rate, который мы изначально ставили в исследовании вопроса на ключевую роль имеет значимость в нашей модели, однако уступает уровню неравенства в обществе и уровню демократии. На основе этого мы можем сделать вывод, противоречащий нашим изначальным предположение о значении уровня безработицы в стране как ключевого источника уровня бедности.