Анализ данных :

Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:

## Warning: NAs introduced by coercion

#Проведем анализ для каждой переменной. Для начала построим корреляционную матрицу по всем переменным.

## corrplot 0.84 loaded

##Рассмотрим переменную taxes По графику видим, что переменная taxes не коррелирует ни с одной из переменных в таблице - соответственно, по ней подозрений на мультиколлинеарность в модели нет

Нормальность распределения

Распределение близкое к нормальному, смещенное влево - в проведении тестов с требованием нормальности распределения мешать не будет.

Выбросы некритичны, можно не чистить (тем более что наблюдений немного):

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$AdjSave and final_data1$labor
## t = 25.886, df = 138, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8772446 0.9352320
## sample estimates:
##       cor 
## 0.9106185
## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$AdjNetInc and final_data1$religion
## t = -11.773, df = 138, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.7819415 -0.6140803
## sample estimates:
##        cor 
## -0.7078675

#Individuals using the Internet (% of population)- процент тех людей, у кого есть открытый и долгосрочный доступ в интернет. Этот показатель нам интересен тем, что представляет проинформированного экономического агента, который имеет в открытом доступе актуальную информацию о возможностях заработка как в своей стране, так и за рубежом.

Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$Poverty_gap and final_data1$Internet
## t = -0.19997, df = 138, p-value = 0.8418
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1824083  0.1493048
## sample estimates:
##         cor 
## -0.01702012

В нашем случае pvalue > 0.05, следовательно, у нас нет оснований делать вывод о взаимосвязи между долей людей, живущих за чертой бедности и процентным соотношением людей, имеющих открытый и долгосрочный доступ в интернет.

Отрицательное значение коэффициента корреляции (sample estimates) указывает на обратнопропорциональную зависимость, т.е. при увеличении доли людей, имеющих открытый и долгосрочный доступ в интернет, доля людей, живущих за чертой бедности, уменьшается.

Проверим ещё раз, есть ли взаимосвязь между долей людей, живущих за чертой бедности, и долей людей, имеющих открытый и долгосрочный доступ в интернет, с помощью модели линейной регрессии:

## 
## Call:
## lm(formula = Poverty_gap ~ Internet, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -20.561 -18.899  -9.354  14.284  51.630 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 20.60677    1.88626   10.93   <2e-16 ***
## Internet    -0.01263    0.06318   -0.20    0.842    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.87 on 138 degrees of freedom
## Multiple R-squared:  0.0002897,  Adjusted R-squared:  -0.006955 
## F-statistic: 0.03999 on 1 and 138 DF,  p-value: 0.8418

Про влияние предиктора Internet на величину Poverty_gap, к сожалению, нельзя сказать ничего определённого.Коэффициент детерминации (Multiple R-squared) сильно меньше 1, поэтому можно сказать, что модель не отражает реальное положение вещей.

Гипотиза о связи между долей людей, имеющих открытый и долгосрочный доступ в интернет, и индексом демократии.

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$Internet and final_data1$democracy_rate
## t = -1.4266, df = 127, p-value = 0.1562
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.29209823  0.04831859
## sample estimates:
##        cor 
## -0.1255847

В данном случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, имеющих открытый и долгосрочный доступ в интернет, и индексом демократии действительно есть, при прочих равных.Независимая переменная объясняет динамику зависимой переменной.Наблюдается слабая отрицательная корреляция, то есть при увеличении одного показателя происходит уменьшение другого.

Также мы можем наблюдать некую корреляцию между долей людей, имеющих открытый и долгосрочный доступ в интернет, и всеми остальными переменными. Давайте рассмотрим подробнее среднее значение корреляции (по шкале Чеддока) с рабочей силой, уровнем грамотности среди молодёжи.

##Taxes on income, profits and capital gains (% of revenue) – процент налогообложения прибыли показывает, уровень развития страны, а также налоговые поступления в бюджет.

Чем выше налоги (с одной стороны), тем сложнее вести бизнес, но тем выше социальное обеспечение государства с другой. Влияние этого фактора на уровень бедности не был найден нами в каких-либо научных работах, поэтому нам только предстоит оценить эту переменную и ее значение для исследования нашего вопроса.

Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0.

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$Poverty_gap and final_data1$taxes_on_inc
## t = 0.8861, df = 138, p-value = 0.3771
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09183283  0.23814792
## sample estimates:
##       cor 
## 0.0752164

В нашем примере видно, что значение pvalue < 0.05 и даже < 0.01, а точнее принимает значение близкое к 0, следовательно, у нас есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и процентом налогообложения прибыли действительно есть, при прочих равных.Независимая переменная объясняет динамику зависимой переменной.Наблюдается высокая корреляция между переменными, а значит, чем выше процент налогообложения прибыли, тем больше людей живут за чертой бедности.

Рассмотрим простую регрессию.

## 
## Call:
## lm(formula = Poverty_gap ~ taxes_on_inc, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -26.574 -18.209  -9.003  14.972  52.748 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   16.7122     4.6884   3.565 0.000501 ***
## taxes_on_inc   0.1608     0.1815   0.886 0.377104    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.81 on 138 degrees of freedom
## Multiple R-squared:  0.005658,   Adjusted R-squared:  -0.001548 
## F-statistic: 0.7852 on 1 and 138 DF,  p-value: 0.3771

На основе этих данных можно сказать, что taxes_on_inc является очень значимым коэффициентом для величины Poverty_gap (t value > 2).Коэффициент детерминации показывает, что модель неплохо описывает данные, но все же она простая.

##Процентное соотношение религиозных людей При изучении поставленного вопроса в других исследованиях, мы обнаружили, что многие исследователи при изучении благосостояния населения обращают внимание на уровень религиозности в данной стране и получают прямую корреляцию – чем выше уровень религиозности, тем больший процент бедных в стране.

Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$Poverty_gap and final_data1$religion
## t = 8.6251, df = 138, p-value = 1.357e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4722981 0.6899845
## sample estimates:
##       cor 
## 0.5918282

В выдаче R мы видим две важные вещи: значение коэффициента корреляции (sample estimates) и pvalue. В нашем случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и процентным соотношение религиозных людей действительно есть, при прочих равных.

Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:

Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.

## 
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.007 -13.286  -3.364  10.233  41.845 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -19.23781    4.84579  -3.970 0.000115 ***
## religion      0.53362    0.06187   8.625 1.36e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared:  0.3503, Adjusted R-squared:  0.3456 
## F-statistic: 74.39 on 1 and 138 DF,  p-value: 1.357e-14

На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$religion and final_data1$democracy_rate
## t = -7.4671, df = 127, p-value = 1.153e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6620006 -0.4195549
## sample estimates:
##        cor 
## -0.5523516

Мы можем наблюдать некую корреляцию между долей религиозных людей и всеми остальными переменными, давайте рассмотрим подробнее среднее значение корреляции(по шкале Чеддока) имеется с частным расходом на здравоохранение на душу населения, с коэффициентом Джини и индексом демократии. Сильно коррелируется в отрицательную сторону c Employment и с процентом тех людей, у кого есть открытый и долгосрочный доступ в интернет.

## 
## Call:
## lm(formula = Poverty_gap ~ religion + AdjNetInc + Internet, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -27.728 -13.460  -3.689  11.498  41.235 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -6.9706180  8.1715753  -0.853   0.3951    
## religion     0.4095580  0.0907756   4.512 1.38e-05 ***
## AdjNetInc   -0.0003304  0.0001474  -2.242   0.0266 *  
## Internet     0.0604142  0.0527932   1.144   0.2545    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.26 on 136 degrees of freedom
## Multiple R-squared:  0.3868, Adjusted R-squared:  0.3733 
## F-statistic:  28.6 on 3 and 136 DF,  p-value: 2.111e-14

##Индекс демократии (показатель от 0 до 10), где 10- полная демократия. Режим страны определяет то, как работаю все ветви власти и институты, которые занимаются распределением бюджета страны. Поэтому данный показатель может сыграть огромную роль в анализе вопроса о количестве бедных в стране.

Democrac_rate:здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.

## Warning: Removed 11 rows containing missing values (geom_point).

Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0

## 
##  Pearson's product-moment correlation
## 
## data:  final_data1$Poverty_gap and final_data1$democracy_rate
## t = -7.8784, df = 127, p-value = 1.29e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6786110 -0.4440946
## sample estimates:
##       cor 
## -0.572966

В выдаче R мы видим две важные вещи: значение коэффициента корреляции (sample estimates) и pvalue. В нашем случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и индексом демократии, при прочих равных. Анализируя корреляционную матрицу, определяем что сильно коррелируется в положительную сторону c Employment и с процентом тех людей, у кого есть открытый и текущие частные расходы на здравоохранение на душу населения.И средне в положительную сторону с education,AdjNetInc, а также отрицательно с religion.

Построим регрессионую модель.

## 
## Call:
## lm(formula = Poverty_gap ~ democracy_rate, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.545  -9.477  -5.375   8.059  50.453 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     55.6158     4.7343  11.747  < 2e-16 ***
## democracy_rate  -5.9993     0.7615  -7.878 1.29e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.96 on 127 degrees of freedom
##   (11 observations deleted due to missingness)
## Multiple R-squared:  0.3283, Adjusted R-squared:  0.323 
## F-statistic: 62.07 on 1 and 127 DF,  p-value: 1.29e-12

#Анализ безработицы, общие государственные расходы на образование,уровень грамотности среди молодежи Визуализируем переменные, исследуемые в нашем проекте, которые исчисляются в процентном соотношение. (Доля ВВП в каждой стране , измеренная в $ США).

Нашим основным вопросом является предположение о том , что на уровень бедности в стране наибольшее влияние оказывает уровень безработицы.

Построим сначала простую модель линейной регрессии , где будем предсказывать уровень бедности через уровень безработицы,а затем сравним полученные результаты с моделью, в которую включены такие параметры как доля ВВП страны на образование, уровень грамотности населения , а также доля расходов государства на здравоохранение.

Наша модель : \[ Poverty =18.4395878+0.2204528*Unemployment \]

## 
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -22.479 -18.474  -8.246  12.704  52.287 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        18.4396     3.0750   5.997 1.67e-08 ***
## Unemployment_rate   0.2205     0.2593   0.850    0.397    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 21.82 on 138 degrees of freedom
## Multiple R-squared:  0.005212,   Adjusted R-squared:  -0.001997 
## F-statistic: 0.723 on 1 and 138 DF,  p-value: 0.3966
##       (Intercept) Unemployment_rate 
##        18.4395878         0.2204528

На уровне значимости в 5% мы не отвергаем Ho о равенстве нулю нашей переменной Unemployment_rate : p-value: 0.3966 > 0.05

Посмотрим на квадрат ошибок: (RSS)

## [1] 0.005211682

0,005% это очень малая величина.Мы объяснили лишь 0.005 % дисперсии.

Визуализируем:

Попробуем улучшить нашу модель, добавив в нее новые регрессоры и видоизменив главный -Unemployment_rate. Помотрим , как изменится наша модель, если видоизменить ее: на основе линейной регрессии , построенной нами выше мы можем видоизменить нашу модель , сделав ее полиномной и нелинейной по регрессорам :

\[Poverty=b0+ b1Unemployment_rate+b2Unemployment_rate^2+b3Education+b4PPP+B5PPP^2 +u \]

Мы делаем предположение, что такая модели улучшит наши статистические показтели благодаря полиномиальному отношениям среди наших регрессоров (они не были линейными изначально). Для ее реализации мы используем полином второй степени , а также линейные регрессоры:

## 
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + 
##     education + PPP_perc + I(PPP_perc^2), data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -48.580  -9.624  -2.465   5.869  46.729 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             51.79462    5.45836   9.489  < 2e-16 ***
## Unemployment_rate       -0.39905    0.45204  -0.883 0.378939    
## I(Unemployment_rate^2)   0.02090    0.01387   1.507 0.134135    
## education                1.19631    1.06351   1.125 0.262656    
## PPP_perc               -14.89390    2.27334  -6.552 1.12e-09 ***
## I(PPP_perc^2)            0.97379    0.24334   4.002 0.000103 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.72 on 134 degrees of freedom
## Multiple R-squared:  0.4988, Adjusted R-squared:  0.4801 
## F-statistic: 26.67 on 5 and 134 DF,  p-value: < 2.2e-16

Посмотрим на нашу модель подробнее : На первом графике : Зависимость ошибок от предсказанных значений - если значения распределеня равномерно по обе стороны от прямой линии -тогда такая зависимость минимальна.В нашем случае зависимость ошибок есть, но она не критична.

На второ графике мы можем видель насколько наша модель может быть интепретированна как нормальное распределение, как мы видим , выбросы есть , однако мы можем проследить тенденцию к прямой линии.Если это мало похоже на прямую линию, то имеет место отклонение от нормальности.Мы не можем утверждать , что у нас в анализе присутствует нормально-распределенная модель, однако и полностью отвергнуть гипотезу о нормальности не можем.В нашей модели есть выбросы, но они не оказывают огромного влияния на нашу модель.

Последний график - Residuals-Leverage plot- Здесь по оси х - расстояние Кука, а по оси у - стандартизированный размер выбросов. Расстояние Кука показывает high-leverage points - точки, которые имеют экстремальные предсказанные значения, то есть очень большие или очень маленькие значения по предикторам. Для линейной регрессии такие значения имеют большее значение, чем экстремальные точки по предсказываемой переменной. Особенно сильное влияние имеют точки, которые имеют экстремальные значения и по предикторам, и по предсказываемой переменной. Одна такая точка может поменять направление регрессионной прямой.В этом графике нужно смотреть на точки с правой стороны графика, особенно если они находятся высоко или низко по оси у.Как мы видим , особых выбросов не наблюдается, большинство значений находится в левой центральной части, что дает нам право говорить о том, что у нас нет влиятельных выбросов.

Статистика: Доверительные интервалы

##                                2.5 %       97.5 %
## (Intercept)             40.998927571  62.59030894
## Unemployment_rate       -1.293113679   0.49500963
## I(Unemployment_rate^2)  -0.006526501   0.04831966
## education               -0.907126175   3.29973710
## PPP_perc               -19.390173852 -10.39762533
## I(PPP_perc^2)            0.492516073   1.45506460

Корреляция: более всего изучаемая нами переменная коррелирует с literacy (Чем выше уровень образования , тем ниже уровень бедности) и на таком же уровне держатся и расходы на зжравоохранение.Уровень бедности , к нашему удивлению, коррелирует с уровнем безраьотицы мало и в полжительном контексте - Чем выше безработица , тем выше бедность.Но такая корреляция очень слабая.

##                    education      literacy Poverty_gap Unemployment_rate
## education          1.0000000  0.2584852265 -0.23332088      0.1660459575
## literacy           0.2584852  1.0000000000 -0.66356015      0.0315601937
## Poverty_gap       -0.2333209 -0.6635601539  1.00000000      0.0721919780
## Unemployment_rate  0.1660460  0.0315601937  0.07219198      1.0000000000
## religion          -0.2641628 -0.2574673444  0.59182822      0.1165697622
## crime              0.2007459 -0.0005294921 -0.07424133     -0.0006932515
##                     religion         crime
## education         -0.2641628  0.2007458828
## literacy          -0.2574673 -0.0005294921
## Poverty_gap        0.5918282 -0.0742413335
## Unemployment_rate  0.1165698 -0.0006932515
## religion           1.0000000 -0.1124329451
## crime             -0.1124329  1.0000000000

Наша модель предсказания улучшилась, но можем ли мы сделать ее еще более точной?

Давайте еще раз посмотрим на наши переменные :

Проанализируем другие переменные и попытаемся добавить их в модель для ее улучшения.

Проанализруем нашу модель : p-value: < 2.2e-16 , следовательно на уровне 5% значимости мы не принимаем нулевую гиполезу.Регрессор - тип страны относительно развивающихся стран иеет уровень значимоти в 1%, что говорит нам о том, что в развивающихся странах уровень бедности при прочих равных регрессорах бедет на 1.35e-05 выше , чем в развитых. Уроввень занятости в данной модели не является значимым.

## 
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) + 
##     literacy + religion + country_type, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -28.818  -8.421  -1.756   4.779  32.882 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            73.434375   8.714590   8.427 4.89e-14 ***
## Unemployment_rate      -0.097425   0.361170  -0.270  0.78777    
## I(Unemployment_rate^2)  0.008673   0.010969   0.791  0.43054    
## literacy               -0.911214   0.080797 -11.278  < 2e-16 ***
## religion                0.194155   0.063738   3.046  0.00279 ** 
## country_typedeveloping 15.865731   3.510855   4.519 1.35e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.47 on 134 degrees of freedom
## Multiple R-squared:  0.6844, Adjusted R-squared:  0.6726 
## F-statistic:  58.1 on 5 and 134 DF,  p-value: < 2.2e-16

Посмотрим на модель: Нас привлекает график № 3 :

Scale-Location plot. Cпособ исследовать гетеро(гомо)скедастичность и находить выбросы. Если красная линия проходит примерно горизонтально по всему участку -тогда если это так, то предположение о гомоскедастичности, вероятно, удовлетворяется для данной регрессионной модели. В нашем случае этот признак неудовлетворяется, что говорит нам о непостоянной дисперсии между реальными и предсказанными значениями , что делает нашу модель “плохой”.