Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:
## Warning: NAs introduced by coercion
#Проведем анализ для каждой переменной. Для начала построим корреляционную матрицу по всем переменным.
## corrplot 0.84 loaded
##Рассмотрим переменную taxes По графику видим, что переменная taxes не коррелирует ни с одной из переменных в таблице - соответственно, по ней подозрений на мультиколлинеарность в модели нет
Нормальность распределения
Распределение близкое к нормальному, смещенное влево - в проведении тестов с требованием нормальности распределения мешать не будет.
Выбросы некритичны, можно не чистить (тем более что наблюдений немного):
##
## Pearson's product-moment correlation
##
## data: final_data1$AdjSave and final_data1$labor
## t = 25.886, df = 138, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8772446 0.9352320
## sample estimates:
## cor
## 0.9106185
##
## Pearson's product-moment correlation
##
## data: final_data1$AdjNetInc and final_data1$religion
## t = -11.773, df = 138, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7819415 -0.6140803
## sample estimates:
## cor
## -0.7078675
#Individuals using the Internet (% of population)- процент тех людей, у кого есть открытый и долгосрочный доступ в интернет. Этот показатель нам интересен тем, что представляет проинформированного экономического агента, который имеет в открытом доступе актуальную информацию о возможностях заработка как в своей стране, так и за рубежом.
Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0
##
## Pearson's product-moment correlation
##
## data: final_data1$Poverty_gap and final_data1$Internet
## t = -0.19997, df = 138, p-value = 0.8418
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1824083 0.1493048
## sample estimates:
## cor
## -0.01702012
В нашем случае pvalue > 0.05, следовательно, у нас нет оснований делать вывод о взаимосвязи между долей людей, живущих за чертой бедности и процентным соотношением людей, имеющих открытый и долгосрочный доступ в интернет.
Отрицательное значение коэффициента корреляции (sample estimates) указывает на обратнопропорциональную зависимость, т.е. при увеличении доли людей, имеющих открытый и долгосрочный доступ в интернет, доля людей, живущих за чертой бедности, уменьшается.
Проверим ещё раз, есть ли взаимосвязь между долей людей, живущих за чертой бедности, и долей людей, имеющих открытый и долгосрочный доступ в интернет, с помощью модели линейной регрессии:
##
## Call:
## lm(formula = Poverty_gap ~ Internet, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.561 -18.899 -9.354 14.284 51.630
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 20.60677 1.88626 10.93 <2e-16 ***
## Internet -0.01263 0.06318 -0.20 0.842
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.87 on 138 degrees of freedom
## Multiple R-squared: 0.0002897, Adjusted R-squared: -0.006955
## F-statistic: 0.03999 on 1 and 138 DF, p-value: 0.8418
Про влияние предиктора Internet на величину Poverty_gap, к сожалению, нельзя сказать ничего определённого.Коэффициент детерминации (Multiple R-squared) сильно меньше 1, поэтому можно сказать, что модель не отражает реальное положение вещей.
Гипотиза о связи между долей людей, имеющих открытый и долгосрочный доступ в интернет, и индексом демократии.
##
## Pearson's product-moment correlation
##
## data: final_data1$Internet and final_data1$democracy_rate
## t = -1.4266, df = 127, p-value = 0.1562
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.29209823 0.04831859
## sample estimates:
## cor
## -0.1255847
В данном случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, имеющих открытый и долгосрочный доступ в интернет, и индексом демократии действительно есть, при прочих равных.Независимая переменная объясняет динамику зависимой переменной.Наблюдается слабая отрицательная корреляция, то есть при увеличении одного показателя происходит уменьшение другого.
Также мы можем наблюдать некую корреляцию между долей людей, имеющих открытый и долгосрочный доступ в интернет, и всеми остальными переменными. Давайте рассмотрим подробнее среднее значение корреляции (по шкале Чеддока) с рабочей силой, уровнем грамотности среди молодёжи.
##Taxes on income, profits and capital gains (% of revenue) – процент налогообложения прибыли показывает, уровень развития страны, а также налоговые поступления в бюджет.
Чем выше налоги (с одной стороны), тем сложнее вести бизнес, но тем выше социальное обеспечение государства с другой. Влияние этого фактора на уровень бедности не был найден нами в каких-либо научных работах, поэтому нам только предстоит оценить эту переменную и ее значение для исследования нашего вопроса.
Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0.
##
## Pearson's product-moment correlation
##
## data: final_data1$Poverty_gap and final_data1$taxes_on_inc
## t = 0.8861, df = 138, p-value = 0.3771
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.09183283 0.23814792
## sample estimates:
## cor
## 0.0752164
В нашем примере видно, что значение pvalue < 0.05 и даже < 0.01, а точнее принимает значение близкое к 0, следовательно, у нас есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и процентом налогообложения прибыли действительно есть, при прочих равных.Независимая переменная объясняет динамику зависимой переменной.Наблюдается высокая корреляция между переменными, а значит, чем выше процент налогообложения прибыли, тем больше людей живут за чертой бедности.
Рассмотрим простую регрессию.
##
## Call:
## lm(formula = Poverty_gap ~ taxes_on_inc, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.574 -18.209 -9.003 14.972 52.748
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 16.7122 4.6884 3.565 0.000501 ***
## taxes_on_inc 0.1608 0.1815 0.886 0.377104
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.81 on 138 degrees of freedom
## Multiple R-squared: 0.005658, Adjusted R-squared: -0.001548
## F-statistic: 0.7852 on 1 and 138 DF, p-value: 0.3771
На основе этих данных можно сказать, что taxes_on_inc является очень значимым коэффициентом для величины Poverty_gap (t value > 2).Коэффициент детерминации показывает, что модель неплохо описывает данные, но все же она простая.
##Процентное соотношение религиозных людей При изучении поставленного вопроса в других исследованиях, мы обнаружили, что многие исследователи при изучении благосостояния населения обращают внимание на уровень религиозности в данной стране и получают прямую корреляцию – чем выше уровень религиозности, тем больший процент бедных в стране.
Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0
##
## Pearson's product-moment correlation
##
## data: final_data1$Poverty_gap and final_data1$religion
## t = 8.6251, df = 138, p-value = 1.357e-14
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4722981 0.6899845
## sample estimates:
## cor
## 0.5918282
В выдаче R мы видим две важные вещи: значение коэффициента корреляции (sample estimates) и pvalue. В нашем случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и процентным соотношение религиозных людей действительно есть, при прочих равных.
Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:
Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.
##
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.007 -13.286 -3.364 10.233 41.845
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -19.23781 4.84579 -3.970 0.000115 ***
## religion 0.53362 0.06187 8.625 1.36e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared: 0.3503, Adjusted R-squared: 0.3456
## F-statistic: 74.39 on 1 and 138 DF, p-value: 1.357e-14
На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.
##
## Pearson's product-moment correlation
##
## data: final_data1$religion and final_data1$democracy_rate
## t = -7.4671, df = 127, p-value = 1.153e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6620006 -0.4195549
## sample estimates:
## cor
## -0.5523516
Мы можем наблюдать некую корреляцию между долей религиозных людей и всеми остальными переменными, давайте рассмотрим подробнее среднее значение корреляции(по шкале Чеддока) имеется с частным расходом на здравоохранение на душу населения, с коэффициентом Джини и индексом демократии. Сильно коррелируется в отрицательную сторону c Employment и с процентом тех людей, у кого есть открытый и долгосрочный доступ в интернет.
##
## Call:
## lm(formula = Poverty_gap ~ religion + AdjNetInc + Internet, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.728 -13.460 -3.689 11.498 41.235
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.9706180 8.1715753 -0.853 0.3951
## religion 0.4095580 0.0907756 4.512 1.38e-05 ***
## AdjNetInc -0.0003304 0.0001474 -2.242 0.0266 *
## Internet 0.0604142 0.0527932 1.144 0.2545
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.26 on 136 degrees of freedom
## Multiple R-squared: 0.3868, Adjusted R-squared: 0.3733
## F-statistic: 28.6 on 3 and 136 DF, p-value: 2.111e-14
##Индекс демократии (показатель от 0 до 10), где 10- полная демократия. Режим страны определяет то, как работаю все ветви власти и институты, которые занимаются распределением бюджета страны. Поэтому данный показатель может сыграть огромную роль в анализе вопроса о количестве бедных в стране.
Democrac_rate:здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.
## Warning: Removed 11 rows containing missing values (geom_point).
Проверить значимость коэффициента корреляции – проверить нулевую гипотезу о том, что истинный коэффициент корреляции равен 0
##
## Pearson's product-moment correlation
##
## data: final_data1$Poverty_gap and final_data1$democracy_rate
## t = -7.8784, df = 127, p-value = 1.29e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6786110 -0.4440946
## sample estimates:
## cor
## -0.572966
В выдаче R мы видим две важные вещи: значение коэффициента корреляции (sample estimates) и pvalue. В нашем случае pvalue < 0.05, следовательно, на 5% уровне значимости есть основания отвергнуть нулевую гипотезу о равенстве коэффициента корреляции нулю. Раз эту гипотезу отвергаем, считаем, что коэффициент корреляции не 0, а следовательно, связь между долей людей, живущих за чертой бедности и индексом демократии, при прочих равных. Анализируя корреляционную матрицу, определяем что сильно коррелируется в положительную сторону c Employment и с процентом тех людей, у кого есть открытый и текущие частные расходы на здравоохранение на душу населения.И средне в положительную сторону с education,AdjNetInc, а также отрицательно с religion.
Построим регрессионую модель.
##
## Call:
## lm(formula = Poverty_gap ~ democracy_rate, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.545 -9.477 -5.375 8.059 50.453
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 55.6158 4.7343 11.747 < 2e-16 ***
## democracy_rate -5.9993 0.7615 -7.878 1.29e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.96 on 127 degrees of freedom
## (11 observations deleted due to missingness)
## Multiple R-squared: 0.3283, Adjusted R-squared: 0.323
## F-statistic: 62.07 on 1 and 127 DF, p-value: 1.29e-12
#Анализ безработицы, общие государственные расходы на образование,уровень грамотности среди молодежи Визуализируем переменные, исследуемые в нашем проекте, которые исчисляются в процентном соотношение. (Доля ВВП в каждой стране , измеренная в $ США).
Нашим основным вопросом является предположение о том , что на уровень бедности в стране наибольшее влияние оказывает уровень безработицы.
Построим сначала простую модель линейной регрессии , где будем предсказывать уровень бедности через уровень безработицы,а затем сравним полученные результаты с моделью, в которую включены такие параметры как доля ВВП страны на образование, уровень грамотности населения , а также доля расходов государства на здравоохранение.
Наша модель : \[ Poverty =18.4395878+0.2204528*Unemployment \]
##
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.479 -18.474 -8.246 12.704 52.287
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.4396 3.0750 5.997 1.67e-08 ***
## Unemployment_rate 0.2205 0.2593 0.850 0.397
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 21.82 on 138 degrees of freedom
## Multiple R-squared: 0.005212, Adjusted R-squared: -0.001997
## F-statistic: 0.723 on 1 and 138 DF, p-value: 0.3966
## (Intercept) Unemployment_rate
## 18.4395878 0.2204528
На уровне значимости в 5% мы не отвергаем Ho о равенстве нулю нашей переменной Unemployment_rate : p-value: 0.3966 > 0.05
Посмотрим на квадрат ошибок: (RSS)
## [1] 0.005211682
0,005% это очень малая величина.Мы объяснили лишь 0.005 % дисперсии.
Визуализируем:
Попробуем улучшить нашу модель, добавив в нее новые регрессоры и видоизменив главный -Unemployment_rate. Помотрим , как изменится наша модель, если видоизменить ее: на основе линейной регрессии , построенной нами выше мы можем видоизменить нашу модель , сделав ее полиномной и нелинейной по регрессорам :
\[Poverty=b0+ b1Unemployment_rate+b2Unemployment_rate^2+b3Education+b4PPP+B5PPP^2 +u \]
Мы делаем предположение, что такая модели улучшит наши статистические показтели благодаря полиномиальному отношениям среди наших регрессоров (они не были линейными изначально). Для ее реализации мы используем полином второй степени , а также линейные регрессоры:
##
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) +
## education + PPP_perc + I(PPP_perc^2), data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48.580 -9.624 -2.465 5.869 46.729
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.79462 5.45836 9.489 < 2e-16 ***
## Unemployment_rate -0.39905 0.45204 -0.883 0.378939
## I(Unemployment_rate^2) 0.02090 0.01387 1.507 0.134135
## education 1.19631 1.06351 1.125 0.262656
## PPP_perc -14.89390 2.27334 -6.552 1.12e-09 ***
## I(PPP_perc^2) 0.97379 0.24334 4.002 0.000103 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.72 on 134 degrees of freedom
## Multiple R-squared: 0.4988, Adjusted R-squared: 0.4801
## F-statistic: 26.67 on 5 and 134 DF, p-value: < 2.2e-16
Посмотрим на нашу модель подробнее : На первом графике : Зависимость ошибок от предсказанных значений - если значения распределеня равномерно по обе стороны от прямой линии -тогда такая зависимость минимальна.В нашем случае зависимость ошибок есть, но она не критична.
На второ графике мы можем видель насколько наша модель может быть интепретированна как нормальное распределение, как мы видим , выбросы есть , однако мы можем проследить тенденцию к прямой линии.Если это мало похоже на прямую линию, то имеет место отклонение от нормальности.Мы не можем утверждать , что у нас в анализе присутствует нормально-распределенная модель, однако и полностью отвергнуть гипотезу о нормальности не можем.В нашей модели есть выбросы, но они не оказывают огромного влияния на нашу модель.
Последний график - Residuals-Leverage plot- Здесь по оси х - расстояние Кука, а по оси у - стандартизированный размер выбросов. Расстояние Кука показывает high-leverage points - точки, которые имеют экстремальные предсказанные значения, то есть очень большие или очень маленькие значения по предикторам. Для линейной регрессии такие значения имеют большее значение, чем экстремальные точки по предсказываемой переменной. Особенно сильное влияние имеют точки, которые имеют экстремальные значения и по предикторам, и по предсказываемой переменной. Одна такая точка может поменять направление регрессионной прямой.В этом графике нужно смотреть на точки с правой стороны графика, особенно если они находятся высоко или низко по оси у.Как мы видим , особых выбросов не наблюдается, большинство значений находится в левой центральной части, что дает нам право говорить о том, что у нас нет влиятельных выбросов.
Статистика: Доверительные интервалы
## 2.5 % 97.5 %
## (Intercept) 40.998927571 62.59030894
## Unemployment_rate -1.293113679 0.49500963
## I(Unemployment_rate^2) -0.006526501 0.04831966
## education -0.907126175 3.29973710
## PPP_perc -19.390173852 -10.39762533
## I(PPP_perc^2) 0.492516073 1.45506460
Корреляция: более всего изучаемая нами переменная коррелирует с literacy (Чем выше уровень образования , тем ниже уровень бедности) и на таком же уровне держатся и расходы на зжравоохранение.Уровень бедности , к нашему удивлению, коррелирует с уровнем безраьотицы мало и в полжительном контексте - Чем выше безработица , тем выше бедность.Но такая корреляция очень слабая.
## education literacy Poverty_gap Unemployment_rate
## education 1.0000000 0.2584852265 -0.23332088 0.1660459575
## literacy 0.2584852 1.0000000000 -0.66356015 0.0315601937
## Poverty_gap -0.2333209 -0.6635601539 1.00000000 0.0721919780
## Unemployment_rate 0.1660460 0.0315601937 0.07219198 1.0000000000
## religion -0.2641628 -0.2574673444 0.59182822 0.1165697622
## crime 0.2007459 -0.0005294921 -0.07424133 -0.0006932515
## religion crime
## education -0.2641628 0.2007458828
## literacy -0.2574673 -0.0005294921
## Poverty_gap 0.5918282 -0.0742413335
## Unemployment_rate 0.1165698 -0.0006932515
## religion 1.0000000 -0.1124329451
## crime -0.1124329 1.0000000000
Наша модель предсказания улучшилась, но можем ли мы сделать ее еще более точной?
Давайте еще раз посмотрим на наши переменные :
Проанализируем другие переменные и попытаемся добавить их в модель для ее улучшения.
Проанализруем нашу модель : p-value: < 2.2e-16 , следовательно на уровне 5% значимости мы не принимаем нулевую гиполезу.Регрессор - тип страны относительно развивающихся стран иеет уровень значимоти в 1%, что говорит нам о том, что в развивающихся странах уровень бедности при прочих равных регрессорах бедет на 1.35e-05 выше , чем в развитых. Уроввень занятости в данной модели не является значимым.
##
## Call:
## lm(formula = Poverty_gap ~ Unemployment_rate + I(Unemployment_rate^2) +
## literacy + religion + country_type, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -28.818 -8.421 -1.756 4.779 32.882
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 73.434375 8.714590 8.427 4.89e-14 ***
## Unemployment_rate -0.097425 0.361170 -0.270 0.78777
## I(Unemployment_rate^2) 0.008673 0.010969 0.791 0.43054
## literacy -0.911214 0.080797 -11.278 < 2e-16 ***
## religion 0.194155 0.063738 3.046 0.00279 **
## country_typedeveloping 15.865731 3.510855 4.519 1.35e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.47 on 134 degrees of freedom
## Multiple R-squared: 0.6844, Adjusted R-squared: 0.6726
## F-statistic: 58.1 on 5 and 134 DF, p-value: < 2.2e-16
Посмотрим на модель: Нас привлекает график № 3 :
Scale-Location plot. Cпособ исследовать гетеро(гомо)скедастичность и находить выбросы. Если красная линия проходит примерно горизонтально по всему участку -тогда если это так, то предположение о гомоскедастичности, вероятно, удовлетворяется для данной регрессионной модели. В нашем случае этот признак неудовлетворяется, что говорит нам о непостоянной дисперсии между реальными и предсказанными значениями , что делает нашу модель “плохой”.