Проведем развед-анализ данных и посмотрим , с чем нам предстоит работать.В наших данных содежится 17 переменных. Произведем анализ по каждой переменной в отдельности.
Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:
Количество развитых и развивающихся стран : в нашем анализе страны по типу развития распределены неравномерно, так как в мире больший процент составляют развивающиеся страны, то и в нашем анализе мы не можем отобрать равное число обеих групп.
ggplot(final_data1)+geom_bar(aes(x=country_type,fill=country_type))+ ggtitle("Количество развитых и развивающихся стран")
Посмотрим, как распределена объясняемая нами переменная:
summary(final_data1$Poverty_gap)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.10 1.60 11.25 20.54 34.88 72.20
sd(final_data1$Poverty_gap)
## [1] 21.79773
plot(final_data1$Poverty_gap, dnorm(final_data1$Poverty_gap, mean = 20.54, sd = 21.79))
hist(final_data1$Poverty_gap ,breaks =15, xlab = "Уровень бедности в стране",
ylab = "Распределение частоты",
main = "График распределения уровня бедности", col = "lightblue")
Постороим график “c усами” по расходам государства на образование своих граждан (данная метрика измерена в процентах от ВВП страны в $) в зависимости от типа страны (развитая и развивающаяся).
Как мы видим средние траты на образование в развитых странах составляют 5%, тогда как в развивающихся этот показатель ниже около 5,5%. Однако у нас есть выбросы по этому показателю у развивающихся стран.
Как мы видим это такие страны как Botswana,Solomon Islands,Timor-Leste.(составляют выброс).
## # A tibble: 10 × 3
## country country_type education
## <chr> <chr> <dbl>
## 1 Botswana developing 9.72
## 2 Solomon Islands developing 9.38
## 3 Timor-Leste developing 8.50
## 4 Moldova developing 7.11
## 5 Namibia developing 7.00
## 6 Eswatini developing 6.60
## 7 Tunisia developing 6.41
## 8 Costa Rica developing 6.38
## 9 Honduras developing 6.36
## 10 Ukraine developing 6.18
Теперь перейдем к анализу показателя уровня грамотрности населения: в изначальных наших предположениях мы надеялись получить положительную корреляцию между тратами на образование и уровнем грамотности населения- проверим наше предположение, построив график рассеяния.
Попробуем построить самую простую линейную модель: как мы видим положительнная зависимость есть, но небольшая. Так как ВВП всех стран разный , то траты на образования тоже будут разнится для многих странах. Ясно одно-что большинство изучаемых нами стран имеют уровень грамотномти выше 80%.
linearMod <- lm(literacy ~ education, data=final_data1)
summary(linearMod)
##
## Call:
## lm(formula = literacy ~ education, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -44.662 -3.921 1.037 10.624 16.755
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.4479 3.7166 20.569 < 2e-16 ***
## education 2.4511 0.7798 3.143 0.00205 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.47 on 138 degrees of freedom
## Multiple R-squared: 0.06681, Adjusted R-squared: 0.06005
## F-statistic: 9.881 on 1 and 138 DF, p-value: 0.002045
Domestic private expebditure per capita (PPP) Tекущие частные расходы на здравоохранение на душу населения, выраженные в международных долларах по паритету покупательной способности. Показывает, насколько развито в государстве система здравоохранения .
Как мы видим, траты в развитых сранах на здравоохранение в пазвитых странах намного превышают показатели развивающихся стран.Мы исследуем данный показатель, чтобы понять, как дополнительные траты индивида на свое здоровье могут влиять на его благополучие.
Количество трудоспособного населения в странах (в миллионах человек):
Теперь проанализируем процент прибыли, облагаемый налогом.Посмотрим, как варьируется налоговая ставка в зависимости от типа страны. В развитых странах налог на прибыль в среднем немного выше, чем в развивающихся, что в полне объяснимо, так как в развитых странах социальное обкспечение и благосотояние обеспечивается налогами граждан, а высокое налогообложение прибыли корпораций ведет к перераспределению доходов и сокрашщению неравенства.
## Selecting by AdjNetInc
## # A tibble: 10 × 3
## country country_type AdjNetInc
## <chr> <chr> <dbl>
## 1 Lithuania developing 12061.
## 2 Uruguay developing 11012.
## 3 Seychelles developing 10958.
## 4 Latvia developing 10705.
## 5 West Bank and Gaza developing 10228.
## 6 Kosovo developing 10228.
## 7 Chile developing 9898.
## 8 Venezuela. RB developing 9871.
## 9 Panama developing 9165.
## 10 Argentina developing 8876.
## country country_type AdjNetInc
## Length:107 Length:107 Min. : 158.6
## Class :character Class :character 1st Qu.: 1074.8
## Mode :character Mode :character Median : 2548.0
## Mean : 3515.3
## 3rd Qu.: 4925.6
## Max. :12060.5
## country country_type AdjNetInc
## Length:33 Length:33 Min. :10228
## Class :character Class :character 1st Qu.:18420
## Mode :character Mode :character Median :34085
## Mean :31991
## 3rd Qu.:40893
## Max. :66755
График по скорректированному чистому национальному доходу показывает валовый национальный доход за вычетом потребления основного капитала и истощения природных ресурсов. Для развивающихся стран среднее значение AdjNetInc - $3515.3, для развитых - $31991. Наиболее существенные выбросы среди развивающихся стран обнаружены в Литве и Уругвае со значениями $12060.515 и $11011.626 соответственно.
## Selecting by Gini
## # A tibble: 2 × 3
## country country_type Gini
## <chr> <chr> <dbl>
## 1 South Africa developing 63.6
## 2 Namibia developing 60.0
## country country_type Gini
## Length:107 Length:107 Min. :25.97
## Class :character Class :character 1st Qu.:35.62
## Mode :character Mode :character Median :39.71
## Mean :40.49
## 3rd Qu.:45.29
## Max. :63.55
## country country_type Gini
## Length:33 Length:33 Min. :24.87
## Class :character Class :character 1st Qu.:28.10
## Mode :character Mode :character Median :32.22
## Mean :31.54
## 3rd Qu.:33.45
## Max. :40.96
Данный график иллюстрирует коэффициент Джини в развитых (developed) и развивающихся (developing) странах. Для развитых стран среднее значение коэф-та Джини - 31.54, для развивающихся - 40.9. Выбросы среди развивающихся стран наблюдаются в ЮАР и Намибии.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.55 56.00 78.86 87.84 102.99 352.11
## NULL
## NULL
На столбчатой диаграмме рассматриваем торговлю в развитых и развивающихся странах в % от ВВП. Средние значения - 81.37 для развивающихся стран и 108.83 для развитых.
## Selecting by AdjSave
## Selecting by AdjSave
## # A tibble: 10 × 3
## country country_type AdjSave
## <chr> <chr> <dbl>
## 1 United States developed 377562830466
## 2 Germany developed 332562696013
## 3 Korea. Rep. developed 215981666497
## 4 Japan developed 158161394638
## 5 France developed 123105739165
## 6 Netherlands developed 99986784467
## 7 Norway developed 90568965873
## 8 Canada developed 80918308588
## 9 Switzerland developed 75870756172
## 10 Spain developed 75212644893
## country country_type AdjSave
## Length:107 Length:107 Min. :-2.355e+09
## Class :character Class :character 1st Qu.: 3.630e+08
## Mode :character Mode :character Median : 2.385e+09
## Mean : 4.214e+10
## 3rd Qu.: 1.773e+10
## Max. : 2.500e+12
## country country_type AdjSave
## Length:33 Length:33 Min. :-2.756e+10
## Class :character Class :character 1st Qu.: 3.143e+09
## Mode :character Mode :character Median : 3.070e+10
## Mean : 6.005e+10
## 3rd Qu.: 7.587e+10
## Max. : 3.776e+11
В боксплоте по скорректированным сбережениям мы рассматриваем чистые национальные сбережения для развитых и развивающихся стран. Средние значения - 4.214е+10 и 6.005е+10 для развивающихся и развитых стран соответственно. 10 наиболее крупных выбросов наблюдаются для стран: Китай (2.499523е+12), Индия (4.129428е+11), Российская Федерация (2.506555е+11), Бразилия (1.538666е+11), Индонезия (9.909335е+10), Мексика (7.598012е+10), Турция (7.426814е+10), Венесуэла (6.543703е+10), Филиппины (6.356728е+10), Таиланд (5.090513е+10). Три наиболее крупных выброса для развитых стран: США (377562830466), Германия (332562696013), КНДР (215981666497)
## country country_type Internet
## Length:107 Length:107 Min. : 1.195
## Class :character Class :character 1st Qu.: 9.380
## Mode :character Mode :character Median :19.851
## Mean :22.850
## 3rd Qu.:34.732
## Max. :67.537
## country country_type Internet
## Length:33 Length:33 Min. :48.57
## Class :character Class :character 1st Qu.:63.86
## Mode :character Mode :character Median :74.34
## Mean :72.90
## 3rd Qu.:83.30
## Max. :93.89
В боксплоте физические лица использующие интернет, среднее для развивающихся стран - 22.850% для развитых - 72.90%. Выбросов по данной переменной не обнаружено.
На данной столбчатой диаграмме представлен уровень безработицы в развитых и развивающихся странах. Средние значения по группам стран: 9.645 - для развивающихся, 8.990 - для развитых.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## country country_type Unemployment_rate
## Length:33 Length:33 Min. : 4.596
## Class :character Class :character 1st Qu.: 6.839
## Mode :character Mode :character Median : 8.817
## Mean : 8.990
## 3rd Qu.:10.536
## Max. :18.021
Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:
Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.
На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.
summary(lm(Poverty_gap ~ religion, data=final_data1))
##
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.971 -13.270 -3.368 10.216 41.798
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -19.23051 4.84532 -3.969 0.000116 ***
## religion 0.53369 0.06186 8.627 1.34e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared: 0.3504, Adjusted R-squared: 0.3457
## F-statistic: 74.43 on 1 and 138 DF, p-value: 1.342e-14
Проделаем тоже самое с уровнем преступности: здесь такой явой зависимости нет, однако уровень бедности в развивающихся странах с высоким уровнем преступности заметно выше чем в развитых с теми же показателями доли преступлений.
Democrac_rate: здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.
Выводы:
Для дальнейшего анализа мы будем использовать более сложные модели с дамми-переменными и различные модели линейных регрессий.Пока мы провели простейший развед-анализ, посмотрели на то как распределены наши данные, какие данные есть, построили простейшие линейные регрессионные модели и посмотрели татистические критерии по ним.
С помощью данного развед анализа мы выяснили различия в развивающихся и развитых странах, определили и зафиксировали выбросы по переменным.Мы полагаем, что результаты исследования и степень влияния объясняющих переменных на зависимую по развитым и развивающимся странам могут различаться.