Проведем развед-анализ данных и посмотрим , с чем нам предстоит работать.В наших данных содежится 17 переменных. Произведем анализ по каждой переменной в отдельности.
## tibble [140 × 21] (S3: tbl_df/tbl/data.frame)
## $ ...1 : num [1:140] 1 2 3 4 5 6 7 8 9 10 ...
## $ country : chr [1:140] "Argentina" "Australia" "Brazil" "China" ...
## $ Government expenditure on education, total (% of GDP) : num [1:140] 5.08 5.05 5.61 4.54 4.77 ...
## $ Literacy rate, youth total (% of people ages 15-24) : num [1:140] 99.5 87.6 98.5 99.7 87.6 ...
## $ Domestic private health expenditure per capita, PPP (current international $) : num [1:140] 671 1149 690 233 1100 ...
## $ Labor force, total : num [1:140] 1.89e+07 1.20e+07 9.80e+07 7.79e+08 4.23e+07 ...
## $ Taxes on income, profits and capital gains (% of revenue) : num [1:140] 13.4 64.6 24 22.7 16.5 ...
## $ Adjusted net national income per capita (current US$) : num [1:140] 8876 40893 8298 4909 36343 ...
## $ Gini index (World Bank estimate) : num [1:140] 43.3 34.8 53.7 40.9 31.1 ...
## $ Trade (% of GDP) : num [1:140] 32.8 42.3 25.5 48 82.5 ...
## $ Adjusted savings: net national savings (current US$) : num [1:140] 2.09e+10 6.83e+10 1.54e+11 2.50e+12 3.33e+11 ...
## $ Individuals using the Internet (% of population) : num [1:140] 45.2 76.6 42.7 33.2 80.5 ...
## $ Total employment, total (ages 15+) : num [1:140] 1.72e+07 1.11e+07 8.93e+07 7.46e+08 3.92e+07 ...
## $ Survey mean consumption or income per capita, total population (2011 PPP $ per day): num [1:140] 18.7 24.3 21 10.5 53 ...
## $ Poverty gap at $5.50 a day (2011 PPP) (% of population) : num [1:140] 5.1143 0.5333 9.85 17.4444 0.0833 ...
## $ Unemployment : num [1:140] 1717661 927517 8616046 32720391 3127490 ...
## $ Unemployment_rate : num [1:140] 9.09 7.71 8.8 4.2 7.39 ...
## $ % религиозных людей : num [1:140] 72 34 79 7 34 76 82 74 13 68 ...
## $ Уровень преступности% : chr [1:140] "62.5" "21.37" "70.24" "45.46" ...
## $ Индекс демократии...20 : chr [1:140] "7.02" "9.09" "6.86" "2.26" ...
## $ Индекс демократии...21 : chr [1:140] "developing" "developed" "developing" "developing" ...
Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:
Количество развитых и развивающихся стран : в нашем анализе страны по типу развития распределены неравномерно, так как в мире больший процент составляют развивающиеся страны, то и в нашем анализе мы не можем отобрать равное число обеих групп.
ggplot(final_data1)+geom_bar(aes(x=country_type,fill=country_type))
Постороим график “c усами” по расходам государства на образование своих граждан (данная метрика измерена в процентах от ВВП страны в $) в зависимости от типа страны (развитая и развивающаяся).
Как мы видим средние траты на образование в развитых странах составляют 5%, тогда как в развивающихся этот показатель ниже около 5,5%. Однако у нас есть выбросы по этому показателю у развивающихся стран.
Как мы видим это такие страны как Botswana,Solomon Islands,Timor-Leste.(составляют выброс).
## Selecting by education
## # A tibble: 10 × 3
## country country_type education
## <chr> <chr> <dbl>
## 1 Botswana developing 9.72
## 2 Solomon Islands developing 9.38
## 3 Timor-Leste developing 8.50
## 4 Moldova developing 7.11
## 5 Namibia developing 7.00
## 6 Eswatini developing 6.60
## 7 Tunisia developing 6.41
## 8 Costa Rica developing 6.38
## 9 Honduras developing 6.36
## 10 Ukraine developing 6.18
Теперь перейдем к анализу показателя уровня грамотрности населения : в изначальных наших предположениях мы надеялись получить положительную корреляцию между тратами на образование и уровнем грамотности населения- проверим наше предположение, построив график рассеяния.
Попробуем построить самую простую линейную модель:как мы видим положительнная зависимость есть, но небольшая. Так как ВВП всех стран разный , то траты на образования тоже будут разнится для многих странах.Ясно одно- что большинство изучаемых нами стран имеют уровень грамотномти выше 80%.
linearMod <- lm(literacy ~ education, data=final_data1)
summary(linearMod)
##
## Call:
## lm(formula = literacy ~ education, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -44.662 -3.921 1.037 10.624 16.755
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.4479 3.7166 20.569 < 2e-16 ***
## education 2.4511 0.7798 3.143 0.00205 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.47 on 138 degrees of freedom
## Multiple R-squared: 0.06681, Adjusted R-squared: 0.06005
## F-statistic: 9.881 on 1 and 138 DF, p-value: 0.002045
Domestic private expebditure per capita (PPP) Tекущие частные расходы на здравоохранение на душу населения, выраженные в международных долларах по паритету покупательной способности. Показывает, насколько развито в государстве система здравоохранения .
Как мы видим, траты в развитых сранах на здравоохранение в пазвитых странах намного превышают показатели развивающихся стран.Мы исследуем данный показатель, чтобы понять, как дополнительные траты индивида на свое здоровье могут влиять на его благополучие.
Количество трудоспособного населения в странах (в миллионах человек):
Теперь проанализируем процент прибыли, облагаемый налогом.Посмотрим , как варьируется налоговая ставка в зависимости от типа страны. В развитых странах налог на прибыль в среднем немного выше, чем в развивающихся, что в полне объяснимо, так как в развитых странах социальное обкспечение и благосотояние обеспечивается налогами граждан, а высокое налогообложение прибыли корпораций ведет к перераспределению доходов и сокрашщению неравенства.
## Selecting by AdjNetInc
## # A tibble: 10 × 3
## country country_type AdjNetInc
## <chr> <chr> <dbl>
## 1 Lithuania developing 12061.
## 2 Uruguay developing 11012.
## 3 Seychelles developing 10958.
## 4 Latvia developing 10705.
## 5 West Bank and Gaza developing 10228.
## 6 Kosovo developing 10228.
## 7 Chile developing 9898.
## 8 Venezuela, RB developing 9871.
## 9 Panama developing 9165.
## 10 Argentina developing 8876.
## country country_type AdjNetInc
## Length:107 Length:107 Min. : 158.6
## Class :character Class :character 1st Qu.: 1074.8
## Mode :character Mode :character Median : 2548.0
## Mean : 3515.3
## 3rd Qu.: 4925.6
## Max. :12060.5
## country country_type AdjNetInc
## Length:33 Length:33 Min. :10228
## Class :character Class :character 1st Qu.:18420
## Mode :character Mode :character Median :34085
## Mean :31991
## 3rd Qu.:40893
## Max. :66755
График по скорректированному чистому национальному доходу показывает валовый национальный доход за вычетом потребления основного капитала и истощения природных ресурсов. Для развивающихся стран среднее значение AdjNetInc - $3515.3, для развитых - $31991. Наиболее существенные выбросы среди развивающихся стран обнаружены в Литве и Уругвае со значениями $12060.515 и $11011.626 соответственно.
## Selecting by Gini
## # A tibble: 2 × 3
## country country_type Gini
## <chr> <chr> <dbl>
## 1 South Africa developing 63.6
## 2 Namibia developing 60.0
## country country_type Gini
## Length:107 Length:107 Min. :25.97
## Class :character Class :character 1st Qu.:35.62
## Mode :character Mode :character Median :39.71
## Mean :40.49
## 3rd Qu.:45.29
## Max. :63.55
## country country_type Gini
## Length:33 Length:33 Min. :24.87
## Class :character Class :character 1st Qu.:28.10
## Mode :character Mode :character Median :32.22
## Mean :31.54
## 3rd Qu.:33.45
## Max. :40.96
Данный график иллюстрирует коэффициент Джини в развитых (developed) и развивающихся (developing) странах. Для развитых стран среднее значение коэф-та Джини - 31.54, для развивающихся - 40.9. Выбросы среди развивающихся стран наблюдаются в ЮАР и Намибии.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 25.55 56.00 78.86 87.84 102.99 352.11
## country country_type trade
## Length:107 Length:107 Min. : 25.55
## Class :character Class :character 1st Qu.: 52.51
## Mode :character Mode :character Median : 75.40
## Mean : 81.37
## 3rd Qu.: 98.74
## Max. :287.16
## country country_type trade
## Length:33 Length:33 Min. : 27.97
## Class :character Class :character 1st Qu.: 64.68
## Mode :character Mode :character Median : 86.63
## Mean :108.83
## 3rd Qu.:140.26
## Max. :352.11
На столбчатой диаграмме рассматриваем торговлю в развитых и развивающихся странах в % от ВВП. Средние значения - 81.37 для развивающихся стран и 108.83 для развитых.
## Selecting by AdjSave
## Selecting by AdjSave
## # A tibble: 10 × 3
## country country_type AdjSave
## <chr> <chr> <dbl>
## 1 United States developed 377562830466.
## 2 Germany developed 332562696013.
## 3 Korea, Rep. developed 215981666497.
## 4 Japan developed 158161394638.
## 5 France developed 123105739165.
## 6 Netherlands developed 99986784467.
## 7 Norway developed 90568965873.
## 8 Canada developed 80918308588.
## 9 Switzerland developed 75870756172.
## 10 Spain developed 75212644893.
## country country_type AdjSave
## Length:107 Length:107 Min. :-2.355e+09
## Class :character Class :character 1st Qu.: 3.630e+08
## Mode :character Mode :character Median : 2.385e+09
## Mean : 4.214e+10
## 3rd Qu.: 1.773e+10
## Max. : 2.500e+12
## country country_type AdjSave
## Length:33 Length:33 Min. :-2.756e+10
## Class :character Class :character 1st Qu.: 3.143e+09
## Mode :character Mode :character Median : 3.070e+10
## Mean : 6.005e+10
## 3rd Qu.: 7.587e+10
## Max. : 3.776e+11
В боксплоте по скорректированным сбережениям мы рассматриваем чистые национальные сбережения для развитых и развивающихся стран. Средние значения - 4.214е+10 и 6.005е+10 для развивающихся и развитых стран соответственно. 10 наиболее крупных выбросов наблюдаются для стран: Китай (2.499523е+12), Индия (4.129428е+11), Российская Федерация (2.506555е+11), Бразилия (1.538666е+11), Индонезия (9.909335е+10), Мексика (7.598012е+10), Турция (7.426814е+10), Венесуэла (6.543703е+10), Филиппины (6.356728е+10), Таиланд (5.090513е+10). Три наиболее крупных выброса для развитых стран: США (377562830466), Германия (332562696013), КНДР (215981666497)
## country country_type Internet
## Length:107 Length:107 Min. : 1.195
## Class :character Class :character 1st Qu.: 9.380
## Mode :character Mode :character Median :19.851
## Mean :22.850
## 3rd Qu.:34.732
## Max. :67.537
## country country_type Internet
## Length:33 Length:33 Min. :48.57
## Class :character Class :character 1st Qu.:63.86
## Mode :character Mode :character Median :74.34
## Mean :72.90
## 3rd Qu.:83.30
## Max. :93.89
В боксплоте физические лица использующие интернет, среднее для развивающихся стран - 22.850% для развитых - 72.90%. Выбросов по данной переменной не обнаружено.
На данной столбчатой диаграмме представлен уровень безработицы в развитых и развивающихся странах. Средние значения по группам стран: 9.645 - для развивающихся, 8.990 - для развитых.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## country country_type Unemployment_rate
## Length:33 Length:33 Min. : 4.596
## Class :character Class :character 1st Qu.: 6.839
## Mode :character Mode :character Median : 8.817
## Mean : 8.990
## 3rd Qu.:10.536
## Max. :18.021
Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:
Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.
На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.
summary(lm(Poverty_gap ~ religion, data=final_data1))
##
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.007 -13.286 -3.364 10.233 41.845
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -19.23781 4.84579 -3.970 0.000115 ***
## religion 0.53362 0.06187 8.625 1.36e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared: 0.3503, Adjusted R-squared: 0.3456
## F-statistic: 74.39 on 1 and 138 DF, p-value: 1.357e-14
Проделаем тоже самое с уровнем преступности : здесь такой явой зависимости нет, однако уровень бедности в развивающихся странах с высоким уровнем преступности заметно выше чем в развитых с теми же показателями доли преступлений.
Democrac_rate:здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.
Summary:
Для дальнейшего анализа мы будем использовать более сложные модели с дамми-переменными и различные модели линейных регрессий.Пока мы провели простейший развед-анализ, посмотрели на то как распределены наши данные, какие данные есть, построили простейшие линейные регрессионные модели и посмотрели татистические критерии по ним.
С помощью данного развед анализа мы выяснили различия в развивающихся и развитых странах, определили и зафиксировали выбросы по переменным.Мы полагаем, что результаты исследования и степень влияния объясняющих переменных на зависимую по развитым и развивающимся странам могут различаться.