Анализ данных

Проведем развед-анализ данных и посмотрим , с чем нам предстоит работать.В наших данных содежится 17 переменных. Произведем анализ по каждой переменной в отдельности.

Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:

Количество развитых и развивающихся стран : в нашем анализе страны по типу развития распределены неравномерно, так как в мире больший процент составляют развивающиеся страны, то и в нашем анализе мы не можем отобрать равное число обеих групп.

ggplot(final_data1)+geom_bar(aes(x=country_type,fill=country_type))+ ggtitle("Количество развитых и развивающихся стран") 

Посмотрим, как распределена объясняемая нами переменная:

summary(final_data1$Poverty_gap)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.10    1.60   11.25   20.54   34.88   72.20
sd(final_data1$Poverty_gap)
## [1] 21.79773
plot(final_data1$Poverty_gap, dnorm(final_data1$Poverty_gap, mean = 20.54, sd = 21.79))

hist(final_data1$Poverty_gap ,breaks =15, xlab = "Уровень бедности в стране",
      ylab = "Распределение частоты",
      main = "График распределения уровня бедности", col = "lightblue")

Постороим график “c усами” по расходам государства на образование своих граждан (данная метрика измерена в процентах от ВВП страны в $) в зависимости от типа страны (развитая и развивающаяся).

Как мы видим средние траты на образование в развитых странах составляют 5%, тогда как в развивающихся этот показатель ниже около 5,5%. Однако у нас есть выбросы по этому показателю у развивающихся стран.

Как мы видим это такие страны как Botswana,Solomon Islands,Timor-Leste.(составляют выброс).

## # A tibble: 10 × 3
##    country         country_type education
##    <chr>           <chr>            <dbl>
##  1 Botswana        developing        9.72
##  2 Solomon Islands developing        9.38
##  3 Timor-Leste     developing        8.50
##  4 Moldova         developing        7.11
##  5 Namibia         developing        7.00
##  6 Eswatini        developing        6.60
##  7 Tunisia         developing        6.41
##  8 Costa Rica      developing        6.38
##  9 Honduras        developing        6.36
## 10 Ukraine         developing        6.18

Теперь перейдем к анализу показателя уровня грамотрности населения: в изначальных наших предположениях мы надеялись получить положительную корреляцию между тратами на образование и уровнем грамотности населения- проверим наше предположение, построив график рассеяния.

Попробуем построить самую простую линейную модель: как мы видим положительнная зависимость есть, но небольшая. Так как ВВП всех стран разный , то траты на образования тоже будут разнится для многих странах. Ясно одно-что большинство изучаемых нами стран имеют уровень грамотномти выше 80%.

linearMod <- lm(literacy ~ education, data=final_data1)
summary(linearMod)
## 
## Call:
## lm(formula = literacy ~ education, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -44.662  -3.921   1.037  10.624  16.755 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  76.4479     3.7166  20.569  < 2e-16 ***
## education     2.4511     0.7798   3.143  0.00205 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.47 on 138 degrees of freedom
## Multiple R-squared:  0.06681,    Adjusted R-squared:  0.06005 
## F-statistic: 9.881 on 1 and 138 DF,  p-value: 0.002045

Domestic private expebditure per capita (PPP) Tекущие частные расходы на здравоохранение на душу населения, выраженные в международных долларах по паритету покупательной способности. Показывает, насколько развито в государстве система здравоохранения .

Как мы видим, траты в развитых сранах на здравоохранение в пазвитых странах намного превышают показатели развивающихся стран.Мы исследуем данный показатель, чтобы понять, как дополнительные траты индивида на свое здоровье могут влиять на его благополучие.

Количество трудоспособного населения в странах (в миллионах человек):

Теперь проанализируем процент прибыли, облагаемый налогом.Посмотрим, как варьируется налоговая ставка в зависимости от типа страны. В развитых странах налог на прибыль в среднем немного выше, чем в развивающихся, что в полне объяснимо, так как в развитых странах социальное обкспечение и благосотояние обеспечивается налогами граждан, а высокое налогообложение прибыли корпораций ведет к перераспределению доходов и сокрашщению неравенства.

## Selecting by AdjNetInc
## # A tibble: 10 × 3
##    country            country_type AdjNetInc
##    <chr>              <chr>            <dbl>
##  1 Lithuania          developing      12061.
##  2 Uruguay            developing      11012.
##  3 Seychelles         developing      10958.
##  4 Latvia             developing      10705.
##  5 West Bank and Gaza developing      10228.
##  6 Kosovo             developing      10228.
##  7 Chile              developing       9898.
##  8 Venezuela. RB      developing       9871.
##  9 Panama             developing       9165.
## 10 Argentina          developing       8876.
##    country          country_type         AdjNetInc      
##  Length:107         Length:107         Min.   :  158.6  
##  Class :character   Class :character   1st Qu.: 1074.8  
##  Mode  :character   Mode  :character   Median : 2548.0  
##                                        Mean   : 3515.3  
##                                        3rd Qu.: 4925.6  
##                                        Max.   :12060.5
##    country          country_type         AdjNetInc    
##  Length:33          Length:33          Min.   :10228  
##  Class :character   Class :character   1st Qu.:18420  
##  Mode  :character   Mode  :character   Median :34085  
##                                        Mean   :31991  
##                                        3rd Qu.:40893  
##                                        Max.   :66755

График по скорректированному чистому национальному доходу показывает валовый национальный доход за вычетом потребления основного капитала и истощения природных ресурсов. Для развивающихся стран среднее значение AdjNetInc - $3515.3, для развитых - $31991. Наиболее существенные выбросы среди развивающихся стран обнаружены в Литве и Уругвае со значениями $12060.515 и $11011.626 соответственно.

## Selecting by Gini
## # A tibble: 2 × 3
##   country      country_type  Gini
##   <chr>        <chr>        <dbl>
## 1 South Africa developing    63.6
## 2 Namibia      developing    60.0
##    country          country_type            Gini      
##  Length:107         Length:107         Min.   :25.97  
##  Class :character   Class :character   1st Qu.:35.62  
##  Mode  :character   Mode  :character   Median :39.71  
##                                        Mean   :40.49  
##                                        3rd Qu.:45.29  
##                                        Max.   :63.55
##    country          country_type            Gini      
##  Length:33          Length:33          Min.   :24.87  
##  Class :character   Class :character   1st Qu.:28.10  
##  Mode  :character   Mode  :character   Median :32.22  
##                                        Mean   :31.54  
##                                        3rd Qu.:33.45  
##                                        Max.   :40.96

Данный график иллюстрирует коэффициент Джини в развитых (developed) и развивающихся (developing) странах. Для развитых стран среднее значение коэф-та Джини - 31.54, для развивающихся - 40.9. Выбросы среди развивающихся стран наблюдаются в ЮАР и Намибии.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.55   56.00   78.86   87.84  102.99  352.11
## NULL
## NULL

На столбчатой диаграмме рассматриваем торговлю в развитых и развивающихся странах в % от ВВП. Средние значения - 81.37 для развивающихся стран и 108.83 для развитых.

## Selecting by AdjSave
## Selecting by AdjSave
## # A tibble: 10 × 3
##    country       country_type      AdjSave
##    <chr>         <chr>               <dbl>
##  1 United States developed    377562830466
##  2 Germany       developed    332562696013
##  3 Korea. Rep.   developed    215981666497
##  4 Japan         developed    158161394638
##  5 France        developed    123105739165
##  6 Netherlands   developed     99986784467
##  7 Norway        developed     90568965873
##  8 Canada        developed     80918308588
##  9 Switzerland   developed     75870756172
## 10 Spain         developed     75212644893
##    country          country_type          AdjSave          
##  Length:107         Length:107         Min.   :-2.355e+09  
##  Class :character   Class :character   1st Qu.: 3.630e+08  
##  Mode  :character   Mode  :character   Median : 2.385e+09  
##                                        Mean   : 4.214e+10  
##                                        3rd Qu.: 1.773e+10  
##                                        Max.   : 2.500e+12
##    country          country_type          AdjSave          
##  Length:33          Length:33          Min.   :-2.756e+10  
##  Class :character   Class :character   1st Qu.: 3.143e+09  
##  Mode  :character   Mode  :character   Median : 3.070e+10  
##                                        Mean   : 6.005e+10  
##                                        3rd Qu.: 7.587e+10  
##                                        Max.   : 3.776e+11

В боксплоте по скорректированным сбережениям мы рассматриваем чистые национальные сбережения для развитых и развивающихся стран. Средние значения - 4.214е+10 и 6.005е+10 для развивающихся и развитых стран соответственно. 10 наиболее крупных выбросов наблюдаются для стран: Китай (2.499523е+12), Индия (4.129428е+11), Российская Федерация (2.506555е+11), Бразилия (1.538666е+11), Индонезия (9.909335е+10), Мексика (7.598012е+10), Турция (7.426814е+10), Венесуэла (6.543703е+10), Филиппины (6.356728е+10), Таиланд (5.090513е+10). Три наиболее крупных выброса для развитых стран: США (377562830466), Германия (332562696013), КНДР (215981666497)

##    country          country_type          Internet     
##  Length:107         Length:107         Min.   : 1.195  
##  Class :character   Class :character   1st Qu.: 9.380  
##  Mode  :character   Mode  :character   Median :19.851  
##                                        Mean   :22.850  
##                                        3rd Qu.:34.732  
##                                        Max.   :67.537
##    country          country_type          Internet    
##  Length:33          Length:33          Min.   :48.57  
##  Class :character   Class :character   1st Qu.:63.86  
##  Mode  :character   Mode  :character   Median :74.34  
##                                        Mean   :72.90  
##                                        3rd Qu.:83.30  
##                                        Max.   :93.89

В боксплоте физические лица использующие интернет, среднее для развивающихся стран - 22.850% для развитых - 72.90%. Выбросов по данной переменной не обнаружено.

На данной столбчатой диаграмме представлен уровень безработицы в развитых и развивающихся странах. Средние значения по группам стран: 9.645 - для развивающихся, 8.990 - для развитых.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    country          country_type       Unemployment_rate
##  Length:33          Length:33          Min.   : 4.596   
##  Class :character   Class :character   1st Qu.: 6.839   
##  Mode  :character   Mode  :character   Median : 8.817   
##                                        Mean   : 8.990   
##                                        3rd Qu.:10.536   
##                                        Max.   :18.021

Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:

Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.

На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.

summary(lm(Poverty_gap ~ religion, data=final_data1))
## 
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.971 -13.270  -3.368  10.216  41.798 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -19.23051    4.84532  -3.969 0.000116 ***
## religion      0.53369    0.06186   8.627 1.34e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared:  0.3504, Adjusted R-squared:  0.3457 
## F-statistic: 74.43 on 1 and 138 DF,  p-value: 1.342e-14

Проделаем тоже самое с уровнем преступности: здесь такой явой зависимости нет, однако уровень бедности в развивающихся странах с высоким уровнем преступности заметно выше чем в развитых с теми же показателями доли преступлений.

Democrac_rate: здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.

Выводы:

Для дальнейшего анализа мы будем использовать более сложные модели с дамми-переменными и различные модели линейных регрессий.Пока мы провели простейший развед-анализ, посмотрели на то как распределены наши данные, какие данные есть, построили простейшие линейные регрессионные модели и посмотрели татистические критерии по ним.

С помощью данного развед анализа мы выяснили различия в развивающихся и развитых странах, определили и зафиксировали выбросы по переменным.Мы полагаем, что результаты исследования и степень влияния объясняющих переменных на зависимую по развитым и развивающимся странам могут различаться.