Анализ данных

Проведем развед-анализ данных и посмотрим , с чем нам предстоит работать.В наших данных содежится 17 переменных. Произведем анализ по каждой переменной в отдельности.

## tibble [140 × 21] (S3: tbl_df/tbl/data.frame)
##  $ ...1                                                                               : num [1:140] 1 2 3 4 5 6 7 8 9 10 ...
##  $ country                                                                            : chr [1:140] "Argentina" "Australia" "Brazil" "China" ...
##  $ Government expenditure on education, total (% of GDP)                              : num [1:140] 5.08 5.05 5.61 4.54 4.77 ...
##  $ Literacy rate, youth total (% of people ages 15-24)                                : num [1:140] 99.5 87.6 98.5 99.7 87.6 ...
##  $ Domestic private health expenditure per capita, PPP (current international $)      : num [1:140] 671 1149 690 233 1100 ...
##  $ Labor force, total                                                                 : num [1:140] 1.89e+07 1.20e+07 9.80e+07 7.79e+08 4.23e+07 ...
##  $ Taxes on income, profits and capital gains (% of revenue)                          : num [1:140] 13.4 64.6 24 22.7 16.5 ...
##  $ Adjusted net national income per capita (current US$)                              : num [1:140] 8876 40893 8298 4909 36343 ...
##  $ Gini index (World Bank estimate)                                                   : num [1:140] 43.3 34.8 53.7 40.9 31.1 ...
##  $ Trade (% of GDP)                                                                   : num [1:140] 32.8 42.3 25.5 48 82.5 ...
##  $ Adjusted savings: net national savings (current US$)                               : num [1:140] 2.09e+10 6.83e+10 1.54e+11 2.50e+12 3.33e+11 ...
##  $ Individuals using the Internet (% of population)                                   : num [1:140] 45.2 76.6 42.7 33.2 80.5 ...
##  $ Total employment, total (ages 15+)                                                 : num [1:140] 1.72e+07 1.11e+07 8.93e+07 7.46e+08 3.92e+07 ...
##  $ Survey mean consumption or income per capita, total population (2011 PPP $ per day): num [1:140] 18.7 24.3 21 10.5 53 ...
##  $ Poverty gap at $5.50 a day (2011 PPP) (% of population)                            : num [1:140] 5.1143 0.5333 9.85 17.4444 0.0833 ...
##  $ Unemployment                                                                       : num [1:140] 1717661 927517 8616046 32720391 3127490 ...
##  $ Unemployment_rate                                                                  : num [1:140] 9.09 7.71 8.8 4.2 7.39 ...
##  $ % религиозных людей                                                                : num [1:140] 72 34 79 7 34 76 82 74 13 68 ...
##  $ Уровень преступности%                                                              : chr [1:140] "62.5" "21.37" "70.24" "45.46" ...
##  $ Индекс демократии...20                                                             : chr [1:140] "7.02" "9.09" "6.86" "2.26" ...
##  $ Индекс демократии...21                                                             : chr [1:140] "developing" "developed" "developing" "developing" ...

Изменим типы данных для дальнейших исследований и имена колонок для легкости обращения к ним:

Количество развитых и развивающихся стран : в нашем анализе страны по типу развития распределены неравномерно, так как в мире больший процент составляют развивающиеся страны, то и в нашем анализе мы не можем отобрать равное число обеих групп.

ggplot(final_data1)+geom_bar(aes(x=country_type,fill=country_type))

Постороим график “c усами” по расходам государства на образование своих граждан (данная метрика измерена в процентах от ВВП страны в $) в зависимости от типа страны (развитая и развивающаяся).

Как мы видим средние траты на образование в развитых странах составляют 5%, тогда как в развивающихся этот показатель ниже около 5,5%. Однако у нас есть выбросы по этому показателю у развивающихся стран.

Как мы видим это такие страны как Botswana,Solomon Islands,Timor-Leste.(составляют выброс).

## Selecting by education
## # A tibble: 10 × 3
##    country         country_type education
##    <chr>           <chr>            <dbl>
##  1 Botswana        developing        9.72
##  2 Solomon Islands developing        9.38
##  3 Timor-Leste     developing        8.50
##  4 Moldova         developing        7.11
##  5 Namibia         developing        7.00
##  6 Eswatini        developing        6.60
##  7 Tunisia         developing        6.41
##  8 Costa Rica      developing        6.38
##  9 Honduras        developing        6.36
## 10 Ukraine         developing        6.18

Теперь перейдем к анализу показателя уровня грамотрности населения : в изначальных наших предположениях мы надеялись получить положительную корреляцию между тратами на образование и уровнем грамотности населения- проверим наше предположение, построив график рассеяния.

Попробуем построить самую простую линейную модель:как мы видим положительнная зависимость есть, но небольшая. Так как ВВП всех стран разный , то траты на образования тоже будут разнится для многих странах.Ясно одно- что большинство изучаемых нами стран имеют уровень грамотномти выше 80%.

linearMod <- lm(literacy ~ education, data=final_data1)
summary(linearMod)
## 
## Call:
## lm(formula = literacy ~ education, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -44.662  -3.921   1.037  10.624  16.755 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  76.4479     3.7166  20.569  < 2e-16 ***
## education     2.4511     0.7798   3.143  0.00205 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.47 on 138 degrees of freedom
## Multiple R-squared:  0.06681,    Adjusted R-squared:  0.06005 
## F-statistic: 9.881 on 1 and 138 DF,  p-value: 0.002045

Domestic private expebditure per capita (PPP) Tекущие частные расходы на здравоохранение на душу населения, выраженные в международных долларах по паритету покупательной способности. Показывает, насколько развито в государстве система здравоохранения .

Как мы видим, траты в развитых сранах на здравоохранение в пазвитых странах намного превышают показатели развивающихся стран.Мы исследуем данный показатель, чтобы понять, как дополнительные траты индивида на свое здоровье могут влиять на его благополучие.

Количество трудоспособного населения в странах (в миллионах человек):

Теперь проанализируем процент прибыли, облагаемый налогом.Посмотрим , как варьируется налоговая ставка в зависимости от типа страны. В развитых странах налог на прибыль в среднем немного выше, чем в развивающихся, что в полне объяснимо, так как в развитых странах социальное обкспечение и благосотояние обеспечивается налогами граждан, а высокое налогообложение прибыли корпораций ведет к перераспределению доходов и сокрашщению неравенства.

## Selecting by AdjNetInc
## # A tibble: 10 × 3
##    country            country_type AdjNetInc
##    <chr>              <chr>            <dbl>
##  1 Lithuania          developing      12061.
##  2 Uruguay            developing      11012.
##  3 Seychelles         developing      10958.
##  4 Latvia             developing      10705.
##  5 West Bank and Gaza developing      10228.
##  6 Kosovo             developing      10228.
##  7 Chile              developing       9898.
##  8 Venezuela, RB      developing       9871.
##  9 Panama             developing       9165.
## 10 Argentina          developing       8876.
##    country          country_type         AdjNetInc      
##  Length:107         Length:107         Min.   :  158.6  
##  Class :character   Class :character   1st Qu.: 1074.8  
##  Mode  :character   Mode  :character   Median : 2548.0  
##                                        Mean   : 3515.3  
##                                        3rd Qu.: 4925.6  
##                                        Max.   :12060.5
##    country          country_type         AdjNetInc    
##  Length:33          Length:33          Min.   :10228  
##  Class :character   Class :character   1st Qu.:18420  
##  Mode  :character   Mode  :character   Median :34085  
##                                        Mean   :31991  
##                                        3rd Qu.:40893  
##                                        Max.   :66755

График по скорректированному чистому национальному доходу показывает валовый национальный доход за вычетом потребления основного капитала и истощения природных ресурсов. Для развивающихся стран среднее значение AdjNetInc - $3515.3, для развитых - $31991. Наиболее существенные выбросы среди развивающихся стран обнаружены в Литве и Уругвае со значениями $12060.515 и $11011.626 соответственно.

## Selecting by Gini
## # A tibble: 2 × 3
##   country      country_type  Gini
##   <chr>        <chr>        <dbl>
## 1 South Africa developing    63.6
## 2 Namibia      developing    60.0
##    country          country_type            Gini      
##  Length:107         Length:107         Min.   :25.97  
##  Class :character   Class :character   1st Qu.:35.62  
##  Mode  :character   Mode  :character   Median :39.71  
##                                        Mean   :40.49  
##                                        3rd Qu.:45.29  
##                                        Max.   :63.55
##    country          country_type            Gini      
##  Length:33          Length:33          Min.   :24.87  
##  Class :character   Class :character   1st Qu.:28.10  
##  Mode  :character   Mode  :character   Median :32.22  
##                                        Mean   :31.54  
##                                        3rd Qu.:33.45  
##                                        Max.   :40.96

Данный график иллюстрирует коэффициент Джини в развитых (developed) и развивающихся (developing) странах. Для развитых стран среднее значение коэф-та Джини - 31.54, для развивающихся - 40.9. Выбросы среди развивающихся стран наблюдаются в ЮАР и Намибии.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.55   56.00   78.86   87.84  102.99  352.11
##    country          country_type           trade       
##  Length:107         Length:107         Min.   : 25.55  
##  Class :character   Class :character   1st Qu.: 52.51  
##  Mode  :character   Mode  :character   Median : 75.40  
##                                        Mean   : 81.37  
##                                        3rd Qu.: 98.74  
##                                        Max.   :287.16
##    country          country_type           trade       
##  Length:33          Length:33          Min.   : 27.97  
##  Class :character   Class :character   1st Qu.: 64.68  
##  Mode  :character   Mode  :character   Median : 86.63  
##                                        Mean   :108.83  
##                                        3rd Qu.:140.26  
##                                        Max.   :352.11

На столбчатой диаграмме рассматриваем торговлю в развитых и развивающихся странах в % от ВВП. Средние значения - 81.37 для развивающихся стран и 108.83 для развитых.

## Selecting by AdjSave
## Selecting by AdjSave
## # A tibble: 10 × 3
##    country       country_type       AdjSave
##    <chr>         <chr>                <dbl>
##  1 United States developed    377562830466.
##  2 Germany       developed    332562696013.
##  3 Korea, Rep.   developed    215981666497.
##  4 Japan         developed    158161394638.
##  5 France        developed    123105739165.
##  6 Netherlands   developed     99986784467.
##  7 Norway        developed     90568965873.
##  8 Canada        developed     80918308588.
##  9 Switzerland   developed     75870756172.
## 10 Spain         developed     75212644893.
##    country          country_type          AdjSave          
##  Length:107         Length:107         Min.   :-2.355e+09  
##  Class :character   Class :character   1st Qu.: 3.630e+08  
##  Mode  :character   Mode  :character   Median : 2.385e+09  
##                                        Mean   : 4.214e+10  
##                                        3rd Qu.: 1.773e+10  
##                                        Max.   : 2.500e+12
##    country          country_type          AdjSave          
##  Length:33          Length:33          Min.   :-2.756e+10  
##  Class :character   Class :character   1st Qu.: 3.143e+09  
##  Mode  :character   Mode  :character   Median : 3.070e+10  
##                                        Mean   : 6.005e+10  
##                                        3rd Qu.: 7.587e+10  
##                                        Max.   : 3.776e+11

В боксплоте по скорректированным сбережениям мы рассматриваем чистые национальные сбережения для развитых и развивающихся стран. Средние значения - 4.214е+10 и 6.005е+10 для развивающихся и развитых стран соответственно. 10 наиболее крупных выбросов наблюдаются для стран: Китай (2.499523е+12), Индия (4.129428е+11), Российская Федерация (2.506555е+11), Бразилия (1.538666е+11), Индонезия (9.909335е+10), Мексика (7.598012е+10), Турция (7.426814е+10), Венесуэла (6.543703е+10), Филиппины (6.356728е+10), Таиланд (5.090513е+10). Три наиболее крупных выброса для развитых стран: США (377562830466), Германия (332562696013), КНДР (215981666497)

##    country          country_type          Internet     
##  Length:107         Length:107         Min.   : 1.195  
##  Class :character   Class :character   1st Qu.: 9.380  
##  Mode  :character   Mode  :character   Median :19.851  
##                                        Mean   :22.850  
##                                        3rd Qu.:34.732  
##                                        Max.   :67.537
##    country          country_type          Internet    
##  Length:33          Length:33          Min.   :48.57  
##  Class :character   Class :character   1st Qu.:63.86  
##  Mode  :character   Mode  :character   Median :74.34  
##                                        Mean   :72.90  
##                                        3rd Qu.:83.30  
##                                        Max.   :93.89

В боксплоте физические лица использующие интернет, среднее для развивающихся стран - 22.850% для развитых - 72.90%. Выбросов по данной переменной не обнаружено.

На данной столбчатой диаграмме представлен уровень безработицы в развитых и развивающихся странах. Средние значения по группам стран: 9.645 - для развивающихся, 8.990 - для развитых.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    country          country_type       Unemployment_rate
##  Length:33          Length:33          Min.   : 4.596   
##  Class :character   Class :character   1st Qu.: 6.839   
##  Mode  :character   Mode  :character   Median : 8.817   
##                                        Mean   : 8.990   
##                                        3rd Qu.:10.536   
##                                        Max.   :18.021

Religion rate - посмотрим , есть ли взаимосвязь между долей людей, живущих за чертой бедности и долей религиозных людей:

Как мы видим - уровень бедности увеличивается с ростом верующих в стране, особенно такая зависимость наблюдается у развивающихся старан.

На уровне значимости 0.001 =1% мы говорим о том, что нулевая гипотеза о равенстве уровня бедности и уровня религиозности отвергается в пользу альтернативной.

summary(lm(Poverty_gap ~ religion, data=final_data1))
## 
## Call:
## lm(formula = Poverty_gap ~ religion, data = final_data1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.007 -13.286  -3.364  10.233  41.845 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -19.23781    4.84579  -3.970 0.000115 ***
## religion      0.53362    0.06187   8.625 1.36e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17.63 on 138 degrees of freedom
## Multiple R-squared:  0.3503, Adjusted R-squared:  0.3456 
## F-statistic: 74.39 on 1 and 138 DF,  p-value: 1.357e-14

Проделаем тоже самое с уровнем преступности : здесь такой явой зависимости нет, однако уровень бедности в развивающихся странах с высоким уровнем преступности заметно выше чем в развитых с теми же показателями доли преступлений.

Democrac_rate:здесь присутствует обратная зависимость между уровнем демократии и уровнем бедности - чем ниже демократический индекс , тем выше уровень бедности в стране, однако и здесь присутствуют выбросы.Некоторые развивающиеся страны даже при наличии полной демократии не могут избежать высокой бедности.

Summary:

Для дальнейшего анализа мы будем использовать более сложные модели с дамми-переменными и различные модели линейных регрессий.Пока мы провели простейший развед-анализ, посмотрели на то как распределены наши данные, какие данные есть, построили простейшие линейные регрессионные модели и посмотрели татистические критерии по ним.

С помощью данного развед анализа мы выяснили различия в развивающихся и развитых странах, определили и зафиксировали выбросы по переменным.Мы полагаем, что результаты исследования и степень влияния объясняющих переменных на зависимую по развитым и развивающимся странам могут различаться.