V tejto úlohe používam údaje z databázy WDI – Education, Health & Employment (2011–2021)
(súbor data/wdi_data.csv v priečinku data).

Cieľom je urobiť podobnú analýzu ako na cvičení:

Moja závislá premenná je výdavok na zdravotníctvo health_exp.
Ako vysvetľujúce premenné používam výdavky na vzdelávanie: educ_prim, educ_sec a educ_ter.

Pracovné hypotézy:

  1. všetky tri premenné majú štatisticky významný vplyv na health_exp,
  2. pri všetkých troch očakávam kladné znamienko regresných koeficientov.

Príprava prostredia

Údaje sú usporiadané v súbore csv, stĺpce sú oddelené znakom “,” a používajú desatinnú bodku.
V projekte mám podpriečinok s názvom data, kde je uložený súbor wdi_data.csv.

Nie všetky údaje budú použité, preto si vyberiem len niektoré premenné pre neskoršie použitie.


Načítanie a výber roku 2015

##  [1] "Time"                                                                                                               
##  [2] "Time Code"                                                                                                          
##  [3] "Country Name"                                                                                                       
##  [4] "Country Code"                                                                                                       
##  [5] "Current education expenditure, primary (% of total expenditure in primary public institutions) [SE.XPD.CPRM.ZS]"    
##  [6] "Current education expenditure, secondary (% of total expenditure in secondary public institutions) [SE.XPD.CSEC.ZS]"
##  [7] "Current education expenditure, tertiary (% of total expenditure in tertiary public institutions) [SE.XPD.CTER.ZS]"  
##  [8] "Current education expenditure, total (% of total expenditure in public institutions) [SE.XPD.CTOT.ZS]"              
##  [9] "Current health expenditure (% of GDP) [SH.XPD.CHEX.GD.ZS]"                                                          
## [10] "Domestic general government health expenditure (% of GDP) [SH.XPD.GHED.GD.ZS]"
## [1] 19

Dôležité stĺpce (priamo z hlavičky súboru):


Výber 4 indikátorov pre model

Teraz si z roku 2015 vyberiem len 4 stĺpce – 1 zdravotný a 3 vzdelávacie ukazovatele –
a premenujem ich na jednoduché názvy.

##    health_exp       educ_prim        educ_sec        educ_ter    
##  Min.   : 3.466   Min.   :85.55   Min.   :86.52   Min.   :87.06  
##  1st Qu.: 9.724   1st Qu.:87.69   1st Qu.:89.63   1st Qu.:89.13  
##  Median :10.340   Median :94.13   Median :93.58   Median :90.35  
##  Mean   :10.093   Mean   :91.86   Mean   :93.13   Mean   :90.97  
##  3rd Qu.:10.788   3rd Qu.:94.45   3rd Qu.:96.77   3rd Qu.:91.69  
##  Max.   :16.491   Max.   :97.51   Max.   :97.59   Max.   :96.40  
##                   NA's   :6       NA's   :6       NA's   :5

Imputácia chýbajúcich hodnôt mediánom

##    health_exp       educ_prim        educ_sec        educ_ter    
##  Min.   : 3.466   Min.   :85.55   Min.   :86.52   Min.   :87.06  
##  1st Qu.: 9.724   1st Qu.:90.26   1st Qu.:92.08   1st Qu.:90.09  
##  Median :10.340   Median :94.13   Median :93.58   Median :90.35  
##  Mean   :10.093   Mean   :92.58   Mean   :93.27   Mean   :90.81  
##  3rd Qu.:10.788   3rd Qu.:94.26   3rd Qu.:95.46   3rd Qu.:91.05  
##  Max.   :16.491   Max.   :97.51   Max.   :97.59   Max.   :96.40

Chýbajúce hodnoty som nahradila mediánom danej premennej, aby som nestratila krajiny z analýzy
a zároveň som nebola príliš citlivá na extrémne hodnoty (medián nie je tak ovplyvnený odľahlými pozorovaniami ako priemer).


Boxploty premenných

Boxploty jednotlivých premenných

Boxploty jednotlivých premenných

Interpretácia boxplotov

  • health_exp – väčšina krajín má výdavky na zdravotníctvo okolo 10 % HDP.
    Vidno niekoľko odľahlých krajín s veľmi nízkymi a veľmi vysokými hodnotami
    (bodky pod a nad boxom). To znamená, že niektoré štáty dávajú na zdravotníctvo výrazne menej alebo viac než priemer.

  • educ_prim – rozdelenie je koncentrované okolo 90–95 % a iba pár krajín má nižší alebo vyšší podiel výdavkov na primárne vzdelávanie. Variabilita je skôr malá, ale sú prítomné odľahlé hodnoty.

  • educ_sec – podobne, hodnoty sa sústreďujú v úzkom intervale, ale vidno niekoľko krajín s výrazne nižšími podielmi výdavkov na sekundárne vzdelávanie.

  • educ_ter – aj tu je rozdelenie relatívne sústredené, ale s niekoľkými krajinami, ktoré dávajú na terciárne vzdelávanie podstatne menej alebo viac ako väčšina (bodky mimo boxu).

Celkovo boxploty ukazujú, že údaje obsahujú pár odľahlých pozorovaní, ale žiadne extrémne „šialené“ hodnoty. To je dôležité pri interpretácii regresie.


Lineárna regresia – prvý model

Modelujem výdavky na zdravotníctvo health_exp ako lineárnu funkciu výdavkov na vzdelávanie:

\[ \text{health\_exp}_i = \beta_0 + \beta_1 \text{educ\_prim}_i + \beta_2 \text{educ\_sec}_i + \beta_3 \text{educ\_ter}_i + u_i \]

## 
## Call:
## lm(formula = health_exp ~ +1 + educ_prim + educ_sec + educ_ter, 
##     data = udaje.2015)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3302 -0.3082  0.1696  0.4648  6.4845 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  6.01846   27.38203   0.220    0.829
## educ_prim   -0.15982    0.40800  -0.392    0.701
## educ_sec     0.05971    0.46031   0.130    0.899
## educ_ter     0.14647    0.24278   0.603    0.555
## 
## Residual standard error: 2.576 on 15 degrees of freedom
## Multiple R-squared:  0.05594,    Adjusted R-squared:  -0.1329 
## F-statistic: 0.2963 on 3 and 15 DF,  p-value: 0.8275

Diagnostické grafy – prvý model

Diagnostické grafy regresného modelu – prvý model

Diagnostické grafy regresného modelu – prvý model

Interpretácia diagnostických grafov – prvý model

  • Residuals vs Fitted
    Reziduá kmitajú okolo nuly, ale červená LOESS krivka má mierne zakrivenie (v strede ide trochu nahor, na koncoch nadol). To naznačuje miernu nelinearitu – čistý lineárny tvar nemusí úplne vystihovať vzťah medzi premennými. Niekoľko bodov (napr. 87, 93, 95) má výraznejšie reziduá – ide o možné odľahlé pozorovania.

  • Normal Q-Q
    Väčšina bodov leží relatívne blízko priamky, ale konce (ľavý aj pravý chvost) sa odchyľujú – dolný chvost je pod čiarou, horný nad čiarou. To znamená, že rozdelenie rezíduí má ťažšie chvosty a normalita nie je úplne ideálna (mierna nenormalita, zopár extrémov).

  • Scale-Location
    Červená krivka nie je úplne rovná – rozptyl rezíduí je pri niektorých hodnotách fitted trochu väčší. Celkovo však variancia neexploduje, ide skôr o miernu heteroskedasticitu než o závažný problém.

  • Residuals vs Leverage
    Väčšina bodov má nízky pákový efekt, ale je tu niekoľko pozorovaní s vyšším leverage a väčším reziduom (napr. 95). Nie sú však výrazne za vonkajšími čiarami Cookovej vzdialenosti, takže nevyzerajú ako extrémne vplyvné body, skôr ako pozorovania, ktoré treba sledovať.

Zhrnutie: prvý model je použiteľný, ale grafy naznačujú miernu nelinearitu, nenormalitu v chvostoch a pár odľahlých krajín. Preto má zmysel skúsiť upravený model.


Druhý model – transformácia premenných

\[ \text{health\_exp}_i = \beta_0 + \beta_1 \log(\text{educ\_prim}_i) + \beta_2 \text{educ\_sec}_i + u_i \]

## 
## Call:
## lm(formula = health_exp ~ +1 + I(log(educ_prim)) + educ_sec, 
##     data = udaje.2015)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3663 -0.6028  0.1653  0.8434  6.4103 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)
## (Intercept)        76.73464  125.70854   0.610    0.550
## I(log(educ_prim)) -16.49006   35.86152  -0.460    0.652
## educ_sec            0.08591    0.44427   0.193    0.849
## 
## Residual standard error: 2.526 on 16 degrees of freedom
## Multiple R-squared:  0.03124,    Adjusted R-squared:  -0.08986 
## F-statistic: 0.258 on 2 and 16 DF,  p-value: 0.7758

Model 2 používa logaritmus premennej educ_prim.
Chcem tak zmierniť vplyv extrémnych hodnôt primárnych výdavkov na vzdelanie
a priblížiť sa lineárnemu vzťahu medzi vysvetľujúcimi premennými a health_exp.


Diagnostické grafy – druhý model

Diagnostické grafy regresného modelu – druhý model

Diagnostické grafy regresného modelu – druhý model

Interpretácia diagnostických grafov – druhý model

  • Residuals vs Fitted
    V druhom modeli je červená LOESS krivka oveľa rovnejšia a reziduá sú symetrickejšie okolo nuly. Nelinearita je slabšia než v prvom modeli, takže log-transformácia educ_prim pomohla lepšie zachytiť vzťah.

  • Normal Q-Q
    Body sa približujú k priamke viac ako v prvom modeli, odchýlky v chvostoch sú menšie. Reziduá sú teda bližšie k normálnemu rozdeleniu, hoci drobné odchýlky v extrémoch stále ostávajú.

  • Scale-Location
    Červená krivka je v druhom modeli pomerne plochá, rozptyl rezíduí je približne konštantný naprieč fitted hodnotami. To znamená, že problém heteroskedasticity sa zmenšil.

  • Residuals vs Leverage
    Pákové efekty sú podobné ako v prvom modeli, ale reziduá pri týchto bodoch sú miernejšie. Nevyzerá to tak, že by niektoré pozorovanie extrémne ťahalo regresnú priamku.

Celkovo podľa diagnostických grafov je druhý model lepší:

  • reziduá sú viac náhodné,
  • predpoklad normality je lepšie splnený,
  • variancia rezíduí je rovnomernejšia.

Pre ďalšiu interpretáciu (koeficienty, p-hodnoty, \(R^2\)) sa preto viac opieram práve o druhý model.


Zhrnutie a záver

V práci som použila údaje z databázy WDI pre rok 2015 a analyzovala som, ako rôzne typy výdavkov na vzdelávanie súvisia s výdavkami na zdravotníctvo.

Preto som v druhom modeli:

Druhý model má podľa diagnostických grafov lepšie správanie rezíduí: bližšie k normalite a stabilnejší rozptyl. Pri interpretácii výsledkov sa pozerám na:

Celkovo môžem využiť druhý model ako vhodnejší opis vzťahu medzi výdavkami na vzdelávanie a výdavkami na zdravotníctvo v krajinách zahrnutých v databáze WDI pre rok 2015.