V tejto úlohe používam údaje z databázy WDI – Education,
Health & Employment (2011–2021)
(súbor data/wdi_data.csv v priečinku
data).
Cieľom je urobiť podobnú analýzu ako na cvičení:
Moja závislá premenná je výdavok na zdravotníctvo
health_exp.
Ako vysvetľujúce premenné používam výdavky na
vzdelávanie: educ_prim, educ_sec a
educ_ter.
Pracovné hypotézy:
health_exp,Údaje sú usporiadané v súbore csv, stĺpce sú oddelené znakom
“,” a používajú desatinnú bodku.
V projekte mám podpriečinok s názvom data, kde je uložený súbor
wdi_data.csv.
Nie všetky údaje budú použité, preto si vyberiem len niektoré premenné pre neskoršie použitie.
## [1] "Time"
## [2] "Time Code"
## [3] "Country Name"
## [4] "Country Code"
## [5] "Current education expenditure, primary (% of total expenditure in primary public institutions) [SE.XPD.CPRM.ZS]"
## [6] "Current education expenditure, secondary (% of total expenditure in secondary public institutions) [SE.XPD.CSEC.ZS]"
## [7] "Current education expenditure, tertiary (% of total expenditure in tertiary public institutions) [SE.XPD.CTER.ZS]"
## [8] "Current education expenditure, total (% of total expenditure in public institutions) [SE.XPD.CTOT.ZS]"
## [9] "Current health expenditure (% of GDP) [SH.XPD.CHEX.GD.ZS]"
## [10] "Domestic general government health expenditure (% of GDP) [SH.XPD.GHED.GD.ZS]"
## [1] 19
Dôležité stĺpce (priamo z hlavičky súboru):
Time – rokCountry Name – krajinaCurrent health expenditure (% of GDP) [SH.XPD.CHEX.GD.ZS]Current education expenditure, primary (% of total expenditure in primary public institutions) [SE.XPD.CPRM.ZS]Current education expenditure, secondary (% of total expenditure in secondary public institutions) [SE.XPD.CSEC.ZS]Current education expenditure, tertiary (% of total expenditure in tertiary public institutions) [SE.XPD.CTER.ZS]Teraz si z roku 2015 vyberiem len 4 stĺpce – 1 zdravotný a 3
vzdelávacie ukazovatele –
a premenujem ich na jednoduché názvy.
## health_exp educ_prim educ_sec educ_ter
## Min. : 3.466 Min. :85.55 Min. :86.52 Min. :87.06
## 1st Qu.: 9.724 1st Qu.:87.69 1st Qu.:89.63 1st Qu.:89.13
## Median :10.340 Median :94.13 Median :93.58 Median :90.35
## Mean :10.093 Mean :91.86 Mean :93.13 Mean :90.97
## 3rd Qu.:10.788 3rd Qu.:94.45 3rd Qu.:96.77 3rd Qu.:91.69
## Max. :16.491 Max. :97.51 Max. :97.59 Max. :96.40
## NA's :6 NA's :6 NA's :5
## health_exp educ_prim educ_sec educ_ter
## Min. : 3.466 Min. :85.55 Min. :86.52 Min. :87.06
## 1st Qu.: 9.724 1st Qu.:90.26 1st Qu.:92.08 1st Qu.:90.09
## Median :10.340 Median :94.13 Median :93.58 Median :90.35
## Mean :10.093 Mean :92.58 Mean :93.27 Mean :90.81
## 3rd Qu.:10.788 3rd Qu.:94.26 3rd Qu.:95.46 3rd Qu.:91.05
## Max. :16.491 Max. :97.51 Max. :97.59 Max. :96.40
Chýbajúce hodnoty som nahradila mediánom danej
premennej, aby som nestratila krajiny z analýzy
a zároveň som nebola príliš citlivá na extrémne hodnoty (medián nie je
tak ovplyvnený odľahlými pozorovaniami ako priemer).
Boxploty jednotlivých premenných
health_exp – väčšina krajín má výdavky na
zdravotníctvo okolo 10 % HDP.
Vidno niekoľko odľahlých krajín s veľmi nízkymi a
veľmi vysokými hodnotami
(bodky pod a nad boxom). To znamená, že niektoré štáty dávajú na
zdravotníctvo výrazne menej alebo viac než priemer.
educ_prim – rozdelenie je koncentrované okolo 90–95 % a iba pár krajín má nižší alebo vyšší podiel výdavkov na primárne vzdelávanie. Variabilita je skôr malá, ale sú prítomné odľahlé hodnoty.
educ_sec – podobne, hodnoty sa sústreďujú v úzkom intervale, ale vidno niekoľko krajín s výrazne nižšími podielmi výdavkov na sekundárne vzdelávanie.
educ_ter – aj tu je rozdelenie relatívne sústredené, ale s niekoľkými krajinami, ktoré dávajú na terciárne vzdelávanie podstatne menej alebo viac ako väčšina (bodky mimo boxu).
Celkovo boxploty ukazujú, že údaje obsahujú pár odľahlých pozorovaní, ale žiadne extrémne „šialené“ hodnoty. To je dôležité pri interpretácii regresie.
Modelujem výdavky na zdravotníctvo health_exp ako
lineárnu funkciu výdavkov na vzdelávanie:
\[ \text{health\_exp}_i = \beta_0 + \beta_1 \text{educ\_prim}_i + \beta_2 \text{educ\_sec}_i + \beta_3 \text{educ\_ter}_i + u_i \]
##
## Call:
## lm(formula = health_exp ~ +1 + educ_prim + educ_sec + educ_ter,
## data = udaje.2015)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3302 -0.3082 0.1696 0.4648 6.4845
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.01846 27.38203 0.220 0.829
## educ_prim -0.15982 0.40800 -0.392 0.701
## educ_sec 0.05971 0.46031 0.130 0.899
## educ_ter 0.14647 0.24278 0.603 0.555
##
## Residual standard error: 2.576 on 15 degrees of freedom
## Multiple R-squared: 0.05594, Adjusted R-squared: -0.1329
## F-statistic: 0.2963 on 3 and 15 DF, p-value: 0.8275
Diagnostické grafy regresného modelu – prvý model
Residuals vs Fitted
Reziduá kmitajú okolo nuly, ale červená LOESS krivka má mierne
zakrivenie (v strede ide trochu nahor, na koncoch nadol). To naznačuje
miernu nelinearitu – čistý lineárny tvar nemusí úplne
vystihovať vzťah medzi premennými. Niekoľko bodov (napr. 87, 93, 95) má
výraznejšie reziduá – ide o možné odľahlé
pozorovania.
Normal Q-Q
Väčšina bodov leží relatívne blízko priamky, ale konce (ľavý aj pravý
chvost) sa odchyľujú – dolný chvost je pod čiarou, horný nad čiarou. To
znamená, že rozdelenie rezíduí má ťažšie chvosty a
normalita nie je úplne ideálna (mierna nenormalita, zopár
extrémov).
Scale-Location
Červená krivka nie je úplne rovná – rozptyl rezíduí je pri niektorých
hodnotách fitted trochu väčší. Celkovo však variancia neexploduje, ide
skôr o miernu heteroskedasticitu než o závažný
problém.
Residuals vs Leverage
Väčšina bodov má nízky pákový efekt, ale je tu niekoľko pozorovaní s
vyšším leverage a väčším reziduom (napr. 95). Nie sú však výrazne za
vonkajšími čiarami Cookovej vzdialenosti, takže nevyzerajú ako extrémne
vplyvné body, skôr ako pozorovania, ktoré treba
sledovať.
Zhrnutie: prvý model je použiteľný, ale grafy naznačujú miernu nelinearitu, nenormalitu v chvostoch a pár odľahlých krajín. Preto má zmysel skúsiť upravený model.
\[ \text{health\_exp}_i = \beta_0 + \beta_1 \log(\text{educ\_prim}_i) + \beta_2 \text{educ\_sec}_i + u_i \]
##
## Call:
## lm(formula = health_exp ~ +1 + I(log(educ_prim)) + educ_sec,
## data = udaje.2015)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3663 -0.6028 0.1653 0.8434 6.4103
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 76.73464 125.70854 0.610 0.550
## I(log(educ_prim)) -16.49006 35.86152 -0.460 0.652
## educ_sec 0.08591 0.44427 0.193 0.849
##
## Residual standard error: 2.526 on 16 degrees of freedom
## Multiple R-squared: 0.03124, Adjusted R-squared: -0.08986
## F-statistic: 0.258 on 2 and 16 DF, p-value: 0.7758
Model 2 používa logaritmus premennej educ_prim.
Chcem tak zmierniť vplyv extrémnych hodnôt primárnych
výdavkov na vzdelanie
a priblížiť sa lineárnemu vzťahu medzi vysvetľujúcimi premennými a
health_exp.
Diagnostické grafy regresného modelu – druhý model
Residuals vs Fitted
V druhom modeli je červená LOESS krivka oveľa rovnejšia
a reziduá sú symetrickejšie okolo nuly. Nelinearita je slabšia než v
prvom modeli, takže log-transformácia educ_prim pomohla
lepšie zachytiť vzťah.
Normal Q-Q
Body sa približujú k priamke viac ako v prvom modeli, odchýlky v
chvostoch sú menšie. Reziduá sú teda bližšie k normálnemu
rozdeleniu, hoci drobné odchýlky v extrémoch stále
ostávajú.
Scale-Location
Červená krivka je v druhom modeli pomerne plochá, rozptyl rezíduí je
približne konštantný naprieč fitted hodnotami. To znamená, že problém
heteroskedasticity sa zmenšil.
Residuals vs Leverage
Pákové efekty sú podobné ako v prvom modeli, ale reziduá pri týchto
bodoch sú miernejšie. Nevyzerá to tak, že by niektoré pozorovanie
extrémne ťahalo regresnú priamku.
Celkovo podľa diagnostických grafov je druhý model lepší:
Pre ďalšiu interpretáciu (koeficienty, p-hodnoty, \(R^2\)) sa preto viac opieram práve o druhý model.
V práci som použila údaje z databázy WDI pre rok 2015 a analyzovala som, ako rôzne typy výdavkov na vzdelávanie súvisia s výdavkami na zdravotníctvo.
educ_prim, educ_sec,
educ_ter) a pomocou ukazovateľov
summary(model) môžem posúdiť, ktoré koeficienty sú
štatisticky významné (p-hodnota < 0,05), či majú očakávané znamienko
(pri výdavkoch na vzdelanie očakávam skôr kladné koeficienty) a aké
veľké je \(R^2\), teda koľko
variability vo výdavkoch na zdravotníctvo model vysvetľuje.Preto som v druhom modeli:
log(educ_prim)),educ_ter,Druhý model má podľa diagnostických grafov lepšie správanie rezíduí: bližšie k normalite a stabilnejší rozptyl. Pri interpretácii výsledkov sa pozerám na:
Celkovo môžem využiť druhý model ako vhodnejší opis vzťahu medzi výdavkami na vzdelávanie a výdavkami na zdravotníctvo v krajinách zahrnutých v databáze WDI pre rok 2015.