1 Úvod

Modelovanie očakávanej dĺžky života je kľúčové pre demografiu, zdravotníctvo aj ekonomické plánovanie. Dĺžka života syntetizuje socioekonomické podmienky, zdravotný stav populácie a kvalitu zdravotnej starostlivosti, a preto predstavuje citlivý indikátor vývoja spoločnosti. Presné modely umožňujú sledovať trendy úmrtnosti, predikovať budúci demografický vývoj a hodnotiť dopady verejných politík či zdravotných intervencií.

Mimoriadny význam nadobúda modelovanie v kontexte starnutia populácie a tlaku na dôchodkové a zdravotné systémy. Klasickým a široko používaným prístupom je Lee–Carterov stochastický model úmrtnosti (Lee 2000), pričom nové empirické štúdie ukazujú, že ekonomické faktory môžu predikciu dĺžky života ďalej spresniť (Bloom, Canning, and Moore 2014). Okrem toho zaujímavými štúdiami priamo sa týkajúcimi témy tejto práce sú aj (Mariani, Pérez-Barahona, and Raffin 2010) a (Kinsella 1992).

V predloženej práci predstavíme výskum, ktorý sa bude zaoberať modelovaním očakávanej dĺžky života.

2 Údaje

Údaje sme získali z databázy Mendeley Data ktorá pokrýva všetky krajiny sveta časové obdobie od roku 2000 do roku 2015. Zároveň sme sa rozhodli, že nakoľko budeme modelovať prierezové údaje, vybrali sme z databázy len pozorovania za rok 2015. Štruktúra databázy bola pomerne široká a obsahovala pomerne veľa nepresností, spôsobených najmä posunom desatinných čiarok. Preto sme sa rozhodli len pre výber najzákladnejších ukazovateľov a to Body mass index (BMI), HDP na obyvateľa (GDP) a tiež priemerný počet rokov, ktorý obyvateľstvo navštevovalo školskú dochádzku (Schooling). Predpokladali sme, že práve oni môžu byť vhodnými vysvetľujúcimi veličinami, ktoré majú rozhodujúci vplyv na očakávanú dĺžku života.

V databáze niektoré údaje chýbali, doplnili sme ich preto mediánmi zodpovedajúcej premennej.

2.1 Základné štatistiky

Table 2.1: Základné popisné štatistiky
Statistic Life.expectancy BMI GDP Schooling
Min. 51.00000 2.50000 33.68122 4.90000
1st Qu. 65.75000 24.30000 1152.30960 11.10000
Median 73.90000 48.60000 2916.22892 13.10000
Mean 71.61694 42.81803 6508.80725 12.93661
3rd Qu. 76.95000 61.35000 5881.98995 14.85000
Max. 88.00000 77.60000 66346.52267 20.40000

Pri pohľade na údaje v Tabuľke 2.1 je zrejmé, že najmä premenná GDP je dosť vychýlená. To znamená že stredná hodnota tejto premennej je omnoho väčšia ako hodnota mediánu, čo nám signalizuje, že údaje sú výrazne zošikmené smerom doprava. U ostatných údajov takéto silné zošikmenie nevidíme.


Párové vzťahy medzi premennými

Figure 2.1: Párové vzťahy medzi premennými

Analýzou párových grafov medzi vysvetľovanou a vysvetľujúcimi veličinami uvedenými na Obr. 2.1 zisťujeme, že existuje zrejmý pozitívny vzťah medzi vysvetľovanou a každou z vysvetľujúcich veličín, pričom vysvetľovaná veličina Life.expectancy vykazuje určitý odklon od normality a zošikmenie rozdelenia (pozri boxplot na tom istom obrázku)

3 Výskumné hypotézy

V práci sme sa rozhodli modelovať strednú dĺžku života, pričom používame premenné ktoré sa zdôrazňujú v bežnom živote. Základná výskumná otázka teda spočíva v skúmaní faktorov, ktoré ovplyvňujú očakávanú dĺžku života. Pritom premenná Life.Expectancy je meraná za jednotlivé krajiny sveta (rok 2015). Variabilitu tejto premennej budeme modelovať v závislosti na jej vzťahu k premennej Schooling čo predstavuje strednú dobu štúdia obyvateľa danej krajiny. Predpokladáme, že vyššie vzdelanie bude znamenať zároveň i predĺženie strednej dĺžky života a to z dôvodu uvedomelého starania sa o zdravotný stav vzdelanej časti obyvateľstva. Ďalšou premennou je Body Mass Index (BMI), ktorý podľa známych a overených vedomosti skracuje strednú dĺžku života, nakoľko je spojený srdcovo cievnými ochoreniami ako aj nádorovými ochoreniami. Poslednou premenou HDP na obyvateľa (GDP), čo vyjadruje stupeň ekonomického rozvoja skúmanej krajiny. Tu predpokladáme lepšiu zdravotnou starostlivosť v rozvinutých krajinách, čo by malo byť spojené aj s nárastom ich očakávanej dlžky života.

Naša pracovná hypotéza hovorí o štatisticky významnom vplyve všetkých troch vysvetľujúcich premenných, pričom u premenných GDP a Schooling by malo ísť o pozitívny vplyv (očakávame kladné znamienko odhadovaného regresného koeficienta) a v prípade BMI by malo ísť of negatívny vplyv (so záporným znamienkom). Hypotézy sme sa rozhodli testovať pomocou linerárnej regresie

\[ Life.expectancy_i = \beta_0 + \beta_1 Schooling_i + \beta_2 BMI_i + \beta_3 GDP_i + u_i \tag{3.1} \]

kde index \(i\) označuje krajinu a \(u_i\) označuje náhodnú zložku modelu (\(\mathbf u \sim N[\mathbf 0, \sigma^2 \mathbf I]\)).

Hypotéza

Prespokladáme štatisticky významné vzťahy \(\beta_1 > 0\),\(\beta_2 < 0\),\(\beta_3 > 0\), ktoré budeme testovať s pomocou t-testov štatistickej významnosti regresných koeficientov.


Keďže niektoré údaje chýbajú, doplnili sme ich mediánmi celého súboru údajov. Analýzou predchádzajúcich obrázkov sme dospeli k záveru, že grafická analýza údajov nám neodhalila žiadne významné odľahlé hodnoty.

–>


4 Základný model

Model spočiatku odhadneme v jeho základnom tvare, pričom

Table 4.1: Regresné koeficienty modelu očakávanej dĺžky života
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 44.1936 1.8389 24.0332 0.0000
BMI 0.0495 0.0214 2.3078 0.0222
GDP 0.0001 0.0000 1.8132 0.0715
Schooling 1.9210 0.1645 11.6762 0.0000
Table 4.2: Kvalita vyrovania modelu Life Expectancy Model
Statistic Value
N (Observations) 183.0000
R-squared 0.6224
Adjusted R-squared 0.6161
F-statistic 98.3632
F-test p-value 0.0000
AIC 1116.7767
Residual Std. Error 5.0334

Tabuľka 4.1 nám poskytuje súbor odhadovaných regresných koeficientov. Naša hypotéza o negatívnom vplyve BMI na strednú dĺžku života sa nepotvrdila. Súvisiaci regresný koeficient bol odhadnutý s pozitívnym znamienkom a bol dokonca aj štatisticky významný. Premenná Schooling má tiež kladné znamienko a naša hypotéza sa v tomto prípade potvrdila. Naopak, regresný koeficient odhadnutý u GDP je tiež kladný, ale nedosahuje nami požasovanú úroveň štatisickej významnosti 5 %. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 4.2), model vysvetľuje až 62 % variability vysvetľovanej premennej a ako celok je štatisticky významný (pozri koeficient determinácie a výsledky F testu).

Nasledovné podobrázky Obrázka (4.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error - e).

Diagnostické grafy regresného modelu

Figure 4.1: Diagnostické grafy regresného modelu

4.1 Grafové interpretácie rezíduí

  1. Residuals vs. fitted - červená LOESS krivka je mierne zakrivená (vpravo sa ohýba nadol a uprostred nahor), to naznačuje možnú miernu nelinearitu – modelu môže chýbať nelineárny tvar nejakej premennej.
  2. Q-Q residuals - Empirické body sú blízke teoretickým, čo svedčí o tom, že zrejme neexistuje významný odklon od normality aj keď v prípade najmenších hodnôt to celkom neplatí a signalizuje to možné zošikmenie rozdelenia rezíduí.
  3. Scale-Location - LOESS krivka je v tomto prípade takme ronštantná, čo signalizuje neprítomnosť heteroskedasticity.
  4. Residuals vs leverage - väčšina pozorovaní má nízky vplyv (pozri vodorovnú os - hodnoty pod 0,05), čo je typické pre veľké vzorky alebo dobre vyvážené údaje. Jeden bod (s pákou nad 0,2) a dva body s pákou nad 0.1 vynikajú – ide o odľahlé pozorovania s vysokou pákou, čo znamená, že ich hodnoty sú ďaleko od väčšiny údajov. Štandardizované rezíduá sú poväčšine medzi −2 a +2 – čo nesignalizuje žiadne významné odľahlé hodnoty, ktoré by mohli skresľovať výsledky regresie. Prípadným kandidátom na elimináciu z údajovej sady je pozorovanie označené číslom 113, ktoré má zdanlivo stredný vplyv a relatívne veľkú rezíduálnu hodnotu. Žiaden z bodov ale neprekračuje vonkajšie línie Cookovej vzdialenosti (≈0,5 alebo 1,0). Preto sa nezdá, že by niektoré pozorovanie neprimerane ovplyvňovali odhad regresných koeficientov.

4.2 Niektoré základné testy rezíduí

4.2.1 Test normality

Keďže grafická interpretácia diagnostických grafov naznačuje, že môže byť narušený predpoklad normality náhodnej zložky, otestovali sme predpoklad normálneho rozdelenia u rezíduí modelu. Tu sme zamietli túto hypotézu (Jarque-Berra test - p-value = 0 < 0.05). Nakoľko máme rozsiahly súbor premenných (183 pozorovaní) a tiež budeme v ďalšom zvažovať prípadné nelineárne špecifikácie modelu, rozhodli sme sa porušeniu tohto predpokladu nevenovať momentálne väčšiu pozornosť.


4.2.2 Test odľahlých hodnôt

Vyššie uvedená grafická analýza rezídí modelu nás doviedla k záveru, že napriek trom odľahlým pozorovaniam nejestvuje ich zásadný vplyv na odhad regresných koeficientov pôvodného modelu. Tento výsledok nám potvrdzuje aj test odľahlých hodnôt (p-hodnota po Bonferroniho korekcii je 0.06 > 0.05. Preto sa ďalej špecifikám týchto pozorovaní nebudeme ďalej venovať.


5 Heteroskedasticita

Prítomnosť heteroskedasticity spôsobuje zlé vyhodnocovanie t-testov významnosti jednotlivých regresných koeficientov. Preto je nutné, aby sme heteroskedasticitu - detekovali (vizuálne a s pomocou testov) - a v prípade prítomnosti heteroskedasticity aby sme ju odstránili.

Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv. Scale-Location graf uvedený vyššie).

Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže heteroskedasticitu spôsobovať. Obrázok 5.1 signalizuje ako hlavnú príčinu možnej heteroskedasticity práve premennú BMI. Posledný podobrázok (vpravo dole), ktorý vyjadruje závislosť štvorcov rezíduí na vyrovnaných hodnotách, môže byť dôsledkom poruchového vzťahu BMI a samotnej vysvetľovanej premennej Life.expectancy, resp. štvorcoch rezíduí pôvodného regresného modelu.

Skúmanie heteroskedasticity

Figure 5.1: Skúmanie heteroskedasticity

5.1 Testovanie prítomnosti heteroskedasticity

Na základe Breusch-Paganovho testu (p-hodnota = 0 < 0.05) môžeme povedať, že heteroskedasticita rezíduí je v modeli prítomná. V závere na jej odstránenie zrejme použijeme logaritmickú transformáciu premennej GDP, ktorá by nám mala aspoň sčasti normalizovať rozdelenie pozorovaní tejto premennej. Tiež aj naďalej budeme uvažovať s odstránením premennej BMI, ktorej kladný vplyv na vysvetľovanú premennú nie je vysvetliteľný.


5.2 Odhady White Heteroskedasticity Consistent

Možným riešením problému heteroskedasticity je použitie tzv. White heteroskedasticity Consistent Matrix (WHC), kde v t testoch významnosti regresných koeficientov sa používajú “hrubšie” odhady rozptylov regresných koeficientov.Výsledky sú uvedené v 5.1.

Table 5.1: Odhad regresných regresných koeficientov - WHC
Coefficient Estimates
term estimate std.error statistic p.value
(Intercept) 44.1936 1.8560 23.8108 0.0000
BMI 0.0495 0.0240 2.0587 0.0410
GDP 0.0001 0.0000 2.2282 0.0271
Schooling 1.9210 0.1745 11.0087 0.0000

Všimnime si, že tentokrát je už každá premenná štatisticky významná. Problém s neinterpetovateľnosťou regresného koeficientu pri BMI však naďalej pretrváva.


6 Špecifikácia modelu

Testovať, či je model v správnej funkčnej forme (t. j. či je lineárna špecifikácia vhodná, alebo či by ste mali transformovať premenné, napríklad pomocou logaritmov alebo mocninami), možno vykonať viacerými spôsobmi, pričom my budeme vychádzať z tzv. Ramsey Reset testu. Chyba špecifikácie znamená tiež, že do modelu sú začlenené také regresory, ktoré nemajú štatisticky významný vplyv na vysvetľovanú premennú, alebo je tých regresorov nedostatok. Keďže naša databáza nám neponúka viac kvalitných údajov, s manipuláciami typu pridávania / uberania regresorov sa nebudeme zaoberať. Ostaneme teda najmä pri funkčnej (nelineárnej) špecifikácii modelu.

6.1 Ramsey Reset Test

Ide o štandardný test nesprávnej špecifikácie funkčnej formy ale dá sa použiť aj pre prípady, ak sme nešpecifikovali všetky vysvetľujúce premenné. Náš pôvodný regresný model má tvar (3.1).

Ak je váš model správne špecifikovaný, potom pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal podstatne zlepšiť, teda budeme testovať pôvodný model

\[Life.expectancy_i = \beta_0 + \beta_1 BMI_{i} + \beta_2 GDP_{i} + \beta_2 Schooling_{i} + \] \[ \quad + \gamma_1\hat{Life.expectancy}_i^2 + \gamma_2\hat{Life.expectancy}_i^3 + \nu_i,\]

kde testujeme štatistickú významnosť koeficientov \(\gamma_2, \gamma_3 (= 0)\)). Symbol striešky ^ v rovnici symbolizuje vyrovnané hodnoty. V našom modeli zamietame nulovú hypotézu (p-hodnota < 0.01), a teda aspoň jeden z týchto koeficientov sa významne odlišuje od nuly. V našom prípade je nulová hypotéza zamietnutá (p-hodnota je 0.001).

Prijímame alternatívnu hypotézu (model je nesprávne špecifikovaný), t.j. chýbajú mu niektoré dodatočné vysvetľujúce premenné (tie nemáme), alebo je potrebné urobiť nelineárnu transformáciu používaných premenných.

6.2 Grafická analýza

6.2.1 Graf Residuals vs. Fitted

Grafická analýza vzťahu medzi vyrovnanými hodnotami náhodnej premennej a rezíduami vychádza z obrázku 5.1 Scale Location. Tu rezíduá vykazujú nenáhodný vzor (pozri zakrivenie červenej LOESS krivky), model teda nemusí byť lineárny v premenných a môže pomôcť nejaká ich funkčná transformácia.

6.2.1.1 Grafy C+R

Táto analýza nám môže pomôcť pri hľadaní odpovede na otázku, ktorú premennú by sme mali transfomovať pomocou nejakej známej funkcie. Komponent C+R vyjadruje súčet vyrovnanej hodnoty a rezídua zodpovedajúci každému pozorovaniu zvolenej vysvetľujúcej veličiny. Tieto grafy pomáhajú identifikovať nelineárne vzťahy pre každý regresor.

Grafy C+R

Figure 6.1: Grafy C+R

V našom prípade je najväčší odklon od linearity zaznamenaný v prípade premennej Schooling a BMI.

6.3 Nelineárna špecifikácia

Častokrát môžeme aj zložitejšie nelineárne vzťahy modelovať s pomocou ich aproximácie polynómom, teda v v našom prípade kvadratických členov

\[Life.expectancy_i = \beta_0 + \beta_1 BMI_{i} + \beta_2 GDP_{i} + \beta_2 Schooling_{i} + \] \[ \quad + \gamma_1 BMI_i^2 + \gamma_2 GDP_i^2 + \gamma_3 Schooling_i^2 + \nu_i\] Príklad na túto modifikáciu uvidíme nižšie.

6.3.1 Porovnanie základného a kvadratického modelu

Predpokladajme, že sa pri nelineárnych úpravách pôvodnej rovnice dostaneme k zavedeniu kvadrátu premennej Schooling a BMI nakoľko sme motivovaní práve Component+Residual obrázkami uvedenými vyššie. V ich prípade sa vyrovnávajúca LOESS krivka asi najviac líši od priamky.

Výsledky pôvodného modelu sú uvedené v Tabuľke 4.1, resp. v Tabuľke 4.2.

Ak má transformovaný model vyšší upravený koefcient determinácie \(R^2_{adj}\) a pri RESET test prijmeme alternatívnu hypotézu, odporúčame si výsledky potvrdiť s pomocou Anova testu oboch modelov a prípadne opakovaného Reset Testu uplatneneného na nelineárne transformovaný model. Tu Anova vykazuje zlepšenie (p-hodnota= 0.002) ale Reset test uplatnený na model s kvadratickou úpravou stále signalizuje chybu špecifikácie (p-hodnota < 0.001). Napriek tomu môžeme konštatovať, že upravený koeficient determinácie zlepšil svoju hodnotu. Je teda zrejmé, že k dobrej špecifikácii by sme zrejme potrebovali aj niektoré dodatočné premenné (epidemické údaje, podnebie, životné prostredie, atď.), s ktorými nedisponujeme.

Table 6.1: Kvadratická transformácia premenných
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 49.2637 5.2167 9.4434 0.0000
BMI -0.2498 0.0866 -2.8860 0.0044
GDP 0.0001 0.0000 1.7265 0.0860
Schooling 1.9007 0.8008 2.3736 0.0187
I(Schooling^2) -0.0051 0.0319 -0.1589 0.8739
I(BMI^2) 0.0040 0.0011 3.5634 0.0005
Table 6.2: Model kvadratickej transformácie premenných
Statistic Value
N (Observations) 183.0000
R-squared 0.6477
Adjusted R-squared 0.6378
F-statistic 65.0856
F-test p-value 0.0000
AIC 1108.0962
Residual Std. Error 4.8894

7 Multikolinearita

Po autokoreácii a heteroskedasticite rezíduí je multikolinearita tretím závažným porušením predpokladov použitia metódy najmenších štvorcov. Tu sa okrem iného predpokadá, že matica \(\mathbf X\) je tvorená lineárne nezávislými riadkami a tiež stĺpcami, čo zabezpečí regularitu matice \(\mathbf X^T\mathbf X\) a teda možnosť jej inverzie. V praxi sa ale môže stať, že vzniká "takmer singulárna matica \(\mathbf X^T\mathbf X\) ", t.j. matica \(\mathbf X\) je tvorená "približne" lineárne závislými stĺpcami. V tomto prípade je inverzná matica \((\mathbf X^T\mathbf X)^{-1}\) veľmi nestabilná a obsahuje na hlavnej diagonále veľmi veľké hodnoty. To spôsobuje nestabilitu odhadovaných regresných koeficientov a ich nadhodnotené rozptyly.

Tento problém nazývame problémom multikolinearity.


7.1 Dôsledky multikolinearity

Multikolinearita patrí medzi najčastejšie problémy viacnásobnej lineárnej regresie.
Je dôležité jasne rozlišovať dva fakty:

  1. Nespôsobuje skreslené (biased) odhady koeficientov
  2. Nadhodnocuje odhady štandardných odchýlok regresných koeficientov a vedie potom k falošnému neprijímaniu alternatívnej hypotézy o štatistickej významnosti jednotlivých regresorov.
  3. Odhadované regresné koeficienty sú nestabilné - pri malej zmene údajov sa sa prudko menia koeficienty ako aj ich znamienka.
  4. Interpretácia regresného modelu je z dôvodu vyššie uvedených dôvodov nespoľahlivá.

7.2 Detekcia multikolinearity

7.2.1 Východiskový model a údaje

Budeme pracovať s regresným modelom z minulých cvičení, teda s rovnicou (3.1). Pri odhade základného regresného modelu (pozri Tabuľky 4.1 a 4.2) pozorujeme veľké rádové rozdiely v odhade regresných koeficientov (napr. porovnaj rády koeficientov pri GDP a pri Schooling).


7.2.2 Korelačná matica

Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.

Table 7.1: Korelačná matica vysvetľujúcich premenných
Korelačná matica
BMI GDP Schooling
BMI 1.000 0.311 0.526
GDP 0.311 1.000 0.435
Schooling 0.526 0.435 1.000

Tabuľka 7.1 uvádza párove koeficienty korelácie, pričom neidentifikujeme dve premenné, ktoré by boli silne korelované. Preto sa zdá, že model nebude zaťažený multikolinearitou.


7.2.3 Variance Inflation Factor - VIF

Indikátorom multikolinearity u premennej, ktorá multikolinearitu zapríčiňuje, je Variance Inflation Factor (VIF).

Table 7.2: Variance inflation factor (VIF) pre vysvetľujúce premenné
Diagnostika multikolinearity
Premenná VIF
BMI 1.399
GDP 1.248
Schooling 1.559

Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity, je podmienka VIF > 5 (prísne kritérium), alebo VIF > 10 (menej prísne kritérium). V našom prípade to nespĺňa žiadna z vysvetľujúcich veličín.


7.2.4 Condition Number

Pri existencii multikolinearity sa model prejavuje tak, že koeficient determinácie je síce vysoký a zdá sa, že model je veľmi dobrý, ale regresné koeficienty nie sú štatisticky významné - t.j. štandardné odchýlky regresných koeficientov sú veľmi veľké. Túto situáciu zachytáva nasledovný ukazovateľ.

Ak Condition number je

  • < 10 → nízka multikolinearita,
  • 10–30 → mierna,
  • 30–100 → silná,
  • 100 → veľmi vážna

V našom prípade tento ukazovateľ dosahuje hodnotu 2692.7 čo signalizuje vážne problémy s multikolinearitou


7.3 Riešenie problému multikolinearity

7.3.1 Vynechanie premennej

Pokúsme sa vynechať postupne jednotlivé premenné a porovnajme následne upravené koeficienty determinácie oboch nových modelov.

Table 7.3: Upravený koeficient determinácie pri vynechaní jednotlivých premenných
Premenná Adj. R-sqr
BMI 0.607
Schooling 0.328
GDP 0.611

Tu vidíme, že vynechanie premennej Schooling podstatne znižuje upravený koeficient determinácie, a preto v prípade vynechávania premennej by sme uprednostnili vynechanie premennej GDP, alebo BMI.

7.3.2 Úprava premennej, ktorá zachová interpretovateľnosť

Ak sa chceme vynhúť strate interpretovateľnosti, môžeme sa pozrieť, v akých rádoch sa pohybuje vývoj jednotlivých vysvetľujúcich veličín a upraviť jednoduchým prevodom na iné jednotky tú premennú, ktorá sa odlišuje od ostatných. Aktuálne hodnoty prvých riadkov našej databázy je znázornených v 7.4. V našom prípade ide o premennú GDP, ktorá meria HDP na obyvateľa v dolároch. My to predelením 1000 prevedieme na HDP na obyvateľa vyjadrený v tisícoch dolárov. Tým dostaneme premenné vyjadrené v rádovo porovnateľných jednotkách tak, ako je to uvedené v nasledovnej tabuľke.

Table 7.4: Ukážka dátového súboru – prvých 6 pozorovaní
Data.frame udaje
Life.expectancy BMI GDP Schooling
65.0 19.1 584.259 10.1
77.8 58.0 3954.228 14.2
75.6 59.5 4132.763 14.4
52.4 23.3 3695.794 11.4
76.4 47.7 13566.954 13.9
76.3 62.8 13467.124 17.3

Potom lineárny model dosiahne výsledky

Table 7.5: Regresné koeficienty modelu s premenou GDP1000
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 44.1936 1.8389 24.0332 0.0000
BMI 0.0495 0.0214 2.3078 0.0222
GDP1000 0.0697 0.0385 1.8132 0.0715
Schooling 1.9210 0.1645 11.6762 0.0000

Table 7.6: Kvalita vyrovania modelu s premenou GDP1000
Statistic Value
N (Observations) 183.0000
R-squared 0.6224
Adjusted R-squared 0.6161
F-statistic 98.3632
F-test p-value 0.0000
AIC 1116.7767
Residual Std. Error 5.0334
Table 7.7: Faktor inflácie variancie (VIF) pre model s premennou GDP1000
Diagnostika multikolinearity – VIF (model s GDP1000)
Premenná VIF
BMI 1.399
GDP1000 1.248
Schooling 1.559

kde všetky regresné koeficienty majú porovnateľné rády a tiež VIF je akceptovateľný vo všetkých prípadoch. Conditional number je potom 10.6 čo sa nachádza niekde na hranici nášho intuitívneho kritéria medzi Nízka multikolinearita a Mierna multikolinearita. Regresné koeficienty si ale zachovali dobrú interpretovateľnosť.


8 Návrh záverečného modelu

Výsledkom ekonometrického experimentovania sme došli k záverečnej forme modelu, ktorá má tvar

\[ Life.expectancy_i = \beta_0 + \beta_1 Schooling_i + \beta_3 \frac{GDP_i}{1000} + u_i \tag{8.1} \]

8.1 Odhad modelu

Výsledky odhadu modelu (8.1) sú uvedené v Tabuľkách 8.1 a 8.2

Table 8.1: Regresné koeficienty modelu očakávanej dĺžky života
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 44.0069 1.8590 23.6721 0.0000
Schooling 2.0944 0.1481 14.1419 0.0000
I(GDP/1000) 0.0792 0.0387 2.0470 0.0421
Table 8.2: Kvalita vyrovania modelu Life Expectancy Model
Statistic Value
N (Observations) 183.0000
R-squared 0.6112
Adjusted R-squared 0.6069
F-statistic 141.4818
F-test p-value 0.0000
AIC 1120.1421
Residual Std. Error 5.0935

Tabuľka 8.1 nám poskytuje súbor odhadovaných regresných koeficientov. Neinterpretovateľný vplyv BMI na strednú dĺžku života nás motivoval k tomu, aby sme túto premennú vylúčili. Premenná Schooling má tiež kladné znamienko a naša hypotéza sa v tomto prípade potvrdila. Taktiež regresný koeficient odhadnutý u GDP je kladný a štatisticky významný. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 8.2), model vysvetľuje až 61 % variability vysvetľovanej premennej a ako celok je štatisticky významný (pozri koeficient determinácie a výsledky F testu).

Nasledovné podobrázky Obrázku (8.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error - e).

Diagnostické grafy regresného modelu

Figure 8.1: Diagnostické grafy regresného modelu

8.2 Grafové interpretácie rezíduí

  1. Residuals vs. fitted - červená LOESS krivka je mierne zakrivená (vpravo sa ohýba nadol a vľavo nahor), čo ale nepovažujeme za vážnu chybu modelu. V okolí týchto odchýlok sa nachádza málo pozorovaní a tiež vyrovnané odchýlky (LOESS) sú v absolútnej hodnote menšie, ako 5, čo je štandardná chyba modelu (rezíduí).
  2. Q-Q residuals - Empirické body sú blízke teoretickým, čo svedčí o tom, že zrejme neexistuje významný odklon od normality aj keď v prípade najmenších hodnôt to celkom neplatí a signalizuje to možné zošikmenie rozdelenia rezíduí.
  3. Scale-Location - LOESS krivka je v tomto prípade takme konštantná, čo signalizuje neprítomnosť heteroskedasticity.
  4. Residuals vs leverage - väčšina pozorovaní má nízky vplyv (pozri vodorovnú os - hodnoty pod 0,05), čo je typické pre veľké vzorky alebo dobre vyvážené údaje. Jeden bod (s pákou nad 0,2) a dva body s pákou nad 0.1 vynikajú – ide o odľahlé pozorovania s vysokou pákou, čo znamená, že ich vysvetľujúce hodnoty sú ďaleko od väčšiny údajov. Štandardizované rezíduá sú poväčšine medzi −2 a +2 – čo nesignalizuje žiadne významné odľahlé hodnoty, ktoré by mohli skresľovať výsledky regresie. Prípadným kandidátom na elimináciu z údajovej sady je pozorovanie označené číslom 113, ktoré má zdanlivo stredný vplyv a relatívne veľkú rezíduálnu hodnotu. Žiaden z bodov ale neprekračuje vonkajšie línie Cookovej vzdialenosti (≈0,5 alebo 1,0). Preto sa nezdá, že by niektoré pozorovanie neprimerane ovplyvňovali odhad regresných koeficientov.

8.3 Niektoré základné testy rezíduí

8.3.1 Test normality

Keďže grafická interpretácia diagnostických grafov naznačuje, že môže byť narušený predpoklad normality náhodnej zložky, otestovali sme predpoklad normálneho rozdelenia u rezíduí modelu. Tu sme zamietli túto hypotézu (Jarque-Berra test - p-value = 0 ). Nakoľko máme rozsiahly súbor premenných (183 pozorovaní) a tiež budeme v ďalšom zvažovať prípadné nelineárne špecifikácie modelu, rozhodli sme sa porušeniu tohto predpokladu nevenovať momentálne väčšiu pozornosť.


8.3.2 Test odľahlých hodnôt

Po Bonferroniho korekcii p-hodnota testu odľahlých hodnôt po Bonferroniho korekcii dosiahla hodnotu 0.04, pripúšťame možné problémy s odľahlými hodnotami. Napriek tomu sme ale odľahlé pozorovanie nechali v databáze.


8.4 Heteroskedasticita

Skúmanie heteroskedasticity

Figure 8.2: Skúmanie heteroskedasticity

Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv. Scale-Location graf uvedený vyššie).

Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže heteroskedasticitu spôsobovať. Obrázok 8.2 signalizuje , že obe vysvetľujúce premenné vykazujú možnú príčinnosť heteroskedasticity. Breush Paganov test (p-value =0.13) ale prítomnosť heteroskedasticity vyvracia.


obr


9 Zhluková analýza

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Použíli sme pritom tzv. z-škálovanie Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:

9.1 Príprava údajov a data.frame so šlálovanými údajmi

Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. Pri pohľade na maticu xxxx však zistíme, že žiaden pár premenných nie je tak silne korelovaný.

Každej krajine zodpovedá jeden riadok pozorovaní. Štandardne používame Euklidovskú vzdialenosť, t.j. vzdialenosť medzi krajinami \(i\) a \(j\) je:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (Life.expectancy, BMI, GDP, Schooling) krajiny \(i\). Vzdialenosti medzi jednotlivými krajinami sa súhrnne vyjadrujú aj v matici vzdialenosti, čo v našom prípade je uvedené v Tab.3.. Analýzou tejto tabuľky zistíme, že najväčšia vzdialenosť je medzi Rumunskom a Dánskom, zatiaľ čo malá vzdialenosť je medzi Rumunskom a Bulharskom. Oba prípady vieme vysvetliť polohou týchto krajín, podnebím, ako aj históriou, ktorá je podobná, alebo rozdielna.

Tab. 3

Table 9.1: Euklidovská vzdialenostná matica medzi krajinami
Vzdialenosti (Euclidean distance)
Aus Bul Cro Den. Est Fin Hun Lat Lit Mon Pol Roma Ser Slo Swe Ukr
Aus 0.00 4.18 3.15 3.05 1.98 2.02 3.58 2.67 3.09 3.00 2.57 4.55 2.97 2.46 1.04 3.57
Bul 4.18 0.00 1.16 5.76 2.78 3.31 0.75 2.01 1.88 1.59 2.11 0.60 2.33 4.15 4.14 1.92
Cro 3.15 1.16 0.00 4.82 1.85 2.44 0.70 1.38 1.50 0.92 1.23 1.56 1.77 3.09 3.18 1.82
Den. 3.05 5.76 4.82 0.00 3.57 2.59 5.02 4.40 4.40 5.00 3.95 6.09 5.40 2.38 2.93 5.51
Est 1.98 2.78 1.85 3.57 0.00 1.86 2.15 0.96 1.33 1.58 0.78 3.29 1.97 2.46 2.44 2.00
Fin 2.02 3.31 2.44 2.59 1.86 0.00 2.60 2.34 2.32 2.81 1.93 3.59 3.37 1.80 1.61 3.44
Hun 3.58 0.75 0.70 5.02 2.15 2.60 0.00 1.49 1.32 1.31 1.45 1.19 2.20 3.48 3.54 1.81
Lat 2.67 2.01 1.38 4.40 0.96 2.34 1.49 0.00 0.67 0.95 0.75 2.57 1.53 3.21 2.99 1.14
Lit 3.09 1.88 1.50 4.40 1.33 2.32 1.32 0.67 0.00 1.40 0.90 2.42 2.13 3.33 3.27 1.39
Mon 3.00 1.59 0.92 5.00 1.58 2.81 1.31 0.95 1.40 0.00 1.20 2.11 0.94 3.41 3.29 1.10
Pol 2.57 2.11 1.23 3.95 0.78 1.93 1.45 0.75 0.90 1.20 0.00 2.62 1.92 2.56 2.82 1.75
Roma 4.55 0.60 1.56 6.09 3.29 3.59 1.19 2.57 2.42 2.11 2.62 0.00 2.80 4.43 4.41 2.48
Ser 2.97 2.33 1.77 5.40 1.97 3.37 2.20 1.53 2.13 0.94 1.92 2.80 0.00 3.88 3.45 1.32
Slo 2.46 4.15 3.09 2.38 2.46 1.80 3.48 3.21 3.33 3.41 2.56 4.43 3.88 0.00 2.41 4.25
Swe 1.04 4.14 3.18 2.93 2.44 1.61 3.54 2.99 3.27 3.29 2.82 4.41 3.45 2.41 0.00 3.96
Ukr 3.57 1.92 1.82 5.51 2.00 3.44 1.81 1.14 1.39 1.10 1.75 2.48 1.32 4.25 3.96 0.00

9.2 Hierarchické zhlukovanie (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares - ESS)

Obr. 2: Hierarchické zhlukovanie – dendogram s Ward.D2 metódou. Červená čiara definuje tri klastry.

Figure 9.1: Obr. 2: Hierarchické zhlukovanie – dendogram s Ward.D2 metódou. Červená čiara definuje tri klastry.

Table 9.2: Příslušnosť krajín do klastrov
Zaradenie krajín do klastrov
Country Klaster
Aus 1
Bul 2
Cro 2
Den. 1
Est 3
Fin 1
Hun 2
Lat 3
Lit 3
Mon 3
Pol 3
Roma 2
Ser 3
Slo 1
Swe 1
Ukr 3

Vykonaná klastrová analýza klasifikuje krajiny do troch klastrov. Klaster 1 vytvárajú všetky vyspelé krajiny západu + Slovinsko, ktoré je najvyspelejšou postkomunistickou krajinou. Klaster 2 tvoria krajiny z kompaktného regiónu balkánu + Maďarsko. Tretí klaster tvoria tvoria všetky postkomunistické krajiny Pobaltia a Poľsko a tiež ďalší opäť krajiny tradičného Západu. Výnimku tvorí dvojčlenný klaster Švédska a najvyspelejšej postkomunistickej krajiny - Slovinska. Tretí klaster tvoria Poľsko a pobaltské štáty a tiež susediace Srbsko a Čierna Hora ako aj Ukrajina.

9.3 Deskriptívne štatistiky výsledkov

Na základe Tab. 5 môžeme konštatovať, že vnútroklastrová variabilita je dostatočne nízka u všetkých premenných. Výnimku tvorí Schooling, ktorý sa nejaví byť tak dobrým separátorom, ako ostatné zvažované premenné. Jeho prípadné vylúčenie by teda zrejme nezmenilo podstatne klasterovú klasifikáciu.

Table 9.3: Vysvetlenie vnútroklastrovej a medziklastrovej variability z hľadiska jednotlivých premenných
Analýza variability podľa premenných
Premenná TSS WSS BSS Podiel BSS/TSS
Life.expectancy 15 3.519 11.481 0.765
BMI 15 3.730 11.270 0.751
GDP 15 2.259 12.741 0.849
Schooling 15 8.534 6.466 0.431
Table 9.4: Centroidy – priemerné hodnoty sledovaných premenných v jednotlivých klastroch
Priemerné hodnoty premenných podľa klastrov
Klaster Life Expectancy (priem.) BMI (priem.) GDP (priem.) Schooling (priem.)
1 83.80 59.80 44483.52 17.06
2 75.83 65.30 9974.39 15.15
3 75.19 61.19 10293.91 15.74

Prvý klaster je charakterizovaný vysokým stupňom ekonomického rozvoja, ako aj vysokou očakávanou dĺžkou dožitia. druhý a tretí klaster sa na seba podobajú, pričom jediným signifikantným rozdielom je BMI, ktorý je v prípade druhého klastra vyšší, ako v treťom klastri.

9.4 Záver

Predložená analýza sa zaoberá zdravotným stavom obyvateľstva vybraných členských štátov EU v závislosti na priemerných hodnotách vybraných zdravotných charakteristík. Klasifikuje krajiny do troch klastrov - pričom klastre sa do značnej miery prekrývajú s ich stupňom ekonomického rozvoja, histórie a geografickej blízkosti. Uvedená analýza môže umožniť Európskej komisii vypisovať problémovo zamerané projektové výzvy cielené na štáty podľa ich príslušnosti ku klasterom.

Literatúra

Bloom, David E, David Canning, and Michael Moore. 2014. “Optimal Retirement with Increasing Longevity.” The Scandinavian Journal of Economics 116 (3): 838–58.
Kinsella, Kevin G. 1992. “Changes in Life Expectancy 1900–1990.” The American Journal of Clinical Nutrition 55 (6): 1196S–1202S.
Lee, Ronald. 2000. “The Lee-Carter Method for Forecasting Mortality, with Various Extensions and Applications.” North American Actuarial Journal 4 (1): 80–91.
Mariani, Fabio, Agustin Pérez-Barahona, and Natacha Raffin. 2010. “Life Expectancy and the Environment.” Journal of Economic Dynamics and Control 34 (4): 798–815.