Modelovanie očakávanej dĺžky života je kľúčové pre demografiu, zdravotníctvo aj ekonomické plánovanie. Dĺžka života syntetizuje socioekonomické podmienky, zdravotný stav populácie a kvalitu zdravotnej starostlivosti, a preto predstavuje citlivý indikátor vývoja spoločnosti. Presné modely umožňujú sledovať trendy úmrtnosti, predikovať budúci demografický vývoj a hodnotiť dopady verejných politík či zdravotných intervencií.
Mimoriadny význam nadobúda modelovanie v kontexte starnutia populácie a tlaku na dôchodkové a zdravotné systémy. Klasickým a široko používaným prístupom je Lee–Carterov stochastický model úmrtnosti (Lee 2000), pričom nové empirické štúdie ukazujú, že ekonomické faktory môžu predikciu dĺžky života ďalej spresniť (Bloom, Canning, and Moore 2014). Okrem toho zaujímavými štúdiami priamo sa týkajúcimi témy tejto práce sú aj (Mariani, Pérez-Barahona, and Raffin 2010) a (Kinsella 1992).
V predloženej práci predstavíme výskum, ktorý sa bude zaoberať modelovaním očakávanej dĺžky života.
Údaje sme získali z databázy Mendeley Data ktorá pokrýva všetky krajiny sveta časové obdobie od roku 2000 do roku 2015. Zároveň sme sa rozhodli, že nakoľko budeme modelovať prierezové údaje, vybrali sme z databázy len pozorovania za rok 2015. Štruktúra databázy bola pomerne široká a obsahovala pomerne veľa nepresností, spôsobených najmä posunom desatinných čiarok. Preto sme sa rozhodli len pre výber najzákladnejších ukazovateľov a to Body mass index (BMI), HDP na obyvateľa (GDP) a tiež priemerný počet rokov, ktorý obyvateľstvo navštevovalo školskú dochádzku (Schooling). Predpokladali sme, že práve oni môžu byť vhodnými vysvetľujúcimi veličinami, ktoré majú rozhodujúci vplyv na očakávanú dĺžku života.
V databáze niektoré údaje chýbali, doplnili sme ich preto mediánmi zodpovedajúcej premennej.
| Statistic | Life.expectancy | BMI | GDP | Schooling |
|---|---|---|---|---|
| Min. | 51.00000 | 2.50000 | 33.68122 | 4.90000 |
| 1st Qu. | 65.75000 | 24.30000 | 1152.30960 | 11.10000 |
| Median | 73.90000 | 48.60000 | 2916.22892 | 13.10000 |
| Mean | 71.61694 | 42.81803 | 6508.80725 | 12.93661 |
| 3rd Qu. | 76.95000 | 61.35000 | 5881.98995 | 14.85000 |
| Max. | 88.00000 | 77.60000 | 66346.52267 | 20.40000 |
Pri pohľade na údaje v Tabuľke 2.1 je zrejmé, že najmä premenná GDP je dosť vychýlená. To znamená že stredná hodnota tejto premennej je omnoho väčšia ako hodnota mediánu, čo nám signalizuje, že údaje sú výrazne zošikmené smerom doprava. U ostatných údajov takéto silné zošikmenie nevidíme.
Figure 2.1: Párové vzťahy medzi premennými
Analýzou párových grafov medzi vysvetľovanou a vysvetľujúcimi veličinami uvedenými na Obr. 2.1 zisťujeme, že existuje zrejmý pozitívny vzťah medzi vysvetľovanou a každou z vysvetľujúcich veličín, pričom vysvetľovaná veličina Life.expectancy vykazuje určitý odklon od normality a zošikmenie rozdelenia (pozri boxplot na tom istom obrázku)
V práci sme sa rozhodli modelovať strednú dĺžku života, pričom používame premenné ktoré sa zdôrazňujú v bežnom živote. Základná výskumná otázka teda spočíva v skúmaní faktorov, ktoré ovplyvňujú očakávanú dĺžku života. Pritom premenná Life.Expectancy je meraná za jednotlivé krajiny sveta (rok 2015). Variabilitu tejto premennej budeme modelovať v závislosti na jej vzťahu k premennej Schooling čo predstavuje strednú dobu štúdia obyvateľa danej krajiny. Predpokladáme, že vyššie vzdelanie bude znamenať zároveň i predĺženie strednej dĺžky života a to z dôvodu uvedomelého starania sa o zdravotný stav vzdelanej časti obyvateľstva. Ďalšou premennou je Body Mass Index (BMI), ktorý podľa známych a overených vedomosti skracuje strednú dĺžku života, nakoľko je spojený srdcovo cievnými ochoreniami ako aj nádorovými ochoreniami. Poslednou premenou HDP na obyvateľa (GDP), čo vyjadruje stupeň ekonomického rozvoja skúmanej krajiny. Tu predpokladáme lepšiu zdravotnou starostlivosť v rozvinutých krajinách, čo by malo byť spojené aj s nárastom ich očakávanej dlžky života.
Naša pracovná hypotéza hovorí o štatisticky významnom vplyve všetkých troch vysvetľujúcich premenných, pričom u premenných GDP a Schooling by malo ísť o pozitívny vplyv (očakávame kladné znamienko odhadovaného regresného koeficienta) a v prípade BMI by malo ísť of negatívny vplyv (so záporným znamienkom). Hypotézy sme sa rozhodli testovať pomocou linerárnej regresie
\[ Life.expectancy_i = \beta_0 + \beta_1 Schooling_i + \beta_2 BMI_i + \beta_3 GDP_i + u_i \tag{3.1} \]
kde index \(i\) označuje krajinu a \(u_i\) označuje náhodnú zložku modelu (\(\mathbf u \sim N[\mathbf 0, \sigma^2 \mathbf I]\)).
Hypotéza
Prespokladáme štatisticky významné vzťahy \(\beta_1 > 0\),\(\beta_2 < 0\),\(\beta_3 > 0\), ktoré budeme testovať s pomocou t-testov štatistickej významnosti regresných koeficientov.
Keďže niektoré údaje chýbajú, doplnili sme ich mediánmi celého súboru údajov. Analýzou predchádzajúcich obrázkov sme dospeli k záveru, že grafická analýza údajov nám neodhalila žiadne významné odľahlé hodnoty.
–>
Model spočiatku odhadneme v jeho základnom tvare, pričom
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 44.1936 | 1.8389 | 24.0332 | 0.0000 |
| BMI | 0.0495 | 0.0214 | 2.3078 | 0.0222 |
| GDP | 0.0001 | 0.0000 | 1.8132 | 0.0715 |
| Schooling | 1.9210 | 0.1645 | 11.6762 | 0.0000 |
| Statistic | Value |
|---|---|
| N (Observations) | 183.0000 |
| R-squared | 0.6224 |
| Adjusted R-squared | 0.6161 |
| F-statistic | 98.3632 |
| F-test p-value | 0.0000 |
| AIC | 1116.7767 |
| Residual Std. Error | 5.0334 |
Tabuľka 4.1 nám poskytuje súbor odhadovaných regresných koeficientov. Naša hypotéza o negatívnom vplyve BMI na strednú dĺžku života sa nepotvrdila. Súvisiaci regresný koeficient bol odhadnutý s pozitívnym znamienkom a bol dokonca aj štatisticky významný. Premenná Schooling má tiež kladné znamienko a naša hypotéza sa v tomto prípade potvrdila. Naopak, regresný koeficient odhadnutý u GDP je tiež kladný, ale nedosahuje nami požasovanú úroveň štatisickej významnosti 5 %. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 4.2), model vysvetľuje až 62 % variability vysvetľovanej premennej a ako celok je štatisticky významný (pozri koeficient determinácie a výsledky F testu).
Nasledovné podobrázky Obrázka (4.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error - e).
Figure 4.1: Diagnostické grafy regresného modelu
Keďže grafická interpretácia diagnostických grafov naznačuje, že môže byť narušený predpoklad normality náhodnej zložky, otestovali sme predpoklad normálneho rozdelenia u rezíduí modelu. Tu sme zamietli túto hypotézu (Jarque-Berra test - p-value = 0 < 0.05). Nakoľko máme rozsiahly súbor premenných (183 pozorovaní) a tiež budeme v ďalšom zvažovať prípadné nelineárne špecifikácie modelu, rozhodli sme sa porušeniu tohto predpokladu nevenovať momentálne väčšiu pozornosť.
Vyššie uvedená grafická analýza rezídí modelu nás doviedla k záveru, že napriek trom odľahlým pozorovaniam nejestvuje ich zásadný vplyv na odhad regresných koeficientov pôvodného modelu. Tento výsledok nám potvrdzuje aj test odľahlých hodnôt (p-hodnota po Bonferroniho korekcii je 0.06 > 0.05. Preto sa ďalej špecifikám týchto pozorovaní nebudeme ďalej venovať.
Prítomnosť heteroskedasticity spôsobuje zlé vyhodnocovanie t-testov významnosti jednotlivých regresných koeficientov. Preto je nutné, aby sme heteroskedasticitu - detekovali (vizuálne a s pomocou testov) - a v prípade prítomnosti heteroskedasticity aby sme ju odstránili.
Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv. Scale-Location graf uvedený vyššie).
Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže heteroskedasticitu spôsobovať. Obrázok 5.1 signalizuje ako hlavnú príčinu možnej heteroskedasticity práve premennú BMI. Posledný podobrázok (vpravo dole), ktorý vyjadruje závislosť štvorcov rezíduí na vyrovnaných hodnotách, môže byť dôsledkom poruchového vzťahu BMI a samotnej vysvetľovanej premennej Life.expectancy, resp. štvorcoch rezíduí pôvodného regresného modelu.
Figure 5.1: Skúmanie heteroskedasticity
Na základe Breusch-Paganovho testu (p-hodnota = 0 < 0.05) môžeme povedať, že heteroskedasticita rezíduí je v modeli prítomná. V závere na jej odstránenie zrejme použijeme logaritmickú transformáciu premennej GDP, ktorá by nám mala aspoň sčasti normalizovať rozdelenie pozorovaní tejto premennej. Tiež aj naďalej budeme uvažovať s odstránením premennej BMI, ktorej kladný vplyv na vysvetľovanú premennú nie je vysvetliteľný.
Možným riešením problému heteroskedasticity je použitie tzv. White heteroskedasticity Consistent Matrix (WHC), kde v t testoch významnosti regresných koeficientov sa používajú “hrubšie” odhady rozptylov regresných koeficientov.Výsledky sú uvedené v 5.1.
|
Coefficient Estimates
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 44.1936 | 1.8560 | 23.8108 | 0.0000 |
| BMI | 0.0495 | 0.0240 | 2.0587 | 0.0410 |
| GDP | 0.0001 | 0.0000 | 2.2282 | 0.0271 |
| Schooling | 1.9210 | 0.1745 | 11.0087 | 0.0000 |
Všimnime si, že tentokrát je už každá premenná štatisticky významná. Problém s neinterpetovateľnosťou regresného koeficientu pri BMI však naďalej pretrváva.
Testovať, či je model v správnej funkčnej forme (t. j. či je lineárna špecifikácia vhodná, alebo či by ste mali transformovať premenné, napríklad pomocou logaritmov alebo mocninami), možno vykonať viacerými spôsobmi, pričom my budeme vychádzať z tzv. Ramsey Reset testu. Chyba špecifikácie znamená tiež, že do modelu sú začlenené také regresory, ktoré nemajú štatisticky významný vplyv na vysvetľovanú premennú, alebo je tých regresorov nedostatok. Keďže naša databáza nám neponúka viac kvalitných údajov, s manipuláciami typu pridávania / uberania regresorov sa nebudeme zaoberať. Ostaneme teda najmä pri funkčnej (nelineárnej) špecifikácii modelu.
Ide o štandardný test nesprávnej špecifikácie funkčnej formy ale dá sa použiť aj pre prípady, ak sme nešpecifikovali všetky vysvetľujúce premenné. Náš pôvodný regresný model má tvar (3.1).
Ak je váš model správne špecifikovaný, potom pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal podstatne zlepšiť, teda budeme testovať pôvodný model
\[Life.expectancy_i = \beta_0 + \beta_1 BMI_{i} + \beta_2 GDP_{i} + \beta_2 Schooling_{i} + \] \[ \quad + \gamma_1\hat{Life.expectancy}_i^2 + \gamma_2\hat{Life.expectancy}_i^3 + \nu_i,\]
kde testujeme štatistickú významnosť koeficientov \(\gamma_2, \gamma_3 (= 0)\)). Symbol striešky ^ v rovnici symbolizuje vyrovnané hodnoty. V našom modeli zamietame nulovú hypotézu (p-hodnota < 0.01), a teda aspoň jeden z týchto koeficientov sa významne odlišuje od nuly. V našom prípade je nulová hypotéza zamietnutá (p-hodnota je 0.001).
Prijímame alternatívnu hypotézu (model je nesprávne špecifikovaný), t.j. chýbajú mu niektoré dodatočné vysvetľujúce premenné (tie nemáme), alebo je potrebné urobiť nelineárnu transformáciu používaných premenných.
Grafická analýza vzťahu medzi vyrovnanými hodnotami náhodnej premennej a rezíduami vychádza z obrázku 5.1 Scale Location. Tu rezíduá vykazujú nenáhodný vzor (pozri zakrivenie červenej LOESS krivky), model teda nemusí byť lineárny v premenných a môže pomôcť nejaká ich funkčná transformácia.
Táto analýza nám môže pomôcť pri hľadaní odpovede na otázku, ktorú premennú by sme mali transfomovať pomocou nejakej známej funkcie. Komponent C+R vyjadruje súčet vyrovnanej hodnoty a rezídua zodpovedajúci každému pozorovaniu zvolenej vysvetľujúcej veličiny. Tieto grafy pomáhajú identifikovať nelineárne vzťahy pre každý regresor.
Figure 6.1: Grafy C+R
V našom prípade je najväčší odklon od linearity zaznamenaný v prípade premennej Schooling a BMI.
Častokrát môžeme aj zložitejšie nelineárne vzťahy modelovať s pomocou ich aproximácie polynómom, teda v v našom prípade kvadratických členov
\[Life.expectancy_i = \beta_0 + \beta_1 BMI_{i} + \beta_2 GDP_{i} + \beta_2 Schooling_{i} + \] \[ \quad + \gamma_1 BMI_i^2 + \gamma_2 GDP_i^2 + \gamma_3 Schooling_i^2 + \nu_i\] Príklad na túto modifikáciu uvidíme nižšie.
Predpokladajme, že sa pri nelineárnych úpravách pôvodnej rovnice dostaneme k zavedeniu kvadrátu premennej Schooling a BMI nakoľko sme motivovaní práve Component+Residual obrázkami uvedenými vyššie. V ich prípade sa vyrovnávajúca LOESS krivka asi najviac líši od priamky.
Výsledky pôvodného modelu sú uvedené v Tabuľke 4.1, resp. v Tabuľke 4.2.
Ak má transformovaný model vyšší upravený koefcient determinácie \(R^2_{adj}\) a pri RESET test prijmeme alternatívnu hypotézu, odporúčame si výsledky potvrdiť s pomocou Anova testu oboch modelov a prípadne opakovaného Reset Testu uplatneneného na nelineárne transformovaný model. Tu Anova vykazuje zlepšenie (p-hodnota= 0.002) ale Reset test uplatnený na model s kvadratickou úpravou stále signalizuje chybu špecifikácie (p-hodnota < 0.001). Napriek tomu môžeme konštatovať, že upravený koeficient determinácie zlepšil svoju hodnotu. Je teda zrejmé, že k dobrej špecifikácii by sme zrejme potrebovali aj niektoré dodatočné premenné (epidemické údaje, podnebie, životné prostredie, atď.), s ktorými nedisponujeme.
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 49.2637 | 5.2167 | 9.4434 | 0.0000 |
| BMI | -0.2498 | 0.0866 | -2.8860 | 0.0044 |
| GDP | 0.0001 | 0.0000 | 1.7265 | 0.0860 |
| Schooling | 1.9007 | 0.8008 | 2.3736 | 0.0187 |
| I(Schooling^2) | -0.0051 | 0.0319 | -0.1589 | 0.8739 |
| I(BMI^2) | 0.0040 | 0.0011 | 3.5634 | 0.0005 |
| Statistic | Value |
|---|---|
| N (Observations) | 183.0000 |
| R-squared | 0.6477 |
| Adjusted R-squared | 0.6378 |
| F-statistic | 65.0856 |
| F-test p-value | 0.0000 |
| AIC | 1108.0962 |
| Residual Std. Error | 4.8894 |
Po autokoreácii a heteroskedasticite rezíduí je multikolinearita tretím závažným porušením predpokladov použitia metódy najmenších štvorcov. Tu sa okrem iného predpokadá, že matica \(\mathbf X\) je tvorená lineárne nezávislými riadkami a tiež stĺpcami, čo zabezpečí regularitu matice \(\mathbf X^T\mathbf X\) a teda možnosť jej inverzie. V praxi sa ale môže stať, že vzniká "takmer singulárna matica \(\mathbf X^T\mathbf X\) ", t.j. matica \(\mathbf X\) je tvorená "približne" lineárne závislými stĺpcami. V tomto prípade je inverzná matica \((\mathbf X^T\mathbf X)^{-1}\) veľmi nestabilná a obsahuje na hlavnej diagonále veľmi veľké hodnoty. To spôsobuje nestabilitu odhadovaných regresných koeficientov a ich nadhodnotené rozptyly.
Tento problém nazývame problémom multikolinearity.
Multikolinearita patrí medzi najčastejšie problémy viacnásobnej lineárnej regresie.
Je dôležité jasne rozlišovať dva fakty:
Budeme pracovať s regresným modelom z minulých cvičení, teda s rovnicou (3.1). Pri odhade základného regresného modelu (pozri Tabuľky 4.1 a 4.2) pozorujeme veľké rádové rozdiely v odhade regresných koeficientov (napr. porovnaj rády koeficientov pri GDP a pri Schooling).
Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.
|
Korelačná matica
|
|||
|---|---|---|---|
| BMI | GDP | Schooling | |
| BMI | 1.000 | 0.311 | 0.526 |
| GDP | 0.311 | 1.000 | 0.435 |
| Schooling | 0.526 | 0.435 | 1.000 |
Tabuľka 7.1 uvádza párove koeficienty korelácie, pričom neidentifikujeme dve premenné, ktoré by boli silne korelované. Preto sa zdá, že model nebude zaťažený multikolinearitou.
Indikátorom multikolinearity u premennej, ktorá multikolinearitu zapríčiňuje, je Variance Inflation Factor (VIF).
|
Diagnostika multikolinearity
|
|
|---|---|
| Premenná | VIF |
| BMI | 1.399 |
| GDP | 1.248 |
| Schooling | 1.559 |
Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity, je podmienka VIF > 5 (prísne kritérium), alebo VIF > 10 (menej prísne kritérium). V našom prípade to nespĺňa žiadna z vysvetľujúcich veličín.
Pri existencii multikolinearity sa model prejavuje tak, že koeficient determinácie je síce vysoký a zdá sa, že model je veľmi dobrý, ale regresné koeficienty nie sú štatisticky významné - t.j. štandardné odchýlky regresných koeficientov sú veľmi veľké. Túto situáciu zachytáva nasledovný ukazovateľ.
Ak Condition number je
V našom prípade tento ukazovateľ dosahuje hodnotu 2692.7 čo signalizuje vážne problémy s multikolinearitou
Pokúsme sa vynechať postupne jednotlivé premenné a porovnajme následne upravené koeficienty determinácie oboch nových modelov.
| Premenná | Adj. R-sqr |
|---|---|
| BMI | 0.607 |
| Schooling | 0.328 |
| GDP | 0.611 |
Tu vidíme, že vynechanie premennej Schooling podstatne znižuje upravený koeficient determinácie, a preto v prípade vynechávania premennej by sme uprednostnili vynechanie premennej GDP, alebo BMI.
Ak sa chceme vynhúť strate interpretovateľnosti, môžeme sa pozrieť, v akých rádoch sa pohybuje vývoj jednotlivých vysvetľujúcich veličín a upraviť jednoduchým prevodom na iné jednotky tú premennú, ktorá sa odlišuje od ostatných. Aktuálne hodnoty prvých riadkov našej databázy je znázornených v 7.4. V našom prípade ide o premennú GDP, ktorá meria HDP na obyvateľa v dolároch. My to predelením 1000 prevedieme na HDP na obyvateľa vyjadrený v tisícoch dolárov. Tým dostaneme premenné vyjadrené v rádovo porovnateľných jednotkách tak, ako je to uvedené v nasledovnej tabuľke.
|
Data.frame udaje
|
|||
|---|---|---|---|
| Life.expectancy | BMI | GDP | Schooling |
| 65.0 | 19.1 | 584.259 | 10.1 |
| 77.8 | 58.0 | 3954.228 | 14.2 |
| 75.6 | 59.5 | 4132.763 | 14.4 |
| 52.4 | 23.3 | 3695.794 | 11.4 |
| 76.4 | 47.7 | 13566.954 | 13.9 |
| 76.3 | 62.8 | 13467.124 | 17.3 |
Potom lineárny model dosiahne výsledky
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 44.1936 | 1.8389 | 24.0332 | 0.0000 |
| BMI | 0.0495 | 0.0214 | 2.3078 | 0.0222 |
| GDP1000 | 0.0697 | 0.0385 | 1.8132 | 0.0715 |
| Schooling | 1.9210 | 0.1645 | 11.6762 | 0.0000 |
| Statistic | Value |
|---|---|
| N (Observations) | 183.0000 |
| R-squared | 0.6224 |
| Adjusted R-squared | 0.6161 |
| F-statistic | 98.3632 |
| F-test p-value | 0.0000 |
| AIC | 1116.7767 |
| Residual Std. Error | 5.0334 |
|
Diagnostika multikolinearity – VIF (model s GDP1000)
|
|
|---|---|
| Premenná | VIF |
| BMI | 1.399 |
| GDP1000 | 1.248 |
| Schooling | 1.559 |
kde všetky regresné koeficienty majú porovnateľné rády a tiež VIF je akceptovateľný vo všetkých prípadoch. Conditional number je potom 10.6 čo sa nachádza niekde na hranici nášho intuitívneho kritéria medzi Nízka multikolinearita a Mierna multikolinearita. Regresné koeficienty si ale zachovali dobrú interpretovateľnosť.
Výsledkom ekonometrického experimentovania sme došli k záverečnej forme modelu, ktorá má tvar
\[ Life.expectancy_i = \beta_0 + \beta_1 Schooling_i + \beta_3 \frac{GDP_i}{1000} + u_i \tag{8.1} \]
Výsledky odhadu modelu (8.1) sú uvedené v Tabuľkách 8.1 a 8.2
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 44.0069 | 1.8590 | 23.6721 | 0.0000 |
| Schooling | 2.0944 | 0.1481 | 14.1419 | 0.0000 |
| I(GDP/1000) | 0.0792 | 0.0387 | 2.0470 | 0.0421 |
| Statistic | Value |
|---|---|
| N (Observations) | 183.0000 |
| R-squared | 0.6112 |
| Adjusted R-squared | 0.6069 |
| F-statistic | 141.4818 |
| F-test p-value | 0.0000 |
| AIC | 1120.1421 |
| Residual Std. Error | 5.0935 |
Tabuľka 8.1 nám poskytuje súbor odhadovaných regresných koeficientov. Neinterpretovateľný vplyv BMI na strednú dĺžku života nás motivoval k tomu, aby sme túto premennú vylúčili. Premenná Schooling má tiež kladné znamienko a naša hypotéza sa v tomto prípade potvrdila. Taktiež regresný koeficient odhadnutý u GDP je kladný a štatisticky významný. Ak hovoríme o vlastnostiach modelu ako celku (pozri Tabuľku 8.2), model vysvetľuje až 61 % variability vysvetľovanej premennej a ako celok je štatisticky významný (pozri koeficient determinácie a výsledky F testu).
Nasledovné podobrázky Obrázku (8.1) nám dávajú predstavu o správaní sa chýb (rezíduí) modelu (error - e).
Figure 8.1: Diagnostické grafy regresného modelu
Keďže grafická interpretácia diagnostických grafov naznačuje, že môže byť narušený predpoklad normality náhodnej zložky, otestovali sme predpoklad normálneho rozdelenia u rezíduí modelu. Tu sme zamietli túto hypotézu (Jarque-Berra test - p-value = 0 ). Nakoľko máme rozsiahly súbor premenných (183 pozorovaní) a tiež budeme v ďalšom zvažovať prípadné nelineárne špecifikácie modelu, rozhodli sme sa porušeniu tohto predpokladu nevenovať momentálne väčšiu pozornosť.
Po Bonferroniho korekcii p-hodnota testu odľahlých hodnôt po Bonferroniho korekcii dosiahla hodnotu 0.04, pripúšťame možné problémy s odľahlými hodnotami. Napriek tomu sme ale odľahlé pozorovanie nechali v databáze.
Figure 8.2: Skúmanie heteroskedasticity
Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv. Scale-Location graf uvedený vyššie).
Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže heteroskedasticitu spôsobovať. Obrázok 8.2 signalizuje , že obe vysvetľujúce premenné vykazujú možnú príčinnosť heteroskedasticity. Breush Paganov test (p-value =0.13) ale prítomnosť heteroskedasticity vyvracia.
obr
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Použíli sme pritom tzv. z-škálovanie Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. Pri pohľade na maticu xxxx však zistíme, že žiaden pár premenných nie je tak silne korelovaný.
Každej krajine zodpovedá jeden riadok pozorovaní. Štandardne používame Euklidovskú vzdialenosť, t.j. vzdialenosť medzi krajinami \(i\) a \(j\) je:
\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (Life.expectancy, BMI, GDP, Schooling) krajiny \(i\). Vzdialenosti medzi jednotlivými krajinami sa súhrnne vyjadrujú aj v matici vzdialenosti, čo v našom prípade je uvedené v Tab.3.. Analýzou tejto tabuľky zistíme, že najväčšia vzdialenosť je medzi Rumunskom a Dánskom, zatiaľ čo malá vzdialenosť je medzi Rumunskom a Bulharskom. Oba prípady vieme vysvetliť polohou týchto krajín, podnebím, ako aj históriou, ktorá je podobná, alebo rozdielna.
Tab. 3
|
Vzdialenosti (Euclidean distance)
|
||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Aus | Bul | Cro | Den. | Est | Fin | Hun | Lat | Lit | Mon | Pol | Roma | Ser | Slo | Swe | Ukr | |
| Aus | 0.00 | 4.18 | 3.15 | 3.05 | 1.98 | 2.02 | 3.58 | 2.67 | 3.09 | 3.00 | 2.57 | 4.55 | 2.97 | 2.46 | 1.04 | 3.57 |
| Bul | 4.18 | 0.00 | 1.16 | 5.76 | 2.78 | 3.31 | 0.75 | 2.01 | 1.88 | 1.59 | 2.11 | 0.60 | 2.33 | 4.15 | 4.14 | 1.92 |
| Cro | 3.15 | 1.16 | 0.00 | 4.82 | 1.85 | 2.44 | 0.70 | 1.38 | 1.50 | 0.92 | 1.23 | 1.56 | 1.77 | 3.09 | 3.18 | 1.82 |
| Den. | 3.05 | 5.76 | 4.82 | 0.00 | 3.57 | 2.59 | 5.02 | 4.40 | 4.40 | 5.00 | 3.95 | 6.09 | 5.40 | 2.38 | 2.93 | 5.51 |
| Est | 1.98 | 2.78 | 1.85 | 3.57 | 0.00 | 1.86 | 2.15 | 0.96 | 1.33 | 1.58 | 0.78 | 3.29 | 1.97 | 2.46 | 2.44 | 2.00 |
| Fin | 2.02 | 3.31 | 2.44 | 2.59 | 1.86 | 0.00 | 2.60 | 2.34 | 2.32 | 2.81 | 1.93 | 3.59 | 3.37 | 1.80 | 1.61 | 3.44 |
| Hun | 3.58 | 0.75 | 0.70 | 5.02 | 2.15 | 2.60 | 0.00 | 1.49 | 1.32 | 1.31 | 1.45 | 1.19 | 2.20 | 3.48 | 3.54 | 1.81 |
| Lat | 2.67 | 2.01 | 1.38 | 4.40 | 0.96 | 2.34 | 1.49 | 0.00 | 0.67 | 0.95 | 0.75 | 2.57 | 1.53 | 3.21 | 2.99 | 1.14 |
| Lit | 3.09 | 1.88 | 1.50 | 4.40 | 1.33 | 2.32 | 1.32 | 0.67 | 0.00 | 1.40 | 0.90 | 2.42 | 2.13 | 3.33 | 3.27 | 1.39 |
| Mon | 3.00 | 1.59 | 0.92 | 5.00 | 1.58 | 2.81 | 1.31 | 0.95 | 1.40 | 0.00 | 1.20 | 2.11 | 0.94 | 3.41 | 3.29 | 1.10 |
| Pol | 2.57 | 2.11 | 1.23 | 3.95 | 0.78 | 1.93 | 1.45 | 0.75 | 0.90 | 1.20 | 0.00 | 2.62 | 1.92 | 2.56 | 2.82 | 1.75 |
| Roma | 4.55 | 0.60 | 1.56 | 6.09 | 3.29 | 3.59 | 1.19 | 2.57 | 2.42 | 2.11 | 2.62 | 0.00 | 2.80 | 4.43 | 4.41 | 2.48 |
| Ser | 2.97 | 2.33 | 1.77 | 5.40 | 1.97 | 3.37 | 2.20 | 1.53 | 2.13 | 0.94 | 1.92 | 2.80 | 0.00 | 3.88 | 3.45 | 1.32 |
| Slo | 2.46 | 4.15 | 3.09 | 2.38 | 2.46 | 1.80 | 3.48 | 3.21 | 3.33 | 3.41 | 2.56 | 4.43 | 3.88 | 0.00 | 2.41 | 4.25 |
| Swe | 1.04 | 4.14 | 3.18 | 2.93 | 2.44 | 1.61 | 3.54 | 2.99 | 3.27 | 3.29 | 2.82 | 4.41 | 3.45 | 2.41 | 0.00 | 3.96 |
| Ukr | 3.57 | 1.92 | 1.82 | 5.51 | 2.00 | 3.44 | 1.81 | 1.14 | 1.39 | 1.10 | 1.75 | 2.48 | 1.32 | 4.25 | 3.96 | 0.00 |
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:
Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares - ESS)
Figure 9.1: Obr. 2: Hierarchické zhlukovanie – dendogram s Ward.D2 metódou. Červená čiara definuje tri klastry.
|
Zaradenie krajín do klastrov
|
|
|---|---|
| Country | Klaster |
| Aus | 1 |
| Bul | 2 |
| Cro | 2 |
| Den. | 1 |
| Est | 3 |
| Fin | 1 |
| Hun | 2 |
| Lat | 3 |
| Lit | 3 |
| Mon | 3 |
| Pol | 3 |
| Roma | 2 |
| Ser | 3 |
| Slo | 1 |
| Swe | 1 |
| Ukr | 3 |
Vykonaná klastrová analýza klasifikuje krajiny do troch klastrov. Klaster 1 vytvárajú všetky vyspelé krajiny západu + Slovinsko, ktoré je najvyspelejšou postkomunistickou krajinou. Klaster 2 tvoria krajiny z kompaktného regiónu balkánu + Maďarsko. Tretí klaster tvoria tvoria všetky postkomunistické krajiny Pobaltia a Poľsko a tiež ďalší opäť krajiny tradičného Západu. Výnimku tvorí dvojčlenný klaster Švédska a najvyspelejšej postkomunistickej krajiny - Slovinska. Tretí klaster tvoria Poľsko a pobaltské štáty a tiež susediace Srbsko a Čierna Hora ako aj Ukrajina.
Na základe Tab. 5 môžeme konštatovať, že vnútroklastrová variabilita je dostatočne nízka u všetkých premenných. Výnimku tvorí Schooling, ktorý sa nejaví byť tak dobrým separátorom, ako ostatné zvažované premenné. Jeho prípadné vylúčenie by teda zrejme nezmenilo podstatne klasterovú klasifikáciu.
|
Analýza variability podľa premenných
|
||||
|---|---|---|---|---|
| Premenná | TSS | WSS | BSS | Podiel BSS/TSS |
| Life.expectancy | 15 | 3.519 | 11.481 | 0.765 |
| BMI | 15 | 3.730 | 11.270 | 0.751 |
| GDP | 15 | 2.259 | 12.741 | 0.849 |
| Schooling | 15 | 8.534 | 6.466 | 0.431 |
|
Priemerné hodnoty premenných podľa klastrov
|
||||
|---|---|---|---|---|
| Klaster | Life Expectancy (priem.) | BMI (priem.) | GDP (priem.) | Schooling (priem.) |
| 1 | 83.80 | 59.80 | 44483.52 | 17.06 |
| 2 | 75.83 | 65.30 | 9974.39 | 15.15 |
| 3 | 75.19 | 61.19 | 10293.91 | 15.74 |
Prvý klaster je charakterizovaný vysokým stupňom ekonomického rozvoja, ako aj vysokou očakávanou dĺžkou dožitia. druhý a tretí klaster sa na seba podobajú, pričom jediným signifikantným rozdielom je BMI, ktorý je v prípade druhého klastra vyšší, ako v treťom klastri.
Predložená analýza sa zaoberá zdravotným stavom obyvateľstva vybraných členských štátov EU v závislosti na priemerných hodnotách vybraných zdravotných charakteristík. Klasifikuje krajiny do troch klastrov - pričom klastre sa do značnej miery prekrývajú s ich stupňom ekonomického rozvoja, histórie a geografickej blízkosti. Uvedená analýza môže umožniť Európskej komisii vypisovať problémovo zamerané projektové výzvy cielené na štáty podľa ich príslušnosti ku klasterom.