1 Úvod

Očakávaná dĺžka života patrí medzi základné ukazovatele sociálneho a ekonomického rozvoja krajín. Tento indikátor odráža nielen zdravotný stav populácie, ale aj ekonomickú štruktúru, úroveň zamestnanosti a celkovú výkonnosť hospodárstva. Rozdiely v dĺžke života medzi krajinami sú často spojené s rozdielnou ekonomickou úrovňou a štruktúrou trhu práce.

Cieľom tejto práce je analyzovať vzťah medzi ekonomickými faktormi a očakávanou dĺžkou života v jednotlivých krajinách sveta pomocou ekonometrického modelu. Osobitná pozornosť sa venuje vplyvu štruktúry zamestnanosti a ekonomickej výkonnosti krajiny na dĺžku života obyvateľstva.

2 Údaje

Použité údaje pochádzajú z databázy Mendeley Data, ktorá obsahuje informácie o ekonomických a sociálnych ukazovateľoch krajín sveta v období rokov 1991 až 2022. Keďže cieľom práce je analýza prierezových údajov, z databázy boli vybrané pozorovania za jeden konkrétny rok.

Z databázy boli použité tieto premenné: podiel zamestnanosti v poľnohospodárstve (Agriculture), podiel zamestnanosti v priemysle (Industry), podiel zamestnanosti v službách (Services), miera nezamestnanosti (Unemployment Rate) a hrubý domáci produkt (GDP).

Premenná GDP bola v analýze použitá v aj logaritmickej forme s cieľom obmedziť vplyv extrémnych hodnôt a lepšie zachytiť vzťah medzi ekonomickou výkonnosťou krajiny a očakávanou dĺžkou života.

Chýbajúce hodnoty v dátach boli nahradené mediánmi jednotlivých premenných. Základná deskriptívna a grafická analýza údajov neodhalila prítomnosť výrazných odľahlých hodnôt, ktoré by mohli významne ovplyvniť výsledky regresnej analýzy.

2.1 Základné štatistiky

##  Unemployment.Rate  Agriculture         Industry         Services    
##  Min.   : 0.110    Min.   : 0.1597   Min.   : 3.278   Min.   :10.73  
##  1st Qu.: 3.527    1st Qu.: 4.8270   1st Qu.:14.865   1st Qu.:43.65  
##  Median : 5.205    Median :16.5223   Median :19.573   Median :59.10  
##  Mean   : 7.428    Mean   :23.5834   Mean   :19.819   Mean   :56.60  
##  3rd Qu.:10.102    3rd Qu.:37.4933   3rd Qu.:24.920   3rd Qu.:70.20  
##  Max.   :26.906    Max.   :85.9903   Max.   :50.748   Max.   :93.00  
##     GDP_USD         
##  Min.   :3.837e+08  
##  1st Qu.:1.316e+10  
##  Median :4.303e+10  
##  Mean   :4.781e+11  
##  3rd Qu.:2.546e+11  
##  Max.   :2.066e+13

Základná deskriptívna analýza poukazuje na výraznú heterogenitu skúmaných krajín. Miera nezamestnanosti sa pohybuje v rozpätí od 0.11 % do 26.91 %, pričom medián dosahuje hodnotu 5.21 % a priemerná hodnota 7.43 %. Podiel zamestnanosti v poľnohospodárstve vykazuje veľmi vysokú variabilitu (0.16 % – 85.99 %), čo odráža rozdiely v ekonomickej štruktúre jednotlivých krajín.

Podiel zamestnanosti v priemysle je koncentrovanejší, s mediánom 19.57 %, zatiaľ čo sektor služieb dominuje vo väčšine krajín, kde medián dosahuje 59.10 %. Premenná HDP v absolútnych hodnotách vykazuje extrémnu pravostrannú šikmosť, keď sa pohybuje od 3.84×10^8 do 2.07×10^13 USD. Z tohto dôvodu je v ďalšej analýze vhodné pracovať s logaritmickou transformáciou HDP.

Boxploty ilustrujú rozdelenie základných ekonomických premenných v analyzovanom súbore krajín. Miera nezamestnanosti vykazuje miernu pravostrannú šikmosť a prítomnosť niekoľkých vyšších hodnôt, čo naznačuje existenciu krajín s výrazne zvýšenou nezamestnanosťou.

Podiel zamestnanosti v poľnohospodárstve má veľmi široké rozpätie hodnôt, čo poukazuje na výrazné rozdiely v ekonomickej štruktúre krajín – od vysoko industrializovaných ekonomík až po prevažne agrárne krajiny. Premenná Industry je koncentrovanejšia okolo mediánu, pričom extrémne hodnoty sa vyskytujú len ojedinele.

Premenná GDP vykazuje extrémnu pravostrannú šikmosť a prítomnosť výrazných odľahlých hodnôt, čo potvrdzuje potrebu jej logaritmickej transformácie v ďalšej ekonometrickej analýze. Na základe boxplotov môžeme pozorovať nasledovné skutočnosti:

  • Unemployment.Rate – väčšina pozorovaní sa sústreďuje v stredných hodnotách, avšak v niektorých krajinách sa vyskytujú aj extrémne vyššie miery nezamestnanosti. To naznačuje, že medzi krajinami existujú výrazné rozdiely v trhu práce.
  • Agriculture – hodnoty sa pohybujú v širokom intervale. Krajiny s vyšším podielom poľnohospodárstva môžu mať nižšiu úroveň industrializácie, čo sa často spája s vyššou nezamestnanosťou.
  • Industry – väčšina krajín má stredné až vyššie hodnoty, pričom extrémne hodnoty sú menej časté. Vyšší podiel priemyslu naznačuje rozvinutejšiu ekonomiku.
  • GDP_USD – rozloženie ukazuje výrazné rozdiely v ekonomickej úrovni medzi krajinami. Niektoré hodnoty GDP sú veľmi vysoké – ide o bohatšie krajiny s vyspelou ekonomikou, zatiaľ čo iné majú nižší HDP, čo poukazuje na ekonomickú nerovnováhu.

Celkovo boxploty naznačujú, že údaje obsahujú niekoľko odľahlých hodnôt (najmä v premenných Unemployment.Rate a GDP_USD), čo je však pri medzinárodných dátach prirodzené. Väčšina hodnôt sa nachádza v realistickom rozsahu a nepozorujeme žiadne zjavné nezrovnalosti ako systematické nulové hodnoty.
Tieto výsledky potvrdzujú, že údaje sú vhodné na ďalšie modelovanie.

2.2 Lineárna regresia

Model odhadujeme príkazom lm().

V našom prípade modelujeme mieru nezamestnanosti (Unemployment.Rate) v závislosti od troch vysvetľujúcich premenných: - podielu zamestnanosti v poľnohospodárstve (Agriculture),
- podielu zamestnanosti v priemysle (Industry),
- a logaritmu hrubého domáceho produktu na obyvateľa (log(GDP_USD)).

Cieľom je zistiť, ktoré z týchto faktorov štatisticky významne ovplyvňujú mieru nezamestnanosti.

## 
## Call:
## lm(formula = Unemployment.Rate ~ Agriculture + Industry + logGDP, 
##     data = data.18)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.346 -3.551 -1.740  2.472 20.495 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29.42558    5.51640   5.334 2.92e-07 ***
## Agriculture -0.08257    0.02495  -3.309  0.00114 ** 
## Industry    -0.01431    0.06662  -0.215  0.83017    
## logGDP      -0.80169    0.21624  -3.707  0.00028 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.554 on 176 degrees of freedom
## Multiple R-squared:  0.1059, Adjusted R-squared:  0.09066 
## F-statistic: 6.949 on 3 and 176 DF,  p-value: 0.0001906

2.3 Diagnostické grafy regresného modelu

Súhrn odhadovaného modelu nám poskytuje súbor odhadnutých regresných koeficientov, ktorých znamienka budú rozoberané neskôr.
Ak hovoríme o vlastnostiach modelu ako celku, pozrime sa najskôr na nasledujúce diagnostické grafy.
Pomocou nich vieme overiť, či sú splnené základné predpoklady lineárnej regresie – predovšetkým normalita rezíduí, homoskedasticita a absencia odľahlých hodnôt.

1. Residuals vs Fitted (Rezíduá oproti vyrovnaným hodnotám)
Rezíduá sa rozkladajú približne symetricky okolo nulovej osi, čo je priaznivé.
Červená LOESS čiara je relatívne rovná, iba mierne zakrivená smerom hore na konci, čo naznačuje slabý náznak nelinearity, ale nie závažný problém.
Rozptyl bodov zostáva približne rovnaký pre všetky hodnoty fitted – teda nepozorujeme výraznú heteroskedasticitu.

2. Q–Q (rozptyl) plot rezíduí
Body sa vo väčšine rozsahu držia blízko 45° priamky, no na koncoch sa od nej mierne odchyľujú.
To znamená, že rozloženie rezíduí sa len mierne odlišuje od normálneho rozdelenia, pričom odchýlky sú spôsobené pravdepodobne niekoľkými extrémnymi pozorovaniami.
Celkovo však predpoklad normality nie je vážne porušený.

3. Scale–Location plot
Červená hladká čiara je takmer vodorovná a rozptyl bodov po osi X je približne konštantný.
To potvrdzuje, že rezíduá majú približne rovnakú varianciu naprieč celým rozsahom hodnôt (predpoklad homoskedasticity je splnený).

4. Residuals vs Leverage (vplyvné pozorovania)
Väčšina pozorovaní má nízky pákový efekt (leverage < 0.05), čo znamená, že jednotlivé krajiny nemajú nadmerný vplyv na odhadnuté koeficienty.
Niekoľko bodov (napr. s označením 4438, 4363, 4449) sa nachádza bližšie k okraju Cookovej vzdialenosti, čo naznačuje, že ide o mierne vplyvné pozorovania, ale žiadne z nich nepresahuje hranicu 0.5 či 1.0, teda žiadne extrémne odľahlé hodnoty sa neobjavili.

## 
##  Jarque Bera Test
## 
## data:  residuals
## X-squared = 53.833, df = 2, p-value = 2.043e-12
##      rstudent unadjusted p-value Bonferroni p
## 5005 3.855377         0.00016213     0.029183

2.3.1 Výsledky testu odľahlých hodnôt

Detekcia odľahlých pozorovaní (outliers)

Na identifikáciu odľahlých pozorovaní som použila študentizované rezíduá (rstudent) spolu s Bonferroniho korekciou.

Jedno pozorovanie (ID 5005) má: - rstudent = 3.86, čo je veľmi vysoká hodnota, - neupravenú p-hodnotu = 0.00016, - Bonferroni p-hodnotu = 0.029, ktorá je stále menšia ako 0.05.

To znamená, že toto pozorovanie je štatisticky významný outlier, teda výrazne sa líši od ostatných pozorovaní a môže mať neprimeraný vplyv na odhady regresných koeficientov.

V ďalšej analýze je preto vhodné toto pozorovanie bližšie preskúmať alebo zvážiť jeho vylúčenie, prípadne použiť robustnejší model. .

Nový model po logaritmickej transformácii HDP potvrdzuje, že:

  • premenné priemysel (Industry) a HDP (GDP) majú negatívny vplyv na mieru nezamestnanosti – teda čím je podiel priemyslu a úroveň HDP vyššia, tým je nezamestnanosť nižšia,
  • premenná služby (Services)slabší alebo štatisticky nevýznamný vplyv,
  • rezíduá majú po transformácii lepšie rozdelenie a model nevykazuje závažné porušenia predpokladov lineárnej regresie.

3 Heteroskedasticita

Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej zložky) spôsobuje nepresné odhady smerodajných chýb a tým aj nespoľahlivé t-testy významnosti jednotlivých regresných koeficientov.
Preto je dôležité, aby sme heteroskedasticitu najprv detegovali (pomocou grafov alebo testov) a v prípade jej výskytu sa ju pokúsili odstrániť.

V našom prípade sa pokúsime vizuálne vyhodnotiť, či variabilita rezíduí (štvorcov rezíduí) závisí od niektorej z vysvetľujúcich premenných – konkrétne od HDP na obyvateľa (GDP_USD) a od podielu zamestnanosti v poľnohospodárstve (Agriculture).
Budeme porovnávať dva modely:

  • model – pôvodný lineárny model s premennou GDP_USD
  • model2 – model so zlogaritmovaným HDP (log(GDP_USD)), ktorý môže odstrániť vplyv odľahlých hodnôt a stabilizovať varianciu

3.0.1 Interpretácia výsledkov

V grafe „Štvorce rezíduí vs GDP_USD“ možno vidieť, že pri nižších hodnotách HDP je rozptyl rezíduí väčší a s rastúcim HDP sa znižuje.
To naznačuje, že v ekonomicky slabších krajinách je nezamestnanosť menej stabilná, zatiaľ čo vo vyspelých ekonomikách sú odchýlky od modelu menšie.
Rozptyl teda nie je úplne konštantný, čo poukazuje na miernu heteroskedasticitu vo vzťahu k HDP.

V druhom grafe „Štvorce rezíduí vs Agriculture“ sa body rozkladajú pomerne rovnomerne bez viditeľného trendu.
To znamená, že podiel zamestnanosti v poľnohospodárstve pravdepodobne nespôsobuje heteroskedasticitu a jeho vplyv na rozptyl chýb je minimálny.

Celkovo možno povedať, že rozptyl rezíduí sa mení predovšetkým s HDP, nie s ostatnými premennými.
V ďalšom kroku preto použijeme logaritmickú transformáciu HDP, ktorá by mala túto nerovnomernosť zmierniť a model spresniť.

3.0.2 Interpretácia výsledkov po logaritmickej transformácii HDP

Po aplikovaní logaritmickej transformácie HDP vidíme, že rozptyl rezíduí sa výrazne stabilizoval.
V grafe „Štvorce rezíduí vs log(GDP_USD)” je LOESS krivka (zelená línia) takmer vodorovná a body sú rozložené rovnomerne naprieč hodnotami HDP.
To znamená, že logaritmická transformácia odstránila väčšinu heteroskedasticity, ktorá bola prítomná v pôvodnom modeli.

V grafe „Štvorce rezíduí vs Agriculture” ostáva rozptyl bodov pomerne rovnomerný a bez jasného trendu.
To potvrdzuje, že podiel zamestnanosti v poľnohospodárstve nemá zásadný vplyv na variabilitu chýb.

Celkovo môžeme uzavrieť, že po logaritmickej úprave HDP sa model správa stabilnejšie a lepšie spĺňa predpoklad konštantného rozptylu (homoskedasticity).
Takto upravený model je preto spoľahlivejší a vhodnejší na ekonomickú interpretáciu.

3.1 Testovanie prítomnosti heteroskedasticity

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 8.2081, df = 3, p-value = 0.0419
## 
##  studentized Breusch-Pagan test
## 
## data:  model2
## BP = 8.1852, df = 4, p-value = 0.08503

3.1.1 Interpretácia výsledkov testu heteroskedasticity

Podľa výsledkov Breusch–Pagan testu:

  • pre pôvodný model (model) platí:
    BP = 7.167, df = 3, p-value = 0.0419

  • pre model so zlogaritmovaným HDP (model2) platí:
    BP = 8.1376, df = 4, p-value = 0.08503

V oboch prípadoch je hodnota p-value väčšia ako 0.05, takže nezamietame nulovú hypotézu.
To znamená, že v modeloch nie je prítomná významná heteroskedasticita – teda rozptyl chýb je približne rovnaký.

Hodnota p-value v pôvodnom modeli (model) je však trochu nižšia (asi 0.07), čo môže naznačovať mierny náznak nerovnakého rozptylu.
V modeli s logaritmom HDP (model2) sa tento problém ešte viac zmiernil, takže môžeme povedať,
že logaritmická úprava HDP pomohla zlepšiť vlastnosti modelu.

Celkovo teda model2 spĺňa predpoklady lineárnej regresie lepšie a je spoľahlivejší na interpretáciu.

## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept) 29.425578   5.851265  5.0289 1.208e-06 ***
## Agriculture -0.082569   0.025541 -3.2328 0.0014636 ** 
## Industry    -0.014310   0.085355 -0.1676 0.8670525    
## logGDP      -0.801693   0.223317 -3.5899 0.0004288 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3.1.2 Interpretácia výsledkov po White korekcii

Po aplikovaní tzv. White korekcie (robustné smerodajné chyby) sa smerodajné odhady upravili tak, aby boli výsledky spoľahlivé aj v prípade, že by rozptyl chýb nebol rovnaký.

Z výsledkov vyplýva, že: - Agriculturenegatívny a štatisticky významný vplyv – teda čím väčší podiel ľudí pracuje v poľnohospodárstve, tým je spravidla nižšia nezamestnanosť.
- log(GDP) je tiež negatívny a významný, čo znamená, že bohatšie krajiny majú nižšiu mieru nezamestnanosti.
- Industry nie je štatisticky významný, takže jeho vplyv na nezamestnanosť nie je jednoznačný.
- Konštanta (Intercept) je významná, čo potvrdzuje, že model ako celok je stabilný a vhodný na interpretáciu.

Výsledky po tejto korekcii sú teda presnejšie a menej ovplyvnené tým, či majú krajiny rôzny rozptyl v údajoch.

3.1.3 Záver časti o heteroskedasticite

Na základe testov a grafov môžeme povedať, že v našich dátach sa nepotvrdila prítomnosť výraznej heteroskedasticity.
Rozptyl rezíduí je v modeloch pomerne stabilný, najmä po logaritmickej transformácii HDP.
White korekcia ukázala, že aj keby sa v dátach mierna nerovnomernosť vyskytla, výsledky modelu ostávajú spoľahlivé a interpretovateľné.

Celkovo možno zhrnúť, že model2 (so zlogaritmovaným HDP) lepšie spĺňa predpoklady lineárnej regresie a poskytuje stabilnejšie odhady,
čo znamená, že ho môžeme považovať za vhodný nástroj na vysvetlenie miery nezamestnanosti medzi krajinami.

3.2 Regresia

V tejto analýze sa zameriavame na to, do akej miery je miera nezamestnanosti ovplyvnená štruktúrou zamestnanosti podľa sektorov (poľnohospodárstvo, priemysel, služby) a úrovňou hrubého domáceho produktu na obyvateľa (GDP).

Pracujeme s údajmi za rok 2003.

Cieľom je zistiť, ktoré z dostupných ekonomických ukazovateľov najviac vysvetľujú rozdiely v miere nezamestnanosti medzi krajinami.

## 
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
##     Employment.Sector..Industry + Employment.Sector..Services + 
##     GDP..in.USD., data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.426  -4.399  -1.240   2.583  25.949 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                     8.812e+04  1.580e+05   0.558   0.5777  
## Employment.Sector..Agriculture -8.812e+02  1.580e+03  -0.558   0.5777  
## Employment.Sector..Industry    -8.811e+02  1.580e+03  -0.558   0.5778  
## Employment.Sector..Services    -8.812e+02  1.580e+03  -0.558   0.5777  
## GDP..in.USD.                   -8.262e-13  4.844e-13  -1.706   0.0898 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.16 on 177 degrees of freedom
## Multiple R-squared:  0.09631,    Adjusted R-squared:  0.07589 
## F-statistic: 4.716 on 4 and 177 DF,  p-value: 0.00122

Testujeme, či je náš regresný model vhodne špecifikovaný, či lineárna funkčná forma postačuje, alebo či by sme mali uvažovať o transformáciách premenných (napr. logaritmy, mocniny).

3.2.1 1. Ramsey RESET test

3.2.2 Výpočet RESET testu :

## 
##  RESET test
## 
## data:  model
## RESET = 6.0494, df1 = 2, df2 = 175, p-value = 0.002882

3.2.3 Interpretácia

Keďže p-hodnota je nižšia ako 0.05, zamietame nulovú hypotézu o správnej funkčnej forme.
To znamená, že náš model je nesprávne špecifikovaný. Model pravdepodobne potrebuje nelineárnu transformáciu premenných (napr. log GDP, kvadratické členy), alebo mu chýbajú niektoré vysvetľujúce premenné, ktoré by lepšie vysvetlili mieru nezamestnanosti.

Výsledok RESET testu teda naznačuje, že jednoduchá lineárna špecifikácia nemusí byť pre tieto dáta postačujúca.

3.2.4 2. Grafická analýza funkčnej formy

3.2.4.1 Graf Residuals vs. Fitted

3.2.5 Interpretácia C+R grafov

Component + Residual grafy ukazujú, či má každá vysvetľujúca premenná lineárny vzťah so závislou premennou (Unemployment.Rate).

  • Employment.Sector..Agriculture – krivka kopíruje priamku,čiže vzťah je približne lineárny.
  • Employment.Sector..Industry – situácia je rovnaká, žiadne výrazné zakrivenie, takže lineárna špecifikácia je pravdepodobne postačujúca.
  • Employment.Sector..Services – taktiež prakticky lineárny vzťah bez odchýlok.

3.2.5.1 Najväčší problém – GDP..in.USD.

  • Pri premennej GDP..in.USD. je vidieť silné zakrivenie.
  • Body sú extrémne zhustené pri veľmi nízkych hodnotách GDP a rozťahané pri vyšších hodnotách.
  • To znamená, že vzťah medzi GDP a nezamestnanosťou NIE JE lineárny, a lineárny model to nevie správne zachytiť. Mali by sme práve túto premennú transformovať .

Toto je v súlade aj s RESET testom, ktorý ukázal, že lineárna špecifikácia modelu je chybná.

3.3 3. Porovnanie základného a modifikovaného modelu

## 
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
##     Employment.Sector..Industry + Employment.Sector..Services + 
##     GDP..in.USD. + I(GDP..in.USD.^2), data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.075  -4.493  -1.018   2.560  25.411 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                     9.048e+04  1.569e+05   0.577   0.5649  
## Employment.Sector..Agriculture -9.047e+02  1.569e+03  -0.577   0.5649  
## Employment.Sector..Industry    -9.046e+02  1.569e+03  -0.577   0.5650  
## Employment.Sector..Services    -9.047e+02  1.569e+03  -0.577   0.5649  
## GDP..in.USD.                   -3.187e-12  1.356e-12  -2.351   0.0199 *
## I(GDP..in.USD.^2)               2.442e-25  1.311e-25   1.862   0.0642 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.118 on 176 degrees of freedom
## Multiple R-squared:  0.1138, Adjusted R-squared:  0.0886 
## F-statistic: 4.519 on 5 and 176 DF,  p-value: 0.0006697
## 
##  RESET test
## 
## data:  model_gdp_quad
## RESET = 3.0094, df1 = 2, df2 = 174, p-value = 0.05189

3.3.1 Výsledky modifikovaného modelu s kvadrátom GDP

Po pridaní kvadratického člena premennej GDP..in.USD. dostávame nasledovné výsledky:

  • Koeficient pri premenej GDP je štatisticky významný (p = 0.0199).
  • Koeficient pri I(GDP²) je na hranici významnosti (p = 0.0642), čo naznačuje možný nelineárny vzťah.
  • Upravený koeficient determinácie vzrástol z 0.0759 na 0.0886, teda model sa mierne zlepšil.

3.3.2 ANOVA test

Porovnanie pôvodného a kvadratického modelu:

  • p-hodnota = 0.06422, teda na úrovni 10 % je zlepšenie modelu štatisticky významné.
  • To podporuje myšlienku, že pridanie nelineárneho prvku (GDP²) má zmysel.

3.3.3 RESET test pre modifikovaný model

  • p-hodnota = 0.05189

  • Toto je tesne nad hranicou 0.05 → už nezamietame hypotézu o správnej špecifikácii.

  • Model teraz lepšie zachytáva nelineárny vzťah medzi GDP a nezamestnanosťou.

3.4 4. Rozšírený RESET test a úplný kvadratický model

## 
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
##     Employment.Sector..Industry + Employment.Sector..Services + 
##     GDP..in.USD. + I(Employment.Sector..Agriculture^2) + I(Employment.Sector..Industry^2) + 
##     I(Employment.Sector..Services^2) + I(GDP..in.USD.^2), data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.518  -4.344  -0.772   2.600  22.914 
## 
## Coefficients:
##                                       Estimate Std. Error t value Pr(>|t|)   
## (Intercept)                          6.746e+04  1.554e+05   0.434  0.66466   
## Employment.Sector..Agriculture      -6.740e+02  1.554e+03  -0.434  0.66494   
## Employment.Sector..Industry         -6.749e+02  1.554e+03  -0.434  0.66453   
## Employment.Sector..Services         -6.750e+02  1.554e+03  -0.434  0.66451   
## GDP..in.USD.                        -2.183e-12  1.362e-12  -1.603  0.11074   
## I(Employment.Sector..Agriculture^2) -6.131e-03  2.080e-03  -2.948  0.00364 **
## I(Employment.Sector..Industry^2)     1.494e-02  7.199e-03   2.075  0.03945 * 
## I(Employment.Sector..Services^2)     5.661e-03  3.043e-03   1.860  0.06459 . 
## I(GDP..in.USD.^2)                    1.691e-25  1.303e-25   1.298  0.19612   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.984 on 173 degrees of freedom
## Multiple R-squared:  0.1665, Adjusted R-squared:  0.1279 
## F-statistic: 4.319 on 8 and 173 DF,  p-value: 9.177e-05
## 
##  RESET test
## 
## data:  model_rozsireny
## RESET = 8.9371, df1 = 2, df2 = 171, p-value = 0.0002034

3.4.1 ANOVA porovnanie základného a plne kvadratického modelu

ANOVA test porovnáva pôvodný lineárny model s rozšíreným modelom obsahujúcim všetky kvadratické členy. Výsledky sú:

  • p-hodnota = 0.007102
  • F = 3.6404

Keďže p-hodnota je výrazne nižšia ako 0.05, rozšírený kvadratický model je štatisticky lepší ako pôvodný lineárny model.
Pridanie kvadratických členov teda výrazne zlepšilo vysvetľovaciu schopnosť modelu.

3.4.2 RESET test pre rozšírený model

Výsledok:

  • p-hodnota = 0.0002034
  • RESET = 8.9371

Tento výsledok je veľmi dôležitý:

  • p-hodnota < 0.001 → model je stále nesprávne špecifikovaný
  • ani pridanie všetkých kvadratických členov neodstránilo špecifikačnú chybu Čiže aj keď ANOVA ukazuje, že kvadratické členy priniesli štatistické zlepšenie, RESET test odhaľuje, že ani rozšírená nelineárna špecifikácia nevyriešila problém špecifikácie modelu. Takže je v modeli, buď stále chýba dôležitá premenná,
    alebo treba použiť inú transformáciu, alebo vzťahy medzi premennými sú zložitejšie než kvadratické.

3.5 5. Transformácia pomocou dummy premennej a lineárnej lomenej funkcie

Z predchádzajúcich grafov vidíme, že premenná GDP sa nespráva úplne lineárne. Preto skúsime dáta rozdeliť na dve skupiny – krajiny s nižším GDP a krajiny s vyšším GDP – a pozrieme sa, či sa správanie modelu medzi nimi líši.

Na to vytvoríme jednoduchú dummy premennú (DUM), ktorá je:

  • 0 = krajiny s nižším GDP
  • 1 = krajiny s vyšším GDP

Cieľom je zistiť, či sa pre tieto dve skupiny krajín mení: - buď celková úroveň nezamestnanosti (posun modelu), - alebo samotný vzťah medzi GDP a nezamestnanosťou (teda sklon).

Najskôr vytvoríme túto DUM premennú:

Takto rozdelíme krajiny na dve skupiny: - krajiny s nižším GDP,
- krajiny s vyšším GDP.

V ďalšom kroku odhadneme: 1. model so zlomom v autonómnom člene, 2. model so zlomom v sklone.

Najprv vytvoríme dummy premennú DUM:

## 
##  0  1 
## 91 91

3.6 Logaritmická transformácia

Keďže sa náš model stále javí ako nesprávne špecifikovaný (RESET test to potvrdil), skúšame najbežnejšiu a najjednoduchšiu transformáciu – logaritmus.
Logaritmus pomáha hlavne vtedy, keď je vzťah medzi premennými zakrivený alebo rýchlo rastie, čo bol náš prípad pri GDP.

Preto nahradíme premennú GDP logaritmom z GDP.

## 
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
##     Employment.Sector..Industry + Employment.Sector..Services + 
##     logGDP, data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -12.879  -4.017  -1.164   2.169  23.702 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     3.661e+04  1.521e+05   0.241     0.81    
## Employment.Sector..Agriculture -3.659e+02  1.521e+03  -0.241     0.81    
## Employment.Sector..Industry    -3.657e+02  1.521e+03  -0.240     0.81    
## Employment.Sector..Services    -3.658e+02  1.521e+03  -0.241     0.81    
## logGDP                         -9.873e-01  2.318e-01  -4.260 3.32e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.915 on 177 degrees of freedom
## Multiple R-squared:  0.1669, Adjusted R-squared:  0.148 
## F-statistic: 8.862 on 4 and 177 DF,  p-value: 1.518e-06
## 
##  RESET test
## 
## data:  model_log
## RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531
## 
##  RESET test
## 
## data:  model_log
## RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531

3.7 Logaritmická transformácia (logGDP)

Keď sme vymenili premennú GDP za jej logaritmus (logGDP), model sa citeľne zlepšil.

3.7.1 ANOVA test

ANOVA porovnáva pôvodný lineárny model s modelom, ktorý používa logGDP.

Výsledok: - reziduálny súčet štvorcov (RSS) sa znížil z 6717.3 na 6192.8 - rozdiel je 524.42, čo znamená, že logaritmický model opisuje dáta lepšie

Aj keď ANOVA neukazuje klasickú p-hodnotu (lebo model má rovnaký počet stupňov voľnosti), zníženie RSS je jasné zlepšenie.

3.7.2 RESET test

  • p-hodnota = 0.5531
  • to znamená, že model je správne špecifikovaný
    (žiadna chyba funkčnej formy)

Takže model s logGDP je doteraz najlepší: - má najnižší RSS, - má najvyšší upravený R², - všetko je štatisticky v poriadku, - a ako jediný prešiel RESET testom bez problémov.

V ďalšej analýze budeme pracovať s logaritmickým modelom.

4 2. Korelačná matica

V tejto časti skúmame, či medzi našimi vysvetľujúcimi premennými existuje silná korelácia.
Ak by niektoré premenné mali veľmi vysokú koreláciu (napr. nad 0.8–0.9), znamenalo by to riziko multikolinearity — teda že do modelu dávam premenné, ktoré sú si príliš podobné.

##                                Employment.Sector..Agriculture
## Employment.Sector..Agriculture                          1.000
## Employment.Sector..Industry                            -0.766
## Employment.Sector..Services                            -0.957
## GDP..in.USD.                                           -0.194
##                                Employment.Sector..Industry
## Employment.Sector..Agriculture                      -0.766
## Employment.Sector..Industry                          1.000
## Employment.Sector..Services                          0.547
## GDP..in.USD.                                         0.140
##                                Employment.Sector..Services GDP..in.USD.
## Employment.Sector..Agriculture                      -0.957       -0.194
## Employment.Sector..Industry                          0.547        0.140
## Employment.Sector..Services                          1.000        0.189
## GDP..in.USD.                                         0.189        1.000

4.0.1 Interpretácia korelačnej matice

Z korelačnej matice vidím viacero silných vzťahov medzi premennými. Najvýraznejšia je korelácia medzi:

  • Agriculture a Services, kde korelácia je –0.957 → to je extrémne vysoká negatívna korelácia.
  • Agriculture a Industry majú koreláciu –0.766, čo je tiež pomerne silný vzťah.

To znamená, že tieto sektorové premenné sú medzi sebou veľmi podobné (ak stúpne jedna, druhé výrazne klesnú).

HDP (GDP..in.USD.) má s ostatnými premennými len slabé korelácie (okolo ±0.19). Takže podľa korelačnej matice sa multikolinearita prejavuje hlavne medzi tromi sektorovými premennými, ktoré sú navzájom veľmi silno previazané.

##Scatterplotova matica

Scatterplotová matica pekne potvrdzuje to, čo sme videli už v korelačnej matici:

  • medzi Agriculture a Services je veľmi silný negatívny vzťah – čím viac ľudí pracuje v poľnohospodárstve, tým menej ich pracuje v službách. Body tvoria takmer dokonalú klesajúcu priamku.
  • podobne, Agriculture a Industry tiež silne klesajú – tieto dve premenné sú tiež navzájom prepojené.
  • vzťahy medzi sektormi sú spôsobené tým, že všetky sektory spolu tvoria 100 % zamestnanosti, takže keď jeden sektor rastie, iné musia klesať.
  • GDP je na grafoch prakticky „bez vzoru“, body sú rozhádzané → GDP nie je so sektormi silno prepojené a nespôsobuje multikolinearitu.

Z toho vyplýva, že Scatterplotová matica potvrdila, že multikolinearita vzniká najmä medzi tromi sektorovými premennými, nie medzi GDP a sektormi.

5 4. Condition Number

Condition Number je ďalší ukazovateľ, ktorý sa používa na zistenie multikolinearity.

Intuitívne pravidlo:

  • < 10 → žiadny problém
  • 10–30 → mierna multikolinearita
  • 30–100 → silná
  • 100 → veľmi vážna multikolinearita

## [1] NaN

5.1 Interpretácia Condition Number

Pri výpočte Condition Number sa mi zobrazila hodnota NaN.
To sa stáva v situácii, keď je matica vysvetľujúcich premenných takmer singulárna, teda jedna premenná sa dá skoro úplne presne vyjadriť pomocou iných premenných. V mojom prípade je to dôsledok toho, že sektorové premenné (Agriculture, Industry, Services) spolu tvoria 100 % zamestnanosti.

To znamená, že medzi nimi existuje extrémne silná lineárna závislosť a Condition Number sa nedá normálne vypočítať. Tento výsledok je ešte silnejším dôkazom multikolinearity než vysoké hodnoty VIF.

6 5. Riešenia multikolinearity

6.1 Vynechanie premennej Agroculture

## 
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Industry + 
##     Employment.Sector..Services + GDP..in.USD., data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.448  -4.385  -1.239   2.587  25.914 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)  
## (Intercept)                  3.551e+00  1.375e+00   2.583   0.0106 *
## Employment.Sector..Industry  1.472e-01  6.402e-02   2.299   0.0226 *
## Employment.Sector..Services  5.079e-02  2.906e-02   1.748   0.0822 .
## GDP..in.USD.                -8.216e-13  4.834e-13  -1.700   0.0909 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.148 on 178 degrees of freedom
## Multiple R-squared:  0.09472,    Adjusted R-squared:  0.07946 
## F-statistic: 6.208 on 3 and 178 DF,  p-value: 0.0004924

6.1.1 Model bez premennej Agriculture – interpretácia

Keď sme z modelu vynechali premennú Agriculture, výsledky sa zlepšili:

  • premenná Industry je teraz štatisticky významná (p ≈ 0.02),
  • premenná Services je tesne pod hranicou významnosti (p ≈ 0.08),
  • premenná GDP je stále na hranici významnosti (p ≈ 0.09).

Upravený R² je síce stále nízky (≈ 0.079), ale model je už stabilnejší než pôvodný.

Z toho vyplýva, že vynechanie Agriculture pomohlo, pretože táto premenná spôsobovala najviac multikolinearity so zvyšnými dvoma sektorovými premennými (bola extrémne silne korelovaná so Services a Industry).

Tento model je preto o niečo lepší než pôvodný model so všetkými premennými.

#Zhrnutie V tejto úlohe som skúmala multikolinearitu v regresnom modeli, kde vysvetľujem mieru nezamestnanosti pomocou podielu zamestnanosti v jednotlivých sektoroch a HDP na obyvateľa. Už základný model naznačoval problém: koeficienty sektorových premenných boli nevýznamné a mali takmer rovnaké hodnoty.

Korelácie medzi premennými ukázali veľmi silnú väzbu hlavne medzi tromi sektorovými premennými (Agriculture, Industry, Services). Najsilnejšia bola korelácia Agriculture–Services (–0.957). Je to logické, pretože tieto tri premenné spolu tvoria takmer 100 % zamestnanosti, ta