Očakávaná dĺžka života patrí medzi základné ukazovatele sociálneho a ekonomického rozvoja krajín. Tento indikátor odráža nielen zdravotný stav populácie, ale aj ekonomickú štruktúru, úroveň zamestnanosti a celkovú výkonnosť hospodárstva. Rozdiely v dĺžke života medzi krajinami sú často spojené s rozdielnou ekonomickou úrovňou a štruktúrou trhu práce.
Cieľom tejto práce je analyzovať vzťah medzi ekonomickými faktormi a očakávanou dĺžkou života v jednotlivých krajinách sveta pomocou ekonometrického modelu. Osobitná pozornosť sa venuje vplyvu štruktúry zamestnanosti a ekonomickej výkonnosti krajiny na dĺžku života obyvateľstva.
Použité údaje pochádzajú z databázy Mendeley Data, ktorá obsahuje informácie o ekonomických a sociálnych ukazovateľoch krajín sveta v období rokov 1991 až 2022. Keďže cieľom práce je analýza prierezových údajov, z databázy boli vybrané pozorovania za jeden konkrétny rok.
Z databázy boli použité tieto premenné: podiel zamestnanosti v poľnohospodárstve (Agriculture), podiel zamestnanosti v priemysle (Industry), podiel zamestnanosti v službách (Services), miera nezamestnanosti (Unemployment Rate) a hrubý domáci produkt (GDP).
Premenná GDP bola v analýze použitá v aj logaritmickej forme s cieľom obmedziť vplyv extrémnych hodnôt a lepšie zachytiť vzťah medzi ekonomickou výkonnosťou krajiny a očakávanou dĺžkou života.
Chýbajúce hodnoty v dátach boli nahradené mediánmi jednotlivých premenných. Základná deskriptívna a grafická analýza údajov neodhalila prítomnosť výrazných odľahlých hodnôt, ktoré by mohli významne ovplyvniť výsledky regresnej analýzy.
## Unemployment.Rate Agriculture Industry Services
## Min. : 0.110 Min. : 0.1597 Min. : 3.278 Min. :10.73
## 1st Qu.: 3.527 1st Qu.: 4.8270 1st Qu.:14.865 1st Qu.:43.65
## Median : 5.205 Median :16.5223 Median :19.573 Median :59.10
## Mean : 7.428 Mean :23.5834 Mean :19.819 Mean :56.60
## 3rd Qu.:10.102 3rd Qu.:37.4933 3rd Qu.:24.920 3rd Qu.:70.20
## Max. :26.906 Max. :85.9903 Max. :50.748 Max. :93.00
## GDP_USD
## Min. :3.837e+08
## 1st Qu.:1.316e+10
## Median :4.303e+10
## Mean :4.781e+11
## 3rd Qu.:2.546e+11
## Max. :2.066e+13
Základná deskriptívna analýza poukazuje na výraznú heterogenitu skúmaných krajín. Miera nezamestnanosti sa pohybuje v rozpätí od 0.11 % do 26.91 %, pričom medián dosahuje hodnotu 5.21 % a priemerná hodnota 7.43 %. Podiel zamestnanosti v poľnohospodárstve vykazuje veľmi vysokú variabilitu (0.16 % – 85.99 %), čo odráža rozdiely v ekonomickej štruktúre jednotlivých krajín.
Podiel zamestnanosti v priemysle je koncentrovanejší, s mediánom 19.57 %, zatiaľ čo sektor služieb dominuje vo väčšine krajín, kde medián dosahuje 59.10 %. Premenná HDP v absolútnych hodnotách vykazuje extrémnu pravostrannú šikmosť, keď sa pohybuje od 3.84×10^8 do 2.07×10^13 USD. Z tohto dôvodu je v ďalšej analýze vhodné pracovať s logaritmickou transformáciou HDP.
Boxploty ilustrujú rozdelenie základných ekonomických premenných v analyzovanom súbore krajín. Miera nezamestnanosti vykazuje miernu pravostrannú šikmosť a prítomnosť niekoľkých vyšších hodnôt, čo naznačuje existenciu krajín s výrazne zvýšenou nezamestnanosťou.
Podiel zamestnanosti v poľnohospodárstve má veľmi široké rozpätie hodnôt, čo poukazuje na výrazné rozdiely v ekonomickej štruktúre krajín – od vysoko industrializovaných ekonomík až po prevažne agrárne krajiny. Premenná Industry je koncentrovanejšia okolo mediánu, pričom extrémne hodnoty sa vyskytujú len ojedinele.
Premenná GDP vykazuje extrémnu pravostrannú šikmosť a prítomnosť výrazných odľahlých hodnôt, čo potvrdzuje potrebu jej logaritmickej transformácie v ďalšej ekonometrickej analýze. Na základe boxplotov môžeme pozorovať nasledovné skutočnosti:
Celkovo boxploty naznačujú, že údaje obsahujú niekoľko odľahlých
hodnôt (najmä v premenných Unemployment.Rate a GDP_USD), čo je
však pri medzinárodných dátach prirodzené. Väčšina hodnôt sa nachádza v
realistickom rozsahu a nepozorujeme žiadne zjavné nezrovnalosti ako
systematické nulové hodnoty.
Tieto výsledky potvrdzujú, že údaje sú vhodné na ďalšie modelovanie.
Model odhadujeme príkazom lm().
V našom prípade modelujeme mieru nezamestnanosti
(Unemployment.Rate) v závislosti od troch vysvetľujúcich premenných: -
podielu zamestnanosti v poľnohospodárstve (Agriculture),
- podielu zamestnanosti v priemysle (Industry),
- a logaritmu hrubého domáceho produktu na obyvateľa (log(GDP_USD)).
Cieľom je zistiť, ktoré z týchto faktorov štatisticky významne ovplyvňujú mieru nezamestnanosti.
##
## Call:
## lm(formula = Unemployment.Rate ~ Agriculture + Industry + logGDP,
## data = data.18)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.346 -3.551 -1.740 2.472 20.495
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.42558 5.51640 5.334 2.92e-07 ***
## Agriculture -0.08257 0.02495 -3.309 0.00114 **
## Industry -0.01431 0.06662 -0.215 0.83017
## logGDP -0.80169 0.21624 -3.707 0.00028 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.554 on 176 degrees of freedom
## Multiple R-squared: 0.1059, Adjusted R-squared: 0.09066
## F-statistic: 6.949 on 3 and 176 DF, p-value: 0.0001906
Súhrn odhadovaného modelu nám poskytuje súbor odhadnutých regresných
koeficientov, ktorých znamienka budú rozoberané neskôr.
Ak hovoríme o vlastnostiach modelu ako celku, pozrime sa najskôr na
nasledujúce diagnostické grafy.
Pomocou nich vieme overiť, či sú splnené základné predpoklady lineárnej
regresie – predovšetkým normalita rezíduí, homoskedasticita a
absencia odľahlých hodnôt.
1. Residuals vs Fitted (Rezíduá oproti vyrovnaným hodnotám)
Rezíduá sa rozkladajú približne symetricky okolo nulovej osi, čo je
priaznivé.
Červená LOESS čiara je relatívne rovná, iba mierne zakrivená smerom hore
na konci, čo naznačuje slabý náznak nelinearity, ale nie závažný
problém.
Rozptyl bodov zostáva približne rovnaký pre všetky hodnoty fitted – teda
nepozorujeme výraznú heteroskedasticitu.
2. Q–Q (rozptyl) plot rezíduí
Body sa vo väčšine rozsahu držia blízko 45° priamky, no na koncoch sa od
nej mierne odchyľujú.
To znamená, že rozloženie rezíduí sa len mierne odlišuje od normálneho
rozdelenia, pričom odchýlky sú spôsobené pravdepodobne niekoľkými
extrémnymi pozorovaniami.
Celkovo však predpoklad normality nie je vážne porušený.
3. Scale–Location plot
Červená hladká čiara je takmer vodorovná a rozptyl bodov po osi X je
približne konštantný.
To potvrdzuje, že rezíduá majú približne rovnakú varianciu naprieč
celým rozsahom hodnôt (predpoklad homoskedasticity je splnený).
4. Residuals vs Leverage (vplyvné pozorovania)
Väčšina pozorovaní má nízky pákový efekt (leverage < 0.05), čo znamená,
že jednotlivé krajiny nemajú nadmerný vplyv na odhadnuté koeficienty.
Niekoľko bodov (napr. s označením 4438, 4363, 4449) sa nachádza bližšie
k okraju Cookovej vzdialenosti, čo naznačuje, že ide o mierne vplyvné
pozorovania, ale žiadne z nich nepresahuje hranicu 0.5 či 1.0, teda
žiadne extrémne odľahlé hodnoty sa neobjavili.
##
## Jarque Bera Test
##
## data: residuals
## X-squared = 53.833, df = 2, p-value = 2.043e-12
## rstudent unadjusted p-value Bonferroni p
## 5005 3.855377 0.00016213 0.029183
Detekcia odľahlých pozorovaní (outliers)
Na identifikáciu odľahlých pozorovaní som použila študentizované rezíduá (rstudent) spolu s Bonferroniho korekciou.
Jedno pozorovanie (ID 5005) má: - rstudent = 3.86, čo je veľmi vysoká hodnota, - neupravenú p-hodnotu = 0.00016, - Bonferroni p-hodnotu = 0.029, ktorá je stále menšia ako 0.05.
To znamená, že toto pozorovanie je štatisticky významný outlier, teda výrazne sa líši od ostatných pozorovaní a môže mať neprimeraný vplyv na odhady regresných koeficientov.
V ďalšej analýze je preto vhodné toto pozorovanie bližšie preskúmať alebo zvážiť jeho vylúčenie, prípadne použiť robustnejší model. .
Nový model po logaritmickej transformácii HDP potvrdzuje, že:
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej zložky) spôsobuje nepresné odhady smerodajných chýb a tým aj nespoľahlivé t-testy významnosti jednotlivých regresných koeficientov.
Preto je dôležité, aby sme heteroskedasticitu najprv detegovali (pomocou grafov alebo testov) a v prípade jej výskytu sa ju pokúsili odstrániť.
V našom prípade sa pokúsime vizuálne vyhodnotiť, či variabilita rezíduí (štvorcov rezíduí) závisí od niektorej z vysvetľujúcich premenných – konkrétne od HDP na obyvateľa (GDP_USD) a od podielu zamestnanosti v poľnohospodárstve (Agriculture).
Budeme porovnávať dva modely:
GDP_USDlog(GDP_USD)), ktorý môže odstrániť vplyv odľahlých hodnôt a stabilizovať varianciuV grafe „Štvorce rezíduí vs GDP_USD“ možno vidieť, že pri nižších hodnotách HDP je rozptyl rezíduí väčší a s rastúcim HDP sa znižuje.
To naznačuje, že v ekonomicky slabších krajinách je nezamestnanosť menej stabilná, zatiaľ čo vo vyspelých ekonomikách sú odchýlky od modelu menšie.
Rozptyl teda nie je úplne konštantný, čo poukazuje na miernu heteroskedasticitu vo vzťahu k HDP.
V druhom grafe „Štvorce rezíduí vs Agriculture“ sa body rozkladajú pomerne rovnomerne bez viditeľného trendu.
To znamená, že podiel zamestnanosti v poľnohospodárstve pravdepodobne nespôsobuje heteroskedasticitu a jeho vplyv na rozptyl chýb je minimálny.
Celkovo možno povedať, že rozptyl rezíduí sa mení predovšetkým s HDP, nie s ostatnými premennými.
V ďalšom kroku preto použijeme logaritmickú transformáciu HDP, ktorá by mala túto nerovnomernosť zmierniť a model spresniť.
Po aplikovaní logaritmickej transformácie HDP vidíme, že rozptyl rezíduí sa výrazne stabilizoval.
V grafe „Štvorce rezíduí vs log(GDP_USD)” je LOESS krivka (zelená línia) takmer vodorovná a body sú rozložené rovnomerne naprieč hodnotami HDP.
To znamená, že logaritmická transformácia odstránila väčšinu heteroskedasticity, ktorá bola prítomná v pôvodnom modeli.
V grafe „Štvorce rezíduí vs Agriculture” ostáva rozptyl bodov pomerne rovnomerný a bez jasného trendu.
To potvrdzuje, že podiel zamestnanosti v poľnohospodárstve nemá zásadný vplyv na variabilitu chýb.
Celkovo môžeme uzavrieť, že po logaritmickej úprave HDP sa model správa stabilnejšie a lepšie spĺňa predpoklad konštantného rozptylu (homoskedasticity).
Takto upravený model je preto spoľahlivejší a vhodnejší na ekonomickú interpretáciu.
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 8.2081, df = 3, p-value = 0.0419
##
## studentized Breusch-Pagan test
##
## data: model2
## BP = 8.1852, df = 4, p-value = 0.08503
Podľa výsledkov Breusch–Pagan testu:
pre pôvodný model (model) platí:
BP = 7.167, df = 3, p-value = 0.0419
pre model so zlogaritmovaným HDP (model2) platí:
BP = 8.1376, df = 4, p-value = 0.08503
V oboch prípadoch je hodnota p-value väčšia ako 0.05, takže nezamietame nulovú hypotézu.
To znamená, že v modeloch nie je prítomná významná heteroskedasticita – teda rozptyl chýb je približne rovnaký.
Hodnota p-value v pôvodnom modeli (model) je však trochu nižšia (asi 0.07), čo môže naznačovať mierny náznak nerovnakého rozptylu.
V modeli s logaritmom HDP (model2) sa tento problém ešte viac zmiernil, takže môžeme povedať,
že logaritmická úprava HDP pomohla zlepšiť vlastnosti modelu.
Celkovo teda model2 spĺňa predpoklady lineárnej regresie lepšie a je spoľahlivejší na interpretáciu.
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.425578 5.851265 5.0289 1.208e-06 ***
## Agriculture -0.082569 0.025541 -3.2328 0.0014636 **
## Industry -0.014310 0.085355 -0.1676 0.8670525
## logGDP -0.801693 0.223317 -3.5899 0.0004288 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Po aplikovaní tzv. White korekcie (robustné smerodajné chyby) sa smerodajné odhady upravili tak, aby boli výsledky spoľahlivé aj v prípade, že by rozptyl chýb nebol rovnaký.
Z výsledkov vyplýva, že:
- Agriculture má negatívny a štatisticky významný vplyv – teda čím väčší podiel ľudí pracuje v poľnohospodárstve, tým je spravidla nižšia nezamestnanosť.
- log(GDP) je tiež negatívny a významný, čo znamená, že bohatšie krajiny majú nižšiu mieru nezamestnanosti.
- Industry nie je štatisticky významný, takže jeho vplyv na nezamestnanosť nie je jednoznačný.
- Konštanta (Intercept) je významná, čo potvrdzuje, že model ako celok je stabilný a vhodný na interpretáciu.
Výsledky po tejto korekcii sú teda presnejšie a menej ovplyvnené tým, či majú krajiny rôzny rozptyl v údajoch.
Na základe testov a grafov môžeme povedať, že v našich dátach sa nepotvrdila prítomnosť výraznej heteroskedasticity.
Rozptyl rezíduí je v modeloch pomerne stabilný, najmä po logaritmickej transformácii HDP.
White korekcia ukázala, že aj keby sa v dátach mierna nerovnomernosť vyskytla, výsledky modelu ostávajú spoľahlivé a interpretovateľné.
Celkovo možno zhrnúť, že model2 (so zlogaritmovaným HDP) lepšie spĺňa predpoklady lineárnej regresie a poskytuje stabilnejšie odhady,
čo znamená, že ho môžeme považovať za vhodný nástroj na vysvetlenie miery nezamestnanosti medzi krajinami.
V tejto analýze sa zameriavame na to, do akej miery je miera nezamestnanosti ovplyvnená štruktúrou zamestnanosti podľa sektorov (poľnohospodárstvo, priemysel, služby) a úrovňou hrubého domáceho produktu na obyvateľa (GDP).
Pracujeme s údajmi za rok 2003.
Cieľom je zistiť, ktoré z dostupných ekonomických ukazovateľov najviac vysvetľujú rozdiely v miere nezamestnanosti medzi krajinami.
##
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
## Employment.Sector..Industry + Employment.Sector..Services +
## GDP..in.USD., data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.426 -4.399 -1.240 2.583 25.949
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.812e+04 1.580e+05 0.558 0.5777
## Employment.Sector..Agriculture -8.812e+02 1.580e+03 -0.558 0.5777
## Employment.Sector..Industry -8.811e+02 1.580e+03 -0.558 0.5778
## Employment.Sector..Services -8.812e+02 1.580e+03 -0.558 0.5777
## GDP..in.USD. -8.262e-13 4.844e-13 -1.706 0.0898 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.16 on 177 degrees of freedom
## Multiple R-squared: 0.09631, Adjusted R-squared: 0.07589
## F-statistic: 4.716 on 4 and 177 DF, p-value: 0.00122
Testujeme, či je náš regresný model vhodne špecifikovaný, či lineárna funkčná forma postačuje, alebo či by sme mali uvažovať o transformáciách premenných (napr. logaritmy, mocniny).
##
## RESET test
##
## data: model
## RESET = 6.0494, df1 = 2, df2 = 175, p-value = 0.002882
Keďže p-hodnota je nižšia ako 0.05, zamietame nulovú hypotézu o správnej funkčnej forme.
To znamená, že náš model je nesprávne špecifikovaný.
Model pravdepodobne potrebuje nelineárnu transformáciu premenných (napr. log GDP, kvadratické členy), alebo mu chýbajú niektoré vysvetľujúce premenné, ktoré by lepšie vysvetlili mieru nezamestnanosti.
Výsledok RESET testu teda naznačuje, že jednoduchá lineárna špecifikácia nemusí byť pre tieto dáta postačujúca.
Component + Residual grafy ukazujú, či má každá vysvetľujúca premenná lineárny vzťah so závislou premennou (Unemployment.Rate).
Toto je v súlade aj s RESET testom, ktorý ukázal, že lineárna špecifikácia modelu je chybná.
##
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
## Employment.Sector..Industry + Employment.Sector..Services +
## GDP..in.USD. + I(GDP..in.USD.^2), data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.075 -4.493 -1.018 2.560 25.411
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.048e+04 1.569e+05 0.577 0.5649
## Employment.Sector..Agriculture -9.047e+02 1.569e+03 -0.577 0.5649
## Employment.Sector..Industry -9.046e+02 1.569e+03 -0.577 0.5650
## Employment.Sector..Services -9.047e+02 1.569e+03 -0.577 0.5649
## GDP..in.USD. -3.187e-12 1.356e-12 -2.351 0.0199 *
## I(GDP..in.USD.^2) 2.442e-25 1.311e-25 1.862 0.0642 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.118 on 176 degrees of freedom
## Multiple R-squared: 0.1138, Adjusted R-squared: 0.0886
## F-statistic: 4.519 on 5 and 176 DF, p-value: 0.0006697
##
## RESET test
##
## data: model_gdp_quad
## RESET = 3.0094, df1 = 2, df2 = 174, p-value = 0.05189
Po pridaní kvadratického člena premennej GDP..in.USD. dostávame nasledovné výsledky:
Porovnanie pôvodného a kvadratického modelu:
p-hodnota = 0.05189
Toto je tesne nad hranicou 0.05 → už nezamietame hypotézu o správnej špecifikácii.
Model teraz lepšie zachytáva nelineárny vzťah medzi GDP a nezamestnanosťou.
##
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
## Employment.Sector..Industry + Employment.Sector..Services +
## GDP..in.USD. + I(Employment.Sector..Agriculture^2) + I(Employment.Sector..Industry^2) +
## I(Employment.Sector..Services^2) + I(GDP..in.USD.^2), data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.518 -4.344 -0.772 2.600 22.914
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.746e+04 1.554e+05 0.434 0.66466
## Employment.Sector..Agriculture -6.740e+02 1.554e+03 -0.434 0.66494
## Employment.Sector..Industry -6.749e+02 1.554e+03 -0.434 0.66453
## Employment.Sector..Services -6.750e+02 1.554e+03 -0.434 0.66451
## GDP..in.USD. -2.183e-12 1.362e-12 -1.603 0.11074
## I(Employment.Sector..Agriculture^2) -6.131e-03 2.080e-03 -2.948 0.00364 **
## I(Employment.Sector..Industry^2) 1.494e-02 7.199e-03 2.075 0.03945 *
## I(Employment.Sector..Services^2) 5.661e-03 3.043e-03 1.860 0.06459 .
## I(GDP..in.USD.^2) 1.691e-25 1.303e-25 1.298 0.19612
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.984 on 173 degrees of freedom
## Multiple R-squared: 0.1665, Adjusted R-squared: 0.1279
## F-statistic: 4.319 on 8 and 173 DF, p-value: 9.177e-05
##
## RESET test
##
## data: model_rozsireny
## RESET = 8.9371, df1 = 2, df2 = 171, p-value = 0.0002034
ANOVA test porovnáva pôvodný lineárny model s rozšíreným modelom obsahujúcim všetky kvadratické členy. Výsledky sú:
Keďže p-hodnota je výrazne nižšia ako 0.05, rozšírený kvadratický model je štatisticky lepší ako pôvodný lineárny model.
Pridanie kvadratických členov teda výrazne zlepšilo vysvetľovaciu schopnosť modelu.
Výsledok:
Tento výsledok je veľmi dôležitý:
Z predchádzajúcich grafov vidíme, že premenná GDP sa nespráva úplne lineárne. Preto skúsime dáta rozdeliť na dve skupiny – krajiny s nižším GDP a krajiny s vyšším GDP – a pozrieme sa, či sa správanie modelu medzi nimi líši.
Na to vytvoríme jednoduchú dummy premennú (DUM), ktorá je:
Cieľom je zistiť, či sa pre tieto dve skupiny krajín mení: - buď celková úroveň nezamestnanosti (posun modelu), - alebo samotný vzťah medzi GDP a nezamestnanosťou (teda sklon).
Najskôr vytvoríme túto DUM premennú:
Takto rozdelíme krajiny na dve skupiny:
- krajiny s nižším GDP,
- krajiny s vyšším GDP.
V ďalšom kroku odhadneme: 1. model so zlomom v autonómnom člene, 2. model so zlomom v sklone.
Najprv vytvoríme dummy premennú DUM:
##
## 0 1
## 91 91
Keďže sa náš model stále javí ako nesprávne špecifikovaný (RESET test to potvrdil), skúšame najbežnejšiu a najjednoduchšiu transformáciu – logaritmus.
Logaritmus pomáha hlavne vtedy, keď je vzťah medzi premennými zakrivený alebo rýchlo rastie, čo bol náš prípad pri GDP.
Preto nahradíme premennú GDP logaritmom z GDP.
##
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
## Employment.Sector..Industry + Employment.Sector..Services +
## logGDP, data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.879 -4.017 -1.164 2.169 23.702
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.661e+04 1.521e+05 0.241 0.81
## Employment.Sector..Agriculture -3.659e+02 1.521e+03 -0.241 0.81
## Employment.Sector..Industry -3.657e+02 1.521e+03 -0.240 0.81
## Employment.Sector..Services -3.658e+02 1.521e+03 -0.241 0.81
## logGDP -9.873e-01 2.318e-01 -4.260 3.32e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.915 on 177 degrees of freedom
## Multiple R-squared: 0.1669, Adjusted R-squared: 0.148
## F-statistic: 8.862 on 4 and 177 DF, p-value: 1.518e-06
##
## RESET test
##
## data: model_log
## RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531
##
## RESET test
##
## data: model_log
## RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531
Keď sme vymenili premennú GDP za jej logaritmus (logGDP), model sa citeľne zlepšil.
ANOVA porovnáva pôvodný lineárny model s modelom, ktorý používa logGDP.
Výsledok: - reziduálny súčet štvorcov (RSS) sa znížil z 6717.3 na 6192.8 - rozdiel je 524.42, čo znamená, že logaritmický model opisuje dáta lepšie
Aj keď ANOVA neukazuje klasickú p-hodnotu (lebo model má rovnaký počet stupňov voľnosti), zníženie RSS je jasné zlepšenie.
Takže model s logGDP je doteraz najlepší: - má najnižší RSS, - má najvyšší upravený R², - všetko je štatisticky v poriadku, - a ako jediný prešiel RESET testom bez problémov.
V ďalšej analýze budeme pracovať s logaritmickým modelom.
V tejto časti skúmame, či medzi našimi vysvetľujúcimi premennými existuje silná korelácia.
Ak by niektoré premenné mali veľmi vysokú koreláciu (napr. nad 0.8–0.9), znamenalo by to riziko multikolinearity — teda že do modelu dávam premenné, ktoré sú si príliš podobné.
## Employment.Sector..Agriculture
## Employment.Sector..Agriculture 1.000
## Employment.Sector..Industry -0.766
## Employment.Sector..Services -0.957
## GDP..in.USD. -0.194
## Employment.Sector..Industry
## Employment.Sector..Agriculture -0.766
## Employment.Sector..Industry 1.000
## Employment.Sector..Services 0.547
## GDP..in.USD. 0.140
## Employment.Sector..Services GDP..in.USD.
## Employment.Sector..Agriculture -0.957 -0.194
## Employment.Sector..Industry 0.547 0.140
## Employment.Sector..Services 1.000 0.189
## GDP..in.USD. 0.189 1.000
Z korelačnej matice vidím viacero silných vzťahov medzi premennými. Najvýraznejšia je korelácia medzi:
To znamená, že tieto sektorové premenné sú medzi sebou veľmi podobné (ak stúpne jedna, druhé výrazne klesnú).
HDP (GDP..in.USD.) má s ostatnými premennými len slabé korelácie (okolo ±0.19). Takže podľa korelačnej matice sa multikolinearita prejavuje hlavne medzi tromi sektorovými premennými, ktoré sú navzájom veľmi silno previazané.
##Scatterplotova matica
Scatterplotová matica pekne potvrdzuje to, čo sme videli už v korelačnej matici:
Z toho vyplýva, že Scatterplotová matica potvrdila, že multikolinearita vzniká najmä medzi tromi sektorovými premennými, nie medzi GDP a sektormi.
Condition Number je ďalší ukazovateľ, ktorý sa používa na zistenie multikolinearity.
Intuitívne pravidlo:
100 → veľmi vážna multikolinearita
## [1] NaN
Pri výpočte Condition Number sa mi zobrazila hodnota NaN.
To sa stáva v situácii, keď je matica vysvetľujúcich premenných takmer singulárna, teda jedna premenná sa dá skoro úplne presne vyjadriť pomocou iných premenných. V mojom prípade je to dôsledok toho, že sektorové premenné (Agriculture, Industry, Services) spolu tvoria 100 % zamestnanosti.
To znamená, že medzi nimi existuje extrémne silná lineárna závislosť a Condition Number sa nedá normálne vypočítať. Tento výsledok je ešte silnejším dôkazom multikolinearity než vysoké hodnoty VIF.
##
## Call:
## lm(formula = Unemployment.Rate ~ Employment.Sector..Industry +
## Employment.Sector..Services + GDP..in.USD., data = udaje)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.448 -4.385 -1.239 2.587 25.914
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.551e+00 1.375e+00 2.583 0.0106 *
## Employment.Sector..Industry 1.472e-01 6.402e-02 2.299 0.0226 *
## Employment.Sector..Services 5.079e-02 2.906e-02 1.748 0.0822 .
## GDP..in.USD. -8.216e-13 4.834e-13 -1.700 0.0909 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.148 on 178 degrees of freedom
## Multiple R-squared: 0.09472, Adjusted R-squared: 0.07946
## F-statistic: 6.208 on 3 and 178 DF, p-value: 0.0004924
Keď sme z modelu vynechali premennú Agriculture, výsledky sa zlepšili:
Upravený R² je síce stále nízky (≈ 0.079), ale model je už stabilnejší než pôvodný.
Z toho vyplýva, že vynechanie Agriculture pomohlo, pretože táto premenná spôsobovala najviac multikolinearity so zvyšnými dvoma sektorovými premennými (bola extrémne silne korelovaná so Services a Industry).
Tento model je preto o niečo lepší než pôvodný model so všetkými premennými.
#Zhrnutie V tejto úlohe som skúmala multikolinearitu v regresnom modeli, kde vysvetľujem mieru nezamestnanosti pomocou podielu zamestnanosti v jednotlivých sektoroch a HDP na obyvateľa. Už základný model naznačoval problém: koeficienty sektorových premenných boli nevýznamné a mali takmer rovnaké hodnoty.
Korelácie medzi premennými ukázali veľmi silnú väzbu hlavne medzi tromi sektorovými premennými (Agriculture, Industry, Services). Najsilnejšia bola korelácia Agriculture–Services (–0.957). Je to logické, pretože tieto tri premenné spolu tvoria takmer 100 % zamestnanosti, ta