Úvod a popis databázy

V tejto časti sa testujú štatistické hypotézy pomocou údajov z databázy, ktorá obsahuje ekonomické ukazovatele krajín v rokoch 1991 – 2022. Použité premenné zahŕňajú hrubý domáci produkt (HDP) v USD, mieru nezamestnanosti (%) a štruktúru zamestnanosti v troch sektoroch – poľnohospodárstve, priemysle a službách.

install.packages("stargazer")
install.packages("zoo")
install.packages("tseries")
install.packages("lmtest")
install.packages("sandwich")
install.packages("car")
library(zoo)
library(tseries) 
library(lmtest)
library(sandwich)
library(car)
rm(list=ls())
install.packages("knitr")
install.packages("dplyr")
install.packages("ggplot2")
# Import vlastného CSV súboru

udaje <- read.csv("Employment_Unemployment_GDP_data.csv",
header = TRUE,
sep = ",",
dec = ".",
stringsAsFactors = FALSE)

# Zobrazenie prvých riadkov a názvov stĺpcov

head(udaje)
colnames(udaje)
[1] "Country.Name"                   "Year"                          
[3] "Employment.Sector..Agriculture" "Employment.Sector..Industry"   
[5] "Employment.Sector..Services"    "Unemployment.Rate"             
[7] "GDP..in.USD."                  

Regresia

V tejto analýze sa zameriavame na to, do akej miery je miera nezamestnanosti ovplyvnená štruktúrou zamestnanosti podľa sektorov (poľnohospodárstvo, priemysel, služby) a úrovňou hrubého domáceho produktu na obyvateľa (GDP).

Pracujeme s údajmi za rok 2003.

Cieľom je zistiť, ktoré z dostupných ekonomických ukazovateľov najviac vysvetľujú rozdiely v miere nezamestnanosti medzi krajinami.

#######################################################################
# PRIPRAVA UDAJOV
#######################################################################
udaje <- read.csv("Employment_Unemployment_GDP_data.csv",dec=".",sep=",",header = TRUE)
# select just the record from 2003
udaje.2003 <- udaje[udaje$Year==2003,c("Unemployment.Rate","Employment.Sector..Agriculture","GDP..in.USD.", "Employment.Sector..Industry","Employment.Sector..Services" )]

# data imputation

# Compute column medians
#column_medians <- sapply(udaje.2003, median, na.rm = TRUE)

# Impute missing values with column medians
# Compute column medians
column_medians <- sapply(udaje.2003, median, na.rm = TRUE)

# Impute missing values with column medians
udaje_imputed <- udaje.2003
for (col in names(udaje.2003)) {
  udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}

udaje.2003 <- udaje_imputed
udaje <- udaje.2003

################################################################################
# ZAKLADNA REGRESIA
################################################################################
attach(udaje)
model <- lm(Unemployment.Rate ~ 
              Employment.Sector..Agriculture +
              Employment.Sector..Industry +
              Employment.Sector..Services +
              GDP..in.USD.,
            data = udaje)
summary(model)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.426  -4.399  -1.240   2.583  25.949 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)                     8.812e+04  1.580e+05   0.558   0.5777  
Employment.Sector..Agriculture -8.812e+02  1.580e+03  -0.558   0.5777  
Employment.Sector..Industry    -8.811e+02  1.580e+03  -0.558   0.5778  
Employment.Sector..Services    -8.812e+02  1.580e+03  -0.558   0.5777  
GDP..in.USD.                   -8.262e-13  4.844e-13  -1.706   0.0898 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared:  0.09631,   Adjusted R-squared:  0.07589 
F-statistic: 4.716 on 4 and 177 DF,  p-value: 0.00122

Testujeme, či je náš regresný model vhodne špecifikovaný, či lineárna funkčná forma postačuje, alebo či by sme mali uvažovať o transformáciách premenných (napr. logaritmy, mocniny).

1. Ramsey RESET test

Myšlienka testu je jednoduchá:
Ak je pôvodný model správne špecifikovaný, pridanie mocnín predikovaných hodnôt (\(\hat{y}^2\), \(\hat{y}^3\)) by model nemalo významne zlepšiť.

Testované hypotézy:

\[ H_0: \text{Model je správne špecifikovaný} \]

\[ H_1: \text{Model je nesprávne špecifikovaný}\]

Ak p-hodnota < 0.05 → model je pravdepodobne zle špecifikovaný.

Výpočet RESET testu :

# Suppose your model is:
model <- lm(Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + Employment.Sector..Services + GDP..in.USD., data = udaje)

# RESET test from 'lmtest' package:
library(lmtest)
resettest(model)

    RESET test

data:  model
RESET = 6.0494, df1 = 2, df2 = 175, p-value = 0.002882

Interpretácia

Keďže p-hodnota je nižšia ako 0.05, zamietame nulovú hypotézu o správnej funkčnej forme.
To znamená, že náš model je nesprávne špecifikovaný. Model pravdepodobne potrebuje nelineárnu transformáciu premenných (napr. log GDP, kvadratické členy), alebo mu chýbajú niektoré vysvetľujúce premenné, ktoré by lepšie vysvetlili mieru nezamestnanosti.

Výsledok RESET testu teda naznačuje, že jednoduchá lineárna špecifikácia nemusí byť pre tieto dáta postačujúca.

2. Grafická analýza funkčnej formy

Graf Residuals vs. Fitted

Prvým krokom je vizuálna kontrola lineárnej špecifikácie pomocou grafu rezíduí voči vyrovnaným hodnotám. Tento graf nám pomáha odhaliť nelineárne vzťahy alebo iné problémy s modelom.

car::crPlots(model)

Interpretácia C+R grafov

Component + Residual grafy ukazujú, či má každá vysvetľujúca premenná lineárny vzťah so závislou premennou (Unemployment.Rate).

  • Employment.Sector..Agriculture – krivka kopíruje priamku,čiže vzťah je približne lineárny.
  • Employment.Sector..Industry – situácia je rovnaká, žiadne výrazné zakrivenie, takže lineárna špecifikácia je pravdepodobne postačujúca.
  • Employment.Sector..Services – taktiež prakticky lineárny vzťah bez odchýlok.

Najväčší problém – GDP..in.USD.

  • Pri premennej GDP..in.USD. je vidieť silné zakrivenie.
  • Body sú extrémne zhustené pri veľmi nízkych hodnotách GDP a rozťahané pri vyšších hodnotách.
  • To znamená, že vzťah medzi GDP a nezamestnanosťou NIE JE lineárny, a lineárny model to nevie správne zachytiť. Mali by sme práve túto premennú transformovať .

Toto je v súlade aj s RESET testom, ktorý ukázal, že lineárna špecifikácia modelu je chybná.

3. Porovnanie základného a modifikovaného modelu

Budeme porovnávať:

  • Základný lineárny model
  • Model doplnený o kvadratický člen premennej GDP:
    \[ I(GDP^2)\]

Cieľom je zistiť, či pridaním kvadratického člena:

  • stúpne upravený koeficient determinácie \(R^2_{adj}\),
  • model bude štatisticky lepší podľa ANOVA testu,
  • RESET test prestane signalizovať chybnú špecifikáciu.
# základný model
model_linear <- lm(Unemployment.Rate ~ 
                     Employment.Sector..Agriculture +
                     Employment.Sector..Industry +
                     Employment.Sector..Services +
                     GDP..in.USD.,
                   data = udaje)

# model s kvadrátom GDP
model_gdp_quad <- lm(Unemployment.Rate ~ 
                       Employment.Sector..Agriculture +
                       Employment.Sector..Industry +
                       Employment.Sector..Services +
                       GDP..in.USD. +
                       I(GDP..in.USD.^2),
                     data = udaje)

summary(model_gdp_quad)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD. + I(GDP..in.USD.^2), data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.075  -4.493  -1.018   2.560  25.411 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)                     9.048e+04  1.569e+05   0.577   0.5649  
Employment.Sector..Agriculture -9.047e+02  1.569e+03  -0.577   0.5649  
Employment.Sector..Industry    -9.046e+02  1.569e+03  -0.577   0.5650  
Employment.Sector..Services    -9.047e+02  1.569e+03  -0.577   0.5649  
GDP..in.USD.                   -3.187e-12  1.356e-12  -2.351   0.0199 *
I(GDP..in.USD.^2)               2.442e-25  1.311e-25   1.862   0.0642 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.118 on 176 degrees of freedom
Multiple R-squared:  0.1138,    Adjusted R-squared:  0.0886 
F-statistic: 4.519 on 5 and 176 DF,  p-value: 0.0006697
# porovnanie modelov
anova(model_linear, model_gdp_quad)
Analysis of Variance Table

Model 1: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD.
Model 2: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD. + I(GDP..in.USD.^2)
  Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
1    177 6717.3                              
2    176 6587.4  1    129.82 3.4684 0.06422 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# RESET test na modifikovaný model
resettest(model_gdp_quad)

    RESET test

data:  model_gdp_quad
RESET = 3.0094, df1 = 2, df2 = 174, p-value = 0.05189

Výsledky modifikovaného modelu s kvadrátom GDP

Po pridaní kvadratického člena premennej GDP..in.USD. dostávame nasledovné výsledky:

  • Koeficient pri premenej GDP je štatisticky významný (p = 0.0199).
  • Koeficient pri I(GDP²) je na hranici významnosti (p = 0.0642), čo naznačuje možný nelineárny vzťah.
  • Upravený koeficient determinácie vzrástol z 0.0759 na 0.0886, teda model sa mierne zlepšil.

ANOVA test

Porovnanie pôvodného a kvadratického modelu:

  • p-hodnota = 0.06422, teda na úrovni 10 % je zlepšenie modelu štatisticky významné.
  • To podporuje myšlienku, že pridanie nelineárneho prvku (GDP²) má zmysel.

RESET test pre modifikovaný model

  • p-hodnota = 0.05189

  • Toto je tesne nad hranicou 0.05 → už nezamietame hypotézu o správnej špecifikácii.

  • Model teraz lepšie zachytáva nelineárny vzťah medzi GDP a nezamestnanosťou.

4. Rozšírený RESET test a úplný kvadratický model

model_rozsireny <- lm(Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + Employment.Sector..Services + GDP..in.USD. + I(Employment.Sector..Agriculture^2) + I(Employment.Sector..Industry^2) + I(Employment.Sector..Services^2) + I(GDP..in.USD.^2), data = udaje)

summary(model_rozsireny)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD. + I(Employment.Sector..Agriculture^2) + I(Employment.Sector..Industry^2) + 
    I(Employment.Sector..Services^2) + I(GDP..in.USD.^2), data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.518  -4.344  -0.772   2.600  22.914 

Coefficients:
                                      Estimate Std. Error t value Pr(>|t|)   
(Intercept)                          6.746e+04  1.554e+05   0.434  0.66466   
Employment.Sector..Agriculture      -6.740e+02  1.554e+03  -0.434  0.66494   
Employment.Sector..Industry         -6.749e+02  1.554e+03  -0.434  0.66453   
Employment.Sector..Services         -6.750e+02  1.554e+03  -0.434  0.66451   
GDP..in.USD.                        -2.183e-12  1.362e-12  -1.603  0.11074   
I(Employment.Sector..Agriculture^2) -6.131e-03  2.080e-03  -2.948  0.00364 **
I(Employment.Sector..Industry^2)     1.494e-02  7.199e-03   2.075  0.03945 * 
I(Employment.Sector..Services^2)     5.661e-03  3.043e-03   1.860  0.06459 . 
I(GDP..in.USD.^2)                    1.691e-25  1.303e-25   1.298  0.19612   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.984 on 173 degrees of freedom
Multiple R-squared:  0.1665,    Adjusted R-squared:  0.1279 
F-statistic: 4.319 on 8 and 173 DF,  p-value: 9.177e-05
anova(model,model_rozsireny)
Analysis of Variance Table

Model 1: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD.
Model 2: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD. + I(Employment.Sector..Agriculture^2) + 
    I(Employment.Sector..Industry^2) + I(Employment.Sector..Services^2) + 
    I(GDP..in.USD.^2)
  Res.Df    RSS Df Sum of Sq      F   Pr(>F)   
1    177 6717.3                                
2    173 6195.8  4     521.5 3.6404 0.007102 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
resettest(model_rozsireny)

    RESET test

data:  model_rozsireny
RESET = 8.9371, df1 = 2, df2 = 171, p-value = 0.0002034

ANOVA porovnanie základného a plne kvadratického modelu

ANOVA test porovnáva pôvodný lineárny model s rozšíreným modelom obsahujúcim všetky kvadratické členy. Výsledky sú:

  • p-hodnota = 0.007102
  • F = 3.6404

Keďže p-hodnota je výrazne nižšia ako 0.05, rozšírený kvadratický model je štatisticky lepší ako pôvodný lineárny model.
Pridanie kvadratických členov teda výrazne zlepšilo vysvetľovaciu schopnosť modelu.

RESET test pre rozšírený model

Výsledok:

  • p-hodnota = 0.0002034
  • RESET = 8.9371

Tento výsledok je veľmi dôležitý:

  • p-hodnota < 0.001 → model je stále nesprávne špecifikovaný
  • ani pridanie všetkých kvadratických členov neodstránilo špecifikačnú chybu Čiže aj keď ANOVA ukazuje, že kvadratické členy priniesli štatistické zlepšenie, RESET test odhaľuje, že ani rozšírená nelineárna špecifikácia nevyriešila problém špecifikácie modelu. Takže je v modeli, buď stále chýba dôležitá premenná,
    alebo treba použiť inú transformáciu, alebo vzťahy medzi premennými sú zložitejšie než kvadratické.

5. Transformácia pomocou dummy premennej a lineárnej lomenej funkcie

Z predchádzajúcich grafov vidíme, že premenná GDP sa nespráva úplne lineárne. Preto skúsime dáta rozdeliť na dve skupiny – krajiny s nižším GDP a krajiny s vyšším GDP – a pozrieme sa, či sa správanie modelu medzi nimi líši.

Na to vytvoríme jednoduchú dummy premennú (DUM), ktorá je:

  • 0 = krajiny s nižším GDP
  • 1 = krajiny s vyšším GDP

Cieľom je zistiť, či sa pre tieto dve skupiny krajín mení: - buď celková úroveň nezamestnanosti (posun modelu), - alebo samotný vzťah medzi GDP a nezamestnanosťou (teda sklon).

Najskôr vytvoríme túto DUM premennú:

Takto rozdelíme krajiny na dve skupiny: - krajiny s nižším GDP,
- krajiny s vyšším GDP.

V ďalšom kroku odhadneme: 1. model so zlomom v autonómnom člene, 2. model so zlomom v sklone.

Najprv vytvoríme dummy premennú DUM:

# dummy podľa mediánu GDP
threshold <- median(udaje$GDP..in.USD.)
udaje$DUM <- ifelse(udaje$GDP..in.USD. < threshold, 0, 1)

table(udaje$DUM)

 0  1 
91 91 

5.1 Model so zlomom v autonómnom člene

Teraz otestujeme, či sa model „posúva“ nahor alebo nadol pre krajiny s vyšším GDP.
Teda či krajiny s vysokým GDP majú v priemere inú úroveň nezamestnanosti ako krajiny s nízkym GDP.

Odhadneme model, kde pridáme dummy premennú DUM ako samostatný vysvetľujúci faktor:

modelD_auto <- lm(Unemployment.Rate ~ DUM +
                    Employment.Sector..Agriculture +
                    Employment.Sector..Industry +
                    Employment.Sector..Services +
                    GDP..in.USD.,
                  data = udaje)

summary(modelD_auto)

Call:
lm(formula = Unemployment.Rate ~ DUM + Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-13.431  -4.110  -1.260   3.037  23.049 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)                     9.949e+04  1.527e+05   0.652 0.515422    
DUM                            -3.783e+00  1.024e+00  -3.696 0.000293 ***
Employment.Sector..Agriculture -9.949e+02  1.527e+03  -0.652 0.515435    
Employment.Sector..Industry    -9.946e+02  1.527e+03  -0.652 0.515530    
Employment.Sector..Services    -9.948e+02  1.527e+03  -0.652 0.515463    
GDP..in.USD.                   -5.574e-13  4.736e-13  -1.177 0.240785    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.951 on 176 degrees of freedom
Multiple R-squared:  0.1614,    Adjusted R-squared:  0.1376 
F-statistic: 6.774 on 5 and 176 DF,  p-value: 8.412e-06

Výsledok modelu so zlomom v autonómnom člene

Do modelu sme pridali dumm premennú DUM, ktorá rozdeľuje krajiny na tie s nižším a vyšším GDP. Cieľom bolo zistiť, či sa model pri krajinách s vyšším GDP „posúva“ nahor alebo nadol.

Výsledky ukazujú, že koeficient pri DUM je významný (p < 0.001).
To znamená, že krajiny s vyšším GDP majú v priemere inú úroveň nezamestnanosti ako krajiny s nižším GDP.

Konkrétne: - koeficient DUM = –3.78
→ krajiny s vyšším GDP majú približne o 3.8 percentuálneho bodu nižšiu nezamestnanosť.

Ostatné premenné sa takmer nezmenili a nie sú významné.

Zavedenie DUMM spôsobí iba posun modelu, ale nemení tvar vzťahu medzi premennými. Tento krok síce zlepšil model, ale problém lineárnej špecifikácie stále pretrváva.

6.2 Model so zlomom v sklone

V predchádzajúcom kroku sme zistili, že krajiny s vyšším GDP majú iný „posun“ v modeli.
Teraz otestujeme, či sa pri týchto krajinách mení aj sklon, teda samotný vzťah medzi GDP a nezamestnanosťou.

Na to použijeme interakčný člen:
\[DUM * GDP\]

Tým vlastne hovoríme: „vzťah medzi GDP a nezamestnanosťou môže byť iný pre obe skupiny krajín.“

modelD_sklon <- lm(Unemployment.Rate ~ 
                     Employment.Sector..Agriculture +
                     Employment.Sector..Industry +
                     Employment.Sector..Services +
                     GDP..in.USD. +
                     I(DUM * GDP..in.USD.),
                   data = udaje)

summary(modelD_sklon)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD. + I(DUM * GDP..in.USD.), data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.370  -4.197  -1.252   2.702  25.340 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)
(Intercept)                     1.011e+05  1.580e+05   0.640    0.523
Employment.Sector..Agriculture -1.011e+03  1.580e+03  -0.640    0.523
Employment.Sector..Industry    -1.011e+03  1.580e+03  -0.640    0.523
Employment.Sector..Services    -1.011e+03  1.580e+03  -0.640    0.523
GDP..in.USD.                    1.931e-10  1.506e-10   1.283    0.201
I(DUM * GDP..in.USD.)          -1.939e-10  1.505e-10  -1.288    0.199

Residual standard error: 6.149 on 176 degrees of freedom
Multiple R-squared:  0.1048,    Adjusted R-squared:  0.07932 
F-statistic: 4.119 on 5 and 176 DF,  p-value: 0.00146

Výsledok modelu so zlomom v sklone

V tomto modeli sme skúšali, či sa vzťah medzi GDP a nezamestnanosťou mení pre krajiny s vyšším a nižším GDP. To zisťujeme pomocou interakcie DUM * GDP.

Z výsledkov vidíme, že:

  • koeficient pri premennej GDP nie je významný (p = 0.201)
  • koeficient pri DUM * GDP tiež nie je významný (p = 0.199)

To znamená, že sklon sa nemení.
Inými slovami: nezamestnanosť reaguje na GDP veľmi podobne v oboch skupinách krajín (teda v krajinách s nižším aj vyšším GDP).

Tento model teda nepriniesol zlepšenie a nezachytil žiadny zlom v sklone.

anova(model_linear, modelD_sklon)
Analysis of Variance Table

Model 1: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD.
Model 2: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD. + I(DUM * GDP..in.USD.)
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1    177 6717.3                           
2    176 6654.5  1    62.748 1.6596 0.1994
resettest(modelD_sklon)

    RESET test

data:  modelD_sklon
RESET = 3.2494, df1 = 2, df2 = 174, p-value = 0.04116

Porovnanie modelu so zlomom v sklone (ANOVA)

ANOVA porovnáva pôvodný model s modelom, kde sme pridali interakciu DUM * GDP.

Výsledok:

  • p-hodnota = 0.1994
  • F = 1.6596

Keďže p-hodnota je väčšia ako 0.05, nový model nie je štatisticky lepší ako pôvodný.
To znamená, že pridanie interakcie (teda zlom v sklone) model nijako nezlepšilo.


RESET test pre model so zlomom v sklone

  • p-hodnota = 0.04116

Keďže p-hodnota je nižšia ako 0.05, RESET test nám hovorí, že model stále nie je správne špecifikovaný (má chybu vo funkčnej forme).

  • Zlom v sklone neexistuje (interakcia nie je významná, model sa nezlepšil).
  • Model so zlomom v sklone nevyriešil problém špecifikácie (RESET je stále významný).
  • Tento model teda nie je vhodný a nebudeme ho ďalej používať.

Logaritmická transformácia

Keďže sa náš model stále javí ako nesprávne špecifikovaný (RESET test to potvrdil), skúšame najbežnejšiu a najjednoduchšiu transformáciu – logaritmus.
Logaritmus pomáha hlavne vtedy, keď je vzťah medzi premennými zakrivený alebo rýchlo rastie, čo bol náš prípad pri GDP.

Preto nahradíme premennú GDP logaritmom z GDP.

udaje$logGDP <- log(udaje$GDP..in.USD.)

model_log <- lm(Unemployment.Rate ~ 
                  Employment.Sector..Agriculture +
                  Employment.Sector..Industry +
                  Employment.Sector..Services +
                  logGDP,
                data = udaje)

summary(model_log)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    logGDP, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.879  -4.017  -1.164   2.169  23.702 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)                     3.661e+04  1.521e+05   0.241     0.81    
Employment.Sector..Agriculture -3.659e+02  1.521e+03  -0.241     0.81    
Employment.Sector..Industry    -3.657e+02  1.521e+03  -0.240     0.81    
Employment.Sector..Services    -3.658e+02  1.521e+03  -0.241     0.81    
logGDP                         -9.873e-01  2.318e-01  -4.260 3.32e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.915 on 177 degrees of freedom
Multiple R-squared:  0.1669,    Adjusted R-squared:  0.148 
F-statistic: 8.862 on 4 and 177 DF,  p-value: 1.518e-06
# RESET test pre logaritmický model
resettest(model_log)

    RESET test

data:  model_log
RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531
anova(model_linear, model_log)
Analysis of Variance Table

Model 1: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD.
Model 2: Unemployment.Rate ~ Employment.Sector..Agriculture + Employment.Sector..Industry + 
    Employment.Sector..Services + logGDP
  Res.Df    RSS Df Sum of Sq F Pr(>F)
1    177 6717.3                      
2    177 6192.8  0    524.42         
resettest(model_log)

    RESET test

data:  model_log
RESET = 0.59418, df1 = 2, df2 = 175, p-value = 0.5531

Logaritmická transformácia (logGDP)

Keď sme vymenili premennú GDP za jej logaritmus (logGDP), model sa citeľne zlepšil.

ANOVA test

ANOVA porovnáva pôvodný lineárny model s modelom, ktorý používa logGDP.

Výsledok: - reziduálny súčet štvorcov (RSS) sa znížil z 6717.3 na 6192.8 - rozdiel je 524.42, čo znamená, že logaritmický model opisuje dáta lepšie

Aj keď ANOVA neukazuje klasickú p-hodnotu (lebo model má rovnaký počet stupňov voľnosti), zníženie RSS je jasné zlepšenie.

RESET test

  • p-hodnota = 0.5531
  • to znamená, že model je správne špecifikovaný
    (žiadna chyba funkčnej formy)

Takže model s logGDP je doteraz najlepší: - má najnižší RSS, - má najvyšší upravený R², - všetko je štatisticky v poriadku, - a ako jediný prešiel RESET testom bez problémov.

V ďalšej analýze budeme pracovať s logaritmickým modelom.

7. Box-Coxov transformačný test (len doplnkové)

Pre istotu sa pozrieme aj na Box–Cox test, ktorý ukazuje, či by sme mali transformovať samotnú závislú premennú (Unemployment.Rate). Test hľadá takú hodnotu λ, ktorá dá modelu najlepší tvar.

Význam λ: - λ ≈ 1 → netreba transformovať, - λ ≈ 0 → logaritmus, - λ ≈ 0.5 → odmocnina, - λ ≈ -1 → 1/Y, atď.

library(MASS)
boxcox(model_log)   # používame model s logGDP, pretože to je náš najlepší model

Box-Coxov graf nám ukazuje, aká transformácia by bola najlepšia pre závislú premennú (Unemployment.Rate).

V našom grafe vidíme, že maximum krivky je pri hodnote λ približne okolo 0.
To znamená, že najvhodnejšia transformácia by bola logaritmus, teda log(Y).

To je ale dôležité:
my už logaritmus používame – ale nie na Y, ale na GDP, čo nám ako jediné opravilo chybnú špecifikáciu.

Preto Box-Cox potvrdzuje, že nejaká logaritmická úprava v modeli je potrebná, ale nemusíme transformovať samotnú nezamestnanosť (to by zhoršilo interpretáciu).

LogGDP model je už teraz: - správne špecifikovaný, - najlepší podľa všetkých testov, - a dáva zmysel aj ekonomicky.

Preto Box-Cox berieme len ako doplnkovú kontrolu a ďalšiu transformáciu už robiť netreba.

