#1.IPriprava dát a regresia

priprava dát z cvičenia 7.

# Import vlastného CSV súboru

udaje <- read.csv("Employment_Unemployment_GDP_data.csv",
header = TRUE,
sep = ",",
dec = ".",
stringsAsFactors = FALSE)

# Zobrazenie prvých riadkov a názvov stĺpcov

head(udaje)
colnames(udaje)
[1] "Country.Name"                   "Year"                          
[3] "Employment.Sector..Agriculture" "Employment.Sector..Industry"   
[5] "Employment.Sector..Services"    "Unemployment.Rate"             
[7] "GDP..in.USD."                  
#######################################################################
# PRIPRAVA UDAJOV
#######################################################################
udaje <- read.csv("Employment_Unemployment_GDP_data.csv",dec=".",sep=",",header = TRUE)
# select just the record from 2003
udaje.2003 <- udaje[udaje$Year==2003,c("Unemployment.Rate","Employment.Sector..Agriculture","GDP..in.USD.", "Employment.Sector..Industry","Employment.Sector..Services" )]

# data imputation

# Compute column medians
#column_medians <- sapply(udaje.2003, median, na.rm = TRUE)

# Impute missing values with column medians
# Compute column medians
column_medians <- sapply(udaje.2003, median, na.rm = TRUE)

# Impute missing values with column medians
udaje_imputed <- udaje.2003
for (col in names(udaje.2003)) {
  udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}

udaje.2003 <- udaje_imputed
udaje <- udaje.2003

################################################################################
# ZAKLADNA REGRESIA
################################################################################
attach(udaje)
model <- lm(Unemployment.Rate ~ 
              Employment.Sector..Agriculture +
              Employment.Sector..Industry +
              Employment.Sector..Services +
              GDP..in.USD.,
            data = udaje)
summary(model)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.426  -4.399  -1.240   2.583  25.949 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)                     8.812e+04  1.580e+05   0.558   0.5777  
Employment.Sector..Agriculture -8.812e+02  1.580e+03  -0.558   0.5777  
Employment.Sector..Industry    -8.811e+02  1.580e+03  -0.558   0.5778  
Employment.Sector..Services    -8.812e+02  1.580e+03  -0.558   0.5777  
GDP..in.USD.                   -8.262e-13  4.844e-13  -1.706   0.0898 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared:  0.09631,   Adjusted R-squared:  0.07589 
F-statistic: 4.716 on 4 and 177 DF,  p-value: 0.00122

Interpretácia

Tento model skúma, či sa dá miera nezamestnanosti vysvetliť pomocou štruktúry zamestnanosti (poľnohospodárstvo, priemysel, služby) a HDP na obyvateľa.

Z výsledkov vidím toto:

  • všetky tri sektorové premenné (Agriculture, Industry, Services) majú takmer rovnaké koeficienty a všetky sú nevýznamné (p-hodnoty okolo 0.58),
  • premenná GDP je len tesne na hranici významnosti (p ≈ 0.09),
  • celková vysvetľovacia schopnosť modelu je nízka (Adjusted R² ≈ 0.076),

2. Korelačná matica

V tejto časti skúmame, či medzi našimi vysvetľujúcimi premennými existuje silná korelácia.
Ak by niektoré premenné mali veľmi vysokú koreláciu (napr. nad 0.8–0.9), znamenalo by to riziko multikolinearity — teda že do modelu dávam premenné, ktoré sú si príliš podobné.

#######################################################################
# 5. KORELAČNÁ MATICA
#######################################################################

xvars <- udaje[, c("Employment.Sector..Agriculture",
                   "Employment.Sector..Industry",
                   "Employment.Sector..Services",
                   "GDP..in.USD.")]

round(cor(xvars), 3)
                               Employment.Sector..Agriculture
Employment.Sector..Agriculture                          1.000
Employment.Sector..Industry                            -0.766
Employment.Sector..Services                            -0.957
GDP..in.USD.                                           -0.194
                               Employment.Sector..Industry
Employment.Sector..Agriculture                      -0.766
Employment.Sector..Industry                          1.000
Employment.Sector..Services                          0.547
GDP..in.USD.                                         0.140
                               Employment.Sector..Services GDP..in.USD.
Employment.Sector..Agriculture                      -0.957       -0.194
Employment.Sector..Industry                          0.547        0.140
Employment.Sector..Services                          1.000        0.189
GDP..in.USD.                                         0.189        1.000

Interpretácia korelačnej matice

Z korelačnej matice vidím viacero silných vzťahov medzi premennými. Najvýraznejšia je korelácia medzi:

  • Agriculture a Services, kde korelácia je –0.957 → to je extrémne vysoká negatívna korelácia.
  • Agriculture a Industry majú koreláciu –0.766, čo je tiež pomerne silný vzťah.

To znamená, že tieto sektorové premenné sú medzi sebou veľmi podobné (ak stúpne jedna, druhé výrazne klesnú).

HDP (GDP..in.USD.) má s ostatnými premennými len slabé korelácie (okolo ±0.19). Takže podľa korelačnej matice sa multikolinearita prejavuje hlavne medzi tromi sektorovými premennými, ktoré sú navzájom veľmi silno previazané.

##Scatterplotova matica

pairs(xvars,
      main = "Scatterplotová matica – sektorové premenné a GDP")

Scatterplotová matica pekne potvrdzuje to, čo sme videli už v korelačnej matici:

  • medzi Agriculture a Services je veľmi silný negatívny vzťah – čím viac ľudí pracuje v poľnohospodárstve, tým menej ich pracuje v službách. Body tvoria takmer dokonalú klesajúcu priamku.
  • podobne, Agriculture a Industry tiež silne klesajú – tieto dve premenné sú tiež navzájom prepojené.
  • vzťahy medzi sektormi sú spôsobené tým, že všetky sektory spolu tvoria 100 % zamestnanosti, takže keď jeden sektor rastie, iné musia klesať.
  • GDP je na grafoch prakticky „bez vzoru“, body sú rozhádzané → GDP nie je so sektormi silno prepojené a nespôsobuje multikolinearitu.

Z toho vyplýva, že Scatterplotová matica potvrdila, že multikolinearita vzniká najmä medzi tromi sektorovými premennými, nie medzi GDP a sektormi.

3. VIF – Variance Inflation Factor

VIF používame na to, aby sme zistili, ktorá premenná spôsobuje multikolinearitu.
Platí jednoduché pravidlo:

  • VIF okolo 1–2 → žiadny problém
  • VIF > 5 → začínajúci problém
  • VIF > 10 → vážna multikolinearita
#######################################################################
# 6. VIF
#######################################################################

library(car)
vif(model)
Employment.Sector..Agriculture    Employment.Sector..Industry 
                  7.256425e+09                   8.674182e+08 
   Employment.Sector..Services                   GDP..in.USD. 
                  4.280920e+09                   1.039469e+00 

Interpretácia VIF

Hodnoty VIF v mojom modeli sú obrovské pri sektorových premenných (Agriculture, Industry, Services). Keď jeden sektor stúpa, ostatné musia klesať, takže sú prakticky naviazané jedna na druhú, čo je jasný znak veľmi silnej multikolinearity.

Takže to znamená, že tieto tri premenné sú pre model „takmer to isté“, len v inom poradía spôsobujú chaos v koeficientoch, model ich nevie spoľahlivo odlíšiť.

Premenná GDP takýto problém nemá (VIF ≈ 1), takže multikolinearitu spôsobujú výhradne sektorové premenné.

4. Condition Number

Condition Number je ďalší ukazovateľ, ktorý sa používa na zistenie multikolinearity.

Intuitívne pravidlo:

  • < 10 → žiadny problém
  • 10–30 → mierna multikolinearita
  • 30–100 → silná
  • 100 → veľmi vážna multikolinearita


# 4. CONDITION NUMBER

X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] NaN

Interpretácia Condition Number

Pri výpočte Condition Number sa mi zobrazila hodnota NaN.
To sa stáva v situácii, keď je matica vysvetľujúcich premenných takmer singulárna, teda jedna premenná sa dá skoro úplne presne vyjadriť pomocou iných premenných. V mojom prípade je to dôsledok toho, že sektorové premenné (Agriculture, Industry, Services) spolu tvoria 100 % zamestnanosti.

To znamená, že medzi nimi existuje extrémne silná lineárna závislosť a Condition Number sa nedá normálne vypočítať. Tento výsledok je ešte silnejším dôkazom multikolinearity než vysoké hodnoty VIF.

5. Riešenia multikolinearity

Vynechanie premennej Agroculture

model_noAgri <- lm(Unemployment.Rate ~ 
                     Employment.Sector..Industry +
                     Employment.Sector..Services +
                     GDP..in.USD.,
                   data = udaje)

summary(model_noAgri)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Industry + 
    Employment.Sector..Services + GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.448  -4.385  -1.239   2.587  25.914 

Coefficients:
                              Estimate Std. Error t value Pr(>|t|)  
(Intercept)                  3.551e+00  1.375e+00   2.583   0.0106 *
Employment.Sector..Industry  1.472e-01  6.402e-02   2.299   0.0226 *
Employment.Sector..Services  5.079e-02  2.906e-02   1.748   0.0822 .
GDP..in.USD.                -8.216e-13  4.834e-13  -1.700   0.0909 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared:  0.09472,   Adjusted R-squared:  0.07946 
F-statistic: 6.208 on 3 and 178 DF,  p-value: 0.0004924

Model bez premennej Agriculture – interpretácia

Keď sme z modelu vynechali premennú Agriculture, výsledky sa zlepšili:

  • premenná Industry je teraz štatisticky významná (p ≈ 0.02),
  • premenná Services je tesne pod hranicou významnosti (p ≈ 0.08),
  • premenná GDP je stále na hranici významnosti (p ≈ 0.09).

Upravený R² je síce stále nízky (≈ 0.079), ale model je už stabilnejší než pôvodný.

Z toho vyplýva, že vynechanie Agriculture pomohlo, pretože táto premenná spôsobovala najviac multikolinearity so zvyšnými dvoma sektorovými premennými (bola extrémne silne korelovaná so Services a Industry).

Tento model je preto o niečo lepší než pôvodný model so všetkými premennými.

Vynechanie premennej Indusry

model_noIndustry <- lm(Unemployment.Rate ~ 
                         Employment.Sector..Agriculture +
                         Employment.Sector..Services +
                         GDP..in.USD.,
                       data = udaje)

summary(model_noIndustry)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Services + GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.448  -4.385  -1.239   2.587  25.914 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)   
(Intercept)                     1.827e+01  6.082e+00   3.004  0.00305 **
Employment.Sector..Agriculture -1.472e-01  6.402e-02  -2.299  0.02264 * 
Employment.Sector..Services    -9.641e-02  8.327e-02  -1.158  0.24848   
GDP..in.USD.                   -8.216e-13  4.834e-13  -1.700  0.09095 . 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared:  0.09472,   Adjusted R-squared:  0.07946 
F-statistic: 6.208 on 3 and 178 DF,  p-value: 0.0004923

Model bez premennej Industry – interpretácia

Keď sme z modelu vynechali premennú Industry, významnosť sa obrátila:

  • premenná Agriculture je teraz štatisticky významná (p ≈ 0.022),
  • premenná Services nie je významná (p ≈ 0.25),
  • premenná GDP je opäť na hranici (p ≈ 0.09).

Hodnota R² sa nezmenila (je rovnaká ako v modeli bez Agriculture), čo znamená, že vysvetľovacia schopnosť modelu je rovnaká.

Tento model je však horší než model bez Agriculture, pretože v ňom ostáva len jedna významná premenná (Agriculture), zatiaľ čo model bez Agriculture mal významný Industry a skoro významný Services.

Takže vynechanie Industry neprinieslo také zlepšenie ako vynechanie Agriculture.

Vynechanie premennej Services

model_noServices <- lm(Unemployment.Rate ~ 
                         Employment.Sector..Agriculture +
                         Employment.Sector..Industry +
                         GDP..in.USD.,
                       data = udaje)

summary(model_noServices)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + GDP..in.USD., data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.448  -4.385  -1.239   2.587  25.914 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)                     8.630e+00  2.415e+00   3.574 0.000452 ***
Employment.Sector..Agriculture -5.079e-02  2.906e-02  -1.748 0.082183 .  
Employment.Sector..Industry     9.641e-02  8.327e-02   1.158 0.248489    
GDP..in.USD.                   -8.216e-13  4.834e-13  -1.700 0.090946 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared:  0.09472,   Adjusted R-squared:  0.07946 
F-statistic: 6.208 on 3 and 178 DF,  p-value: 0.0004924

Model bez premennej Services – interpretácia

Keď sme z modelu vynechali premennú Services, výsledok je podobný ako v predošlom modeli:

  • premenná Agriculture je len na hranici významnosti (p ≈ 0.082),
  • premenná Industry nie je významná (p ≈ 0.25),
  • premenná GDP je stále len tesne nevýznamná (p ≈ 0.09).

R² je opäť rovnaké ako v predchádzajúcich dvoch prípadoch.

Tento model je najslabší zo všetkých troch, pretože nemá žiadnu jasne významnú premennú a koeficienty sú ešte menej stabilné.

Ktorú premennú je najlepšie vynechať?

Porovnali sme všetky tri modely, kde sme vždy jednu premennú vynechala.
Najlepší výsledok vyšiel teda pri modeli bez Agriculture, pretože:

  • Industry sa stal významným,
  • Services bol aspoň na hranici významnosti,
  • model vyzeral najstabilnejšie,
  • a číselne dával najrozumnejšie koeficienty.

Model bez Industry a model bez Services boli horšie – vždy zostala iba jedna významná premenná alebo žiadna.

5.2 Škálovanie premenných (centrovanie)

# 8.2 ŠKÁLOVANIE PREMENNÝCH

udaje$Agri_c     <- scale(udaje$Employment.Sector..Agriculture, center=TRUE, scale=TRUE)
udaje$Industry_c <- scale(udaje$Employment.Sector..Industry, center=TRUE, scale=TRUE)
udaje$Services_c <- scale(udaje$Employment.Sector..Services, center=TRUE, scale=TRUE)
udaje$GDP_c      <- scale(udaje$GDP..in.USD., center=TRUE, scale=TRUE)

model_centered <- lm(Unemployment.Rate ~ Agri_c + Industry_c + Services_c + GDP_c,
                     data = udaje)

summary(model_centered)

Call:
lm(formula = Unemployment.Rate ~ Agri_c + Industry_c + Services_c + 
    GDP_c, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.426  -4.399  -1.240   2.583  25.949 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  8.774e+00  4.566e-01  19.215   <2e-16 ***
Agri_c      -2.176e+04  3.901e+04  -0.558   0.5777    
Industry_c  -7.521e+03  1.349e+04  -0.558   0.5778    
Services_c  -1.671e+04  2.996e+04  -0.558   0.5777    
GDP_c       -7.962e-01  4.668e-01  -1.706   0.0898 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared:  0.09631,   Adjusted R-squared:  0.07589 
F-statistic: 4.716 on 4 and 177 DF,  p-value: 0.00122

Interpretácia škálovaného modelu

Po preškálovaní premenných sa model síce vypočítal stabilnejšie, ale správanie koeficientov sa prakticky nezmenilo.
Výsledky sú takmer totožné ako v pôvodnom modeli:

  • žiadna sektorová premenná (Agri_c, Industry_c, Services_c) nie je štatisticky významná,
  • GDP_c je opäť len tesne na hranici významnosti (p ≈ 0.09),
  • upravený R² je rovnaký ako pred škálovaním (≈ 0.076).

Škálovanie teda neodstránilo multikolinearitu medzi sektorovými premennými, iba stabilizovalo výpočty.
Problém zostáva, pretože tri sektory sú stále naviazané (tvoria spolu takmer 100 % zamestnanosti), takže model ich nedokáže od seba oddeliť ani po škálovaní.

5.3 Úprava jednotiek (GDP/1000)


# ÚPRAVA JEDNOTIEK – GDP / 1000


udaje$GDP1000 <- udaje$GDP..in.USD. / 1000

model_GDP1000 <- lm(Unemployment.Rate ~
                      Employment.Sector..Agriculture +
                      Employment.Sector..Industry +
                      Employment.Sector..Services +
                      GDP1000,
                    data = udaje)

summary(model_GDP1000)

Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture + 
    Employment.Sector..Industry + Employment.Sector..Services + 
    GDP1000, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-11.426  -4.399  -1.240   2.583  25.949 

Coefficients:
                                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)                     8.812e+04  1.580e+05   0.558   0.5777  
Employment.Sector..Agriculture -8.812e+02  1.580e+03  -0.558   0.5777  
Employment.Sector..Industry    -8.811e+02  1.580e+03  -0.558   0.5778  
Employment.Sector..Services    -8.812e+02  1.580e+03  -0.558   0.5777  
GDP1000                        -8.262e-10  4.844e-10  -1.706   0.0898 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared:  0.09631,   Adjusted R-squared:  0.07589 
F-statistic: 4.716 on 4 and 177 DF,  p-value: 0.00122
vif(model_GDP1000)
Employment.Sector..Agriculture    Employment.Sector..Industry 
                  7.256425e+09                   8.674182e+08 
   Employment.Sector..Services                        GDP1000 
                  4.280920e+09                   1.039469e+00 

Model s premenou GDP na tisíce dolárov – interpretácia

Po prepočítaní GDP na tisíce dolárov sa samotný model takmer vôbec nezmenil.
Koeficienty pri sektorových premenných aj pri GDP1000 majú rovnaké p-hodnoty ako predtým, čo znamená, že úprava jednotiek:

  • nezmenila významnosť premenných,
  • nezlepšila schopnosť modelu vysvetľovať nezamestnanosť,
  • a multikolinearita zostala rovnako silná.

R² aj chyby zostali identické ako v pôvodnom modeli.

VIF hodnoty hovoria úplne jasne: - sektorové premenné majú opäť extrémne vysoké VIF (rády miliárd), - GDP1000 má normálny VIF ≈ 1. :
Úprava GDP na „tisíce dolárov“ síce zlepšila čitateľnosť koeficientu GDP, ale neodstránila multikolinearitu, pretože tú spôsobujú sektorové premenné, nie GDP.

#Zhrnutie V tejto úlohe som skúmala multikolinearitu v regresnom modeli, kde vysvetľujem mieru nezamestnanosti pomocou podielu zamestnanosti v jednotlivých sektoroch a HDP na obyvateľa. Už základný model naznačoval problém: koeficienty sektorových premenných boli nevýznamné a mali takmer rovnaké hodnoty.

Korelácie medzi premennými ukázali veľmi silnú väzbu hlavne medzi tromi sektorovými premennými (Agriculture, Industry, Services). Najsilnejšia bola korelácia Agriculture–Services (–0.957). Je to logické, pretože tieto tri premenné spolu tvoria takmer 100 % zamestnanosti, ta

