#1.IPriprava dát a regresia
priprava dát z cvičenia 7.
# Import vlastného CSV súboru
udaje <- read.csv("Employment_Unemployment_GDP_data.csv",
header = TRUE,
sep = ",",
dec = ".",
stringsAsFactors = FALSE)
# Zobrazenie prvých riadkov a názvov stĺpcov
head(udaje)
[1] "Country.Name" "Year"
[3] "Employment.Sector..Agriculture" "Employment.Sector..Industry"
[5] "Employment.Sector..Services" "Unemployment.Rate"
[7] "GDP..in.USD."
#######################################################################
# PRIPRAVA UDAJOV
#######################################################################
udaje <- read.csv("Employment_Unemployment_GDP_data.csv",dec=".",sep=",",header = TRUE)
# select just the record from 2003
udaje.2003 <- udaje[udaje$Year==2003,c("Unemployment.Rate","Employment.Sector..Agriculture","GDP..in.USD.", "Employment.Sector..Industry","Employment.Sector..Services" )]
# data imputation
# Compute column medians
#column_medians <- sapply(udaje.2003, median, na.rm = TRUE)
# Impute missing values with column medians
# Compute column medians
column_medians <- sapply(udaje.2003, median, na.rm = TRUE)
# Impute missing values with column medians
udaje_imputed <- udaje.2003
for (col in names(udaje.2003)) {
udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}
udaje.2003 <- udaje_imputed
udaje <- udaje.2003
################################################################################
# ZAKLADNA REGRESIA
################################################################################
attach(udaje)
model <- lm(Unemployment.Rate ~
Employment.Sector..Agriculture +
Employment.Sector..Industry +
Employment.Sector..Services +
GDP..in.USD.,
data = udaje)
summary(model)
Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
Employment.Sector..Industry + Employment.Sector..Services +
GDP..in.USD., data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.426 -4.399 -1.240 2.583 25.949
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.812e+04 1.580e+05 0.558 0.5777
Employment.Sector..Agriculture -8.812e+02 1.580e+03 -0.558 0.5777
Employment.Sector..Industry -8.811e+02 1.580e+03 -0.558 0.5778
Employment.Sector..Services -8.812e+02 1.580e+03 -0.558 0.5777
GDP..in.USD. -8.262e-13 4.844e-13 -1.706 0.0898 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared: 0.09631, Adjusted R-squared: 0.07589
F-statistic: 4.716 on 4 and 177 DF, p-value: 0.00122
Interpretácia
Tento model skúma, či sa dá miera nezamestnanosti vysvetliť pomocou
štruktúry zamestnanosti (poľnohospodárstvo, priemysel, služby) a HDP na
obyvateľa.
Z výsledkov vidím toto:
- všetky tri sektorové premenné (Agriculture, Industry, Services) majú
takmer rovnaké koeficienty a všetky sú
nevýznamné (p-hodnoty okolo 0.58),
- premenná GDP je len tesne na hranici významnosti (p
≈ 0.09),
- celková vysvetľovacia schopnosť modelu je nízka
(Adjusted R² ≈ 0.076),
2. Korelačná matica
V tejto časti skúmame, či medzi našimi vysvetľujúcimi premennými
existuje silná korelácia.
Ak by niektoré premenné mali veľmi vysokú koreláciu (napr. nad 0.8–0.9),
znamenalo by to riziko multikolinearity — teda že do modelu dávam
premenné, ktoré sú si príliš podobné.
#######################################################################
# 5. KORELAČNÁ MATICA
#######################################################################
xvars <- udaje[, c("Employment.Sector..Agriculture",
"Employment.Sector..Industry",
"Employment.Sector..Services",
"GDP..in.USD.")]
round(cor(xvars), 3)
Employment.Sector..Agriculture
Employment.Sector..Agriculture 1.000
Employment.Sector..Industry -0.766
Employment.Sector..Services -0.957
GDP..in.USD. -0.194
Employment.Sector..Industry
Employment.Sector..Agriculture -0.766
Employment.Sector..Industry 1.000
Employment.Sector..Services 0.547
GDP..in.USD. 0.140
Employment.Sector..Services GDP..in.USD.
Employment.Sector..Agriculture -0.957 -0.194
Employment.Sector..Industry 0.547 0.140
Employment.Sector..Services 1.000 0.189
GDP..in.USD. 0.189 1.000
Interpretácia korelačnej matice
Z korelačnej matice vidím viacero silných vzťahov medzi premennými.
Najvýraznejšia je korelácia medzi:
- Agriculture a Services, kde korelácia je
–0.957 → to je extrémne vysoká negatívna
korelácia.
- Agriculture a Industry majú koreláciu
–0.766, čo je tiež pomerne silný vzťah.
To znamená, že tieto sektorové premenné sú medzi sebou veľmi podobné
(ak stúpne jedna, druhé výrazne klesnú).
HDP (GDP..in.USD.) má s ostatnými premennými len slabé korelácie
(okolo ±0.19). Takže podľa korelačnej matice sa multikolinearita
prejavuje hlavne medzi tromi sektorovými premennými, ktoré sú navzájom
veľmi silno previazané.
##Scatterplotova matica
pairs(xvars,
main = "Scatterplotová matica – sektorové premenné a GDP")

Scatterplotová matica pekne potvrdzuje to, čo sme videli už v
korelačnej matici:
- medzi Agriculture a Services je veľmi silný
negatívny vzťah – čím viac ľudí pracuje v poľnohospodárstve, tým menej
ich pracuje v službách. Body tvoria takmer dokonalú klesajúcu
priamku.
- podobne, Agriculture a Industry tiež silne klesajú
– tieto dve premenné sú tiež navzájom prepojené.
- vzťahy medzi sektormi sú spôsobené tým, že všetky sektory spolu
tvoria 100 % zamestnanosti, takže keď jeden sektor rastie, iné musia
klesať.
- GDP je na grafoch prakticky „bez vzoru“, body sú
rozhádzané → GDP nie je so sektormi silno prepojené a nespôsobuje
multikolinearitu.
Z toho vyplýva, že Scatterplotová matica potvrdila, že
multikolinearita vzniká najmä medzi tromi sektorovými premennými, nie
medzi GDP a sektormi.
3. VIF – Variance Inflation Factor
VIF používame na to, aby sme zistili, ktorá premenná spôsobuje
multikolinearitu.
Platí jednoduché pravidlo:
- VIF okolo 1–2 → žiadny problém
- VIF > 5 → začínajúci problém
- VIF > 10 → vážna multikolinearita
#######################################################################
# 6. VIF
#######################################################################
library(car)
vif(model)
Employment.Sector..Agriculture Employment.Sector..Industry
7.256425e+09 8.674182e+08
Employment.Sector..Services GDP..in.USD.
4.280920e+09 1.039469e+00
Interpretácia VIF
Hodnoty VIF v mojom modeli sú obrovské pri sektorových premenných
(Agriculture, Industry, Services). Keď jeden sektor stúpa, ostatné musia
klesať, takže sú prakticky naviazané jedna na druhú, čo je jasný znak
veľmi silnej multikolinearity.
Takže to znamená, že tieto tri premenné sú pre model „takmer to
isté“, len v inom poradía spôsobujú chaos v koeficientoch, model ich
nevie spoľahlivo odlíšiť.
Premenná GDP takýto problém nemá (VIF ≈ 1), takže multikolinearitu
spôsobujú výhradne sektorové premenné.
4. Condition Number
Condition Number je ďalší ukazovateľ, ktorý sa používa na zistenie
multikolinearity.
Intuitívne pravidlo:
- < 10 → žiadny problém
- 10–30 → mierna multikolinearita
- 30–100 → silná
100 → veľmi vážna multikolinearita
# 4. CONDITION NUMBER
X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] NaN
Interpretácia Condition Number
Pri výpočte Condition Number sa mi zobrazila hodnota NaN.
To sa stáva v situácii, keď je matica vysvetľujúcich premenných takmer
singulárna, teda jedna premenná sa dá skoro úplne presne vyjadriť
pomocou iných premenných. V mojom prípade je to dôsledok toho, že
sektorové premenné (Agriculture, Industry, Services) spolu tvoria 100 %
zamestnanosti.
To znamená, že medzi nimi existuje extrémne silná lineárna závislosť
a Condition Number sa nedá normálne vypočítať. Tento výsledok je ešte
silnejším dôkazom multikolinearity než vysoké hodnoty VIF.
5. Riešenia multikolinearity
Vynechanie premennej Agroculture
model_noAgri <- lm(Unemployment.Rate ~
Employment.Sector..Industry +
Employment.Sector..Services +
GDP..in.USD.,
data = udaje)
summary(model_noAgri)
Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Industry +
Employment.Sector..Services + GDP..in.USD., data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.448 -4.385 -1.239 2.587 25.914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.551e+00 1.375e+00 2.583 0.0106 *
Employment.Sector..Industry 1.472e-01 6.402e-02 2.299 0.0226 *
Employment.Sector..Services 5.079e-02 2.906e-02 1.748 0.0822 .
GDP..in.USD. -8.216e-13 4.834e-13 -1.700 0.0909 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared: 0.09472, Adjusted R-squared: 0.07946
F-statistic: 6.208 on 3 and 178 DF, p-value: 0.0004924
Model bez premennej Agriculture – interpretácia
Keď sme z modelu vynechali premennú Agriculture, výsledky sa
zlepšili:
- premenná Industry je teraz štatisticky významná (p
≈ 0.02),
- premenná Services je tesne pod hranicou významnosti
(p ≈ 0.08),
- premenná GDP je stále na hranici významnosti (p ≈
0.09).
Upravený R² je síce stále nízky (≈ 0.079), ale model je už
stabilnejší než pôvodný.
Z toho vyplýva, že vynechanie Agriculture pomohlo, pretože táto
premenná spôsobovala najviac multikolinearity so zvyšnými dvoma
sektorovými premennými (bola extrémne silne korelovaná so Services a
Industry).
Tento model je preto o niečo lepší než pôvodný model so všetkými
premennými.
Vynechanie premennej Indusry
model_noIndustry <- lm(Unemployment.Rate ~
Employment.Sector..Agriculture +
Employment.Sector..Services +
GDP..in.USD.,
data = udaje)
summary(model_noIndustry)
Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
Employment.Sector..Services + GDP..in.USD., data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.448 -4.385 -1.239 2.587 25.914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.827e+01 6.082e+00 3.004 0.00305 **
Employment.Sector..Agriculture -1.472e-01 6.402e-02 -2.299 0.02264 *
Employment.Sector..Services -9.641e-02 8.327e-02 -1.158 0.24848
GDP..in.USD. -8.216e-13 4.834e-13 -1.700 0.09095 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared: 0.09472, Adjusted R-squared: 0.07946
F-statistic: 6.208 on 3 and 178 DF, p-value: 0.0004923
Model bez premennej Industry – interpretácia
Keď sme z modelu vynechali premennú Industry, významnosť sa
obrátila:
- premenná Agriculture je teraz štatisticky významná
(p ≈ 0.022),
- premenná Services nie je významná (p ≈ 0.25),
- premenná GDP je opäť na hranici (p ≈ 0.09).
Hodnota R² sa nezmenila (je rovnaká ako v modeli bez Agriculture), čo
znamená, že vysvetľovacia schopnosť modelu je rovnaká.
Tento model je však horší než model bez Agriculture,
pretože v ňom ostáva len jedna významná premenná (Agriculture), zatiaľ
čo model bez Agriculture mal významný Industry a skoro významný
Services.
Takže vynechanie Industry neprinieslo také zlepšenie ako vynechanie
Agriculture.
Vynechanie premennej Services
model_noServices <- lm(Unemployment.Rate ~
Employment.Sector..Agriculture +
Employment.Sector..Industry +
GDP..in.USD.,
data = udaje)
summary(model_noServices)
Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
Employment.Sector..Industry + GDP..in.USD., data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.448 -4.385 -1.239 2.587 25.914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.630e+00 2.415e+00 3.574 0.000452 ***
Employment.Sector..Agriculture -5.079e-02 2.906e-02 -1.748 0.082183 .
Employment.Sector..Industry 9.641e-02 8.327e-02 1.158 0.248489
GDP..in.USD. -8.216e-13 4.834e-13 -1.700 0.090946 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.148 on 178 degrees of freedom
Multiple R-squared: 0.09472, Adjusted R-squared: 0.07946
F-statistic: 6.208 on 3 and 178 DF, p-value: 0.0004924
Model bez premennej Services – interpretácia
Keď sme z modelu vynechali premennú Services, výsledok je podobný ako
v predošlom modeli:
- premenná Agriculture je len na hranici významnosti
(p ≈ 0.082),
- premenná Industry nie je významná (p ≈ 0.25),
- premenná GDP je stále len tesne nevýznamná (p ≈
0.09).
R² je opäť rovnaké ako v predchádzajúcich dvoch prípadoch.
Tento model je najslabší zo všetkých troch, pretože nemá žiadnu jasne
významnú premennú a koeficienty sú ešte menej stabilné.
Ktorú premennú je najlepšie vynechať?
Porovnali sme všetky tri modely, kde sme vždy jednu premennú
vynechala.
Najlepší výsledok vyšiel teda pri modeli bez
Agriculture, pretože:
- Industry sa stal významným,
- Services bol aspoň na hranici významnosti,
- model vyzeral najstabilnejšie,
- a číselne dával najrozumnejšie koeficienty.
Model bez Industry a model bez Services boli horšie – vždy zostala
iba jedna významná premenná alebo žiadna.
5.2 Škálovanie premenných (centrovanie)
# 8.2 ŠKÁLOVANIE PREMENNÝCH
udaje$Agri_c <- scale(udaje$Employment.Sector..Agriculture, center=TRUE, scale=TRUE)
udaje$Industry_c <- scale(udaje$Employment.Sector..Industry, center=TRUE, scale=TRUE)
udaje$Services_c <- scale(udaje$Employment.Sector..Services, center=TRUE, scale=TRUE)
udaje$GDP_c <- scale(udaje$GDP..in.USD., center=TRUE, scale=TRUE)
model_centered <- lm(Unemployment.Rate ~ Agri_c + Industry_c + Services_c + GDP_c,
data = udaje)
summary(model_centered)
Call:
lm(formula = Unemployment.Rate ~ Agri_c + Industry_c + Services_c +
GDP_c, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.426 -4.399 -1.240 2.583 25.949
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.774e+00 4.566e-01 19.215 <2e-16 ***
Agri_c -2.176e+04 3.901e+04 -0.558 0.5777
Industry_c -7.521e+03 1.349e+04 -0.558 0.5778
Services_c -1.671e+04 2.996e+04 -0.558 0.5777
GDP_c -7.962e-01 4.668e-01 -1.706 0.0898 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared: 0.09631, Adjusted R-squared: 0.07589
F-statistic: 4.716 on 4 and 177 DF, p-value: 0.00122
Interpretácia škálovaného modelu
Po preškálovaní premenných sa model síce vypočítal stabilnejšie, ale
správanie koeficientov sa prakticky nezmenilo.
Výsledky sú takmer totožné ako v pôvodnom modeli:
- žiadna sektorová premenná (Agri_c, Industry_c, Services_c)
nie je štatisticky významná,
- GDP_c je opäť len tesne na hranici významnosti (p ≈ 0.09),
- upravený R² je rovnaký ako pred škálovaním (≈ 0.076).
Škálovanie teda neodstránilo multikolinearitu medzi
sektorovými premennými, iba stabilizovalo výpočty.
Problém zostáva, pretože tri sektory sú stále naviazané (tvoria spolu
takmer 100 % zamestnanosti), takže model ich nedokáže od seba oddeliť
ani po škálovaní.
5.3 Úprava jednotiek (GDP/1000)
# ÚPRAVA JEDNOTIEK – GDP / 1000
udaje$GDP1000 <- udaje$GDP..in.USD. / 1000
model_GDP1000 <- lm(Unemployment.Rate ~
Employment.Sector..Agriculture +
Employment.Sector..Industry +
Employment.Sector..Services +
GDP1000,
data = udaje)
summary(model_GDP1000)
Call:
lm(formula = Unemployment.Rate ~ Employment.Sector..Agriculture +
Employment.Sector..Industry + Employment.Sector..Services +
GDP1000, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-11.426 -4.399 -1.240 2.583 25.949
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.812e+04 1.580e+05 0.558 0.5777
Employment.Sector..Agriculture -8.812e+02 1.580e+03 -0.558 0.5777
Employment.Sector..Industry -8.811e+02 1.580e+03 -0.558 0.5778
Employment.Sector..Services -8.812e+02 1.580e+03 -0.558 0.5777
GDP1000 -8.262e-10 4.844e-10 -1.706 0.0898 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.16 on 177 degrees of freedom
Multiple R-squared: 0.09631, Adjusted R-squared: 0.07589
F-statistic: 4.716 on 4 and 177 DF, p-value: 0.00122
Employment.Sector..Agriculture Employment.Sector..Industry
7.256425e+09 8.674182e+08
Employment.Sector..Services GDP1000
4.280920e+09 1.039469e+00
Model s premenou GDP na tisíce dolárov – interpretácia
Po prepočítaní GDP na tisíce dolárov sa samotný model takmer vôbec
nezmenil.
Koeficienty pri sektorových premenných aj pri GDP1000 majú rovnaké
p-hodnoty ako predtým, čo znamená, že úprava jednotiek:
- nezmenila významnosť premenných,
- nezlepšila schopnosť modelu vysvetľovať nezamestnanosť,
- a multikolinearita zostala rovnako silná.
R² aj chyby zostali identické ako v pôvodnom modeli.
VIF hodnoty hovoria úplne jasne: - sektorové premenné majú opäť
extrémne vysoké VIF (rády miliárd), - GDP1000 má normálny VIF ≈ 1.
:
Úprava GDP na „tisíce dolárov“ síce zlepšila čitateľnosť koeficientu
GDP, ale neodstránila multikolinearitu, pretože tú
spôsobujú sektorové premenné, nie GDP.
#Zhrnutie V tejto úlohe som skúmala multikolinearitu v regresnom
modeli, kde vysvetľujem mieru nezamestnanosti pomocou podielu
zamestnanosti v jednotlivých sektoroch a HDP na obyvateľa. Už základný
model naznačoval problém: koeficienty sektorových premenných boli
nevýznamné a mali takmer rovnaké hodnoty.
Korelácie medzi premennými ukázali veľmi silnú väzbu hlavne medzi
tromi sektorovými premennými (Agriculture, Industry, Services).
Najsilnejšia bola korelácia Agriculture–Services (–0.957). Je to
logické, pretože tieto tri premenné spolu tvoria takmer 100 %
zamestnanosti, ta
