1. Úvod
Po autokorelácii a heteroskedasticite rezíduí je multikolinearita
tretím závažným porušením predpokladov použitia metódy najmenších
štvorcov. Tu sa okrem iného predpokladá, že matica \(\mathbf X\) je tvorená lineárne nezávislými
riadkami a tiež stĺpcami, čo zabezpečí regularitu matice \(\mathbf X^T\mathbf X\) a teda možnosť jej
inverzie. Tá sa používa pri odhadoch regresných koeficientov. V praxi sa
ale môže stať, že vzniká „takmer singulárna“ matica \(\mathbf X^T\mathbf X\), t. j. matica \(\mathbf X\) je tvorená „približne“ lineárne
závislými stĺpcami, t. j. existuje taká ich lineárna kombinácia, v
ktorej
\[
x_{il} = \alpha_0 + \alpha_1 x_{i1} + \dots + \alpha_{l-1} x_{i,(l-1)} +
\alpha_{l+1} x_{i,(l+1)} + \alpha_k x_{i,k} + \nu_i
\]
Tu \(\nu_i\) sú rádovo menšie čísla
než regresory \(x_{.}\), t. j. \((\forall i)(\nu_i << x_{.,i})\). V
tomto prípade je inverzná matica \((\mathbf
X^T\mathbf X)^{-1}\) veľmi nestabilná a obsahuje na hlavnej
diagonále veľmi veľké hodnoty. Táto matica sa používa pri výpočtoch
\[
\hat \beta = (\mathbf X^T\mathbf X)^{-1} \mathbf X^T \mathbf y
\] a tiež \[
\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T \mathbf X)^{-1}_{ii}}.
\] To spôsobuje nestabilitu odhadovaných regresných koeficientov
a ich nadhodnotené rozptyly.
Tento problém nazývame problémom
multikolinearity.
2. Dôsledky multikolinearity
Multikolinearita patrí medzi najčastejšie problémy viacnásobnej
lineárnej regresie.
Je dôležité jasne rozlišovať dva fakty:
- Nespôsobuje skreslené (biased) odhady
koeficientov.
- Nadhodnocuje odhady štandardných odchýlok regresných
koeficientov a vedie potom k falošnému neprijímaniu
alternatívnej hypotézy o štatistickej významnosti jednotlivých
regresorov.
- Odhadované regresné koeficienty sú nestabilné – pri malej zmene
údajov sa prudko menia koeficienty ako aj ich znamienka.
- Interpretácia regresného modelu je z dôvodu vyššie uvedených dôvodov
nespoľahlivá.
3. Východiskový model a údaje
Budeme pracovať s prierezovým regresným modelom, kde pre každú obec
uvažujeme počet obyvateľov v decembri 2024 ako závislú premennú a počty
obyvateľov v predchádzajúcich mesiacoch toho istého roku ako
vysvetľujúce premenné:
\[
\text{Pop12}_i = \beta_0 + \beta_1 \text{Pop11}_i + \beta_2
\text{Pop10}_i + \beta_3 \text{Pop09}_i + u_i,
\]
kde:
- \(\text{Pop12}_i\) – počet
obyvateľov obce \(i\) v decembri
2024,
- \(\text{Pop11}_i\) – počet
obyvateľov v novembri 2024,
- \(\text{Pop10}_i\) – počet
obyvateľov v októbri 2024,
- \(\text{Pop09}_i\) – počet
obyvateľov v septembri 2024.
Údaje máme z databázy počtu obyvateľov slovenských obcí podľa
mesiacov (rok 2024). Po načítaní ich uložíme do data.frame
udaje a zároveň premenujeme stĺpce na kratšie
názvy.
udaje <- read.csv("Databaza.csv",
sep = ";",
dec = ".",
header = TRUE,
stringsAsFactors = FALSE)
names(udaje)
[1] "Okres" "Obec" "X2024M12" "X2024M11" "X2024M10" "X2024M09" "X2024M08"
[8] "X2024M07" "X2024M06" "X2024M05" "X2024M04" "X2024M03" "X2024M02" "X2024M01"
# vyberieme si len stĺpce, ktoré potrebujeme
udaje <- udaje[, c("Okres", "Obec", "X2024M12", "X2024M11", "X2024M10", "X2024M09")]
# premenujeme stĺpce na jednoduchšie názvy
colnames(udaje) <- c("Okres", "Obec", "Pop12", "Pop11", "Pop10", "Pop09")
head(udaje)
V našej databáze nemáme chýbajúce hodnoty, takže nie je potrebná
žiadna imputácia.
4. Odhad základného regresného modelu
model <- lm(Pop12 ~ Pop11 + Pop10 + Pop09,
data = udaje)
summary(model)
Call:
lm(formula = Pop12 ~ Pop11 + Pop10 + Pop09, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-44.442 -2.185 0.749 3.659 50.908
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.70441 0.68551 -2.486 0.0137 *
Pop11 1.24863 0.06192 20.164 < 2e-16 ***
Pop10 0.09468 0.12167 0.778 0.4374
Pop09 -0.34283 0.08212 -4.175 4.48e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.856 on 196 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.19e+08 on 3 and 196 DF, p-value: < 2.2e-16
Vo výsledkoch zvyčajne vidíme veľmi vysoký koeficient determinácie a
koeficienty pri Pop11, Pop10 a Pop09 sú si veľmi podobné. To je
intuitívne, pretože počty obyvateľov v jednotlivých mesiacoch sa menia
len veľmi málo a sú takmer perfektné lineárne kombinácie.
5. Korelačná matica
Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi
niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca
multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov
vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa
intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou
premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.
xvars <- udaje[, c("Pop11", "Pop10", "Pop09")]
round(cor(xvars), 3)
Pop11 Pop10 Pop09
Pop11 1 1 1
Pop10 1 1 1
Pop09 1 1 1
V našom prípade uvidíme, že korelácie medzi mesačnými počtami
obyvateľov sú prakticky rovné 1. To je extrémny príklad multikolinearity
– všetky vysvetľujúce premenné obsahujú takmer tú istú informáciu.
Korelačný vzťah sa dá vytušiť aj z jednoduchých párových
scatterplotov ako je to na nasledujúcom obrázku – body ležia takmer na
priamke.
pairs(xvars,
main = "Scatterplotová matica – premenné Pop11, Pop10, Pop09")

6. VIF
Indikátorom multikolinearity u premennej, ktorá multikolinearitu
zapríčiňuje, je Variance Inflation Factor (VIF). Pre premennú \(x_j\) je potom
\[
VIF_j = \frac{1}{1 - R_j^2}
\]
kde \(R_j^2\) pochádza z
regresie:
\[
X_j = \gamma_0 + \gamma_1 X_1 + \cdots + \gamma_{j-1} X_{j-1}
+ \gamma_{j+1} X_{j+1} + u.
\]
Pop11 Pop10 Pop09
1367712 5278985 2404844
Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity,
je podmienka VIF > 5 (prísne kritérium), alebo VIF > 10 (menej
prísne kritérium). V našich dátach sú VIF-y typicky veľmi vysoké, čo
zodpovedá takmer dokonalej korelácii medzi mesačnými hodnotami počtu
obyvateľov.
7. Condition Number
Pri existencii multikolinearity sa model prejavuje tak, že koeficient
determinácie je síce vysoký a zdá sa, že model je veľmi dobrý, ale
regresné koeficienty nemusia byť stabilné a ich štandardné odchýlky môžu
byť nafúknuté. Uvedomíme si to, ak sa pozrieme, ako sa počítajú – t.
j.
\[
\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T \mathbf X)^{-1}_{ii}},
\]
kde rozhodujúci je \(i\)-ty prvok
hlavnej diagonály matice \((\mathbf X^T
\mathbf X)^{-1}\). Tie prvky sú v prípade podobnosti
vysvetľujúcich premenných mimoriadne veľké. Túto situáciu zachytáva
nasledovný ukazovateľ.
Pri výpočte Condition number \(\kappa\) sa používa vzorec
\[
\kappa = \frac{\theta_{\text{max}}}{\theta_{\text{min}}}
\]
kde \(\theta_.\) sú vlastné čísla
matice. Condition number nie je test, je to len indikátor, ktorý
posudzuje mieru multikolinearity medzi premennými. Používame intuitívne
pravidlo. Ak Condition number je
- < 10 → nízka multikolinearita,
- 10–30 → mierna,
- 30–100 → silná,
100 → veľmi vážna.
V našom prípade to vypočítame nasledovne:
X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 5315.386
Keďže u nás tento indikátor typicky výrazne presahuje hodnotu 100,
signalizuje prítomnosť závažnej multikolinearity medzi mesačnými
údajmi.
Vlastné číslo štvorcovej matice \(\mathbf
X^T \mathbf X\) je číslo \(\theta_j\), pre ktoré platí \((\mathbf X^T \mathbf X)\mathbf h^j =
\theta_j\mathbf h^j\). \(\mathbf
h^j\) je tzv. vlastný vektor tejto matice. Máme toľko vlastných
čísel (teda aj vlastných vektorov), koľko obsahuje matica \(\mathbf X^T \mathbf X\) riadkov
(stĺpcov).
Môže sa stať, že VIF faktor nesignalizuje multikolinearitu u žiadnej
„jednej“ vysvetľujúcej veličiny, ale sú navzájom prepojené cyklickými
lineárnymi závislosťami všetky premenné. To zachytáva práve Condition
Number.
8. Riešenia multikolinearity
Vynechanie premennej
Pokúsme sa vynechať postupne dve premenné, ktoré majú najvyšší VIF (u
nás sú VIF-y vysoké pre všetky), a porovnajme následne upravené
koeficienty determinácie oboch nových modelov:
model_noPop10 <- lm(Pop12 ~ Pop11 + Pop09, data = udaje)
summary(model_noPop10)
Call:
lm(formula = Pop12 ~ Pop11 + Pop09, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-43.171 -2.310 0.847 3.530 50.940
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.68757 0.68448 -2.465 0.0145 *
Pop11 1.28666 0.03798 33.876 < 2e-16 ***
Pop09 -0.28619 0.03799 -7.534 1.74e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.847 on 197 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.789e+08 on 2 and 197 DF, p-value: < 2.2e-16
model_noPop11 <- lm(Pop12 ~ Pop10 + Pop09, data = udaje)
summary(model_noPop11)
Call:
lm(formula = Pop12 ~ Pop10 + Pop09, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-53.303 -4.884 -0.385 4.526 85.897
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.8557 1.1967 -0.715 0.475
Pop10 2.0312 0.1307 15.546 < 2e-16 ***
Pop09 -1.0305 0.1307 -7.888 2.07e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 15.49 on 197 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 5.836e+07 on 2 and 197 DF, p-value: < 2.2e-16
V našej databáze zvyčajne uvidíme, že vynechanie jednej z veľmi
podobných mesačných premenných zníži upravený koeficient determinácie
len minimálne. To je typické správanie pri silnej multikolinearite –
jedna premenná dokáže takmer dokonale „zastúpiť“ inú.
Škálovanie premenných
Škálovanie môže byť veľmi efektívne z hľadiska numerickej stability
(najmä pri veľmi rozdielnych rádoch premenných), znižuje však
interpretovateľnosť modelu. Ide o úpravu premenných podľa nasledovného
vzorca:
\[
x^{scale} = \frac{x-M}{\sqrt{D}}
\]
kde \(M\) je stredná hodnota
(priemer) a \(D\) je rozptyl
premennej.
V našej databáze sú všetky premenné v počte obyvateľov, teda už sú v
porovnateľných jednotkách. Napriek tomu si škálovanie ukážeme, aby sme
videli vplyv na multikolinearitu.
udaje$Pop11_c <- scale(udaje$Pop11, center = TRUE, scale = TRUE)
udaje$Pop10_c <- scale(udaje$Pop10, center = TRUE, scale = TRUE)
udaje$Pop09_c <- scale(udaje$Pop09, center = TRUE, scale = TRUE)
model_centered <- lm(Pop12 ~ Pop11_c + Pop10_c + Pop09_c,
data = udaje)
summary(model_centered)
Call:
lm(formula = Pop12 ~ Pop11_c + Pop10_c + Pop09_c, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-44.442 -2.185 0.749 3.659 50.908
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4930.9000 0.6262 7874.461 < 2e-16 ***
Pop11_c 14803.9118 734.1607 20.164 < 2e-16 ***
Pop10_c 1122.4034 1442.3446 0.778 0.437
Pop09_c -4064.1462 973.5030 -4.175 4.48e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.856 on 196 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.19e+08 on 3 and 196 DF, p-value: < 2.2e-16
Pop11_c Pop10_c Pop09_c
1367712 5278985 2404844
Condition Number je:
X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 4909.792
Z výsledkov vidíme, že škálovanie môže zlepšiť numerické vlastnosti
matice (Condition Number), ale multikolinearitu medzi mesačnými
hodnotami ako takú neodstraňuje – dáta stále obsahujú takmer tú istú
informáciu.
Iná úprava premennej, ktorá zachová interpretovateľnosť
Ak sa chceme vyhnúť strate interpretovateľnosti, môžeme niekedy
zmeniť jednotky premennej, ktorá je v úplne iných rádoch než ostatné. V
pôvodnom príklade to bola premenná GDP, ktorá bola v dolároch. V našej
databáze sú všetky premenné v počte obyvateľov, takže tento problém
nemáme. Pre ilustráciu si však ukážeme prevod jednej premennej na
„tisíce obyvateľov“:
udaje$Pop11k <- udaje$Pop11 / 1000
head(udaje[, c("Obec", "Pop12", "Pop11", "Pop11k")])
Potom lineárny model dosiahne výsledky:
model_Pop11k <- lm(Pop12 ~ Pop11k + Pop10 + Pop09,
data = udaje)
summary(model_Pop11k)
Call:
lm(formula = Pop12 ~ Pop11k + Pop10 + Pop09, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-44.442 -2.185 0.749 3.659 50.908
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.70441 0.68551 -2.486 0.0137 *
Pop11k 1248.62877 61.92243 20.164 < 2e-16 ***
Pop10 0.09468 0.12167 0.778 0.4374
Pop09 -0.34283 0.08212 -4.175 4.48e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.856 on 196 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.19e+08 on 3 and 196 DF, p-value: < 2.2e-16
Pop11k Pop10 Pop09
1367712 5278985 2404844
V tomto prípade sa koeficient pri Pop11k zmení len v jednotkách (na
tisíce obyvateľov), ale samotná multikolinearita nezmizne, pretože
Pop11, Pop10 a Pop09 sú stále veľmi podobné.
Poznámka: Dummy premenné (0/1) neškálujeme.
### očistenie databázy od „pracovných“ stĺpcov
library(dplyr)
udaje <- udaje %>%
dplyr::select(Okres, Obec, Pop12, Pop11, Pop10, Pop09)
PCA (voliteľné)
PCA nám vytvára nový pracovný vektor (komponent), ktorý je definovaný
ako vážený súčet dvoch alebo viacerých korelovaných premenných. Tento
komponent potom vystupuje ako vysvetľujúca veličina, zatiaľ čo pôvodné
premenné vylúčime zo zoznamu regresorov. Tým sa redukuje počet
vysvetľujúcich veličín a môže sa zmierniť problém multikolinearity.
V našom prípade vytvoríme prvú hlavnú komponentu z premenných Pop11,
Pop10 a Pop09:
X_pca <- scale(udaje[, c("Pop11", "Pop10", "Pop09")],
center = TRUE, scale = TRUE)
pca_res <- prcomp(X_pca)
summary(pca_res)
Importance of components:
PC1 PC2 PC3
Standard deviation 1.732 0.000992 0.0003528
Proportion of Variance 1.000 0.000000 0.0000000
Cumulative Proportion 1.000 1.000000 1.0000000
udaje$PC1 <- pca_res$x[, 1]
model_pca <- lm(Pop12 ~ PC1, data = udaje)
summary(model_pca)
Call:
lm(formula = Pop12 ~ PC1, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-80.322 -3.752 -0.201 3.493 112.824
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4930.9000 1.1468 4300 <2e-16 ***
PC1 -6848.6258 0.6638 -10318 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 16.22 on 198 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.065e+08 on 1 and 198 DF, p-value: < 2.2e-16
# VIF sa nedá počítať, lebo model má len jeden vysvetľujúci regresor
# vif(model_pca)
Hrebeňová regresia (Ridge Regression – voliteľné)
Hrebeňová regresia je modifikácia regresie, ktorá zavádza perturbácie
do matice \(\mathbf X^T \mathbf X\)
tak, aby znížila dôsledky multikolinearity. Treba ale upozorniť, že
odhadované regresné koeficienty sú skreslené. Perturbácia vyzerá
nasledovne:
\[
(\mathbf X^T \mathbf X + \lambda \mathbf I)
\]
V tomto kroku si vypíšeme výsledky odhadov regresných koeficientov s
meniacimi sa parametrami \(\lambda\),
aby sme získali určitú predstavu o číselnom ráde prvkov:
library(MASS)
X <- as.matrix(udaje[, c("Pop11", "Pop10", "Pop09")])
y <- udaje$Pop12
ridge_fit <- lm.ridge(y ~ X, lambda = seq(0, 10, 1))
ridge_fit
XPop11 XPop10 XPop09
0 -1.704409 1.2486288 0.09468307 -0.3428288
1 8.529458 0.3331203 0.33297224 0.3328418
2 16.706357 0.3324811 0.33243251 0.3323613
3 24.856002 0.3319011 0.33188566 0.3318343
4 32.978628 0.3313373 0.33133840 0.3312969
5 41.074389 0.3307811 0.33079207 0.3307565
6 49.143424 0.3302296 0.33024709 0.3302155
7 57.185869 0.3296815 0.32970366 0.3296750
8 65.201856 0.3291362 0.32916186 0.3291353
9 73.191517 0.3285934 0.32862173 0.3285968
10 81.154981 0.3280529 0.32808330 0.3280597
Nastavovanie rôznych hodnôt \(\lambda\) je predmetom hlbšej analýzy,
tento prehľad je len jej časťou.
10. Zhrnutie
- Multikolinearita nezavádza bias, ale zvyšuje štandardné odchýlky
odhadovaných regresných koeficientov a robí ich nestabilnými.
- Testy (resp. diagnostické ukazovatele) ako VIF a Condition Number
umožňujú diagnostiku multikolinearity.
- Riešenia zahŕňajú: vynechanie premennej, centrovanie/škálovanie,
zmenu jednotiek, prípadne použitie PCA alebo hrebeňovej regresie. PCA a
hrebeňová regresia vyžadujú hlbšie vedomosti, preto ich tu uvádzame len
formálne a nevyžadujeme ich detailný výpočet.
