1. Úvod
Po autokoreácii a heteroskedasticite rezíduí je multikolinearita
tretím závažným porušením predpokladov použitia metódy najmenších
štvorcov. Tu sa okrem iného predpokadá, že matica \(\mathbf X\) je tvorená lineárne nezávislými
riadkami a tiež stĺpcami, čo zabezpečí regularitu matice \(\mathbf X^T\mathbf X\) a teda možnosť jej
inverzie. Tá sa používa pri odhadoch regresných koeficientov. V praxi sa
ale môže stať, že vzniká "takmer singulárna matica \(\mathbf X^T\mathbf X\) ", t.j. matica \(\mathbf X\) je tvorená "približne" lineárne
závislými stĺpcami, t.j. existuje taká ich lineárna kombinácia, v
ktorej
\[
x_{il} = \alpha_0 + \alpha_1 x_{i1} + \dots + \alpha_{l-1}
x_{i,(l-1)} + \alpha_{l+1} x_{i,(l+1)} + \alpha_k x_{i,k} + \nu_i
\]
Tu \(\nu_i\) sú rádovo menšie čísla
, než regresory \(x_{.}\), t.j. \((\forall i)(\nu_i << x_{.,i})\). V
tomto prípade je inverzná matica \((\mathbf
X^T\mathbf X)^{-1}\) veľmi nestabilná a obsahuje na hlavnej
diagonále veľmi veľké hodnoty. Táto matica sa používa pri výpočtoch
\[\hat \beta = (\mathbf X^T\mathbf X)^{-1}
\mathbf X^T \mathbf y\] a tiež \[\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T
\mathbf X)^{-1}_{ii}}.\] To spôsobuje nestabilitu odhadovaných
regresných koeficientov a ich nadhodnotené rozptyly.
Tento problém nazývame problémom
multikolinearity.
V kontexte tejto analýzy sa multikolinearita môže vyskytovať medzi
vysvetľujúcimi premennými opisujúcimi dopravné nehody, ako sú napríklad
čas nehody, deň v týždni, mesiac nehody či počet zúčastnených vozidiel.
Cieľom nasledujúcej časti je preto identifikovať prípadnú prítomnosť
multikolinearity v regresnom modeli založenom na databáze dopravných
nehôd premávka a posúdiť jej vplyv na stabilitu odhadov regresných
koeficientov.
2. Dôsledky multikolinearity
Multikolinearita patrí medzi najčastejšie problémy viacnásobnej
lineárnej regresie.
Je dôležité jasne rozlišovať dva fakty:
- Nespôsobuje skreslené (biased) odhady
koeficientov
- Nadhodnocuje odhady štandardných odchýlok regresných
koeficientov a vedie potom k falošnému neprijímaniu
alternatívnej hypotézy o štatistickej významnosti jednotlivých
regresorov.
- Odhadované regresné koeficienty sú nestabilné - pri malej zmene
údajov sa sa prudko menia koeficienty ako aj ich znamienka.
- Interpretácia regresného modelu je z dôvodu vyššie uvedených dôvodov
nespoľahlivá.
3. Východiskový model a údaje
Budeme pracovať s regresným modelom z predchádzajúcich cvičení,
ktorého cieľom je vysvetliť počet zranených pri dopravnej nehode na
základe vybraných charakteristík nehody.
Východiskový regresný model má tvar
\[
injuries\_total_i = \beta_0 + \beta_1 num\_units_i + \beta_2
crash\_hour_i + \beta_3 crash\_day\_of\_week_i + \beta_4 crash\_month_i
+ u_i
\]
kde: - \(injuries\_total_i\)
predstavuje počet zranených pri i-tej dopravnej nehode, - \(num\_units_i\) je počet zúčastnených
vozidiel, - \(crash\_hour_i\) označuje
hodinu nehody, - \(crash\_day\_of\_week_i\) je deň v týždni, -
\(crash\_month_i\) je mesiac, v ktorom
k nehode došlo, - \(u_i\) je náhodná
zložka modelu.
Použité údaje pochádzajú z databázy dopravných nehôd
(premávka) a po ich načítaní boli uložené do objektu typu
data.frame s názvom udaje.
# PRIPRAVA UDAJOV
udaje <- read.csv("premavka.csv.csv", dec=".", sep=",", header = TRUE)
# výber relevantných premenných
udaje <- udaje[, c("injuries_total",
"num_units",
"crash_hour",
"crash_month",
"crash_day_of_week")]
# imputácia chýbajúcich hodnôt mediánom
column_medians <- sapply(udaje, median, na.rm = TRUE)
udaje_imputed <- udaje
for (col in names(udaje)) {
udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}
udaje <- udaje_imputed
4. Odhad základného regresného modelu
model <- lm(injuries_total ~
num_units +
crash_hour +
crash_month +
crash_day_of_week,
data = udaje)
summary(model)
Call:
lm(formula = injuries_total ~ num_units + crash_hour + crash_month +
crash_day_of_week, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-2.9330 -0.3719 -0.3518 0.3171 20.9325
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2478411 0.0110628 -22.403 < 2e-16 ***
num_units 0.3233581 0.0043563 74.227 < 2e-16 ***
crash_hour -0.0024418 0.0003085 -7.916 2.46e-15 ***
crash_month 0.0030261 0.0005033 6.013 1.82e-09 ***
crash_day_of_week -0.0059035 0.0008787 -6.718 1.84e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared: 0.02626, Adjusted R-squared: 0.02624
F-statistic: 1411 on 4 and 209301 DF, p-value: < 2.2e-16
V tomto kroku odhadujeme základný lineárny regresný model, v ktorom
je vysvetľovanou premennou celkový počet zranení pri dopravnej nehode.
Medzi vysvetľujúce premenné zaraďujeme počet zúčastnených vozidiel,
hodinu nehody, mesiac nehody a deň v týždni. Cieľom je posúdiť základné
vzťahy medzi charakteristikami nehody a počtom zranení.
Na základe odhadnutého základného lineárneho regresného modelu môžeme
konštatovať, že všetky zahrnuté vysvetľujúce premenné sú štatisticky
významné na hladine významnosti 1 %. Najsilnejší vplyv na počet zranení
má počet zúčastnených vozidiel, pričom s rastúcim počtom vozidiel rastie
aj očakávaný počet zranení. Premenné časového charakteru (hodina nehody,
deň v týždni a mesiac) majú síce menší, no systematický vplyv na počet
zranení. Nízka hodnota koeficientu determinácie naznačuje, že model
zachytáva len časť variability počtu zranení, čo je pri dátach o
dopravných nehodách očakávané.
5. Korelačná matica
Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi
niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca
multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov
vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa
intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou
premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.
# korelačná matica
xvars <- udaje[, c("num_units",
"crash_hour",
"crash_month",
"crash_day_of_week")]
round(cor(xvars, use = "pairwise.complete.obs"), 3)
num_units crash_hour crash_month crash_day_of_week
num_units 1.000 0.016 0.003 0.003
crash_hour 0.016 1.000 0.003 0.062
crash_month 0.003 0.003 1.000 -0.006
crash_day_of_week 0.003 0.062 -0.006 1.000
Korelačná matica vysvetľujúcich premenných nepreukazuje prítomnosť
silnej lineárnej závislosti medzi jednotlivými regresormi. Všetky
hodnoty korelačných koeficientov sú nízke a výrazne pod bežne
používanými prahmi (0.8–0.9). Na základe toho možno konštatovať, že v
tomto modeli sa nevyskytuje problém výraznej multikolinearity a nie je
potrebné vylučovať žiadnu z použitých premenných.
Korelačný vzťah sa dá vytušiť aj z jednoduchých párových
scatterplotov ako je to na nasledujúcom obrázku.
pairs(
xvars,
main = "Scatterplotová matica – vysvetľujúce premenné dopravných nehôd"
)

Scatterplotová matica znázorňuje vzťahy medzi vysvetľujúcimi
premennými použitými v regresnom modeli. Z grafov nevyplývajú výrazné
lineárne závislosti medzi premennými, čo potvrdzuje nízke hodnoty
korelačných koeficientov a naznačuje, že multikolinearita by nemala
predstavovať závažný problém.
6. VIF
Indikátorom multikolinearity u premennej, ktorá multikolinearitu
zapríčiňuje, je Variance Inflation Factor (VIF). Pre premennú \(x_j\) je potom
\[
VIF_j = \frac{1}{1 - R_j^2}
\]
kde \(R_j^2\) pochádza z
regresie:
\[
X_j = \gamma_0 + \gamma_1 X_1 + \cdots + \gamma_{j-1} X_{j-1}
+ \gamma_{j+1} X_{j+1} + u.
\]
library(car)
vif(model)
num_units crash_hour crash_month crash_day_of_week
1.000257 1.004154 1.000063 1.003945
Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity,
je podmienka VIF > 5 (prísne kritérium), alebo VIF > 10 (menej
prísne kritérium). V našom prípade to nespĺňa žiadna z vysvetľujúcich
veličín.
7. Condition Number
Pri existencii multikolinearity sa model prejavuje tak, že koeficient
determinácie je síce vysoký a zdá sa, že model je veľmi dobrý, ale
regresné koeficienty nie sú štatisticky významné - t.j. štandardné
odchýlky regresných koeficientov sú veľmi veľké. Uvedomíme si to, ak sa
pozrieme, ako sa počítajú - t.j. \(\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T
\mathbf X)^{-1}_{ii}}\), kde rozhodujúci je \(i\)ty prvok hlavnej diagonály matice \((\mathbf X^T \mathbf X)^{-1}\). Tie prvky
sú ale v prípade podobnosti vysvetľujúcich premenných mimoriadne veľké.
Túto situáciu zachytáva nasledovný ukazovateľ.
Pri výpočte Condition number \(\kappa\) sa používa vzorec
\[\kappa =
\frac{\theta_{\text{max}}}{\theta_{\text{min}}}\]
kde \(\theta_.\) sú vlastné čísla
matice (vysvetlené nižšie). Conditional number nie je test, je to len
indikátor, ktorý posudzuje mieru multikolinearity medzi premennými.
Používame intuitívne pravidlo. Ak Conditional number je
- < 10 → nízka multikolinearita,
- 10–30 → mierna,
- 30–100 → silná,
- 100 → veľmi vážna
V našom prípade to vypočítame nasledovne
X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 25.09621
Keďže hodnota condition number v našom prípade dosahuje približne 25,
ide o miernu mieru multikolinearity, ktorá však nepredstavuje závažný
problém pre interpretáciu regresného modelu.
Vlastné číslo štvorcovej matice \(\mathbf
X^T \mathbf X\) je číslo \(\theta_j\), pre ktoré platí \((\mathbf X^T \mathbf X)\mathbf h^j =
\theta_i\mathbf h^j\). \(\mathbf
h^j\) je tzv vlastný vektor tejto matice. Máme toľko vlastných
čísel (teda aj vlastných vektorov), koľko obsahuje matica \(\mathbf X^T \mathbf X\) riadkov
(stĺpcov).
Môže sa stať, že VIF faktor nesignalizuje multikolinearitu u žiadnej
z vysvetľujúcich veličín, ale sú navzájom prepojené cyklickými
lineárnymi závislosťami všetky premenné. To zachytáva práve Condition
Number.
8. Riešenia multikolinearity
Vynechanie premennej
Pokúsme sa vynechať postupne dve premenné, ktoré majú najvyšší VIF a
porovnajme následne upravené koeficienty determinácie oboch nových
modelov
model_no_units <- lm(injuries_total ~
crash_hour +
crash_month +
crash_day_of_week,
data = udaje)
summary(model_no_units)
Call:
lm(formula = injuries_total ~ crash_hour + crash_month + crash_day_of_week,
data = udaje)
Residuals:
Min 1Q Median 3Q Max
-0.4453 -0.3907 -0.3729 0.5841 20.5909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.4133356 0.0066465 62.189 < 2e-16 ***
crash_hour -0.0020875 0.0003124 -6.681 2.38e-11 ***
crash_month 0.0031426 0.0005098 6.164 7.12e-10 ***
crash_day_of_week -0.0057875 0.0008902 -6.501 7.98e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7995 on 209302 degrees of freedom
Multiple R-squared: 0.000625, Adjusted R-squared: 0.0006107
F-statistic: 43.63 on 3 and 209302 DF, p-value: < 2.2e-16
model_no_hour <- lm(injuries_total ~
num_units +
crash_month +
crash_day_of_week,
data = udaje)
summary(model_no_hour)
Call:
lm(formula = injuries_total ~ num_units + crash_month + crash_day_of_week,
data = udaje)
Residuals:
Min 1Q Median 3Q Max
-2.9368 -0.3705 -0.3542 0.3172 20.9499
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2774976 0.0104108 -26.655 < 2e-16 ***
num_units 0.3228244 0.0043565 74.102 < 2e-16 ***
crash_month 0.0030113 0.0005033 5.983 2.20e-09 ***
crash_day_of_week -0.0063370 0.0008772 -7.225 5.05e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7893 on 209302 degrees of freedom
Multiple R-squared: 0.02597, Adjusted R-squared: 0.02595
F-statistic: 1860 on 3 and 209302 DF, p-value: < 2.2e-16
Na overenie stability odhadu a možného vplyvu multikolinearity boli
odhadnuté aj alternatívne regresné modely, v ktorých bola vždy vynechaná
jedna z vysvetľujúcich premenných. Porovnaním výsledkov jednotlivých
modelov možno konštatovať, že základné vzťahy medzi premennými zostávajú
zachované, čo naznačuje, že multikolinearita v modeli nepredstavuje
významný problém.
Škálovanie premenných
Škálovanie môže byť veľmi efektívne, znižuje ale interpretovateľnosť
modelu. Ide o úpravu premenných podľa nasledovného vzorca:
\[x^{scale} =
\frac{x-M}{\sqrt{D}}\] kde \(M\)
je stredná hodnota (priemer) a \(D\) je
rozptyl premennej.
udaje$num_units_c <- scale(udaje$num_units, center = TRUE, scale = TRUE)
udaje$crash_hour_c <- scale(udaje$crash_hour, center = TRUE, scale = TRUE)
udaje$crash_month_c <- scale(udaje$crash_month, center = TRUE, scale = TRUE)
udaje$crash_day_week_c <- scale(udaje$crash_day_of_week, center = TRUE, scale = TRUE)
model_centered <- lm(injuries_total ~
num_units_c +
crash_hour_c +
crash_month_c +
crash_day_week_c,
data = udaje)
summary(model_centered)
Call:
lm(formula = injuries_total ~ num_units_c + crash_hour_c + crash_month_c +
crash_day_week_c, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-2.9330 -0.3719 -0.3518 0.3171 20.9325
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.382717 0.001725 221.873 < 2e-16 ***
num_units_c 0.128054 0.001725 74.227 < 2e-16 ***
crash_hour_c -0.013684 0.001729 -7.916 2.46e-15 ***
crash_month_c 0.010372 0.001725 6.013 1.82e-09 ***
crash_day_week_c -0.011611 0.001728 -6.718 1.84e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared: 0.02626, Adjusted R-squared: 0.02624
F-statistic: 1411 on 4 and 209301 DF, p-value: < 2.2e-16
library(car)
vif(model_centered)
num_units_c crash_hour_c crash_month_c crash_day_week_c
1.000257 1.004154 1.000063 1.003945
Vysvetľujúce premenné boli centrované a štandardizované s cieľom
overiť stabilitu odhadov a posúdiť prítomnosť multikolinearity. Výsledky
VIF testu potvrdzujú, že medzi premennými sa nevyskytuje závažná
multikolinearita, keďže hodnoty VIF neprekračujú kritické hranice.
Conditional Number je
X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.066826
Na posúdenie multikolinearity bol vypočítaný index podmienenosti
založený na vlastných číslach matice X’X. Výsledná hodnota indexu je
nízka a neprekračuje kritické hranice, čo potvrdzuje, že
multikolinearita medzi vysvetľujúcimi premennými v centrovanom modeli
nepredstavuje závažný problém.
Iná úprava premennej, ktorá zachová interpretovateľnosť
Alternatívou k škálovaniu premenných je ich úprava prostredníctvom
zmeny jednotiek tak, aby sa jednotlivé vysvetľujúce premenné pohybovali
v porovnateľných rádoch, pričom sa zachová ich pôvodná interpretácia.
Tento prístup je vhodný najmä v prípadoch, keď sa niektoré premenné
výrazne líšia rozsahom hodnôt.
V analyzovanej databáze dopravných nehôd sa však všetky vysvetľujúce
premenné (počet zúčastnených vozidiel, čas nehody, mesiac a deň v
týždni) pohybujú v prirodzene porovnateľných mierkach. Z tohto dôvodu
nie je potrebné aplikovať dodatočné prevody jednotiek a model si
zachováva dobrú interpretovateľnosť aj bez ďalších úprav premenných.
udaje$num_units10 <- udaje$num_units / 10
head(udaje)
udaje$crash_hour6 <- udaje$crash_hour / 6
head(udaje)
Na zachovanie lepšej interpretovateľnosti odhadnutých koeficientov
bola mierka vybraných vysvetľujúcich premenných upravená. Počet
zúčastnených vozidiel bol vyjadrený v desiatkach a čas nehody v
šesťhodinových intervaloch. Táto úprava nemení štatistické vlastnosti
modelu, avšak umožňuje intuitívnejšiu interpretáciu odhadnutých
parametrov.
Potom lineárny model dosiahne výsledky
model_units10 <- lm(injuries_total ~
num_units10 +
crash_hour +
crash_month +
crash_day_of_week,
data = udaje)
summary(model_units10)
Call:
lm(formula = injuries_total ~ num_units10 + crash_hour + crash_month +
crash_day_of_week, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-2.9330 -0.3719 -0.3518 0.3171 20.9325
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2478411 0.0110628 -22.403 < 2e-16 ***
num_units10 3.2335812 0.0435634 74.227 < 2e-16 ***
crash_hour -0.0024418 0.0003085 -7.916 2.46e-15 ***
crash_month 0.0030261 0.0005033 6.013 1.82e-09 ***
crash_day_of_week -0.0059035 0.0008787 -6.718 1.84e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared: 0.02626, Adjusted R-squared: 0.02624
F-statistic: 1411 on 4 and 209301 DF, p-value: < 2.2e-16
vif(model_units10)
num_units10 crash_hour crash_month crash_day_of_week
1.000257 1.004154 1.000063 1.003945
kde všetky regresné koeficienty majú porovnateľné rády a tiež VIF je
akceptovateľný vo všetkých prípadoch. Conditional
number je potom
Na zachovanie lepšej interpretovateľnosti odhadnutých parametrov bola
premenná počet zúčastnených vozidiel preškálovaná a vyjadrená v
desiatkach. Odhadnutý model poskytuje rovnaké štatistické závery ako
pôvodná špecifikácia, pričom hodnoty VIF aj indexu podmienenosti
potvrdzujú absenciu závažnej multikolinearity medzi vysvetľujúcimi
premennými.
X <- model.matrix(model_units10)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 245.3796
Hodnota condition number vypočítaná z matice X’X je nízka, čo
potvrdzuje, že v modeli nie je prítomná závažná multikolinearita medzi
vysvetľujúcimi premennými. Tento záver je v súlade aj s výsledkami VIF
testu.
Poznámka: Dummy premenné neškálujeme
### ocistenie databazy od nadbytocnych - pracovnych stlpcov
library(dplyr)
udaje <- udaje %>%
dplyr::select(
-num_units_c,
-crash_hour_c
)
PCA (voliteľné)
PCA nám vytvára pracovný vektor, ktorý je definovaný ako vážený súťet
dvoch nami špecifikovaných korelovaných premenných. Tento vektor potom
vystupuje ako vysvetľujúca veličina, zatiaľ čo začlenené dve
vysvetľujúce premenné vylúčime zo zoznamu regresorov. Tým sa redukuje
počet vysvetľujúcich veličín a odstraňuje sa aj problém
multikolinearity.
library(car)
X_pca <- scale(
udaje[, c("num_units", "crash_hour", "crash_month", "crash_day_of_week")],
center = TRUE,
scale = TRUE
)
pca_res <- prcomp(X_pca)
summary(pca_res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.0320 1.0021 0.9976 0.9673
Proportion of Variance 0.2662 0.2510 0.2488 0.2339
Cumulative Proportion 0.2662 0.5173 0.7661 1.0000
udaje$PC1 <- pca_res$x[, 1]
udaje$PC2 <- pca_res$x[, 2]
model_pca2 <- lm(injuries_total ~ PC1 + PC2, data = udaje)
summary(model_pca2)
Call:
lm(formula = injuries_total ~ PC1 + PC2, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-1.4834 -0.4180 -0.3356 0.4950 20.7094
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.382717 0.001738 220.265 <2e-16 ***
PC1 0.007436 0.001684 4.416 1e-05 ***
PC2 -0.087010 0.001734 -50.181 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7949 on 209303 degrees of freedom
Multiple R-squared: 0.01198, Adjusted R-squared: 0.01197
F-statistic: 1269 on 2 and 209303 DF, p-value: < 2.2e-16
vif(model_pca2)
PC1 PC2
1 1
Hrebeňová regresia (Ridge Regression - voliteľné)
Hrebeňová regresia je modifikácia regresie, ktorá zavádza perturbácie
do matice \(\mathbf X^T \mathbf X\)
tak, aby znížila dôsledky multikolinearity. Treba ale upozorniť, že
odhadované regresné koeficienty sú skreslené. Perturbácia vyzerá
nasledovne
\[(\mathbf X^T \mathbf X + \lambda \mathbf
I)\]
V tomto kroku si vypíšeme výsledky odhadov regresných koeficientov s
meniacimi sa parametrami \(lambda\)
tak, aby sme získlali určitú predstavu o číselnom ráde prvkov, ktoré
obsahuje. Na základe toho sa potom rozhodneme pre nejakú voľbu parametra
\(\lambda\).
library(MASS)
ridge_fit <- lm.ridge(
injuries_total ~ num_units + crash_hour + crash_month + crash_day_of_week,
data = udaje,
lambda = seq(0, 10, 1)
)
ridge_fit
num_units crash_hour crash_month crash_day_of_week
0 -0.2478411 0.3233581 -0.002441832 0.003026144 -0.005903502
1 -0.2478381 0.3233566 -0.002441819 0.003026130 -0.005903475
2 -0.2478351 0.3233550 -0.002441806 0.003026116 -0.005903449
3 -0.2478320 0.3233535 -0.002441794 0.003026102 -0.005903422
4 -0.2478290 0.3233519 -0.002441781 0.003026088 -0.005903396
5 -0.2478260 0.3233504 -0.002441768 0.003026074 -0.005903369
6 -0.2478230 0.3233488 -0.002441755 0.003026061 -0.005903342
7 -0.2478200 0.3233473 -0.002441742 0.003026047 -0.005903316
8 -0.2478170 0.3233457 -0.002441729 0.003026033 -0.005903289
9 -0.2478140 0.3233442 -0.002441717 0.003026019 -0.005903262
10 -0.2478110 0.3233426 -0.002441704 0.003026005 -0.005903236
–>
Nastavovanie rôznych hodnôt \(\lambda\) je predmetom hlbšej analýzy,
tento prehľad je len jej časťou.
library(MASS)
ridge_fit <- lm.ridge(
injuries_total ~ num_units + crash_hour + crash_month + crash_day_of_week,
data = udaje,
lambda = seq(0, 10, 1)
)
ridge_fit
10. Zhrnutie
- Multikolinearita nespôsobuje skreslenie (bias) odhadov regresných
koeficientov, avšak zvyšuje ich štandardné odchýlky a znižuje
štatistickú významnosť jednotlivých regresorov.
- Diagnostiku multikolinearity umožňujú ukazovatele ako korelačná
matica, Variance Inflation Factor (VIF) a Condition Number.
- Medzi základné riešenia multikolinearity patrí vynechanie premennej
alebo centrovanie a štandardizácia premenných. Pokročilejšie metódy, ako
PCA alebo hrebeňová regresia, vyžadujú hlbšie metodické znalosti, a
preto sú v tejto úlohe uvedené len ilustračne.
Predložená analýza sa zamerala na identifikáciu a posúdenie
multikolinearity v regresnom modeli vysvetľujúcom počet zranení pri
dopravných nehodách na základe vybraných charakteristík nehody. Na
diagnostiku multikolinearity boli použité viaceré nástroje, vrátane
korelačnej matice, Variance Inflation Factor (VIF) a indexu
podmienenosti (Condition Number).
Výsledky ukázali, že medzi vysvetľujúcimi premennými sa nevyskytujú
silné lineárne závislosti a hodnoty VIF sa pohybujú hlboko pod
kritickými hranicami. Hodnota Condition Number naznačila len miernu
mieru multikolinearity, ktorá nepredstavuje závažný problém pre
interpretáciu regresného modelu. Dodatočné úpravy modelu, ako vynechanie
premenných či centrovanie a úprava mierok, potvrdili stabilitu
odhadnutých regresných koeficientov.
Na základe vykonanej analýzy možno konštatovať, že multikolinearita v
analyzovanom modeli nepredstavuje významný problém a odhadnuté regresné
vzťahy sú stabilné a interpretovateľné. Zvolený regresný model je preto
vhodný na analýzu vzťahov medzi charakteristikami dopravných nehôd a
počtom zranení.
