1. Úvod

Po autokoreácii a heteroskedasticite rezíduí je multikolinearita tretím závažným porušením predpokladov použitia metódy najmenších štvorcov. Tu sa okrem iného predpokadá, že matica \(\mathbf X\) je tvorená lineárne nezávislými riadkami a tiež stĺpcami, čo zabezpečí regularitu matice \(\mathbf X^T\mathbf X\) a teda možnosť jej inverzie. Tá sa používa pri odhadoch regresných koeficientov. V praxi sa ale môže stať, že vzniká "takmer singulárna matica \(\mathbf X^T\mathbf X\) ", t.j. matica \(\mathbf X\) je tvorená "približne" lineárne závislými stĺpcami, t.j. existuje taká ich lineárna kombinácia, v ktorej

\[ x_{il} = \alpha_0 + \alpha_1 x_{i1} + \dots + \alpha_{l-1} x_{i,(l-1)} + \alpha_{l+1} x_{i,(l+1)} + \alpha_k x_{i,k} + \nu_i \]

Tu \(\nu_i\) sú rádovo menšie čísla , než regresory \(x_{.}\), t.j. \((\forall i)(\nu_i << x_{.,i})\). V tomto prípade je inverzná matica \((\mathbf X^T\mathbf X)^{-1}\) veľmi nestabilná a obsahuje na hlavnej diagonále veľmi veľké hodnoty. Táto matica sa používa pri výpočtoch \[\hat \beta = (\mathbf X^T\mathbf X)^{-1} \mathbf X^T \mathbf y\] a tiež \[\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T \mathbf X)^{-1}_{ii}}.\] To spôsobuje nestabilitu odhadovaných regresných koeficientov a ich nadhodnotené rozptyly.

Tento problém nazývame problémom multikolinearity.

V kontexte tejto analýzy sa multikolinearita môže vyskytovať medzi vysvetľujúcimi premennými opisujúcimi dopravné nehody, ako sú napríklad čas nehody, deň v týždni, mesiac nehody či počet zúčastnených vozidiel. Cieľom nasledujúcej časti je preto identifikovať prípadnú prítomnosť multikolinearity v regresnom modeli založenom na databáze dopravných nehôd premávka a posúdiť jej vplyv na stabilitu odhadov regresných koeficientov.


2. Dôsledky multikolinearity

Multikolinearita patrí medzi najčastejšie problémy viacnásobnej lineárnej regresie.
Je dôležité jasne rozlišovať dva fakty:

  1. Nespôsobuje skreslené (biased) odhady koeficientov
  2. Nadhodnocuje odhady štandardných odchýlok regresných koeficientov a vedie potom k falošnému neprijímaniu alternatívnej hypotézy o štatistickej významnosti jednotlivých regresorov.
  3. Odhadované regresné koeficienty sú nestabilné - pri malej zmene údajov sa sa prudko menia koeficienty ako aj ich znamienka.
  4. Interpretácia regresného modelu je z dôvodu vyššie uvedených dôvodov nespoľahlivá.

3. Východiskový model a údaje

Budeme pracovať s regresným modelom z predchádzajúcich cvičení, ktorého cieľom je vysvetliť počet zranených pri dopravnej nehode na základe vybraných charakteristík nehody.

Východiskový regresný model má tvar

\[ injuries\_total_i = \beta_0 + \beta_1 num\_units_i + \beta_2 crash\_hour_i + \beta_3 crash\_day\_of\_week_i + \beta_4 crash\_month_i + u_i \]

kde: - \(injuries\_total_i\) predstavuje počet zranených pri i-tej dopravnej nehode, - \(num\_units_i\) je počet zúčastnených vozidiel, - \(crash\_hour_i\) označuje hodinu nehody, - \(crash\_day\_of\_week_i\) je deň v týždni, - \(crash\_month_i\) je mesiac, v ktorom k nehode došlo, - \(u_i\) je náhodná zložka modelu.

Použité údaje pochádzajú z databázy dopravných nehôd (premávka) a po ich načítaní boli uložené do objektu typu data.frame s názvom udaje.


# PRIPRAVA UDAJOV 
udaje <- read.csv("premavka.csv.csv", dec=".", sep=",", header = TRUE)

# výber relevantných premenných 
udaje <- udaje[, c("injuries_total",
                   "num_units",
                   "crash_hour",
                   "crash_month",
                   "crash_day_of_week")]

# imputácia chýbajúcich hodnôt mediánom
column_medians <- sapply(udaje, median, na.rm = TRUE)

udaje_imputed <- udaje
for (col in names(udaje)) {
  udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}

udaje <- udaje_imputed

4. Odhad základného regresného modelu


model <- lm(injuries_total ~
              num_units +
              crash_hour +
              crash_month +
              crash_day_of_week,
            data = udaje)

summary(model)

Call:
lm(formula = injuries_total ~ num_units + crash_hour + crash_month + 
    crash_day_of_week, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9330 -0.3719 -0.3518  0.3171 20.9325 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)       -0.2478411  0.0110628 -22.403  < 2e-16 ***
num_units          0.3233581  0.0043563  74.227  < 2e-16 ***
crash_hour        -0.0024418  0.0003085  -7.916 2.46e-15 ***
crash_month        0.0030261  0.0005033   6.013 1.82e-09 ***
crash_day_of_week -0.0059035  0.0008787  -6.718 1.84e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared:  0.02626,   Adjusted R-squared:  0.02624 
F-statistic:  1411 on 4 and 209301 DF,  p-value: < 2.2e-16

V tomto kroku odhadujeme základný lineárny regresný model, v ktorom je vysvetľovanou premennou celkový počet zranení pri dopravnej nehode. Medzi vysvetľujúce premenné zaraďujeme počet zúčastnených vozidiel, hodinu nehody, mesiac nehody a deň v týždni. Cieľom je posúdiť základné vzťahy medzi charakteristikami nehody a počtom zranení.

Na základe odhadnutého základného lineárneho regresného modelu môžeme konštatovať, že všetky zahrnuté vysvetľujúce premenné sú štatisticky významné na hladine významnosti 1 %. Najsilnejší vplyv na počet zranení má počet zúčastnených vozidiel, pričom s rastúcim počtom vozidiel rastie aj očakávaný počet zranení. Premenné časového charakteru (hodina nehody, deň v týždni a mesiac) majú síce menší, no systematický vplyv na počet zranení. Nízka hodnota koeficientu determinácie naznačuje, že model zachytáva len časť variability počtu zranení, čo je pri dátach o dopravných nehodách očakávané.


5. Korelačná matica

Korelácia dokáže zachytiť párové vzťahy medzi premennými. Ak medzi niektorými vysvetľujúcimi premennými je vysoká korelácia (signalizujúca multikolinearitu), potom je najjednoduchšie ju zo zoznamu regresorov vylúčiť. Korelácie sa dajú aj testovať, alebo len vyčísliť a potom podľa intuitívneho pravidla vylúčiť jednu premennú, ktorá má koreláciu s inou premennou v absolútnej hodnote vyššiu ako 0.8, resp. 0.9.

# korelačná matica

xvars <- udaje[, c("num_units",
                   "crash_hour",
                   "crash_month",
                   "crash_day_of_week")]

round(cor(xvars, use = "pairwise.complete.obs"), 3)
                  num_units crash_hour crash_month crash_day_of_week
num_units             1.000      0.016       0.003             0.003
crash_hour            0.016      1.000       0.003             0.062
crash_month           0.003      0.003       1.000            -0.006
crash_day_of_week     0.003      0.062      -0.006             1.000

Korelačná matica vysvetľujúcich premenných nepreukazuje prítomnosť silnej lineárnej závislosti medzi jednotlivými regresormi. Všetky hodnoty korelačných koeficientov sú nízke a výrazne pod bežne používanými prahmi (0.8–0.9). Na základe toho možno konštatovať, že v tomto modeli sa nevyskytuje problém výraznej multikolinearity a nie je potrebné vylučovať žiadnu z použitých premenných.


Korelačný vzťah sa dá vytušiť aj z jednoduchých párových scatterplotov ako je to na nasledujúcom obrázku.

pairs(
  xvars,
  main = "Scatterplotová matica – vysvetľujúce premenné dopravných nehôd"
)

Scatterplotová matica znázorňuje vzťahy medzi vysvetľujúcimi premennými použitými v regresnom modeli. Z grafov nevyplývajú výrazné lineárne závislosti medzi premennými, čo potvrdzuje nízke hodnoty korelačných koeficientov a naznačuje, že multikolinearita by nemala predstavovať závažný problém.


6. VIF

Indikátorom multikolinearity u premennej, ktorá multikolinearitu zapríčiňuje, je Variance Inflation Factor (VIF). Pre premennú \(x_j\) je potom

\[ VIF_j = \frac{1}{1 - R_j^2} \]

kde \(R_j^2\) pochádza z regresie:

\[ X_j = \gamma_0 + \gamma_1 X_1 + \cdots + \gamma_{j-1} X_{j-1} + \gamma_{j+1} X_{j+1} + u. \]

library(car)
vif(model)
        num_units        crash_hour       crash_month crash_day_of_week 
         1.000257          1.004154          1.000063          1.003945 

Intuitívnym kritériom, ktoré signalizuje prítomnosť multikolinearity, je podmienka VIF > 5 (prísne kritérium), alebo VIF > 10 (menej prísne kritérium). V našom prípade to nespĺňa žiadna z vysvetľujúcich veličín.


7. Condition Number

Pri existencii multikolinearity sa model prejavuje tak, že koeficient determinácie je síce vysoký a zdá sa, že model je veľmi dobrý, ale regresné koeficienty nie sú štatisticky významné - t.j. štandardné odchýlky regresných koeficientov sú veľmi veľké. Uvedomíme si to, ak sa pozrieme, ako sa počítajú - t.j. \(\text{std}(\beta_i) = \sqrt{\sigma^2 (\mathbf X^T \mathbf X)^{-1}_{ii}}\), kde rozhodujúci je \(i\)ty prvok hlavnej diagonály matice \((\mathbf X^T \mathbf X)^{-1}\). Tie prvky sú ale v prípade podobnosti vysvetľujúcich premenných mimoriadne veľké. Túto situáciu zachytáva nasledovný ukazovateľ.

Pri výpočte Condition number \(\kappa\) sa používa vzorec

\[\kappa = \frac{\theta_{\text{max}}}{\theta_{\text{min}}}\]

kde \(\theta_.\) sú vlastné čísla matice (vysvetlené nižšie). Conditional number nie je test, je to len indikátor, ktorý posudzuje mieru multikolinearity medzi premennými. Používame intuitívne pravidlo. Ak Conditional number je

V našom prípade to vypočítame nasledovne

X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 25.09621

Keďže hodnota condition number v našom prípade dosahuje približne 25, ide o miernu mieru multikolinearity, ktorá však nepredstavuje závažný problém pre interpretáciu regresného modelu.

Vlastné číslo štvorcovej matice \(\mathbf X^T \mathbf X\) je číslo \(\theta_j\), pre ktoré platí \((\mathbf X^T \mathbf X)\mathbf h^j = \theta_i\mathbf h^j\). \(\mathbf h^j\) je tzv vlastný vektor tejto matice. Máme toľko vlastných čísel (teda aj vlastných vektorov), koľko obsahuje matica \(\mathbf X^T \mathbf X\) riadkov (stĺpcov).

Môže sa stať, že VIF faktor nesignalizuje multikolinearitu u žiadnej z vysvetľujúcich veličín, ale sú navzájom prepojené cyklickými lineárnymi závislosťami všetky premenné. To zachytáva práve Condition Number.


8. Riešenia multikolinearity

Vynechanie premennej

Pokúsme sa vynechať postupne dve premenné, ktoré majú najvyšší VIF a porovnajme následne upravené koeficienty determinácie oboch nových modelov

model_no_units <- lm(injuries_total ~
                       crash_hour +
                       crash_month +
                       crash_day_of_week,
                     data = udaje)

summary(model_no_units)

Call:
lm(formula = injuries_total ~ crash_hour + crash_month + crash_day_of_week, 
    data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.4453 -0.3907 -0.3729  0.5841 20.5909 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        0.4133356  0.0066465  62.189  < 2e-16 ***
crash_hour        -0.0020875  0.0003124  -6.681 2.38e-11 ***
crash_month        0.0031426  0.0005098   6.164 7.12e-10 ***
crash_day_of_week -0.0057875  0.0008902  -6.501 7.98e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7995 on 209302 degrees of freedom
Multiple R-squared:  0.000625,  Adjusted R-squared:  0.0006107 
F-statistic: 43.63 on 3 and 209302 DF,  p-value: < 2.2e-16
model_no_hour <- lm(injuries_total ~
                      num_units +
                      crash_month +
                      crash_day_of_week,
                    data = udaje)

summary(model_no_hour)

Call:
lm(formula = injuries_total ~ num_units + crash_month + crash_day_of_week, 
    data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9368 -0.3705 -0.3542  0.3172 20.9499 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)       -0.2774976  0.0104108 -26.655  < 2e-16 ***
num_units          0.3228244  0.0043565  74.102  < 2e-16 ***
crash_month        0.0030113  0.0005033   5.983 2.20e-09 ***
crash_day_of_week -0.0063370  0.0008772  -7.225 5.05e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7893 on 209302 degrees of freedom
Multiple R-squared:  0.02597,   Adjusted R-squared:  0.02595 
F-statistic:  1860 on 3 and 209302 DF,  p-value: < 2.2e-16

Na overenie stability odhadu a možného vplyvu multikolinearity boli odhadnuté aj alternatívne regresné modely, v ktorých bola vždy vynechaná jedna z vysvetľujúcich premenných. Porovnaním výsledkov jednotlivých modelov možno konštatovať, že základné vzťahy medzi premennými zostávajú zachované, čo naznačuje, že multikolinearita v modeli nepredstavuje významný problém.

Škálovanie premenných

Škálovanie môže byť veľmi efektívne, znižuje ale interpretovateľnosť modelu. Ide o úpravu premenných podľa nasledovného vzorca:

\[x^{scale} = \frac{x-M}{\sqrt{D}}\] kde \(M\) je stredná hodnota (priemer) a \(D\) je rozptyl premennej.

udaje$num_units_c        <- scale(udaje$num_units, center = TRUE, scale = TRUE)
udaje$crash_hour_c      <- scale(udaje$crash_hour, center = TRUE, scale = TRUE)
udaje$crash_month_c     <- scale(udaje$crash_month, center = TRUE, scale = TRUE)
udaje$crash_day_week_c  <- scale(udaje$crash_day_of_week, center = TRUE, scale = TRUE)


model_centered <- lm(injuries_total ~
                       num_units_c +
                       crash_hour_c +
                       crash_month_c +
                       crash_day_week_c,
                     data = udaje)

summary(model_centered)

Call:
lm(formula = injuries_total ~ num_units_c + crash_hour_c + crash_month_c + 
    crash_day_week_c, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9330 -0.3719 -0.3518  0.3171 20.9325 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)       0.382717   0.001725 221.873  < 2e-16 ***
num_units_c       0.128054   0.001725  74.227  < 2e-16 ***
crash_hour_c     -0.013684   0.001729  -7.916 2.46e-15 ***
crash_month_c     0.010372   0.001725   6.013 1.82e-09 ***
crash_day_week_c -0.011611   0.001728  -6.718 1.84e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared:  0.02626,   Adjusted R-squared:  0.02624 
F-statistic:  1411 on 4 and 209301 DF,  p-value: < 2.2e-16
library(car)
vif(model_centered)
     num_units_c     crash_hour_c    crash_month_c crash_day_week_c 
        1.000257         1.004154         1.000063         1.003945 

Vysvetľujúce premenné boli centrované a štandardizované s cieľom overiť stabilitu odhadov a posúdiť prítomnosť multikolinearity. Výsledky VIF testu potvrdzujú, že medzi premennými sa nevyskytuje závažná multikolinearita, keďže hodnoty VIF neprekračujú kritické hranice.

Conditional Number je

X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.066826

Na posúdenie multikolinearity bol vypočítaný index podmienenosti založený na vlastných číslach matice X’X. Výsledná hodnota indexu je nízka a neprekračuje kritické hranice, čo potvrdzuje, že multikolinearita medzi vysvetľujúcimi premennými v centrovanom modeli nepredstavuje závažný problém.

Iná úprava premennej, ktorá zachová interpretovateľnosť

Alternatívou k škálovaniu premenných je ich úprava prostredníctvom zmeny jednotiek tak, aby sa jednotlivé vysvetľujúce premenné pohybovali v porovnateľných rádoch, pričom sa zachová ich pôvodná interpretácia. Tento prístup je vhodný najmä v prípadoch, keď sa niektoré premenné výrazne líšia rozsahom hodnôt.

V analyzovanej databáze dopravných nehôd sa však všetky vysvetľujúce premenné (počet zúčastnených vozidiel, čas nehody, mesiac a deň v týždni) pohybujú v prirodzene porovnateľných mierkach. Z tohto dôvodu nie je potrebné aplikovať dodatočné prevody jednotiek a model si zachováva dobrú interpretovateľnosť aj bez ďalších úprav premenných.

udaje$num_units10 <- udaje$num_units / 10
head(udaje)


udaje$crash_hour6 <- udaje$crash_hour / 6
head(udaje)

Na zachovanie lepšej interpretovateľnosti odhadnutých koeficientov bola mierka vybraných vysvetľujúcich premenných upravená. Počet zúčastnených vozidiel bol vyjadrený v desiatkach a čas nehody v šesťhodinových intervaloch. Táto úprava nemení štatistické vlastnosti modelu, avšak umožňuje intuitívnejšiu interpretáciu odhadnutých parametrov.

Potom lineárny model dosiahne výsledky

model_units10 <- lm(injuries_total ~
                      num_units10 +
                      crash_hour +
                      crash_month +
                      crash_day_of_week,
                    data = udaje)

summary(model_units10)

Call:
lm(formula = injuries_total ~ num_units10 + crash_hour + crash_month + 
    crash_day_of_week, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.9330 -0.3719 -0.3518  0.3171 20.9325 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)       -0.2478411  0.0110628 -22.403  < 2e-16 ***
num_units10        3.2335812  0.0435634  74.227  < 2e-16 ***
crash_hour        -0.0024418  0.0003085  -7.916 2.46e-15 ***
crash_month        0.0030261  0.0005033   6.013 1.82e-09 ***
crash_day_of_week -0.0059035  0.0008787  -6.718 1.84e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared:  0.02626,   Adjusted R-squared:  0.02624 
F-statistic:  1411 on 4 and 209301 DF,  p-value: < 2.2e-16
vif(model_units10)
      num_units10        crash_hour       crash_month crash_day_of_week 
         1.000257          1.004154          1.000063          1.003945 

kde všetky regresné koeficienty majú porovnateľné rády a tiež VIF je akceptovateľný vo všetkých prípadoch. Conditional number je potom

Na zachovanie lepšej interpretovateľnosti odhadnutých parametrov bola premenná počet zúčastnených vozidiel preškálovaná a vyjadrená v desiatkach. Odhadnutý model poskytuje rovnaké štatistické závery ako pôvodná špecifikácia, pričom hodnoty VIF aj indexu podmienenosti potvrdzujú absenciu závažnej multikolinearity medzi vysvetľujúcimi premennými.

X <- model.matrix(model_units10)[, -1]   
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 245.3796

Hodnota condition number vypočítaná z matice X’X je nízka, čo potvrdzuje, že v modeli nie je prítomná závažná multikolinearita medzi vysvetľujúcimi premennými. Tento záver je v súlade aj s výsledkami VIF testu.

Poznámka: Dummy premenné neškálujeme

###   ocistenie databazy od nadbytocnych - pracovnych stlpcov
library(dplyr)

udaje <- udaje %>%

  dplyr::select(
    -num_units_c,
    -crash_hour_c
  )

PCA (voliteľné)

PCA nám vytvára pracovný vektor, ktorý je definovaný ako vážený súťet dvoch nami špecifikovaných korelovaných premenných. Tento vektor potom vystupuje ako vysvetľujúca veličina, zatiaľ čo začlenené dve vysvetľujúce premenné vylúčime zo zoznamu regresorov. Tým sa redukuje počet vysvetľujúcich veličín a odstraňuje sa aj problém multikolinearity.



library(car)

X_pca <- scale(
  udaje[, c("num_units", "crash_hour", "crash_month", "crash_day_of_week")],
  center = TRUE,
  scale  = TRUE
)

pca_res <- prcomp(X_pca)

summary(pca_res)
Importance of components:
                          PC1    PC2    PC3    PC4
Standard deviation     1.0320 1.0021 0.9976 0.9673
Proportion of Variance 0.2662 0.2510 0.2488 0.2339
Cumulative Proportion  0.2662 0.5173 0.7661 1.0000
udaje$PC1 <- pca_res$x[, 1]
udaje$PC2 <- pca_res$x[, 2]

model_pca2 <- lm(injuries_total ~ PC1 + PC2, data = udaje)
summary(model_pca2)

Call:
lm(formula = injuries_total ~ PC1 + PC2, data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4834 -0.4180 -0.3356  0.4950 20.7094 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.382717   0.001738 220.265   <2e-16 ***
PC1          0.007436   0.001684   4.416    1e-05 ***
PC2         -0.087010   0.001734 -50.181   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7949 on 209303 degrees of freedom
Multiple R-squared:  0.01198,   Adjusted R-squared:  0.01197 
F-statistic:  1269 on 2 and 209303 DF,  p-value: < 2.2e-16
vif(model_pca2)
PC1 PC2 
  1   1 

Hrebeňová regresia (Ridge Regression - voliteľné)

Hrebeňová regresia je modifikácia regresie, ktorá zavádza perturbácie do matice \(\mathbf X^T \mathbf X\) tak, aby znížila dôsledky multikolinearity. Treba ale upozorniť, že odhadované regresné koeficienty sú skreslené. Perturbácia vyzerá nasledovne

\[(\mathbf X^T \mathbf X + \lambda \mathbf I)\]

V tomto kroku si vypíšeme výsledky odhadov regresných koeficientov s meniacimi sa parametrami \(lambda\) tak, aby sme získlali určitú predstavu o číselnom ráde prvkov, ktoré obsahuje. Na základe toho sa potom rozhodneme pre nejakú voľbu parametra \(\lambda\).

library(MASS)

ridge_fit <- lm.ridge(
  injuries_total ~ num_units + crash_hour + crash_month + crash_day_of_week,
  data = udaje,
  lambda = seq(0, 10, 1)
)

ridge_fit
              num_units   crash_hour crash_month crash_day_of_week
 0 -0.2478411 0.3233581 -0.002441832 0.003026144      -0.005903502
 1 -0.2478381 0.3233566 -0.002441819 0.003026130      -0.005903475
 2 -0.2478351 0.3233550 -0.002441806 0.003026116      -0.005903449
 3 -0.2478320 0.3233535 -0.002441794 0.003026102      -0.005903422
 4 -0.2478290 0.3233519 -0.002441781 0.003026088      -0.005903396
 5 -0.2478260 0.3233504 -0.002441768 0.003026074      -0.005903369
 6 -0.2478230 0.3233488 -0.002441755 0.003026061      -0.005903342
 7 -0.2478200 0.3233473 -0.002441742 0.003026047      -0.005903316
 8 -0.2478170 0.3233457 -0.002441729 0.003026033      -0.005903289
 9 -0.2478140 0.3233442 -0.002441717 0.003026019      -0.005903262
10 -0.2478110 0.3233426 -0.002441704 0.003026005      -0.005903236

–>

Nastavovanie rôznych hodnôt \(\lambda\) je predmetom hlbšej analýzy, tento prehľad je len jej časťou.

library(MASS)

ridge_fit <- lm.ridge(
  injuries_total ~ num_units + crash_hour + crash_month + crash_day_of_week,
  data = udaje,
  lambda = seq(0, 10, 1)
)

ridge_fit

10. Zhrnutie

Predložená analýza sa zamerala na identifikáciu a posúdenie multikolinearity v regresnom modeli vysvetľujúcom počet zranení pri dopravných nehodách na základe vybraných charakteristík nehody. Na diagnostiku multikolinearity boli použité viaceré nástroje, vrátane korelačnej matice, Variance Inflation Factor (VIF) a indexu podmienenosti (Condition Number).

Výsledky ukázali, že medzi vysvetľujúcimi premennými sa nevyskytujú silné lineárne závislosti a hodnoty VIF sa pohybujú hlboko pod kritickými hranicami. Hodnota Condition Number naznačila len miernu mieru multikolinearity, ktorá nepredstavuje závažný problém pre interpretáciu regresného modelu. Dodatočné úpravy modelu, ako vynechanie premenných či centrovanie a úprava mierok, potvrdili stabilitu odhadnutých regresných koeficientov.

Na základe vykonanej analýzy možno konštatovať, že multikolinearita v analyzovanom modeli nepredstavuje významný problém a odhadnuté regresné vzťahy sú stabilné a interpretovateľné. Zvolený regresný model je preto vhodný na analýzu vzťahov medzi charakteristikami dopravných nehôd a počtom zranení.


