S využitím databázy dopravných nehôd budem analyzovať faktory, ktoré
súvisia s počtom zranených pri nehode.
Organizácia priečinkov a podpriečinkov sa však môže líšiť v
závislosti od projektu, preto cestu nezaraďujem do Chunk-u.
Nie všetky údaje budú použité, preto som vybrala len niektoré stĺpce
pre neskoršie použitie.
Príprava databázy, čistenie a úprava údajov
Keďže niektoré údaje chýbajú, doplnila som ich mediánovými hodnotami
premennej, ktorú zvažujem.
# Načítanie údajov o dopravných nehodách
udaje <- read.csv("premavka.csv.csv", dec=".", sep=",", header = TRUE)
# Vyberiem len premenné, ktoré budem používať v analýze
udaje.sub <- udaje[, c("injuries_total",
"num_units",
"crash_hour",
"crash_day_of_week",
"crash_month")]
# Doplnenie chýbajúcich hodnôt mediánom (imputácia)
column_medians <- sapply(udaje.sub, median, na.rm = TRUE)
udaje_imputed <- udaje.sub
for (col in names(udaje.sub)) {
udaje_imputed[[col]][is.na(udaje_imputed[[col]])] <- column_medians[col]
}
udaje.sub <- udaje_imputed
Teraz chcem vizuálne preskúmať tvar jednotlivých premenných a overiť,
či sa v údajoch nenachádzajú nezrovnalosti, napríklad extrémne alebo
nulové hodnoty. Na tento účel využívam boxploty, ktoré umožňujú rýchlu
identifikáciu odľahlých pozorovaní a základných charakteristík
rozdelenia dát.
# Predpokladáme, že udaje.sub je dátový rámec s vybranými premennými
# Počet premenných
num_plots <- length(names(udaje.sub))
# Nastavenie rozloženia grafov: 2 x 2
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1)) # úprava okrajov
# Vykreslenie boxplotov pre každú premennú
for (col in names(udaje.sub)) {
boxplot(udaje.sub[[col]],
main = col,
xlab = "Hodnota",
col = "lightblue")
}

# Spoločný nadpis
mtext("Boxploty jednotlivých premenných", outer = TRUE, cex = 1.4, font = 2)

NA
NA
Lineárna regresia
Model odhadujem príkazom lm(). Vysvetľovanou premennou je
počet zranených pri dopravnej nehode
(injuries_total). Ako vysvetľujúce premenné som zvolila
počet zapojených vozidiel (num_units) a
časové charakteristiky nehody, konkrétne hodinu nehody
(crash_hour), deň v týždni (crash_day_of_week) a
mesiac nehody (crash_month).
model <- lm(
injuries_total ~ +1 + num_units + crash_hour + crash_day_of_week + crash_month,
data = udaje.sub
)
summary(model)
Call:
lm(formula = injuries_total ~ +1 + num_units + crash_hour + crash_day_of_week +
crash_month, data = udaje.sub)
Residuals:
Min 1Q Median 3Q Max
-2.9330 -0.3719 -0.3518 0.3171 20.9325
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2478411 0.0110628 -22.403 < 2e-16 ***
num_units 0.3233581 0.0043563 74.227 < 2e-16 ***
crash_hour -0.0024418 0.0003085 -7.916 2.46e-15 ***
crash_day_of_week -0.0059035 0.0008787 -6.718 1.84e-11 ***
crash_month 0.0030261 0.0005033 6.013 1.82e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared: 0.02626, Adjusted R-squared: 0.02624
F-statistic: 1411 on 4 and 209301 DF, p-value: < 2.2e-16
Objekt triedy lm() mi po odhadnutí modelu poskytuje viacero
užitočných výstupov, ktoré môžem využiť pri interpretácii a diagnostike
regresie:
- Vektor odhadnutých koeficientov model$coefficients –
ukazuje odhadovaný vplyv premenných (num_units,
crash_hour, crash_day_of_week, crash_month)
na vysvetľovanú premennú injuries_total.
- Vektor rezíduí model$residuals – rozdiely medzi skutočnými
hodnotami injuries_total a hodnotami predikovanými
modelom.
- Vektor vyrovnaných hodnôt vysvetľovanej premennej
model$fitted.values – modelom vypočítané (predikované) hodnoty
počtu zranených pri nehode.
- Matica vysvetľujúcich premenných X model.matrix(model) –
numerická matica premenných zahrnutých v modeli, ktorú regresia používa
pri výpočtoch.
Prehľad základných výsledkov a štatistickej významnosti získam
pomocou príkazu summary(model).
Keďže všetky potrebné informácie viem získať priamo z objektu
model, môžem si ich v prípade potreby vypísať aj jednotlivo.
Pre prehľadnosť však budem ďalej pracovať najmä so súhrnom modelu
pomocou príkazu summary(model), ktorý obsahuje koeficienty, ich
štatistickú významnosť, informácie o rezíduách aj celkové vlastnosti
modelu.
#print("Odhadnuté regresné koeficienty sú: ")
#print(model$coefficients)
#print("Odhadnuté rezíduá sú: ")
#print(model$residuals)
#print("Vyrovnané (predikované) hodnoty vysvetľovanej premennej sú: ")
#print(model$fitted.values)
#print("Matica vysvetľujúcich premenných X (model.matrix) je: ")
#print(model.matrix(model))
# (voliteľné) diagnostika vplyvu pozorovaní – diagonála hat-matrix:
#X <- model.matrix(model)
#diag(X %*% solve(t(X) %*% X) %*% t(X))
summary(model)
Call:
lm(formula = injuries_total ~ +1 + num_units + crash_hour + crash_day_of_week +
crash_month, data = udaje.sub)
Residuals:
Min 1Q Median 3Q Max
-2.9330 -0.3719 -0.3518 0.3171 20.9325
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2478411 0.0110628 -22.403 < 2e-16 ***
num_units 0.3233581 0.0043563 74.227 < 2e-16 ***
crash_hour -0.0024418 0.0003085 -7.916 2.46e-15 ***
crash_day_of_week -0.0059035 0.0008787 -6.718 1.84e-11 ***
crash_month 0.0030261 0.0005033 6.013 1.82e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7892 on 209301 degrees of freedom
Multiple R-squared: 0.02626, Adjusted R-squared: 0.02624
F-statistic: 1411 on 4 and 209301 DF, p-value: < 2.2e-16
Súhrn odhadovaného regresného modelu poskytuje súbor odhadnutých
regresných koeficientov, ktorých znamienka a štatistická významnosť budú
podrobnejšie interpretované v ďalšej časti analýzy. Ak sa však zameriame
na vlastnosti modelu ako celku, je potrebné najskôr overiť, či sú
splnené základné predpoklady lineárnej regresie.
Na tento účel využívam diagnostické grafy regresného modelu.
Prostredníctvom Q–Q grafu posudzujem predpoklad
normality rezíduí, zatiaľ čo ostatné diagnostické grafy mi umožňujú
identifikovať prípadné problémy s heteroskedasticitou, nelinearitou
alebo prítomnosťou vplyvných pozorovaní. Na základe týchto grafov si
viem vytvoriť prvotný dojem o vhodnosti zvoleného modelu a o tom, či je
možné jeho výsledky považovať za spoľahlivé.
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))
# Vykresliť všetky 4 diagnostické grafy modelu
plot(model)
# Resetovať layout
par(mfrow = c(1, 1))

Residuals vs. Fitted
Interpretácia konkrétneho grafu
Centrovanie okolo nuly
Rezíduá kolíšu približne okolo hodnoty 0, čo je žiaduci stav. Naznačuje
to, že model nemá systematickú tendenciu nadhodnocovať alebo
podhodnocovať počet zranených pri dopravných nehodách.
Tvar vzťahu
Červená vyhladzovacia čiara (LOESS) vykazuje mierne zakrivenie, čo môže
naznačovať slabú nelinearitu medzi vysvetľujúcimi premennými (najmä
časovými charakteristikami nehody) a počtom zranených. Tento efekt však
nie je výrazný a nepredstavuje zásadný problém pre interpretáciu
modelu.
Rozptyl rezíduí
Vertikálny rozptyl rezíduí sa javí ako približne konštantný v celom
rozsahu vyrovnaných hodnôt, čo naznačuje splnenie predpokladu
homoskedasticity.
Odľahlé pozorovania
Niekoľko bodov sa nachádza ďalej od ostatných, čo môže predstavovať
nehody s mimoriadne vysokým alebo nízkym počtom zranených. Tieto
pozorovania je možné ďalej preskúmať pomocou testu
outlierTest(model) z balíka car.
Q–Q Plot
Čo graf znázorňuje
- Os X predstavuje teoretické kvantily normálneho rozdelenia.
- Os Y zobrazuje štandardizované rezíduá modelu.
- Prerušovaná diagonála predstavuje ideálny prípad, v ktorom by
rezíduá mali normálne rozdelenie.
Interpretácia konkrétneho grafu
Celkový tvar rozdelenia
Väčšina bodov sa nachádza blízko referenčnej priamky, čo naznačuje, že
rezíduá sú približne normálne rozložené.
Krajné hodnoty
Na oboch koncoch grafu dochádza k miernym odchýlkam od priamky, čo môže
signalizovať prítomnosť extrémnych hodnôt – napríklad nehôd s
neštandardným počtom zranených.
Stredná časť rozdelenia
V centrálnej oblasti grafu (okolo mediánu) rezíduá veľmi dobre kopírujú
teoretickú priamku, čo znamená, že väčšina pozorovaní spĺňa predpoklad
normality.
Na základe Q–Q grafu možno konštatovať, že predpoklad normality
rezíduí je v prijateľnej miere splnený, aj keď s miernymi odchýlkami v
extrémoch.
Scale–Location Plot
Čo graf znázorňuje
- Os X predstavuje vyrovnané hodnoty závislej premennej (predikovaný
počet zranených).
- Os Y zobrazuje druhú odmocninu absolútnych štandardizovaných
rezíduí.
- Červená čiara predstavuje vyhladený trend (LOESS).
Interpretácia konkrétneho grafu
Homoskedasticita
Body sú rovnomerne rozptýlené pozdĺž osi X a nevytvárajú lievikovitý
tvar. To naznačuje, že variancia rezíduí je približne konštantná.
Trend vyhladzovacej krivky
Červená LOESS krivka je takmer horizontálna, čo podporuje predpoklad, že
rozptyl rezíduí sa nemení s rastúcimi vyrovnanými hodnotami.
Odľahlé hodnoty
Niekoľko bodov sa nachádza mierne vyššie, avšak nejde o extrémne
pozorovania, ktoré by výrazne narušovali stabilitu modelu.
Residuals vs. Leverage
Čo graf znázorňuje
- Os X predstavuje pákový efekt pozorovaní, ktorý vyjadruje, ako veľmi
sa dané pozorovanie líši od ostatných z hľadiska vysvetľujúcich
premenných.
- Os Y zobrazuje štandardizované rezíduá.
- Bodkované krivky znázorňujú kontúry Cookovej vzdialenosti, ktoré
identifikujú potenciálne vplyvné pozorovania.
Interpretácia konkrétneho grafu
Rozloženie vplyvu
Väčšina pozorovaní má nízky pákový efekt, čo je typické pre dobre
štruktúrované dáta o dopravných nehodách.
Veľkosť rezíduí
Štandardizované rezíduá sa prevažne pohybujú v intervale ⟨−2, 2⟩, čo
naznačuje absenciu extrémnych chýb modelu.
Vplyvné pozorovania
Niektoré pozorovania sa nachádzajú bližšie ku kontúram Cookovej
vzdialenosti, avšak žiadne z nich neprekračuje kritické hranice. Z toho
vyplýva, že žiadna nehoda neovplyvňuje regresné koeficienty
neprimerane.
# Test normality rezíduí
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
jb_test
Jarque Bera Test
data: residuals
X-squared = 4841155, df = 2, p-value < 2.2e-16
# Test odľahlých pozorovaní (Bonferroni)
outlier_test <- outlierTest(model)
outlier_test
NA
Na overenie predpokladu normality rezíduí som použila Jarque–Bera
test. Nulová hypotéza testu predpokladá, že rezíduá majú normálne
rozdelenie. Výsledky testu naznačujú, že rezíduá sa môžu odchyľovať od
normálneho rozdelenia, čo je pri dátach o dopravných nehodách pomerne
časté, keďže počet zranených môže nadobúdať extrémne hodnoty pri
závažných nehodách.
Zároveň som pomocou funkcie outlierTest() identifikovala potenciálne
odľahlé a vplyvné pozorovania. Výsledky testu poukazujú na existenciu
niekoľkých pozorovaní, ktoré môžu mať neprimerane veľký vplyv na odhad
regresných koeficientov. Ide najmä o nehody s mimoriadne vysokým počtom
zranených, ktoré môžu narúšať splnenie predpokladov lineárnej
regresie.
Na základe výsledkov týchto testov sa rozhodnem upraviť pôvodný model
transformáciou vysvetľovanej premennej injuries_total, aby som
znížila vplyv extrémnych hodnôt a zlepšila vlastnosti modelu.
udaje.sub$log_injuries <- log(udaje.sub$injuries_total + 1)
model2 <- lm(
log_injuries ~ num_units + crash_hour + crash_day_of_week + crash_month,
data = udaje.sub
)
summary(model2)
Call:
lm(formula = log_injuries ~ num_units + crash_hour + crash_day_of_week +
crash_month, data = udaje.sub)
Residuals:
Min 1Q Median 3Q Max
-1.3932 -0.2191 -0.2080 0.3322 3.0102
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0647948 0.0055820 -11.608 < 2e-16 ***
num_units 0.1484818 0.0021981 67.551 < 2e-16 ***
crash_hour -0.0012759 0.0001556 -8.198 2.46e-16 ***
crash_day_of_week -0.0032113 0.0004434 -7.243 4.41e-13 ***
crash_month 0.0017661 0.0002539 6.955 3.53e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3982 on 209301 degrees of freedom
Multiple R-squared: 0.02207, Adjusted R-squared: 0.02205
F-statistic: 1181 on 4 and 209301 DF, p-value: < 2.2e-16
# Nastaviť rozloženie 2 x 2
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1)) # ZMENŠÍ OKRAJE
# Vykresliť všetky 4 diagnostické grafy modelu
plot(model2)
# (Voliteľné) pridať spoločný nadpis
#mtext("Diagnostické grafy regresného modelu", outer = TRUE, cex = 1.2, font = 2)
# Resetovať layout
par(mfrow = c(1, 1))

# Test normality rezíduí (model2)
residuals <- residuals(model2)
jb_test <- jarque.bera.test(residuals)
jb_test
Jarque Bera Test
data: residuals
X-squared = 115371, df = 2, p-value < 2.2e-16
# Test odľahlých pozorovaní (Bonferroni korekcia)
outlier_test <- outlierTest(model2)
outlier_test
Záver o analýze odľahlých hodnôt
Na základe vykonanej analýzy môžem konštatovať, že vybrané
vysvetľujúce premenné majú štatisticky významný vplyv na vysvetľovanú
premennú súvisiacu s dopravnými nehodami. Niektoré premenné sa v
pôvodnom modeli ukázali ako menej vhodné alebo ťažko interpretovateľné,
a preto bol model v ďalšom kroku upravený.
Testy normality a diagnostické grafy naznačili prítomnosť odľahlých
pozorovaní, ktoré sú typické pre dáta z oblasti dopravy, kde sa
vyskytujú extrémne situácie (napr. nehody s vysokým počtom zranených). Z
tohto dôvodu bola použitá logaritmická transformácia vysvetľovanej
premenne,ktorá prispela k zmierneniu vplyvu extrémnych hodnôt.
V upravenom modeli sa nepreukázali výrazné vplyvné pozorovania ani
závažné nelinearity. Na základe toho možno výsledky regresnej analýzy
považovať za primerané a model za vhodný na ďalšiu interpretáciu.
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) môže viesť k nesprávnemu vyhodnocovaniu t-testov
významnosti jednotlivých regresných koeficientov. Z tohto dôvodu je
nevyhnutné heteroskedasticitu
- detekovať (vizuálne aj pomocou štatistických testov),
- a v prípade jej prítomnosti ju vhodným spôsobom
eliminovať.
V prípade databázy dopravných nehôd je možné heteroskedasticitu
očakávať, keďže počet nehôd a ich následky sa môžu výrazne líšiť v
závislosti od času, dňa alebo iných charakteristík premávky. Aj preto
som sa zamerala na jej posúdenie prostredníctvom diagnostických
grafov.
Na tento účel budem porovnávať dva regresné modely – pôvodný model
označený ako model a upravený model model2, v ktorom
bola použitá logaritmická transformácia vysvetľovanej premennej. Cieľom
tejto úpravy bolo zníženie vplyvu extrémnych hodnôt a stabilizácia
rozptylu rezíduí.
library(ggplot2)
library(patchwork)
df_res <- model.frame(model2)
df_res$res2 <- resid(model2)^2
set.seed(123)
df_plot <- df_res[sample(nrow(df_res), min(3000, nrow(df_res))), ]
p1 <- ggplot(df_plot, aes(x = num_units, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(
x = "Počet zúčastnených vozidiel",
y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. počet vozidiel"
) +
theme_minimal()
p2 <- ggplot(df_plot, aes(x = crash_hour, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(
x = "Hodina nehody",
y = "Štvorce rezíduí",
title = "Štvorce rezíduí vs. hodina nehody"
) +
theme_minimal()
print(p1 + p2)

NA
NA
a teraz model so zlogaritmizovanou premennou num_units.
library(ggplot2)
library(patchwork)
df_res <- model.frame(model2)
df_res$res2 <- resid(model2)^2
df_res <- df_res[
is.finite(df_res$res2) &
!is.na(df_res$num_units) &
!is.na(df_res$crash_hour),
]
set.seed(123)
df_plot <- df_res[sample(nrow(df_res), min(3000, nrow(df_res))), ]
p1 <- ggplot(df_plot, aes(x = log(num_units + 1), y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "log(num_units + 1)",
y = "Squared Residuals",
title = "Residuals vs log(num_units + 1)") +
theme_minimal()
p2 <- ggplot(df_plot, aes(x = crash_hour, y = res2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE) +
labs(x = "crash_hour",
y = "Squared Residuals",
title = "Residuals vs crash_hour") +
theme_minimal()
p1 + p2

NA
NA
Na tomto obrázku podľa vyhladených hodnôt štvorcov rezíduí (vyhladená
krivka v grafe) môžem konštatovať, že nevidím výrazný rast ani pokles
rozptylu rezíduí v závislosti od vysvetľujúcich premenných.
V grafe Residuals vs log(num_units + 1) je väčšina bodov
sústredená pri nižších hodnotách počtu zúčastnených vozidiel a vyhladená
krivka nevykazuje jasný trend, ktorý by naznačoval systematické
zvyšovanie variability.
V grafe Residuals vs crash_hour sa takisto neukazuje
jednoznačný vývoj rozptylu rezíduí v priebehu dňa – vyhladená krivka je
len mierne rastúca, čo môže naznačovať slabý efekt, ale nie výraznú
heteroskedasticitu.
Preto na základe vizuálneho posúdenia nevidím silný dôkaz
heteroskedasticity. Tento záver však následne overím formálnym testom
(napr. Breusch–Pagan testom).
Testovanie prítomnosti heteroskedasticity
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model)
studentized Breusch-Pagan test
data: model
BP = 1823, df = 4, p-value < 2.2e-16
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model2)
studentized Breusch-Pagan test
data: model2
BP = 2957.9, df = 4, p-value < 2.2e-16
Na základe Breusch–Paganovho testu môžeme konštatovať, že
heteroskedasticita rezíduí je prítomná v pôvodnom modeli
(model) aj v upravenom modeli (model2), keďže
v oboch prípadoch bola nulová hypotéza o konštantnom rozptyle zamietnutá
(p-hodnota < 0,05).
Logaritmická transformácia vysvetľovanej premennej síce zlepšila tvar
rezíduí a ich vizuálne správanie, avšak heteroskedasticitu sa
tým nepodarilo úplne odstrániť. V ďalšej analýze je preto
vhodné pracovať s robustnými (heteroskedasticity-consistent) odhadmi
rozptylov regresných koeficientov, aby boli výsledky testov štatistickej
významnosti spoľahlivé.
#install.packages("sandwich")
#install.packages("lmtest")
library(sandwich)
library(lmtest)
coeftest(model, vcov = vcovHC(model))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24784106 0.01823464 -13.5918 < 2.2e-16 ***
num_units 0.32335812 0.00826524 39.1226 < 2.2e-16 ***
crash_hour -0.00244183 0.00034277 -7.1238 1.053e-12 ***
crash_day_of_week -0.00590350 0.00091434 -6.4565 1.074e-10 ***
crash_month 0.00302614 0.00048532 6.2353 4.517e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Všimnime si, že po použití heteroskedasticity-robustných (White)
odhadov rozptylov zostávajú všetky vysvetľujúce premenné
štatisticky významné. To znamená, že aj po korekcii na
heteroskedasticitu sú vzťahy zachytené modelom stabilné a výsledky
testov štatistickej významnosti možno považovať za spoľahlivé.
Použitie tejto metódy je vhodné najmä pri väčšom počte
pozorovaní, čo je v prípade databázy dopravných nehôd splnené.
Alternatívnym riešením heteroskedasticity by bola transformácia alebo
škálovanie niektorých premenných (napr. prepočet na mieru na jednotku
času alebo vozidlo), avšak takéto úpravy by mohli znížiť interpretačnú
prehľadnosť modelu. Z tohto dôvodu považujem použitie robustných odhadov
za primerané riešenie v rámci tejto analýzy.
