Úvod
Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy
exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné
rozdeliť pozorovania do homogénnych skupín, napríklad pri segmentácii
zákazníkov v marketingu, identifikácii podobných regiónov podľa
ekonomických ukazovateľov, hodnotení zdravotných alebo bezpečnostných
rizík, či pri analýze dopravných nehôd. Jej výhodou je schopnosť
pracovať s viacerými premennými súčasne a odhaliť vzory v dátach, ktoré
by pri samostatnom hodnotení jednotlivých ukazovateľov mohli zostať
skryté. Vhodná voľba metriky vzdialenosti a metódy zhlukovania umožňuje
identifikovať podobné skupiny pozorovaní a poskytuje tak cenný podklad
pre ďalšiu analýzu a rozhodovanie.
V tejto časti práce aplikujeme zhlukovú analýzu na prierezové údaje o
dopravných nehodách, pričom cieľom je identifikovať skupiny nehôd s
podobnými charakteristikami. Analýza vychádza z vybraných premenných,
ako je počet zranení pri nehode, počet zúčastnených vozidiel, čas
nehody, mesiac a deň v týždni. V Tab. 1 je uvedená
databáza použitá v zhlukovej analýze.
library(knitr)
library(kableExtra)
# PRÍPRAVA DÁT PRE ZHLUKOVÚ ANALÝZU – DOPRAVNÉ NEHODY
rm(list = ls())
udaje <- read.csv("premavka.csv.csv", stringsAsFactors = FALSE)
# výber premenných vhodných pre klastrovanie
udaje_cluster <- udaje[, c(
"injuries_total",
"num_units",
"crash_hour",
"crash_month",
"crash_day_of_week"
)]
# odstránenie chýbajúcich hodnôt
udaje_cluster <- na.omit(udaje_cluster)
# náhodný výber podvzorky
set.seed(123)
udaje_cluster <- udaje_cluster[sample(nrow(udaje_cluster), 5000), ]
udaje_scaled <- scale(udaje_cluster)
summary(udaje_scaled)
injuries_total num_units crash_hour crash_month crash_day_of_week
Min. :-0.4791 Min. :-2.8462 Min. :-2.3857 Min. :-1.69345 Min. :-1.62337
1st Qu.:-0.4791 1st Qu.:-0.1606 1st Qu.:-0.7820 1st Qu.:-0.81753 1st Qu.:-0.60424
Median :-0.4791 Median :-0.1606 Median : 0.1089 Median : 0.05839 Median :-0.09468
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.00000 Mean : 0.00000
3rd Qu.: 0.8229 3rd Qu.:-0.1606 3rd Qu.: 0.6435 3rd Qu.: 0.93432 3rd Qu.: 0.92445
Max. : 9.9369 Max. :13.2673 Max. : 1.7126 Max. : 1.51827 Max. : 1.43402
Table 1.
# sumár vybraných premenných
summary(udaje_cluster)
injuries_total num_units crash_hour crash_month crash_day_of_week
Min. :0.000 Min. :1.00 Min. : 0.00 Min. : 1.0 Min. :1.000
1st Qu.:0.000 1st Qu.:2.00 1st Qu.: 9.00 1st Qu.: 4.0 1st Qu.:3.000
Median :0.000 Median :2.00 Median :14.00 Median : 7.0 Median :4.000
Mean :0.368 Mean :2.06 Mean :13.39 Mean : 6.8 Mean :4.186
3rd Qu.:1.000 3rd Qu.:2.00 3rd Qu.:17.00 3rd Qu.:10.0 3rd Qu.:6.000
Max. :8.000 Max. :7.00 Max. :23.00 Max. :12.0 Max. :7.000
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi
jednotlivými dopravnými nehodami. Aby boli tieto vzdialenosti
porovnateľné, je potrebné, aby všetky použité premenné boli definované
na rovnakej škále. Z tohto dôvodu aplikujeme tzv. z-škálovanie
premenných.
Transformované hodnoty (z-skóre) vypočítame podľa vzorca
\[z = \frac{x-\mu}{\sigma}\]
kde \(\mu\) je stredná hodnota a
\(\sigma\) je štandardná odchýlka
pozorovaní \(x\). Predpokladáme pritom,
že analyzovaný súbor údajov už neobsahuje chýbajúce hodnoty (NA), ktoré
boli ošetrené v predchádzajúcich krokoch analýzy.
Touto transformáciou zabezpečíme, že premenné ako počet zranení,
počet zúčastnených vozidiel, čas nehody, mesiac nehody a deň v týždni
majú rovnakú váhu pri výpočte vzdialeností. Výsledkom sú štandardizované
pozorovania, ktorých rozdelenie je znázornené na nasledujúcom grafe.
# =======================================================
## 1) Príprava údajov a data.frame so šlálovanými údajmi
## ======================================================
# výber premenných použitých v zhlukovej analýze
udaje_cluster <- udaje[, c("injuries_total",
"num_units",
"crash_hour",
"crash_month",
"crash_day_of_week")]
# odstránenie chýbajúcich hodnôt (ak by sa ešte vyskytovali)
udaje_cluster_complete <- na.omit(udaje_cluster)
# z-škálovanie premenných
udaje_scaled <- scale(udaje_cluster_complete)
Obr. 1.
# premena škálovaných údajov na data.frame
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)
# rozloženie grafov
par(mfrow = c(ceiling(sqrt(num_plots)),
ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))
# vykreslenie boxplotov
for (col in names(num_vars)) {
boxplot(num_vars[[col]],
main = col,
col = "lightblue",
horizontal = TRUE)
}
mtext("Boxploty škálovaných premenných dopravných nehôd",
outer = TRUE, cex = 1.3, font = 2)

NA
NA
Tentokrát odľahlé hodnoty nevylúčime, nakoľko predstavujú špecifické
dopravné nehody, ktoré sú prirodzenou súčasťou analyzovaného súboru
údajov a môžu niesť dôležitú informačnú hodnotu.
Pri zhlukovej analýze je dôležité analyzovať korelačnú maticu
použitých premenných. Vysoká korelácia medzi premennými môže viesť k ich
neúmernému zvýhodneniu pri tvorbe zhlukov. Zvyčajne sa preto pri
korelácii vyššej ako 0,8 alebo 0,9 jedna z korelovaných premenných
vylučuje.
V Tab. 2. sa však takto vysoké hodnoty korelácie
medzi analyzovanými premennými nevyskytujú, a preto nie je potrebné
pristúpiť k ich redukcii.
V prípade výskytu väčšieho počtu silne korelovaných premenných by
bolo vhodné zvážiť transformáciu dát pomocou analýzy hlavných
komponentov (Principal Component Analysis).
Tab. 2
cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")
cor_mat <- round(cor_mat,2)
print(cor_mat)
injuries_total num_units crash_hour crash_month crash_day_of_week
injuries_total 1.00 0.16 -0.02 0.01 -0.02
num_units 0.16 1.00 0.02 0.00 0.00
crash_hour -0.02 0.02 1.00 0.00 0.06
crash_month 0.01 0.00 0.00 1.00 -0.01
crash_day_of_week -0.02 0.00 0.06 -0.01 1.00
Každému riadku v databáze zodpovedá jedna dopravná nehoda.
Vzdialenosť medzi dvoma nehodami i a j definujeme pomocou euklidovskej
vzdialenosti
\[
d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2}
\]
kde \(x^i_k\) predstavuje hodnotu
\(k\)tej premennej (počet zranení,
počet zúčastnených vozidiel, hodina nehody, mesiac nehody a deň v
týždni) pri \(i\)tej nehode. Tento typ
vzdialenosti označujeme ako euklidovskú vzdialenosť.
Vzdialenosti medzi jednotlivými nehodami sú súhrnne zachytené v
matici vzdialeností uvedenej v Tab. 3. Keďže ide o
veľký súbor pozorovaní, matica vzdialeností slúži najmä ako vstup pre
následnú hierarchickú zhlukovú analýzu, ktorá umožňuje identifikovať
skupiny podobných dopravných nehôd na základe zvolených
charakteristík.
Tab. 3
## ============================
## 3) Distance matrix
## ============================
set.seed(123)
udaje_cluster <- udaje_cluster[sample(nrow(udaje_cluster), min(5000, nrow(udaje_cluster))), ]
# škálovanie
udaje_scaled <- scale(udaje_cluster)
# euklidovská vzdialenosť
dist_mat <- dist(udaje_scaled, method = "euclidean")
# prehľadnosť: prvých 10x10
round(as.matrix(dist_mat)[1:10, 1:10], 2)
182735 188942 134058 124022 160997 103065 124507 199365 193627 45404
182735 0.00 2.61 2.77 1.15 6.70 1.80 2.81 1.07 3.81 1.25
188942 2.61 0.00 2.38 1.88 5.85 1.68 2.09 2.21 2.55 2.72
134058 2.77 2.38 0.00 2.99 6.88 3.16 3.76 2.69 4.04 2.69
124022 1.15 1.88 2.99 0.00 6.27 1.03 2.09 1.32 3.29 1.86
160997 6.70 5.85 6.88 6.27 0.00 6.09 6.11 6.33 5.47 6.48
103065 1.80 1.68 3.16 1.03 6.09 0.00 1.07 1.29 3.12 2.39
124507 2.81 2.09 3.76 2.09 6.11 1.07 0.00 2.11 3.40 3.34
199365 1.07 2.21 2.69 1.32 6.33 1.29 2.11 0.00 3.20 1.37
193627 3.81 2.55 4.04 3.29 5.47 3.12 3.40 3.20 0.00 3.14
45404 1.25 2.72 2.69 1.86 6.48 2.39 3.34 1.37 3.14 0.00
Matica vzdialeností vyjadruje mieru podobnosti medzi jednotlivými
pozorovaniami – čím je hodnota nižšia, tým sú si pozorovania
podobnejšie. Pre lepšiu prehľadnosť je zobrazený len výrez matice pre
prvé pozorovania.
Princíp hierarchického zhlukovania (Wardova metóda)
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor,
t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto
metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje
nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva
nasledovné výpočty:
Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares
- ESS)
\[ESS(C) = \sum_{i \in C} \lVert x_i -
\bar{x}_C \rVert^2\] kde \(C\)
je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov,
Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom
\[\Delta ESS = ESS(A \cup B) - ESS(A) -
ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii
vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To
spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k
odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích
metódach.
Obr. 2. Hierarchické zhlukovanie - dendogram.
Červená čiara určuje rez definujúci tri klastre.
## ============================
## 4) Hierarchical klastering
## ============================
# vzorka riadkov, ktorú použijeme v clusteringu
set.seed(123)
idx <- sample(seq_len(nrow(udaje_cluster_complete)),
min(5000, nrow(udaje_cluster_complete)))
udaje_sample <- udaje_cluster_complete[idx, ]
# škálovanie len na vzorke
udaje_scaled <- scale(udaje_sample)
# vzdialenosti + zhlukovanie
dist_mat <- dist(udaje_scaled, method = "euclidean")
hc <- hclust(dist_mat, method = "ward.D2")
#
labels_nehody <- paste0("Nehoda_", idx)
plot(hc, labels = FALSE,
main = "Hierarchické zhlukovanie dopravných nehôd (Ward.D2)",
xlab = "", sub = "")
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)

klaster_membership <- cutree(hc, k = k)
udaje_klasters <- data.frame(
nehoda_id = labels_nehody,
udaje_sample,
klaster = factor(klaster_membership)
)
Na obrázku je zobrazený dendrogram hierarchického zhlukovania
dopravných nehôd pomocou Wardovej metódy. Na základe rezu dendrogramu
(červená čiara) boli identifikované tri klastre, ktoré združujú nehody s
podobnými charakteristikami. Výsledky naznačujú existenciu troch
odlišných skupín dopravných nehôd v dátach, pričom zhluky sú relatívne
homogénne a bez výrazného vplyvu odľahlých pozorovaní.
Tab.4. Príslušnosť krajín do klastrov.
data_prac <- data.frame(
nehoda_id = udaje_klasters$nehoda_id,
klaster = udaje_klasters$klaster
)
data_prac
NA
Klastrová analýza rozdelila dopravné nehody do troch klastrov, ktoré
reprezentujú skupiny nehôd s podobnými charakteristikami. Jednotlivé
klastre sa líšia kombináciou sledovaných premenných, pričom každý
klaster združuje nehody s podobným priebehom a časovými alebo
kvantitatívnymi znakmi.
Deskriptívne štatistiky výsledkov
Na základe Tab. 5 môžeme konštatovať, že väčšina
premenných vykazuje relatívne nízku vnútroklastrovú variabilitu, čo
naznačuje dobrú separáciu klastrov. Najväčší príspevok k rozlíšeniu
klastrov má premenná num_units, zatiaľ čo premenné crash_hour a
crash_day_of_week prispievajú k diferenciácii klastrov v menšej
miere.
Tab. 5. Vysvetlenie vnútroklastrovej variability z
hľadiska jednotlivých premenných
## ============================
## 5) Variability measures
## ============================
# funkcia na výpočet sumy štvorcov
ssq <- function(x, m) sum((x - m)^2)
var_names <- colnames(udaje_scaled)
# Total Sum of Squares
TSS <- sapply(var_names, function(v) {
ssq(udaje_scaled[, v], mean(udaje_scaled[, v]))
})
# Within-cluster Sum of Squares
WSS <- sapply(var_names, function(v) {
x <- udaje_scaled[, v]
sum(tapply(x, klaster_membership, function(z) ssq(z, mean(z))))
})
# Between-cluster Sum of Squares
BSS <- TSS - WSS
ss_table <- data.frame(
Variable = var_names,
TSS = TSS,
WSS = WSS,
BSS = BSS,
Prop_Between = BSS / TSS
)
ss_table
NA
Tabuľka sumarizuje rozklad variability jednotlivých premenných na
celkovú variabilitu (TSS), variabilitu vnútri klastrov (WSS) a
variabilitu medzi klastrami (BSS). Podiel variability vysvetlenej
klastrami naznačuje, ktoré premenné najviac prispievajú k rozlíšeniu
jednotlivých zhlukov dopravných nehôd.
# spojenie pôvodných (neoškálovaných) údajov vzorky s klastrami
udaje_klasters_final <- data.frame(
udaje_sample,
klaster = factor(klaster_membership)
)
# kontrola
head(udaje_klasters_final)
Ku každej dopravnej nehode vo vybranej vzorke bola následne priradená
príslušnosť ku klastru získaná hierarchickou zhlukovou analýzou. Táto
tabuľka slúži ako podklad pre ďalšiu interpretáciu charakteristík
jednotlivých zhlukov.
Tab. 6. Centroidy - priemerné hodnoty sledovaných
premenných
library(dplyr)
descriptives <- udaje_klasters_final %>%
group_by(klaster) %>%
summarise(
across(
.cols = where(is.numeric),
.fns = ~mean(.x, na.rm = TRUE),
.names = "{.col}_mean"
)
)
descriptives
NA
Tab. 6. uvádza priemerné hodnoty sledovaných
premenných v jednotlivých klastroch dopravných nehôd. Z výsledkov
vyplýva, že tretí klaster je charakterizovaný najvyšším priemerným
počtom zranení a zároveň vyšším počtom zúčastnených vozidiel, čo
naznačuje závažnejšie nehody. Prvý klaster naopak zahŕňa menej závažné
nehody s nižším priemerným počtom zranení a vozidiel. Druhý klaster
predstavuje prechodnú skupinu s hodnotami medzi prvým a tretím
klastrom.
Záver
Predložená analýza sa zameriava na zhlukovú analýzu dopravných nehôd
na základe vybraných charakteristík, ako sú počet zranení, počet
zúčastnených vozidiel a časové aspekty nehody. Pomocou hierarchickej
zhlukovej analýzy (Wardova metóda) boli dopravné nehody rozdelené do
troch klastrov, ktoré reprezentujú skupiny nehôd s podobným priebehom a
mierou závažnosti. Výsledky poukazujú na existenciu menej závažných
nehôd, prechodných prípadov a skupiny nehôd s vyšším počtom zranení a
vozidiel. Uvedená analýza môže slúžiť ako podklad pre lepšie pochopenie
štruktúry dopravných nehôd a pre cielené návrhy opatrení v oblasti
dopravnej bezpečnosti.
