Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych skupín, napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných regiónov podľa ekonomických ukazovateľov, hodnotení zdravotných alebo bezpečnostných rizík, či pri analýze dopravných nehôd. Jej výhodou je schopnosť pracovať s viacerými premennými súčasne a odhaliť vzory v dátach, ktoré by pri samostatnom hodnotení jednotlivých ukazovateľov mohli zostať skryté. Vhodná voľba metriky vzdialenosti a metódy zhlukovania umožňuje identifikovať podobné skupiny pozorovaní a poskytuje tak cenný podklad pre ďalšiu analýzu a rozhodovanie.

V tejto časti práce aplikujeme zhlukovú analýzu na prierezové údaje o dopravných nehodách, pričom cieľom je identifikovať skupiny nehôd s podobnými charakteristikami. Analýza vychádza z vybraných premenných, ako je počet zranení pri nehode, počet zúčastnených vozidiel, čas nehody, mesiac a deň v týždni. V Tab. 1 je uvedená databáza použitá v zhlukovej analýze.

library(knitr)
library(kableExtra)
# PRÍPRAVA DÁT PRE ZHLUKOVÚ ANALÝZU – DOPRAVNÉ NEHODY


rm(list = ls())

udaje <- read.csv("premavka.csv.csv", stringsAsFactors = FALSE)

# výber premenných vhodných pre klastrovanie
udaje_cluster <- udaje[, c(
  "injuries_total",
  "num_units",
  "crash_hour",
  "crash_month",
  "crash_day_of_week"
)]

# odstránenie chýbajúcich hodnôt
udaje_cluster <- na.omit(udaje_cluster)

# náhodný výber podvzorky 
set.seed(123)
udaje_cluster <- udaje_cluster[sample(nrow(udaje_cluster), 5000), ]

udaje_scaled <- scale(udaje_cluster)

summary(udaje_scaled)
 injuries_total      num_units         crash_hour       crash_month       crash_day_of_week 
 Min.   :-0.4791   Min.   :-2.8462   Min.   :-2.3857   Min.   :-1.69345   Min.   :-1.62337  
 1st Qu.:-0.4791   1st Qu.:-0.1606   1st Qu.:-0.7820   1st Qu.:-0.81753   1st Qu.:-0.60424  
 Median :-0.4791   Median :-0.1606   Median : 0.1089   Median : 0.05839   Median :-0.09468  
 Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.00000   Mean   : 0.00000  
 3rd Qu.: 0.8229   3rd Qu.:-0.1606   3rd Qu.: 0.6435   3rd Qu.: 0.93432   3rd Qu.: 0.92445  
 Max.   : 9.9369   Max.   :13.2673   Max.   : 1.7126   Max.   : 1.51827   Max.   : 1.43402  

Table 1.

# sumár vybraných premenných
summary(udaje_cluster)
 injuries_total    num_units      crash_hour     crash_month   crash_day_of_week
 Min.   :0.000   Min.   :1.00   Min.   : 0.00   Min.   : 1.0   Min.   :1.000    
 1st Qu.:0.000   1st Qu.:2.00   1st Qu.: 9.00   1st Qu.: 4.0   1st Qu.:3.000    
 Median :0.000   Median :2.00   Median :14.00   Median : 7.0   Median :4.000    
 Mean   :0.368   Mean   :2.06   Mean   :13.39   Mean   : 6.8   Mean   :4.186    
 3rd Qu.:1.000   3rd Qu.:2.00   3rd Qu.:17.00   3rd Qu.:10.0   3rd Qu.:6.000    
 Max.   :8.000   Max.   :7.00   Max.   :23.00   Max.   :12.0   Max.   :7.000    

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi jednotlivými dopravnými nehodami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky použité premenné boli definované na rovnakej škále. Z tohto dôvodu aplikujeme tzv. z-škálovanie premenných.

Transformované hodnoty (z-skóre) vypočítame podľa vzorca

\[z = \frac{x-\mu}{\sigma}\]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že analyzovaný súbor údajov už neobsahuje chýbajúce hodnoty (NA), ktoré boli ošetrené v predchádzajúcich krokoch analýzy.

Touto transformáciou zabezpečíme, že premenné ako počet zranení, počet zúčastnených vozidiel, čas nehody, mesiac nehody a deň v týždni majú rovnakú váhu pri výpočte vzdialeností. Výsledkom sú štandardizované pozorovania, ktorých rozdelenie je znázornené na nasledujúcom grafe.

# =======================================================
## 1) Príprava údajov a data.frame so šlálovanými údajmi
## ======================================================

# výber premenných použitých v zhlukovej analýze
udaje_cluster <- udaje[, c("injuries_total",
                           "num_units",
                           "crash_hour",
                           "crash_month",
                           "crash_day_of_week")]

# odstránenie chýbajúcich hodnôt (ak by sa ešte vyskytovali)
udaje_cluster_complete <- na.omit(udaje_cluster)

# z-škálovanie premenných
udaje_scaled <- scale(udaje_cluster_complete)

Obr. 1.

# premena škálovaných údajov na data.frame
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)

# rozloženie grafov
par(mfrow = c(ceiling(sqrt(num_plots)),
              ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))

# vykreslenie boxplotov
for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main = col,
          col = "lightblue",
          horizontal = TRUE)
}

mtext("Boxploty škálovaných premenných dopravných nehôd",
      outer = TRUE, cex = 1.3, font = 2)

NA
NA

Tentokrát odľahlé hodnoty nevylúčime, nakoľko predstavujú špecifické dopravné nehody, ktoré sú prirodzenou súčasťou analyzovaného súboru údajov a môžu niesť dôležitú informačnú hodnotu.

Pri zhlukovej analýze je dôležité analyzovať korelačnú maticu použitých premenných. Vysoká korelácia medzi premennými môže viesť k ich neúmernému zvýhodneniu pri tvorbe zhlukov. Zvyčajne sa preto pri korelácii vyššej ako 0,8 alebo 0,9 jedna z korelovaných premenných vylučuje.

V Tab. 2. sa však takto vysoké hodnoty korelácie medzi analyzovanými premennými nevyskytujú, a preto nie je potrebné pristúpiť k ich redukcii.

V prípade výskytu väčšieho počtu silne korelovaných premenných by bolo vhodné zvážiť transformáciu dát pomocou analýzy hlavných komponentov (Principal Component Analysis).

Tab. 2

cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")
cor_mat <- round(cor_mat,2)
print(cor_mat)
                  injuries_total num_units crash_hour crash_month crash_day_of_week
injuries_total              1.00      0.16      -0.02        0.01             -0.02
num_units                   0.16      1.00       0.02        0.00              0.00
crash_hour                 -0.02      0.02       1.00        0.00              0.06
crash_month                 0.01      0.00       0.00        1.00             -0.01
crash_day_of_week          -0.02      0.00       0.06       -0.01              1.00

Každému riadku v databáze zodpovedá jedna dopravná nehoda. Vzdialenosť medzi dvoma nehodami i a j definujeme pomocou euklidovskej vzdialenosti

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \]

kde \(x^i_k\) predstavuje hodnotu \(k\)tej premennej (počet zranení, počet zúčastnených vozidiel, hodina nehody, mesiac nehody a deň v týždni) pri \(i\)tej nehode. Tento typ vzdialenosti označujeme ako euklidovskú vzdialenosť.

Vzdialenosti medzi jednotlivými nehodami sú súhrnne zachytené v matici vzdialeností uvedenej v Tab. 3. Keďže ide o veľký súbor pozorovaní, matica vzdialeností slúži najmä ako vstup pre následnú hierarchickú zhlukovú analýzu, ktorá umožňuje identifikovať skupiny podobných dopravných nehôd na základe zvolených charakteristík.

Tab. 3


## ============================
## 3) Distance matrix
## ============================

set.seed(123)
udaje_cluster <- udaje_cluster[sample(nrow(udaje_cluster), min(5000, nrow(udaje_cluster))), ]

# škálovanie
udaje_scaled <- scale(udaje_cluster)

# euklidovská vzdialenosť
dist_mat <- dist(udaje_scaled, method = "euclidean")

# prehľadnosť: prvých 10x10
round(as.matrix(dist_mat)[1:10, 1:10], 2)
       182735 188942 134058 124022 160997 103065 124507 199365 193627 45404
182735   0.00   2.61   2.77   1.15   6.70   1.80   2.81   1.07   3.81  1.25
188942   2.61   0.00   2.38   1.88   5.85   1.68   2.09   2.21   2.55  2.72
134058   2.77   2.38   0.00   2.99   6.88   3.16   3.76   2.69   4.04  2.69
124022   1.15   1.88   2.99   0.00   6.27   1.03   2.09   1.32   3.29  1.86
160997   6.70   5.85   6.88   6.27   0.00   6.09   6.11   6.33   5.47  6.48
103065   1.80   1.68   3.16   1.03   6.09   0.00   1.07   1.29   3.12  2.39
124507   2.81   2.09   3.76   2.09   6.11   1.07   0.00   2.11   3.40  3.34
199365   1.07   2.21   2.69   1.32   6.33   1.29   2.11   0.00   3.20  1.37
193627   3.81   2.55   4.04   3.29   5.47   3.12   3.40   3.20   0.00  3.14
45404    1.25   2.72   2.69   1.86   6.48   2.39   3.34   1.37   3.14  0.00

Matica vzdialeností vyjadruje mieru podobnosti medzi jednotlivými pozorovaniami – čím je hodnota nižšia, tým sú si pozorovania podobnejšie. Pre lepšiu prehľadnosť je zobrazený len výrez matice pre prvé pozorovania.

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares - ESS)

\[ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2\] kde \(C\) je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov, Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom

\[\Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích metódach.

Obr. 2. Hierarchické zhlukovanie - dendogram. Červená čiara určuje rez definujúci tri klastre.

## ============================
## 4) Hierarchical klastering
## ============================

# vzorka riadkov, ktorú použijeme v clusteringu
set.seed(123)
idx <- sample(seq_len(nrow(udaje_cluster_complete)),
              min(5000, nrow(udaje_cluster_complete)))

udaje_sample <- udaje_cluster_complete[idx, ]

# škálovanie len na vzorke
udaje_scaled <- scale(udaje_sample)

# vzdialenosti + zhlukovanie
dist_mat <- dist(udaje_scaled, method = "euclidean")
hc <- hclust(dist_mat, method = "ward.D2")

# 
labels_nehody <- paste0("Nehoda_", idx)

plot(hc, labels = FALSE,
     main = "Hierarchické zhlukovanie dopravných nehôd (Ward.D2)",
     xlab = "", sub = "")

k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)


klaster_membership <- cutree(hc, k = k)

udaje_klasters <- data.frame(
  nehoda_id = labels_nehody,
  udaje_sample,
  klaster = factor(klaster_membership)
)

Na obrázku je zobrazený dendrogram hierarchického zhlukovania dopravných nehôd pomocou Wardovej metódy. Na základe rezu dendrogramu (červená čiara) boli identifikované tri klastre, ktoré združujú nehody s podobnými charakteristikami. Výsledky naznačujú existenciu troch odlišných skupín dopravných nehôd v dátach, pričom zhluky sú relatívne homogénne a bez výrazného vplyvu odľahlých pozorovaní.

Tab.4. Príslušnosť krajín do klastrov.

data_prac <- data.frame(
  nehoda_id = udaje_klasters$nehoda_id,
  klaster   = udaje_klasters$klaster
)

data_prac
NA

Klastrová analýza rozdelila dopravné nehody do troch klastrov, ktoré reprezentujú skupiny nehôd s podobnými charakteristikami. Jednotlivé klastre sa líšia kombináciou sledovaných premenných, pričom každý klaster združuje nehody s podobným priebehom a časovými alebo kvantitatívnymi znakmi.

Deskriptívne štatistiky výsledkov

Na základe Tab. 5 môžeme konštatovať, že väčšina premenných vykazuje relatívne nízku vnútroklastrovú variabilitu, čo naznačuje dobrú separáciu klastrov. Najväčší príspevok k rozlíšeniu klastrov má premenná num_units, zatiaľ čo premenné crash_hour a crash_day_of_week prispievajú k diferenciácii klastrov v menšej miere.

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných

## ============================
## 5) Variability measures
## ============================

# funkcia na výpočet sumy štvorcov
ssq <- function(x, m) sum((x - m)^2)

var_names <- colnames(udaje_scaled)

# Total Sum of Squares
TSS <- sapply(var_names, function(v) {
  ssq(udaje_scaled[, v], mean(udaje_scaled[, v]))
})

# Within-cluster Sum of Squares
WSS <- sapply(var_names, function(v) {
  x <- udaje_scaled[, v]
  sum(tapply(x, klaster_membership, function(z) ssq(z, mean(z))))
})

# Between-cluster Sum of Squares
BSS <- TSS - WSS

ss_table <- data.frame(
  Variable = var_names,
  TSS = TSS,
  WSS = WSS,
  BSS = BSS,
  Prop_Between = BSS / TSS
)

ss_table
NA

Tabuľka sumarizuje rozklad variability jednotlivých premenných na celkovú variabilitu (TSS), variabilitu vnútri klastrov (WSS) a variabilitu medzi klastrami (BSS). Podiel variability vysvetlenej klastrami naznačuje, ktoré premenné najviac prispievajú k rozlíšeniu jednotlivých zhlukov dopravných nehôd.

# spojenie pôvodných (neoškálovaných) údajov vzorky s klastrami
udaje_klasters_final <- data.frame(
  udaje_sample,
  klaster = factor(klaster_membership)
)

# kontrola
head(udaje_klasters_final)

Ku každej dopravnej nehode vo vybranej vzorke bola následne priradená príslušnosť ku klastru získaná hierarchickou zhlukovou analýzou. Táto tabuľka slúži ako podklad pre ďalšiu interpretáciu charakteristík jednotlivých zhlukov.

Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných

library(dplyr)

descriptives <- udaje_klasters_final %>%
  group_by(klaster) %>%
  summarise(
    across(
      .cols = where(is.numeric),
      .fns = ~mean(.x, na.rm = TRUE),
      .names = "{.col}_mean"
    )
  )

descriptives
NA

Tab. 6. uvádza priemerné hodnoty sledovaných premenných v jednotlivých klastroch dopravných nehôd. Z výsledkov vyplýva, že tretí klaster je charakterizovaný najvyšším priemerným počtom zranení a zároveň vyšším počtom zúčastnených vozidiel, čo naznačuje závažnejšie nehody. Prvý klaster naopak zahŕňa menej závažné nehody s nižším priemerným počtom zranení a vozidiel. Druhý klaster predstavuje prechodnú skupinu s hodnotami medzi prvým a tretím klastrom.

Záver

Predložená analýza sa zameriava na zhlukovú analýzu dopravných nehôd na základe vybraných charakteristík, ako sú počet zranení, počet zúčastnených vozidiel a časové aspekty nehody. Pomocou hierarchickej zhlukovej analýzy (Wardova metóda) boli dopravné nehody rozdelené do troch klastrov, ktoré reprezentujú skupiny nehôd s podobným priebehom a mierou závažnosti. Výsledky poukazujú na existenciu menej závažných nehôd, prechodných prípadov a skupiny nehôd s vyšším počtom zranení a vozidiel. Uvedená analýza môže slúžiť ako podklad pre lepšie pochopenie štruktúry dopravných nehôd a pre cielené návrhy opatrení v oblasti dopravnej bezpečnosti.

