Úvod
Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy
exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné
rozdeliť pozorovania do homogénnych celkov – napríklad pri segmentácii
zákazníkov v marketingu, identifikácii podobných regiónov z hľadiska
socioekonomických ukazovateľov, hodnotení zdravotných rizík,
klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní
priestorových objektov. Jej výhodou je, že pracuje s viacerými
premennými naraz a dokáže odhaliť vzory, ktoré by pri samostatnom
hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená
metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy
v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych
oblastiach aplikovaného výskumu.
V tejto práci predstavíme zhlukovú analýzu pri analýze údajov o
počte obyvateľov okresov Slovenskej republiky z
hľadiska ich mesačného vývoja v roku 2024. Pracujeme s
databázou, ktorá obsahuje okres, obec a počet obyvateľov v jednotlivých
mesiacoch roku 2024 (od januára po december). Údaje najskôr agregujeme
na úroveň okresov a následne náhodne vyberieme 10
okresov, na ktorých demonštrujeme celý postup hierarchického
zhlukovania. V Tab. 1 uvádzame celú nami používanú
databázu 10 okresov.
library(knitr)
library(kableExtra)
library(dplyr)
rm(list = ls())
# Načítanie údajov z databázy
# Predpoklad: súbor "Databaza.csv" je v rovnakom priečinku ako tento Rmd súbor.
# Používame separátor ";" keďže ide o CSV v európskom formáte.
udaje_raw <- read.csv("Databaza.csv",
sep = ";",
stringsAsFactors = FALSE)
# R automaticky dopĺňa X pred názvy stĺpcov začínajúcich číslom,
# preto ho odstránime, aby sme mali späť názvy 2024M01, 2024M02, ...
names(udaje_raw) <- sub("^X", "", names(udaje_raw))
# Premenovanie mesiacov na bežné názvy
mesiace_map <- c(
"2024M01" = "Január",
"2024M02" = "Február",
"2024M03" = "Marec",
"2024M04" = "Apríl",
"2024M05" = "Máj",
"2024M06" = "Jún",
"2024M07" = "Júl",
"2024M08" = "August",
"2024M09" = "September",
"2024M10" = "Október",
"2024M11" = "November",
"2024M12" = "December"
)
# premenujeme len stĺpce s mesiacmi
names(udaje_raw)[match(names(mesiace_map), names(udaje_raw))] <- mesiace_map
month_names <- unname(mesiace_map) # v poradí január–december
# Agregácia na úroveň okresov (súčet obyvateľov za všetky obce)
udaje_okresy <- udaje_raw %>%
group_by(Okres) %>%
summarise(across(all_of(month_names), sum, na.rm = TRUE))
# Náhodný výber 10 okresov
set.seed(123) # pre reprodukovateľnosť
okresy_vyber <- sample(unique(udaje_okresy$Okres), 10)
udaje_vyber <- subset(udaje_okresy, Okres %in% okresy_vyber)
# Usporiadanie podľa názvu okresu (nie je nutné, len pre prehľadnosť)
udaje_vyber <- udaje_vyber[order(udaje_vyber$Okres), ]
Tab. 1. Vybrané okresy a ich počet obyvateľov v
jednotlivých mesiacoch roku 2024
kable(udaje_vyber, caption = "Vybrané okresy a ich počet obyvateľov (Január–December 2024)") %>%
kable_styling(full_width = FALSE)
Vybrané okresy a ich počet obyvateľov (Január–December 2024)
| Okres |
Január |
Február |
Marec |
Apríl |
Máj |
Jún |
Júl |
August |
September |
Október |
November |
December |
| Okres Bratislava I |
47375 |
47391 |
47408 |
47411 |
47484 |
47503 |
47488 |
47525 |
47564 |
47565 |
47632 |
47634 |
| Okres Bratislava II |
125980 |
125975 |
126022 |
126047 |
126178 |
126245 |
126393 |
126435 |
126457 |
126481 |
126522 |
126632 |
| Okres Bratislava III |
77594 |
77678 |
77718 |
77736 |
77746 |
77817 |
77872 |
77912 |
77936 |
77918 |
77998 |
78070 |
| Okres Bratislava IV |
105043 |
105011 |
104992 |
105029 |
105039 |
105064 |
105066 |
105076 |
105140 |
105120 |
105165 |
105118 |
| Okres Bratislava V |
122048 |
122009 |
121976 |
121993 |
121936 |
121934 |
121918 |
121871 |
121869 |
121864 |
121836 |
121885 |
| Okres Dunajská Streda |
127025 |
127173 |
127217 |
127264 |
127307 |
127397 |
127460 |
127512 |
127576 |
127692 |
127772 |
127803 |
| Okres Hlohovec |
27236 |
27182 |
27133 |
27125 |
27084 |
27056 |
27027 |
27004 |
26961 |
26921 |
26904 |
26876 |
| Okres Malacky |
79689 |
79717 |
79761 |
79782 |
79849 |
79899 |
79923 |
79930 |
79917 |
79935 |
79961 |
79994 |
| Okres Pezinok |
69953 |
69936 |
69926 |
69945 |
69972 |
70006 |
70021 |
70070 |
70055 |
70067 |
70099 |
70105 |
| Okres Senec |
105075 |
105281 |
105448 |
105640 |
105848 |
106062 |
106188 |
106382 |
106488 |
106649 |
106781 |
106872 |
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi
pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné,
aby všetky premenné boli definované na rovnakej škále. V našom prípade
sú premennými mesačné počty obyvateľov (Január až
December). Použijeme tzv. z-škálovanie, pričom transformované
\(z\) hodnoty (skóre) vypočítame
nasledovne
\[z = \frac{x-\mu}{\sigma}\]
kde \(\mu\) je stredná hodnota a
\(\sigma\) je štandardná odchýlka
pozorovaní \(x\). Predpokladáme pritom,
že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v
predchádzajúcich krokoch.
Touto operáciou získame škálované pozorovania, pričom ich rozloženie
je znázornené nasledovne.
# =======================================================
## 1) Príprava údajov a data.frame so škálovanými údajmi
## ======================================================
# Vyberieme len numerické stĺpce s mesačnými údajmi (Január–December)
udaje10 <- udaje_vyber[, month_names]
# Názvy riadkov nastavíme na názvy okresov
rownames(udaje10) <- udaje_vyber$Okres
# Odstránime prípadné chýbajúce hodnoty
udaje_complete <- na.omit(udaje10)
# Škálovanie (z-škóre) jednotlivých premenných
udaje_scaled <- scale(udaje_complete)
Obr. 1. Boxploty škálovaných numerických premenných
(mesiace roku 2024)
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)
# 12 mesiacov = 3x4 mriežka
par(mfrow = c(3, 4),
mar = c(4, 4, 2, 1),
oma = c(0, 0, 3, 0))
for (col in names(num_vars)) {
boxplot(num_vars[[col]],
main = col,
col = "lightblue",
horizontal = TRUE)
}
mtext("Boxploty numerických premenných (mesiace roku 2024)",
outer = TRUE, cex = 1.3, font = 2)

Tentokrát odľahlé hodnoty nevylučujeme, nakoľko definujú konkrétny
okres. Napríklad okres s výrazne vyšším počtom obyvateľov je z pohľadu
analýzy zaujímavý a chceme ho v dátach zachovať.
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká
korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto
pri korelácii nad 0,8 alebo 0,9 často vylúčime jednu z korelovaných
premenných. V Tab. 2 ukážeme korelačnú maticu medzi
jednotlivými mesiacmi roku 2024. Ak by sa medzi mesiacmi vyskytovali
veľmi vysoké korelácie, bolo by možné uvažovať napríklad o znížení
dimenzie pomocou analýzy hlavných komponentov.
V prípade, ak máme väčší počet významne korelovaných premenných, sa
odporúča transformácia pomocou Analýzy hlavných komponentov (Principal
Component Analysis).
Tab. 2. Korelačná matica medzi mesiacmi roku
2024
cor_mat <- cor(udaje_scaled, use = "pairwise.complete.obs")
cor_mat <- round(cor_mat, 2)
print(cor_mat)
Január Február Marec Apríl Máj Jún Júl August September Október November December
Január 1 1 1 1 1 1 1 1 1 1 1 1
Február 1 1 1 1 1 1 1 1 1 1 1 1
Marec 1 1 1 1 1 1 1 1 1 1 1 1
Apríl 1 1 1 1 1 1 1 1 1 1 1 1
Máj 1 1 1 1 1 1 1 1 1 1 1 1
Jún 1 1 1 1 1 1 1 1 1 1 1 1
Júl 1 1 1 1 1 1 1 1 1 1 1 1
August 1 1 1 1 1 1 1 1 1 1 1 1
September 1 1 1 1 1 1 1 1 1 1 1 1
Október 1 1 1 1 1 1 1 1 1 1 1 1
November 1 1 1 1 1 1 1 1 1 1 1 1
December 1 1 1 1 1 1 1 1 1 1 1 1
Každému okresu zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi
okresmi \(i\) a \(j\) je:
\[
d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2}
\]
kde \(x^i_k\) je \(k\)-tá premenná vstupujúca do výpočtu (v
našom prípade ide o mesačné počty obyvateľov: Január, Február, …,
December) okresu \(i\). Tento typ
vzdialenosti nazývame Euklidovská vzdialenosť. Vzdialenosti medzi
jednotlivými okresmi sa súhrnne vyjadrujú aj v matici vzdialenosti, čo
je v našom prípade uvedené v Tab. 3. Analýzou tejto
tabuľky môžeme identifikovať dvojice okresov, ktoré sú si podľa priebehu
počtu obyvateľov v roku 2024 veľmi podobné (malá vzdialenosť), resp.
veľmi odlišné (veľká vzdialenosť).
Tab. 3. Euklidovská matica vzdialeností medzi
okresmi
## ============================
## 3) Distance matrix
## ============================
# ponecháme pôvodné názvy okresov ako rownames
dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)
dist_mat
1 2 3 4 5 6 7 8 9
2 7.94
3 3.06 4.88
4 5.80 2.14 2.75
5 7.50 0.44 4.44 1.70
6 8.06 0.12 5.00 2.25 0.56
7 2.06 10.00 5.12 7.86 9.56 10.12
8 3.26 4.68 0.20 2.54 4.24 4.79 5.32
9 2.27 5.67 0.79 3.53 5.23 5.79 4.33 0.99
10 5.90 2.04 2.85 0.11 1.60 2.15 7.96 2.64 3.63
Princíp hierarchického zhlukovania (Wardova metóda)
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.
j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto
metóda patrí medzi aglomeratívne hierarchické metódy. Minimalizuje
nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva
nasledovné výpočty:
Wardova metóda minimalizuje sumu štvorcov chýb (Error Sum of Squares
– ESS)
\[ESS(C) = \sum_{i \in C} \lVert x_i -
\bar{x}_C \rVert^2,\]
kde \(C\) je zvažovaný klaster
(zhluk). V každom kroku zlučovania dvoch klastrov Wardova metóda hľadá
minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom
\[\Delta ESS = ESS(A \cup B) - ESS(A) -
ESS(B).\]
Dvojica zhlukov, ktorá tejto podmienke o minimalizácii vyhovuje, je
následne zlúčená a prechádza sa k ďalšiemu kroku. To spravidla vedie k
vytváraniu relatívne homogénnych zhlukov, pričom nedochádza k
odtrhávaniu odľahlých hodnôt tak, ako pri niektorých iných zhlukovacích
metódach.
Obr. 2. Hierarchické zhlukovanie – dendrogram.
Červená čiara určuje rez definujúci tri klastre.
## ============================
## 4) Hierarchical clustering
## ============================
hc <- hclust(dist_mat, method = "ward.D2")
plot(hc, labels = rownames(udaje_scaled),
main = "Hierarchical clustering of districts (Ward.D2)",
xlab = "", sub = "")
# počet klastrov
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)

klaster_membership <- cutree(hc, k = k)
udaje_klasters <- data.frame(
Okres = rownames(udaje_complete),
udaje_complete,
klaster = factor(klaster_membership)
)
Tab. 4. Príslušnosť okresov do klastrov
data_prac <- data.frame(
Okres = udaje_klasters$Okres,
klaster = udaje_klasters$klaster
)
data_prac
Vykonaná klastrová analýza klasifikuje okresy do troch klastrov.
Zloženie klastrov odráža jednak úroveň počtu obyvateľov, ale aj
podobnosť priebehu počas jednotlivých mesiacov roku 2024. V jednom
klastri môžeme nájsť skôr väčšie okresy s podobným počtom
obyvateľov, v inom skôr menšie okresy,
prípadne okresy s odlišnou dynamikou (mierny nárast alebo pokles).
Interpretácia konkrétnych klastrov závisí od výsledných hodnôt a je
možné ju doplniť napríklad mapovým zobrazením alebo porovnaním s ďalšími
charakteristikami okresov.
Deskriptívne štatistiky výsledkov
Na základe Tab. 5 môžeme posúdiť, ako dobre
jednotlivé mesiace (premenné) prispievajú k rozlišovaniu medzi
klastrami. Vnútroklastrová variabilita (WSS) vyjadruje, nakoľko sú
okresy v rámci jedného klastra podobné, zatiaľ čo medzi-klastrová
variabilita (BSS) vyjadruje rozdiely medzi klastrami. Podiel
medzi-klastrovej variability na celkovej variabilite (stĺpec
Prop_Between) nám ukazuje, do akej miery daný mesiac
prispieva k separácii klastrov.
Tab. 5. Vysvetlenie vnútroklastrovej variability z
hľadiska jednotlivých premenných (mesiacov)
## ============================
## 5) Variability measures
## ============================
ssq <- function(x, m) sum((x - m)^2)
var_names <- colnames(udaje_scaled)
TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))
WSS <- sapply(var_names, function(v) {
x <- udaje_scaled[, v]
tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})
BSS <- TSS - WSS
ss_table <- data.frame(
Variable = var_names,
TSS = TSS,
WSS = WSS,
BSS = BSS,
Prop_Between = BSS / TSS
)
ss_table
Vyššie hodnoty podielu Prop_Between znamenajú, že daný
mesiac výraznejšie odlišuje jednotlivé klastre. Mesiace s nižšou
hodnotou tohto podielu predstavujú obdobia, v ktorých sú okresy medzi
sebou relatívne podobné a daná premenná nie je takým silným
„separátorom“.
Na záver sa pozrieme na centroidy, t. j. priemerné hodnoty
sledovaných premenných v jednotlivých klastroch. Tie nám poskytujú
prehľadný opis typického okresu v každom klastri.
# Vytvoríme dátový rámec s pôvodnými (neškálovanými) hodnotami a priradeným klastrom
udaje_complete_klaster <- data.frame(
Okres = rownames(udaje_complete),
udaje_complete,
klaster = factor(klaster_membership)
)
Tab. 6. Centroidy – priemerné počty obyvateľov v
jednotlivých mesiacoch podľa klastrov
descriptives <- udaje_complete_klaster %>%
group_by(klaster) %>%
summarise(
across(
.cols = where(is.numeric),
.fns = list(mean = ~ mean(.x, na.rm = TRUE)),
.names = "{.col}_{.fn}"
)
)
descriptives
Pri pohľade na centroidy vidíme rozdiely v priemernom počte
obyvateľov v jednotlivých klastroch. Jeden klaster môže zahŕňať skôr
väčšie okresy s vyššími priemernými hodnotami počas celého roka, iný
skôr menšie okresy s nižšími hodnotami. Zaujímavé sú aj prípadné
rozdiely medzi mesiacmi – napríklad mierne nárasty alebo poklesy v
niektorých obdobiach roka, ktoré môžu súvisieť s migráciou, sezónnymi
vplyvmi alebo administratívnymi zmenami (napr. „prihlásenie“
obyvateľov).
