Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov – napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných regiónov z hľadiska socioekonomických ukazovateľov, hodnotení zdravotných rizík, klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní priestorových objektov. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samostatnom hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych oblastiach aplikovaného výskumu.

V tejto práci predstavíme zhlukovú analýzu pri analýze údajov o počte obyvateľov okresov Slovenskej republiky z hľadiska ich mesačného vývoja v roku 2024. Pracujeme s databázou, ktorá obsahuje okres, obec a počet obyvateľov v jednotlivých mesiacoch roku 2024 (od januára po december). Údaje najskôr agregujeme na úroveň okresov a následne náhodne vyberieme 10 okresov, na ktorých demonštrujeme celý postup hierarchického zhlukovania. V Tab. 1 uvádzame celú nami používanú databázu 10 okresov.

library(knitr)
library(kableExtra)
library(dplyr)
rm(list = ls())

# Načítanie údajov z databázy
# Predpoklad: súbor "Databaza.csv" je v rovnakom priečinku ako tento Rmd súbor.
# Používame separátor ";" keďže ide o CSV v európskom formáte.
udaje_raw <- read.csv("Databaza.csv",
                      sep = ";",
                      stringsAsFactors = FALSE)

# R automaticky dopĺňa X pred názvy stĺpcov začínajúcich číslom,
# preto ho odstránime, aby sme mali späť názvy 2024M01, 2024M02, ...
names(udaje_raw) <- sub("^X", "", names(udaje_raw))

# Premenovanie mesiacov na bežné názvy
mesiace_map <- c(
  "2024M01" = "Január",
  "2024M02" = "Február",
  "2024M03" = "Marec",
  "2024M04" = "Apríl",
  "2024M05" = "Máj",
  "2024M06" = "Jún",
  "2024M07" = "Júl",
  "2024M08" = "August",
  "2024M09" = "September",
  "2024M10" = "Október",
  "2024M11" = "November",
  "2024M12" = "December"
)

# premenujeme len stĺpce s mesiacmi
names(udaje_raw)[match(names(mesiace_map), names(udaje_raw))] <- mesiace_map
month_names <- unname(mesiace_map)  # v poradí január–december

# Agregácia na úroveň okresov (súčet obyvateľov za všetky obce)
udaje_okresy <- udaje_raw %>%
  group_by(Okres) %>%
  summarise(across(all_of(month_names), sum, na.rm = TRUE))

# Náhodný výber 10 okresov
set.seed(123)  # pre reprodukovateľnosť
okresy_vyber <- sample(unique(udaje_okresy$Okres), 10)

udaje_vyber <- subset(udaje_okresy, Okres %in% okresy_vyber)

# Usporiadanie podľa názvu okresu (nie je nutné, len pre prehľadnosť)
udaje_vyber <- udaje_vyber[order(udaje_vyber$Okres), ]

Tab. 1. Vybrané okresy a ich počet obyvateľov v jednotlivých mesiacoch roku 2024

kable(udaje_vyber, caption = "Vybrané okresy a ich počet obyvateľov (Január–December 2024)") %>%
  kable_styling(full_width = FALSE)
Vybrané okresy a ich počet obyvateľov (Január–December 2024)
Okres Január Február Marec Apríl Máj Jún Júl August September Október November December
Okres Bratislava I 47375 47391 47408 47411 47484 47503 47488 47525 47564 47565 47632 47634
Okres Bratislava II 125980 125975 126022 126047 126178 126245 126393 126435 126457 126481 126522 126632
Okres Bratislava III 77594 77678 77718 77736 77746 77817 77872 77912 77936 77918 77998 78070
Okres Bratislava IV 105043 105011 104992 105029 105039 105064 105066 105076 105140 105120 105165 105118
Okres Bratislava V 122048 122009 121976 121993 121936 121934 121918 121871 121869 121864 121836 121885
Okres Dunajská Streda 127025 127173 127217 127264 127307 127397 127460 127512 127576 127692 127772 127803
Okres Hlohovec 27236 27182 27133 27125 27084 27056 27027 27004 26961 26921 26904 26876
Okres Malacky 79689 79717 79761 79782 79849 79899 79923 79930 79917 79935 79961 79994
Okres Pezinok 69953 69936 69926 69945 69972 70006 70021 70070 70055 70067 70099 70105
Okres Senec 105075 105281 105448 105640 105848 106062 106188 106382 106488 106649 106781 106872

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakej škále. V našom prípade sú premennými mesačné počty obyvateľov (Január až December). Použijeme tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne

\[z = \frac{x-\mu}{\sigma}\]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.

Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne.

# =======================================================
## 1) Príprava údajov a data.frame so škálovanými údajmi
## ======================================================

# Vyberieme len numerické stĺpce s mesačnými údajmi (Január–December)
udaje10 <- udaje_vyber[, month_names]

# Názvy riadkov nastavíme na názvy okresov
rownames(udaje10) <- udaje_vyber$Okres

# Odstránime prípadné chýbajúce hodnoty
udaje_complete <- na.omit(udaje10)

# Škálovanie (z-škóre) jednotlivých premenných
udaje_scaled <- scale(udaje_complete)

Obr. 1. Boxploty škálovaných numerických premenných (mesiace roku 2024)

num_vars  <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)

# 12 mesiacov = 3x4 mriežka
par(mfrow = c(3, 4),
    mar  = c(4, 4, 2, 1),
    oma  = c(0, 0, 3, 0))

for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main       = col,
          col        = "lightblue",
          horizontal = TRUE)
}

mtext("Boxploty numerických premenných (mesiace roku 2024)",
      outer = TRUE, cex = 1.3, font = 2)

Tentokrát odľahlé hodnoty nevylučujeme, nakoľko definujú konkrétny okres. Napríklad okres s výrazne vyšším počtom obyvateľov je z pohľadu analýzy zaujímavý a chceme ho v dátach zachovať.


Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0,9 často vylúčime jednu z korelovaných premenných. V Tab. 2 ukážeme korelačnú maticu medzi jednotlivými mesiacmi roku 2024. Ak by sa medzi mesiacmi vyskytovali veľmi vysoké korelácie, bolo by možné uvažovať napríklad o znížení dimenzie pomocou analýzy hlavných komponentov.

V prípade, ak máme väčší počet významne korelovaných premenných, sa odporúča transformácia pomocou Analýzy hlavných komponentov (Principal Component Analysis).

Tab. 2. Korelačná matica medzi mesiacmi roku 2024

cor_mat <- cor(udaje_scaled, use = "pairwise.complete.obs")
cor_mat <- round(cor_mat, 2)
print(cor_mat)
          Január Február Marec Apríl Máj Jún Júl August September Október November December
Január         1       1     1     1   1   1   1      1         1       1        1        1
Február        1       1     1     1   1   1   1      1         1       1        1        1
Marec          1       1     1     1   1   1   1      1         1       1        1        1
Apríl          1       1     1     1   1   1   1      1         1       1        1        1
Máj            1       1     1     1   1   1   1      1         1       1        1        1
Jún            1       1     1     1   1   1   1      1         1       1        1        1
Júl            1       1     1     1   1   1   1      1         1       1        1        1
August         1       1     1     1   1   1   1      1         1       1        1        1
September      1       1     1     1   1   1   1      1         1       1        1        1
Október        1       1     1     1   1   1   1      1         1       1        1        1
November       1       1     1     1   1   1   1      1         1       1        1        1
December       1       1     1     1   1   1   1      1         1       1        1        1

Každému okresu zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi okresmi \(i\) a \(j\) je:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \]

kde \(x^i_k\) je \(k\)-tá premenná vstupujúca do výpočtu (v našom prípade ide o mesačné počty obyvateľov: Január, Február, …, December) okresu \(i\). Tento typ vzdialenosti nazývame Euklidovská vzdialenosť. Vzdialenosti medzi jednotlivými okresmi sa súhrnne vyjadrujú aj v matici vzdialenosti, čo je v našom prípade uvedené v Tab. 3. Analýzou tejto tabuľky môžeme identifikovať dvojice okresov, ktoré sú si podľa priebehu počtu obyvateľov v roku 2024 veľmi podobné (malá vzdialenosť), resp. veľmi odlišné (veľká vzdialenosť).

Tab. 3. Euklidovská matica vzdialeností medzi okresmi

## ============================
## 3) Distance matrix
## ============================
# ponecháme pôvodné názvy okresov ako rownames
dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)
dist_mat
       1     2     3     4     5     6     7     8     9
2   7.94                                                
3   3.06  4.88                                          
4   5.80  2.14  2.75                                    
5   7.50  0.44  4.44  1.70                              
6   8.06  0.12  5.00  2.25  0.56                        
7   2.06 10.00  5.12  7.86  9.56 10.12                  
8   3.26  4.68  0.20  2.54  4.24  4.79  5.32            
9   2.27  5.67  0.79  3.53  5.23  5.79  4.33  0.99      
10  5.90  2.04  2.85  0.11  1.60  2.15  7.96  2.64  3.63

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t. j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardova metóda minimalizuje sumu štvorcov chýb (Error Sum of Squares – ESS)

\[ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2,\]

kde \(C\) je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klastrov Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom

\[\Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B).\]

Dvojica zhlukov, ktorá tejto podmienke o minimalizácii vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kroku. To spravidla vedie k vytváraniu relatívne homogénnych zhlukov, pričom nedochádza k odtrhávaniu odľahlých hodnôt tak, ako pri niektorých iných zhlukovacích metódach.

Obr. 2. Hierarchické zhlukovanie – dendrogram. Červená čiara určuje rez definujúci tri klastre.

## ============================
## 4) Hierarchical clustering
## ============================

hc <- hclust(dist_mat, method = "ward.D2")

plot(hc, labels = rownames(udaje_scaled),
     main = "Hierarchical clustering of districts (Ward.D2)",
     xlab = "", sub = "")

# počet klastrov
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)


klaster_membership <- cutree(hc, k = k)

udaje_klasters <- data.frame(
  Okres = rownames(udaje_complete),
  udaje_complete,
  klaster = factor(klaster_membership)
)

Tab. 4. Príslušnosť okresov do klastrov

data_prac <- data.frame(
  Okres = udaje_klasters$Okres,
  klaster = udaje_klasters$klaster
)
data_prac

Vykonaná klastrová analýza klasifikuje okresy do troch klastrov. Zloženie klastrov odráža jednak úroveň počtu obyvateľov, ale aj podobnosť priebehu počas jednotlivých mesiacov roku 2024. V jednom klastri môžeme nájsť skôr väčšie okresy s podobným počtom obyvateľov, v inom skôr menšie okresy, prípadne okresy s odlišnou dynamikou (mierny nárast alebo pokles). Interpretácia konkrétnych klastrov závisí od výsledných hodnôt a je možné ju doplniť napríklad mapovým zobrazením alebo porovnaním s ďalšími charakteristikami okresov.

Deskriptívne štatistiky výsledkov

Na základe Tab. 5 môžeme posúdiť, ako dobre jednotlivé mesiace (premenné) prispievajú k rozlišovaniu medzi klastrami. Vnútroklastrová variabilita (WSS) vyjadruje, nakoľko sú okresy v rámci jedného klastra podobné, zatiaľ čo medzi-klastrová variabilita (BSS) vyjadruje rozdiely medzi klastrami. Podiel medzi-klastrovej variability na celkovej variabilite (stĺpec Prop_Between) nám ukazuje, do akej miery daný mesiac prispieva k separácii klastrov.

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných (mesiacov)

## ============================
## 5) Variability measures
## ============================

ssq <- function(x, m) sum((x - m)^2)

var_names <- colnames(udaje_scaled)

TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))

WSS <- sapply(var_names, function(v) {
  x <- udaje_scaled[, v]
  tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})

BSS <- TSS - WSS

ss_table <- data.frame(
  Variable = var_names,
  TSS = TSS,
  WSS = WSS,
  BSS = BSS,
  Prop_Between = BSS / TSS
)

ss_table

Vyššie hodnoty podielu Prop_Between znamenajú, že daný mesiac výraznejšie odlišuje jednotlivé klastre. Mesiace s nižšou hodnotou tohto podielu predstavujú obdobia, v ktorých sú okresy medzi sebou relatívne podobné a daná premenná nie je takým silným „separátorom“.


Na záver sa pozrieme na centroidy, t. j. priemerné hodnoty sledovaných premenných v jednotlivých klastroch. Tie nám poskytujú prehľadný opis typického okresu v každom klastri.

# Vytvoríme dátový rámec s pôvodnými (neškálovanými) hodnotami a priradeným klastrom
udaje_complete_klaster <- data.frame(
  Okres = rownames(udaje_complete),
  udaje_complete,
  klaster = factor(klaster_membership)
)

Tab. 6. Centroidy – priemerné počty obyvateľov v jednotlivých mesiacoch podľa klastrov

descriptives <- udaje_complete_klaster %>%
  group_by(klaster) %>%
  summarise(
    across(
      .cols = where(is.numeric),
      .fns  = list(mean = ~ mean(.x, na.rm = TRUE)),
      .names = "{.col}_{.fn}"
    )
  )

descriptives

Pri pohľade na centroidy vidíme rozdiely v priemernom počte obyvateľov v jednotlivých klastroch. Jeden klaster môže zahŕňať skôr väčšie okresy s vyššími priemernými hodnotami počas celého roka, iný skôr menšie okresy s nižšími hodnotami. Zaujímavé sú aj prípadné rozdiely medzi mesiacmi – napríklad mierne nárasty alebo poklesy v niektorých obdobiach roka, ktoré môžu súvisieť s migráciou, sezónnymi vplyvmi alebo administratívnymi zmenami (napr. „prihlásenie“ obyvateľov).

Záver

Predložená analýza sa zaoberá počtom obyvateľov vybraných okresov Slovenskej republiky v závislosti od ich mesačného vývoja v roku 2024. Na základe hierarchickej zhlukovej analýzy sme okresy rozdelili do troch klastrov. Klastre sa líšia najmä úrovňou priemerného počtu obyvateľov a podobnosťou priebehu v čase.

Takáto analýza môže slúžiť ako podklad pre:

  • plánovanie verejných služieb (školy, zdravotníctво, doprava),
  • priestorové plánovanie a rozvoj územia,
  • porovnávanie typicky „malých“, „stredných“ a „väčších“ okresov podľa zvolených ukazovateľov.

Zhluková analýza teda umožňuje identifikovať skupiny podobných okresov a následne cieleným spôsobom analyzovať a plánovať verejné politiky či rozvojové projekty podľa ich príslušnosti ku klastrom.

