Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch, hodnotenízdravotných rizík, klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní priestorových sobjektov. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych oblastiach aplikovaného výskumu.

Predstavím zhlukovú analýzu pri analýze krajín sveta z hľadiska demografických ukazovateľov, ako sú predpokladaná populácia v roku 2025, miera plodnosti, medián veku a čistá migrácia. Cieľom je identifikovať skupiny krajín, ktoré majú podobné demografické profily a môžu byť preto analyzované spoločne. Takto vytvorené zhluky poskytujú prehľad o krajinách s podobným populačným vývojom či dynamikou rastu populácie. Pri analýze využívame najnovšie dostupné údaje z databázy, s ktorou sme pracovali aj v predchádzajúcich častiach.

library(knitr)
library(kableExtra)
# Načítanie dát
udaje <- read.csv("population_data.csv", stringsAsFactors = FALSE)

# 10 európskych krajín, s ktorými chcem pracovať
krajiny10 <- c("Germany",
               "United Kingdom",
               "France",
               "Italy",
               "Spain",
               "Ukraine",
               "Poland",
               "Romania",
               "Netherlands",
               "Belgium")

# Výber len týchto krajín a požadovaných premenných
udaje10 <- subset(
  udaje,
  Country..or.dependency. %in% krajiny10,
  select = c(
    Country..or.dependency.,
    Population.2025,
    Fert..Rate,
    Median.Age,
    Migrants..net.
  )
)

# Pre pomenovanie stĺpcov v tabuľke
colnames(udaje10) <- c(
  "Krajina",
  "Populácia 2025",
  "Miera plodnosti",
  "Medián veku",
  "Čistá migrácia"
)

Table 1.

udaje10

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Používame pritom tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne

\[z = \frac{x-\mu}{\sigma}\]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.

Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:

# 1) Načítanie dát -------------------------------------------------------
udaje <- read.csv("population_data.csv",
                  sep = ",",
                  header = TRUE,
                  stringsAsFactors = FALSE)

# 2) Vyberieme 10 európskych krajín, s ktorými chceme pracovať ----------
krajiny10 <- c("Germany",
               "United Kingdom",
               "France",
               "Italy",
               "Spain",
               "Ukraine",
               "Poland",
               "Romania",
               "Netherlands",
               "Belgium")

# filter na týchto 10 krajín
udaje10 <- subset(udaje, Country..or.dependency. %in% krajiny10)

# pre istotu zoradíme riadky v rovnakom poradí ako vo vektore krajiny10
udaje10 <- udaje10[match(krajiny10, udaje10$Country..or.dependency.), ]

# 3) Pripravíme dátový rámec len s číselnými premennými -----------------
#    (populácia 2025, miera plodnosti, medián veku, čistá migrácia)
udaje_complete <- udaje10[, c("Population.2025",
                              "Fert..Rate",
                              "Median.Age",
                              "Migrants..net.")]

# istota: pretypujeme stĺpce na numeric (keby ich R načítal ako text)
udaje_complete[] <- lapply(udaje_complete, function(x) as.numeric(x))

# pomenujeme riadky podľa krajín
rownames(udaje_complete) <- udaje10$Country..or..dependency.

# 4) Škálovanie premenných (z-skóre) ------------------------------------
udaje_scaled <- scale(udaje_complete)

# Výstupy do tabuľky (najprv pôvodné dáta, potom škálované)
udaje_complete      # neškálované hodnoty
udaje_scaled        # z-skóre
      Population.2025  Fert..Rate  Median.Age Migrants..net.
 [1,]       1.5833411  0.31344708  0.89440379             NA
 [2,]       0.9895915  0.68771224 -1.29101724     0.05585233
 [3,]       0.8710141  1.15554370 -0.40066052    -0.43681319
 [4,]       0.5642185 -0.85613157  1.98711431    -0.46372711
 [5,]       0.1040462 -0.76256528  1.05628683    -0.42872861
 [6,]      -0.2601892 -1.83857763 -0.60301432     2.22437606
 [7,]      -0.2945077 -0.38830011 -0.31971900             NA
 [8,]      -1.0807476  1.48302572 -0.03642368             NA
 [9,]      -1.1037160  0.21988079 -0.72442660    -0.41542614
[10,]      -1.3730509 -0.01403494 -0.56254356    -0.53553334
attr(,"scaled:center")
Population.2025      Fert..Rate      Median.Age  Migrants..net. 
   45344878.700           1.393          43.290      356107.714 
attr(,"scaled:scale")
Population.2025      Fert..Rate      Median.Age  Migrants..net. 
   2.446106e+07    2.137522e-01    2.470920e+00    6.052260e+05 

Obr. 1.

num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)

par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))

for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main = col,
          col = "lightblue",
          horizontal = TRUE)
}

mtext("Boxploty numerických premenných (vybraných 10 krajín)", outer = TRUE, cex = 1.3, font = 2)

Tentokrát odľahlé hodnoty nevylúčime, nakoľko definujú konkrétnu krajinu.

Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. V Tab. 2. sa však takáto vysoká korelácia nenachádza, preto sa nemusíme ďalej s problémom zaoberať. > V prípade, ak máme väčší počet významne korelovaných premenných, sa odporúča i transformácia pomocou Analýzy hlavných komponentov (Principal Component Analysis) Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia medzi premennými môže spôsobovať, že niektoré z nich budú mať pri tvorbe zhlukov neprimerane veľký vplyv. Preto sa pri koreláciách vyšších ako 0.8 – 0.9 často odporúča vylúčiť jednu z dvojice silne korelovaných premenných. V našom prípade (pozri Tab. 2) však žiadna z korelácií nedosahuje hodnotu, ktorá by bola problematická:

najvyššia korelácia je medzi premennými Fert..Rate a Migrants..net. na úrovni –0.64, ostatné korelácie sa pohybujú len v intervale približne –0.30 až 0.32, premenné teda nie sú výrazne multikolineárne. To znamená, že sa nemusíme zaoberať odstraňovaním premenných ani uvažovať o ďalšej transformácii z dôvodu vysokej korelácie. V prípade, že by sme mali väčší počet veľmi korelovaných ukazovateľov, bolo by vhodné zvážiť transformáciu pomocou Analýzy hlavných komponentov (Principal Component Analysis). V našom prípade to však nie je potrebné.

Tab. 2

cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")
cor_mat <- round(cor_mat,2)
print(cor_mat)
                Population.2025 Fert..Rate Median.Age Migrants..net.
Population.2025            1.00       0.04       0.32           0.00
Fert..Rate                 0.04       1.00      -0.28          -0.64
Median.Age                 0.32      -0.28       1.00          -0.29
Migrants..net.             0.00      -0.64      -0.29           1.00

Každej krajine zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi krajinami \(i\) a \(j\) je:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (Population.2025, Fert..Rate, Median.Age a Migrants..net.) krajiny \(i\). Tento typ vzdialenosti nazývame aj Euklidovská vzdialenosť. Vzdialenosti medzi jednotlivými krajinami sa súhrnne vyjadrujú aj v matici vzdialenosti, čo v našom prípade je uvedené v Tab.3.. Na základe výsledkov z Tab. 3 môžeme uviesť nasledovné:

Najväčšia vzdialenosť (t. j. najmenšia podobnosť) bola zistená medzi Ukrajinou a Nemeckom (3.70), ako aj medzi Ukrajinou a Francúzskom (3.62). Tieto krajiny sa výrazne líšia najmä v migračnej bilancii, vekovej štruktúre aj plodnosti. Silné rozdiely pozorujeme aj medzi Rumunskom a Dánskom (3.19) a Rumunskom a Holandskom (3.36), čo môže súvisieť s vyššou plodnosťou a odlišnou migračnou dynamikou Rumunska. Najmenšiu vzdialenosť, teda najväčšiu podobnosť, nachádzame medzi: Holandskom a Belgickom (0.41), Francúzskom a Belgickom (1.13), Nemeckom a Veľkou Britániou (2.65) Tieto krajiny vykazujú podobné hodnoty medianu veku a relatívne vyrovnanú migračnú bilanciu. Stredná úroveň podobnosti je napríklad medzi Poľskom a Španielskom (1.71) alebo Francúzskom a Španielskom (2.94). Celkovo teda vidíme, že európske krajiny vytvárajú podľa svojich ukazovateľov prirodzené skupiny – napr. Belgicko–Holandsko, Nemecko–UK, zatiaľ čo krajiny ako Ukrajina či Rumunsko sa od väčšiny ostatných výraznejšie odlišujú.

Tab. 3

## ============================
## 3) Distance matrix
## ============================

# Pomenovanie riadkov podľa 10 zvolených krajín
rownames(udaje_scaled) <- c("Germany",
                            "United Kingdom",
                            "France",
                            "Italy",
                            "Spain",
                            "Ukraine",
                            "Poland",
                            "Romania",
                            "Netherlands",
                            "Belgium")

# Výpočet euklidovskej vzdialenosti a zaokrúhlenie na 2 desatinné miesta
dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)

dist_mat
               Germany United Kingdom France Italy Spain Ukraine Poland
United Kingdom    2.65                                                 
France            1.96           1.13                                  
Italy             2.19           3.69   3.14                           
Spain             2.12           2.94   2.53  1.04                     
Ukraine           3.70           3.62   4.17  3.95  3.33               
Poland            2.71           2.24   2.24  2.89  1.71    1.71       
Romania           3.53           2.94   2.32  4.05  3.19    4.00   2.37
Netherlands       3.62           2.27   2.21  3.36  2.37    3.45   1.26
Belgium           3.82           2.64   2.54  3.31  2.32    3.49   1.35
               Romania Netherlands
United Kingdom                    
France                            
Italy                             
Spain                             
Ukraine                           
Poland                            
Romania                           
Netherlands       1.66            
Belgium           1.86        0.41

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares - ESS)

\[ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2\] kde \(C\) je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov, Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom

\[\Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích metódach.

Obr. 2. Hierarchické zhlukovanie - dendogram. Červená čiara určuje rez definujúci tri klastre.

## ============================
## 4) Hierarchical klastering
## ============================

hc <- hclust(dist_mat, method = "ward.D2")

plot(hc, labels = rownames(udaje_scaled),
     main = "Hierarchical klastering of countries (Ward.D2)",
     xlab = "", sub = "")

k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)


klaster_membership <- cutree(hc, k = k)

udaje_klasters <- data.frame(
  Country = rownames(udaje_complete),
  udaje_complete,
  klaster = factor(klaster_membership)
)

Tab.4. Príslušnosť krajín do klastrov.

## Tab. 4 – Príslušnosť krajín do klastrov

# Vytvoríme dátový rámec s krajinami a ich klastrom
data_prac <- data.frame(
  Country = rownames(udaje_scaled),
  klaster = udaje_klasters
)

# Zobrazíme výslednú tabuľku
data_prac
NA
# Výsledná tabuľka krajín a ich klastrov
data_prac <- data.frame(
  Country = udaje_klasters$Country,
  Klastor = udaje_klasters$klaster
)

data_prac
NA

Na základe hierarchickej zhlukovej analýzy (Wardova metóda) sme analyzovali podobnosť desiatich európskych krajín podľa vybraných ukazovateľov (Population 2025, Fertility Rate, Median Age, Net Migration). Výsledkom procesu bolo rozdelenie krajín do troch klastrov, pričom krajiny v rámci jedného klastru majú podobnejšie demografické ukazovatele ako krajiny v iných klastroch.

Z tabuľky vidíme nasledovné zaradenie:

Klastre typu 1: tvorí ho Nemecko, Taliansko a Španielsko. Tieto krajiny majú podobnú populačnú veľkosť a spoločné demografické črty, napríklad nízku mieru plodnosti a vyšší mediánový vek, čo sú typické znaky západoeurópskych krajín s dlhodobým starnutím populácie.

Klastre typu 2: sem spadajú Spojené kráľovstvo, Francúzsko, Poľsko, Holandsko, Belgicko a Ukrajina. Ide o najrozmanitejší klaster, ktorý zahŕňa veľké aj stredne veľké krajiny s mierne vyššou plodnosťou, odlišným migračným profilom a rôznorodým vekovým zložením populácie.

Klastre typu 3: predstavuje ho len Rumunsko. Zaradenie Rumunska do samostatného klastru naznačuje, že sa jeho demografické charakteristiky významne odlišujú od ostatných analyzovaných krajín — napríklad nižšou populačnou veľkosťou, špecifickou migráciou či výraznejšími rozdielmi v plodnosti alebo vekovej štruktúre.

Celkovo môžeme konštatovať, že klastrová analýza odhalila prirodzené skupiny krajín so spoločnými demografickými znakmi. Najviac homogénny je klaster č. 1, zatiaľ čo klaster č. 2 zahŕňa krajiny s väčšou vnútornou variabilitou. Samostatné postavenie Rumunska v klasteri č. 3 poukazuje na jeho výraznú odlišnosť od ostatných európskych krajín v sledovaných premenných.

Deskriptívne štatistiky výsledkov

Pri analýze rozkladu variancie sledujeme, aká časť variability jednotlivých premenných je vysvetlená samotným klastrovým riešením. Kľúčovým ukazovateľom je stĺpec Prop_Between, ktorý udáva podiel variability vysvetlenej rozdielmi medzi klastrami (BSS / TSS). Čím je táto hodnota vyššia, tým lepšie klastrovanie zachytáva rozdiely medzi krajinami podľa danej premennej.

Z Tab. 5. vyplýva nasledovné:

Population.2025 – Prop_Between ≈ 0.268 Podiel variability vysvetlenej klastrami je približne 27 %, čo znamená, že populácia iba mierne prispieva k odlišovaniu klastrov. Krajiny sa teda z hľadiska veľkosti populácie v roku 2025 neodlišujú natoľko, aby tvorili jasne oddelené skupiny.

Fert..Rate – Prop_Between ≈ 0.621 Miera plodnosti vysvetľuje až 62 % variability medzi klastrami, čo je pomerne vysoká hodnota. To znamená, že fertilita je významným faktorom, podľa ktorého sa krajiny skutočne odlišujú. Klastry teda zachytávajú rozdiely v demografickej dynamike veľmi dobre.

Median.Age – Prop_Between ≈ 0.821 Až 82 % variability v mediánovom veku je vysvetlených klastrami. Ide o najvyššiu hodnotu zo všetkých sledovaných premenných. Znamená to, že mediánový vek populácie je dominantným ukazovateľom, ktorý najlepšie odlišuje vytvorené skupiny krajín. Krajiny sa teda výrazne líšia v tom, či majú mladšiu alebo staršiu populáciu.

Migrants..net – nebolo možné vyhodnotiť (NA) Pre túto premennú nebol výpočet možný, pravdepodobne kvôli chýbajúcim hodnotám (NA). Preto nevystupuje v rozklade variancie ani v posudzovaní vhodnosti klastrovania.

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných

## ============================
## 5) Variability measures
## ============================

ssq <- function(x, m) sum((x - m)^2)

var_names <- colnames(udaje_scaled)

TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))

WSS <- sapply(var_names, function(v) {
  x <- udaje_scaled[, v]
  tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})

BSS <- TSS - WSS

ss_table <- data.frame(
  Variable = var_names,
  TSS = TSS,
  WSS = WSS,
  BSS = BSS,
  Prop_Between = BSS / TSS
)

ss_table
# Pridáme ku datasetu priradené klastry
udaje10 <- data.frame(
  Country          = udaje10$Country..or.dependency.,
  Population.2025  = udaje10$Population.2025,
  Fert..Rate       = udaje10$Fert..Rate,
  Median.Age       = udaje10$Median.Age,
  Migrants..net.   = udaje10$Migrants..net.,
  klaster          = udaje_klasters$klaster
)

# Zobrazenie výsledného datasetu
udaje10
NA

Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných

library(dplyr)

descriptives <- udaje10 %>%
  group_by(klaster) %>%
  summarise(
    across(
      .cols = where(is.numeric),
      .fns = list(
        mean = ~mean(.x, na.rm = TRUE)
      ),
      .names = "{.col}_{.fn}"
    )
  )
descriptives
NA

Na záver sme porovnali priemerné charakteristiky troch klastrov vybraných európskych krajín.

Klaster 1 (Nemecko, Taliansko, Španielsko) má najväčšiu priemernú populáciu – približne 63,7 milióna obyvateľov, strednú mieru plodnosti okolo 1,30 dieťaťa na ženu a zároveň najvyšší mediánový vek (≈ 46,5 roka). Tento klaster teda reprezentuje veľké a demograficky „starnúce“ krajiny so skôr nižšou, ale nie úplne kriticky nízkou plodnosťou.

Klaster 2 (Spojené kráľovstvo, Francúzsko, Poľsko, Rumunsko, Holandsko, Belgicko) má nižšiu priemernú populáciu – asi 37,2 milióna obyvateľov, no zároveň najvyššiu priemernú mieru plodnosti (≈ 1,51) a mladšiu vekovú štruktúru s mediánovým vekom približne 41,9 roka. Tento klaster združuje stredne veľké krajiny, kde je plodnosť relatívne najvyššia a populácia je v priemere mladšia než v klustri 1.

Klaster 3 je tvorený jedinou krajinou – Ukrajinou. Jej priemerná (a zároveň skutočná) populácia je približne 38,98 milióna obyvateľov, pričom má najnižšiu mieru plodnosti (≈ 1,00) a mediánový vek okolo 41,8 roka. Tento klaster predstavuje krajinu s veľmi nízkou plodnosťou, pri vekovej štruktúre podobnej klastru 2.

Z porovnania klastrov vidno, že najvyšší priemerný počet obyvateľov sa spája so staršou populáciou (klaster 1), zatiaľ čo najvyššia plodnosť sa vyskytuje v krajinách so skôr mladšou populáciou (klaster 2). Ukrajina tvorí samostatný klaster kvôli kombinácii priemernej veľkosti populácie a extrémne nízkej miery plodnosti.

Záver

Predložená analýza sa zameriava na demografické charakteristiky vybraných európskych krajín na základe ich predpokladanej populácie v roku 2025, miery plodnosti a mediánu veku obyvateľstva. Na základe týchto premenných boli krajiny rozdelené do troch klastrov, pričom jednotlivé klastry odrážajú spoločné demografické črty týchto štátov.

Výsledné klastry predstavujú tri odlišné skupiny krajín. Prvý klaster tvoria štáty s najvyššou predpokladanou populáciou a zároveň vyšším mediánovým vekom obyvateľstva, čo naznačuje starnúcu populáciu veľkých krajín. Druhý klaster združuje krajiny s relatívne vyššou mierou plodnosti a strednými hodnotami populácie, čo poukazuje na dynamickejší populačný vývoj. Tretí klaster obsahuje krajiny s najnižšou mierou plodnosti a zároveň strednou až nižšou veľkosťou populácie.

Takáto klasifikácia umožňuje pochopiť vzťahy medzi demografickými ukazovateľmi a poukazuje na podobnosti v populačnom vývoji naprieč Európou. Analýza môže slúžiť ako podklad pre tvorbu populačných či sociálnych politík, prípadne pre ďalšie porovnávacie štúdie medzi európskymi krajinami.

