Úvod
Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy
exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné
rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii
zákazníkov v marketingu, identifikácii podobných krajín v
makroekonomických ukazovateľoch, hodnotenízdravotných rizík,
klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní
priestorových sobjektov. Jej výhodou je, že pracuje s viacerými
premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení
jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika
vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v
dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych
oblastiach aplikovaného výskumu.
Predstavím zhlukovú analýzu pri analýze krajín sveta z hľadiska
demografických ukazovateľov, ako sú predpokladaná populácia v roku 2025,
miera plodnosti, medián veku a čistá migrácia. Cieľom je identifikovať
skupiny krajín, ktoré majú podobné demografické profily a môžu byť preto
analyzované spoločne. Takto vytvorené zhluky poskytujú prehľad o
krajinách s podobným populačným vývojom či dynamikou rastu populácie.
Pri analýze využívame najnovšie dostupné údaje z databázy, s ktorou sme
pracovali aj v predchádzajúcich častiach.
library(knitr)
library(kableExtra)
# Načítanie dát
udaje <- read.csv("population_data.csv", stringsAsFactors = FALSE)
# 10 európskych krajín, s ktorými chcem pracovať
krajiny10 <- c("Germany",
"United Kingdom",
"France",
"Italy",
"Spain",
"Ukraine",
"Poland",
"Romania",
"Netherlands",
"Belgium")
# Výber len týchto krajín a požadovaných premenných
udaje10 <- subset(
udaje,
Country..or.dependency. %in% krajiny10,
select = c(
Country..or.dependency.,
Population.2025,
Fert..Rate,
Median.Age,
Migrants..net.
)
)
# Pre pomenovanie stĺpcov v tabuľke
colnames(udaje10) <- c(
"Krajina",
"Populácia 2025",
"Miera plodnosti",
"Medián veku",
"Čistá migrácia"
)
Table 1.
udaje10
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi
pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné,
aby všetky premenné boli definované na rovnakejškále. Používame pritom
tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame
nasledovne
\[z = \frac{x-\mu}{\sigma}\]
kde \(\mu\) je stredná hodnota a
\(\sigma\) je štandardná odchýlka
pozorovaní \(x\). Predpokladáme pritom,
že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v
predchádzajúcich krokoch.
Touto operáciou získame škálované pozorovania, pričom ich rozloženie
je znázornené nasledovne:
# 1) Načítanie dát -------------------------------------------------------
udaje <- read.csv("population_data.csv",
sep = ",",
header = TRUE,
stringsAsFactors = FALSE)
# 2) Vyberieme 10 európskych krajín, s ktorými chceme pracovať ----------
krajiny10 <- c("Germany",
"United Kingdom",
"France",
"Italy",
"Spain",
"Ukraine",
"Poland",
"Romania",
"Netherlands",
"Belgium")
# filter na týchto 10 krajín
udaje10 <- subset(udaje, Country..or.dependency. %in% krajiny10)
# pre istotu zoradíme riadky v rovnakom poradí ako vo vektore krajiny10
udaje10 <- udaje10[match(krajiny10, udaje10$Country..or.dependency.), ]
# 3) Pripravíme dátový rámec len s číselnými premennými -----------------
# (populácia 2025, miera plodnosti, medián veku, čistá migrácia)
udaje_complete <- udaje10[, c("Population.2025",
"Fert..Rate",
"Median.Age",
"Migrants..net.")]
# istota: pretypujeme stĺpce na numeric (keby ich R načítal ako text)
udaje_complete[] <- lapply(udaje_complete, function(x) as.numeric(x))
# pomenujeme riadky podľa krajín
rownames(udaje_complete) <- udaje10$Country..or..dependency.
# 4) Škálovanie premenných (z-skóre) ------------------------------------
udaje_scaled <- scale(udaje_complete)
# Výstupy do tabuľky (najprv pôvodné dáta, potom škálované)
udaje_complete # neškálované hodnoty
udaje_scaled # z-skóre
Population.2025 Fert..Rate Median.Age Migrants..net.
[1,] 1.5833411 0.31344708 0.89440379 NA
[2,] 0.9895915 0.68771224 -1.29101724 0.05585233
[3,] 0.8710141 1.15554370 -0.40066052 -0.43681319
[4,] 0.5642185 -0.85613157 1.98711431 -0.46372711
[5,] 0.1040462 -0.76256528 1.05628683 -0.42872861
[6,] -0.2601892 -1.83857763 -0.60301432 2.22437606
[7,] -0.2945077 -0.38830011 -0.31971900 NA
[8,] -1.0807476 1.48302572 -0.03642368 NA
[9,] -1.1037160 0.21988079 -0.72442660 -0.41542614
[10,] -1.3730509 -0.01403494 -0.56254356 -0.53553334
attr(,"scaled:center")
Population.2025 Fert..Rate Median.Age Migrants..net.
45344878.700 1.393 43.290 356107.714
attr(,"scaled:scale")
Population.2025 Fert..Rate Median.Age Migrants..net.
2.446106e+07 2.137522e-01 2.470920e+00 6.052260e+05
Obr. 1.
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)
par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))
for (col in names(num_vars)) {
boxplot(num_vars[[col]],
main = col,
col = "lightblue",
horizontal = TRUE)
}
mtext("Boxploty numerických premenných (vybraných 10 krajín)", outer = TRUE, cex = 1.3, font = 2)

Tentokrát odľahlé hodnoty nevylúčime, nakoľko definujú konkrétnu
krajinu.
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká
korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto
pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných
premenných. V Tab. 2. sa však takáto vysoká korelácia
nenachádza, preto sa nemusíme ďalej s problémom zaoberať. > V
prípade, ak máme väčší počet významne korelovaných premenných, sa
odporúča i transformácia pomocou Analýzy hlavných komponentov (Principal
Component Analysis) Pri zhlukovej analýze je dôležitá korelačná matica
premenných. Vysoká korelácia medzi premennými môže spôsobovať, že
niektoré z nich budú mať pri tvorbe zhlukov neprimerane veľký vplyv.
Preto sa pri koreláciách vyšších ako 0.8 – 0.9 často odporúča vylúčiť
jednu z dvojice silne korelovaných premenných. V našom prípade (pozri
Tab. 2) však žiadna z korelácií nedosahuje hodnotu,
ktorá by bola problematická:
najvyššia korelácia je medzi premennými Fert..Rate a Migrants..net.
na úrovni –0.64, ostatné korelácie sa pohybujú len v intervale približne
–0.30 až 0.32, premenné teda nie sú výrazne multikolineárne. To znamená,
že sa nemusíme zaoberať odstraňovaním premenných ani uvažovať o ďalšej
transformácii z dôvodu vysokej korelácie. V prípade, že by sme mali
väčší počet veľmi korelovaných ukazovateľov, bolo by vhodné zvážiť
transformáciu pomocou Analýzy hlavných komponentov (Principal Component
Analysis). V našom prípade to však nie je potrebné.
Tab. 2
cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")
cor_mat <- round(cor_mat,2)
print(cor_mat)
Population.2025 Fert..Rate Median.Age Migrants..net.
Population.2025 1.00 0.04 0.32 0.00
Fert..Rate 0.04 1.00 -0.28 -0.64
Median.Age 0.32 -0.28 1.00 -0.29
Migrants..net. 0.00 -0.64 -0.29 1.00
Každej krajine zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi
krajinami \(i\) a \(j\) je:
\[
d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2}
\] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu
(Population.2025, Fert..Rate, Median.Age a Migrants..net.) krajiny \(i\). Tento typ vzdialenosti nazývame aj
Euklidovská vzdialenosť. Vzdialenosti medzi jednotlivými krajinami sa
súhrnne vyjadrujú aj v matici vzdialenosti, čo v našom prípade je
uvedené v Tab.3.. Na základe výsledkov z Tab.
3 môžeme uviesť nasledovné:
Najväčšia vzdialenosť (t. j. najmenšia podobnosť) bola zistená medzi
Ukrajinou a Nemeckom (3.70), ako aj medzi Ukrajinou a Francúzskom
(3.62). Tieto krajiny sa výrazne líšia najmä v migračnej bilancii,
vekovej štruktúre aj plodnosti. Silné rozdiely pozorujeme aj medzi
Rumunskom a Dánskom (3.19) a Rumunskom a Holandskom (3.36), čo môže
súvisieť s vyššou plodnosťou a odlišnou migračnou dynamikou Rumunska.
Najmenšiu vzdialenosť, teda najväčšiu podobnosť, nachádzame medzi:
Holandskom a Belgickom (0.41), Francúzskom a Belgickom (1.13), Nemeckom
a Veľkou Britániou (2.65) Tieto krajiny vykazujú podobné hodnoty medianu
veku a relatívne vyrovnanú migračnú bilanciu. Stredná úroveň podobnosti
je napríklad medzi Poľskom a Španielskom (1.71) alebo Francúzskom a
Španielskom (2.94). Celkovo teda vidíme, že európske krajiny vytvárajú
podľa svojich ukazovateľov prirodzené skupiny – napr.
Belgicko–Holandsko, Nemecko–UK, zatiaľ čo krajiny ako Ukrajina či
Rumunsko sa od väčšiny ostatných výraznejšie odlišujú.
Tab. 3
## ============================
## 3) Distance matrix
## ============================
# Pomenovanie riadkov podľa 10 zvolených krajín
rownames(udaje_scaled) <- c("Germany",
"United Kingdom",
"France",
"Italy",
"Spain",
"Ukraine",
"Poland",
"Romania",
"Netherlands",
"Belgium")
# Výpočet euklidovskej vzdialenosti a zaokrúhlenie na 2 desatinné miesta
dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)
dist_mat
Germany United Kingdom France Italy Spain Ukraine Poland
United Kingdom 2.65
France 1.96 1.13
Italy 2.19 3.69 3.14
Spain 2.12 2.94 2.53 1.04
Ukraine 3.70 3.62 4.17 3.95 3.33
Poland 2.71 2.24 2.24 2.89 1.71 1.71
Romania 3.53 2.94 2.32 4.05 3.19 4.00 2.37
Netherlands 3.62 2.27 2.21 3.36 2.37 3.45 1.26
Belgium 3.82 2.64 2.54 3.31 2.32 3.49 1.35
Romania Netherlands
United Kingdom
France
Italy
Spain
Ukraine
Poland
Romania
Netherlands 1.66
Belgium 1.86 0.41
Princíp hierarchického zhlukovania (Wardova metóda)
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor,
t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto
metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje
nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva
nasledovné výpočty:
Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares
- ESS)
\[ESS(C) = \sum_{i \in C} \lVert x_i -
\bar{x}_C \rVert^2\] kde \(C\)
je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov,
Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom
\[\Delta ESS = ESS(A \cup B) - ESS(A) -
ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii
vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To
spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k
odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích
metódach.
Obr. 2. Hierarchické zhlukovanie - dendogram.
Červená čiara určuje rez definujúci tri klastre.
## ============================
## 4) Hierarchical klastering
## ============================
hc <- hclust(dist_mat, method = "ward.D2")
plot(hc, labels = rownames(udaje_scaled),
main = "Hierarchical klastering of countries (Ward.D2)",
xlab = "", sub = "")
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)

klaster_membership <- cutree(hc, k = k)
udaje_klasters <- data.frame(
Country = rownames(udaje_complete),
udaje_complete,
klaster = factor(klaster_membership)
)
Tab.4. Príslušnosť krajín do klastrov.
## Tab. 4 – Príslušnosť krajín do klastrov
# Vytvoríme dátový rámec s krajinami a ich klastrom
data_prac <- data.frame(
Country = rownames(udaje_scaled),
klaster = udaje_klasters
)
# Zobrazíme výslednú tabuľku
data_prac
NA
# Výsledná tabuľka krajín a ich klastrov
data_prac <- data.frame(
Country = udaje_klasters$Country,
Klastor = udaje_klasters$klaster
)
data_prac
NA
Na základe hierarchickej zhlukovej analýzy (Wardova metóda) sme
analyzovali podobnosť desiatich európskych krajín podľa vybraných
ukazovateľov (Population 2025, Fertility Rate, Median Age, Net
Migration). Výsledkom procesu bolo rozdelenie krajín do troch klastrov,
pričom krajiny v rámci jedného klastru majú podobnejšie demografické
ukazovatele ako krajiny v iných klastroch.
Z tabuľky vidíme nasledovné zaradenie:
Klastre typu 1: tvorí ho Nemecko, Taliansko a Španielsko. Tieto
krajiny majú podobnú populačnú veľkosť a spoločné demografické črty,
napríklad nízku mieru plodnosti a vyšší mediánový vek, čo sú typické
znaky západoeurópskych krajín s dlhodobým starnutím populácie.
Klastre typu 2: sem spadajú Spojené kráľovstvo, Francúzsko, Poľsko,
Holandsko, Belgicko a Ukrajina. Ide o najrozmanitejší klaster, ktorý
zahŕňa veľké aj stredne veľké krajiny s mierne vyššou plodnosťou,
odlišným migračným profilom a rôznorodým vekovým zložením populácie.
Klastre typu 3: predstavuje ho len Rumunsko. Zaradenie Rumunska do
samostatného klastru naznačuje, že sa jeho demografické charakteristiky
významne odlišujú od ostatných analyzovaných krajín — napríklad nižšou
populačnou veľkosťou, špecifickou migráciou či výraznejšími rozdielmi v
plodnosti alebo vekovej štruktúre.
Celkovo môžeme konštatovať, že klastrová analýza odhalila prirodzené
skupiny krajín so spoločnými demografickými znakmi. Najviac homogénny je
klaster č. 1, zatiaľ čo klaster č. 2 zahŕňa krajiny s väčšou vnútornou
variabilitou. Samostatné postavenie Rumunska v klasteri č. 3 poukazuje
na jeho výraznú odlišnosť od ostatných európskych krajín v sledovaných
premenných.
Deskriptívne štatistiky výsledkov
Pri analýze rozkladu variancie sledujeme, aká časť variability
jednotlivých premenných je vysvetlená samotným klastrovým riešením.
Kľúčovým ukazovateľom je stĺpec Prop_Between, ktorý udáva podiel
variability vysvetlenej rozdielmi medzi klastrami (BSS / TSS). Čím je
táto hodnota vyššia, tým lepšie klastrovanie zachytáva rozdiely medzi
krajinami podľa danej premennej.
Z Tab. 5. vyplýva nasledovné:
Population.2025 – Prop_Between ≈ 0.268 Podiel variability vysvetlenej
klastrami je približne 27 %, čo znamená, že populácia iba mierne
prispieva k odlišovaniu klastrov. Krajiny sa teda z hľadiska veľkosti
populácie v roku 2025 neodlišujú natoľko, aby tvorili jasne oddelené
skupiny.
Fert..Rate – Prop_Between ≈ 0.621 Miera plodnosti vysvetľuje až 62 %
variability medzi klastrami, čo je pomerne vysoká hodnota. To znamená,
že fertilita je významným faktorom, podľa ktorého sa krajiny skutočne
odlišujú. Klastry teda zachytávajú rozdiely v demografickej dynamike
veľmi dobre.
Median.Age – Prop_Between ≈ 0.821 Až 82 % variability v mediánovom
veku je vysvetlených klastrami. Ide o najvyššiu hodnotu zo všetkých
sledovaných premenných. Znamená to, že mediánový vek populácie je
dominantným ukazovateľom, ktorý najlepšie odlišuje vytvorené skupiny
krajín. Krajiny sa teda výrazne líšia v tom, či majú mladšiu alebo
staršiu populáciu.
Migrants..net – nebolo možné vyhodnotiť (NA) Pre túto premennú nebol
výpočet možný, pravdepodobne kvôli chýbajúcim hodnotám (NA). Preto
nevystupuje v rozklade variancie ani v posudzovaní vhodnosti
klastrovania.
Tab. 5. Vysvetlenie vnútroklastrovej variability z
hľadiska jednotlivých premenných
## ============================
## 5) Variability measures
## ============================
ssq <- function(x, m) sum((x - m)^2)
var_names <- colnames(udaje_scaled)
TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))
WSS <- sapply(var_names, function(v) {
x <- udaje_scaled[, v]
tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})
BSS <- TSS - WSS
ss_table <- data.frame(
Variable = var_names,
TSS = TSS,
WSS = WSS,
BSS = BSS,
Prop_Between = BSS / TSS
)
ss_table
# Pridáme ku datasetu priradené klastry
udaje10 <- data.frame(
Country = udaje10$Country..or.dependency.,
Population.2025 = udaje10$Population.2025,
Fert..Rate = udaje10$Fert..Rate,
Median.Age = udaje10$Median.Age,
Migrants..net. = udaje10$Migrants..net.,
klaster = udaje_klasters$klaster
)
# Zobrazenie výsledného datasetu
udaje10
NA
Tab. 6. Centroidy - priemerné hodnoty sledovaných
premenných
library(dplyr)
descriptives <- udaje10 %>%
group_by(klaster) %>%
summarise(
across(
.cols = where(is.numeric),
.fns = list(
mean = ~mean(.x, na.rm = TRUE)
),
.names = "{.col}_{.fn}"
)
)
descriptives
NA
Na záver sme porovnali priemerné charakteristiky troch klastrov
vybraných európskych krajín.
Klaster 1 (Nemecko, Taliansko, Španielsko) má
najväčšiu priemernú populáciu – približne 63,7
milióna obyvateľov, strednú mieru plodnosti
okolo 1,30 dieťaťa na ženu a zároveň najvyšší
mediánový vek (≈ 46,5 roka). Tento klaster
teda reprezentuje veľké a demograficky „starnúce“ krajiny so skôr
nižšou, ale nie úplne kriticky nízkou plodnosťou.
Klaster 2 (Spojené kráľovstvo, Francúzsko, Poľsko,
Rumunsko, Holandsko, Belgicko) má nižšiu priemernú
populáciu – asi 37,2 milióna obyvateľov, no
zároveň najvyššiu priemernú mieru plodnosti (≈
1,51) a mladšiu vekovú štruktúru s mediánovým
vekom približne 41,9 roka. Tento klaster združuje
stredne veľké krajiny, kde je plodnosť relatívne najvyššia a populácia
je v priemere mladšia než v klustri 1.
Klaster 3 je tvorený jedinou krajinou –
Ukrajinou. Jej priemerná (a zároveň skutočná) populácia
je približne 38,98 milióna obyvateľov, pričom má
najnižšiu mieru plodnosti (≈ 1,00) a
mediánový vek okolo 41,8 roka. Tento klaster
predstavuje krajinu s veľmi nízkou plodnosťou, pri vekovej štruktúre
podobnej klastru 2.
Z porovnania klastrov vidno, že najvyšší priemerný počet obyvateľov
sa spája so staršou populáciou (klaster 1), zatiaľ čo najvyššia plodnosť
sa vyskytuje v krajinách so skôr mladšou populáciou (klaster 2).
Ukrajina tvorí samostatný klaster kvôli kombinácii priemernej veľkosti
populácie a extrémne nízkej miery plodnosti.
Záver
Predložená analýza sa zameriava na demografické charakteristiky
vybraných európskych krajín na základe ich predpokladanej populácie v
roku 2025, miery plodnosti a mediánu veku obyvateľstva. Na základe
týchto premenných boli krajiny rozdelené do troch klastrov, pričom
jednotlivé klastry odrážajú spoločné demografické črty týchto
štátov.
Výsledné klastry predstavujú tri odlišné skupiny krajín. Prvý klaster
tvoria štáty s najvyššou predpokladanou populáciou a zároveň vyšším
mediánovým vekom obyvateľstva, čo naznačuje starnúcu populáciu veľkých
krajín. Druhý klaster združuje krajiny s relatívne vyššou mierou
plodnosti a strednými hodnotami populácie, čo poukazuje na dynamickejší
populačný vývoj. Tretí klaster obsahuje krajiny s najnižšou mierou
plodnosti a zároveň strednou až nižšou veľkosťou populácie.
Takáto klasifikácia umožňuje pochopiť vzťahy medzi demografickými
ukazovateľmi a poukazuje na podobnosti v populačnom vývoji naprieč
Európou. Analýza môže slúžiť ako podklad pre tvorbu populačných či
sociálnych politík, prípadne pre ďalšie porovnávacie štúdie medzi
európskymi krajinami.
