Úvod
Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy
exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné
rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii
zákazníkov v marketingu, identifikácii podobných krajín v
makroekonomických ukazovateľoch, hodnotenízdravotných rizík,
klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní
priestorových sobjektov. Jej výhodou je, že pracuje s viacerými
premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení
jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika
vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v
dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych
oblastiach aplikovaného výskumu.
My predstavíme zhlukovú analýzu pri analýze údajov pochádzajúcich z
meraní meteorologických premenných, konkrétne teploty vzduchu,
atmosférického tlaku, rýchlosti vetra a úhrnu zrážok. Budeme využívať
údaje za rok 2020. V Tab. 1. uvádzame celú nami
používanú databázu.
library(knitr)
library(kableExtra)
rm(list=ls())
udaje <- read.csv2("Temperature_2020.csv",dec = ",", sep = ";",fileEncoding = "Windows-1250", stringsAsFactors = FALSE)
udaje2020 <- subset(udaje, Year == 2020)
udaje2020 <- udaje2020[, c("Year", "Temperature...C.", "Air.Pressure..hPa.", "Wind.Speed..m.s.", "Precipitation..mm.")]
rownames(udaje2020) <- seq_len(nrow(udaje2020))
udaje2020 <- subset(udaje2020, select = -Year)
Table 1.
udaje2020
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi
pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné,
aby všetky premenné boli definované na rovnakejškále. Používame pritom
tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame
nasledovne
\[z = \frac{x-\mu}{\sigma}\]
kde \(\mu\) je stredná hodnota a
\(\sigma\) je štandardná odchýlka
pozorovaní \(x\). Predpokladáme pritom,
že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v
predchádzajúcich krokoch.
Touto operáciou získame škálované pozorovania, pričom ich rozloženie
je znázornené nasledovne:
# =======================================================
## 1) Príprava údajov a data.frame so šlálovanými údajmi
## ======================================================
udaje_complete <- na.omit(udaje2020)
udaje_scaled <- scale(udaje_complete)
Obr. 1.
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)
par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))
for (col in names(num_vars)) {
boxplot(num_vars[[col]],
main = col,
col = "lightblue",
horizontal = TRUE)
}
mtext("Boxploty numerických premenných (rok 2020)", outer = TRUE, cex = 1.3, font = 2)

Tentokrát odľahlé hodnoty nevylúčime, nakoľko predstavujú skutočné
namerané pozorovania a sú súčasťou reálnych podmienok merania.
Teplota vzduchu (Temperature…C.): Rozdelenie teplôt je pomerne
symetrické, bez extrémnych odľahlých bodov. Medián sa nachádza približne
uprostred intervalu a teploty sú rozptýlené rovnomerne. Hodnoty
nevykazujú výrazné anomálie.
Atmosférický tlak (Air.Pressure..hPa.): Atmosférický tlak má
mierne asymetrické rozdelenie, no bez odľahlých pozorovaní. Väčšina
hodnôt sa sústreďuje okolo mediánu a variabilita je primeraná. Údaje
pôsobia stabilne a bez extrémnych výkyvov.
Rýchlosť vetra (Wind.Speed..m.s.): Pri rýchlosti vetra sa
vyskytujú dva zreteľné odľahlé body – jeden veľmi nízky a jeden veľmi
vysoký. Tieto hodnoty však predstavujú reálne namerané situácie (napr.
náhle zosilnenie vetra alebo bezvetrie), preto ich ponechávame v
analýze. Ostatné hodnoty sú sústredené v úzkom intervale okolo mediánu,
čo naznačuje nízku variabilitu väčšiny meraní.
Úhrn zrážok (Precipitation..mm.): Zrážky vykazujú širšie rozptyl
než ostatné premenné, čo je typické pre túto veličinu, keďže zrážky môžu
byť veľmi variabilné. Rozdelenie je bez odľahlých bodov a medián sa
nachádza v spodnej časti boxu, čo naznačuje, že väčšina meraní mala
relatívne nízke úhrny zrážok.
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká
korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto
pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných
premenných. V Tab. 2. sa však takáto vysoká korelácia
nenachádza, preto sa nemusíme ďalej s problémom zaoberať. > V
prípade, ak máme väčší počet významne korelovaných premenných, sa
odporúča i transformácia pomocou Analýzy hlavných komponentov (Principal
Component Analysis)
Tab. 2
cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")
cor_mat <- round(cor_mat,2)
print(cor_mat)
Temperature...C. Air.Pressure..hPa. Wind.Speed..m.s.
Temperature...C. 1.00 -0.17 -0.23
Air.Pressure..hPa. -0.17 1.00 0.07
Wind.Speed..m.s. -0.23 0.07 1.00
Precipitation..mm. 0.54 -0.48 -0.42
Precipitation..mm.
Temperature...C. 0.54
Air.Pressure..hPa. -0.48
Wind.Speed..m.s. -0.42
Precipitation..mm. 1.00
Každému pozorovaniu zodpovedá jeden riadok meraných hodnôt.
Vzdialenosť medzi pozorovaniami \(i\) a
\(j\) je:
\[
d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2}
\] kde \(x^i_k\) je hodnota
\(k\)tej premennej (Temperature…C.,
Air.Pressure..hPa., Wind.Speed..m.s., Precipitation..mm.) pre
pozorovanie \(i\). Tento typ
vzdialenosti nazývame aj Euklidovská vzdialenosť. Vzdialenosti medzi
jednotlivými pozorovaniami sa súhrnne vyjadrujú aj v matici
vzdialeností, čo je v našom prípade uvedené v Tab.3..
Analýzou tejto tabuľky zistíme, že najväčšia vzdialenosť je medzi
mesiacmi 8 a 11, čo znamená, že tieto mesiace sa podľa meteorologických
ukazovateľov najviac líšia – majú odlišnú teplotu, tlak, zrážky aj
rýchlosť vetra. Naopak, najmenšia vzdialenosť je medzi mesiacmi 4 a 5,
ktoré sú si veľmi podobné a vykazujú takmer rovnaké klimatické
podmienky. Tieto rozdiely môžeme vysvetliť sezónnosťou – letné mesiace
sa prirodzene výrazne odlišujú od jesenných či zimných mesiacov, zatiaľ
čo susediace jarné mesiace sú si klimaticky veľmi blízke.
Tab. 3
## ============================
## 3) Distance matrix
## ============================
rownames(udaje_scaled) <- rownames(udaje_complete)
dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)
dist_mat
1 2 3 4 5 6 7 8 9 10 11
2 3.92
3 1.93 4.42
4 1.61 3.34 1.96
5 1.81 2.91 2.44 1.06
6 3.83 2.89 3.36 2.76 2.27
7 2.96 3.54 2.97 1.47 1.52 2.16
8 4.11 3.09 3.81 2.98 2.40 0.66 2.10
9 3.49 2.25 3.67 2.69 1.84 1.26 2.31 1.23
10 3.17 3.33 2.09 2.34 2.32 1.57 2.48 2.17 2.36
11 0.77 3.90 2.50 1.54 1.66 3.89 2.71 4.06 3.42 3.51
12 3.20 3.46 2.43 2.42 3.08 3.32 3.15 3.83 3.77 2.26 3.54
Princíp hierarchického zhlukovania (Wardova metóda)
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor,
t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto
metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje
nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva
nasledovné výpočty:
Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares
- ESS)
\[ESS(C) = \sum_{i \in C} \lVert x_i -
\bar{x}_C \rVert^2\] kde \(C\)
je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov,
Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom
\[\Delta ESS = ESS(A \cup B) - ESS(A) -
ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii
vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To
spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k
odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích
metódach.
Obr. 2. Hierarchické zhlukovanie - dendogram.
Červená čiara určuje rez definujúci tri klastre.
## ============================
## 4) Hierarchical klastering
## ============================
hc <- hclust(dist_mat, method = "ward.D2")
plot(hc, labels = rownames(udaje_scaled),
main = "Hierarchical klastering of observations (Ward.D2)",
xlab = "", sub = "")
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)

klaster_membership <- cutree(hc, k = k)
udaje_klasters <- data.frame(
Observation = rownames(udaje_complete),
udaje_complete,
klaster = factor(klaster_membership)
)
Tab.4. Príslušnosť pozorovaní do klastrov.
data_prac <- data.frame( Observation = rownames(udaje_klasters),
klaster = udaje_klasters$klaster)
colnames(data_prac) <- c("Observation","klaster")
data_prac
Na základe vykonanej zhlukovej analýzy boli mesiace rozdelené do
troch klastrov. Z výslednej tabuľky klastrov vidíme toto rozdelenie:
klaster 1: mesiace 1, 4, 5, 7, 11 klaster 2: mesiace 2, 6, 8, 9 klaster
3: mesiace 3, 10, 12. Tieto klastre reprezentujú mesiace, ktoré majú
podobné hodnoty teploty, tlaku, rýchlosti vetra a zrážok. Klaster 1
združuje mesiace, ktoré majú podobné a mierne stabilné meteorologické
podmienky — ide najmä o mesiace s podobnými teplotami a rýchlosťou
vetra. Klaster 2 zahŕňa mesiace s vyššou podobnosťou najmä v úrovni
zrážok a tlaku vzduchu, pričom tieto mesiace sa od klastrov 1 a 3
odlišujú práve kombináciou týchto ukazovateľov. Klaster 3 obsahuje
mesiace, ktoré majú odlišný profil — či už z hľadiska teploty alebo
zrážok — a preto sa od zvyšných mesiacov jasne oddeľujú. Výsledkom je
teda logické rozdelenie mesiacov do troch skupín, kde každý klaster
spája mesiace s podobnými meteorologickými charakteristikami.
Deskriptívne štatistiky výsledkov
Na základe Tab. 5 možno vyhodnotiť separačnú silu
jednotlivých premenných vo vytvorených klastroch nasledovne: Premenná
Precipitation..mm. má najvyšší podiel medzi-klastrového rozptylu
(Prop_Between ≈ 0.80), čo znamená, že veľmi dobre odlišuje jednotlivé
klastre – zrážky sú teda jedným z najsilnejších faktorov, podľa ktorých
sa mesiace prirodzene zoskupujú. Podobne aj Wind.Speed..m.s. vykazuje
vysokú hodnotu Prop_Between (≈ 0.65), čo naznačuje, že rýchlosť vetra sa
medzi klastrami významne líši a predstavuje dobrý separátor. Premenná
Air.Pressure..hPa. má strednú separačnú schopnosť (≈ 0.58), čo znamená,
že tlak vzduchu prispieva k odlišovaniu klastrov, ale už menej výrazne
ako predchádzajúce dve premenné. Najslabším separátorom je
Temperature…C., ktorej podiel medzi-klastrového rozptylu je najnižší (≈
0.29). Znamená to, že teplota sa síce medzi mesiacmi líši, ale nie
dostatočne na to, aby zásadne prispievala k vytváraniu odlišných
klastrov. Najviac k rozlíšeniu klastrov prispievajú zrážky a rýchlosť
vetra, zatiaľ čo teplota má v tomto type analýzy iba slabý separačný
efekt.
Tab. 5. Vysvetlenie vnútroklastrovej variability z
hľadiska jednotlivých premenných
## ============================
## 5) Variability measures
## ============================
ssq <- function(x, m) sum((x - m)^2)
var_names <- colnames(udaje_scaled)
TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))
WSS <- sapply(var_names, function(v) {
x <- udaje_scaled[, v]
tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})
BSS <- TSS - WSS
ss_table <- data.frame(
Variable = var_names,
TSS = TSS,
WSS = WSS,
BSS = BSS,
Prop_Between = BSS / TSS
)
ss_table
attach(udaje2020)
udaje2020 <- data.frame(cbind(udaje2020,udaje_klasters$klaster))
colnames(udaje2020) <- c("Temperature_C","AirPressure_hPa","WindSpeed_ms","Precipitation_mm","klaster")
Tab. 6. Centroidy - priemerné hodnoty sledovaných
premenných
library(dplyr)
descriptives <- udaje_klasters %>%
group_by(klaster) %>%
summarise(
across(
.cols = where(is.numeric),
.fns = list(
mean = ~mean(.x, na.rm = TRUE)
),
.names = "{.col}_{.fn}"
)
)
descriptives
NA
Prvý klaster má mierne nadpriemernú teplotu, najvyšší priemerný
atmosférický tlak (≈ 993.8 hPa) a strednú úroveň rýchlosti vetra. Druhý
klaster je charakterizovaný najvyššou priemernou teplotou (≈ 14.8 °C),
nízkym tlakom a najnižšou rýchlosťou vetra spomedzi všetkých klastrov.
Tretí klaster má najnižšie priemerné teploty, najnižší atmosférický tlak
a zároveň najvyššiu priemernú rýchlosť vetra, čo naznačuje odlišné
poveternostné podmienky oproti zvyšným dvom klastrom. Z toho vyplýva, že
najdôležitejším rozlišovacím faktorom medzi klastrami je teplota, zatiaľ
čo tlak vzduchu a rýchlosť vetra dopĺňajú charakteristiku jednotlivých
skupín.
Záver
Predložená analýza sa zaoberá zoskupovaním jednotlivých mesiacov roka
na základe ich priemerných meteorologických charakteristík – konkrétne
teploty vzduchu, atmosférického tlaku, rýchlosti vetra a množstva
zrážok. Na základe týchto premenných boli mesiace rozdelené do troch
klastrov, pričom každý klaster predstavuje odlišný typ poveternostných
podmienok. Takto získaná klasifikácia umožňuje lepšie pochopiť sezónne
rozdiely v počasí, identifikovať mesiace s podobnými klimatickými
profilmi a môže slúžiť ako podklad pri plánovaní aktivít závislých od
počasia – napríklad pri energetickom plánovaní, poľnohospodárstve či
hodnotení klimatických trendov.
