library(knitr)
library(kableExtra)

Úvod

Zhluková (klastrová) analýza je kľúčovou metódou exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov – napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch alebo v sociálnej vede. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení jednotlivých ukazovateľov zostali skryté.

V tejto práci predstavíme zhlukovú analýzu na účely analýzy a profilovania vybraných krajín strednej, východnej a severnej Európy. Naším cieľom je identifikovať skupiny krajín, ktoré sú si podobné z hľadiska faktorov ovplyvňujúcich kvalitu života a vnímané šťastie. Využijeme dáta z databázy World Happiness Report za rok 2015 .

Pre zhlukovú analýzu sme vybrali päť kľúčových premenných, ktoré reprezentujú rôzne dimenzie životnej úrovne:

Na zistenie podobnosti krajín sme použili Euklidovskú vzdialenosť a na samotné zhlukovanie Hierarchické zhlukovanie s Wardovou metódou.

V Tab. 1. uvádzame celú nami použitú databázu obsahujúcu vybrané krajiny pre rok 2015.

udaje <- read.csv("World Happiness Report 2005-2021.csv", stringsAsFactors = FALSE)

# Výber prierezových dát pre rok 2015
udaje2015_prierez <- subset(udaje, Year == 2015)

# Výber vybraných európskych krajín
udaje2015_prierez <- subset(udaje2015_prierez,
  Country.name == "Poland" | Country.name == "Hungary" | Country.name == "Latvia" |
  Country.name == "Lithuania" | Country.name == "Croatia" | Country.name == "Slovenia" |
  Country.name == "Austria" | Country.name == "Serbia" | Country.name == "Montenegro" |
  Country.name == "Ukraine" | Country.name == "Bulgaria" | Country.name == "Romania" |
  Country.name == "Moldova" | Country.name == "Finland" | Country.name == "Sweden" |
  Country.name == "Denmark" | Country.name == "Estonia"
)

udaje2015_clusters <- udaje2015_prierez[, c(
  "Country.name", 
  "Log.GDP.per.capita",
  "Healthy.life.expectancy.at.birth", 
  "Social.support", 
  "Freedom.to.make.life.choices", 
  "Perceptions.of.corruption"
)]

rownames(udaje2015_clusters) <- udaje2015_clusters$Country.name
udaje2015_clusters$Country.name <- NULL

udaje2015_clusters <- na.omit(udaje2015_clusters)

summary(udaje2015_clusters)
 Log.GDP.per.capita Healthy.life.expectancy.at.birth Social.support  
 Min.   : 9.246     Min.   :62.90                    Min.   :0.7396  
 1st Qu.: 9.903     1st Qu.:65.90                    1st Qu.:0.8399  
 Median :10.223     Median :66.60                    Median :0.9012  
 Mean   :10.188     Mean   :67.46                    Mean   :0.8772  
 3rd Qu.:10.428     3rd Qu.:70.00                    3rd Qu.:0.9281  
 Max.   :10.876     Max.   :71.40                    Max.   :0.9597  
 Freedom.to.make.life.choices Perceptions.of.corruption
 Min.   :0.4306               Min.   :0.1910           
 1st Qu.:0.5952               1st Qu.:0.5687           
 Median :0.6935               Median :0.8485           
 Mean   :0.7263               Mean   :0.7296           
 3rd Qu.:0.8960               3rd Qu.:0.9242           
 Max.   :0.9414               Max.   :0.9617           

Základné štatistické miery pre vybrané premenné za rok 2015 odhaľujú značnú heterogenitu medzi sledovanými krajinami. Premenná Log.GDP.per.capita ukazuje najväčšiu ekonomickú rôznorodosť, čo je kľúčový predpoklad pre efektívne rozlíšenie zhlukov.

Taktiež v premenných Healthy.life.expectancy.at.birth a Perceptions.of.corruption pozorujeme významný rozptyl medzi minimálnymi a maximálnymi hodnotami, čo naznačuje existenciu dvoch výrazne odlišných skupín krajín (napr. Sever vs. Východ).

Naopak, faktor Social.support vykazuje v celom súbore pomerne vysoké hodnoty a nízky rozptyl, čo naznačuje, že táto premenná bude menej dôležitá pre primárnu segmentáciu krajín do zhlukov.

Na základe týchto zistení očakávame, že hlavné rozdiely medzi vytvorenými zhlukmi budú determinované predovšetkým ekonomickou úrovňou, zdravotným stavom a vnímaním inštitucionálnej kvality.

Table 1.

udaje2015_clusters

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Používame pritom tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne

\[z = \frac{x-\mu}{\sigma}\] kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.

Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:

udaje_complete <- na.omit(udaje2015_clusters)

udaje_scaled <- scale(udaje_complete)

head(udaje_scaled)
         Log.GDP.per.capita Healthy.life.expectancy.at.birth Social.support
Austria           1.3910801                        1.1791793      0.7781490
Bulgaria         -0.5775550                       -0.6249646      0.4635465
Croatia          -0.1341340                        0.1768771     -1.6622955
Denmark           1.3917981                        1.2192708      1.2607629
Estonia           0.3130872                        0.3372461      0.6226197
Finland           1.0680177                        1.2994538      1.0789562
         Freedom.to.make.life.choices Perceptions.of.corruption
Austria                     1.0805700                -0.6321481
Bulgaria                   -0.5559896                 0.7777174
Croatia                    -0.2037848                 0.4370637
Denmark                     1.3360424                -1.9783269
Estonia                     0.5488162                -0.5908042
Finland                     1.2641514                -1.8594793

Zobrazená tabuľka prezentuje dáta po štandardizácii, čím je zabezpečená porovnateľnosť všetkých premenných na spoločnej škále. Z-skóre nám okamžite ukazuje, ako veľmi sa daná krajina odchyľuje od priemeru celého súboru.

Napríklad:

Obr. 1.

num_vars <- as.data.frame(udaje_scaled)

num_plots <- ncol(num_vars)

side_length <- ceiling(sqrt(num_plots))
par(mfrow = c(side_length, ceiling(num_plots / side_length)))
par(mar = c(4, 4, 2, 1)) 

for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main = col,
          col = "lightblue",
          horizontal = TRUE, 
          xlab = "Škálovaná hodnota (Z-skóre)")
}

Boxplot pre Log.GDP.per.capita signalizuje mierne zošikmenú distribúciu, pravdepodobne s niektorými odľahlými hodnotami na hornom konci stupnice. Tieto body reprezentujú ekonomicky najsilnejšie krajiny (napr. severské), ktorých HDP je výrazne nad priemerom sledovanej stredoeurópskej a východoeurópskej skupiny.

Distribúcia Healthy.life.expectancy.at.birth je vo všeobecnosti symetrická s mierne menším rozptylom než HDP. To znamená, že zatiaľ čo priemerná dĺžka zdravého života sa líši, krajiny majú tendenciu sa zoskupovať okolo priemeru, hoci horná hranica rozptylu (“najzdravšie” krajiny) môže byť výraznejšia.

Boxplot pre Social.support je viditeľne najužší, s najkratšími fúzmi, čo vizuálne potvrdzuje, že táto premenná má v porovnaní s ostatnými najnižšiu variabilitu. Väčšina sledovaných krajín má podobne vysoké skóre sociálnej podpory, čím sa táto premenná stáva najmenej dôležitou pre segmentáciu.

Distribúcia Freedom.to.make.life.choices je pomerne široká a mala by byť symetrická, hoci môže vykazovať odľahlé hodnoty na dolnom konci. Tieto body reprezentujú krajiny, kde obyvatelia vnímajú svoju slobodu rozhodovania o živote výrazne pod priemerom sledovanej skupiny.

Boxplot pre Perceptions.of.corruption má veľký rozsah a pravdepodobne vykazuje odľahlé hodnoty na oboch stranách. Tieto extrémy jasne oddeľujú krajiny s veľmi nízkym vnímaním korupcie (Sever) od krajín s veľmi vysokým vnímaním korupcie (Juh a Východ), čo z nej robí kľúčový rozlišovací faktor v dátovom súbore.

Tab. 2

cor_mat <- cor(udaje_scaled, use="pairwise.complete.obs")

cor_mat <- round(cor_mat, 2)

print(cor_mat)
                                 Log.GDP.per.capita
Log.GDP.per.capita                             1.00
Healthy.life.expectancy.at.birth               0.90
Social.support                                 0.55
Freedom.to.make.life.choices                   0.86
Perceptions.of.corruption                     -0.74
                                 Healthy.life.expectancy.at.birth
Log.GDP.per.capita                                           0.90
Healthy.life.expectancy.at.birth                             1.00
Social.support                                               0.42
Freedom.to.make.life.choices                                 0.88
Perceptions.of.corruption                                   -0.80
                                 Social.support
Log.GDP.per.capita                         0.55
Healthy.life.expectancy.at.birth           0.42
Social.support                             1.00
Freedom.to.make.life.choices               0.47
Perceptions.of.corruption                 -0.54
                                 Freedom.to.make.life.choices
Log.GDP.per.capita                                       0.86
Healthy.life.expectancy.at.birth                         0.88
Social.support                                           0.47
Freedom.to.make.life.choices                             1.00
Perceptions.of.corruption                               -0.74
                                 Perceptions.of.corruption
Log.GDP.per.capita                                   -0.74
Healthy.life.expectancy.at.birth                     -0.80
Social.support                                       -0.54
Freedom.to.make.life.choices                         -0.74
Perceptions.of.corruption                             1.00

Silná Pozitívna Korelácia (Redundancia):

Silná Negatívna Korelácia (Kľúčová Diverzita):

Slabšia Korelácia (Nezávislý Príspevok):

Tab. 3

rownames(udaje_scaled) <- c("Pol", "Hun", "Lat", "Lit", "Cro", "Slo", "Aus", "Ser", "Mon", "Ukr", "Bul", "Rom", "Mol", "Fin", "Swe", "Den.", "Est")

dist_mat <- round(dist(udaje_scaled, method = "euclidean"), 2)

dist_mat
      Pol  Hun  Lat  Lit  Cro  Slo  Aus  Ser  Mon  Ukr  Bul  Rom  Mol  Fin
Hun  3.45                                                                 
Lat  3.48 2.37                                                            
Lit  1.45 4.37 4.49                                                       
Cro  1.48 2.20 2.66 2.21                                                  
Slo  1.32 4.13 4.20 0.40 1.96                                             
Aus  3.37 1.14 1.73 4.38 2.33 4.15                                        
Ser  3.00 0.88 1.92 3.91 1.79 3.69 0.85                                   
Mon  3.13 0.96 2.73 4.06 2.08 3.90 1.32 0.94                              
Ukr  5.23 2.09 2.98 5.98 3.85 5.71 2.50 2.40 2.77                         
Bul  4.45 2.67 1.18 5.29 3.42 5.00 2.06 2.34 3.18 2.49                    
Rom  2.05 1.54 2.02 3.12 1.01 2.86 1.69 1.25 1.60 3.25 2.87               
Mol  3.54 2.13 1.04 4.61 2.65 4.34 1.88 1.77 2.46 2.63 1.74 1.87          
Fin  4.21 1.63 1.62 5.07 2.98 4.77 1.34 1.63 2.33 1.72 1.27 2.36 1.87     
Swe  1.59 2.54 2.61 2.89 1.49 2.65 2.62 2.34 2.51 4.27 3.67 1.15 2.49 3.31
Den. 1.28 4.33 4.18 0.61 2.16 0.47 4.25 3.85 4.10 5.93 5.03 2.99 4.38 4.89
Est  5.25 1.93 3.57 5.96 3.90 5.72 2.41 2.48 2.51 1.53 3.20 3.41 3.46 2.04
      Swe Den.
Hun           
Lat           
Lit           
Cro           
Slo           
Aus           
Ser           
Mon           
Ukr           
Bul           
Rom           
Mol           
Fin           
Swe           
Den. 2.67     
Est  4.42 5.96

Táto tabuľka predstavuje Maticu Euklidovských Vzdialeností (dist_mat) medzi krajinami. Každá hodnota (napr. 3.45 medzi Pol a Hun) kvantifikuje, aké sú si krajiny nepodobné vo všetkých piatich škálovaných premenných naraz. Nižšia hodnota znamená väčšiu podobnosť.

  1. Najvyššia Podobnosť (Najmenšie Vzdialenosti):
  1. Najnižšia Podobnosť (Najväčšie Vzdialenosti):

Hodnoty matice potvrdzujú silnú heterogenitu súboru a existencia veľmi blízkych párov (Slo a Lit) a extrémne vzdialených párov (Ukr a Lit/Den.) je kľúčovým predpokladom pre úspešnú hierarchickú zhlukovú analýzu.

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardová metóda minimalizuje sumu štvorcov chýb (Error sum of Squares - ESS)

\[ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2\] kde \(C\) je zvažovaný klaster (zhluk). V každom kroku zlučovania dvoch klasterov, Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb (\(\Delta ESS\)), pričom

\[\Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B)\] Dvojica zhlukov, ktoré tejto podmienke o minimalizácii vyhovuje, je následne zlúčená a prechádza sa k ďalšiemu kkroku. To spravidla vedie k vytváraniu homogénnych zhlukov, pričom nedochádza k odtrhávaniu odľahlých hodnôt tak, ako pri iných zhlukovacích metódach.

Obr. 2. Hierarchické zhlukovanie - dendogram.

hc_ward <- hclust(dist_mat, method = "ward.D2")

plot(hc_ward, 
     labels = rownames(udaje_scaled),
     main = "Dendrogram: Hierarchické zhlukovanie krajín (Wardova metóda, 2015)",
     xlab = "Krajiny", 
     sub = "",
     ylab = "Euklidovská vzdialenosť")

k <- 3
h_cut <- hc_ward$height[length(hc_ward$height) - (k - 1)] 
abline(h = h_cut, col = "red", lwd = 2, lty = 2) 

klaster_membership <- cutree(hc_ward, k = k)

udaje_klasters <- udaje_complete

udaje_klasters$klaster <- factor(klaster_membership)

udaje_klasters$Country <- rownames(udaje_complete)

udaje_klasters <- udaje_klasters[, c("Country", names(udaje_klasters)[!names(udaje_klasters) %in% "Country"])]

head(udaje_klasters)

Červená prerušovaná čiara predstavuje prerezanie dendrogramu na základe rozhodnutia o optimálnom počte zhlukov \(k=3\). Akákoľvek vetva, ktorú táto čiara pretína, sa stáva samostatným zhlukom. Vodorovná čiara jasne delí súbor krajín na tri hlavné, navzájom odlišné, skupiny.

Na základe tohto prerezania vznikajú tri hlavné homogénne zhluky (clusters):

Hierarchická analýza jasne potvrdzuje existenciu silnej polarizácie v skúmaných sociálno-ekonomických ukazovateľoch, pričom hlavnými deliacimi faktormi je geograficko-ekonomická úroveň (Nordic vs. Východ).

Tab.4. Príslušnosť krajín do klastrov.

data_prac <- udaje_klasters[, c("Country", "klaster")]

colnames(data_prac) <- c("Krajina", "Zhluk")

data_prac

Zhluk 1 je tvorený výlučne vysoko vyspelými severskými krajinami (Dánsko, Fínsko, Švédsko) a Rakúskom. Ide o skupinu, ktorá v profilovaní zhlukov dosiahne najvyššie hodnoty HDP, zdravého života a slobody a zároveň najnižšiu vnímanú korupciu. Tento zhluk predstavuje referenčný bod vysokého blahobytu.

Zhluk 2 je najväčším zhlukom združujúcim väčšinu krajín, ktoré prešli ekonomickou transformáciou a vstúpili do EÚ (Poľsko, Maďarsko, Estónsko, Lotyšsko, Litva, Slovinsko, Bulharsko, Rumunsko). Hoci sú medzi nimi rozdiely (Slovinsko je najvyspelejšie), ich sociálno-ekonomické ukazovatele sú na strednej úrovni, jasne odlíšené od severského modelu a najchudobnejších krajín.

Zhluk 3 je charakteristický tým, že v ňom sú sústredené krajiny z juhovýchodnej a východnej Európy, ktoré sa nachádzajú na dolnom konci ekonomickej výkonnosti v súbore (Chorvátsko, Srbsko, Čierna Hora, Moldavsko a Ukrajina). Tieto krajiny budú v profilovaní zhlukov vykazovať najnižšie HDP, zdravý život a najvyššiu vnímanú korupciu.

Deskriptívne štatistiky výsledkov

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných

ssq <- function(x, m) sum((x - m)^2)

var_names <- colnames(udaje_scaled)

TSS <- sapply(var_names, function(v) ssq(udaje_scaled[, v], mean(udaje_scaled[, v])))

WSS <- sapply(var_names, function(v) {
  x <- udaje_scaled[, v]
  tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})

BSS <- TSS - WSS

ss_table <- data.frame(
  Premenna = var_names,
  TSS = TSS,
  WSS = WSS,
  BSS = BSS,
  Prop_Between = BSS / TSS
)

ss_table[order(-ss_table$Prop_Between), ]

Analýza mier variability ukázala, že vytvorené tri zhluky sú veľmi dobre oddelené a homogénne, pretože všetky premenné majú vysokú hodnotu BSS/TSS. Primárnymi faktormi odlíšenia krajín sú vnímanie korupcie (Prop_Between 0.819) a ekonomická úroveň (Prop_Between 0.777), ktoré vysvetľujú najväčšiu časť celkového rozptylu. Prekvapivo silným rozlišovacím faktorom je aj Sociálna podpora (Prop_Between 0.678), ktorá v rámci troch zhlukov vykazuje významné rozdiely, čím potvrdzuje existenciu jasne definovaných skupín krajín.

udaje_for_profiling <- subset(udaje_klasters, select = -Country)

cluster_profile <- aggregate(. ~ klaster, 
                             data = udaje_for_profiling, 
                             FUN = mean)

cluster_profile[, -1] <- round(cluster_profile[, -1], 3)

cluster_profile

Klaster 1 sa jasne profiluje ako skupina s najvyššou kvalitou života. Vykazuje najvyššie priemerné hodnoty vo všetkých pozitívnych ukazovateľoch, s HDP na úrovni 10.826, najdlhšou zdravou dĺžkou života 70.75 roka a najväčšou mierou slobody (0.927). Kľúčovo má aj najnižšiu vnímanú korupciu (0.301), čo podčiarkuje jeho charakter inštitucionálne silných a bohatých krajín.

Klaster 2 predstavuje priemernú úroveň v celom súbore. Má stredné hodnoty HDP na obyvateľa (10.236) a mieru korupcie (0.836). Táto skupina je najkoncentrovanejšia okolo priemeru, čím slúži ako stredný článok medzi dvoma extrémami.

Klaster 3 je definovaný najnižšími priemernými hodnotami vo všetkých pozitívnych ukazovateľoch (HDP 9.707, zdravá dĺžka života 65.65 roka, sloboda 0.607). Táto skupina zároveň vykazuje najvyššiu vnímanú mieru korupcie (0.891). Tento profil potvrdzuje, že Klaster 3 predstavuje krajiny s najnižšou úrovňou blahobytu v sledovanom súbore.

Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných

library(dplyr)

descriptives <- udaje_klasters %>%
  group_by(klaster) %>%
  summarise(
    across(
      .cols = where(is.numeric),
      .fns = list(
        mean = ~mean(.x, na.rm = TRUE)
      ),
      .names = "{.col}_mean"
    )
  )

descriptives <- descriptives %>% 
  mutate(across(where(is.numeric), ~round(., 3)))

descriptives

Tab. 6. (Centroidy) slúži na profilovanie a pomenovanie troch vytvorených zhlukov. Klaster 1 sa jasne profiluje ako skupina s najvyššou kvalitou života a inštitucionálnou silou, čo je demonštrované najvyšším HDP (10.826), najdlhšou zdravou dĺžkou života (70.75 roka) a najnižšou vnímanou korupciou (0.301). Klaster 3 predstavuje najnižšiu úroveň blahobytu, pretože vo všetkých ukazovateľoch má najnižšie priemery (HDP 9.707) a zároveň najvyššiu korupciu (0.891). Klaster 2 tvorí strednú, prechodnú skupinu, ktorá je koncentrovaná okolo priemeru celého súboru.

Záver

Predložená analýza sa zaoberala klasifikáciou vybraných krajín strednej, východnej a severnej Európy na základe piatich kľúčových sociálno-ekonomických a inštitucionálnych ukazovateľov z databázy World Happiness Report za rok 2015. Cieľom bolo identifikovať homogénne skupiny (zhluky) s podobným profilom blahobytu.

Hierarchická zhluková analýza s Wardovou metódou úspešne rozdelila krajiny do troch jasne definovaných zhlukov. Profilovanie zhlukov potvrdilo, že táto klasifikácia do značnej miery korešponduje s ich stupňom ekonomického rozvoja, histórie a geografickej blízkosti:

Analýza mier variability (BSS/TSS) zároveň preukázala, že vnímanie korupcie a Log.GDP.per.capita sú primárnymi faktormi odlišujúcimi tieto skupiny.

Uvedené výsledky poskytujú cenný podklad pre medzinárodné inštitúcie, ako je Európska komisia, umožňujúc cielenejšiu alokáciu zdrojov a vypisovanie problémovo zameraných projektových výziev (napr. na zlepšenie inštitucionálnej kvality alebo sociálnej podpory) podľa príslušnosti štátov ku klasterom.

