Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov – napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch, klasifikácii biologických vzoriek, pri práci s finančnými aktívami či pri odporúčacích systémoch vo filmovom priemysle. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri posudzovaní jednotlivých ukazovateľov samostatne zostali skryté.

V tejto práci ilustrujeme zhlukovú analýzu na databáze filmov z rebríčka IMDb. Filmy budeme zoskupovať na základe IMDb hodnotenia, dĺžky (v minútach) a výšky rozpočtu. Cieľom je zistiť, či vieme na základe týchto troch ukazovateľov identifikovať prirodzené skupiny filmov – napríklad vysokorozpočtové „blockbustery“ oproti menším komornejším filmom – a aké sú typické vlastnosti vytvorených klastrov.

Keďže pôvodná databáza obsahuje pomerne veľa filmov a úplné názvy filmov by v grafoch a tabuľkách zhoršovali prehľadnosť, urobíme dve zjednodušenia:

  1. Analyzujeme náhodne vybraných 20 filmov z rebríčka. Vďaka tomu zostanú výstupy prehľadné, ale zároveň bude možné dobre sledovať, ako algoritmus zhlukovania funguje.
  2. Filmy budeme v analytických tabuľkách a grafoch označovať len ich umiestnením v rebríčku (premenná „Umiestnenie“). Plné názvy filmov ponecháme len v úvodnej tabuľke, ktorá opisuje použitú vzorku. V ďalšej analýze preto čitateľ pracuje najmä s číselnými identifikátormi filmov.

V ďalšom texte budeme pracovať s údajmi načítanými zo súboru data_ekonometria.csv. V Tab. 1 uvádzame náhodne vybranú vzorku 20 filmov, ktorá vstupuje do zhlukovej analýzy.

library(knitr)
library(kableExtra)
library(dplyr)
rm(list = ls())

# Načítanie údajov o filmoch
filmy <- read.csv(
  "data_ekonometria.csv",
  sep = ";",
  stringsAsFactors = FALSE,
  check.names = FALSE   # ponechá pôvodné názvy stĺpcov s medzerami
)

# Pre didaktické účely vyberieme náhodnú vzorku 20 filmov
set.seed(123)  # aby bol výber reprodukovateľný
filmy_sample <- filmy %>%
  dplyr::slice_sample(n = 20)

# Prevod textových premenných na numerické -----------------------------

# IMDb hodnotenie je vo formáte s čiarkou ako desatinným oddeľovačom (napr. "9,3")
filmy_sample$IMDb_hodnotenie_num <- as.numeric(sub(",", ".", filmy_sample$`IMDb hodnotenie`))

# Dĺžka v minútach – premenujeme na jednoduchší názov
filmy_sample$Dlzka <- filmy_sample$`Dĺžka (min)`

# Rozpočet je zapísaný s medzerami ako oddeľovačmi tisícov (napr. "25 000 000")
filmy_sample$Rozpocet <- as.numeric(gsub(" ", "", filmy_sample$`Rozpočet [$]`))

# Výber premenných vhodných na zhlukovanie (A: IMDb + dĺžka + rozpočet)
filmy_num <- filmy_sample[, c("IMDb_hodnotenie_num", "Dlzka", "Rozpocet")]

# Ako identifikátor použijeme umiestnenie filmu v rebríčku IMDb
rownames(filmy_num) <- filmy_sample$Umiestnenie

# Odstránenie prípadných riadkov s chýbajúcimi hodnotami
filmy_num_complete <- na.omit(filmy_num)

# Úvodná prehľadová tabuľka (ukazujeme aj názov filmu)
tab1 <- filmy_sample[, c("Umiestnenie", "Názov", "Rok",
                         "Žáner", "IMDb hodnotenie", "Dĺžka (min)", "Rozpočet [$]")]

kable(tab1,
      caption = "Tab. 1: Náhodne vybraných 20 filmov z rebríčka IMDb") %>%
  kable_styling(full_width = FALSE)
Tab. 1: Náhodne vybraných 20 filmov z rebríčka IMDb
Umiestnenie Názov Rok Žáner IMDb hodnotenie Dĺžka (min) Rozpočet [$]
159 Gone with the Wind 1939 Dráma; Romantický; Vojnový 8,2 238 3 850 000
207 Tokyo Story 1953 Dráma 8,1 136 120 000
179 Klaus 2019 Animovaný; Dobrodružný; Komédia 8,1 96 40 000 000
14 Inception 2010 Akčný; Dobrodružný; Sci-Fi 8,8 148 160 000 000
195 Sherlock Jr. 1924 Akčný; Komédia; Romantický 8,1 45 200 000
170 Fargo 1996 Krimi; Triler 8,1 98 7 000 000
50 Cinema Paradiso 1988 Dráma; Romantický 8,5 155 5 000 000
118 Die Hard 1988 Akčný; Triler 8,2 132 33 000 000
43 Casablanca 1942 Dráma; Romantický; Vojnový 8,5 162 1 000 000
229 La haine 1995 Krimi; Dráma 8,1 98 2 600 000
247 The Help 2011 Dráma 8,0 146 25 000 000
243 Persona 1966 Dráma; Triler 8,1 85 78 000
153 The Thing 1982 Horor; Mysteriózny; Sci-Fi 8,2 109 15 000 000
90 Eternal Sunshine of the Spotless Mind 2004 Dráma; Romantický; Sci-Fi 8,3 108 20 000 000
91 2001: A Space Odyssey 1968 Dobrodružný; Sci-Fi 8,3 149 10 500 000
197 Mr. Smith Goes to Washington 1939 Komédia; Dráma 8,1 129 1 500 000
236 Amores perros 2000 Dráma; Triler 8,1 154 2 400 000
185 The Grand Budapest Hotel 2014 Dobrodružný; Komédia; Krimi 8,1 99 25 000 000
92 Reservoir Dogs 1992 Krimi; Triler 8,3 99 3 000 000
137 Pan's Labyrinth 2006 Dráma; Fantazijný; Vojnový 8,2 118 19 000 000

V ďalšej analýze pracujeme už iba s číselným identifikátorom filmu – umiestnením v rebríčku IMDb. Všetky tabuľky a grafy preto používajú namiesto názvu filmu číslo Umiestnenie, aby zostali prehľadné. Plné názvy filmov je možné spätne dohľadať v Tab. 1.


Škálovanie premenných a boxploty

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je vhodné, aby všetky premenné boli na rovnakej škále. Preto použijeme tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame:

\[ z = \frac{x - \mu}{\sigma}, \]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje chýbajúce hodnoty, ktoré sme ošetrili v predchádzajúcom kroku.

Touto operáciou získame škálované pozorovania, ktorých rozloženie pre jednotlivé premenné znázorňujeme pomocou boxplotov.

# =======================================================
# 1) Príprava údajov a data.frame so škálovanými údajmi
# =======================================================

filmy_scaled <- scale(filmy_num_complete)

Obr. 1. Boxploty škálovaných numerických premenných (IMDb hodnotenie, dĺžka a rozpočet)

num_vars <- as.data.frame(filmy_scaled)
num_plots <- ncol(num_vars)

par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))

for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main = col,
          col = "lightblue",
          horizontal = TRUE)
}

mtext("Boxploty numerických premenných (filmy)", outer = TRUE, cex = 1.3, font = 2)

Prípadné odľahlé hodnoty (napríklad extrémne vysoký rozpočet alebo dĺžka) nebudeme vylučovať, keďže predstavujú konkrétne filmy, ktoré sú z hľadiska interpretácie zaujímavé.


Korelačná matica premenných

Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia môže zvýhodňovať niektoré premenné pri tvorbe klastrov. Pri veľmi vysokej korelácii (napr. nad 0,8 alebo 0,9) by sme uvažovali o vylúčení jednej z dvojice premenných alebo o použití analýzy hlavných komponentov.

V Tab. 2 uvádzame korelačnú maticu troch použitých premenných: IMDb hodnotenia, dĺžky a rozpočtu.

cor_mat <- cor(filmy_scaled, use = "pairwise.complete.obs")
cor_mat <- round(cor_mat, 2)

kable(cor_mat,
      caption = "Tab. 2: Korelačná matica škálovaných premenných") %>%
  kable_styling(full_width = FALSE)
Tab. 2: Korelačná matica škálovaných premenných
IMDb_hodnotenie_num Dlzka Rozpocet
IMDb_hodnotenie_num 1.00 0.32 0.63
Dlzka 0.32 1.00 0.09
Rozpocet 0.63 0.09 1.00

V našom prípade pracujeme iba s tromi premennými, ktoré typicky nebývajú extrémne silno korelované (hodnotenie, dĺžka a rozpočet), takže nie je nutné žiadnu z nich vylučovať.


Matica vzdialeností

Každému filmu zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi filmami \(i\) a \(j\) je pri použití Euklidovskej vzdialenosti definovaná:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2}, \]

kde \(x^i_k\) je \(k\)-ta premenná (IMDb hodnotenie, dĺžka, rozpočet) pre film \(i\). Tento typ vzdialenosti nazývame Euklidovská vzdialenosť. Vzdialenosti medzi jednotlivými filmami sa súhrnne vyjadrujú v matici vzdialenosti, ktorá je uvedená v Tab. 3.

Interpretácia je nasledovná: čím je hodnota v matici väčšia, tým sú si dva filmy z hľadiska zvolených premenných menej podobné (líšia sa napríklad v rozpočte, dĺžke alebo hodnotení). Naopak, malé vzdialenosti znamenajú podobnosť. V tabuľke používame ako identifikátor umiestnenie filmu v rebríčku (Umiestnenie), aby bola matica prehľadná.

# ============================
# 3) Distance matrix
# ============================

dist_mat <- round(dist(filmy_scaled, method = "euclidean"), 2)

as.matrix(dist_mat)[1:10, 1:10] %>%
  kable(caption = "Tab. 3: Časť matice Euklidovských vzdialeností medzi filmami (podľa umiestnenia v rebríčku)") %>%
  kable_styling(full_width = FALSE)
Tab. 3: Časť matice Euklidovských vzdialeností medzi filmami (podľa umiestnenia v rebríčku)
159 207 179 14 195 170 50 118 43 229
159 0.00 2.63 3.76 5.88 4.90 3.57 2.62 2.80 2.48 3.57
207 2.63 0.00 1.51 5.83 2.30 0.98 2.15 1.07 2.20 0.96
179 3.76 1.51 0.00 5.17 1.71 0.93 2.75 1.07 2.90 1.06
14 5.88 5.83 5.17 0.00 6.37 5.81 4.66 4.79 4.78 5.90
195 4.90 2.30 1.71 6.37 0.00 1.35 3.48 2.44 3.62 1.34
170 3.57 0.98 0.93 5.81 1.35 0.00 2.54 1.25 2.65 0.12
50 2.62 2.15 2.75 4.66 3.48 2.54 0.00 1.85 0.21 2.54
118 2.80 1.07 1.07 4.79 2.44 1.25 1.85 0.00 1.97 1.32
43 2.48 2.20 2.90 4.78 3.62 2.65 0.21 1.97 0.00 2.65
229 3.57 0.96 1.06 5.90 1.34 0.12 2.54 1.32 2.65 0.00

(Pre prehľadnosť zobrazujeme len časť matice – prvých 10 filmov v riadkoch aj stĺpcoch.)


Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie pri Wardovej metóde prebieha zdola smerom nahor – začíname s jednočlennými klastrami a postupne zlučujeme dvojice klastrov. Táto metóda patrí medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:

Wardova metóda minimalizuje sumu štvorcov chýb (Error Sum of Squares – ESS):

\[ ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2, \]

kde \(C\) je zvažovaný klaster. V každom kroku zlučovania dvoch klastrov Wardova metóda hľadá minimálny prírastok sumy štvorcov chýb:

\[ \Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B). \]

Dvojica klastrov, ktorá minimalizuje \(\Delta ESS\), je zlúčená a proces pokračuje. To spravidla vedie k vytváraniu relatívne homogénnych zhlukov, pričom nedochádza k „odtrhnutiu“ extrémnych hodnôt tak výrazne, ako pri niektorých iných metódach.

Obr. 2. Hierarchické zhlukovanie – dendrogram. Červená čiara určuje rez definujúci tri klastre.

# ============================
# 4) Hierarchical clustering
# ============================

hc <- hclust(dist_mat, method = "ward.D2")

plot(hc,
     labels = rownames(filmy_scaled),   # zobrazujeme len umiestnenie filmu
     main = "Hierarchické zhlukovanie filmov (Ward.D2)",
     xlab = "Umiestnenie filmu v rebríčku IMDb",
     sub = "")

k <- 3  # počet klastrov
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)


klaster_membership <- cutree(hc, k = k)

filmy_klasters <- data.frame(
  Umiestnenie = rownames(filmy_num_complete),
  filmy_num_complete,
  klaster = factor(klaster_membership)
)

Tab. 4. Príslušnosť filmov do klastrov (podľa umiestnenia v rebríčku)

kable(filmy_klasters[, c("Umiestnenie", "klaster")],
      caption = "Tab. 4: Príslušnosť filmov do klastrov (identifikátorom je umiestnenie v rebríčku)") %>%
  kable_styling(full_width = FALSE)
Tab. 4: Príslušnosť filmov do klastrov (identifikátorom je umiestnenie v rebríčku)
Umiestnenie klaster
159 159 1
207 207 2
179 179 2
14 14 3
195 195 2
170 170 2
50 50 1
118 118 2
43 43 1
229 229 2
247 247 2
243 243 2
153 153 2
90 90 2
91 91 2
197 197 2
236 236 2
185 185 2
92 92 2
137 137 2

Vykonaná klastrová analýza klasifikuje filmy do troch klastrov. Každý klaster združuje filmy, ktoré sú si podobné z hľadiska kombinácie troch ukazovateľov: hodnotenia, dĺžky a rozpočtu. Vzhľadom na to, že filmy označujeme iba ich umiestnením v rebríčku, sú tabuľky a grafy prehľadné, pričom podrobné názvy filmov je možné dohľadať v Tab. 1.


Deskriptívne štatistiky – rozklad variability

Zaujíma nás, aká je variabilita jednotlivých premenných vo vnútri a medzi klastrami. Použijeme rozklad variability na:

  • TSS – celkovú sumu štvorcov odchýlok,
  • WSS – vnútroklastrovú variabilitu,
  • BSS – medzi-klastrovú variabilitu.

Na základe Tab. 5 môžeme posúdiť, ako dobre jednotlivé premenné prispievajú k odlíšeniu klastrov. Čím je podiel medzi-klastrovej variability na celkovej variabilite vyšší, tým lepšie daná premenná pomáha oddeľovať zhluky.

# ============================
# 5) Variability measures
# ============================

ssq <- function(x, m) sum((x - m)^2)

var_names <- colnames(filmy_scaled)

TSS <- sapply(var_names, function(v) ssq(filmy_scaled[, v], mean(filmy_scaled[, v])))

WSS <- sapply(var_names, function(v) {
  x <- filmy_scaled[, v]
  tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})

BSS <- TSS - WSS

ss_table <- data.frame(
  Variable     = var_names,
  TSS          = TSS,
  WSS          = WSS,
  BSS          = BSS,
  Prop_Between = BSS / TSS
)

# Zaokrúhľujeme iba numerické stĺpce
ss_table_round <- ss_table
ss_table_round[, sapply(ss_table_round, is.numeric)] <-
  round(ss_table_round[, sapply(ss_table_round, is.numeric)], 3)

kable(ss_table_round,
      caption = "Tab. 5: Rozklad variability (celková, vnútri klastrov a medzi klastrami)") %>%
  kable_styling(full_width = FALSE)
Tab. 5: Rozklad variability (celková, vnútri klastrov a medzi klastrami)
Variable TSS WSS BSS Prop_Between
IMDb_hodnotenie_num IMDb_hodnotenie_num 19 4.942 14.058 0.740
Dlzka Dlzka 19 10.216 8.784 0.462
Rozpocet Rozpocet 19 2.005 16.995 0.894

Na základe tabuľky vidíme, že jednotlivé premenné sa líšia v tom, akú časť variability dokážeme vysvetliť rozdielmi medzi klastrami. Premenné s vyšším podielom medzi-klastrovej variability (vyššia hodnota Prop_Between) lepšie separujú jednotlivé skupiny filmov.


Centroidy – priemerné hodnoty premenných v klastroch

Záverečnú interpretáciu klastrov urobíme na základe tzv. centroidov, teda priemerných hodnôt sledovaných premenných v jednotlivých klastroch.

Tab. 6. Centroidy – priemerné hodnoty IMDb hodnotenia, dĺžky a rozpočtu podľa klastrov

descriptives <- filmy_klasters %>%
  group_by(klaster) %>%
  summarise(
    IMDb_hodnotenie_mean = mean(IMDb_hodnotenie_num, na.rm = TRUE),
    Dlzka_mean           = mean(Dlzka, na.rm = TRUE),
    Rozpocet_mean        = mean(Rozpocet, na.rm = TRUE)
  )

# zaokrúhľujeme iba numerické stĺpce, nie stĺpec "klaster"
descriptives_round <- descriptives
descriptives_round[, sapply(descriptives_round, is.numeric)] <-
  round(descriptives_round[, sapply(descriptives_round, is.numeric)], 2)

kable(descriptives_round,
      caption = "Tab. 6: Priemerné hodnoty sledovaných premenných v jednotlivých klastroch") %>%
  kable_styling(full_width = FALSE)
Tab. 6: Priemerné hodnoty sledovaných premenných v jednotlivých klastroch
klaster IMDb_hodnotenie_mean Dlzka_mean Rozpocet_mean
1 8.40 185.00 3283333
2 8.15 112.56 12774875
3 8.80 148.00 160000000

Porovnaním centroidov môžeme charakterizovať jednotlivé klastre. Klaster, ktorý má najvyšší priemerný rozpočet a dĺžku, môžeme interpretovať ako skupinu veľkých, produkčne náročných filmov (často ide o tzv. „blockbustery“). Naopak, klaster s nižším priemerným rozpočtom a kratšou dĺžkou môže reprezentovať skôr menšie, komornejšie snímky. Hodnotenie IMDb nám zároveň umožňuje rozlíšiť, ktorý klaster má v priemere vyššiu divácku odozvu.


Záver

Predložená analýza sa zaoberá zhlukovaním filmov na základe troch ukazovateľov: IMDb hodnotenia, dĺžky filmu a výšky rozpočtu. Na základe hierarchickej zhlukovej analýzy (Wardova metóda) sme identifikovali tri klastre, ktoré združujú filmy s podobnými charakteristikami.

Z praktických dôvodov sme pracovali iba s náhodne vybranou vzorkou 20 filmov z rebríčka IMDb a filmy sme v grafoch a tabuľkách označovali iba ich umiestnením v rebríčku. Tým sme dosiahli dobrú prehľadnosť výstupov, pričom plné názvy filmov je možné spätne dohľadať v úvodnej tabuľke.

Analýza ukázala, že:

  • zvolená kombinácia premenných umožňuje vytvoriť zhluky filmov, ktoré sa líšia najmä z hľadiska rozpočtu a dĺžky,
  • priemerné hodnoty (centroidy) klastrov umožňujú interpretovať jednotlivé skupiny ako viac či menej nákladné a dlhé filmy s rôznym priemerným hodnotením,
  • rozklad variability naznačuje, ktoré premenné najviac prispievajú k oddeleniu klastrov.

Takýto prístup je využiteľný napríklad pri segmentácii filmov v rámci filmového štúdia, streamovacej platformy či pri odporúčacích systémoch. Na základe príslušnosti filmu ku klastru je možné lepšie cieliť marketing, plánovať rozpočty budúcich projektov alebo odporúčať divákom filmy s podobným profilom. Zhluková analýza tak predstavuje užitočný nástroj pri rozhodovaní v prostredí audiovizuálneho priemyslu.

