Úvod
Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy
exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné
rozdeliť pozorovania do homogénnych celkov – napríklad pri segmentácii
zákazníkov v marketingu, identifikácii podobných krajín v
makroekonomických ukazovateľoch, klasifikácii biologických vzoriek, pri
práci s finančnými aktívami či pri odporúčacích systémoch vo filmovom
priemysle. Jej výhodou je, že pracuje s viacerými premennými naraz a
dokáže odhaliť vzory, ktoré by pri posudzovaní jednotlivých ukazovateľov
samostatne zostali skryté.
V tejto práci ilustrujeme zhlukovú analýzu na databáze filmov z
rebríčka IMDb. Filmy budeme zoskupovať na základe IMDb
hodnotenia, dĺžky (v minútach) a výšky
rozpočtu. Cieľom je zistiť, či vieme na základe týchto troch
ukazovateľov identifikovať prirodzené skupiny filmov – napríklad
vysokorozpočtové „blockbustery“ oproti menším komornejším filmom – a aké
sú typické vlastnosti vytvorených klastrov.
Keďže pôvodná databáza obsahuje pomerne veľa filmov a úplné názvy
filmov by v grafoch a tabuľkách zhoršovali prehľadnosť, urobíme dve
zjednodušenia:
- Analyzujeme náhodne vybraných 20 filmov z rebríčka.
Vďaka tomu zostanú výstupy prehľadné, ale zároveň bude možné dobre
sledovať, ako algoritmus zhlukovania funguje.
- Filmy budeme v analytických tabuľkách a grafoch označovať
len ich umiestnením v rebríčku (premenná „Umiestnenie“). Plné
názvy filmov ponecháme len v úvodnej tabuľke, ktorá opisuje použitú
vzorku. V ďalšej analýze preto čitateľ pracuje najmä s číselnými
identifikátormi filmov.
V ďalšom texte budeme pracovať s údajmi načítanými zo súboru
data_ekonometria.csv. V Tab. 1 uvádzame
náhodne vybranú vzorku 20 filmov, ktorá vstupuje do zhlukovej
analýzy.
library(knitr)
library(kableExtra)
library(dplyr)
rm(list = ls())
# Načítanie údajov o filmoch
filmy <- read.csv(
"data_ekonometria.csv",
sep = ";",
stringsAsFactors = FALSE,
check.names = FALSE # ponechá pôvodné názvy stĺpcov s medzerami
)
# Pre didaktické účely vyberieme náhodnú vzorku 20 filmov
set.seed(123) # aby bol výber reprodukovateľný
filmy_sample <- filmy %>%
dplyr::slice_sample(n = 20)
# Prevod textových premenných na numerické -----------------------------
# IMDb hodnotenie je vo formáte s čiarkou ako desatinným oddeľovačom (napr. "9,3")
filmy_sample$IMDb_hodnotenie_num <- as.numeric(sub(",", ".", filmy_sample$`IMDb hodnotenie`))
# Dĺžka v minútach – premenujeme na jednoduchší názov
filmy_sample$Dlzka <- filmy_sample$`Dĺžka (min)`
# Rozpočet je zapísaný s medzerami ako oddeľovačmi tisícov (napr. "25 000 000")
filmy_sample$Rozpocet <- as.numeric(gsub(" ", "", filmy_sample$`Rozpočet [$]`))
# Výber premenných vhodných na zhlukovanie (A: IMDb + dĺžka + rozpočet)
filmy_num <- filmy_sample[, c("IMDb_hodnotenie_num", "Dlzka", "Rozpocet")]
# Ako identifikátor použijeme umiestnenie filmu v rebríčku IMDb
rownames(filmy_num) <- filmy_sample$Umiestnenie
# Odstránenie prípadných riadkov s chýbajúcimi hodnotami
filmy_num_complete <- na.omit(filmy_num)
# Úvodná prehľadová tabuľka (ukazujeme aj názov filmu)
tab1 <- filmy_sample[, c("Umiestnenie", "Názov", "Rok",
"Žáner", "IMDb hodnotenie", "Dĺžka (min)", "Rozpočet [$]")]
kable(tab1,
caption = "Tab. 1: Náhodne vybraných 20 filmov z rebríčka IMDb") %>%
kable_styling(full_width = FALSE)
Tab. 1: Náhodne vybraných 20 filmov z rebríčka IMDb
| Umiestnenie |
Názov |
Rok |
Žáner |
IMDb hodnotenie |
Dĺžka (min) |
Rozpočet [$] |
| 159 |
Gone with the Wind |
1939 |
Dráma; Romantický; Vojnový |
8,2 |
238 |
3 850 000 |
| 207 |
Tokyo Story |
1953 |
Dráma |
8,1 |
136 |
120 000 |
| 179 |
Klaus |
2019 |
Animovaný; Dobrodružný; Komédia |
8,1 |
96 |
40 000 000 |
| 14 |
Inception |
2010 |
Akčný; Dobrodružný; Sci-Fi |
8,8 |
148 |
160 000 000 |
| 195 |
Sherlock Jr. |
1924 |
Akčný; Komédia; Romantický |
8,1 |
45 |
200 000 |
| 170 |
Fargo |
1996 |
Krimi; Triler |
8,1 |
98 |
7 000 000 |
| 50 |
Cinema Paradiso |
1988 |
Dráma; Romantický |
8,5 |
155 |
5 000 000 |
| 118 |
Die Hard |
1988 |
Akčný; Triler |
8,2 |
132 |
33 000 000 |
| 43 |
Casablanca |
1942 |
Dráma; Romantický; Vojnový |
8,5 |
162 |
1 000 000 |
| 229 |
La haine |
1995 |
Krimi; Dráma |
8,1 |
98 |
2 600 000 |
| 247 |
The Help |
2011 |
Dráma |
8,0 |
146 |
25 000 000 |
| 243 |
Persona |
1966 |
Dráma; Triler |
8,1 |
85 |
78 000 |
| 153 |
The Thing |
1982 |
Horor; Mysteriózny; Sci-Fi |
8,2 |
109 |
15 000 000 |
| 90 |
Eternal Sunshine of the Spotless Mind |
2004 |
Dráma; Romantický; Sci-Fi |
8,3 |
108 |
20 000 000 |
| 91 |
2001: A Space Odyssey |
1968 |
Dobrodružný; Sci-Fi |
8,3 |
149 |
10 500 000 |
| 197 |
Mr. Smith Goes to Washington |
1939 |
Komédia; Dráma |
8,1 |
129 |
1 500 000 |
| 236 |
Amores perros |
2000 |
Dráma; Triler |
8,1 |
154 |
2 400 000 |
| 185 |
The Grand Budapest Hotel |
2014 |
Dobrodružný; Komédia; Krimi |
8,1 |
99 |
25 000 000 |
| 92 |
Reservoir Dogs |
1992 |
Krimi; Triler |
8,3 |
99 |
3 000 000 |
| 137 |
Pan's Labyrinth |
2006 |
Dráma; Fantazijný; Vojnový |
8,2 |
118 |
19 000 000 |
V ďalšej analýze pracujeme už iba s číselným identifikátorom
filmu – umiestnením v rebríčku IMDb. Všetky tabuľky a grafy
preto používajú namiesto názvu filmu číslo Umiestnenie, aby
zostali prehľadné. Plné názvy filmov je možné spätne dohľadať v Tab.
1.
Škálovanie premenných a boxploty
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi
pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je vhodné, aby
všetky premenné boli na rovnakej škále. Preto použijeme tzv.
z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame:
\[
z = \frac{x - \mu}{\sigma},
\]
kde \(\mu\) je stredná hodnota a
\(\sigma\) je štandardná odchýlka
pozorovaní \(x\). Predpokladáme pritom,
že súbor údajov už neobsahuje chýbajúce hodnoty, ktoré sme ošetrili v
predchádzajúcom kroku.
Touto operáciou získame škálované pozorovania, ktorých rozloženie pre
jednotlivé premenné znázorňujeme pomocou boxplotov.
# =======================================================
# 1) Príprava údajov a data.frame so škálovanými údajmi
# =======================================================
filmy_scaled <- scale(filmy_num_complete)
Obr. 1. Boxploty škálovaných numerických premenných (IMDb
hodnotenie, dĺžka a rozpočet)
num_vars <- as.data.frame(filmy_scaled)
num_plots <- ncol(num_vars)
par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))
for (col in names(num_vars)) {
boxplot(num_vars[[col]],
main = col,
col = "lightblue",
horizontal = TRUE)
}
mtext("Boxploty numerických premenných (filmy)", outer = TRUE, cex = 1.3, font = 2)

Prípadné odľahlé hodnoty (napríklad extrémne vysoký rozpočet alebo
dĺžka) nebudeme vylučovať, keďže predstavujú konkrétne
filmy, ktoré sú z hľadiska interpretácie zaujímavé.
Korelačná matica premenných
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká
korelácia môže zvýhodňovať niektoré premenné pri tvorbe klastrov. Pri
veľmi vysokej korelácii (napr. nad 0,8 alebo 0,9) by sme uvažovali o
vylúčení jednej z dvojice premenných alebo o použití analýzy hlavných
komponentov.
V Tab. 2 uvádzame korelačnú maticu troch použitých
premenných: IMDb hodnotenia, dĺžky a rozpočtu.
cor_mat <- cor(filmy_scaled, use = "pairwise.complete.obs")
cor_mat <- round(cor_mat, 2)
kable(cor_mat,
caption = "Tab. 2: Korelačná matica škálovaných premenných") %>%
kable_styling(full_width = FALSE)
Tab. 2: Korelačná matica škálovaných premenných
| |
IMDb_hodnotenie_num |
Dlzka |
Rozpocet |
| IMDb_hodnotenie_num |
1.00 |
0.32 |
0.63 |
| Dlzka |
0.32 |
1.00 |
0.09 |
| Rozpocet |
0.63 |
0.09 |
1.00 |
V našom prípade pracujeme iba s tromi premennými, ktoré typicky
nebývajú extrémne silno korelované (hodnotenie, dĺžka a rozpočet), takže
nie je nutné žiadnu z nich vylučovať.
Matica vzdialeností
Každému filmu zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi
filmami \(i\) a \(j\) je pri použití Euklidovskej
vzdialenosti definovaná:
\[
d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2},
\]
kde \(x^i_k\) je \(k\)-ta premenná (IMDb hodnotenie, dĺžka,
rozpočet) pre film \(i\). Tento typ
vzdialenosti nazývame Euklidovská vzdialenosť.
Vzdialenosti medzi jednotlivými filmami sa súhrnne vyjadrujú v matici
vzdialenosti, ktorá je uvedená v Tab. 3.
Interpretácia je nasledovná: čím je hodnota v matici väčšia, tým sú
si dva filmy z hľadiska zvolených premenných menej podobné (líšia sa
napríklad v rozpočte, dĺžke alebo hodnotení). Naopak, malé vzdialenosti
znamenajú podobnosť. V tabuľke používame ako identifikátor
umiestnenie filmu v rebríčku (Umiestnenie), aby bola
matica prehľadná.
# ============================
# 3) Distance matrix
# ============================
dist_mat <- round(dist(filmy_scaled, method = "euclidean"), 2)
as.matrix(dist_mat)[1:10, 1:10] %>%
kable(caption = "Tab. 3: Časť matice Euklidovských vzdialeností medzi filmami (podľa umiestnenia v rebríčku)") %>%
kable_styling(full_width = FALSE)
Tab. 3: Časť matice Euklidovských vzdialeností medzi filmami (podľa umiestnenia v rebríčku)
| |
159 |
207 |
179 |
14 |
195 |
170 |
50 |
118 |
43 |
229 |
| 159 |
0.00 |
2.63 |
3.76 |
5.88 |
4.90 |
3.57 |
2.62 |
2.80 |
2.48 |
3.57 |
| 207 |
2.63 |
0.00 |
1.51 |
5.83 |
2.30 |
0.98 |
2.15 |
1.07 |
2.20 |
0.96 |
| 179 |
3.76 |
1.51 |
0.00 |
5.17 |
1.71 |
0.93 |
2.75 |
1.07 |
2.90 |
1.06 |
| 14 |
5.88 |
5.83 |
5.17 |
0.00 |
6.37 |
5.81 |
4.66 |
4.79 |
4.78 |
5.90 |
| 195 |
4.90 |
2.30 |
1.71 |
6.37 |
0.00 |
1.35 |
3.48 |
2.44 |
3.62 |
1.34 |
| 170 |
3.57 |
0.98 |
0.93 |
5.81 |
1.35 |
0.00 |
2.54 |
1.25 |
2.65 |
0.12 |
| 50 |
2.62 |
2.15 |
2.75 |
4.66 |
3.48 |
2.54 |
0.00 |
1.85 |
0.21 |
2.54 |
| 118 |
2.80 |
1.07 |
1.07 |
4.79 |
2.44 |
1.25 |
1.85 |
0.00 |
1.97 |
1.32 |
| 43 |
2.48 |
2.20 |
2.90 |
4.78 |
3.62 |
2.65 |
0.21 |
1.97 |
0.00 |
2.65 |
| 229 |
3.57 |
0.96 |
1.06 |
5.90 |
1.34 |
0.12 |
2.54 |
1.32 |
2.65 |
0.00 |
(Pre prehľadnosť zobrazujeme len časť matice – prvých 10 filmov v
riadkoch aj stĺpcoch.)
Princíp hierarchického zhlukovania (Wardova metóda)
Zhlukovanie pri Wardovej metóde prebieha zdola smerom
nahor – začíname s jednočlennými klastrami a postupne zlučujeme
dvojice klastrov. Táto metóda patrí medzi aglomeratívne
hierarchické metódy. Minimalizuje nárast vnútornej variability
pri spojení dvoch klastrov, pričom využíva nasledovné výpočty:
Wardova metóda minimalizuje sumu štvorcov chýb (Error Sum of Squares
– ESS):
\[
ESS(C) = \sum_{i \in C} \lVert x_i - \bar{x}_C \rVert^2,
\]
kde \(C\) je zvažovaný klaster. V
každom kroku zlučovania dvoch klastrov Wardova metóda hľadá minimálny
prírastok sumy štvorcov chýb:
\[
\Delta ESS = ESS(A \cup B) - ESS(A) - ESS(B).
\]
Dvojica klastrov, ktorá minimalizuje \(\Delta ESS\), je zlúčená a proces
pokračuje. To spravidla vedie k vytváraniu relatívne homogénnych
zhlukov, pričom nedochádza k „odtrhnutiu“ extrémnych hodnôt tak výrazne,
ako pri niektorých iných metódach.
Obr. 2. Hierarchické zhlukovanie – dendrogram. Červená čiara
určuje rez definujúci tri klastre.
# ============================
# 4) Hierarchical clustering
# ============================
hc <- hclust(dist_mat, method = "ward.D2")
plot(hc,
labels = rownames(filmy_scaled), # zobrazujeme len umiestnenie filmu
main = "Hierarchické zhlukovanie filmov (Ward.D2)",
xlab = "Umiestnenie filmu v rebríčku IMDb",
sub = "")
k <- 3 # počet klastrov
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "red", lwd = 2, lty = 2)

klaster_membership <- cutree(hc, k = k)
filmy_klasters <- data.frame(
Umiestnenie = rownames(filmy_num_complete),
filmy_num_complete,
klaster = factor(klaster_membership)
)
Tab. 4. Príslušnosť filmov do klastrov (podľa umiestnenia v
rebríčku)
kable(filmy_klasters[, c("Umiestnenie", "klaster")],
caption = "Tab. 4: Príslušnosť filmov do klastrov (identifikátorom je umiestnenie v rebríčku)") %>%
kable_styling(full_width = FALSE)
Tab. 4: Príslušnosť filmov do klastrov (identifikátorom je umiestnenie v rebríčku)
| |
Umiestnenie |
klaster |
| 159 |
159 |
1 |
| 207 |
207 |
2 |
| 179 |
179 |
2 |
| 14 |
14 |
3 |
| 195 |
195 |
2 |
| 170 |
170 |
2 |
| 50 |
50 |
1 |
| 118 |
118 |
2 |
| 43 |
43 |
1 |
| 229 |
229 |
2 |
| 247 |
247 |
2 |
| 243 |
243 |
2 |
| 153 |
153 |
2 |
| 90 |
90 |
2 |
| 91 |
91 |
2 |
| 197 |
197 |
2 |
| 236 |
236 |
2 |
| 185 |
185 |
2 |
| 92 |
92 |
2 |
| 137 |
137 |
2 |
Vykonaná klastrová analýza klasifikuje filmy do troch klastrov. Každý
klaster združuje filmy, ktoré sú si podobné z hľadiska kombinácie troch
ukazovateľov: hodnotenia, dĺžky a rozpočtu. Vzhľadom na to, že filmy
označujeme iba ich umiestnením v rebríčku, sú tabuľky a grafy prehľadné,
pričom podrobné názvy filmov je možné dohľadať v Tab. 1.
Deskriptívne štatistiky – rozklad variability
Zaujíma nás, aká je variabilita jednotlivých premenných vo vnútri a
medzi klastrami. Použijeme rozklad variability na:
- TSS – celkovú sumu štvorcov odchýlok,
- WSS – vnútroklastrovú variabilitu,
- BSS – medzi-klastrovú variabilitu.
Na základe Tab. 5 môžeme posúdiť, ako dobre
jednotlivé premenné prispievajú k odlíšeniu klastrov. Čím je podiel
medzi-klastrovej variability na celkovej variabilite vyšší, tým lepšie
daná premenná pomáha oddeľovať zhluky.
# ============================
# 5) Variability measures
# ============================
ssq <- function(x, m) sum((x - m)^2)
var_names <- colnames(filmy_scaled)
TSS <- sapply(var_names, function(v) ssq(filmy_scaled[, v], mean(filmy_scaled[, v])))
WSS <- sapply(var_names, function(v) {
x <- filmy_scaled[, v]
tapply(x, klaster_membership, function(z) ssq(z, mean(z))) |> sum()
})
BSS <- TSS - WSS
ss_table <- data.frame(
Variable = var_names,
TSS = TSS,
WSS = WSS,
BSS = BSS,
Prop_Between = BSS / TSS
)
# Zaokrúhľujeme iba numerické stĺpce
ss_table_round <- ss_table
ss_table_round[, sapply(ss_table_round, is.numeric)] <-
round(ss_table_round[, sapply(ss_table_round, is.numeric)], 3)
kable(ss_table_round,
caption = "Tab. 5: Rozklad variability (celková, vnútri klastrov a medzi klastrami)") %>%
kable_styling(full_width = FALSE)
Tab. 5: Rozklad variability (celková, vnútri klastrov a medzi klastrami)
| |
Variable |
TSS |
WSS |
BSS |
Prop_Between |
| IMDb_hodnotenie_num |
IMDb_hodnotenie_num |
19 |
4.942 |
14.058 |
0.740 |
| Dlzka |
Dlzka |
19 |
10.216 |
8.784 |
0.462 |
| Rozpocet |
Rozpocet |
19 |
2.005 |
16.995 |
0.894 |
Na základe tabuľky vidíme, že jednotlivé premenné sa líšia v tom, akú
časť variability dokážeme vysvetliť rozdielmi medzi klastrami. Premenné
s vyšším podielom medzi-klastrovej variability (vyššia hodnota
Prop_Between) lepšie separujú jednotlivé skupiny
filmov.
Centroidy – priemerné hodnoty premenných v klastroch
Záverečnú interpretáciu klastrov urobíme na základe tzv.
centroidov, teda priemerných hodnôt sledovaných
premenných v jednotlivých klastroch.
Tab. 6. Centroidy – priemerné hodnoty IMDb hodnotenia, dĺžky
a rozpočtu podľa klastrov
descriptives <- filmy_klasters %>%
group_by(klaster) %>%
summarise(
IMDb_hodnotenie_mean = mean(IMDb_hodnotenie_num, na.rm = TRUE),
Dlzka_mean = mean(Dlzka, na.rm = TRUE),
Rozpocet_mean = mean(Rozpocet, na.rm = TRUE)
)
# zaokrúhľujeme iba numerické stĺpce, nie stĺpec "klaster"
descriptives_round <- descriptives
descriptives_round[, sapply(descriptives_round, is.numeric)] <-
round(descriptives_round[, sapply(descriptives_round, is.numeric)], 2)
kable(descriptives_round,
caption = "Tab. 6: Priemerné hodnoty sledovaných premenných v jednotlivých klastroch") %>%
kable_styling(full_width = FALSE)
Tab. 6: Priemerné hodnoty sledovaných premenných v jednotlivých klastroch
| klaster |
IMDb_hodnotenie_mean |
Dlzka_mean |
Rozpocet_mean |
| 1 |
8.40 |
185.00 |
3283333 |
| 2 |
8.15 |
112.56 |
12774875 |
| 3 |
8.80 |
148.00 |
160000000 |
Porovnaním centroidov môžeme charakterizovať jednotlivé klastre.
Klaster, ktorý má najvyšší priemerný rozpočet a dĺžku, môžeme
interpretovať ako skupinu veľkých, produkčne náročných filmov (často ide
o tzv. „blockbustery“). Naopak, klaster s nižším priemerným rozpočtom a
kratšou dĺžkou môže reprezentovať skôr menšie, komornejšie snímky.
Hodnotenie IMDb nám zároveň umožňuje rozlíšiť, ktorý klaster má v
priemere vyššiu divácku odozvu.
Záver
Predložená analýza sa zaoberá zhlukovaním filmov na základe troch
ukazovateľov: IMDb hodnotenia, dĺžky filmu a výšky
rozpočtu. Na základe hierarchickej zhlukovej analýzy (Wardova
metóda) sme identifikovali tri klastre, ktoré združujú filmy s podobnými
charakteristikami.
Z praktických dôvodov sme pracovali iba s náhodne vybranou
vzorkou 20 filmov z rebríčka IMDb a filmy sme v grafoch a
tabuľkách označovali iba ich umiestnením v rebríčku.
Tým sme dosiahli dobrú prehľadnosť výstupov, pričom plné názvy filmov je
možné spätne dohľadať v úvodnej tabuľke.
Analýza ukázala, že:
- zvolená kombinácia premenných umožňuje vytvoriť zhluky filmov, ktoré
sa líšia najmä z hľadiska rozpočtu a dĺžky,
- priemerné hodnoty (centroidy) klastrov umožňujú interpretovať
jednotlivé skupiny ako viac či menej nákladné a dlhé filmy s rôznym
priemerným hodnotením,
- rozklad variability naznačuje, ktoré premenné najviac prispievajú k
oddeleniu klastrov.
Takýto prístup je využiteľný napríklad pri segmentácii
filmov v rámci filmového štúdia, streamovacej platformy či pri
odporúčacích systémoch. Na základe príslušnosti filmu ku klastru je
možné lepšie cieliť marketing, plánovať rozpočty budúcich projektov
alebo odporúčať divákom filmy s podobným profilom. Zhluková analýza tak
predstavuje užitočný nástroj pri rozhodovaní v prostredí audiovizuálneho
priemyslu.
