Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch, hodnotenízdravotných rizík, klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní priestorových sobjektov. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych oblastiach aplikovaného výskumu.
My predstavíme zhlukovú analýzu pri analýze údajov niektorých východo- a severoeurópskych krajín z hľadiska niektorých priemerných ukazovateľov charakterizujúcich zdravotný stav obyvateľstva. Budeme využívať údaje za rok 2015. V Tab. 1. uvádzame celú nami používanú databázu.
Table 1.| gender | race/ethnicity | parental level of education | lunch | test preparation course | math score | reading score | writing score |
|---|---|---|---|---|---|---|---|
| female | group B | bachelor’s degree | standard | none | 72 | 72 | 74 |
| female | group C | some college | standard | completed | 69 | 90 | 88 |
| female | group B | master’s degree | standard | none | 90 | 95 | 93 |
| male | group A | associate’s degree | free/reduced | none | 47 | 57 | 44 |
| male | group C | some college | standard | none | 76 | 78 | 75 |
| female | group B | associate’s degree | standard | none | 71 | 83 | 78 |
| female | group B | some college | standard | completed | 88 | 95 | 92 |
| male | group B | some college | free/reduced | none | 40 | 43 | 39 |
| male | group D | high school | free/reduced | completed | 64 | 64 | 67 |
| female | group B | high school | free/reduced | none | 38 | 60 | 50 |
Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Používame pritom tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne
\[z = \frac{x-\mu}{\sigma}\]
kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.
Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:
Obr. 1.
Tentokrát odľahlé hodnoty nevylúčime, nakoľko definujú konkrétnu krajinu.
Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. V Tab. 2. sa nachádza korelačná matica premenných.
V prípade, ak máme väčší počet významne korelovaných premenných, sa odporúča transformácia pomocou Analýzy hlavných komponentov (Principal Component Analysis)
Tab. 2
math score reading score writing score
math score 1.00 0.82 0.80
reading score 0.82 1.00 0.95
writing score 0.80 0.95 1.00
Každému študentovi zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi študentami \(i\) a \(j\) je:
\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (math score, reading score, writing score) študenta \(i\). Tento typ vzdialenosti nazývame aj Euklidovská vzdialenosť. Keďže databáza obasahuje 1000 pozorovaní, celú maticu vzdialeností (1000x1000) nevypíšeme. V Tab.3. uvádzame iba ukážku pre 15 náhodných pozorovaní.
Tab. 3
415 463 179 526 195 938 818 118 299 229 244 14 374 665 602
415 0.00 1.34 1.13 1.91 1.50 1.78 0.70 1.91 2.71 1.49 2.82 1.88 2.89 2.27 4.60
463 1.34 0.00 1.56 1.33 1.13 1.76 0.66 0.96 3.13 0.83 2.65 0.62 2.38 1.15 4.97
179 1.13 1.56 0.00 1.27 2.11 0.94 1.10 2.21 1.99 1.07 1.86 1.80 3.51 1.91 3.82
526 1.91 1.33 1.27 0.00 2.37 0.75 1.39 2.11 2.16 0.89 1.36 1.28 3.63 0.86 3.84
195 1.50 1.13 2.11 2.37 0.00 2.68 1.24 0.73 3.97 1.61 3.63 1.42 1.43 2.17 5.85
938 1.78 1.76 0.94 0.75 2.68 0.00 1.52 2.59 1.46 1.29 1.05 1.89 4.05 1.60 3.24
818 0.70 0.66 1.10 1.39 1.24 1.52 0.00 1.40 2.75 0.92 2.54 1.20 2.66 1.59 4.64
118 1.91 0.96 2.21 2.11 0.73 2.59 1.40 0.00 4.00 1.37 3.42 0.91 1.54 1.68 5.83
299 2.71 3.13 1.99 2.16 3.97 1.46 2.75 4.00 0.00 2.73 1.38 3.34 5.39 3.01 1.90
229 1.49 0.83 1.07 0.89 1.61 1.29 0.92 1.37 2.73 0.00 2.08 0.77 2.87 1.01 4.51
244 2.82 2.65 1.86 1.36 3.63 1.05 2.54 3.42 1.38 2.08 0.00 2.61 4.94 2.08 2.63
14 1.88 0.62 1.80 1.28 1.42 1.89 1.20 0.91 3.34 0.77 2.61 0.00 2.43 0.78 5.10
374 2.89 2.38 3.51 3.63 1.43 4.05 2.66 1.54 5.39 2.87 4.94 2.43 0.00 3.19 7.26
665 2.27 1.15 1.91 0.86 2.17 1.60 1.59 1.68 3.01 1.01 2.08 0.78 3.19 0.00 4.63
602 4.60 4.97 3.82 3.84 5.85 3.24 4.64 5.83 1.90 4.51 2.63 5.10 7.26 4.63 0.00
Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov.
Obr. 2. Hierarchické zhlukovanie - dendogram.
Červená čiara určuje rez definujúci tri klastre.
Tab.4. Príslušnosť pozorovaní do klastrov.
StudentID klaster
1 1 1
2 2 2
3 3 2
4 4 3
5 5 1
6 6 1
7 7 2
8 8 3
9 9 3
10 10 3
11 11 3
12 12 3
13 13 1
14 14 1
15 15 3
16 16 1
17 17 2
18 18 3
19 19 3
20 20 3
Vykonaná klastrová analýza klasifikuje krajiny do troch klastrov. Klaster 1 vytvárajú všetky vyspelé krajiny západu + Slovinsko, ktoré je najvyspelejšou pVykonaná klastrová analýza klasifikuje študentov do troch klastrov na základe ich výsledkov v matematike, čítaní a písaní. Klastre je možné interpretovať ako skupiny študentov s podobným výkonnostným profilom (napr. slabší, priemerní, výkonnejší).
Na základe Tab. 5 môžeme konštatovať, do akej miery jednotlivé premenné prispievajú k separácii klastrov. Vyšší podiel medzi-klastrovej variability znamená lepšiu separáciu.
Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných
| Variable | TSS | WSS | BSS | Prop_Between | |
|---|---|---|---|---|---|
| math score | math score | 999 | 348.4647 | 650.5353 | 0.651186 |
| reading score | reading score | 999 | 260.1961 | 738.8039 | 0.739543 |
| writing score | writing score | 999 | 301.8093 | 697.1907 | 0.697889 |
Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných
# A tibble: 3 × 4
klaster math.score_mean reading.score_mean writing.score_mean
<fct> <dbl> <dbl> <dbl>
1 1 70.6 73.7 72.5
2 2 85.0 88.7 88.0
3 3 52.8 55.5 54.3
Predložená analýza sa zaoberá klastrovou klasifikáciou študentov podľa výsledkov z matematiky, čítania a písania. Hierarchické zhlukovanie (Ward.D2) rozdelilo pozorovania do troch klastrov, ktoré možno interpretovať ako skupiny s rozdielnou úrovňou výkonu. Výsledky môžu byť využité napríklad pri identifikácii skupín študentov, ktoré potrebujú zvýšenú podporu alebo naopak skupín s nadpriemerným výkonom.