Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch, hodnotenízdravotných rizík, klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní priestorových sobjektov. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych oblastiach aplikovaného výskumu.

My predstavíme zhlukovú analýzu pri analýze údajov niektorých východo- a severoeurópskych krajín z hľadiska niektorých priemerných ukazovateľov charakterizujúcich zdravotný stav obyvateľstva. Budeme využívať údaje za rok 2015. V Tab. 1. uvádzame celú nami používanú databázu.

Table 1.
gender race/ethnicity parental level of education lunch test preparation course math score reading score writing score
female group B bachelor’s degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master’s degree standard none 90 95 93
male group A associate’s degree free/reduced none 47 57 44
male group C some college standard none 76 78 75
female group B associate’s degree standard none 71 83 78
female group B some college standard completed 88 95 92
male group B some college free/reduced none 40 43 39
male group D high school free/reduced completed 64 64 67
female group B high school free/reduced none 38 60 50

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Používame pritom tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne

\[z = \frac{x-\mu}{\sigma}\]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.

Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:

Obr. 1.

Tentokrát odľahlé hodnoty nevylúčime, nakoľko definujú konkrétnu krajinu.

Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. V Tab. 2. sa nachádza korelačná matica premenných.

V prípade, ak máme väčší počet významne korelovaných premenných, sa odporúča transformácia pomocou Analýzy hlavných komponentov (Principal Component Analysis)

Tab. 2

              math score reading score writing score
math score          1.00          0.82          0.80
reading score       0.82          1.00          0.95
writing score       0.80          0.95          1.00

Každému študentovi zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi študentami \(i\) a \(j\) je:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (math score, reading score, writing score) študenta \(i\). Tento typ vzdialenosti nazývame aj Euklidovská vzdialenosť. Keďže databáza obasahuje 1000 pozorovaní, celú maticu vzdialeností (1000x1000) nevypíšeme. V Tab.3. uvádzame iba ukážku pre 15 náhodných pozorovaní.

Tab. 3

     415  463  179  526  195  938  818  118  299  229  244   14  374  665  602
415 0.00 1.34 1.13 1.91 1.50 1.78 0.70 1.91 2.71 1.49 2.82 1.88 2.89 2.27 4.60
463 1.34 0.00 1.56 1.33 1.13 1.76 0.66 0.96 3.13 0.83 2.65 0.62 2.38 1.15 4.97
179 1.13 1.56 0.00 1.27 2.11 0.94 1.10 2.21 1.99 1.07 1.86 1.80 3.51 1.91 3.82
526 1.91 1.33 1.27 0.00 2.37 0.75 1.39 2.11 2.16 0.89 1.36 1.28 3.63 0.86 3.84
195 1.50 1.13 2.11 2.37 0.00 2.68 1.24 0.73 3.97 1.61 3.63 1.42 1.43 2.17 5.85
938 1.78 1.76 0.94 0.75 2.68 0.00 1.52 2.59 1.46 1.29 1.05 1.89 4.05 1.60 3.24
818 0.70 0.66 1.10 1.39 1.24 1.52 0.00 1.40 2.75 0.92 2.54 1.20 2.66 1.59 4.64
118 1.91 0.96 2.21 2.11 0.73 2.59 1.40 0.00 4.00 1.37 3.42 0.91 1.54 1.68 5.83
299 2.71 3.13 1.99 2.16 3.97 1.46 2.75 4.00 0.00 2.73 1.38 3.34 5.39 3.01 1.90
229 1.49 0.83 1.07 0.89 1.61 1.29 0.92 1.37 2.73 0.00 2.08 0.77 2.87 1.01 4.51
244 2.82 2.65 1.86 1.36 3.63 1.05 2.54 3.42 1.38 2.08 0.00 2.61 4.94 2.08 2.63
14  1.88 0.62 1.80 1.28 1.42 1.89 1.20 0.91 3.34 0.77 2.61 0.00 2.43 0.78 5.10
374 2.89 2.38 3.51 3.63 1.43 4.05 2.66 1.54 5.39 2.87 4.94 2.43 0.00 3.19 7.26
665 2.27 1.15 1.91 0.86 2.17 1.60 1.59 1.68 3.01 1.01 2.08 0.78 3.19 0.00 4.63
602 4.60 4.97 3.82 3.84 5.85 3.24 4.64 5.83 1.90 4.51 2.63 5.10 7.26 4.63 0.00

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov.

Obr. 2. Hierarchické zhlukovanie - dendogram. Červená čiara určuje rez definujúci tri klastre.

Tab.4. Príslušnosť pozorovaní do klastrov.

   StudentID klaster
1          1       1
2          2       2
3          3       2
4          4       3
5          5       1
6          6       1
7          7       2
8          8       3
9          9       3
10        10       3
11        11       3
12        12       3
13        13       1
14        14       1
15        15       3
16        16       1
17        17       2
18        18       3
19        19       3
20        20       3

Vykonaná klastrová analýza klasifikuje krajiny do troch klastrov. Klaster 1 vytvárajú všetky vyspelé krajiny západu + Slovinsko, ktoré je najvyspelejšou pVykonaná klastrová analýza klasifikuje študentov do troch klastrov na základe ich výsledkov v matematike, čítaní a písaní. Klastre je možné interpretovať ako skupiny študentov s podobným výkonnostným profilom (napr. slabší, priemerní, výkonnejší).

Deskriptívne štatistiky výsledkov

Na základe Tab. 5 môžeme konštatovať, do akej miery jednotlivé premenné prispievajú k separácii klastrov. Vyšší podiel medzi-klastrovej variability znamená lepšiu separáciu.

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných

Variable TSS WSS BSS Prop_Between
math score math score 999 348.4647 650.5353 0.651186
reading score reading score 999 260.1961 738.8039 0.739543
writing score writing score 999 301.8093 697.1907 0.697889

Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných

# A tibble: 3 × 4
  klaster math.score_mean reading.score_mean writing.score_mean
  <fct>             <dbl>              <dbl>              <dbl>
1 1                  70.6               73.7               72.5
2 2                  85.0               88.7               88.0
3 3                  52.8               55.5               54.3

Záver

Predložená analýza sa zaoberá klastrovou klasifikáciou študentov podľa výsledkov z matematiky, čítania a písania. Hierarchické zhlukovanie (Ward.D2) rozdelilo pozorovania do troch klastrov, ktoré možno interpretovať ako skupiny s rozdielnou úrovňou výkonu. Výsledky môžu byť využité napríklad pri identifikácii skupín študentov, ktoré potrebujú zvýšenú podporu alebo naopak skupín s nadpriemerným výkonom.