Zadanie 8

Úvod

Klastrová (zhluková) analýza patrí medzi najpoužívanejšie metódy exploratívnej štatistiky. V praxi sa využíva všade tam, kde je potrebné rozdeliť pozorovania do homogénnych celkov - napríklad pri segmentácii zákazníkov v marketingu, identifikácii podobných krajín v makroekonomických ukazovateľoch, hodnotenízdravotných rizík, klasifikácii biologických vzoriek či v geoinformatike pri zoskupovaní priestorových sobjektov. Jej výhodou je, že pracuje s viacerými premennými naraz a dokáže odhaliť vzory, ktoré by pri samotnom hodnotení jednotlivých ukazovateľov zostali skryté. Správne zvolená metrika vzdialenosti a metóda zhlukovania umožňujú odhaliť skryté vzťahy v dátach, čím poskytujú cenný podklad pre rozhodovanie v rôznych oblastiach aplikovaného výskumu.

My predstavíme zhlukovú analýzu pri analýze údajov niektorých východo- a severoeurópskych krajín z hľadiska niektorých priemerných ukazovateľov charakterizujúcich zdravotný stav obyvateľstva. Budeme využívať údaje za rok 2015. V Tab. 1. uvádzame celú nami používanú databázu.

Table 1.

gender	race/ethnicity	parental level of education	lunch	test preparation course	math score	reading score	writing score
female	group B	bachelor’s degree	standard	none	72	72	74
female	group C	some college	standard	completed	69	90	88
female	group B	master’s degree	standard	none	90	95	93
male	group A	associate’s degree	free/reduced	none	47	57	44
male	group C	some college	standard	none	76	78	75
female	group B	associate’s degree	standard	none	71	83	78
female	group B	some college	standard	completed	88	95	92
male	group B	some college	free/reduced	none	40	43	39
male	group D	high school	free/reduced	completed	64	64	67
female	group B	high school	free/reduced	none	38	60	50

Hierarchická zhluková analýza pracuje s mierami vzdialenosti medzi pozorovaniami. Aby boli tieto vzdialenosti porovnateľné, je potrebné, aby všetky premenné boli definované na rovnakejškále. Používame pritom tzv. z-škálovanie, pričom transformované \(z\) hodnoty (skóre) vypočítame nasledovne

\[z = \frac{x-\mu}{\sigma}\]

kde \(\mu\) je stredná hodnota a \(\sigma\) je štandardná odchýlka pozorovaní \(x\). Predpokladáme pritom, že súbor údajov už neobsahuje NA hodnoty, ktoré boli ošetrené v predchádzajúcich krokoch.

Touto operáciou získame škálované pozorovania, pričom ich rozloženie je znázornené nasledovne:

Obr. 1.

Tentokrát odľahlé hodnoty nevylúčime, nakoľko definujú konkrétnu krajinu.

Pri zhlukovej analýze je dôležitá korelačná matica premenných. Vysoká korelácia zvýhodňuje pri zhlukovej analýze korelované premenné. Preto pri korelácii nad 0,8 alebo 0.9 vylúčime jednu z korelovaných premenných. V Tab. 2. sa nachádza korelačná matica premenných.

V prípade, ak máme väčší počet významne korelovaných premenných, sa odporúča transformácia pomocou Analýzy hlavných komponentov (Principal Component Analysis)

Tab. 2

              math score reading score writing score
math score          1.00          0.82          0.80
reading score       0.82          1.00          0.95
writing score       0.80          0.95          1.00

Každému študentovi zodpovedá jeden riadok pozorovaní. Vzdialenosť medzi študentami \(i\) a \(j\) je:

\[ d^{ij} = \sqrt{\sum_k (x^i_k - x^j_k)^2} \] kde \(x^i_k\) je \(k\)ta premenná vstupujúca do výpočtu (math score, reading score, writing score) študenta \(i\). Tento typ vzdialenosti nazývame aj Euklidovská vzdialenosť. Keďže databáza obasahuje 1000 pozorovaní, celú maticu vzdialeností (1000x1000) nevypíšeme. V Tab.3. uvádzame iba ukážku pre 15 náhodných pozorovaní.

Tab. 3

     415  463  179  526  195  938  818  118  299  229  244   14  374  665  602
415 0.00 1.34 1.13 1.91 1.50 1.78 0.70 1.91 2.71 1.49 2.82 1.88 2.89 2.27 4.60
463 1.34 0.00 1.56 1.33 1.13 1.76 0.66 0.96 3.13 0.83 2.65 0.62 2.38 1.15 4.97
179 1.13 1.56 0.00 1.27 2.11 0.94 1.10 2.21 1.99 1.07 1.86 1.80 3.51 1.91 3.82
526 1.91 1.33 1.27 0.00 2.37 0.75 1.39 2.11 2.16 0.89 1.36 1.28 3.63 0.86 3.84
195 1.50 1.13 2.11 2.37 0.00 2.68 1.24 0.73 3.97 1.61 3.63 1.42 1.43 2.17 5.85
938 1.78 1.76 0.94 0.75 2.68 0.00 1.52 2.59 1.46 1.29 1.05 1.89 4.05 1.60 3.24
818 0.70 0.66 1.10 1.39 1.24 1.52 0.00 1.40 2.75 0.92 2.54 1.20 2.66 1.59 4.64
118 1.91 0.96 2.21 2.11 0.73 2.59 1.40 0.00 4.00 1.37 3.42 0.91 1.54 1.68 5.83
299 2.71 3.13 1.99 2.16 3.97 1.46 2.75 4.00 0.00 2.73 1.38 3.34 5.39 3.01 1.90
229 1.49 0.83 1.07 0.89 1.61 1.29 0.92 1.37 2.73 0.00 2.08 0.77 2.87 1.01 4.51
244 2.82 2.65 1.86 1.36 3.63 1.05 2.54 3.42 1.38 2.08 0.00 2.61 4.94 2.08 2.63
14  1.88 0.62 1.80 1.28 1.42 1.89 1.20 0.91 3.34 0.77 2.61 0.00 2.43 0.78 5.10
374 2.89 2.38 3.51 3.63 1.43 4.05 2.66 1.54 5.39 2.87 4.94 2.43 0.00 3.19 7.26
665 2.27 1.15 1.91 0.86 2.17 1.60 1.59 1.68 3.01 1.01 2.08 0.78 3.19 0.00 4.63
602 4.60 4.97 3.82 3.84 5.85 3.24 4.64 5.83 1.90 4.51 2.63 5.10 7.26 4.63 0.00

Princíp hierarchického zhlukovania (Wardova metóda)

Zhlukovanie v prípade Wardovej metódy prebieha zdola smerom nahor, t.j. začíname s jednočlennými klastrami, ktoré postupne zlučujeme. Táto metóda patrí teda medzi aglomeratívne hierarchické metódy. Minimalizuje nárast vnútornej variability pri spojení dvoch klastrov.

Obr. 2. Hierarchické zhlukovanie - dendogram. Červená čiara určuje rez definujúci tri klastre.

Tab.4. Príslušnosť pozorovaní do klastrov.

   StudentID klaster
1          1       1
2          2       2
3          3       2
4          4       3
5          5       1
6          6       1
7          7       2
8          8       3
9          9       3
10        10       3
11        11       3
12        12       3
13        13       1
14        14       1
15        15       3
16        16       1
17        17       2
18        18       3
19        19       3
20        20       3

Vykonaná klastrová analýza klasifikuje krajiny do troch klastrov. Klaster 1 vytvárajú všetky vyspelé krajiny západu + Slovinsko, ktoré je najvyspelejšou pVykonaná klastrová analýza klasifikuje študentov do troch klastrov na základe ich výsledkov v matematike, čítaní a písaní. Klastre je možné interpretovať ako skupiny študentov s podobným výkonnostným profilom (napr. slabší, priemerní, výkonnejší).

Deskriptívne štatistiky výsledkov

Na základe Tab. 5 môžeme konštatovať, do akej miery jednotlivé premenné prispievajú k separácii klastrov. Vyšší podiel medzi-klastrovej variability znamená lepšiu separáciu.

Tab. 5. Vysvetlenie vnútroklastrovej variability z hľadiska jednotlivých premenných

	Variable	TSS	WSS	BSS	Prop_Between
math score	math score	999	348.4647	650.5353	0.651186
reading score	reading score	999	260.1961	738.8039	0.739543
writing score	writing score	999	301.8093	697.1907	0.697889

Tab. 6. Centroidy - priemerné hodnoty sledovaných premenných

# A tibble: 3 × 4
  klaster math.score_mean reading.score_mean writing.score_mean
  <fct>             <dbl>              <dbl>              <dbl>
1 1                  70.6               73.7               72.5
2 2                  85.0               88.7               88.0
3 3                  52.8               55.5               54.3

Záver

Predložená analýza sa zaoberá klastrovou klasifikáciou študentov podľa výsledkov z matematiky, čítania a písania. Hierarchické zhlukovanie (Ward.D2) rozdelilo pozorovania do troch klastrov, ktoré možno interpretovať ako skupiny s rozdielnou úrovňou výkonu. Výsledky môžu byť využité napríklad pri identifikácii skupín študentov, ktoré potrebujú zvýšenú podporu alebo naopak skupín s nadpriemerným výkonom.

Zadanie 8

Eliška Lenická

Úvod

Princíp hierarchického zhlukovania (Wardova metóda)

Deskriptívne štatistiky výsledkov

Záver