Analýza hlavných komponentov (PCA) a biplot

Analýza hlavných komponentov (PCA) nám umožňuje sumarizovať a vizualizovať informácie v súbore údajov obsahujúcom pozorovania popísané viacerými vzájomne korelovanými kvantitatívnymi premennými.Keď každú premennú považujeme za dimenziu a ak náš súbor obsahuje viac ako tri premenné, vizualizácia je problematická.

Analýzu hlavných komponentov používame na extrakciu dôležitých informácií z datovej matice s viacerými premennými a na vyjadrenie týchto informácií pomocou nových premenných, ktoré sa nazývajú hlavné komponenty.Počet hlavných komponentov je menší alebo rovnaký ako počet pôvodných premenných.

Informácie v danom súbore údajov meriame pomocou celkového rozptylu. PCA redukuje rozmer mnohorozmerných údajov na dve (alebo tri) hlavné zložky, ktoré je možné vizualizovať graficky. Na znázornenie výsledkov použijeme biplot . Biploty sú typom grafu používaného v exploratívne štatistike. Sú zovšeobecnením jednoduchého bodového grafu dvoch premenných. Biplot umožňuje grafické zobrazenie informácií o pozorovaniach aj premenných dátovej matice v jedinom grafe. Biplot je teda graf, ktorého cieľom je reprezentovať ako pozorovania, tak premenné matice viacrozmerných dát v tom istom grafe.

Postup si vysvetlíme na konkrétnom príklade.

Príklad. Krajiny EU charakterizujeme pomocou štyroch znakov:

GDPPPP - hrubý domáci produkt na obyvateľa v parite kúpnej sily (v mil. Eur)
INHAB - počet obyvateľov
GOVEXP - podiel celkových výdajov vládneho sektora z HDP (v percentách)
YEAR - rok vstupu krajiny do Európskej únie

Tabuľka. Vybrané charakteristiky krajín EÚ

Zdroje údajov:
https://ec.europa.eu/eurostat/data/database
https://europa.eu/european-union/about-eu/countries_sk#tab-0-1

V prvom kroku načítame údaje do datovej tabuľky udajeEU. Budeme potrebovať package “xlsx”. Údaje sú v druhom hárku súboru biplot2.xlsx, ktorý sa nachádza adresári bs na disku d.

library(xlsx)
udajeEU = read.xlsx("d:/bs/biplot2.xlsx",2) 
attach(udajeEU)

Načítajme názvy štátov

rownames(udajeEU) = c("BE", "BG", "CZ", "DK", "DE", "EE", "IE", "EL", "ES", "FR", "HR", "IT", "CY", "LV", "LT", "LU", "HU","MT", "NL", "AT", "PL", "PT", "RO", "SI", "SK", "FI", "SE")

Vypíšme datovú tabuľku udajeEU.

udajeEU

##    GDPPPP    INHAB GOVEXP YEAR
## BE  36700 11455519   52.1 1958
## BG  16500  7000039   36.3 2007
## CZ  28900 10649800   41.4 2004
## DK  40500  5806081   49.2 1973
## DE  37500 83019213   45.2 1958
## EE  26100  1324820   38.9 2004
## IE  60200  4904240   24.6 1973
## EL  20700 10724599   47.9 1981
## ES  28400 46937060   42.1 1986
## FR  33100 67177636   55.4 1958
## HR  20300  4076246   47.2 2013
## IT  29800 59816673   48.6 1958
## CY  27900   875899   39.7 2004
## LV  21500  1919968   38.4 2004
## LT  26000  2794184   34.6 2004
## LU  81000   613894   42.3 1958
## HU  22800  9772756   45.7 2004
## MT  31100   493559   36.8 2004
## NL  39900 17282163   42.0 1958
## AT  39400  8858775   48.6 1995
## PL  22700 37972812   41.8 2004
## PT  24700 10276617   42.5 1986
## RO  21700 19414458   36.2 2007
## SI  27700  2080908   43.3 2004
## SK  21900  5450421   42.7 2004
## FI  34700  5517919   53.2 1995
## SE  37000 10230185   49.3 1995

Poznámka. Keď premenné v datovej matici nemajú rovnakú mernú jednotku, treba ich transformovať. Nech X je náhodná premenná a x1,x2,…, xn sú jej realizácie. Ich priemer je M a smerodajná odchýlka je SD. Transformované (štandardizované) hodnoty sú (x1-M)/SD,(x2-M)/SD,…, (xn-M)/SD.
Vytvorme funkciu transform a štandardizujme hodnoty datovej tabuľky udajeEU,

transform = function(x) {(x - mean(x))/sd(x)}
SudajeEU = as.data.frame (apply(udajeEU, 2, transform))

Vypíšme štandardizované údaje SudajeEU.

SudajeEU

##         GDPPPP       INHAB      GOVEXP       YEAR
## BE  0.36602970 -0.22832519  1.35310070 -1.5777710
## BG -1.14405047 -0.42859911 -1.04504121  0.9281006
## CZ -0.21707056 -0.26454227 -0.27095743  0.7746799
## DK  0.65010419 -0.48226755  0.91293541 -0.8106675
## DE  0.42583485  2.98846442  0.30581088 -1.5777710
## EE -0.42638861 -0.68370033 -0.65041026  0.7746799
## IE  2.12280613 -0.52280532 -2.82088047 -0.8106675
## EL -0.83007340 -0.26118006  0.71561994 -0.4015456
## ES -0.25444879  1.36657086 -0.16471064 -0.1458444
## FR  0.09690650  2.27638519  1.85397844 -1.5777710
## HR -0.85997598 -0.56002367  0.60937314  1.2349420
## IT -0.14978976  1.94550974  0.82186673 -1.5777710
## CY -0.29182701 -0.70387934 -0.52898536  0.7746799
## LV -0.77026825 -0.65694841 -0.72630083  0.7746799
## LT -0.43386425 -0.61765238 -1.30306914  0.7746799
## LU  3.67774017 -0.71565647 -0.13435441 -1.5777710
## HU -0.67308487 -0.30396542  0.38170144  0.7746799
## MT -0.05260639 -0.72106553 -0.96915064  0.7746799
## NL  0.60525032  0.03358259 -0.17988875 -1.5777710
## AT  0.56787210 -0.34504889  0.82186673  0.3144178
## PL -0.68056052  0.96362771 -0.21024498  0.7746799
## PT -0.53104763 -0.28131686 -0.10399818 -0.1458444
## RO -0.75531696  0.12942930 -1.06021932  0.9281006
## SI -0.30677830 -0.64971415  0.01742672  0.7746799
## SK -0.74036567 -0.49825447 -0.07364196  0.7746799
## FI  0.21651681 -0.49522044  1.52005994  0.3144178
## SE  0.38845663 -0.28340398  0.92811352  0.3144178

Poznámka. Namiesto definovania funkcie transform a následne jej aplikovania na datovú tabuľku udajeEU sme mohli tiež použiť funkciu scale; t.j. napísať SudajeEU = scale(udajeEU). Vo výstupe by sme našli aj pre kazdú pôvodnú premennú jej priemer a smerodajnú odchýlku.

Vypočítajme korelačnú maticu z našich štandardizovaných údajov. Vypíšme ju.

KorelacnaMatica = cor(SudajeEU)
KorelacnaMatica

##             GDPPPP       INHAB      GOVEXP       YEAR
## GDPPPP  1.00000000 -0.03669716 -0.06085214 -0.6052915
## INHAB  -0.03669716  1.00000000  0.32355541 -0.5271241
## GOVEXP -0.06085214  0.32355541  1.00000000 -0.3298184
## YEAR   -0.60529151 -0.52712408 -0.32981836  1.0000000

Poznámka. Vidíme, že premenná YEAR poskytuje dôležité a zaujímavé informácie. Záportné znamienko s premennou GDPPPP nám hovorí, že čím krajiny, ktoré vstúpili neskôr, mali nižší hrubý domáci produkt na obyvateľa v parite kúpnej sily. Záporné znamienko korelačného koeficientu pre YEAR a INHAB nám hovorí, že krajiny, ktoré vstupovali do EÚ neskôr boli menšie. S rastom hodnôt INHAB rastie hodnota GOVEXP, t.j. podiel celkových výdajov vládneho sektora z HDP (kladné znamienko relačného koeficienta).

Vypočítajme vlastné čisla a vlastne vektory korelačnej matice KorelacnaMatica. Najskôr vypíšeme vlastné vektory korelačnej matice. Aby bol výsledok čitateľnejší, pomenujeme riadky aj stĺpce výstupu.

VlastneCaV = eigen(KorelacnaMatica)

rownames(VlastneCaV$vectors) = c("GDPPPP", "INHAB", "GOvEXP", "YEAR")
colnames(VlastneCaV$vectors) = c("PC1", "PC2", "PC3","PC4")
VlastneCaV$vectors

##               PC1        PC2         PC3        PC4
## GDPPPP  0.3912821  0.7194172  0.18129975 -0.5444883
## INHAB   0.4978150 -0.4198191 -0.63883111 -0.4096670
## GOvEXP  0.3847841 -0.5197610  0.74533770 -0.1620538
## YEAR   -0.6715801 -0.1898401  0.05913477 -0.7137535

Hlavné komponenty zodpovedajú lineárnej kombinácii pôvodných premenných. Každý vlastný vektor je normalizovanou lineárnou kombináciou pôvodných premenných datovej matice. To znamená

PC1 = 0,3912821 GDPPPP + 0,4978150 INHAB + 0,3847841 GOVEXP - 0,671581 YEAR
PC2 = 0,7194172 GDPPPP - 0,4198191 INHAB -0,5197610GOVEXP -0,1898401 YEAR
Analogicky by sme mohli zapísať vzťahy aj PC3 a PC4.

Poznámka. Hodnoty vlastných vektorov nazývame záťaže (loadings). Vysoké hodnoty (kladné alebo záporné) naznačujú, že konkrétna premenná má silný vzťah k určitej hlavnej komponente. Znamienko záťaže označuje, či sú premenná a hlavná komponenta pozitívne alebo negatívne korelované.

Veľkosť rozptylu, ktorú zachováva každá hlavná komponenta meriame hodnotou vlastného čísla korelačnej matice. Súčet vlastných čísel sa rovná celkovej variancii “zredukovaných” údajov. Podiel rozptylu, ktorý vysvetluje hlavná komponenta sa rovná hodnote vlastného čísla vydeleného súčtom všetkých vlastných čísiel.V prípade štandardizovaných údajov je súčet vlastných čísiel korelačnej matice rovný počtu premenných. V našom prípade 4. Vypočítajme vlastné čísla korelačnej matice.

VlastneCaV$values

## [1] 1.9323666 1.2251035 0.6817101 0.1608198

Vlastné čísla korelačnej matice sú 1,9323666; 1,2251035; 0,6817101 a 0,1608198. Ich súčet je 4.Prvý hlavný komponent zachováva 1,9323666 * 100/4 = 48,309 percent variability oôvodných údajov. Druhý hlavný komponent zachováva 1,2251035 * 100/4 = 30,630 percent variability, tretí hlavný komponent zachováva 0,6817101 * 100/4 = 17,043 percent variability a štvrtý hlavný komponent zachováva 0,1608198 * 100 = 4,020 percent variability.

Pristupme k výpočtom PCA. FactoMineR automaticky transformuje - štandardizuje údaje. Preto môžeme pracovať s pôvodnými udajmi, t.j. s udajeEU.

library("FactoMineR")
vysledokPCA = PCA(udajeEU, graph = FALSE)

library("factoextra")

## Loading required package: ggplot2

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

vlastnečisla = get_eigenvalue(vysledokPCA)
vlastnečisla

##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  1.9323666        48.309166                    48.30917
## Dim.2  1.2251035        30.627588                    78.93675
## Dim.3  0.6817101        17.042752                    95.97951
## Dim.4  0.1608198         4.020494                   100.00000

Znázornime podiely rozptylu vysvetlené jednotlivými hlavnými komponentami (označené ako Dim) graficky. Hodnota 80 vo výraze ylim = c(0, 80) znamená, že os y je zhora ohraničená hodnotou 80 percent; V prípade potreby (krajšieho vizuálneho vzhľadu) môžeme túto hodnotu meniť.

fviz_eig(vysledokPCA, addlabels = TRUE, ylim = c(0, 80))

Vypočítajme príspevky jednotlivých premenných k štyrom hlavným komponentom (hodnotu 4 môžeme meniť podľa počtu analyzovaných premenných).

Pripomeňme si (už sme ich mali vypísané) vlastné vektory korelačnej matice.

rownames(VlastneCaV$vectors) = c("GDPPPP", "INHAB", "GOvEXP", "YEAR")
colnames(VlastneCaV$vectors) = c("PC1", "PC2", "PC3","PC4")
VlastneCaV$vectors

##               PC1        PC2         PC3        PC4
## GDPPPP  0.3912821  0.7194172  0.18129975 -0.5444883
## INHAB   0.4978150 -0.4198191 -0.63883111 -0.4096670
## GOvEXP  0.3847841 -0.5197610  0.74533770 -0.1620538
## YEAR   -0.6715801 -0.1898401  0.05913477 -0.7137535

Podiel príspevku premennej GDPPPP k prvej hlavnej komponente je 0,3912821 * 0,3912821 * 100 = 15,31017 percent. Podiel príspevku premennej INHAB k prvej hlavnej komponente je 0,497815 * 0,497815 * 100 = 24,78197 percent. Podiel príspevku premennej INHAB k prvej hlavnej komponente je 0,3847841* 0,3847841 * 100 = 14,80588 percent. Podiel príspevku premennej YEAR k prvej hlavnej komponente je -0,6715801 * -0,6715801 * 100 = 45,10198 percent. Podiel príspevku premennej GDPPPP k druhej hlavnej komponente je 0,7194172 * 0,7194172 * 100 = 51.756116 percent. atď.

Rovnako môžeme pokračovať pre všetky premenné a hlavné komponenty. Podiely však môžeme veľmi jednoducho vypočítať naraz, pomocou nasledovných príkazov.

premenna = get_pca_var(vysledokPCA)
head(premenna$contrib, 4)

##           Dim.1     Dim.2      Dim.3     Dim.4
## GDPPPP 15.31017 51.756116  3.2869600 29.646754
## INHAB  24.78197 17.624804 40.8105187 16.782704
## GOVEXP 14.80588 27.015152 55.5528292  2.626142
## YEAR   45.10198  3.603928  0.3496921 50.944400

Znázornime príspevky premenných k hlavným komponentom graficky. Červená čiara predstavuje priemerný príspevok. Parameter top je užitočný, keď pracujeme s veľkým množstvo premenných. Udáva Kolko premenných s najvyšším príspevkom má byť znázornených. V príkaze je nastavená hodnota 4, t.j. všetky.

var = get_pca_var(vysledokPCA)
fviz_contrib(vysledokPCA, choice = "var", axes = 1, top = 4)

fviz_contrib(vysledokPCA, choice = "var", axes = 2, top = 4)

fviz_contrib(vysledokPCA, choice = "var", axes = 3, top = 4)

fviz_contrib(vysledokPCA, choice = "var", axes = 4, top = 4)

Najvyšší a súčasne nadpriemerný príspevok k prvej hlavnej komponente má premenná YEAR. Nasleduje premenná INHAB. Je na hranici priemerného príspevku. Najvyšší a tiež nadpriemerný príspevok k druhej hlavnej komponente má premenná GDPPPP. Nadpriemerný príspevok má aj premenná GOVEXP.Ostatné obrázky môžeme komentovať analogicky.

Jedným z kritérií pre voľbu počtu hlavných komponentov vychádza z kumulatívneho percentuálneho podielu na celkovej variancií, ktorá je zachytená hlavnými komponentami. Obvykle sa udáva hodnota 80 alebo 90 percent. V našom prípade prvé dve hlavné komponenty vysvetľujú 78.93675 percent variability. Podľa tohoto kritéria zvolíme počet hlavných komponentov dva.
Iné kritéerium je tzv.Kaiserovo pravidlo. Podľa tohoto pravidla ponechávame len tie hlavné komponenty, ktorých rozptyly presiahnu hodnotu 1,t.j. pre ktoré sú vlastné čísla väčšie ako 1. V našom prípade tejto podmienke vyhovujú prvé dve vlastné čísla: 1.9323666 a 1.2251035. Takže budeme pracovať s prvými dvoma hlavnými komponentami.

Budeme teda uvažovať s 2 hlavnými komponentami. Vo všeobecnosti takáto zhoda nemusí nastať a existujú aj ďalšie kritériá na voľbu počtu hlavných komponentov.

Kvalitu reprezentácie jednotlivých premenných pomocou prvých dvoch hlavných komponentov máme na nasledujúcom obrázku.

fviz_contrib(vysledokPCA, choice = "var", axes =1:2, top = 4)

Vypočítajme súradnice konca vektora (šípky) všetkých štyroch premenných v biplote.

head(premenna$coord, 4)

##             Dim.1      Dim.2       Dim.3      Dim.4
## GDPPPP  0.5439197 -0.7962826  0.14969148 0.21835256
## INHAB   0.6920105  0.4646742 -0.52745561 0.16428605
## GOVEXP  0.5348867  0.5752943  0.61539356 0.06498735
## YEAR   -0.9335607  0.2101234  0.04882506 0.28623184

Znamená to, že súradnice konca šípky pre premennú YEAR sú (-0,9335607; 0,2101234), pre premennú GOVEXP (0,5348867; 0,5752943), premennú INHAB je to bod (0,6920105; 0,4646742) a pre premennú GDPPPP je to bod (0,5439197; -0,7962826). Vykreslime ich.

fviz_pca_var(vysledokPCA, col.var = "blue")

Príspevky premenných k variabilite daného hlavného komponentu cos2 sú vyjadrené v percentách. Hodnota cos2 je druhá mocnina súradnice. Napríklad hodnota cos2 medzi GDPPPP a PC1 je 0,5439197 * 0,5439197 = 0,2958486. Vysoké hodnoty cos2 naznačujú dobré znázornenie premennej na hlavnej komponente. V tomto prípade je premenná umiestnená blízko obvodu korelačného kruhu. Nízke hodnoty cos2 pre premennú a zvolený hlavný komponent naznačujú, že premenná nie je dokonale zastúpená týmto hlavným komopnentom. V tomto prípade je premenná (t.j. koniec šípky) blízko stredu kruhu.

head(premenna$cos2, 4)

##            Dim.1      Dim.2       Dim.3       Dim.4
## GDPPPP 0.2958486 0.63406601 0.022407538 0.047677840
## INHAB  0.4788786 0.21592209 0.278209421 0.026989906
## GOVEXP 0.2861038 0.33096358 0.378709237 0.004223355
## YEAR   0.8715356 0.04415185 0.002383887 0.081928666

Vypíšme korelačné koeficenty medzi premennými a hlavnými faktormi.

head(premenna$cor, 4)

##             Dim.1      Dim.2       Dim.3      Dim.4
## GDPPPP  0.5439197 -0.7962826  0.14969148 0.21835256
## INHAB   0.6920105  0.4646742 -0.52745561 0.16428605
## GOVEXP  0.5348867  0.5752943  0.61539356 0.06498735
## YEAR   -0.9335607  0.2101234  0.04882506 0.28623184

Nasledujúce príkazy nám umožňujú otestovať signifikantnosť korelačných koeficientov medzi premennými a prvými dvoma hlavnými komponentami.

res.desc = dimdesc(vysledokPCA, axes = c(1,2), proba = 0.05)
res.desc$Dim.1

## $quanti
##        correlation      p.value
## INHAB    0.6920105 6.370016e-05
## GDPPPP   0.5439197 3.360582e-03
## GOVEXP   0.5348867 4.045289e-03
## YEAR    -0.9335607 1.218790e-12
## 
## attr(,"class")
## [1] "condes" "list"

res.desc$Dim.2

## $quanti
##        correlation      p.value
## GOVEXP   0.5752943 1.693045e-03
## INHAB    0.4646742 1.460709e-02
## GDPPPP  -0.7962826 6.780016e-07
## 
## attr(,"class")
## [1] "condes" "list"

Vidíme, že každá premenná má štatisticky signifikantnú závislosť s aspoň jedným hlavným komponentom, preto žiadnu premennú z ďalších analýz nie je potrebné vylučovať.

Venujme v ďalšom pozornosť znázorneniu objektov, v našom prípade štátov, na biplote.Najskôr vypíšeme ich súradnice a potom ich znázorníme.

objekt = get_pca_ind(vysledokPCA)
SurObj=objekt$coord
SurObj

##          Dim.1       Dim.2        Dim.3       Dim.4
## BE  1.64047411  0.04543063  1.148915101 -0.81636335
## BG -1.71854376  0.28139480 -0.670166805 -0.31124096
## CZ -0.85717193  0.05231458 -0.027006107  0.28783472
## DK  0.92734025 -0.35620895  1.078620697 -0.27949166
## DE  2.88553457  0.82307154 -1.729621266  0.38678588
## EE -1.30206131 -0.17453428 -0.081014302 -0.06595699
## IE  0.02991324 -3.43088219 -1.458869676 -0.09587613
## EL  0.09193549  0.79816288  0.536010834 -0.74349612
## ES  0.62702748  0.65572771 -1.070540875  0.29603961
## FR  3.00020077  1.57958263 -0.150939198  0.16266978
## HR -1.23321964  0.95254914  0.742952084  0.28790717
## IT  2.32927630  1.07221661 -0.765042996 -0.28278680
## CY -1.21103116 -0.21750304  0.049209527  0.02033397
## LV -1.45536498  0.04881988 -0.219604349 -0.25812669
## LT -1.52745277 -0.48648602 -0.621110528 -0.15031243
## LU  2.13049752 -3.37879293  0.948242170  0.57208776
## HU -0.80308379  0.71545136  0.410126025  0.12613298
## MT -1.29695880 -0.63337227 -0.229726766  0.07320407
## NL  1.26761870 -0.82986520 -0.141750648 -0.82744947
## AT  0.15847462 -0.06779906  0.972727746  0.53545737
## PL -0.39512758  0.94969736 -0.866063330  0.55341377
## PT -0.29542632  0.18567214 -0.002754577 -0.53535317
## RO -1.28640665  0.22710024 -0.973152016  0.13490597
## SI -0.97525909  0.10604460  0.426205255  0.12488539
## SK -1.10702000  0.44047819  0.178328270 -0.06750425
## FI  0.21596626  0.49534777  1.535878209  0.39311212
## SE  0.15986844  0.14638191  0.980147521  0.47918745

fviz_pca_ind(vysledokPCA)

Záverom znázorníme do jedného grafu - biplotu analyzované premenné aj objekty.

fviz_pca_biplot(vysledokPCA, repel = TRUE,
                col.var = "blue", 
                col.ind = "black"  )

Záverom zhrňme príkazy, ktoré sme použili (bez doplňujúcich vysvetľovaní).

# Načítanie potrebných packages

library(xlsx)
library("FactoMineR")
library("factoextra")


# Načítanie údajov

udajeEU = read.xlsx("d:/bs/biplot2.xlsx",2) 
attach(udajeEU)

## The following objects are masked from udajeEU (pos = 6):
## 
##     GDPPPP, GOVEXP, INHAB, YEAR

rownames(udajeEU) = c("BE", "BG", "CZ", "DK", "DE", "EE", "IE", "EL", "ES", "FR", "HR", "IT", "CY", "LV", "LT", "LU", "HU","MT", "NL", "AT", "PL", "PT", "RO", "SI", "SK", "FI", "SE")

# PCA a výpis vlastných čísiel podielov rozptylu vysvetlených jednotlivými hlavnými komponentami. Potrebné pre určenie počtu hlavných komponentov.
vysledokPCA = PCA(udajeEU, graph = FALSE)
vlastnečisla = get_eigenvalue(vysledokPCA)
vlastnečisla

##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  1.9323666        48.309166                    48.30917
## Dim.2  1.2251035        30.627588                    78.93675
## Dim.3  0.6817101        17.042752                    95.97951
## Dim.4  0.1608198         4.020494                   100.00000

fviz_eig(vysledokPCA, addlabels = TRUE, ylim = c(0, 80))

# Biplot - znaky aj objekty
fviz_pca_biplot(vysledokPCA, repel = TRUE,
                col.var = "blue", 
                col.ind = "black"  )

Poznámka.
Z biplotu môžeme vyčítať rýchlo informácie o premenných aj objektoch:

•Každá premenná v množine údajov je vykreslená ako vektor (šípky);
• Kosínus uhla medzi vektorom a osou označuje dôležitosť príspevku zodpovedajúce premenné k hlavnému komponentu znázornenému na danej osi;
• Kosínus uhla medzi dvojicou vektorov kvantifikuje koreláciu medzi zodpovedajúcimi premennými. (Poznámka: cos 90 = 0, cos 180 = -1, cos 0 = 1).
• v dôsledku vlastnosti z predchádzajúceho bodu, vysoko korelované premenné “ukazujú” podobným smerom; nekorelované premenné sú na seba kolmé, resp. takmer kolmé. Ak je jeden uhol menší ako 90 stupňov, potom sú premenné o to viac korelované, o čo je tento uhol menší. Znamienko korelácie je plus (+). Ked su oba uhly väčšie ako 90 stupňov, potom čím je uhl bližšie k 180 stupňom, tým je korelovanosť vyššia a znamienko je mínus (-);
• Body, ktoré sú v biplote blízko pri sebe, predstavujú objekty s podobnými hodnotami analyzovaných znakov;
• Počiatok predstavuje priemernú hodnotu pre každú premennú, to znamená, že predstavuje objekt, ktorý má priemernú hodnotu v každej premennej; tento priemerný objekt má hodnotu 0 v centrovanej dátovej matici;
• Objekt vo veľkej vzdialenosti od začiatku má veľký interakčný efekt s aspoň jednou premennou;
• Relatívna súradnice objektu môžeme priblížiť premietnutím bodu na príslušný vektor v biplote. Biploty však nemôžete použiť na odhad presných súradníc, pretože vektory boli centrované a zmenšené;
• Čím väčšia je projekcia objektu na vektor premennej, tým viac sa objekt sa odchyľuje od priemeru v hodnote danej premennej;
• Dĺžky premenných vektorov sú približne úmerné štandardnej odchýlke premenných;
• Euklidovská vzdialenosť medzi dvoma objektmi (bodmi) neapriximuje vzdialenosti medzi ich riadkami v pôvodnej matici, ale ich štandardizovanú vzdialenosť, ktorá je druhou odmocninou Mahalanobisovy vzdialenosti;
• Priesečník kolmice zo špecifického bodu na premennú (čiaru) sa blíži hodnote tohto pozorovania v hodnote premennej, ktorú čiara predstavuje. Ak je táto hodnota blízko začiatku, hodnota pozorovanie je približne priemerom príslušnej premennej. Priesečníky ďaleko od začiatku v smere šípky označujú vysokú hodnoty, zatiaľ čo priesečníky ďaleko na predĺženej čiary - v opačnom smere ako je šípka - predstavujú nízke hodnoty skúmanej premennej pre daný objekt.

Obrázok. Ukážka interpretácie

Literatúra

R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Adrian Dragulescu and Cole Arendt (2020). xlsx: Read, Write, Format Excel 2007 and Excel 97/2000/XP/2003 Files. R package version 0.6.5. https://CRAN.R-project.org/package=xlsx

Sebastien Le, Julie Josse, Francois Husson (2008). FactoMineR: An R Package for Multivariate Analysis. Journal of Statistical Software, 25(1), 1-18. 10.18637/jss.v025.i01 < Br> Alboukadel Kassambara and Fabian Mundt (2020). factoextra: Extract and Visualize the Results of Multivariate Data Analyses. R package version 1.0.7. https://CRAN.R-project.org/package=factoextra

Alboukadel Kassambara (2017). Principal Component Methods in R: Practical Guide. Dostupné na internete. http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/

Kevin Blighe, Aaron Lun (2021). PCAtools: everything Principal Component Analysis. Dostupné na internete. https://bioconductor.org/packages/release/bioc/vignettes/PCAtools/inst/doc/PCAtools.html

Cian White. (2020). Principal Component Analysis in R. Dostupné na internete.https://rpubs.com/ciwhite/585948

Paneurópska vysoká škola v Bratislave GA/2/2019 “Využitie informačných technológií pri rozvoji aplikačných možností kvantitatívnych metód v ekonómii”

Analýza hlavných komponentov (PCA) a biplot

Beata Stehlikova, PEVŠ Bratislava