Aula 5.11 a 5.14

PCA de uma Matriz de Distância de variáveis Ambientais pelo Método Euclidiano

Objetivo: Desenvolver uma PCA através de uma matriz de distâncias no método Euclidiano para entender qual o grau de semelhança das unidades amostrais de acordo com os dados das variáveis ambientais.

Este material está disponível em: http://rpubs.com/leonardoreffatti.

PCA da Matriz de Distâncias através do método Euclidiano com os dados das variáveis ambientais. Definição das variáveis ambientais, padronização das unidades, criação da PCA com matriz de distâncias pelo método Euclidiano, plotagem da PCA com os agrupamentos destacados, extração dos valores do componente principal 1 e do componente principal 2 para utilizar como variáveis em próximas análises.

library(permute)
library(lattice)
library(vegan)
## This is vegan 2.5-2
setwd("C:/R/Curso do R/MODULO_5.1")
#inserindo os nomes das UAs no Cluster, argumento row.names
dados<-read.table("insetos.txt", h=T, row.names = 1)
attach(dados)
str(dados)
## 'data.frame':    30 obs. of  40 variables:
##  $ Ambiente   : Factor w/ 2 levels "Mata_Primária",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Gado       : Factor w/ 2 levels "Ausente","Presente": 2 1 2 2 2 1 1 1 2 2 ...
##  $ Temperatura: num  21.8 21.3 23.8 23.2 21.5 21.7 20.3 19.7 24.7 20.2 ...
##  $ Cobertura  : int  73 62 57 49 59 78 64 74 48 75 ...
##  $ Luz        : num  53.5 61 71.5 69.5 61.5 53 58 56 71 60.5 ...
##  $ Flores     : int  14 28 17 29 15 24 21 29 20 5 ...
##  $ sp.1       : int  4 5 1 3 5 1 1 0 6 3 ...
##  $ sp.2       : int  0 0 0 0 0 0 3 1 4 0 ...
##  $ sp.3       : int  7 3 2 6 7 2 2 1 8 3 ...
##  $ sp.4       : int  2 7 0 4 2 4 5 3 3 1 ...
##  $ sp.5       : int  0 2 2 1 1 0 3 4 0 0 ...
##  $ sp.6       : int  0 5 2 14 4 3 3 9 8 0 ...
##  $ sp.7       : int  3 2 3 2 1 4 3 2 1 3 ...
##  $ sp.8       : int  2 4 3 5 2 3 0 0 1 0 ...
##  $ sp.9       : int  1 2 0 0 0 0 2 0 1 0 ...
##  $ sp.10      : int  1 3 5 2 1 1 0 0 1 1 ...
##  $ sp.11      : int  0 0 0 4 0 2 0 2 0 0 ...
##  $ sp.12      : int  1 5 0 2 0 2 4 5 0 0 ...
##  $ sp.13      : int  3 6 0 3 3 2 3 1 4 2 ...
##  $ sp.14      : int  3 4 2 10 5 2 2 5 8 0 ...
##  $ sp.15      : int  0 0 0 0 1 0 0 0 1 0 ...
##  $ sp.16      : int  3 3 0 2 0 0 3 0 1 0 ...
##  $ sp.17      : int  0 0 0 1 0 0 0 0 0 0 ...
##  $ sp.18      : int  0 1 2 3 1 3 0 0 2 0 ...
##  $ sp.19      : int  0 0 2 2 3 0 0 2 0 1 ...
##  $ sp.20      : int  0 3 0 0 0 4 0 2 0 0 ...
##  $ sp.21      : int  0 1 3 4 2 1 3 3 3 2 ...
##  $ sp.22      : int  1 2 1 2 2 2 1 2 2 2 ...
##  $ sp.23      : int  1 0 1 2 1 1 2 1 2 1 ...
##  $ sp.24      : int  1 1 0 2 1 2 0 1 1 1 ...
##  $ sp.25      : int  0 1 0 2 0 1 1 0 0 1 ...
##  $ sp.26      : int  2 2 1 0 1 1 2 1 1 1 ...
##  $ sp.27      : int  0 0 0 0 0 0 3 0 0 0 ...
##  $ sp.28      : int  1 0 0 0 0 0 0 0 0 2 ...
##  $ sp.29      : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ sp.30      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ sp.31      : int  0 5 0 0 0 0 1 0 0 0 ...
##  $ sp.32      : int  1 1 1 0 1 1 1 0 1 1 ...
##  $ sp.33      : int  0 0 0 0 1 0 0 0 1 0 ...
##  $ sp.34      : int  0 0 0 0 1 0 0 0 0 0 ...
var.amb <- dados[ ,3:6]
#padronização = (cada valor - média) / desvio padrão
#todas as variáveis variam na mesma magnitude, média = 0 e sd = 1
#as diferenças serão mantidas após a padronização
#o argumento scale = TRUE faz a padronização dos dados
resultado <- rda(var.amb, scale = TRUE)
summary(resultado)
## 
## Call:
## rda(X = var.amb, scale = TRUE) 
## 
## Partitioning of correlations:
##               Inertia Proportion
## Total               4          1
## Unconstrained       4          1
## 
## Eigenvalues, and their contribution to the correlations 
## 
## Importance of components:
##                          PC1    PC2     PC3     PC4
## Eigenvalue            2.9765 0.8225 0.15353 0.04753
## Proportion Explained  0.7441 0.2056 0.03838 0.01188
## Cumulative Proportion 0.7441 0.9497 0.98812 1.00000
## 
## Scaling 2 for species and site scores
## * Species are scaled proportional to eigenvalues
## * Sites are unscaled: weighted dispersion equal on all dimensions
## * General scaling constant of scores:  3.281818 
## 
## 
## Species scores
## 
##                 PC1     PC2       PC3       PC4
## Temperatura  1.5353 -0.2536 -0.516797  0.062751
## Cobertura   -1.5698  0.2432 -0.348431 -0.218239
## Luz          1.5912 -0.2436  0.157733 -0.276448
## Flores       0.8129  1.4254 -0.005553  0.001159
## 
## 
## Site scores (weighted sums of species scores)
## 
##             PC1       PC2      PC3      PC4
## área1  -0.84248 -0.328739 -0.70072  0.78732
## área2  -0.43311  0.333202  0.39672  0.20386
## área3  -0.10240 -0.554527  0.23828 -1.37674
## área4   0.03636  0.130896  0.80606 -0.06254
## área5  -0.49144 -0.460239  0.53132  0.44512
## área6  -0.83250  0.301032 -0.98034  0.32923
## área7  -0.64405  0.008396  0.52433  0.54177
## área8  -0.77822  0.592733  0.08087 -0.20293
## área9   0.08170 -0.469072  0.39966 -0.10143
## área10 -0.88643 -0.871534  0.06352 -1.33527
## área11 -0.63711  0.443519 -1.28259 -0.43492
## área12  0.05798 -1.096462 -0.78626  0.03589
## área13 -0.02232 -1.170334  1.32489  0.84332
## área14 -0.52560  0.005283  0.54777 -0.35114
## área15 -0.81449  0.103509 -0.05313  0.34057
## área16  0.04581 -0.644038 -0.66399  0.43237
## área17 -0.52146  0.255348 -0.04659 -0.68786
## área18  0.91741 -0.628082  0.34388  0.24362
## área19 -0.01556  1.303795  0.37912  0.15126
## área20  0.98503  0.029162 -0.77138 -0.18492
## área21  0.81241 -0.443408 -0.40845 -0.35618
## área22  0.63011  0.488145 -0.07909  0.54670
## área23  0.12729  1.033580  0.96023  0.35001
## área24  1.07618  0.234964  0.04026 -0.37270
## área25  0.26441 -0.004436 -0.29826  1.13692
## área26  0.51127  0.426610 -0.64239  0.39092
## área27  0.29284  0.616231 -0.27960  0.36667
## área28  0.46060  0.777148 -0.03278 -1.05485
## área29  0.48418  0.256979  0.61396 -0.68838
## área30  0.76358 -0.669661 -0.22528  0.06431
biplot(resultado)
#adicionando polígonos na análise de ordenação
ordihull(resultado, groups = Ambiente, show = "Mata_Primária", col="green4")
ordihull(resultado, groups = Ambiente, show = "Mata_Secundária", col="blue")

#extração dos valores dos componentes principais(PC1 e PC2) das Unidades amostrais
ls(resultado)
##  [1] "CA"             "call"           "CCA"            "colsum"        
##  [5] "inertia"        "method"         "pCCA"           "regularization"
##  [9] "tot.chi"        "Ybar"
resultado$CA$u
##                 PC1          PC2          PC3         PC4
## área1  -0.256712151 -0.100169799 -0.213514332  0.23990377
## área2  -0.131972239  0.101529821  0.120884623  0.06211726
## área3  -0.031203462 -0.168969585  0.072604810 -0.41950392
## área4   0.011080076  0.039885252  0.245613742 -0.01905791
## área5  -0.149746450 -0.140239046  0.161897551  0.13563172
## área6  -0.253669919  0.091727059 -0.298719030  0.10031886
## área7  -0.196247954  0.002558292  0.159766891  0.16508366
## área8  -0.237129590  0.180611029  0.024642555 -0.06183465
## área9   0.024893601 -0.142930556  0.121779220 -0.03090766
## área10 -0.270104593 -0.265564345  0.019354096 -0.40686878
## área11 -0.194133156  0.135144358 -0.390817310 -0.13252401
## área12  0.017667919 -0.334101954 -0.239581572  0.01093501
## área13 -0.006801002 -0.356611412  0.403705441  0.25696675
## área14 -0.160156576  0.001609762  0.166912003 -0.10699460
## área15 -0.248181883  0.031540111 -0.016188277  0.10377447
## área16  0.013958504 -0.196244386 -0.202324728  0.13174625
## área17 -0.158892507  0.077806820 -0.014195450 -0.20959587
## área18  0.279544593 -0.191382444  0.104782607  0.07423372
## área19 -0.004740490  0.397278287  0.115521294  0.04609125
## área20  0.300146385  0.008886042 -0.235047161 -0.05634621
## área21  0.247549629 -0.135110446 -0.124458922 -0.10852991
## área22  0.191998976  0.148742301 -0.024099863  0.16658307
## área23  0.038785590  0.314941259  0.292590008  0.10664985
## área24  0.327922604  0.071595662  0.012268880 -0.11356413
## área25  0.080568802 -0.001351728 -0.090884035  0.34643140
## área26  0.155789484  0.129992100 -0.195741543  0.11911559
## área27  0.089231360  0.187771349 -0.085197567  0.11172672
## área28  0.140349943  0.236804149 -0.009987957 -0.32142172
## área29  0.147534241  0.078303752  0.187078664 -0.20975521
## área30  0.232670266 -0.204051705 -0.068644635  0.01959520
pc1 <- resultado$CA$u[,1]
pc2 <- resultado$CA$u[,2]
boxplot(pc1~Ambiente)

#os componentes principais podem ser utilizados como variáveis em análises