MODULO 5 - Estatística Multivariada - ANOSIM

ANOSIM - teste de permutação de uma matriz de distância envolvendo uma variável categórica, com rankeamento dos dados

Objetivo: Aplicar o teste estatístico ANOSIM para dar rigor estatístico aos os agrupamentos formados por meio de uma variável categórica e visualizados através de um NMDS/PCA/Cluster de uma matriz de distância. A lógica da ANOSIM é a de permutar a matriz de distância, com os dados RANKEADOS, gerando os valores das variáveis categóricas ao acaso. Portanto se o resultado da matriz original for muito improvável de ser encontrado ao acaso, rejeitamos a hipótese nula, e aceitamos que de fato existe uma associação entre as categorias (fatores/classes) com a matriz de distâncias visualizados através do NMDS/Cluster/PCA.

Este material está disponível em: http://rpubs.com/leonardoreffatti.

ANOSIM da matriz de distâncias de composição de espécies dos 2 tipos de Ambiente. Definir as variáveis componentes das espécies, formar a matriz de distâncias pelo método “Jaccard”, guardar como resultado a função NMDS desta matriz de distâncias, plotar em um gráfico para visualizar a formação de grupos conforme a variável Ambiente. Com a função anosim() realizar o teste de permutação da matriz de distância, com os dados Rankeados, para dar rigor estatístico aos agrupamentos formados.

library(permute)
library(lattice)
library(vegan)

## This is vegan 2.5-2

setwd("C:/R/Curso do R/MODULO_5.2")
#inserindo os nomes das UAs, argumento row.names
dados<-read.table("insetos.txt", h=T, row.names = 1)
attach(dados)
str(dados)

## 'data.frame':    30 obs. of  40 variables:
##  $ Ambiente   : Factor w/ 2 levels "Mata_Primária",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ Gado       : Factor w/ 2 levels "Ausente","Presente": 2 1 2 2 2 1 1 1 2 2 ...
##  $ Temperatura: num  21.8 21.3 23.8 23.2 21.5 21.7 20.3 19.7 24.7 20.2 ...
##  $ Cobertura  : int  73 62 57 49 59 78 64 74 48 75 ...
##  $ Luz        : num  53.5 61 71.5 69.5 61.5 53 58 56 71 60.5 ...
##  $ Flores     : int  14 28 17 29 15 24 21 29 20 5 ...
##  $ sp.1       : int  4 5 1 3 5 1 1 0 6 3 ...
##  $ sp.2       : int  0 0 0 0 0 0 3 1 4 0 ...
##  $ sp.3       : int  7 3 2 6 7 2 2 1 8 3 ...
##  $ sp.4       : int  2 7 0 4 2 4 5 3 3 1 ...
##  $ sp.5       : int  0 2 2 1 1 0 3 4 0 0 ...
##  $ sp.6       : int  0 5 2 14 4 3 3 9 8 0 ...
##  $ sp.7       : int  3 2 3 2 1 4 3 2 1 3 ...
##  $ sp.8       : int  2 4 3 5 2 3 0 0 1 0 ...
##  $ sp.9       : int  1 2 0 0 0 0 2 0 1 0 ...
##  $ sp.10      : int  1 3 5 2 1 1 0 0 1 1 ...
##  $ sp.11      : int  0 0 0 4 0 2 0 2 0 0 ...
##  $ sp.12      : int  1 5 0 2 0 2 4 5 0 0 ...
##  $ sp.13      : int  3 6 0 3 3 2 3 1 4 2 ...
##  $ sp.14      : int  3 4 2 10 5 2 2 5 8 0 ...
##  $ sp.15      : int  0 0 0 0 1 0 0 0 1 0 ...
##  $ sp.16      : int  3 3 0 2 0 0 3 0 1 0 ...
##  $ sp.17      : int  0 0 0 1 0 0 0 0 0 0 ...
##  $ sp.18      : int  0 1 2 3 1 3 0 0 2 0 ...
##  $ sp.19      : int  0 0 2 2 3 0 0 2 0 1 ...
##  $ sp.20      : int  0 3 0 0 0 4 0 2 0 0 ...
##  $ sp.21      : int  0 1 3 4 2 1 3 3 3 2 ...
##  $ sp.22      : int  1 2 1 2 2 2 1 2 2 2 ...
##  $ sp.23      : int  1 0 1 2 1 1 2 1 2 1 ...
##  $ sp.24      : int  1 1 0 2 1 2 0 1 1 1 ...
##  $ sp.25      : int  0 1 0 2 0 1 1 0 0 1 ...
##  $ sp.26      : int  2 2 1 0 1 1 2 1 1 1 ...
##  $ sp.27      : int  0 0 0 0 0 0 3 0 0 0 ...
##  $ sp.28      : int  1 0 0 0 0 0 0 0 0 2 ...
##  $ sp.29      : int  0 0 0 0 1 0 0 0 0 0 ...
##  $ sp.30      : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ sp.31      : int  0 5 0 0 0 0 1 0 0 0 ...
##  $ sp.32      : int  1 1 1 0 1 1 1 0 1 1 ...
##  $ sp.33      : int  0 0 0 0 1 0 0 0 1 0 ...
##  $ sp.34      : int  0 0 0 0 1 0 0 0 0 0 ...

especies <- dados[,7:40]
#binary = TRUE, considerar dados presença e ausência
dist.jac <- vegdist(especies, method = "jaccard", binary = TRUE)
#o resultado do NMDS apresenta valor de stress, e deve ser < 0.2
resultado <- metaMDS(dist.jac, trymax = 100)

## Run 0 stress 0.1837046 
## Run 1 stress 0.1791307 
## ... New best solution
## ... Procrustes: rmse 0.04673197  max resid 0.1923869 
## Run 2 stress 0.1832239 
## Run 3 stress 0.1837048 
## Run 4 stress 0.1791306 
## ... New best solution
## ... Procrustes: rmse 0.0002477273  max resid 0.001030112 
## ... Similar to previous best
## Run 5 stress 0.2185703 
## Run 6 stress 0.2029771 
## Run 7 stress 0.2269343 
## Run 8 stress 0.2135807 
## Run 9 stress 0.1825413 
## Run 10 stress 0.2135807 
## Run 11 stress 0.1790043 
## ... New best solution
## ... Procrustes: rmse 0.006748202  max resid 0.0274726 
## Run 12 stress 0.206969 
## Run 13 stress 0.1790043 
## ... New best solution
## ... Procrustes: rmse 0.0001197399  max resid 0.0004843339 
## ... Similar to previous best
## Run 14 stress 0.2222003 
## Run 15 stress 0.2184139 
## Run 16 stress 0.2204343 
## Run 17 stress 0.2002091 
## Run 18 stress 0.1837046 
## Run 19 stress 0.1958075 
## Run 20 stress 0.1825411 
## *** Solution reached

#Através da visualização no NMDS podemos ver a separação das UA por meio da variável Ambiente. "Separação visual subjetiva".
plot(resultado, type = "t")

## species scores not available

#adicionando polígonos na análise de ordenação
ordihull(resultado, groups = Ambiente, show = "Mata_Primária", col="green4")
ordihull(resultado, groups = Ambiente, show = "Mata_Secundária", col="blue")

#Temos a variável Ambiente
#Será que o padrão de distâncias dentro das classes ("Mata_Primária" e "Mata_Secundária") é menor que entre as classes?
#Se os padrões de grupos visualizados no NMDS forem reais. Isto implica que a distância média entre UA do mesmo grupo deveria ser menor que a distância média de UA de um grupo para o outro.
#A lógica da ANOSIM é a de permutar a matriz de distância, com os dados rankeados, gerando os valores das classes ao acaso. Portanto se o resultado da matriz original for muito improvável de ser encontrado ao acaso, rejeitamos a hipótese nula, e aceitamos que de fato existe uma associação entre as classes ou grupos com a matriz de distâncias. Como o NMDS é a representação da matriz de distâncias, pode-se utilizar o NMDS para representar os resultados da ANOSIM, o mesmo vale para um Cluster.
#Pode-se utilizar para Matrizes de Distâncias criadas pelos Métodos: Euclidiano, Jaccard e Bray-Curtis.
anosim(dist.jac, Ambiente, permutations = 10000)

## 
## Call:
## anosim(x = dist.jac, grouping = Ambiente, permutations = 10000) 
## Dissimilarity: binary jaccard 
## 
## ANOSIM statistic R: 0.5594 
##       Significance: 9.999e-05 
## 
## Permutation: free
## Number of permutations: 10000

#O output traz o valor de correlação, R: 0.5594, este valor foi maior que do teste PERMANOVA, pois provavelmente, após rankear os dados as diferenças na matriz de distância diminuiram, aumentando a correlação. A Significance: 9.999e-05 é o valor de p do teste ANOSIM.

MODULO 5 - Estatística Multivariada - ANOSIM - Análise de Similaridade

Leonardo Reffatti

17 de maio de 2019

Aula 5.23

ANOSIM - teste de permutação de uma matriz de distância envolvendo uma variável categórica, com rankeamento dos dados