Teste de Kruskal-Wallis - Comparações múltiplas

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

  1. Abra o RStudio.

  2. Crie um novo script.

  3. Crie uma pasta na área de trabalho com seu nome.

  4. Defina a pasta como diretório de trabalho

  5. Salve o script criado na pasta com o nome "aula17_est212.R".

  6. Baixe do Moodle o arquivo penguins.csv.

  7. Leia o arquivo listado acima para o objetos penguins.

Comparação de 3 ou mais Populações Independentes

Vamos retomar o exemplo da nossa última aula. Analisamos o comprimento de bicos de penguins por ilha. Nossas hipóteses eram:

  • \(H_0\) - O comprimento mediano dos bicos de penguins é igual independente da ilha.

  • \(H_1\) - O comprimento mediano dos bicos de penguins é diferente dos demais em pelo menos uma das ilhas.

#Teste de Kruskal-Wallis para comparação de populações
kruskal.test(comprimento_bico ~ ilha, data = penguins)

    Kruskal-Wallis rank sum test

data:  comprimento_bico by ilha
Kruskal-Wallis chi-squared = 52.438, df = 2, p-value = 4.103e-12

Como o p-valor é menor que o nível de significância, podemos afirmar, ao nível de 5% de significância, que em pelo menos uma das ilhas os penguins apresentam um comprimento de bico maior.

Comparação de 3 ou mais Populações Independentes

Concluímos que em pelo menos uma das ilhas, o comprimento mediano de bico dos penguins difere dos demais. Entretanto, assim como na ANOVA, é necessário identificar onde essas diferenças residem.

Vejamos a seguir o boxplot dos comprimentos de bico por ilha.

Comparação de 3 ou mais Populações Independentes

#Boxplot do comprimento de bico por ilha
boxplot(comprimento_bico ~ ilha, data = penguins, 
        xlab = "Ilha", ylab = "Comprimento do bico", 
        col = c("red", "blue", "green"))

É possível perceber que os penguins da ilha Torgersen possuem comprimentos de bico menores que os demais. Mas existem diferenças entre os penguins das ilhas Biscoe e Dream?

Teste de comparações múltiplas

Assim como na ANOVA, após identificarmos que pelo menos um dos grupos apresenta mediana diferente das demais, é necessário analisar onde residem as diferenças.

Na ANOVA, utilizamos o teste de Tukey para realizar as comparações múltiplas. Em métodos não paramétricos, existem alguns testes que podem ser aplicados nesses casos.

Para concluir sobre as diferenças após a realização do teste de Kruskal-Wallis, utilizaremos o Teste de Dunn.

Teste de comparações múltiplas de Dunn

O teste de Dunn é utilizado para realizar comparações múltiplas em dados que não atendem aos pressupostos da ANOVA.

Seu cálculo é baseado no rank médio das observações em cada grupo, corrigido pelo número de empates.

Sua formulação é complexa e não é o foco de nosso curso. Interessados poderão obter mais informações sobre o teste em DINNO (2017).

Vamos nos ater ao seu uso no R.

Teste de comparações múltiplas de Dunn no R

O teste de Dunn não está implementado na base do R. Para utilizá-lo, precisaremos carregar o pacote FSA.

O teste de Dunn está implementado na função dunnTest(formula, data = dados), ou seja, ele utiliza os mesmos parâmetros do teste de Kruskal-Wallis:

  • formula - fórmula habitual, do tipo variável ~ grupo.

  • dados - representa o conjunto de dados em estudo.

As hipóteses são definidas por pares (sempre com \(i \neq j\)) :

  • \(H_0\): Os grupos i e j apresentam a mesma mediana

  • \(H_1\): Os grupos i e j apresentam mediana diferente.

Sua interpretação é análoga ao teste de Tukey. Vamos ver sua aplicação em nosso exemplo dos penguins.

Comparações múltiplas - Comprimento de bico por ilha

Vimos que em pelo menos uma das ilhas, existem diferenças entre os comprimentos de bico. A análise descritiva indicava que a ilha Torgersen apresentava uma mediana diferente.

Vejamos o que o teste indica:

#Instalação do pacote FSA
#install.packages("FSA")

#Carregamento do pacote FSA
library(FSA)

#Teste de Dunn para comparações múltiplas
dunnTest(comprimento_bico ~ ilha, data = penguins)
          Comparison        Z      P.unadj        P.adj
1     Biscoe - Dream 1.556553 1.195766e-01 1.195766e-01
2 Biscoe - Torgersen 7.201864 5.939475e-13 1.781842e-12
3  Dream - Torgersen 5.817166 5.985385e-09 1.197077e-08

Comparações múltiplas - Comprimento de bico por ilha

Comparison Z P.unadj P.adj
Biscoe - Dream 1.557 0.1196 0.1196
Biscoe - Torgersen 7.202 5.939e-13 1.782e-12
Dream - Torgersen 5.817 5.985e-09 1.197e-08

Podemos concluir que:

  • Não há diferenças no comprimento de bico entre as ilhas Biscoe e Dream.

  • Na ilha Torgersen, os comprimentos de bico são diferentes das demais.

Comparações múltiplas - Comprimento de bico por ilha

Agora sim, podemos estender a conclusão amostral para toda a população. Penguins da ilha Torgersen possuem bicos menores que os das demais ilhas.

#Boxplot do comprimento de bico por ilha
boxplot(comprimento_bico ~ ilha, data = penguins, 
        xlab = "Ilha", ylab = "Comprimento do bico", 
        col = c("red", "blue", "green"))

Exemplo - Comprimento de bicos por espécie de penguim

Na aula passada, analisamos o comprimento de bicos por espécie de penguim. Vamos rever os resultados:

# Boxplot - Comprimento de bico por espécie
boxplot(comprimento_bico ~ especie, data = penguins,
        xlab = "Espécie", ylab = "Comprimento de bico", col = "lightblue")

Exemplo - Comprimento de bicos por espécie de penguim

Verificamos que existem diferenças entre os comprimentos de bico por espécie.

O boxplot nos dá uma indicação visual de que os penguins da espécie Adelie tem um bico mais curto.

#Teste de Kruskal-Wallis - Comprimento de bico por espécie
kruskal.test(comprimento_bico ~ especie, data = penguins)

    Kruskal-Wallis rank sum test

data:  comprimento_bico by especie
Kruskal-Wallis chi-squared = 244.14, df = 2, p-value < 2.2e-16

Agora que conhecemos o teste de Dunn, podemos verificar em que espécies reside essa diferença.

Exemplo - Comprimento de bicos por espécie de penguim

O teste de Dunn fará comparações 2 a 2. As hipóteses do teste são as seguintes:

  • O comprimento mediano do bico dos penguins da espécie i é igual ao da espécie j.

  • O comprimento mediano do bico dos penguins da espécie i é diferente ao da espécie j.

Nesse caso temos \(i = j = \{Adelie, ~Chinstrap, ~Gentoo\}\) e \(i\neq j\).

A seguir apresentaremos o resultado do teste, ao nível de 5% de significância.

Exemplo - Comprimento de bicos por espécie de penguim

#Teste de Dunn para o comprimento de bicos de penguins por espécie
dunnTest(comprimento_bico ~ especie, data = penguins)
          Comparison          Z      P.unadj        P.adj
1 Adelie - Chinstrap -12.753511 2.980163e-37 5.960326e-37
2    Adelie - Gentoo -13.135630 2.057716e-39 6.173147e-39
3 Chinstrap - Gentoo   1.767498 7.714481e-02 7.714481e-02

Podemos concluir, ao nível de 1% de significância, que:

  • Existem diferenças entre o comprimento de bico da espécie Adelie para as demais.

  • Não existem diferenças no comprimento mediano dos bicos das espécies Gentoo e Chinstrap (p-valor 0,0771).

Com isso, concluimos a análise dos dados dos penguins.

Conclusão

Com o teste de Dunn, encerramos a parte da estatística não paramétrica que trata de dados em escala ordinal. Vimos os seguintes testes:

  • Teste de Wilcoxon - Comparação de medianas para uma amostra e para duas amostras pareadas.

  • Teste de Mann-Whitney - Comparação de medianas para duas amostras independentes.

  • Teste de Kruskal-Wallis - Comparação de medianas para 3 ou mais amostras independentes.

  • Teste de Dunn - Complementação para o teste de Kruskal-Wallis para comparações múltiplas.

A partir da próxima aula, trataremos de testes para dados em escala nominal.

Exercício Prático

Utilize o conjunto de dados penguins para realizar as seguintes análises e os testes de Kruskal-Wallis e Dunn para verificar se existem diferenças de peso entre os penguins por espécie e ilha. Para tal, realize os seguintes procedimentos:

  1. Analise o boxplot referente a cada análise.

  2. Execute o teste de Kruskal-Walis

  3. No caso de diferenças significativas, identifique-as usando o teste de Dunn.

Exercícios

  1. Refaça os exemplos das aulas 16 e 17, desde a análise descritiva até o teste de comparações múltiplas.

  2. Verifique por meio do teste de Kruskal-Wallis se existem diferenças entre os comprimentos de nadadeiras dos penguins por espécie e compare com os resultados obtidos pela ANOVA (Exercício da aula 12)

  3. Utilize o conjunto de dados crescimento de plantas para verificar se existem diferenças entre os pesos das plantas por grupo. Compare com os resultados obtidos pela ANOVA (Exemplo da aula 12).

Referências

DINNO, A. Package “dunn. Test.” CRAN Repos, v. 10, p. 1–7, 2017.