#Teste de Kruskal-Wallis para comparação de populações
kruskal.test(comprimento_bico ~ ilha, data = penguins)
Kruskal-Wallis rank sum test
data: comprimento_bico by ilha
Kruskal-Wallis chi-squared = 52.438, df = 2, p-value = 4.103e-12
EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula17_est212.R"
.
Baixe do Moodle o arquivo penguins.csv
.
Leia o arquivo listado acima para o objetos penguins
.
Vamos retomar o exemplo da nossa última aula. Analisamos o comprimento de bicos de penguins por ilha. Nossas hipóteses eram:
\(H_0\) - O comprimento mediano dos bicos de penguins é igual independente da ilha.
\(H_1\) - O comprimento mediano dos bicos de penguins é diferente dos demais em pelo menos uma das ilhas.
#Teste de Kruskal-Wallis para comparação de populações
kruskal.test(comprimento_bico ~ ilha, data = penguins)
Kruskal-Wallis rank sum test
data: comprimento_bico by ilha
Kruskal-Wallis chi-squared = 52.438, df = 2, p-value = 4.103e-12
Como o p-valor é menor que o nível de significância, podemos afirmar, ao nível de 5% de significância, que em pelo menos uma das ilhas os penguins apresentam um comprimento de bico maior.
Concluímos que em pelo menos uma das ilhas, o comprimento mediano de bico dos penguins difere dos demais. Entretanto, assim como na ANOVA, é necessário identificar onde essas diferenças residem.
Vejamos a seguir o boxplot dos comprimentos de bico por ilha.
É possível perceber que os penguins da ilha Torgersen possuem comprimentos de bico menores que os demais. Mas existem diferenças entre os penguins das ilhas Biscoe e Dream?
Assim como na ANOVA, após identificarmos que pelo menos um dos grupos apresenta mediana diferente das demais, é necessário analisar onde residem as diferenças.
Na ANOVA, utilizamos o teste de Tukey para realizar as comparações múltiplas. Em métodos não paramétricos, existem alguns testes que podem ser aplicados nesses casos.
Para concluir sobre as diferenças após a realização do teste de Kruskal-Wallis, utilizaremos o Teste de Dunn.
O teste de Dunn é utilizado para realizar comparações múltiplas em dados que não atendem aos pressupostos da ANOVA.
Seu cálculo é baseado no rank médio das observações em cada grupo, corrigido pelo número de empates.
Sua formulação é complexa e não é o foco de nosso curso. Interessados poderão obter mais informações sobre o teste em DINNO (2017).
Vamos nos ater ao seu uso no R.
O teste de Dunn não está implementado na base do R. Para utilizá-lo, precisaremos carregar o pacote FSA
.
O teste de Dunn está implementado na função dunnTest(formula, data = dados)
, ou seja, ele utiliza os mesmos parâmetros do teste de Kruskal-Wallis:
formula
- fórmula habitual, do tipo variável ~ grupo
.
dados
- representa o conjunto de dados em estudo.
As hipóteses são definidas por pares (sempre com \(i \neq j\)) :
\(H_0\): Os grupos i e j apresentam a mesma mediana
\(H_1\): Os grupos i e j apresentam mediana diferente.
Sua interpretação é análoga ao teste de Tukey. Vamos ver sua aplicação em nosso exemplo dos penguins.
Vimos que em pelo menos uma das ilhas, existem diferenças entre os comprimentos de bico. A análise descritiva indicava que a ilha Torgersen apresentava uma mediana diferente.
Vejamos o que o teste indica:
#Instalação do pacote FSA
#install.packages("FSA")
#Carregamento do pacote FSA
library(FSA)
#Teste de Dunn para comparações múltiplas
dunnTest(comprimento_bico ~ ilha, data = penguins)
Comparison Z P.unadj P.adj
1 Biscoe - Dream 1.556553 1.195766e-01 1.195766e-01
2 Biscoe - Torgersen 7.201864 5.939475e-13 1.781842e-12
3 Dream - Torgersen 5.817166 5.985385e-09 1.197077e-08
Comparison | Z | P.unadj | P.adj |
---|---|---|---|
Biscoe - Dream | 1.557 | 0.1196 | 0.1196 |
Biscoe - Torgersen | 7.202 | 5.939e-13 | 1.782e-12 |
Dream - Torgersen | 5.817 | 5.985e-09 | 1.197e-08 |
Podemos concluir que:
Não há diferenças no comprimento de bico entre as ilhas Biscoe e Dream.
Na ilha Torgersen, os comprimentos de bico são diferentes das demais.
Agora sim, podemos estender a conclusão amostral para toda a população. Penguins da ilha Torgersen possuem bicos menores que os das demais ilhas.
Na aula passada, analisamos o comprimento de bicos por espécie de penguim. Vamos rever os resultados:
Verificamos que existem diferenças entre os comprimentos de bico por espécie.
O boxplot nos dá uma indicação visual de que os penguins da espécie Adelie tem um bico mais curto.
#Teste de Kruskal-Wallis - Comprimento de bico por espécie
kruskal.test(comprimento_bico ~ especie, data = penguins)
Kruskal-Wallis rank sum test
data: comprimento_bico by especie
Kruskal-Wallis chi-squared = 244.14, df = 2, p-value < 2.2e-16
Agora que conhecemos o teste de Dunn, podemos verificar em que espécies reside essa diferença.
O teste de Dunn fará comparações 2 a 2. As hipóteses do teste são as seguintes:
O comprimento mediano do bico dos penguins da espécie i é igual ao da espécie j.
O comprimento mediano do bico dos penguins da espécie i é diferente ao da espécie j.
Nesse caso temos \(i = j = \{Adelie, ~Chinstrap, ~Gentoo\}\) e \(i\neq j\).
A seguir apresentaremos o resultado do teste, ao nível de 5% de significância.
#Teste de Dunn para o comprimento de bicos de penguins por espécie
dunnTest(comprimento_bico ~ especie, data = penguins)
Comparison Z P.unadj P.adj
1 Adelie - Chinstrap -12.753511 2.980163e-37 5.960326e-37
2 Adelie - Gentoo -13.135630 2.057716e-39 6.173147e-39
3 Chinstrap - Gentoo 1.767498 7.714481e-02 7.714481e-02
Podemos concluir, ao nível de 1% de significância, que:
Existem diferenças entre o comprimento de bico da espécie Adelie para as demais.
Não existem diferenças no comprimento mediano dos bicos das espécies Gentoo e Chinstrap (p-valor 0,0771).
Com isso, concluimos a análise dos dados dos penguins.
Com o teste de Dunn, encerramos a parte da estatística não paramétrica que trata de dados em escala ordinal. Vimos os seguintes testes:
Teste de Wilcoxon - Comparação de medianas para uma amostra e para duas amostras pareadas.
Teste de Mann-Whitney - Comparação de medianas para duas amostras independentes.
Teste de Kruskal-Wallis - Comparação de medianas para 3 ou mais amostras independentes.
Teste de Dunn - Complementação para o teste de Kruskal-Wallis para comparações múltiplas.
A partir da próxima aula, trataremos de testes para dados em escala nominal.
Utilize o conjunto de dados penguins
para realizar as seguintes análises e os testes de Kruskal-Wallis e Dunn para verificar se existem diferenças de peso entre os penguins por espécie e ilha. Para tal, realize os seguintes procedimentos:
Analise o boxplot referente a cada análise.
Execute o teste de Kruskal-Walis
No caso de diferenças significativas, identifique-as usando o teste de Dunn.
Refaça os exemplos das aulas 16 e 17, desde a análise descritiva até o teste de comparações múltiplas.
Verifique por meio do teste de Kruskal-Wallis se existem diferenças entre os comprimentos de nadadeiras dos penguins por espécie e compare com os resultados obtidos pela ANOVA (Exercício da aula 12)
Utilize o conjunto de dados crescimento de plantas
para verificar se existem diferenças entre os pesos das plantas por grupo. Compare com os resultados obtidos pela ANOVA (Exemplo da aula 12).