Para fazer o teste Qui-quadrado de independência no
R, basta utilizar a função
chisq.test() do pacote base stats. Essa
função tem o seguinte argumento:
A função chisq.test retorna as seguintes saídas:
Suponha que uma empresa de alimentos está interessada em entender se a preferência por diferentes tipos de snacks (Salgadinhos, Biscoitos e Doces) varia entre dois grupos etários (Jovens e Adultos). Eles conduziram uma pesquisa com 150 pessoas e registraram suas preferências:
Considere o teste qui-quadrado de independência com um nível de significância de 5%?
Inicialmente, precisamos construir no R a tabela
de contingência. Seguem os comandos:
Tabela = matrix(c(35, 25, 20, 15,30,25), nrow = 2, byrow = TRUE,
dimnames = list("Grupo Etário" = c("Jovens", "Adultos"),
"Tipo de Snacks" = c("Salgadinhos", "Biscoitos","Doces")))
Tabela
## Tipo de Snacks
## Grupo Etário Salgadinhos Biscoitos Doces
## Jovens 35 25 20
## Adultos 15 30 25
Com a tabela construída, tem-se o seguinte comando
no R para a execução do teste:
Qui = chisq.test(x=Tabela)
Qui
##
## Pearson's Chi-squared test
##
## data: Tabela
## X-squared = 8.3807, df = 2, p-value = 0.01514
Caso você queira ver os valores esperados, sob a hipótese nula, faça o seguinte comando:
Qui$expected
## Tipo de Snacks
## Grupo Etário Salgadinhos Biscoitos Doces
## Jovens 26.66667 29.33333 24
## Adultos 23.33333 25.66667 21
Não há problemas nos valores esperados e, portanto, as suposições para a realização do teste foram validadas. Com um p-valor de 0,01514 rejeita-se a hipótese nula. Assim, há evidências de que o grupo etário e o tipo de snack estão associados.
Lembre-se que o teste exato de Fisher é um teste
utilizado quando as suposições do teste qui-quadrado de
independência não são atendidas para o caso 2x2,
principalmente. Para tabelas maiores que 2x2, o teste
exato de Fisher ainda pode ser utilizado mas,
dependendo do tamanho da tabela, pode ter um custo computacional
muito elevado. Para fazer o teste exato de
fisher, basta utilizar a função
fisher.test do pacote base stats. Essa função
tem o seguinte argumento:
A função fisher.test retorna a seguinte saída:
Imagine que um biólogo está estudando se há uma associação entre a espécie de planta (A ou B) e a presença de um determinado tipo de inseto. Ele coleta amostras de duas espécies de plantas em uma área de pesquisa e observa se o inseto está presente ou ausente em cada uma delas. A tabela a seguir mostra o número de vezes que ele encontrou o inseto presente ou ausente para cada espécie de planta:
Prove que o teste qui-quadrado de independência não pode ser utilizado e, na sequência, recorra ao teste exato de Fisher com um nível de significância de 5%.
Inicialmente, precisamos construir no R a tabela
de contingência. Seguem os comandos:
Tabela = matrix(c(5, 8, 2, 10), nrow = 2, byrow = TRUE,
dimnames = list("Espécie" = c("A", "B"),
"Inseto" = c("Presença","Ausência")))
Tabela
## Inseto
## Espécie Presença Ausência
## A 5 8
## B 2 10
Com a tabela construída tem-se o seguinte comando no R
para o teste qui-quadrado de independência e a obtenção dos
valores esperados, sob a hipótese nula.
Qui = chisq.test(x=Tabela)
Qui
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: Tabela
## X-squared = 0.58792, df = 1, p-value = 0.4432
Qui$expected
## Inseto
## Espécie Presença Ausência
## A 3.64 9.36
## B 3.36 8.64
Note que temos valores esperados menores que 5. No caso 2x2,
todas as caselas devem ter valores esperados maiores ou iguais a
5. Note que o R roda o teste qui-quadrado, mas ele
faz uma correção de Yates (vista no teste McNemar 2x2).
Essa correção era útil naquele contexto apenas. Aqui, a
recomendação é a utilização do teste exato de
Fisher:
Teste = fisher.test(x=Tabela)
Teste
##
## Fisher's Exact Test for Count Data
##
## data: Tabela
## p-value = 0.3783
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.363132 39.390335
## sample estimates:
## odds ratio
## 2.985191
Com um p-valor de 0,3783 não rejeita-se a hipótese nula. Assim, há evidências de que A espécie de planta e a presença do inseto não estão associados.
Para fazer o teste U de Mann-Whitney no
R, basta utilizar a função
wilcox.test do pacote base do R. Ressalta-se
que essa função precisa do argumento
paired=F para que o teste com duas amostras
independentes seja realizado. A função tem os seguintes
argumentos:
Com base na distribuição dos postos e no número de observações, você pode usar tabelas de referência do teste U de Mann-Whitney ou simulações para determinar os percentis desejados (por exemplo, 95%). O intervalo de confiança é formado por valores que correspondem a esses postos em relação à amostra original, indicando os limites inferior e superior do intervalo de confiança para a diferença das medianas populacionais.
A função wilcox.test retorna as seguintes saídas:
O pesquisador deseja comparar duas marcas de fertilizantes (Marca A e Marca B) e seu efeito no crescimento de plantas. O pesquisador coleta dados de crescimento (em centímetros) de 6 plantas para a Marca A e 7 plantas para a Marca B após 4 semanas e obteve os seguintes resultados:
Marca A (\(n_1=6\)): 78, 85, 83, 74, 88 e 90\ Marca B (\(n_2=7\)): 82, 79, 76, 81, 77, 80 e 78
Utilize o teste U de Mann-Whitney para testar se as medianas de crescimento das plantas das duas marcas são diferentes. Considere um \(\alpha=5\%\)
O teste é bilateral e utilizaremos \(\alpha=5\%\). Os comandos a seguir fazem o teste:
MarcaA= c(78, 85, 83, 74, 88,90)
MarcaB = c(82, 79, 76, 81, 77, 80, 78)
Teste = wilcox.test(x=MarcaA,
y=MarcaB,
alternative = "two.sided",
paired=F,
conf.int=T,
conf.level=0.95)
Teste
##
## Wilcoxon rank sum test with continuity correction
##
## data: MarcaA and MarcaB
## W = 30.5, p-value = 0.1979
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
## -3.000035 10.000000
## sample estimates:
## difference in location
## 5.000047
Note que o teste foi executado de maneira corrigida (houve empates). Assim, com um valor-p de 0,1979, não rejeita-se a hipótese nula. Há evidencias de que não houve diferença na performance dos dois fertilizantes.
Consulte a lista prática com os exercícios de 1 a 4.