ESTATÍSTICA NÃO PARAMÉTRICA

PRÁTICA 4: DUAS AMOSTRAS INDEPENDENTES

\[\\[0.05in]\]

1 TESTE QUI-QUADRADO DE INDEPENDÊNCIA

Para fazer o teste Qui-quadrado de independência no R, basta utilizar a função chisq.test() do pacote base stats. Essa função tem o seguinte argumento:

  • x = tabela de contingência.

A função chisq.test retorna as seguintes saídas:

  • X-squared = Estatística de teste
  • df = graus de liberdade
  • p-value = valor-p

1.1 EXEMPLO: PREFERÊNCIA DE SNACKS

Suponha que uma empresa de alimentos está interessada em entender se a preferência por diferentes tipos de snacks (Salgadinhos, Biscoitos e Doces) varia entre dois grupos etários (Jovens e Adultos). Eles conduziram uma pesquisa com 150 pessoas e registraram suas preferências:

Considere o teste qui-quadrado de independência com um nível de significância de 5%?

Inicialmente, precisamos construir no R a tabela de contingência. Seguem os comandos:

Tabela = matrix(c(35, 25, 20, 15,30,25), nrow = 2, byrow = TRUE,
                 dimnames = list("Grupo Etário" = c("Jovens", "Adultos"),
                                 "Tipo de Snacks" = c("Salgadinhos", "Biscoitos","Doces")))
Tabela
##             Tipo de Snacks
## Grupo Etário Salgadinhos Biscoitos Doces
##      Jovens           35        25    20
##      Adultos          15        30    25

Com a tabela construída, tem-se o seguinte comando no R para a execução do teste:

Qui = chisq.test(x=Tabela)
Qui
## 
##  Pearson's Chi-squared test
## 
## data:  Tabela
## X-squared = 8.3807, df = 2, p-value = 0.01514

Caso você queira ver os valores esperados, sob a hipótese nula, faça o seguinte comando:

Qui$expected
##             Tipo de Snacks
## Grupo Etário Salgadinhos Biscoitos Doces
##      Jovens     26.66667  29.33333    24
##      Adultos    23.33333  25.66667    21

Não há problemas nos valores esperados e, portanto, as suposições para a realização do teste foram validadas. Com um p-valor de 0,01514 rejeita-se a hipótese nula. Assim, há evidências de que o grupo etário e o tipo de snack estão associados.

2 TESTE EXATO DE FISHER

Lembre-se que o teste exato de Fisher é um teste utilizado quando as suposições do teste qui-quadrado de independência não são atendidas para o caso 2x2, principalmente. Para tabelas maiores que 2x2, o teste exato de Fisher ainda pode ser utilizado mas, dependendo do tamanho da tabela, pode ter um custo computacional muito elevado. Para fazer o teste exato de fisher, basta utilizar a função fisher.test do pacote base stats. Essa função tem o seguinte argumento:

  • x = tabela de contingência 2x2.

A função fisher.test retorna a seguinte saída:

  • p-value = valor-p

2.1 EXEMPLO: PRESENÇA DE INSETO

Imagine que um biólogo está estudando se há uma associação entre a espécie de planta (A ou B) e a presença de um determinado tipo de inseto. Ele coleta amostras de duas espécies de plantas em uma área de pesquisa e observa se o inseto está presente ou ausente em cada uma delas. A tabela a seguir mostra o número de vezes que ele encontrou o inseto presente ou ausente para cada espécie de planta:

Prove que o teste qui-quadrado de independência não pode ser utilizado e, na sequência, recorra ao teste exato de Fisher com um nível de significância de 5%.

Inicialmente, precisamos construir no R a tabela de contingência. Seguem os comandos:

Tabela = matrix(c(5, 8, 2, 10), nrow = 2, byrow = TRUE,
                 dimnames = list("Espécie" = c("A", "B"),
                                 "Inseto" = c("Presença","Ausência")))
Tabela
##        Inseto
## Espécie Presença Ausência
##       A        5        8
##       B        2       10

Com a tabela construída tem-se o seguinte comando no R para o teste qui-quadrado de independência e a obtenção dos valores esperados, sob a hipótese nula.

Qui = chisq.test(x=Tabela)
Qui
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Tabela
## X-squared = 0.58792, df = 1, p-value = 0.4432
Qui$expected
##        Inseto
## Espécie Presença Ausência
##       A     3.64     9.36
##       B     3.36     8.64

Note que temos valores esperados menores que 5. No caso 2x2, todas as caselas devem ter valores esperados maiores ou iguais a 5. Note que o R roda o teste qui-quadrado, mas ele faz uma correção de Yates (vista no teste McNemar 2x2). Essa correção era útil naquele contexto apenas. Aqui, a recomendação é a utilização do teste exato de Fisher:

Teste = fisher.test(x=Tabela)
Teste
## 
##  Fisher's Exact Test for Count Data
## 
## data:  Tabela
## p-value = 0.3783
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##   0.363132 39.390335
## sample estimates:
## odds ratio 
##   2.985191

Com um p-valor de 0,3783 não rejeita-se a hipótese nula. Assim, há evidências de que A espécie de planta e a presença do inseto não estão associados.

3 TESTE U DE MANN-WHITNEY

Para fazer o teste U de Mann-Whitney no R, basta utilizar a função wilcox.test do pacote base do R. Ressalta-se que essa função precisa do argumento paired=F para que o teste com duas amostras independentes seja realizado. A função tem os seguintes argumentos:

  • x = vetor com as observações amostrais do primeiro grupo.
  • y = vetor com as observações amostrais do segundo grupo.
  • paired = Se o teste é pareado ou não (T ou F)
  • alternative = direção do teste: “two.sided”, “less”, “greater”.
  • conf.int = valor lógico para que a função solte o intevalo de confiança para a diferença das medianas populacionais.
  • conf.level = nível de confiança do intervalo.

Com base na distribuição dos postos e no número de observações, você pode usar tabelas de referência do teste U de Mann-Whitney ou simulações para determinar os percentis desejados (por exemplo, 95%). O intervalo de confiança é formado por valores que correspondem a esses postos em relação à amostra original, indicando os limites inferior e superior do intervalo de confiança para a diferença das medianas populacionais.

A função wilcox.test retorna as seguintes saídas:

  • W = é o valor do U_x
  • p-value = valor-p
  • alternative hypothesis = hipótese alternativa.
  • percent confidence interval = intervalo de confiança para a diferança das medianas populacionais.
  • sample estimates = estimativa amostral da diferença entre as medianas populacionais.

3.1 EXEMPLO: FERTILIZANTES

O pesquisador deseja comparar duas marcas de fertilizantes (Marca A e Marca B) e seu efeito no crescimento de plantas. O pesquisador coleta dados de crescimento (em centímetros) de 6 plantas para a Marca A e 7 plantas para a Marca B após 4 semanas e obteve os seguintes resultados:

Marca A (\(n_1=6\)): 78, 85, 83, 74, 88 e 90\ Marca B (\(n_2=7\)): 82, 79, 76, 81, 77, 80 e 78

Utilize o teste U de Mann-Whitney para testar se as medianas de crescimento das plantas das duas marcas são diferentes. Considere um \(\alpha=5\%\)

O teste é bilateral e utilizaremos \(\alpha=5\%\). Os comandos a seguir fazem o teste:

MarcaA= c(78, 85, 83, 74, 88,90)
MarcaB = c(82, 79, 76, 81, 77, 80, 78)

Teste  = wilcox.test(x=MarcaA,
                     y=MarcaB,
                     alternative = "two.sided",
                     paired=F,
                     conf.int=T,
                     conf.level=0.95)
Teste
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  MarcaA and MarcaB
## W = 30.5, p-value = 0.1979
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  -3.000035 10.000000
## sample estimates:
## difference in location 
##               5.000047

Note que o teste foi executado de maneira corrigida (houve empates). Assim, com um valor-p de 0,1979, não rejeita-se a hipótese nula. Há evidencias de que não houve diferença na performance dos dois fertilizantes.

4 EXERCÍCIOS

Consulte a lista prática com os exercícios de 1 a 4.