Teste Exato de Fisher

Gabriel Taveira Jéssica Tifanny Luan Augusto

Sumário

  • Introdução ao Teste Exato de Fisher
  • Razão de Chance (Odds-Ratio)
  • P-valor e mid-p
  • Procedimento do teste
  • Exemplo prático no R

Definição do Teste Exato de Fisher

O Teste Exato de Fisher foi inicialmente proposto por Ronald Fisher em 1966 e serve como uma alternativa ao Teste Qui-Quadrado, que possui uma restrição de ser mais funcional quando utilizado para amostras grandes já que o teste utiliza da Distribuição Qui-Quadrado Aproximada.

Quando usar o Teste Exato de Fisher

O Teste Exato de Fisher é apropriado quando:

  • Os dados são categóricos e dispostos em tabela 2x2.

  • As amostras são pequenas.

  • Nenhuma observação possui valor esperado menor que 1 e pelo menos 20% das observações possuem valor esperado menores do que 5.

  • Deseja-se avaliar a independência entre duas variáveis.

  • Os totais de linhas e colunas são fixados para a realização do estudo.

Tabela de Contingência 2x2 para o Teste Exato de Fisher

SIM NÃO Total
A \[ a \] \[ b \] \[ a+b \]
B \[ c \] \[ d \] \[ c+d \]
Total \[ a+c \] \[ b+d \] \[ n \]

Razão de Chance (Odds-Ratio)

A razão de chance (odds ratio) é uma medida da força da associação entre duas variáveis em uma tabela 2x2 e pode assumir apenas valores não negativos. O Estimador de Máxima Verossimilhança não Condicional para a Razão de Chance é dado por:

\[\hat{\theta}_{EMV} = \frac{a/b}{c/d}\]

Alternativamente, a fórmula pode ser simplificada como: \[\hat{\theta}_{EMV} = \frac{a \cdot d}{b \cdot c}\]

EMV para o Odds-Ratio Modificado

Haldane (1956) e Gart e Zweifel (1967) sugerem adicionar uma correção de 0,5 em cada uma das observações, visto que o Odds-Ratio pode ser igual a zero quando \(a\) ou \(d\) forem zero, ou pode ser infinito, caso \(b\) ou \(c\) for igual a zero. A expressão para o Estimador de Máxima Verossimilhança Modificado para o Odds-Ratio é dado por:

\[ \hat{\theta}_{EMVM}=\frac{(a+0,5) \cdot (d+0,5)}{(b+0,5) \cdot (c+0,5)} \]

Intervalo de confiança para o Odds Ratio

Para amostras pequenas, a distribuição amostral do Odds-Ratio é assimétrica, então é utilizado como alternativa, porém equivalente, o logaritmo natural do Odds-Ratio, que possui distribuição simétrica e a hipótese nula é centrada no zero. Visto que \(H_0:\theta=1\) então \(H_0:ln(\theta)=0\).

Intervalo de confiança para o log-Odds Ratio

De acordo com Agresti (2002), a distribuição de \(ln(\hat{\theta})\) é aproximadamente normal com seguinte média e variância:

\[ \mu(\hat{\theta})=ln(\theta)\\Var(\hat{\theta})=\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d} \]

E o intervalo de confiança para \(ln(\theta)\) será de:

\[ IC\left[ln(\theta);(1-\alpha)\%\right]=\left[ln(\hat{\theta})\pm z_{\alpha/2}\sqrt{\hat{Var}(\hat{\theta})}\right] \]

Intervalo de confiança para o Odds Ratio

Após encontrar os limites inferior e superior do intervalo de confiança para \(ln(\theta)\), aplica-se a função exponencial para encontrar o intervalo de confiança para \(\theta\):

\[ \left[exp\{ln(\hat{\theta})+ z_{\alpha/2}\sqrt{\hat{Var}(\hat{\theta})}\};exp\{ln(\hat{\theta})- z_{\alpha/2}\sqrt{\hat{Var}(\hat{\theta})}\}\right] \]

P-valor e Mid-p

O mid-p e o p-valor são ambos usados em testes estatísticos para avaliar a significância de resultados, mas eles são calculados de maneiras diferentes e têm propósitos distintos.

P-valor

  • O p-valor é a probabilidade de observar um resultado tão extremo quanto o observado (ou mais extremo) se a hipótese nula for verdadeira.

  • Para calcular o p-valor, você assume que a hipótese nula é verdadeira e calcula a probabilidade de obter um resultado igual ou mais extremo do que o observado. Essa probabilidade é calculada usando a distribuição da estatística de teste sob a hipótese nula.

P-valor Central

Segundo Conover (1999), o P-valor central é definido como 2 vezes o menor valor entre os valores maiores e menores que o observado. \[p_{central}= 2 \cdot min(P(T\leq x),P(T\geq x))\]

P-valor através da Mínima Versossimilhância (Minlike)

Segundo Agresti (2002), o método usual bilateral do teste exato de Fisher define o valor-p como a soma das probabilidades das tabelas com menor verossimilhança do que a tabela observada. Ele consistem em somar todas as probabilidades \(p(k) = Pr(T= k)\) para todos os \(k\) tais que \(p(k) \leq p(t)\), em que \(t\) é o valor observado na tabela.

Mid-p

  • O mid-p é uma modificação do p-valor que visa lidar com alguns problemas relacionados a pequenas amostras ou com dados discretos. Ele é particularmente útil em testes exatos, como o teste exato de Fisher.

  • O mid-p adiciona apenas metade da probabilidade do valor observado à probabilidade dos valores mais extremos.

  • Em resumo, o mid-p é uma alternativa ajustada menos conservadora que pode ser mais apropriada para determinados tipos de dados e contextos, como para o Teste Exato de Fisher.

Procedimento

  • Os dados são organizados em uma tabela de contingência \(2 \times 2\), onde as células contêm as frequências observadas para duas variáveis categóricas.

  • Utiliza-se a fórmula específica para calcular a probabilidade exata da distribuição observada dos dados. A fórmula para a probabilidade exata, baseada na distribuição hipergeométrica, é:

\[ P = \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a! \, b! \, c! \, d! \, n!} \]

Teste de Hipóteses

  • Bilateral

    \(H_0 : \theta = 1\) (As proporções observadas nos dois grupos são iguais, indicando independência e ausência de associação entre os grupos.)

    \(H_1 : \theta \neq 1\) (As proporções são diferentes nos dois grupos.)

Teste de Hipóteses

  • Unilateral à direita

    \(H_0 : \theta = 1\)

    \(H_1 : \theta > 1\) (O grupo A apresenta uma maior proporção da característica de interesse em comparação ao grupo B.)

  • Unilateral à esquerda

    \(H_0 : \theta = 1\)

    \(H_1 : \theta < 1\) (O grupo B apresenta uma maior proporção da característica de interesse em comparação ao grupo A.)

Exercício 2.30 e 2.31 - Agresti, A. (2002)

2.30. A tabela abaixo contém os resultados de um estudo comparando radioterapia com cirurgia no tratamento de câncer de laringe. Use o teste exato de Fisher para testar \(H_0: \theta = 1\) contra \(H_a: \theta > 1\). Interprete os resultados.

Dados do Exercício 2.30 do Agresti (2002)
Câncer Controlado Câncer Não Controlado
Cirurgia 21 2
Radioterapia 15 3

Exercício 2.30 e 2.31 - Agresti, A. (2002)

2.31. Consulte o exercício anterior.

a. Obtenha e interprete um valor-p exato bilateral.

b. Obtenha e interprete o mid-p unilateral. Dê vantagens deste tipo de valor-p, em comparação com o comum.

Resolução

Possíveis configurações da Tabela 2
a b c d
23 0 13 5
22 1 14 4
21 2 15 3
20 3 16 2
19 4 17 1
18 5 18 0

Aplicação no R

Primeiro iremos carregar a base de dados

library(exact2x2)
tabela<-matrix(c(21,15,2,3),2,2,dimnames=list(c("Cirurgia","Radioterapia"),c("Cancer Contolado","Cancer nao controlado")))
## Visualizar a tabela de contingencia
print(tabela)
             Cancer Contolado Cancer nao controlado
Cirurgia                   21                     2
Radioterapia               15                     3

Aplicação no R

2.30. Teste Exato de Fisher para testar \(H_0:\theta=1\) vs \(H_1:\theta>1\).

fisher.exact(tabela,alternative = "greater")

    One-sided Fisher's Exact Test

data:  tabela
p-value = 0.3808
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
 0.2864828       Inf
sample estimates:
odds ratio 
  2.061731 

Segunda maneira:

probs <- mapply ( dhyper, x = 18:23 , m = 36 , n = 5 , k = 23)
sum(probs[4:6])
[1] 0.3808337

Aplicação no R

2.31.a. Teste Exato de Fisher para testar \(H_0:\theta=1\) vs \(H_1:\theta \neq 1\).

fisher.exact(tabela)

    Two-sided Fisher's Exact Test (usual method using minimum likelihood)

data:  tabela
p-value = 0.6384
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.2865 18.4388
sample estimates:
odds ratio 
  2.061731 

Aplicação no R

fisher.exact(tabela,tsmethod = "central")

    Central Fisher's Exact Test

data:  tabela
p-value = 0.7617
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.2089115 27.5538747
sample estimates:
odds ratio 
  2.061731 

Segunda maneira:

# p-valor minlike
sum(probs[probs <= probs[4]])
[1] 0.6384258
# p-valor central
2*min(sum(probs[1:4]),sum(probs[4:6]))
[1] 0.7616674

Aplicação no R

2.31.b. Utilizando o mid-p

fisher.exact(tabela,alternative = "greater", midp = T)

    One-sided Fisher's Exact Test (mid-p version)

data:  tabela
p-value = 0.2431
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
 0.3829208       Inf
sample estimates:
odds ratio 
  2.061731 

Segunda maneira:

sum(probs[5:6])+0.5*probs[4]
[1] 0.2430911

Conclusão

O Teste Exato de Fisher é uma ferramenta estatística poderosa para a análise de dados categóricos em amostras pequenas. O p-valor e o mid-p fornecido pelo teste ajuda a determinar se a associação observada é significativa, e a razão de chance fornece uma medida da força da associação. A interpretação cuidadosa dos resultados é crucial para tirar conclusões válidas e significativas.

Referências

  • Agresti, A. (2002). Categorical Data Analysis. John Wiley & Sons.

  • Fisher, R.A. (1922). On the Interpretation of Chi-Square from Contingency Tables, and the Calculation of P. Journal of the Royal Statistical Society, 85(1), 87-94.

  • Conover, W. J. (1999). Practical nonparametric statistics. John Wiley & Sons, Inc.

  • RAWEESAWAT, K. et al. Odds Ratios Estimation of Rare Event in Binomial Distribution. Journal of Probability and Statistics, v. 2016, p. 1–8, 2016.

Obrigado(a)! Dúvidas?