Teste qui-quadrado - Tópicos finais

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula20_est212.R".
Baixe do Moodle o arquivo peso_gestacao.csv.
Leia o arquivo listado acima para o objeto peso.

Tópicos sobre o teste qui-quadrado

Na última aula estudamos o teste qui-quadrado e a possibilidade de testar se duas variáveis são significativas.

Nessa aula, estudaremos mais uma aplicação do teste qui-quadrado, suas limitações e alternativas.

Teste qui-quadrado de aderência

Podemos utilizar o teste qui-quadrado para verificar a aderência de uma variável a uma determinada distribuição de probabilidade.

A aderência indica que a amostra em estudo é advinda de uma determinada população, com uma dada distribuição de probabilidades.

Esse teste é semelhante ao teste de normalidade. Entretanto, diferente do teste de normalidade, é necessário conhecer os quantis da distribuição. Por esse motivo, é bastante utilizado em distribuições discretas.

A técnica utilizada é a mesma, a comparação de valores observados e esperados.

Porém, não mais se compara uma tabela de contingência, e sim dois vetores de valores observados e esperados.

Teste qui-quadrado de aderência

O teste de aderência testa as seguintes hipóteses:

\(H_0\): Os dados observados provém da distribuição teórica.

\(H_1\): Os dados observados não provém da distribuição teórica.

Ou seja, se trata de um teste de homogeneidade. Se não rejeitamos a hipótese nula, concluímos que os dados observados são homogêneos com a distribuição teórica, ou com a população de referência. Caso contrário, conclui-se que há diferenças entre as distribuições, e consequentemente, entre as populações em estudo.

Para entender melhor, vamos aplicar o teste a um exemplo.

Exemplo - Criação de ratos

Em um experimento de criação de ratos, um geneticista tentou manipular o código genético de ratos para variar características de pelagem e cor dos olhos. Após o experimento, ele obteve 120 ratos marrons de olhos rosa, 48 ratos marrons de olhos castanhos, 36 ratos brancos com olhos rosa e 13 ratos brancos com olhos castanhos.

A teoria prediz que tais combinações de pelo e olhos são obtidos, respectivamente, nas proporções 56,25%, 18,75%, 18,75%, 6,25%.

Teste, ao nível de 5% de significância, se houve uma variação significativa da características dps ratos durante o experimento.

Exemplo - Criação de ratos

Foram gerados 217 ratos, conforme listado acima. Se as proporções teóricas fossem observadas, em 217 ratos teríamos os seguintes valores esperados, em comparação com os observados:

Pelo/Olhos	Marrom/Rosa	Marrom/Castanho	Branco/Rosa	Branco/Castanho
Valores esperados	122	41	41	14
Valores observados	120	48	38	13

Queremos testar as seguintes hipóteses:

\(H_0\): Houve mudança significativa nas características dos ratos.
\(H_1\): Não houve mudança significativa nas características dos ratos.

Vamos realizar o teste qui-quadrado para concluir sobre as hipóteses.

Exemplo - Criação de ratos

Nesse caso, como são dois vetores separados, utilizamos a função chisq.test(x, y), em que x e y são os vetores em análise.

#Entrada dos dados no R
observados <- c(120, 48, 38, 13)
esperados <- c(122, 41, 41, 14)

chisq.test(x = observados, y = esperados)


    Pearson's Chi-squared test

data:  observados and esperados
X-squared = 8, df = 6, p-value = 0.2381

Como o p-valor é maior que o nível de significância, temos evidências que nos levam a não rejeitar a hipótse nula, ao nível de 5%. Logo, o experimento genético não foi exitoso na alteração das características dos ratos.

Limitações do teste qui-quadrado

O teste qui-quadrado é uma excelente opção para testar se duas variáveis nominais estão associadas.

Entretanto, o teste apresenta algumas limitações:

O teste determina apenas a relação entre as variáveis, não a causalidade.
O teste é sensível ao tamanho da amostra. amostras muito grandes podem fazer diferenças pequenas serem consideradas estatisticamente significativas.
O teste é pouco confiável quando a tabela de contingência apresenta mais de 20% das frequências menores do que 5.

Dentre essas limitações, a terceira pode ser contornada com o uso do Teste Exatod e Fisher.

Teste Exato de Fisher

O Teste Exato de Fisher é uma versão alternativa ao teste qui quadrado.

Ao invés de aproximar a estatística de teste por uma distribuição qui-quadrado, ele calcula a distribuição exata de todas as possíveis combinações de níveis.

Por se tratar de um teste exato, em grandes amostras ele demanda uma quantidade muito grande de cálculos. Por esse motivo, geralmente é aplicado em pequenas amostras, ou quando observa-se mais de 20% das frequências da tabela de contingência iguais ou menores que 5.

Sua definição matemática é ainda mais complexa que a do teste qui-quadrado, portanto não a apresentaremos. Veremos apenas como executá-la no R.

Teste Exato de Fisher

Assim como o teste qui-quadrado, o teste exato de Fisher testa as seguintes hipóteses:

\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes

Sua aplicação é realizada por meio da função fisher.test(x), em que x é uma tabela de contingência.

Vamos refazer o exemplo da última aula, dos bebês de baixo peso com mães fumantes.

Exemplo - Associação entre hipertensão durante a gestação e baixo peso

Vamos nos recordar que, em nossa tabela de contingência, haviam frequências baixas. Uma delas igual a 5:

	Mãe hipertensa	Mãe saudável	Sum
Baixo peso	7	52	59
Peso normal	5	125	130
Sum	12	177	189

Nesse caso, o teste exato de Fisher é mais adequado.

Exemplo - Associação entre hipertensão durante a gestação e baixo peso

Vamos testar as hipóteses ao nível de 5% de significância usando o teste exato de Fisher. Vamos testar as seguintes hipóteses:

\(H_0:\) Não há nenhuma associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (são independentes).
\(H_1:\) Existe associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (não são independentes).

#Tabela de contingência
tab_peso_hiper <- table(peso$peso, peso$hipert)
fisher.test(tab_peso_hiper)


    Fisher's Exact Test for Count Data

data:  tab_peso_hiper
p-value = 0.05161
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.8679484 13.9894703
sample estimates:
odds ratio 
  3.340866

Como o p-valor é maior que o nível de significância, mantemos a mesma conclusão do teste qui-quadrado. Não há associação entre hipertensão materna e baixo peso do recém nascido.
Note que o p-valor foi menor que o obtido no teste qui-quadrado, que foi 0,07625.

Escolha do teste de hipóteses adequado

Com isso, encerramos nossa disciplina. Para finalizar, vamos verificar um diagrama que pode ser utilizado para a escolha do teste de hipóteses adequado para cada situação.

O diagrama pode ser acessado clicando AQUI.