Esse material traz esclarecimentos sobre o estudo de associação entre dados categóricos. Eu optei por colocar a parte prática antes da parte teórica para irmos direto no assunto. Se necessário e se surgir dúvidas, consultem a parte teórica.
Parte prática
Carregando os pacotes
Gerando a tabela de exemplo
Em um estudo conduzido por Barros e colaboradores, foram analisados todos os 7.392 nascimentos ocorridos em hospitais de Pelotas no ano de 1982. Nesse trabalho, investigou-se o hábito tabagista da mãe durante a gestação como um potencial fator de risco para o baixo peso ao nascer, utilizando uma amostra de 7.226 recém-nascidos. Os dados coletados estão apresentados na Tabela 1.
Código
Baixo peso
Exposição SIM NÃO
Fumante 275 2144
Não-fumante 311 4496
Análise da associação
A hipótese do estudo é se o fato da mãe ser fumante ou não influencia na frequência de ocorrências de baixo peso ao nascer. Para isso, vou utilizar a função do próprio R chamada chisq.test() com o argumento correct = F para a função não aplicar a correção de Yates (ver Tip 1).
Pearson's Chi-squared test
data: tabela
X-squared = 51.819, df = 1, p-value = 6.087e-13
O resultado do qui-quadrado nos mostra que o valor de p é menor do que alfa (geralmente 0.05) e portanto o hábito de fumar esta associado com baixo peso ao nascer.
Apesar de sabermos que os dados não irão violar o pressuposto do valor esperado ser menor do que 5, por causa do número de participantes do estudo, vou mostrar para vocês como encontrar os valores esperados.
Código
Baixo peso
Exposição SIM NÃO
Fumante 196.1713 2222.829
Não-fumante 389.8287 4417.171
Veja na tabela acima, que não existe nenhum valor esperado menor do que 5.
Calculando o risco relativo e odds ratio
Para calcularmos o risco relativo e odds ratio, vamos utilizar a função epi.2by2() do pacote epiR. Vamos inserir na função a tabela utilizada. Para mais informações sobre esse assunto, acesse Seção 2.2.1 e Seção 2.2.2.
Outcome+ Outcome- Total Inc risk *
Exposure+ 275 2144 2419 11.37 (10.13 to 12.70)
Exposure- 311 4496 4807 6.47 (5.79 to 7.20)
Total 586 6640 7226 8.11 (7.49 to 8.76)
Point estimates and 95% CIs:
-------------------------------------------------------------------
Inc risk ratio 1.76 (1.51, 2.05)
Inc odds ratio 1.85 (1.56, 2.20)
Attrib risk in the exposed * 4.90 (3.46, 6.34)
Attrib fraction in the exposed (%) 43.09 (33.56, 51.23)
Attrib risk in the population * 1.64 (0.70, 2.58)
Attrib fraction in the population (%) 20.22 (17.81, 22.69)
-------------------------------------------------------------------
Uncorrected chi2 test that OR = 1: chi2(1) = 51.819 Pr>chi2 = <0.001
Fisher exact test that OR = 1: Pr>chi2 = <0.001
Wald confidence limits
CI: confidence interval
* Outcomes per 100 population units
Intepretando a tabela acima
Vamos entender essa tabela.
As duas primeiras linhas dizem respeito ao risco relativo e odds ratio.
Inc risk ratio ( Risco Relativo) = 1.76
Interpretação: o risco do desfecho (baixo peso ao nascer) é 1,76 vezes maior no grupo exposto (filhos de mães fumantes) em comparação com o grupo não exposto (filhos de mães não fumantes). Veja mais informações sobre essa leitura de interpretação na Seção 2.2.
Intervalo de Confiança (IC 95%): o intervalo de 1.51 a 2.05 indica que, com 95% de confiança, o risco real está entre 1,51 e 2,05 vezes maior no grupo exposto.
Significância estatística: como o intervalo de confiança não inclui o valor 1, esse resultado é estatisticamente significativo. Isso significa que há forte evidência de que a exposição (tabagismo materno) está associada a um aumento no risco da criança nascer com baixo peso.
Inc odds ratio (Razão de Chances ) = 1.85
Interpretação: as chances do desfecho são 1,85 vezes maiores no grupo exposto em comparação com o grupo não exposto.
Intervalo de Confiança (IC 95%): o intervalo de 1.56 a 2.20 mostra que, com 95% de confiança, a razão de chances real está entre 1,56 e 2,20.
Significância estatística: assim como no risco relativo, o intervalo de confiança não inclui o valor 1, indicando que a associação é estatisticamente significativa.
A razão de chances (odds ratio) tende a superestimar o efeito em comparação com o risco relativo, especialmente quando o desfecho não é raro. Por isso, em estudos de coorte ou quando o desfecho é comum (como baixo peso ao nascer), o risco relativo é geralmente preferido para interpretação direta do risco.
Agora, vamos analisar as outras informações da tabela. Veja que são informações adicionais, que podem complementar o seu estudo.
Attrib risk in the exposed (Risco atribuível nos expostos) = 4.90
Interpretação: entre as pessoas expostas (filhos de mães fumantes), a incidência do desfecho (baixo peso ao nascer) é 4,90 casos a mais por 100 indivíduos em comparação com o grupo não exposto.
Attrib fraction in the exposed (%) (Fração Atribuível nos Expostos) = 43,09%
Interpretação: 43,09% dos casos do desfecho nos expostos podem ser atribuídos à exposição (tabagismo materno).
Attrib risk in the population (Risco Atribuível na População) = 1.64
Interpretação: na população geral (incluindo expostos e não expostos), a incidência do desfecho é 1,64 casos a mais por 100 indivíduos devido à exposição (tabagismo materno).
Attrib fraction in the population (%) (Fração Atribuível na População) = 20,22%
Interpretação: 20,22% de todos os casos do desfecho na população geral podem ser atribuídos à exposição (tabagismo materno).
Parte teórica
Na análise estatística, muitas vezes, temos que comparar dois dados categóricos, ou seja, dados em que a variável não é quantitativa, mas sim, qualitativa.
Quando trabalhamos com comparação de variáveis categóricas, avaliamos a associação entre elas. Esses dados são organizados em tabelas chamadas de tabelas de contigências. A mais comum são as tabelas 2 x 2, mas podem existir tabelas 2 x 3 e outras.
As tabelas 2 x 2 representam duas variáveis categóricas, cada uma com dois níveis. No exemplo acima, estou comparando duas variáveis: Personality e Color preference. Veja que cada uma delas tem dois níveis. Personlaity com os níveis Introvert e Extrovert e Color preference com dois níveis Red e Yellow. Se uma das variáveis categóricas tivesse 3 níveis, teríamos uma tabela 2 x 3.
Se eu aplicasse um teste de associação nessa tabela, a pergunta que eu estaria respondendo seria: O tipo de personalidade esta associado com a preferência de cores entre vermelho e amarelo?
Tipos de teste de associação
Teste qui-quadrado de Pearson
É uma forma simples de comparar as frequências observadas em certas categorias de variáveis com a frequência que você observaria se acontecesse ao acaso.
Espera-se que a distribuição das amostras para esse teste tenha uma distiruibção aproximada do qui-quadrado. Por isso, esse teste é ideal para amostras grandes.
O que é uma amostra grande? São amostras com valores esperados acima de 5.
É um teste sensível para dados pequenos, esparsos e não balanceados.
Teste exato de Fisher
Fisher propôs esse teste em 1922, para ser utilizado em amostras com valores esperados abaixo de 5, em tabelas de contingência 2 x 2.
Esse teste também pode ser utilizado em amostras com valores esperados acima de 5.
O teste de Fisher não deve ser utilizado para tabelas diferente de 2x2.
A escolha do uso de um dos testes pode fazer diferença no valor de p em amostras pequenas. Em amostras grandes, essa diferença é pequena.
Leitura dos testes
O teste do qui-quadrado de Pearson e o teste de Fisher irão avaliar se existe associação entre as variáveis categóricas:
H0: variáveis A e B são independentes (não tem associação).
-
H1: variáves A e B são dependentes (existe associação).
- Ex: em relação à tabela acima. Se valor do teste utilizado indicar um p < alfa (geralmente 0,05), o fato de ser introvertido ou não influencia na escolha de vermelho, ou amarelo. Se valor do teste utilizado indicar um p > alfa, o fato de ser introvertido ou não não influencia na escolha de vermelho, ou amarelo.
Pressuposto dos testes
Como os outros testes vistos, o teste do qui-quadrato tem dois pressupostos principais.
Os dados devem ser independentes. É importante que cada categoria da variável contribua com apenas uma célula na tabela de contingência. Portanto, não podemos utilizar o teste do qui-quadrado em amostras repetidas. Veja exemplo no Tip 1.
-
As frequências esperadas devem ser superior a 5.
Nota 1Correção de Yates: também conhecido como correção de continuidade de Yates. O teste qui-quadrado em dados cujo valor esperado da tabela seja menor do que 5 ou n pequenos (geralmente menor do que 30) tende a ficar menos conservador, podendo conduzir a um erro do tipo I. Nesse caso, aplica-se essa correção para tornar o teste mais conservador. Sendo assim, aplica-se essa correção quando:
A tabela é 2 x 2.
As frequências esperadas em alguma célula são menores que 5, mas maiores que 1 (pois se forem <1, o teste exato de Fisher é mais indicado).
O tamanho amostral é pequeno (N < 30 é uma regra prática).
NotaExemplo de dados repetidos
Se treinarmos alguns gatos a dançar recebendo comida como prêmio e, em outro momento, treinarmos os mesmos gatos a dançar recebendo carinho como prêmio. Observe que os gatos entre os grupos carinho e prêmio são os mesmos. Portanto, não poderíamos analisar esse tipo de dados com o teste do qui-quadrado.

Analisando a relação entre as variáveis categóricas
É importante entender que quando estamos analisando variáveis cujo sentido é exposição (SIM ou NÃO) e desfecho (SIM ou NÃO), temos que prestar atenção em como é estruturado a tabela 2 x 2.
Geralmente, o fator de risco (exposição) é colocado na linha enquanto o desfecho (outcome) é colocado em coluna.
Veja que a primeira linha é YES para Exposure e a primeira coluna é YES para Outcome. Vamos supor que calcularmos o risco dessa tabela e o resultado foi 2. Temos a seguinte interpretação: o risco do Outcome ser YES para quem é exposto (Exposure = YES) é duas vezes maior comparado a quem não é exposto (Exposure = NO). Veja que, SEMPRE o nível de referência será a segunda linha da minha variável que representa a exposição ou fator de risco.
Se voltarmos na tabela abaixo, podemos afirmar que a variável exposição é Personality. E a variável outcome é Escolha da cor. Se tivéssemos calculado o odds ratio para essa tabela e tívéssemos encontrado 2, interpretaríamos da seguinte forma: Introvertidos tem 2 vezes mais chance de escolher vermelho comparado com Extrovertidos.
Veja que o outcome de referencia é o da primeira coluna seguido da comparação entre a primeira linha (Introvert) com a segunda linha, que é minha referencia (Extrovert).
Baseado no falado, a posição dos níveis das variáveis categóricas na tabela de contigência vai definir o valor dos riscos bem como sua interpretação.
Dito isso, existem duas formas de avalaiar como acontece a associação, calculando o risco relativo ou o odds ratio.
Risco relativo
O risco relativo (RR) estima a magnitude da associação entre a exposição ao fator de risco e o desfecho, indicando quantas vezes a ocorrência do desfecho nos expostos é maior do que aquela entre os não-expostos. O RR é definido como sendo a razão entre a incidência do desfecho nos expostos e a incidência do desfecho nos não-expostos.
Razão das chances (odds ratio)
É a razão entre as odds (probabilidades) de um evento ocorrer no grupo exposto e as odds de o evento ocorrer no grupo não exposto. É frequentemente usado em estudos de caso-controle.
Em estudos de caso-controle os pacientes são incluídos conforme a presença ou não do desfecho. Geralmente são definidos um grupo de casos (com o desfecho) e outro de controles (sem o desfecho) e avalia-se a exposição (no passado) a potenciais fatores de risco nestes grupos.
Interpretação do risco relativo e odds ratio
RR=1: Não há diferença no risco entre os grupos.
RR>1: O desfecho é mais provável no grupo exposto.
RR<1: O desfecho é menos provável no grupo exposto.
OR=1: Não há diferença nas odds entre os grupos.
OR>1: As odds do defecho são maiores no grupo exposto.
OR<1: As odds do desfecho são menores no grupo exposto.