Dados categóricos

Associação entre variáveis qualitativas e análise de risco

Autor

Marcelo Silva

Esse material traz esclarecimentos sobre o estudo de associação entre dados categóricos. Eu optei por colocar a parte prática antes da parte teórica para irmos direto no assunto. Se necessário e se surgir dúvidas, consultem a parte teórica.

Parte prática

Carregando os pacotes

Código
library(tidyverse)
library(epiR)

Gerando a tabela de exemplo

Em um estudo conduzido por Barros e colaboradores, foram analisados todos os 7.392 nascimentos ocorridos em hospitais de Pelotas no ano de 1982. Nesse trabalho, investigou-se o hábito tabagista da mãe durante a gestação como um potencial fator de risco para o baixo peso ao nascer, utilizando uma amostra de 7.226 recém-nascidos. Os dados coletados estão apresentados na Tabela 1.

Código
# A tabela de contigência foi criada utilizando a função matrix.
tabela <- matrix(
  c(275, 2144, 311, 4496),
  nrow = 2,
  byrow = TRUE,
  dimnames = list(
    "Exposição" = c("Fumante", "Não-fumante"),
    "Baixo peso" = c("SIM", "NÃO")
  )
)
tabela
Tabela 1
             Baixo peso
Exposição   SIM  NÃO
  Fumante     275 2144
  Não-fumante 311 4496

Análise da associação

A hipótese do estudo é se o fato da mãe ser fumante ou não influencia na frequência de ocorrências de baixo peso ao nascer. Para isso, vou utilizar a função do próprio R chamada chisq.test() com o argumento correct = F para a função não aplicar a correção de Yates (ver Tip 1).

Código
chi <- chisq.test(tabela, correct = F)
chi

    Pearson's Chi-squared test

data:  tabela
X-squared = 51.819, df = 1, p-value = 6.087e-13
Código
# OBS: caso você precise aplicar a correção de Yates, é só traocar F por T do argumento correct.

O resultado do qui-quadrado nos mostra que o valor de p é menor do que alfa (geralmente 0.05) e portanto o hábito de fumar esta associado com baixo peso ao nascer.

Apesar de sabermos que os dados não irão violar o pressuposto do valor esperado ser menor do que 5, por causa do número de participantes do estudo, vou mostrar para vocês como encontrar os valores esperados.

Código
# Encontre o atributo utilizando o expected após $ no objeto que representa os valores esperados

chi$expected
             Baixo peso
Exposição        SIM      NÃO
  Fumante     196.1713 2222.829
  Não-fumante 389.8287 4417.171

Veja na tabela acima, que não existe nenhum valor esperado menor do que 5.

Calculando o risco relativo e odds ratio

Para calcularmos o risco relativo e odds ratio, vamos utilizar a função epi.2by2() do pacote epiR. Vamos inserir na função a tabela utilizada. Para mais informações sobre esse assunto, acesse Seção 2.2.1 e Seção 2.2.2.

Código
epi.2by2(tabela)
             Outcome+    Outcome-      Total                 Inc risk *
Exposure+         275        2144       2419     11.37 (10.13 to 12.70)
Exposure-         311        4496       4807        6.47 (5.79 to 7.20)
Total             586        6640       7226        8.11 (7.49 to 8.76)

Point estimates and 95% CIs:
-------------------------------------------------------------------
Inc risk ratio                                 1.76 (1.51, 2.05)
Inc odds ratio                                 1.85 (1.56, 2.20)
Attrib risk in the exposed *                   4.90 (3.46, 6.34)
Attrib fraction in the exposed (%)            43.09 (33.56, 51.23)
Attrib risk in the population *                1.64 (0.70, 2.58)
Attrib fraction in the population (%)         20.22 (17.81, 22.69)
-------------------------------------------------------------------
Uncorrected chi2 test that OR = 1: chi2(1) = 51.819 Pr>chi2 = <0.001
Fisher exact test that OR = 1: Pr>chi2 = <0.001
 Wald confidence limits
 CI: confidence interval
 * Outcomes per 100 population units 

Intepretando a tabela acima

Vamos entender essa tabela.

As duas primeiras linhas dizem respeito ao risco relativo e odds ratio.

Inc risk ratio ( Risco Relativo) = 1.76

Interpretação: o risco do desfecho (baixo peso ao nascer) é 1,76 vezes maior no grupo exposto (filhos de mães fumantes) em comparação com o grupo não exposto (filhos de mães não fumantes). Veja mais informações sobre essa leitura de interpretação na Seção 2.2.

Intervalo de Confiança (IC 95%): o intervalo de 1.51 a 2.05 indica que, com 95% de confiança, o risco real está entre 1,51 e 2,05 vezes maior no grupo exposto.

Significância estatística: como o intervalo de confiança não inclui o valor 1, esse resultado é estatisticamente significativo. Isso significa que há forte evidência de que a exposição (tabagismo materno) está associada a um aumento no risco da criança nascer com baixo peso.

Inc odds ratio (Razão de Chances ) = 1.85

Interpretação: as chances do desfecho são 1,85 vezes maiores no grupo exposto em comparação com o grupo não exposto.

Intervalo de Confiança (IC 95%): o intervalo de 1.56 a 2.20 mostra que, com 95% de confiança, a razão de chances real está entre 1,56 e 2,20.

Significância estatística: assim como no risco relativo, o intervalo de confiança não inclui o valor 1, indicando que a associação é estatisticamente significativa.

Nota

A razão de chances (odds ratio) tende a superestimar o efeito em comparação com o risco relativo, especialmente quando o desfecho não é raro. Por isso, em estudos de coorte ou quando o desfecho é comum (como baixo peso ao nascer), o risco relativo é geralmente preferido para interpretação direta do risco.

Agora, vamos analisar as outras informações da tabela. Veja que são informações adicionais, que podem complementar o seu estudo.

Attrib risk in the exposed (Risco atribuível nos expostos) = 4.90

Interpretação: entre as pessoas expostas (filhos de mães fumantes), a incidência do desfecho (baixo peso ao nascer) é 4,90 casos a mais por 100 indivíduos em comparação com o grupo não exposto.

Attrib fraction in the exposed (%) (Fração Atribuível nos Expostos) = 43,09%

Interpretação: 43,09% dos casos do desfecho nos expostos podem ser atribuídos à exposição (tabagismo materno).

Attrib risk in the population (Risco Atribuível na População) = 1.64

Interpretação: na população geral (incluindo expostos e não expostos), a incidência do desfecho é 1,64 casos a mais por 100 indivíduos devido à exposição (tabagismo materno).

Attrib fraction in the population (%) (Fração Atribuível na População) = 20,22%

Interpretação: 20,22% de todos os casos do desfecho na população geral podem ser atribuídos à exposição (tabagismo materno).

Parte teórica

Na análise estatística, muitas vezes, temos que comparar dois dados categóricos, ou seja, dados em que a variável não é quantitativa, mas sim, qualitativa.

Quando trabalhamos com comparação de variáveis categóricas, avaliamos a associação entre elas. Esses dados são organizados em tabelas chamadas de tabelas de contigências. A mais comum são as tabelas 2 x 2, mas podem existir tabelas 2 x 3 e outras.

As tabelas 2 x 2 representam duas variáveis categóricas, cada uma com dois níveis. No exemplo acima, estou comparando duas variáveis: Personality e Color preference. Veja que cada uma delas tem dois níveis. Personlaity com os níveis Introvert e Extrovert e Color preference com dois níveis Red e Yellow. Se uma das variáveis categóricas tivesse 3 níveis, teríamos uma tabela 2 x 3.

Se eu aplicasse um teste de associação nessa tabela, a pergunta que eu estaria respondendo seria: O tipo de personalidade esta associado com a preferência de cores entre vermelho e amarelo?

Tipos de teste de associação

Teste qui-quadrado de Pearson

É uma forma simples de comparar as frequências observadas em certas categorias de variáveis com a frequência que você observaria se acontecesse ao acaso.

Espera-se que a distribuição das amostras para esse teste tenha uma distiruibção aproximada do qui-quadrado. Por isso, esse teste é ideal para amostras grandes.

O que é uma amostra grande? São amostras com valores esperados acima de 5.

Cuidado

É um teste sensível para dados pequenos, esparsos e não balanceados.

Teste exato de Fisher

Fisher propôs esse teste em 1922, para ser utilizado em amostras com valores esperados abaixo de 5, em tabelas de contingência 2 x 2.

Esse teste também pode ser utilizado em amostras com valores esperados acima de 5.

Nota

O teste de Fisher não deve ser utilizado para tabelas diferente de 2x2.

Aviso

A escolha do uso de um dos testes pode fazer diferença no valor de p em amostras pequenas. Em amostras grandes, essa diferença é pequena.

Leitura dos testes

O teste do qui-quadrado de Pearson e o teste de Fisher irão avaliar se existe associação entre as variáveis categóricas:

  • H0: variáveis A e B são independentes (não tem associação).

  • H1: variáves A e B são dependentes (existe associação).

    • Ex: em relação à tabela acima. Se valor do teste utilizado indicar um p < alfa (geralmente 0,05), o fato de ser introvertido ou não influencia na escolha de vermelho, ou amarelo. Se valor do teste utilizado indicar um p > alfa, o fato de ser introvertido ou não não influencia na escolha de vermelho, ou amarelo.

Pressuposto dos testes

Como os outros testes vistos, o teste do qui-quadrato tem dois pressupostos principais.

  • Os dados devem ser independentes. É importante que cada categoria da variável contribua com apenas uma célula na tabela de contingência. Portanto, não podemos utilizar o teste do qui-quadrado em amostras repetidas. Veja exemplo no Tip 1.

  • As frequências esperadas devem ser superior a 5.

    Nota 1

    Correção de Yates: também conhecido como correção de continuidade de Yates. O teste qui-quadrado em dados cujo valor esperado da tabela seja menor do que 5 ou n pequenos (geralmente menor do que 30) tende a ficar menos conservador, podendo conduzir a um erro do tipo I. Nesse caso, aplica-se essa correção para tornar o teste mais conservador. Sendo assim, aplica-se essa correção quando:

    1. A tabela é 2 x 2.

    2. As frequências esperadas em alguma célula são menores que 5, mas maiores que 1 (pois se forem <1, o teste exato de Fisher é mais indicado).

    3. O tamanho amostral é pequeno (N < 30 é uma regra prática).

    Nota

    Exemplo de dados repetidos

    Se treinarmos alguns gatos a dançar recebendo comida como prêmio e, em outro momento, treinarmos os mesmos gatos a dançar recebendo carinho como prêmio. Observe que os gatos entre os grupos carinho e prêmio são os mesmos. Portanto, não poderíamos analisar esse tipo de dados com o teste do qui-quadrado.

Analisando a relação entre as variáveis categóricas

É importante entender que quando estamos analisando variáveis cujo sentido é exposição (SIM ou NÃO) e desfecho (SIM ou NÃO), temos que prestar atenção em como é estruturado a tabela 2 x 2.

Geralmente, o fator de risco (exposição) é colocado na linha enquanto o desfecho (outcome) é colocado em coluna.

Veja que a primeira linha é YES para Exposure e a primeira coluna é YES para Outcome. Vamos supor que calcularmos o risco dessa tabela e o resultado foi 2. Temos a seguinte interpretação: o risco do Outcome ser YES para quem é exposto (Exposure = YES) é duas vezes maior comparado a quem não é exposto (Exposure = NO). Veja que, SEMPRE o nível de referência será a segunda linha da minha variável que representa a exposição ou fator de risco.

Se voltarmos na tabela abaixo, podemos afirmar que a variável exposição é Personality. E a variável outcome é Escolha da cor. Se tivéssemos calculado o odds ratio para essa tabela e tívéssemos encontrado 2, interpretaríamos da seguinte forma: Introvertidos tem 2 vezes mais chance de escolher vermelho comparado com Extrovertidos.

Veja que o outcome de referencia é o da primeira coluna seguido da comparação entre a primeira linha (Introvert) com a segunda linha, que é minha referencia (Extrovert).

Importante

Baseado no falado, a posição dos níveis das variáveis categóricas na tabela de contigência vai definir o valor dos riscos bem como sua interpretação.

Dito isso, existem duas formas de avalaiar como acontece a associação, calculando o risco relativo ou o odds ratio.

Risco relativo

O risco relativo (RR) estima a magnitude da associação entre a exposição ao fator de risco e o desfecho, indicando quantas vezes a ocorrência do desfecho nos expostos é maior do que aquela entre os não-expostos. O RR é definido como sendo a razão entre a incidência do desfecho nos expostos e a incidência do desfecho nos não-expostos.

Razão das chances (odds ratio)

É a razão entre as odds (probabilidades) de um evento ocorrer no grupo exposto e as odds de o evento ocorrer no grupo não exposto. É frequentemente usado em estudos de caso-controle.

Em estudos de caso-controle os pacientes são incluídos conforme a presença ou não do desfecho. Geralmente são definidos um grupo de casos (com o desfecho) e outro de controles (sem o desfecho) e avalia-se a exposição (no passado) a potenciais fatores de risco nestes grupos.

Interpretação do risco relativo e odds ratio

  • RR=1: Não há diferença no risco entre os grupos.

  • RR>1: O desfecho é mais provável no grupo exposto.

  • RR<1: O desfecho é menos provável no grupo exposto.

  • OR=1: Não há diferença nas odds entre os grupos.

  • OR>1: As odds do defecho são maiores no grupo exposto.

  • OR<1: As odds do desfecho são menores no grupo exposto.