Regressão Logística

Prof. Letícia Raposo

UNIRIO

Introdução

Técnica estatística utilizada para modelar a relação entre uma variável dependente binária (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite prever a probabilidade de ocorrência de um evento.

Variáveis

Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x_1, x_2, x_3, \ldots, x_n\) e podem ser contínuas ou categóricas.
Variável dependente: representa o evento ou resultado a ser previsto. Pode assumir apenas dois valores: 0 (não ocorre o evento) ou 1 (ocorre o evento).

Por que usar a regressão logística em vez da regressão linear?

A regressão linear é amplamente utilizada para modelar a relação entre variáveis independentes e uma variável dependente contínua.
No entanto, quando a variável dependente é binária, a regressão linear não é apropriada, pois ela pode resultar em previsões fora do intervalo desejado de 0 a 1.

Função Logit e Transformação Logística

Por que usar a regressão logística em vez da regressão linear?

A regressão logística transforma a equação da regressão linear em uma função que fornece a probabilidade de ocorrência do evento.
A transformação ocorre utilizando a função logit, que é aplicada à equação da regressão linear.
A função logit é definida como o logaritmo da razão entre a probabilidade de ocorrência do evento e a probabilidade de não ocorrência.

\[\text{logit}(p) = \log\left(\frac{p}{1 - p}\right)\]

Função Logit e Transformação Logística

Após a aplicação da função logit, a equação se torna linear em termos da log-odds (logaritmo da razão de chances). A log-odds é a transformação do valor de y para a escala logit, que varia de menos infinito a mais infinito.

\[\text{logit}(p) = \log\left(\frac{p}{1 - p}\right)\]

\[\log\left(\frac{y}{1 - y}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n\]

Função Logit e Transformação Logística

Após a aplicação da função logit, é necessário reverter essa transformação para obter a probabilidade de ocorrência do evento. Essa reversão é feita utilizando a função sigmoidal, que converte o valor resultante da função logit em uma probabilidade entre 0 e 1.

\[\log\left(\frac{y}{1 - y}\right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n\] \[e^{\log\left(\frac{y}{1 - y}\right)} = e^{\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n}\] \[\frac{y}{1 - y} = e^{\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n}\]

Função Logit e Transformação Logística

A equação da regressão linear é transformada na equação da regressão logística, que permite estimar a probabilidade de ocorrência do evento com base nas variáveis independentes. Essa probabilidade é então utilizada para tomar decisões ou realizar previsões em problemas de classificação binária.

\[P(y) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + \ldots + \beta_nx_n)}}\]

Exemplo

Suponha que um estudo esteja investigando a probabilidade de ocorrência de uma determinada doença em uma população de animais.

As variáveis independentes são 🌳 o tipo de habitat (floresta, savana), 💧 a presença de água (sim, não) e 🌡 a temperatura média do ambiente.
A variável resposta seria a ocorrência (1) ou não (0) da doença nos animais 🐾 da população.

Modelo da regressão logística

# Realizar a regressão logística
modelo <- glm(doenca ~ habitat + agua + temperatura, data = dados, family = binomial(link = "logit"))

# Visualizar os resultados
summary(modelo)


Call:
glm(formula = doenca ~ habitat + agua + temperatura, family = binomial(link = "logit"), 
    data = dados)

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)      0.46680    1.87038   0.250    0.803    
habitatFloresta  0.19210    0.77826   0.247    0.805    
aguaSim         -5.58636    1.13031  -4.942 7.72e-07 ***
temperatura      0.11300    0.07137   1.583    0.113    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 126.836  on 99  degrees of freedom
Residual deviance:  56.241  on 96  degrees of freedom
AIC: 64.241

Number of Fisher Scoring iterations: 6

Modelo da regressão logística

Deviance Residuals: (resíduos de deviance) são uma medida da discrepância entre os valores observados e os valores previstos pelo modelo de regressão logística. Eles são calculados subtraindo-se a estimativa de probabilidade prevista pelo modelo (obtida por meio da função logit) do valor observado da variável resposta.

Modelo da regressão logística

Coefficients: são apresentados os coeficientes estimados para cada variável explicativa, juntamente com os erros-padrão, estatísticas de teste (z value) e valores-p (Pr(>|z|)). O coeficiente Intercept corresponde ao valor estimado quando todas as variáveis explicativas são iguais a zero.

Modelo da regressão logística

Null deviance: representa a deviance do modelo nulo, ou seja, um modelo sem variáveis explicativas.
Residual deviance: é a deviance residual do modelo ajustado com as variáveis explicativas.
AIC: O critério de informação de Akaike (AIC) é uma medida de qualidade do ajuste do modelo. Quanto menor o valor do AIC, melhor é o ajuste do modelo.

Interpretando os coeficientes da regressão logística

Razão de chances: Uma maneira comum de interpretar os coeficientes em regressão logística é calcular a razão de chances (odds ratio).
- Ela é calculada como a razão entre as chances do evento ocorrer em um determinado grupo comparado a um grupo de referência.

Interpretando os coeficientes da regressão logística

Quando a variável é qualitativa, a interpretação da razão de chances envolve comparar as chances do evento ocorrer entre diferentes categorias da variável, em relação à categoria de referência.
- Por exemplo, se tivermos uma variável categórica “Gênero” com duas categorias (masculino e feminino) e a razão de chances for igual a 2 para a categoria feminino, isso significa que as chances de o evento ocorrer são duas vezes maiores para as mulheres em comparação aos homens.

exp(modelo$coefficients[2])

habitatFloresta 
       1.211791

(exp(modelo$coefficients[2]) - 1) * 100

habitatFloresta 
       21.17909

exp(modelo$coefficients[3])

    aguaSim 
0.003748632

(exp(modelo$coefficients[3]) - 1) * 100

  aguaSim 
-99.62514

Interpretando os coeficientes da regressão logística

Já quando a variável é quantitativa, a razão de chances representa o aumento (ou diminuição) nas chances do evento ocorrer para cada unidade de mudança na variável.
- Por exemplo, se tivermos uma variável quantitativa “Idade” e a razão de chances for igual a 1,1, isso significa que para cada aumento de uma unidade na idade, as chances do evento ocorrer aumentam em cerca de 10% (\(1,1 - 1 = 0,1 \times 100 = 10\)).

exp(modelo$coefficients[4])

temperatura 
   1.119628

(exp(modelo$coefficients[4]) - 1) * 100

temperatura 
   11.96282

Pressupostos do modelo de regressão logística

Variável dependente binária: pressupõe que a variável dependente seja binária.
Independência das observações: assume que as observações são independentes umas das outras. Isso significa que as observações não devem estar correlacionadas ou dependentes entre si.
Linearidade no logito: supõe que a relação entre as variáveis independentes e o logito (logaritmo da razão de chances) seja linear.
Ausência de multicolinearidade: A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si.
Ausência de outliers influentes: Outliers influentes são observações que têm um impacto desproporcional na estimativa dos coeficientes.

Seleção de variáveis na regressão logística

Seleção baseada em critérios estatísticos: Essa abordagem envolve o uso de critérios estatísticos para avaliar a relevância das variáveis independentes. Exemplos de critérios incluem:
- Valor-p: avaliação da significância estatística das variáveis independentes.
- AIC (Akaike Information Criterion): critério que leva em consideração a qualidade do ajuste (soma dos quadrados dos resíduos) e a parcimônia do modelo (número de variáveis). Valores menores de AIC indicam modelos com melhor ajuste e menor complexidade.
- BIC (Bayesian Information Criterion): Similar ao AIC, mas com uma penalidade adicional para modelos com mais variáveis. Promove a seleção de modelos mais simples e parcimoniosos.

Seleção de variáveis na regressão logística

Seleção por etapas: Essa abordagem envolve um processo iterativo de adição ou remoção de variáveis do modelo com base em critérios específicos.
- Stepwise: seleção progressiva (forward) e regressiva (backward) de variáveis com base em critérios de inclusão e exclusão.
- Forward: adição iterativa de variáveis ao modelo com base em critérios de melhoria do ajuste.
- Backward: remoção iterativa de variáveis do modelo com base em critérios de melhoria do ajuste.

📚 Referências bibliográficas

BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.