Técnica estatística utilizada para modelar a relação entre uma variável dependente binária (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite prever a probabilidade de ocorrência de um evento.
Variáveis
Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x_1, x_2, x_3, \ldots, x_n\) e podem ser contínuas ou categóricas.
Variável dependente: representa o evento ou resultado a ser previsto. Pode assumir apenas dois valores: 0 (não ocorre o evento) ou 1 (ocorre o evento).
Por que usar a regressão logística em vez da regressão linear?
A regressão linear é amplamente utilizada para modelar a relação entre variáveis independentes e uma variável dependente contínua.
No entanto, quando a variável dependente é binária, a regressão linear não é apropriada, pois ela pode resultar em previsões fora do intervalo desejado de 0 a 1.
Função Logit e Transformação Logística
Por que usar a regressão logística em vez da regressão linear?
A regressão logística transforma a equação da regressão linear em uma função que fornece a probabilidade de ocorrência do evento.
A transformação ocorre utilizando a função logit, que é aplicada à equação da regressão linear.
A função logit é definida como o logaritmo da razão entre a probabilidade de ocorrência do evento e a probabilidade de não ocorrência.
Após a aplicação da função logit, a equação se torna linear em termos da log-odds (logaritmo da razão de chances). A log-odds é a transformação do valor de y para a escala logit, que varia de menos infinito a mais infinito.
Após a aplicação da função logit, é necessário reverter essa transformação para obter a probabilidade de ocorrência do evento. Essa reversão é feita utilizando a função sigmoidal, que converte o valor resultante da função logit em uma probabilidade entre 0 e 1.
A equação da regressão linear é transformada na equação da regressão logística, que permite estimar a probabilidade de ocorrência do evento com base nas variáveis independentes. Essa probabilidade é então utilizada para tomar decisões ou realizar previsões em problemas de classificação binária.
Suponha que um estudo esteja investigando a probabilidade de ocorrência de uma determinada doença em uma população de animais.
As variáveis independentes são 🌳 o tipo de habitat (floresta, savana), 💧 a presença de água (sim, não) e 🌡 a temperatura média do ambiente.
A variável resposta seria a ocorrência (1) ou não (0) da doença nos animais 🐾 da população.
Modelo da regressão logística
# Realizar a regressão logísticamodelo <-glm(doenca ~ habitat + agua + temperatura, data = dados, family =binomial(link ="logit"))# Visualizar os resultadossummary(modelo)
Call:
glm(formula = doenca ~ habitat + agua + temperatura, family = binomial(link = "logit"),
data = dados)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.46680 1.87038 0.250 0.803
habitatFloresta 0.19210 0.77826 0.247 0.805
aguaSim -5.58636 1.13031 -4.942 7.72e-07 ***
temperatura 0.11300 0.07137 1.583 0.113
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 126.836 on 99 degrees of freedom
Residual deviance: 56.241 on 96 degrees of freedom
AIC: 64.241
Number of Fisher Scoring iterations: 6
Modelo da regressão logística
Deviance Residuals: (resíduos de deviance) são uma medida da discrepância entre os valores observados e os valores previstos pelo modelo de regressão logística. Eles são calculados subtraindo-se a estimativa de probabilidade prevista pelo modelo (obtida por meio da função logit) do valor observado da variável resposta.
Modelo da regressão logística
Coefficients: são apresentados os coeficientes estimados para cada variável explicativa, juntamente com os erros-padrão, estatísticas de teste (z value) e valores-p (Pr(>|z|)). O coeficiente Intercept corresponde ao valor estimado quando todas as variáveis explicativas são iguais a zero.
Modelo da regressão logística
Null deviance: representa a deviance do modelo nulo, ou seja, um modelo sem variáveis explicativas.
Residual deviance: é a deviance residual do modelo ajustado com as variáveis explicativas.
AIC: O critério de informação de Akaike (AIC) é uma medida de qualidade do ajuste do modelo. Quanto menor o valor do AIC, melhor é o ajuste do modelo.
Interpretando os coeficientes da regressão logística
Razão de chances: Uma maneira comum de interpretar os coeficientes em regressão logística é calcular a razão de chances (odds ratio).
Ela é calculada como a razão entre as chances do evento ocorrer em um determinado grupo comparado a um grupo de referência.
Interpretando os coeficientes da regressão logística
Quando a variável é qualitativa, a interpretação da razão de chances envolve comparar as chances do evento ocorrer entre diferentes categorias da variável, em relação à categoria de referência.
Por exemplo, se tivermos uma variável categórica “Gênero” com duas categorias (masculino e feminino) e a razão de chances for igual a 2 para a categoria feminino, isso significa que as chances de o evento ocorrer são duas vezes maiores para as mulheres em comparação aos homens.
exp(modelo$coefficients[2])
habitatFloresta
1.211791
(exp(modelo$coefficients[2]) -1) *100
habitatFloresta
21.17909
exp(modelo$coefficients[3])
aguaSim
0.003748632
(exp(modelo$coefficients[3]) -1) *100
aguaSim
-99.62514
Interpretando os coeficientes da regressão logística
Já quando a variável é quantitativa, a razão de chances representa o aumento (ou diminuição) nas chances do evento ocorrer para cada unidade de mudança na variável.
Por exemplo, se tivermos uma variável quantitativa “Idade” e a razão de chances for igual a 1,1, isso significa que para cada aumento de uma unidade na idade, as chances do evento ocorrer aumentam em cerca de 10% (\(1,1 - 1 = 0,1 \times 100 = 10\)).
exp(modelo$coefficients[4])
temperatura
1.119628
(exp(modelo$coefficients[4]) -1) *100
temperatura
11.96282
Pressupostos do modelo de regressão logística
Variável dependente binária: pressupõe que a variável dependente seja binária.
Independência das observações: assume que as observações são independentes umas das outras. Isso significa que as observações não devem estar correlacionadas ou dependentes entre si.
Linearidade no logito: supõe que a relação entre as variáveis independentes e o logito (logaritmo da razão de chances) seja linear.
Ausência de multicolinearidade: A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si.
Ausência de outliers influentes: Outliers influentes são observações que têm um impacto desproporcional na estimativa dos coeficientes.
Seleção de variáveis na regressão logística
Seleção baseada em critérios estatísticos: Essa abordagem envolve o uso de critérios estatísticos para avaliar a relevância das variáveis independentes. Exemplos de critérios incluem:
Valor-p: avaliação da significância estatística das variáveis independentes.
AIC (Akaike Information Criterion): critério que leva em consideração a qualidade do ajuste (soma dos quadrados dos resíduos) e a parcimônia do modelo (número de variáveis). Valores menores de AIC indicam modelos com melhor ajuste e menor complexidade.
BIC (Bayesian Information Criterion): Similar ao AIC, mas com uma penalidade adicional para modelos com mais variáveis. Promove a seleção de modelos mais simples e parcimoniosos.
Seleção de variáveis na regressão logística
Seleção por etapas: Essa abordagem envolve um processo iterativo de adição ou remoção de variáveis do modelo com base em critérios específicos.
Stepwise: seleção progressiva (forward) e regressiva (backward) de variáveis com base em critérios de inclusão e exclusão.
Forward: adição iterativa de variáveis ao modelo com base em critérios de melhoria do ajuste.
Backward: remoção iterativa de variáveis do modelo com base em critérios de melhoria do ajuste.
📚 Referências bibliográficas
BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.