Regressão Linear

Prof. Letícia Raposo

UNIRIO

Introdução

  • Técnica estatística utilizada para modelar a relação entre uma variável dependente (resposta) e uma ou mais variáveis independentes (explicativas).
  • Ajuda a entender a influência das variáveis independentes na variável dependente.
  • Permite fazer previsões com base nas relações identificadas.

Variáveis

  • Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x₁, x₂, x₃, ..., x_n\) e podem ser contínuas ou categóricas.
  • Variável dependente: também chamada de variável resposta, é aquela que estamos interessados em prever ou explicar com base nas variáveis independentes. Ela é representada por \(y\).

Regressão Linear Simples

  • Na regressão linear simples, temos uma única variável independente para prever a variável dependente.

\[Y = β₀ + β₁X + ε\]

  • \(Y\): Variável dependente (variável resposta).
  • \(X\): Variável independente (variável explicativa).
  • \(β₀\): Intercepto (valor esperado de Y quando X = 0).
  • \(β₁\): Coeficiente de regressão (mudança esperada em Y para cada aumento de uma unidade em X).
  • \(ε\): Termo de erro (captura a aleatoriedade do processo).

Exemplo Prático

  • Vamos considerar um exemplo prático usando um conjunto de dados fictícios que relaciona o tempo de estudo de alunos ao desempenho em uma prova.
  • Nosso objetivo é entender como o tempo de estudo afeta o 📈 desempenho dos alunos.

Gráfico de Dispersão

Antes de ajustar o modelo de regressão, vamos visualizar os dados por meio de um gráfico de dispersão.

# Gráfico de dispersão
plot(tempo_estudo, desempenho, 
     main = "Desempenho vs. Tempo de Estudo",
     xlab = "Tempo de Estudo (horas)",
     ylab = "Desempenho")

Ajuste do Modelo de Regressão Linear

  • Precisamos agora buscar o melhor modelo que se ajuste aos dados.
  • A ideia é encontrar a reta que melhor se ajusta aos pontos dispersos no gráfico de dispersão dos dados. Essa reta é chamada de “linha de regressão” ou “linha de melhor ajuste”.

Ajuste do Modelo de Regressão Linear

Ajuste do Modelo de Regressão Linear

O objetivo do ajuste do modelo de regressão linear é encontrar os melhores valores para os coeficientes \(β₀\) e \(β₁\) que minimizem a soma dos quadrados dos resíduos.

\[Soma \;dos \;quadrados \;dos \;resíduos = Σ(yᵢ - ŷᵢ)²\]

  • \(yᵢ\) representa o valor observado da variável dependente (desempenho) para cada ponto.
  • \(ŷᵢ\) é o valor previsto da variável dependente (desempenho) calculado pela fórmula da regressão linear.

Ajuste do Modelo de Regressão Linear

  • O método dos mínimos quadrados encontra os valores de \(β₀\) e \(β₁\) que minimizam a soma dos quadrados dos resíduos, ou seja, a diferença entre os valores observados e os valores previstos.
  • Uma vez que os coeficientes são estimados, podemos usar o modelo ajustado para fazer previsões para novos valores de X (tempo de estudo) e obter o valor previsto correspondente de Y (desempenho).

Ajuste do Modelo de Regressão Linear

Vamos ajustar o modelo de regressão linear aos dados para analisar a relação entre o tempo de estudo e o desempenho dos alunos.

# Ajuste do modelo
modelo <- lm(desempenho ~ tempo_estudo)
# Resumo do modelo
summary(modelo)

Call:
lm(formula = desempenho ~ tempo_estudo)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3612 -0.9210 -0.0296  0.8956  3.3300 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.12119    0.34519   6.145 1.72e-08 ***
tempo_estudo  0.48564    0.05704   8.514 2.01e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.456 on 98 degrees of freedom
Multiple R-squared:  0.4252,    Adjusted R-squared:  0.4193 
F-statistic: 72.48 on 1 and 98 DF,  p-value: 2.009e-13

Interpretando a saída do modelo

Esses valores fornecem informações sobre a distribuição dos resíduos do modelo. É importante verificar se os resíduos estão distribuídos de forma simétrica em torno de zero e se não há padrões discerníveis.

Interpretando a saída do modelo

  • Estimate: Estimativa dos coeficientes do modelo.
  • Std. Error: Erro padrão das estimativas dos coeficientes.
  • t value: Estatística t associada ao teste de hipótese para os coeficientes.
  • Pr(>|t|): Valor p associado ao teste de hipótese para os coeficientes. Indicam se os coeficientes são estatisticamente significativos.

Interpretando a saída do modelo

  • Residual standard error: Erro padrão dos resíduos - estimativa do desvio padrão dos resíduos do modelo.
  • Multiple R-squared: Coeficiente de determinação (R²) - indica a proporção da variabilidade total dos valores observados que é explicada pelo modelo. Quanto mais próximo de 1, melhor o ajuste do modelo aos dados.
  • Adjusted R-squared: R² ajustado - versão ajustada do R² que leva em consideração o número de variáveis independentes no modelo. É útil ao comparar modelos com diferentes números de variáveis independentes.
  • F-statistic: Estatística F - avalia a significância global do modelo, testando se pelo menos uma das variáveis independentes tem um efeito significativo no resultado.

Resultados do Modelo

O modelo de regressão linear resultante é:

\[Desempenho = 2.7416 + 0.4985 * Tempo \;de \;Estudo\]

  • Intercepto (\(β₀\)): Quando o tempo de estudo é zero, espera-se que o desempenho seja de 2.7416.
  • Coeficiente de regressão (\(β₁\)): A cada aumento de uma unidade no tempo de estudo, espera-se um aumento de 0.4985 no desempenho dos alunos.

Predição com o Modelo

Com o modelo de regressão ajustado, podemos fazer previsões para diferentes valores de tempo de estudo.

# Valores de tempo de estudo para previsão
tempo_estudo_pred <- c(3, 7)

# Previsões
previsoes <- predict(modelo, data.frame(tempo_estudo = tempo_estudo_pred))
previsoes
       1        2 
3.578114 5.520680 

Avaliação do Modelo

Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:

  • Erro Quadrático Médio (Mean Squared Error - MSE): medida do erro médio quadrático entre os valores observados e os valores previstos pelo modelo. Quanto menor o MSE, melhor o ajuste do modelo aos dados.
mse <- mean((dados$desempenho - dados$predicted)^2)
mse
[1] 2.076895

Avaliação do Modelo

Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:

  • Raiz Quadrada do Erro Quadrático Médio (Root Mean Squared Error - RMSE): é a raiz quadrada do MSE. Ele tem a mesma interpretação do MSE, mas está na mesma unidade da variável dependente. Portanto, é uma medida mais intuitiva, pois representa o erro médio de previsão em unidades originais.
rmse <- sqrt(mse)
rmse
[1] 1.441144

Avaliação do Modelo

Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:

  • Coeficiente de Determinação (R²): medida que varia de 0 a 1 e representa a proporção da variabilidade da variável dependente que é explicada pelo modelo. Um R² próximo de 1 indica que o modelo explica uma grande parte da variabilidade dos dados, enquanto um R² próximo de 0 indica que o modelo não consegue explicar a variabilidade.
summary(modelo)

Call:
lm(formula = desempenho ~ tempo_estudo)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.3612 -0.9210 -0.0296  0.8956  3.3300 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.12119    0.34519   6.145 1.72e-08 ***
tempo_estudo  0.48564    0.05704   8.514 2.01e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.456 on 98 degrees of freedom
Multiple R-squared:  0.4252,    Adjusted R-squared:  0.4193 
F-statistic: 72.48 on 1 and 98 DF,  p-value: 2.009e-13

Avaliação do Modelo

Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:

  • Erro Absoluto Médio (Mean Absolute Error - MAE): calcula a média das diferenças absolutas entre os valores reais e os valores previstos pelo modelo. Ele fornece uma medida média do erro de previsão, independentemente da direção do erro. O MAE é menos sensível a outliers em comparação com o MSE.
mae <- mean(abs(dados$desempenho - dados$predicted))
mae
[1] 1.145834

Avaliação de pressupostos

A avaliação dos pressupostos do modelo de regressão linear é uma etapa importante para garantir a validade e a confiabilidade dos resultados obtidos.

Linearidade

O modelo pressupõe uma relação linear entre as variáveis independentes e a variável dependente. Isso pode ser avaliado visualmente por meio do gráfico de dispersão dos dados ou por meio de técnicas estatísticas, como o teste de não linearidade.

Linearidade

plot(modelo, which = 1)
# Teste de não-linearidade de Harvey-Collier - p < 0,05: não-linearidade
library(lmtest)
harvtest(modelo)

    Harvey-Collier test

data:  modelo
HC = 1.2434, df = 97, p-value = 0.2167

Observe se os pontos estão dispersos aleatoriamente em torno de uma linha reta. Uma distribuição aleatória e uniforme indica uma relação linear adequada.

Homocedasticidade

Esse pressuposto significa que a variância dos erros é constante em todas as faixas dos valores das variáveis independentes. É importante verificar se não há um padrão sistemático de aumento ou diminuição da variância ao longo da linha de regressão. Isso pode ser avaliado visualmente em um gráfico de resíduos ou por meio de testes estatísticos, como o teste de Breusch-Pagan.

Homocedasticidade

plot(modelo, which = 3)
# Teste de Breusch-Pagan - p < 0,05: heterocedasticidade
library(lmtest)
bptest(modelo)

    studentized Breusch-Pagan test

data:  modelo
BP = 0.025212, df = 1, p-value = 0.8738

Observe se a dispersão dos pontos em torno da linha horizontal é aproximadamente constante. Se a dispersão dos pontos aumentar ou diminuir de forma sistemática, pode indicar heterocedasticidade.

Independência dos erros

Um gráfico comumente usado para avaliar a independência dos resíduos em uma regressão linear é o gráfico de resíduos versus valores ajustados.

Independência dos erros

plot(modelo, which = 1)

Se os resíduos forem independentes, esperamos que eles sejam distribuídos aleatoriamente em torno de zero, sem qualquer padrão discernível.

Normalidade dos erros

O pressuposto é de que os erros devem seguir uma distribuição normal com média zero. Isso pode ser avaliado por meio do gráfico de normalidade dos resíduos e também por meio de testes estatísticos, como o teste de Shapiro-Wilk.

Normalidade dos erros

plot(modelo, which = 2)
# Teste de Shapiro-Wilk - p < 0,05: não normal
shapiro.test(modelo$residuals)

    Shapiro-Wilk normality test

data:  modelo$residuals
W = 0.99018, p-value = 0.6792

Regressão Linear Múltipla

Extensão da regressão linear simples para incluir múltiplas variáveis independentes.

\[y = β0 + β1x1 + β2x2 + ... + βkxk + ε\]

Regressão Linear Múltipla

  • Cálculo dos coeficientes de regressão múltipla por meio do método dos mínimos quadrados.
    • Estimativa dos coeficientes \(β0, β1, β2, ..., βk\) que minimizam a soma dos quadrados dos resíduos.
  • Interpretação dos coeficientes de regressão múltipla.
    • O coeficiente \(βj\) representa a mudança esperada em y para uma mudança unitária em \(xj\), mantendo as outras variáveis constantes.

Vantagens da regressão linear múltipla

  • Permite levar em consideração múltiplas variáveis independentes e seus efeitos sobre a variável dependente.
  • Fornece uma visão mais abrangente da relação entre as variáveis.

Seleção de Variáveis na Regressão Linear

  • Stepwise: seleção progressiva (forward) e regressiva (backward) de variáveis com base em critérios de inclusão e exclusão.
  • Forward: adição iterativa de variáveis ao modelo com base em critérios de melhoria do ajuste.
  • Backward: remoção iterativa de variáveis do modelo com base em critérios de melhoria do ajuste.

Critérios de seleção de variáveis na Regressão Linear

  • Valor-p: avaliação da significância estatística das variáveis independentes.
  • AIC (Akaike Information Criterion): critério que leva em consideração a qualidade do ajuste (soma dos quadrados dos resíduos) e a parcimônia do modelo (número de variáveis). Valores menores de AIC indicam modelos com melhor ajuste e menor complexidade.
  • BIC (Bayesian Information Criterion): Similar ao AIC, mas com uma penalidade adicional para modelos com mais variáveis. Promove a seleção de modelos mais simples e parcimoniosos.

Multicolinearidade e Seleção de Variáveis

  • A multicolinearidade ocorre quando há alta correlação entre variáveis independentes, podendo afetar a interpretação dos coeficientes e influenciar a seleção de variáveis.
  • Verificação da multicolinearidade:
    • Matriz de correlação: identifica correlações altas entre as variáveis independentes.
    • VIF (Variance Inflation Factor): medida que quantifica o grau de inflação da variância de um coeficiente de regressão devido à multicolinearidade. Geralmente, um valor de VIF maior que 5 ou 10 indica a presença de multicolinearidade.

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.