Técnica estatística utilizada para modelar a relação entre uma variável dependente (resposta) e uma ou mais variáveis independentes (explicativas).
Ajuda a entender a influência das variáveis independentes na variável dependente.
Permite fazer previsões com base nas relações identificadas.
Variáveis
Variáveis independentes: são as variáveis explicativas ou preditoras que são usadas para prever ou explicar a variação na variável dependente. Elas são representadas por \(x₁, x₂, x₃, ..., x_n\) e podem ser contínuas ou categóricas.
Variável dependente: também chamada de variável resposta, é aquela que estamos interessados em prever ou explicar com base nas variáveis independentes. Ela é representada por \(y\).
Regressão Linear Simples
Na regressão linear simples, temos uma única variável independente para prever a variável dependente.
\(β₀\): Intercepto (valor esperado de Y quando X = 0).
\(β₁\): Coeficiente de regressão (mudança esperada em Y para cada aumento de uma unidade em X).
\(ε\): Termo de erro (captura a aleatoriedade do processo).
Exemplo Prático
Vamos considerar um exemplo prático usando um conjunto de dados fictícios que relaciona o tempo de estudo de alunos ao desempenho em uma prova.
Nosso objetivo é entender como o ⏰ tempo de estudo afeta o 📈 desempenho dos alunos.
Gráfico de Dispersão
Antes de ajustar o modelo de regressão, vamos visualizar os dados por meio de um gráfico de dispersão.
# Gráfico de dispersãoplot(tempo_estudo, desempenho, main ="Desempenho vs. Tempo de Estudo",xlab ="Tempo de Estudo (horas)",ylab ="Desempenho")
Ajuste do Modelo de Regressão Linear
Precisamos agora buscar o melhor modelo que se ajuste aos dados.
A ideia é encontrar a reta que melhor se ajusta aos pontos dispersos no gráfico de dispersão dos dados. Essa reta é chamada de “linha de regressão” ou “linha de melhor ajuste”.
Ajuste do Modelo de Regressão Linear
Ajuste do Modelo de Regressão Linear
O objetivo do ajuste do modelo de regressão linear é encontrar os melhores valores para os coeficientes\(β₀\) e \(β₁\) que minimizem a soma dos quadrados dos resíduos.
\(yᵢ\) representa o valor observado da variável dependente (desempenho) para cada ponto.
\(ŷᵢ\) é o valor previsto da variável dependente (desempenho) calculado pela fórmula da regressão linear.
Ajuste do Modelo de Regressão Linear
O método dos mínimos quadrados encontra os valores de \(β₀\) e \(β₁\) que minimizam a soma dos quadrados dos resíduos, ou seja, a diferença entre os valores observados e os valores previstos.
Uma vez que os coeficientes são estimados, podemos usar o modelo ajustado para fazer previsões para novos valores de X (tempo de estudo) e obter o valor previsto correspondente de Y (desempenho).
Ajuste do Modelo de Regressão Linear
Vamos ajustar o modelo de regressão linear aos dados para analisar a relação entre o tempo de estudo e o desempenho dos alunos.
# Ajuste do modelomodelo <-lm(desempenho ~ tempo_estudo)# Resumo do modelosummary(modelo)
Call:
lm(formula = desempenho ~ tempo_estudo)
Residuals:
Min 1Q Median 3Q Max
-3.3612 -0.9210 -0.0296 0.8956 3.3300
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.12119 0.34519 6.145 1.72e-08 ***
tempo_estudo 0.48564 0.05704 8.514 2.01e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.456 on 98 degrees of freedom
Multiple R-squared: 0.4252, Adjusted R-squared: 0.4193
F-statistic: 72.48 on 1 and 98 DF, p-value: 2.009e-13
Interpretando a saída do modelo
Esses valores fornecem informações sobre a distribuição dos resíduos do modelo. É importante verificar se os resíduos estão distribuídos de forma simétrica em torno de zero e se não há padrões discerníveis.
Interpretando a saída do modelo
Estimate: Estimativa dos coeficientes do modelo.
Std. Error: Erro padrão das estimativas dos coeficientes.
t value: Estatística t associada ao teste de hipótese para os coeficientes.
Pr(>|t|): Valor p associado ao teste de hipótese para os coeficientes. Indicam se os coeficientes são estatisticamente significativos.
Interpretando a saída do modelo
Residual standard error: Erro padrão dos resíduos - estimativa do desvio padrão dos resíduos do modelo.
Multiple R-squared: Coeficiente de determinação (R²) - indica a proporção da variabilidade total dos valores observados que é explicada pelo modelo. Quanto mais próximo de 1, melhor o ajuste do modelo aos dados.
Adjusted R-squared: R² ajustado - versão ajustada do R² que leva em consideração o número de variáveis independentes no modelo. É útil ao comparar modelos com diferentes números de variáveis independentes.
F-statistic: Estatística F - avalia a significância global do modelo, testando se pelo menos uma das variáveis independentes tem um efeito significativo no resultado.
Resultados do Modelo
O modelo de regressão linear resultante é:
\[Desempenho = 2.7416 + 0.4985 * Tempo \;de \;Estudo\]
Intercepto (\(β₀\)): Quando o tempo de estudo é zero, espera-se que o desempenho seja de 2.7416.
Coeficiente de regressão (\(β₁\)): A cada aumento de uma unidade no tempo de estudo, espera-se um aumento de 0.4985 no desempenho dos alunos.
Predição com o Modelo
Com o modelo de regressão ajustado, podemos fazer previsões para diferentes valores de tempo de estudo.
# Valores de tempo de estudo para previsãotempo_estudo_pred <-c(3, 7)# Previsõesprevisoes <-predict(modelo, data.frame(tempo_estudo = tempo_estudo_pred))previsoes
1 2
3.578114 5.520680
Avaliação do Modelo
Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:
Erro Quadrático Médio (Mean Squared Error - MSE): medida do erro médio quadrático entre os valores observados e os valores previstos pelo modelo. Quanto menor o MSE, melhor o ajuste do modelo aos dados.
Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:
Raiz Quadrada do Erro Quadrático Médio (Root Mean Squared Error - RMSE): é a raiz quadrada do MSE. Ele tem a mesma interpretação do MSE, mas está na mesma unidade da variável dependente. Portanto, é uma medida mais intuitiva, pois representa o erro médio de previsão em unidades originais.
rmse <-sqrt(mse)rmse
[1] 1.441144
Avaliação do Modelo
Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:
Coeficiente de Determinação (R²): medida que varia de 0 a 1 e representa a proporção da variabilidade da variável dependente que é explicada pelo modelo. Um R² próximo de 1 indica que o modelo explica uma grande parte da variabilidade dos dados, enquanto um R² próximo de 0 indica que o modelo não consegue explicar a variabilidade.
summary(modelo)
Call:
lm(formula = desempenho ~ tempo_estudo)
Residuals:
Min 1Q Median 3Q Max
-3.3612 -0.9210 -0.0296 0.8956 3.3300
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.12119 0.34519 6.145 1.72e-08 ***
tempo_estudo 0.48564 0.05704 8.514 2.01e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.456 on 98 degrees of freedom
Multiple R-squared: 0.4252, Adjusted R-squared: 0.4193
F-statistic: 72.48 on 1 and 98 DF, p-value: 2.009e-13
Avaliação do Modelo
Para avaliar a qualidade do modelo de regressão, podemos analisar algumas métricas:
Erro Absoluto Médio (Mean Absolute Error - MAE): calcula a média das diferenças absolutas entre os valores reais e os valores previstos pelo modelo. Ele fornece uma medida média do erro de previsão, independentemente da direção do erro. O MAE é menos sensível a outliers em comparação com o MSE.
mae <-mean(abs(dados$desempenho - dados$predicted))mae
[1] 1.145834
Avaliação de pressupostos
A avaliação dos pressupostos do modelo de regressão linear é uma etapa importante para garantir a validade e a confiabilidade dos resultados obtidos.
Linearidade
O modelo pressupõe uma relação linear entre as variáveis independentes e a variável dependente. Isso pode ser avaliado visualmente por meio do gráfico de dispersão dos dados ou por meio de técnicas estatísticas, como o teste de não linearidade.
Linearidade
plot(modelo, which =1)
# Teste de não-linearidade de Harvey-Collier - p < 0,05: não-linearidadelibrary(lmtest)harvtest(modelo)
Harvey-Collier test
data: modelo
HC = 1.2434, df = 97, p-value = 0.2167
Observe se os pontos estão dispersos aleatoriamente em torno de uma linha reta. Uma distribuição aleatória e uniforme indica uma relação linear adequada.
Homocedasticidade
Esse pressuposto significa que a variância dos erros é constante em todas as faixas dos valores das variáveis independentes. É importante verificar se não há um padrão sistemático de aumento ou diminuição da variância ao longo da linha de regressão. Isso pode ser avaliado visualmente em um gráfico de resíduos ou por meio de testes estatísticos, como o teste de Breusch-Pagan.
Homocedasticidade
plot(modelo, which =3)
# Teste de Breusch-Pagan - p < 0,05: heterocedasticidadelibrary(lmtest)bptest(modelo)
studentized Breusch-Pagan test
data: modelo
BP = 0.025212, df = 1, p-value = 0.8738
Observe se a dispersão dos pontos em torno da linha horizontal é aproximadamente constante. Se a dispersão dos pontos aumentar ou diminuir de forma sistemática, pode indicar heterocedasticidade.
Independência dos erros
Um gráfico comumente usado para avaliar a independência dos resíduos em uma regressão linear é o gráfico de resíduos versus valores ajustados.
Independência dos erros
plot(modelo, which =1)
Se os resíduos forem independentes, esperamos que eles sejam distribuídos aleatoriamente em torno de zero, sem qualquer padrão discernível.
Normalidade dos erros
O pressuposto é de que os erros devem seguir uma distribuição normal com média zero. Isso pode ser avaliado por meio do gráfico de normalidade dos resíduos e também por meio de testes estatísticos, como o teste de Shapiro-Wilk.
Normalidade dos erros
plot(modelo, which =2)
# Teste de Shapiro-Wilk - p < 0,05: não normalshapiro.test(modelo$residuals)
Shapiro-Wilk normality test
data: modelo$residuals
W = 0.99018, p-value = 0.6792
Regressão Linear Múltipla
Extensão da regressão linear simples para incluir múltiplas variáveis independentes.
\[y = β0 + β1x1 + β2x2 + ... + βkxk + ε\]
Regressão Linear Múltipla
Cálculo dos coeficientes de regressão múltipla por meio do método dos mínimos quadrados.
Estimativa dos coeficientes \(β0, β1, β2, ..., βk\) que minimizam a soma dos quadrados dos resíduos.
Interpretação dos coeficientes de regressão múltipla.
O coeficiente \(βj\) representa a mudança esperada em y para uma mudança unitária em \(xj\), mantendo as outras variáveis constantes.
Vantagens da regressão linear múltipla
Permite levar em consideração múltiplas variáveis independentes e seus efeitos sobre a variável dependente.
Fornece uma visão mais abrangente da relação entre as variáveis.
Seleção de Variáveis na Regressão Linear
Stepwise: seleção progressiva (forward) e regressiva (backward) de variáveis com base em critérios de inclusão e exclusão.
Forward: adição iterativa de variáveis ao modelo com base em critérios de melhoria do ajuste.
Backward: remoção iterativa de variáveis do modelo com base em critérios de melhoria do ajuste.
Critérios de seleção de variáveis na Regressão Linear
Valor-p: avaliação da significância estatística das variáveis independentes.
AIC (Akaike Information Criterion): critério que leva em consideração a qualidade do ajuste (soma dos quadrados dos resíduos) e a parcimônia do modelo (número de variáveis). Valores menores de AIC indicam modelos com melhor ajuste e menor complexidade.
BIC (Bayesian Information Criterion): Similar ao AIC, mas com uma penalidade adicional para modelos com mais variáveis. Promove a seleção de modelos mais simples e parcimoniosos.
Multicolinearidade e Seleção de Variáveis
A multicolinearidade ocorre quando há alta correlação entre variáveis independentes, podendo afetar a interpretação dos coeficientes e influenciar a seleção de variáveis.
Verificação da multicolinearidade:
Matriz de correlação: identifica correlações altas entre as variáveis independentes.
VIF (Variance Inflation Factor): medida que quantifica o grau de inflação da variância de um coeficiente de regressão devido à multicolinearidade. Geralmente, um valor de VIF maior que 5 ou 10 indica a presença de multicolinearidade.
📚 Referências bibliográficas
BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.
DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.
HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.