Regressão linear múltipla.
Fórmula do Modelo O modelo ajustado: 𝑦= β0 + β1x1+β2x2 +𝜖
y: Variável dependente (valor predito). x1: Primeira variável independente (variável simulada entre 80 e 100). x2: Segunda variável independente (variável simulada entre 8 e 12). ϵ: Erro aleatório normalmente distribuído.
set.seed(123)
x1 <- runif(50, 80, 100)
x2 <- runif(50, 8, 12)
y <- 1500 + 7.5*x1 + 8.5*x2 + rnorm(50, 0, 50)
df <- data.frame(x1, x2, y)
fit <- lm(y ~ x1 + x2, data = df) #fórmula usada no ajuste
summary(fit)
##
## Call:
## lm(formula = y ~ x1 + x2, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -120.883 -26.741 -0.591 27.315 101.322
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1561.853 113.393 13.774 < 2e-16 ***
## x1 6.807 1.121 6.074 2.08e-07 ***
## x2 9.315 5.961 1.563 0.125
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 46.04 on 47 degrees of freedom
## Multiple R-squared: 0.4664, Adjusted R-squared: 0.4436
## F-statistic: 20.54 on 2 and 47 DF, p-value: 3.894e-07
anova(fit)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 81870 81870 38.6318 1.269e-07 ***
## x2 1 5176 5176 2.4422 0.1248
## Residuals 47 99604 2119
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Fórmula: ^y= 1561.853 + 6.807.x1 +9.315 . x2 +ϵ
Intercepto (𝛽0) estimativa 1561.853 (Quando x1 = 0 e x2 = 0, esspera-se que y tenha um valor médio de aproximadamente 1561.85.)
Coeficiente de x1(β1) estimativa 6.807, t=6.074, p = 2.08 × 10−7 (Para cada aumento de uma unidade em x1, mantendo x2 constante, espera-se um aumento médio de 6.807 unidades em y.) Significância: O p-valor é baixo (<0.05), indicando que x1 tem impacto significativo sobre y.
Coeficiente de x2 (β 2) Estimativa: 9.315, t=1.563, p=0.125.(Para cada aumento de uma unidade em x2, mantendo x1 constante, espera-se um aumento médio de 9.315 unidades em y. Significância: O p-valor (0.125) indica que x2 não tem impacto significativo sobre y, considerando um nível de significância de 5%.
Correção e Ajustes Remoção de x2: Dado que x2 não é significativo, pode ser removido para simplificar o modelo.
Proposta de novo modelo: y∼x1.
Reajuste do modelo (sem x2)
#avaliar o impacto de simplificar o modelo
fit_reduced <- lm(y ~ x1, data = df)
summary(fit_reduced)
##
## Call:
## lm(formula = y ~ x1, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -115.69 -29.63 -0.91 33.18 109.24
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1641.729 102.729 15.981 < 2e-16 ***
## x1 6.945 1.134 6.124 1.62e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 46.72 on 48 degrees of freedom
## Multiple R-squared: 0.4386, Adjusted R-squared: 0.4269
## F-statistic: 37.5 on 1 and 48 DF, p-value: 1.62e-07
anova(fit_reduced)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x1 1 81870 81870 37.505 1.62e-07 ***
## Residuals 48 104779 2183
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Analise final (conclusão)
Modelo atual: x1 tem impacto sigficativo sobre Y, enquanto x2 não. O ajuste do modelo é moderado (R² = 46,64%)
Modelo sugerido: Remover x2 pode melhorar a simplicidade e interpretabilidade do modelo, sem comprometer o ajuste significativamente
Modelo reduzido (Y~x1) Fórmula ajustada: ^y= 1641.729 + 6.945 .x1 +ϵ
Coeficientes:
Intercepto (β 0):1641.729 Representa o valor esperado de y quando x1=0. Esse valor é maior do que no modelo original (1561.853). Coeficiente de x1 (β 1): 6.945 (Para cada aumento de uma unidade em x1, y aumenta em média 6.945, um pouco maior que o 6.807 do modelo original.
Significância (p<0.001): x1 continua sendo significativo.
Erro padrão residual: 46.72 (Um pouco maior do que no modelo original (46.04), indicando que o modelo reduzido tem menor capacidade de ajustar os dados.) R²e R² ajustado = R² =43.86%, R² ajustado = 42.69% Ambos os valores são um pouco menores do que no modelo original (46.64% e 44.36%), mostrando que o modelo reduzido explica menos variabilidade. Estatística F F = 37.505, p = 1.62 × 10−7
Ainda muito significativo, indicando que x1 sozinho explica uma parte substancial da variabilidade.
Conclusão sobre o Melhor Modelo O modelo reduzido (y∼𝑥1) é preferível: - Mais simples. - Explica quase a mesma variabilidade que o modelo original. - Exclui x2, que não tem significância estatística.