Regressão linear múltipla.

Fórmula do Modelo O modelo ajustado: 𝑦= β0 + β1x1+β2x2 +𝜖

y: Variável dependente (valor predito). x1: Primeira variável independente (variável simulada entre 80 e 100). x2: Segunda variável independente (variável simulada entre 8 e 12). ϵ: Erro aleatório normalmente distribuído.

set.seed(123)
x1 <- runif(50, 80, 100)
x2 <- runif(50, 8, 12)
y <- 1500 + 7.5*x1 + 8.5*x2 + rnorm(50, 0, 50)
df <- data.frame(x1, x2, y)
fit <- lm(y ~ x1 + x2, data = df) #fórmula usada no ajuste
summary(fit)
## 
## Call:
## lm(formula = y ~ x1 + x2, data = df)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -120.883  -26.741   -0.591   27.315  101.322 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1561.853    113.393  13.774  < 2e-16 ***
## x1             6.807      1.121   6.074 2.08e-07 ***
## x2             9.315      5.961   1.563    0.125    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.04 on 47 degrees of freedom
## Multiple R-squared:  0.4664, Adjusted R-squared:  0.4436 
## F-statistic: 20.54 on 2 and 47 DF,  p-value: 3.894e-07
anova(fit)
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## x1         1  81870   81870 38.6318 1.269e-07 ***
## x2         1   5176    5176  2.4422    0.1248    
## Residuals 47  99604    2119                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Fórmula: ^y= 1561.853 + 6.807.x1 +9.315 . x2 +ϵ

Intercepto (𝛽0) estimativa 1561.853 (Quando x1 = 0 e x2 = 0, esspera-se que y tenha um valor médio de aproximadamente 1561.85.)

Coeficiente de x1(β1) estimativa 6.807, t=6.074, p = 2.08 × 10−7 (Para cada aumento de uma unidade em x1, mantendo x2 constante, espera-se um aumento médio de 6.807 unidades em y.) Significância: O p-valor é baixo (<0.05), indicando que x1 tem impacto significativo sobre y.

Coeficiente de x2 (β 2) Estimativa: 9.315, t=1.563, p=0.125.(Para cada aumento de uma unidade em x2, mantendo x1 constante, espera-se um aumento médio de 9.315 unidades em y. Significância: O p-valor (0.125) indica que x2 não tem impacto significativo sobre y, considerando um nível de significância de 5%.

Correção e Ajustes Remoção de x2: Dado que x2 não é significativo, pode ser removido para simplificar o modelo.

Proposta de novo modelo: y∼x1.

Reajuste do modelo (sem x2)

#avaliar o impacto de simplificar o modelo
fit_reduced <- lm(y ~ x1, data = df)
summary(fit_reduced)
## 
## Call:
## lm(formula = y ~ x1, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -115.69  -29.63   -0.91   33.18  109.24 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1641.729    102.729  15.981  < 2e-16 ***
## x1             6.945      1.134   6.124 1.62e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.72 on 48 degrees of freedom
## Multiple R-squared:  0.4386, Adjusted R-squared:  0.4269 
## F-statistic:  37.5 on 1 and 48 DF,  p-value: 1.62e-07
anova(fit_reduced)
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value   Pr(>F)    
## x1         1  81870   81870  37.505 1.62e-07 ***
## Residuals 48 104779    2183                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analise final (conclusão)

Modelo atual: x1 tem impacto sigficativo sobre Y, enquanto x2 não. O ajuste do modelo é moderado (R² = 46,64%)

Modelo sugerido: Remover x2 pode melhorar a simplicidade e interpretabilidade do modelo, sem comprometer o ajuste significativamente

Modelo reduzido (Y~x1) Fórmula ajustada: ^y= 1641.729 + 6.945 .x1 +ϵ

Coeficientes:

Intercepto (β 0):1641.729 Representa o valor esperado de y quando x1=0. Esse valor é maior do que no modelo original (1561.853). Coeficiente de x1 (β 1): 6.945 (Para cada aumento de uma unidade em x1, y aumenta em média 6.945, um pouco maior que o 6.807 do modelo original.

Significância (p<0.001): x1 continua sendo significativo.

Erro padrão residual: 46.72 (Um pouco maior do que no modelo original (46.04), indicando que o modelo reduzido tem menor capacidade de ajustar os dados.) R²e R² ajustado = R² =43.86%, R² ajustado = 42.69% Ambos os valores são um pouco menores do que no modelo original (46.64% e 44.36%), mostrando que o modelo reduzido explica menos variabilidade. Estatística F F = 37.505, p = 1.62 × 10−7

Ainda muito significativo, indicando que x1 sozinho explica uma parte substancial da variabilidade.

Conclusão sobre o Melhor Modelo O modelo reduzido (y∼𝑥1) é preferível: - Mais simples. - Explica quase a mesma variabilidade que o modelo original. - Exclui x2, que não tem significância estatística.