Modelo predictivo

Para esta entrega se utilizará un modelo lineal para predecir el rendiminto (mpg) a partir del peso, la longitud y la altura. Se utilizará un modelo lineal porque las tres variables son de tipo escalar. la pregunta queda de la siguiente manera:

¿El peso, la altura y la longitud de un auto predice su rendimiento (mpg)?

Elaboración del modelo

Para modelar la interacción primero mostraré lass gráficas con la recta calculada del modelo lineal para cada variable predictora, con los coeficiente de la regresión lineal simple

Gráfico Y modelo lineal entre peso y mpg

ggplot(Autos_Limpia, aes(x=weight, y=mpg))+
  geom_point(color="maroon3", size=2, alpha=0.7)+
  geom_smooth(method = "lm", color = "blue", se = TRUE) +
  labs(title = "Diagrama de disperción de mpg vs peso", x="Peso", 
       y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'

En el gráfico podemos observar la recta descendente al aumentar el peso se reduce el rendimiento

modelo_peso <- lm(mpg ~ weight, data = Autos_Limpia)
summary(modelo_peso)
## 
## Call:
## lm(formula = mpg ~ weight, data = Autos_Limpia)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.9593 -1.9325 -0.3713  0.8885 13.8174 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 39.4402835  1.6140031   24.44   <2e-16 ***
## weight      -0.0060087  0.0005179  -11.60   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.439 on 72 degrees of freedom
## Multiple R-squared:  0.6515, Adjusted R-squared:  0.6467 
## F-statistic: 134.6 on 1 and 72 DF,  p-value: < 2.2e-16

Este modelo es significativo con una significancia menos a 0.001, lo que infica que por cada libra de peso que aumente un vehículo su rendimiento disminuye en 0.006 millas por galon. El modelo explica el peso explica aproximadamente el 65% de la varianza del cambio en el rendimiento, lo que sería un bueen ajuste.

Gráfico y modelo lineal entre longitud y mpg

ggplot(Autos_Limpia, aes(x=length, y=mpg))+
  geom_point(color="maroon3", size=2, alpha=0.7)+
  geom_smooth(method = "lm", color = "blue", se = TRUE) +
  labs(title = "Diagrama de disperción de mpg vs altura", x="Longitud", 
       y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'

En el gráfico se observa una recta descendiente, lo que parece indicar que también tiene un efecto sobre el rendimiento. pero falta confirmar con el calculo de los coeficientes de regresión.

modelo_longitud <- lm(mpg ~ length, data = Autos_Limpia)
summary(modelo_longitud)
## 
## Call:
## lm(formula = mpg ~ length, data = Autos_Limpia)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.3849 -1.5615 -0.2156  1.3811 12.8933 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 60.15586    3.50906   17.14   <2e-16 ***
## length      -0.20677    0.01854  -11.15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.528 on 72 degrees of freedom
## Multiple R-squared:  0.6333, Adjusted R-squared:  0.6282 
## F-statistic: 124.3 on 1 and 72 DF,  p-value: < 2.2e-16

El modelo tambien es estadisticamente significativo, por cada pulgada más el rendimiento disminuye 0.206 mpg el rendimiento del vehículo. explicando el 63% de la varianza con un buen ajuste.

Gráfico y modelo lineal entre altura y mpg

ggplot(Autos_Limpia, aes(x=headroom, y=mpg))+
  geom_point(color="maroon3", size=2, alpha=0.7)+
  geom_smooth(method = "lm", color = "blue", se = TRUE) +
  labs(title = "Diagrama de disperción de mpg vs altura", x="altura", 
       y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'

Aunque también se presenta una gráfica desendente la pendiente es menor.

modelo_altura <- lm(mpg ~ headroom, data = Autos_Limpia)
summary(modelo_altura)
## 
## Call:
## lm(formula = mpg ~ headroom, data = Autos_Limpia)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.6931  -3.8632  -0.4483   2.3629  19.7218 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  29.7678     2.2811  13.050  < 2e-16 ***
## headroom     -2.8299     0.7337  -3.857 0.000248 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.303 on 72 degrees of freedom
## Multiple R-squared:  0.1712, Adjusted R-squared:  0.1597 
## F-statistic: 14.88 on 1 and 72 DF,  p-value: 0.0002475

Este modelo también es significativo, por cada pulgada de altura que aumentan los autos el rendimiento disminuye en 2.8 mpg. pero la varianza explicada es solo del 17% lo que sería un ajuste muy bajo.

iNTEGRACIÓN DEL MODELO CON TRES VARIABLES PREDICTORAS

modelo_integrado <- lm(mpg ~ weight + length + headroom, data = Autos_Limpia)
summary(modelo_integrado)
## 
## Call:
## lm(formula = mpg ~ weight + length + headroom, data = Autos_Limpia)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.7653 -1.6790 -0.3933  1.2309 13.3430 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 47.840789   6.149283   7.780 4.64e-11 ***
## weight      -0.003854   0.001597  -2.413   0.0185 *  
## length      -0.078497   0.056992  -1.377   0.1728    
## headroom    -0.051430   0.555437  -0.093   0.9265    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.438 on 70 degrees of freedom
## Multiple R-squared:  0.6614, Adjusted R-squared:  0.6469 
## F-statistic: 45.58 on 3 and 70 DF,  p-value: < 2.2e-16

Este modelo observamos como al integrar las tres variables, este explica el 45% de la varianza total, lo que es un ajuste debil o moderaro.

Al integrar las tres variables el valor p de la variable peso se redujo a 0.01, y la altura y la longitud dejaron de ser significativas.