Para esta entrega se utilizará un modelo lineal para predecir el rendiminto (mpg) a partir del peso, la longitud y la altura. Se utilizará un modelo lineal porque las tres variables son de tipo escalar. la pregunta queda de la siguiente manera:
¿El peso, la altura y la longitud de un auto predice su rendimiento (mpg)?
Para modelar la interacción primero mostraré lass gráficas con la recta calculada del modelo lineal para cada variable predictora, con los coeficiente de la regresión lineal simple
ggplot(Autos_Limpia, aes(x=weight, y=mpg))+
geom_point(color="maroon3", size=2, alpha=0.7)+
geom_smooth(method = "lm", color = "blue", se = TRUE) +
labs(title = "Diagrama de disperción de mpg vs peso", x="Peso",
y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'
En el gráfico podemos observar la recta descendente al aumentar el peso se reduce el rendimiento
modelo_peso <- lm(mpg ~ weight, data = Autos_Limpia)
summary(modelo_peso)
##
## Call:
## lm(formula = mpg ~ weight, data = Autos_Limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.9593 -1.9325 -0.3713 0.8885 13.8174
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 39.4402835 1.6140031 24.44 <2e-16 ***
## weight -0.0060087 0.0005179 -11.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.439 on 72 degrees of freedom
## Multiple R-squared: 0.6515, Adjusted R-squared: 0.6467
## F-statistic: 134.6 on 1 and 72 DF, p-value: < 2.2e-16
Este modelo es significativo con una significancia menos a 0.001, lo que infica que por cada libra de peso que aumente un vehículo su rendimiento disminuye en 0.006 millas por galon. El modelo explica el peso explica aproximadamente el 65% de la varianza del cambio en el rendimiento, lo que sería un bueen ajuste.
ggplot(Autos_Limpia, aes(x=length, y=mpg))+
geom_point(color="maroon3", size=2, alpha=0.7)+
geom_smooth(method = "lm", color = "blue", se = TRUE) +
labs(title = "Diagrama de disperción de mpg vs altura", x="Longitud",
y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'
En el gráfico se observa una recta descendiente, lo que parece indicar
que también tiene un efecto sobre el rendimiento. pero falta confirmar
con el calculo de los coeficientes de regresión.
modelo_longitud <- lm(mpg ~ length, data = Autos_Limpia)
summary(modelo_longitud)
##
## Call:
## lm(formula = mpg ~ length, data = Autos_Limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3849 -1.5615 -0.2156 1.3811 12.8933
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 60.15586 3.50906 17.14 <2e-16 ***
## length -0.20677 0.01854 -11.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.528 on 72 degrees of freedom
## Multiple R-squared: 0.6333, Adjusted R-squared: 0.6282
## F-statistic: 124.3 on 1 and 72 DF, p-value: < 2.2e-16
El modelo tambien es estadisticamente significativo, por cada pulgada más el rendimiento disminuye 0.206 mpg el rendimiento del vehículo. explicando el 63% de la varianza con un buen ajuste.
ggplot(Autos_Limpia, aes(x=headroom, y=mpg))+
geom_point(color="maroon3", size=2, alpha=0.7)+
geom_smooth(method = "lm", color = "blue", se = TRUE) +
labs(title = "Diagrama de disperción de mpg vs altura", x="altura",
y="Rendimiento (mpg)")
## `geom_smooth()` using formula = 'y ~ x'
Aunque también se presenta una gráfica desendente la pendiente es
menor.
modelo_altura <- lm(mpg ~ headroom, data = Autos_Limpia)
summary(modelo_altura)
##
## Call:
## lm(formula = mpg ~ headroom, data = Autos_Limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.6931 -3.8632 -0.4483 2.3629 19.7218
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 29.7678 2.2811 13.050 < 2e-16 ***
## headroom -2.8299 0.7337 -3.857 0.000248 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.303 on 72 degrees of freedom
## Multiple R-squared: 0.1712, Adjusted R-squared: 0.1597
## F-statistic: 14.88 on 1 and 72 DF, p-value: 0.0002475
Este modelo también es significativo, por cada pulgada de altura que aumentan los autos el rendimiento disminuye en 2.8 mpg. pero la varianza explicada es solo del 17% lo que sería un ajuste muy bajo.
modelo_integrado <- lm(mpg ~ weight + length + headroom, data = Autos_Limpia)
summary(modelo_integrado)
##
## Call:
## lm(formula = mpg ~ weight + length + headroom, data = Autos_Limpia)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.7653 -1.6790 -0.3933 1.2309 13.3430
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 47.840789 6.149283 7.780 4.64e-11 ***
## weight -0.003854 0.001597 -2.413 0.0185 *
## length -0.078497 0.056992 -1.377 0.1728
## headroom -0.051430 0.555437 -0.093 0.9265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.438 on 70 degrees of freedom
## Multiple R-squared: 0.6614, Adjusted R-squared: 0.6469
## F-statistic: 45.58 on 3 and 70 DF, p-value: < 2.2e-16
Este modelo observamos como al integrar las tres variables, este explica el 45% de la varianza total, lo que es un ajuste debil o moderaro.
Al integrar las tres variables el valor p de la variable peso se redujo a 0.01, y la altura y la longitud dejaron de ser significativas.