Dicho trabajo consiste en construir un modelo de regresión lineal que nos permita predecir el consumo del automóvil con respecto a la potencia del motor. Para lo cual se utilizó la base de datos mtcars provehída por R, específicamente las variables hp (Potencia del Motor) y mpg (Consumo de Combustible).
plot(hp ~ mpg, data = mtcars, xlab = "Consumo de Combustible", ylab = "Potencia del Motor")
Para dibujar la línea de regresión primero se calculan los parámetros del modelo lineal
ab_fit <- lm(hp ~ mpg, data = mtcars)
Y después se plotea la línea de regresión estimada sobre el gráfico de dispersión usando la función abline
plot(hp ~ mpg, data = mtcars, xlab = "Consumo de Combustible", ylab = "Potencia del Motor")
abline(ab_fit, col = "red", lwd = 3)
summary(ab_fit)
##
## Call:
## lm(formula = hp ~ mpg, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -59.26 -28.93 -13.45 25.65 143.36
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 324.08 27.43 11.813 8.25e-13 ***
## mpg -8.83 1.31 -6.742 1.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43.95 on 30 degrees of freedom
## Multiple R-squared: 0.6024, Adjusted R-squared: 0.5892
## F-statistic: 45.46 on 1 and 30 DF, p-value: 1.788e-07
El valor de R^2 = 0.6 nos muestra que el 60% de la variabilidad de la potencia del Motor (hp) se puede explicar por la variabilidad del Consumo de Combustible (mpg). La asociación entre la Potencia del Motor y el consumo de Combustible nos da como resultado p-valor: 1.788e-07.
La validez del modelo de regresión lineal depende del cumplimiento de 3 condiciones sin las cuales los estadísticos estimados y la ecuación lineal no son confiables. Verificamos el cumplimiento de estas condiciones a continuacion:
Para lo cual verificamos que una línea recta representa la mejor interpretación de la relación entre las variables usando el gráfico de dispersión anteriormente. Un gráfico de dispersión de los residuales sobre la variable predictora nos ayudará a determinar si la relación es lineal o no.
plot(ab_fit$residuals ~ mtcars$hp, xlab = "Potencia del Motor", ylab = "Residuales")
abline(h = 0, col = "pink", lwd = 2, lty = 2)
Una relación lineal será la evidencia mediante una distribución simétrica de los residuales alrededor de la línea violeta.
Para verificar si los residuales siguen una distribución normal se utilizará un histograma:
hist(ab_fit$residuals, xlab = "Residuales", ylab = "Frecuencia", main = "")
Un gráfico Q-Q también es muy útil para determinar si los residuales siguen o no una distribución normal:
qqnorm(ab_fit$residuals, xlab = "Cuantiles teóricos", ylab = "Cuantiles muestrales")
qqline(ab_fit$residuals, lwd = 2, lty = 2, col = "gold")
Para verificar si los residuales cumplen con esta condición se puede utilizar el mismo gráfico de dispersión de los residuales sobre la variable predictora utilizado previamente:
plot(ab_fit$residuals ~ mtcars$hp, xlab = "Caballos de Fuerza Bruta", ylab = "Residuales")
abline(h = 0, col = "blue", lwd = 2, lty = 2)
La variación de los residuales debe de ser homogénea alrededor de la línea azul.
La linea de regresión nos indica que con un motor con mayor potencia consume más combustible. Con la ecuación lineal demostramos que la variabilidad entre estas variables (hp, mpg) es del 60%. Y en el gráfico de variabilidad constante podemos observar que cuanto más grande sea el motor (mayor potencia) mayor es la cantidad de residuos que produce.La asociación entre la potencia del motor y el consumo de combustible es de p-valor: 1.788e-07. En conclusión se logra entender que con un motor con más potencia se consume más litros de combustible/millas en menos tiempo y genera más residuos.