1) Gráfico de dispersión x ~ y

Gráfico de dispersión que muestra la relación entre el consumo de galones por milla(mpg) y la potencia del motor(hp)

 plot(hp ~ mpg, data =mtcars, xlab = "hp", ylab = "mpg")

2) Estimación de la línea de regresión

ab_fit <- lm(hp ~ mpg, data = mtcars)
plot(hp ~ mpg, data = mtcars, xlab = "hp", ylab = "mpg")
abline(ab_fit, col = "skyblue", lwd = 3)

3) Resumen de estadísticos, ecuación lineal y R2

Resumen del modelo estadistico de regresión lineal

summary(ab_fit)
## 
## Call:
## lm(formula = hp ~ mpg, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.26 -28.93 -13.45  25.65 143.36 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   324.08      27.43  11.813 8.25e-13 ***
## mpg            -8.83       1.31  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43.95 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

Ecuación de la potencia del motor (hp) usando el dato del coeficiente del intercepto y el consumo del motor(mpg)

hp = 324.08 -8.83 (mpg)

Valor de R^2 = O.6 nos dice que el 60% de variabilidad de la potencia del motor (hp) se puede explicar por la variabilidad del consumo (mpg). La asociación entre la potencia y el consumo es de p-value: 1.788e-07

4) Verificación de presunciones

La validez del modelo de regresión lineal depende del cumplimiento de 3 condiciones sin las cuales los estadísticos estimados y la ecuación lineal no son confiables. Verificamos el cumplimiento de estas condiciones a continuacion:

Asociación lineal entre las variables

plot(ab_fit$residuals ~ mtcars$hp, xlab = "hp", ylab = "Residuales")
abline(h = 0, col = "red", lwd = 2, lty = 2)

Normalidad de los residuales

hist(ab_fit$residuals, xlab = "Residuales", ylab = "Frecuencia", main = "mtcars")

Variabilidad constante

plot(ab_fit$residuals ~ mtcars$hp, xlab = "hp", ylab = "Residuales")
abline(h = 0, col = "red", lwd = 2, lty = 2)

Tambien a traves de un gráfico Q-Q sería muy útil para determinar si los residuales siguen una distribución normal:

qqnorm(ab_fit$residuals, xlab = "hp", ylab = "mpg")
qqline(ab_fit$residuals, lwd = 2, lty = 2, col = "green")

5) Interpretación y conclusión

Lo que muestra la linea de regresión es que con un motor con más potencia el automóvil consume más. Con la ecuación lineal demostramos que la variabilidad entre estas dos (hp, mpg) es de aproximadamente 60%. Y en el gráfico de variabilidad constante podemos observar que cuanto mas grande sea el motor mayor es la cantidad de residuos producido. En conclusión se logra entender fácilmente que con un motor con más potencia se consume más en menos tiempo y genera más residuos.