Relación de consumo entre Caballos de Fuerza y Millas por Galón

Se busca una relación de consumo entre las millas por galon y los caballos de fuerza mediante un gráfico de dispersión

Para empezar, utilizaremos la base de datos mtcars de 11 variables, que compara el consumo de combustible y 10 aspectos de diseño automovilístico y performance para 32 automóviles, que se incluye en R.
data(mtcars)
Estructura:
str(mtcars)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
A partir de ahora, nuestro objetivo será el de construir el modelo de regresión lineal en base a los datos presentados. El análisis incluye 4 etapas:
1. Gráfico de dispersión x ~ y
2. Estimación de la línea de regresión
3. Resumen de estadísticos, ecuación lineal y R2
4. Verificación de Presunciones.

GRÁFICO DE DISPERSIÓN

Generamos un gráfico de dispersión, mostrando la relación entre las millas por galón y los caballos de fuerza. Nombramos los ejes apropiadamente.
plot(mpg ~ hp, data = mtcars, xlab = "Millas Por Galón", ylab = "Caballos de Fuerza")

ESTIMACIÓN DE LA LÍNEA DE REGRESIÓN

Elaboramos una linea de regresión, calculada a partir de la suma de cuadrados mínimos, usando la función abline aplicada a un objetivo de clase lm. Este objeto de clase lm consiste en una lista de 12 elementos que describen el modelo lineal.
plot(mpg ~ hp, data = mtcars, xlab = "Millas Por Galón", ylab = "Caballos de Fuerza")
ab_fit <- lm(mpg ~ hp, data = mtcars)
plot(mpg ~ hp, data = mtcars, xlab = "Millas Por Galón", ylab = "Caballos de Fuerza")
abline(ab_fit, col = "purple", lwd = 3)

3. RESUMEN DE ESTADÍSTICOS, ECUACIÓN LINEAL Y R2

Imprimimos el resumen de los estadísticos en el modelo lineal.
summary(ab_fit)
## 
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
## hp          -0.06823    0.01012  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07
Podemos construir la ecuación línea de la potencia del motor, usando los estimados de los coeficientes ß del intercepto y el consumo del automóvil.
#####
mpg 30.09886 + (-0.066823) hp
El valor de R2 = 0.60, indica que el 60% de la variabilidad en la potencia del motor puede ser explicada por la variabilidad en el consumo del automóvil. También podemos ver su asociación con p: 1.788e-07

4. VERIFICACIÓN DE PRESUNCIONES

1. Asociación Lineal entre las Variables
Una línea recta, visualmente, representa la mejor interpretación de la relación entre las variables usando el gráfico de dispersión. Así también, un gráfico de dispersión de los residuales sobre la variable predictora nos ayudaría a determinar si la relación es lineal.
plot(ab_fit$residuals ~ mtcars$mpg, xlab = "Millas Por Galón", ylab = "Residuales")
abline(h = 0, col = "purple", lwd = 2, lty = 2)

La relación lineal será evidenciada por una distribución simétrica de los residuales alrededor de una línea púrpura.

2. Normalidad de las Residuales.
Se determina la distribución normal de los residuales a través de un gráfico Q-Q
qqnorm(ab_fit$residuals, xlab = "Cuantiles Teóricos", ylab = "Cuantiles Muestrales")
qqline(ab_fit$residuals, lwd = 2, lty = 2, col = "purple")

3. Variabilidad Constante.
Para verificar si los residuales cumplen con la condición de variabilidad constante, se puede utilizar el mismo gráfico de dispersión de los residuales sobre la variable predictora, utilizado previamente:
plot(ab_fit$residuals ~ mtcars$mpg, xlab = "Millas Por Galón", ylab = "Residuales")
abline(h = 0, col = "purple", lwd = 2, lty = 2)

La variación de los residuales debería ser homogénea alrededor de la línea púrpura.