Modelo de Regresión Lineal

1. Descripción del problema

2. Variables

3. Correlación

4. Regresión lineal simple

5. Validación de supuestos

6. Regresión lineal múltiple

7. Selección del modelo (AIC)

data(mtcars)
datos <- mtcars
head(datos)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

###mpg → consumo de gasolina (variable dependiente ideal) ###hp → caballos de fuerza ###wt → peso del carro ###cyl → número de cilindros

El objetivo de este análisis es evaluar la relación entre el consumo de combustible (mpg) y la potencia del motor (hp) en un conjunto de automóviles.

Se busca determinar si los caballos de fuerza influyen significativamente en el rendimiento de combustible.

Hipótesis:

H0: No existe relación significativa entre hp y mpg (β1 = 0)
H1: Existe una relación significativa entre hp y mpg (β1 ≠ 0)

CORRELACIÓN

cor(datos$hp, datos$mpg)
## [1] -0.7761684
plot(datos$hp, datos$mpg,
     main = "Relación entre HP y MPG",
     xlab = "Caballos de fuerza (hp)",
     ylab = "Consumo de combustible (mpg)")

Regresión lineal simple

modelo <- lm(mpg ~ hp, data = datos)
summary(modelo)
## 
## Call:
## lm(formula = mpg ~ hp, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
## hp          -0.06823    0.01012  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

La ecuación del modelo de regresión lineal estimado es:

mpg = 30.0989 - 0.0682 * hp

El coeficiente de la variable hp es -0.0682, lo que indica que por cada aumento de una unidad en los caballos de fuerza, el consumo de combustible (mpg) disminuye en aproximadamente 0.068 unidades.

El intercepto (30.0989) representa el valor estimado de mpg cuando hp es igual a cero. El coeficiente de determinación R² es 0.6024, lo que indica que aproximadamente el 60.24% de la variabilidad en el consumo de combustible es explicada por la potencia del motor.

El estadístico F (45.46) con un valor p muy bajo indica que el modelo en su conjunto es significativo.

modelo2 <- lm(mpg ~ hp + wt + cyl, data = datos)
summary(modelo2)
## 
## Call:
## lm(formula = mpg ~ hp + wt + cyl, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.9290 -1.5598 -0.5311  1.1850  5.8986 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 38.75179    1.78686  21.687  < 2e-16 ***
## hp          -0.01804    0.01188  -1.519 0.140015    
## wt          -3.16697    0.74058  -4.276 0.000199 ***
## cyl         -0.94162    0.55092  -1.709 0.098480 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.512 on 28 degrees of freedom
## Multiple R-squared:  0.8431, Adjusted R-squared:  0.8263 
## F-statistic: 50.17 on 3 and 28 DF,  p-value: 2.184e-11

La ecuación del modelo de regresión lineal múltiple es:

mpg = 38.7518 - 0.0180(hp) - 3.1670(wt) - 0.9416(cyl)

El coeficiente de wt es -3.1670, lo que indica que, manteniendo constantes las demás variables, un aumento en el peso del vehículo reduce significativamente el consumo de combustible (mpg).

El coeficiente de hp es negativo (-0.0180), lo que sugiere que a mayor potencia, menor rendimiento de combustible; sin embargo, esta variable no es estadísticamente significativa (p > 0.05).

El coeficiente de cyl también es negativo (-0.9416), indicando que más cilindros reducen el mpg, aunque su significancia es débil (p cercano a 0.1).

a variable wt es estadísticamente significativa (p < 0.05), por lo que es un predictor importante del consumo de combustible.

Las variables hp y cyl no son significativas al 5%, lo que sugiere que podrían no aportar de manera relevante al modelo.

El coeficiente de determinación R² es 0.8431, lo que indica que el modelo explica aproximadamente el 84.31% de la variabilidad en mpg.

Esto representa una mejora considerable respecto al modelo de regresión simple.

Aunque el modelo múltiple presenta un mejor ajuste global (mayor R²), no todas las variables incluidas son estadísticamente significativas.

En particular, el peso del vehículo (wt) resulta ser el predictor más relevante del consumo de combustible.

AIC(modelo, modelo2)
##         df      AIC
## modelo   3 181.2386
## modelo2  5 155.4766

En conclusión, el modelo de regresión lineal múltiple es el más adecuado para explicar el consumo de combustible (mpg), ya que presenta un mejor ajuste según el criterio AIC y un mayor coeficiente de determinación.

Sin embargo, no todas las variables incluidas en el modelo resultaron ser estadísticamente significativas, destacándose el peso del vehículo (wt) como el predictor más relevante.

Esto sugiere que el peso es un factor clave en la eficiencia del consumo de combustible.