Para este estudio se utilizará la base de datos mtcar, que contiene información sobre características técnicas y rendimiento de distintos automóviles.
El problema de investigación consiste en analizar la relación entre la potencia del motor (hp) y el rendimiento de combustible (mpg), con el objetivo de determinar si vehículos con mayor potencia presentan menor eficiencia.
Dado que la variable dependiente es continua, se empleará un modelo de Regresión Lineal para evaluar esta relación.
str(mtcars)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars)
## mpg cyl disp hp
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## drat wt qsec vs
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## am gear carb
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
sum(is.na(mtcars))
## [1] 0
boxplot(mtcars$mpg, main="Boxplot de mpg")
boxplot(mtcars$hp, main="Boxplot de hp")
Se seleccionaron dos variables principales del conjunto de datos mtcars:
Ambas variables son numéricas y adecuadas para un análisis de regresión lineal.
Se verificó la existencia de valores faltantes mediante funciones de inspección, encontrándose que el conjunto de datos no presenta valores nulos ni NA.
Asimismo, se exploraron posibles valores atípicos mediante diagramas de caja (boxplots), observando la distribución de las variables seleccionadas.
plot(mtcars$hp, mtcars$mpg,
main="Relación entre hp y mpg",
xlab="Caballos de fuerza (hp)",
ylab="Millas por galón (mpg)",
pch=19)
abline(lm(mpg ~ hp, data=mtcars), col="red")
cor(mtcars$hp, mtcars$mpg)
## [1] -0.7761684
cor(mtcars[, c("mpg", "hp")])
## mpg hp
## mpg 1.0000000 -0.7761684
## hp -0.7761684 1.0000000
shapiro.test(mtcars$mpg)
##
## Shapiro-Wilk normality test
##
## data: mtcars$mpg
## W = 0.94756, p-value = 0.1229
Se realizó un análisis exploratorio inicial para evaluar la relación entre la variable dependiente mpg y la variable predictora hp.
El diagrama de dispersión permitió visualizar una relación inversa entre la potencia del motor y el rendimiento de combustible, sugiriendo que vehículos con mayor potencia presentan menor eficiencia.
Se calculó el coeficiente de correlación de Pearson, encontrando una relación negativa entre ambas variables.
La prueba de Shapiro-Wilk fue utilizada para evaluar la normalidad de la variable dependiente mpg, requisito importante para el modelo de regresión lineal.
modelo_simple <- lm(mpg ~ hp, data = mtcars)
summary(modelo_simple)
##
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7121 -2.1122 -0.8854 1.5819 8.2360
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 30.09886 1.63392 18.421 < 2e-16 ***
## hp -0.06823 0.01012 -6.742 1.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared: 0.6024, Adjusted R-squared: 0.5892
## F-statistic: 45.46 on 1 and 30 DF, p-value: 1.788e-07
Se estimó un modelo de regresión lineal simple para evaluar el efecto de la potencia del motor hp sobre el rendimiento de combustible mpg.
mpg = β0 + β1(hp) + ε
Donde:
El coeficiente estimado para hp fue negativo, indicando que a medida que aumenta la potencia del motor, disminuye el rendimiento de combustible.
El análisis del valor p mostró que la variable hp es estadísticamente significativa, lo que respalda su influencia sobre mpg.
modelo_multiple <- lm(mpg ~ hp + wt + disp, data = mtcars)
summary(modelo_multiple)
##
## Call:
## lm(formula = mpg ~ hp + wt + disp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.891 -1.640 -0.172 1.061 5.861
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.105505 2.110815 17.579 < 2e-16 ***
## hp -0.031157 0.011436 -2.724 0.01097 *
## wt -3.800891 1.066191 -3.565 0.00133 **
## disp -0.000937 0.010350 -0.091 0.92851
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8083
## F-statistic: 44.57 on 3 and 28 DF, p-value: 8.65e-11
Se construyó un modelo de regresión lineal múltiple incorporando las variables hp, wt y disp como predictores del rendimiento de combustible mpg.
mpg = β0 + β1(hp) + β2(wt) + β3(disp) + ε
Cada coeficiente representa el cambio esperado en el rendimiento de combustible por unidad de cambio en la variable predictora correspondiente, manteniendo constantes las demás variables.
Los resultados permitieron identificar cuáles variables tienen mayor impacto sobre mpg, así como su significancia estadística individual.
En términos prácticos:
AIC(modelo_simple, modelo_multiple)
## df AIC
## modelo_simple 3 181.2386
## modelo_multiple 5 158.6430
plot(modelo_multiple$fitted.values, residuals(modelo_multiple),
xlab="Valores ajustados",
ylab="Residuos",
main="Linealidad")
abline(h=0, col="red")
plot(residuals(modelo_multiple), type="l",
main="Independencia de residuos",
ylab="Residuos")
abline(h=0, col="red")
plot(modelo_multiple$fitted.values, sqrt(abs(residuals(modelo_multiple))),
main="Homocedasticidad")
qqnorm(residuals(modelo_multiple))
qqline(residuals(modelo_multiple), col="red")
shapiro.test(residuals(modelo_multiple))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_multiple)
## W = 0.92734, p-value = 0.03305
mean(residuals(modelo_multiple))
## [1] -9.540979e-17
Se compararon los modelos de regresión simple y múltiple mediante el Criterio de Información de Akaike (AIC), seleccionando el modelo con menor valor como el más eficiente.
Se evaluaron los supuestos de Gauss-Markov:
Los análisis gráficos y pruebas estadísticas permitieron determinar la validez del modelo seleccionado.
El modelo múltiple presentó mejor capacidad explicativa y mejor ajuste estadístico en comparación con el modelo simple, ofreciendo una representación más robusta del fenómeno estudiado.
El análisis realizado evidencia que características como la potencia del motor, el peso del vehículo y el desplazamiento influyen directamente en el rendimiento de combustible.
Desde una perspectiva estratégica, los resultados sugieren que vehículos con menor peso y menor potencia tienden a ser más eficientes en consumo, lo que puede representar importantes ahorros económicos y beneficios ambientales.
Para fabricantes o responsables de diseño automotriz, esta información resulta clave para orientar decisiones hacia modelos más eficientes y competitivos en mercados donde el consumo energético y la sostenibilidad son factores prioritarios.
En términos prácticos, el modelo desarrollado permite anticipar cómo ciertas características mecánicas afectan el desempeño del vehículo, facilitando procesos de diseño, inversión y planificación comercial más informados.