Selección de datos y planteamiento del problema

Para este estudio se utilizará la base de datos mtcar, que contiene información sobre características técnicas y rendimiento de distintos automóviles.

El problema de investigación consiste en analizar la relación entre la potencia del motor (hp) y el rendimiento de combustible (mpg), con el objetivo de determinar si vehículos con mayor potencia presentan menor eficiencia.

Hipótesis

  • H0: No existe relación significativa entre hp y mpg.
  • H1: Existe una relación significativa entre hp y mpg.

Variables

  • Variable dependiente: mpg (millas por galón)
  • Variable independiente: hp (caballos de fuerza)

Dado que la variable dependiente es continua, se empleará un modelo de Regresión Lineal para evaluar esta relación.

str(mtcars)
## 'data.frame':    32 obs. of  11 variables:
##  $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
##  $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
##  $ disp: num  160 160 108 258 360 ...
##  $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
##  $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
##  $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
##  $ qsec: num  16.5 17 18.6 19.4 17 ...
##  $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
##  $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
##  $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
##  $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
summary(mtcars)
##       mpg             cyl             disp             hp       
##  Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
##  1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
##  Median :19.20   Median :6.000   Median :196.3   Median :123.0  
##  Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
##  3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
##  Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
##       drat             wt             qsec             vs        
##  Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
##  1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
##  Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
##  Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
##  3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
##  Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
##        am              gear            carb      
##  Min.   :0.0000   Min.   :3.000   Min.   :1.000  
##  1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
##  Median :0.0000   Median :4.000   Median :2.000  
##  Mean   :0.4062   Mean   :3.688   Mean   :2.812  
##  3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
##  Max.   :1.0000   Max.   :5.000   Max.   :8.000
sum(is.na(mtcars))
## [1] 0
boxplot(mtcars$mpg, main="Boxplot de mpg")

boxplot(mtcars$hp, main="Boxplot de hp")

Diccionario de datos y preparación

Se seleccionaron dos variables principales del conjunto de datos mtcars:

Ambas variables son numéricas y adecuadas para un análisis de regresión lineal.

Limpieza de datos

Se verificó la existencia de valores faltantes mediante funciones de inspección, encontrándose que el conjunto de datos no presenta valores nulos ni NA.

Asimismo, se exploraron posibles valores atípicos mediante diagramas de caja (boxplots), observando la distribución de las variables seleccionadas.

plot(mtcars$hp, mtcars$mpg,
     main="Relación entre hp y mpg",
     xlab="Caballos de fuerza (hp)",
     ylab="Millas por galón (mpg)",
     pch=19)
abline(lm(mpg ~ hp, data=mtcars), col="red")

cor(mtcars$hp, mtcars$mpg)
## [1] -0.7761684
cor(mtcars[, c("mpg", "hp")])
##            mpg         hp
## mpg  1.0000000 -0.7761684
## hp  -0.7761684  1.0000000
shapiro.test(mtcars$mpg)
## 
##  Shapiro-Wilk normality test
## 
## data:  mtcars$mpg
## W = 0.94756, p-value = 0.1229

Análisis Exploratorio y Bivariado

Se realizó un análisis exploratorio inicial para evaluar la relación entre la variable dependiente mpg y la variable predictora hp.

Gráfico de dispersión

El diagrama de dispersión permitió visualizar una relación inversa entre la potencia del motor y el rendimiento de combustible, sugiriendo que vehículos con mayor potencia presentan menor eficiencia.

Correlación

Se calculó el coeficiente de correlación de Pearson, encontrando una relación negativa entre ambas variables.

Normalidad

La prueba de Shapiro-Wilk fue utilizada para evaluar la normalidad de la variable dependiente mpg, requisito importante para el modelo de regresión lineal.

modelo_simple <- lm(mpg ~ hp, data = mtcars)
summary(modelo_simple)
## 
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
## hp          -0.06823    0.01012  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

Modelo de Regresión Simple

Se estimó un modelo de regresión lineal simple para evaluar el efecto de la potencia del motor hp sobre el rendimiento de combustible mpg.

Ecuación del modelo

mpg = β0 + β1(hp) + ε

Donde:

  • β0 representa el intercepto
  • β1 representa el cambio promedio en mpg por cada unidad adicional de hp
  • ε representa el error aleatorio

Interpretación inferencial

El coeficiente estimado para hp fue negativo, indicando que a medida que aumenta la potencia del motor, disminuye el rendimiento de combustible.

El análisis del valor p mostró que la variable hp es estadísticamente significativa, lo que respalda su influencia sobre mpg.

modelo_multiple <- lm(mpg ~ hp + wt + disp, data = mtcars)
summary(modelo_multiple)
## 
## Call:
## lm(formula = mpg ~ hp + wt + disp, data = mtcars)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -3.891 -1.640 -0.172  1.061  5.861 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 37.105505   2.110815  17.579  < 2e-16 ***
## hp          -0.031157   0.011436  -2.724  0.01097 *  
## wt          -3.800891   1.066191  -3.565  0.00133 ** 
## disp        -0.000937   0.010350  -0.091  0.92851    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.639 on 28 degrees of freedom
## Multiple R-squared:  0.8268, Adjusted R-squared:  0.8083 
## F-statistic: 44.57 on 3 and 28 DF,  p-value: 8.65e-11

Modelo de Regresión Múltiple

Se construyó un modelo de regresión lineal múltiple incorporando las variables hp, wt y disp como predictores del rendimiento de combustible mpg.

Ecuación del modelo

mpg = β0 + β1(hp) + β2(wt) + β3(disp) + ε

Interpretación

Cada coeficiente representa el cambio esperado en el rendimiento de combustible por unidad de cambio en la variable predictora correspondiente, manteniendo constantes las demás variables.

Los resultados permitieron identificar cuáles variables tienen mayor impacto sobre mpg, así como su significancia estadística individual.

En términos prácticos:

  • Mayor potencia puede reducir mpg
  • Mayor peso suele disminuir eficiencia
  • Mayor desplazamiento puede afectar negativamente el rendimiento
AIC(modelo_simple, modelo_multiple)
##                 df      AIC
## modelo_simple    3 181.2386
## modelo_multiple  5 158.6430
plot(modelo_multiple$fitted.values, residuals(modelo_multiple),
     xlab="Valores ajustados",
     ylab="Residuos",
     main="Linealidad")
abline(h=0, col="red")

plot(residuals(modelo_multiple), type="l",
     main="Independencia de residuos",
     ylab="Residuos")
abline(h=0, col="red")

plot(modelo_multiple$fitted.values, sqrt(abs(residuals(modelo_multiple))),
     main="Homocedasticidad")

qqnorm(residuals(modelo_multiple))
qqline(residuals(modelo_multiple), col="red")

shapiro.test(residuals(modelo_multiple))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_multiple)
## W = 0.92734, p-value = 0.03305
mean(residuals(modelo_multiple))
## [1] -9.540979e-17

Validación, Diagnóstico y Selección del Modelo

Se compararon los modelos de regresión simple y múltiple mediante el Criterio de Información de Akaike (AIC), seleccionando el modelo con menor valor como el más eficiente.

Diagnóstico del modelo lineal

Se evaluaron los supuestos de Gauss-Markov:

  • Linealidad
  • Independencia de errores
  • Homocedasticidad
  • Normalidad de residuos
  • Media cero del error

Los análisis gráficos y pruebas estadísticas permitieron determinar la validez del modelo seleccionado.

Selección final

El modelo múltiple presentó mejor capacidad explicativa y mejor ajuste estadístico en comparación con el modelo simple, ofreciendo una representación más robusta del fenómeno estudiado.

Conclusión Estratégica

El análisis realizado evidencia que características como la potencia del motor, el peso del vehículo y el desplazamiento influyen directamente en el rendimiento de combustible.

Desde una perspectiva estratégica, los resultados sugieren que vehículos con menor peso y menor potencia tienden a ser más eficientes en consumo, lo que puede representar importantes ahorros económicos y beneficios ambientales.

Para fabricantes o responsables de diseño automotriz, esta información resulta clave para orientar decisiones hacia modelos más eficientes y competitivos en mercados donde el consumo energético y la sostenibilidad son factores prioritarios.

En términos prácticos, el modelo desarrollado permite anticipar cómo ciertas características mecánicas afectan el desempeño del vehículo, facilitando procesos de diseño, inversión y planificación comercial más informados.