Introducción

El rendimiento de los automóviles, medido en millas por galón (mpg), es un indicador fundamental de eficiencia energética y sostenibilidad en la industria automotriz. Comprender los factores que influyen en este rendimiento es esencial para fabricantes, consumidores y reguladores ambientales.

El rendimiento de combustible (mpg) refleja la distancia que un vehículo puede recorrer con un galón de combustible, siendo una métrica clave tanto para el ahorro económico como para la reducción de emisiones contaminantes. Estudios previos (Knittel, 2011), han demostrado que el mpg está sujeto a mejoras tecnológicas, pero también a compensaciones con otras características del vehículo, como la potencia y el peso. Por ejemplo, motores más potentes (hp) suelen consumir más combustible, lo que genera una correlación negativa con el mpg (Kahane, 2003). Sin embargo, avances tecnológicos, como la turboalimentación o los sistemas híbridos, han permitido mitigar parcialmente esta relación en modelos más recientes (EPA, 2022).

El peso del vehículo es otro factor crítico, ya que incrementa la resistencia mecánica y la demanda de energía, reduciendo así la eficiencia. Investigaciones de la NHTSA estiman que por cada 100 kg de peso adicional, el consumo de combustible aumenta aproximadamente entre 1.5% y 2% (Kahane, 2003). Por otro lado, la aceleración, medida como el tiempo que tarda un auto en pasar de 0 a 60 mph, también influye en el rendimiento. Una aceleración más rápida suele asociarse a un mayor consumo de combustible, aunque esta variable puede interactuar con la potencia y el peso, lo que sugiere la necesidad de analizar posibles efectos de interacción en el modelo.

El año de fabricación actúa como una variable proxy para capturar los avances tecnológicos en la industria automotriz, como la introducción de sistemas de inyección electrónica o el uso de materiales más ligeros. Se espera que esta variable tenga un coeficiente positivo, dado que los automóviles más nuevos tienden a ser más eficientes debido tanto a las innovaciones técnicas como a regulaciones ambientales más estrictas, como los estándares CAFE en Estados Unidos (Bento et al., 2009; Knittel, 2011). Finalmente, el origen del vehículo es una variable categórica que refleja diferencias en diseños motrices, preferencias de mercado y normativas regionales. Por ejemplo, los autos europeos históricamente han priorizado la eficiencia energética en comparación con los estadounidenses, lo que podría traducirse en diferencias significativas en el mpg (EPA, 2022).

En este trabajo, se desarrolla un modelo de regresión lineal múltiple para analizar la relación entre el rendimiento (variable dependiente) y un conjunto de variables predictoras que incluyen caballos de fuerza, peso del vehículo, aceleración, año de fabricación y origen. Este análisis busca cuantificar el impacto de estas variables en la eficiencia del combustible, evaluando su significancia estadística y capacidad predictiva, con el fin de aportar información valiosa para el diseño de políticas y la toma de decisiones en el sector.

Objetivo

El objetivo principal de este estudio es desarrollar un modelo de regresión lineal múltiple para determinar el impacto de los caballos de fuerza, peso, aceleración, año de fabricación y origen en el rendimiento de combustible (mpg) de automóviles, con el fin de identificar los factores que más influyen en la eficiencia energética vehicular.

Análisis estadistico

El análisis estadístico comenzó con una revisión global de los datos, utilizando histogramas y diagramas de caja para visualizar su distribución y variabilidad. Esto permitió obtener una primera impresión sobre las principales características de la información.

Posteriormente, se calcularon estadísticas muestrales de centralidad, dispersión y ubicación para la variable dependiente (rendimiento). En conjunto con las gráficas anteriores, estos resultados proporcionaron una comprensión inicial del comportamiento de los datos.

Se realizó un análisis exploratorio para profundizar en la relación entre el rendimiento y un conjunto de variables explicativas y confusoras. Se generaron diagramas de dispersión para variables continuas, diagramas de caja y bigotes para variables ordinales y una matriz de correlación que incluyó coeficientes de Spearman y valores p. Este proceso facilitó la identificación de patrones significativos y ayudó a seleccionar las variables más relevantes para la construcción de un modelo estadístico sólido.

Se establecieron tres modelos principales de regresión lineal múltiple. El Modelo 1 incorporó todas las variables del análisis, incluyendo caballos de fuerza, peso, aceleración, modelo (año) y origen. El Modelo 2 se redujo a un subconjunto de variables seleccionadas según sus correlaciones significativas. Finalmente, el Modelo 3 consideró únicamente la variable con mayor correlación.

Se presentan los coeficientes estimados para cada modelo, junto con su significancia, además de la prueba F de Fisher, utilizada para evaluar la utilidad del conjunto de variables en la modelación.

Para la evaluación de los modelos, se utilizaron métricas como el Akaike Information Criterion (AIC), el Bayesian Information Criterion (BIC), el coeficiente de determinación (R\(^2\)) y su versión ajustada, además del Error Cuadrático Medio (RMSE). Tanto el AIC como el BIC ayudan a identificar el modelo más parsimonioso, equilibrando ajuste y simplicidad (Akaike, 1974; Schwarz, 1978).

El coeficiente de determinación (R\(^2\)) y su versión ajustada indican el grado de explicación de la variabilidad de la variable dependiente a través de las variables independientes (Nagelkerke, 1991). Por su parte, el RMSE mide la precisión del modelo al calcular la diferencia promedio entre los valores observados y ajustados (Willmott, 1982). La combinación de estas métricas garantiza una evaluación integral del desempeño del modelo.

Posteriormente, se realizó un análisis detallado de los residuales de cada modelo, evaluando su validez y posibles violaciones de los supuestos de la regresión. Se presentan gráficos de Residuals vs Fitted, Q-Q Residuals, Scale-Location y Residuals vs Leverage, lo que permitió detectar valores atípicos (outliers) que podrían afectar el ajuste del modelo. Se comparan los modelo para evaluar mejoras en ajuste y validez estadística, usando la prueba de Shapiro-Wilk para normalidad (Shapiro & Wilk, 1965) y la prueba de Breusch-Pagan para homocedasticidad (Breusch & Pagan, 1979).

Finalmente, se abordó la posible multicolinealidad mediante el cálculo del factor de inflación de la varianza (VIF) para asegurar estabilidad y confiabilidad en la estimación de los coeficientes. Esta métrica es clave para diagnosticar la multicolinealidad, ya que permite cuantificar el incremento en la varianza de los coeficientes debido a la correlación entre las variables independientes (Daniel & Wood, 1979).

Discusión de Resultado

##### INSTALACIÓN#####
#install.packages("readxl")
#install.packages("corrplot")
#install.packages("Hmisc")
#install.packages("car")
#install.packages("performance")
#install.packages("stargazer")
#install.packages("lmtest")

##### ACTIVACIÓN #####
library(readxl)
library(corrplot)
library(Hmisc)
library(performance)
library(lmtest)
library(car)
library(stargazer)

##### CARGA DE DATOS #####

data <- read_xlsx("Carros.xlsx")[,-1]
datos <- data.frame(data)
datos$Origen <- factor(datos$Origen, levels = c(1,2,3), 
                       labels = c("Nacional", "Extranjero", "ND"))

En el análisis inicial mostrado en la siguiente imagen, se observó que ninguna de las variables sigue una distribución normal, predominando valores medios-bajos, como se muestra en la Figura 1.

par(mfrow = c(2, 3))
hist(datos$Rendimiento_mpg, main="Histograma de la distribución 
     del Rendimiento", 
     xlab="MPG", ylab = "Frecuencia", col="blue")
hist(datos$Caballos_de_Fuerza, main="Histograma de la distribución 
     de los Caballos de Fuerza", 
     xlab="HP", ylab = "Frecuencia", col="blue")
hist(datos$Peso, main="Histograma de la distribución \ndel Peso", 
     xlab="Lbs", ylab = "Frecuencia", col="blue")
hist(datos$Aceleración, main="Histograma de la distribución 
     del Tiempo de Aceleración", 
     xlab="Segundos", ylab = "Frecuencia", col="blue")
hist(datos$Año, main="Histograma de la distribución \ndel Modelo", 
     xlab="Año", ylab = "Frecuencia", col="blue")
origen <- barplot(table(datos$Origen), main="Diagrama de barras del 
                  lugar de origen", 
                  col="blue", ylim = c(0,100))
text(x = origen, y = table(datos$Origen), labels = table(datos$Origen), 
     pos = 3, cex = 0.8,col = "black")

Figura 1: Distribución de frecuencias absolutas para cada una de las variables de estudio

En la Tabla 1 se puede deducir que la diferencia entre la media (22.74) y la moda (14) sugiere que la distribución podría estar sesgada hacia valores más bajos. De igual manera, los vehículos tienen una gama amplia de eficiencias de combustible, con algunos autos significativamente más económicos que otros.

media <- mean(datos$Rendimiento_mpg)
mediana <- median(datos$Rendimiento_mpg)
moda <- as.numeric(names(which.max(table(datos$Rendimiento_mpg))))
mini <- min(datos$Rendimiento_mpg)
maxi <- max(datos$Rendimiento_mpg)
rango <- maxi-mini
vari <- var(datos$Rendimiento_mpg)
std <- sqrt(vari)
cv <- std/media
q1 = quantile(datos$Rendimiento_mpg, 1/4, names=F)
q3 = quantile(datos$Rendimiento_mpg, 3/4, names=F)
iqr = q3-q1

resumen <- cbind(c("**Media:**","**Mediana:**", "**Moda:**", NA, NA),
                 c(media, mediana,moda, NA, NA),
                 c("**Rango:**","**Varianza:**", "**Desviación estándar:**", 
                   "**Coeficiente de variación:**", NA),
                 c(rango, round(vari,2), round(std,2), round(cv,2), NA),
                 c("**Mínimo:**", "**Máximo:**", "**Q1:**", "**Q3:**", 
                   "**Rango intercuartil:**"),
                 c(mini, maxi, q1, q3, iqr))

# Formatear como tabla con kable
options(knitr.kable.NA = '')
knitr::kable(
  resumen,
  caption = "Tabla 1: Resumen de la variable Rendimiento (mpg)",
  row.names = FALSE
)

Tabla 1: Resumen de la variable Rendimiento (mpg)
Media:	22.74	Rango:	28	Mínimo:	11
Mediana:	22.5	Varianza:	55.54	Máximo:	39
Moda:	14	Desviación estándar:	7.45	Q1:	18
		Coeficiente de variación:	0.33	Q3:	26.75
				Rango intercuartil:	8.75

Asimismo, se identificó un valor atípico en la variable Caballos de Fuerza (Figura 2), lo que sugiere una mayor variabilidad en esta característica.

layout(matrix(c(1,1,2,2,3,3,0,4,4,5,5,0), nrow = 2, byrow = TRUE))

boxplot(datos$Rendimiento_mpg, main="Boxplot de la distribución \ndel Rendimiento", 
        ylab="MPG", col="blue")
boxplot(datos$Caballos_de_Fuerza, main="Boxplot de la distribución 
        de los Caballos de Fuerza", ylab="HP", col="blue")
boxplot(datos$Peso, main="Boxplot de la distribución \ndel Peso", ylab="Lbs", 
        col="blue")
boxplot(datos$Aceleración, main="Boxplot de la distribución 
        del Tiempo de Aceleración", ylab="Segundos", col="blue")
boxplot(datos$Año, main="Boxplot de la distribución \ndel Modelo", ylab="Año", 
        col="blue")

Figura 2: Boxplots para cada una de las variables de estudio

La Figura 3 ilustra las principales interacciones entre el Rendimiento y sus variables explicativas.

layout(matrix(c(1, 1, 2, 2, 3, 3, 0, 4, 4, 5, 5,0), nrow = 2, byrow = TRUE))
plot(datos$Caballos_de_Fuerza,datos$Rendimiento_mpg, 
     main="Diagrama de dispersión de \nRendimiento vs Caballos de Fuerza", 
     xlab = "Caballos de fuerza",ylab = "Millas por galón (mpg)")
plot(datos$Peso, datos$Rendimiento_mpg,
     main="Diagrama de dispersión \nde Rendimiento vs Peso", 
     xlab = "Libras",ylab = "Millas por galón (mpg)")
plot(datos$Aceleración,datos$Rendimiento_mpg, 
     main="Diagrama de dispersión de \nRendimiento vs Aceleración", 
     xlab = "Segundos",ylab = "Millas por galón (mpg)")
plot(datos$Año,datos$Rendimiento_mpg, 
     main="Diagrama de dispersión de \nRendimiento vs Modelo", 
     xlab = "Año",ylab = "Millas por galón (mpg)")
boxplot(Rendimiento_mpg ~ Origen, datos, 
        main="Histograma de frecuencias para \nRendimiento por lugar de origen", 
        ylab = "Millas por galón (mpg)", col=c("red", "darkgreen"))

Figura 3: Análisis de la relación entre el Rendimiento y las variables confusoras

Se identificó una relación negativa y relativamente lineal entre el Rendimiento y Caballos de Fuerza y Peso, lo que indica que estas variables influyen en su variabilidad. De acuerdo con este patrón, aumentos en estos factores tienden a estar asociados con una reducción en el Rendimiento.

En contraste, las variables Aceleración y Modelo (año) muestran una relación positiva, aunque menos marcada, evidenciada por la mayor dispersión de los puntos.

Para fortalecer esta interpretación, la Figura 4 ofrece una representación de la matriz de correlaciones, cuantificando la relación entre las variables.

# Calcular matriz de correlación de Spearman con p-valores
cor_matrix <- rcorr(as.matrix(data), type = "spearman")
# Cambiar nombres de filas y columnas
colnames(cor_matrix$r) <- c("Rendimiento (mpg)",
                            "Caballos de Fuerza",
                            "Peso",
                            "Aceleración",
                            "Año de fabricación",
                            "Origen")
rownames(cor_matrix$r) <- colnames(cor_matrix$r)

# Visualización con corrplot mostrando coeficientes y significancia
corrplot(cor_matrix$r, method = "color", type = "upper",
         addCoef.col = "black", number.cex = 0.7,
         tl.col = "black",
         title = "Matriz de Correlación Spearman",
         mar = c(0, 0, 2, 0))

Figura 4: Análisis de correlación entre todas las variables de estudio

La Tabla 2 complementa este análisis al mostrar los valores p, lo que permite determinar qué asociaciones tienen relevancia estadística.

# Cambiar nombres de filas y columnas
colnames(cor_matrix$P) <- colnames(cor_matrix$r)
rownames(cor_matrix$P) <- colnames(cor_matrix$r)
# Formatear como tabla con kable
knitr::kable(
  cor_matrix$P,
  caption = "Tabla 2: p-values para las correlaciones entre variables"
)

Tabla 2: p-values para las correlaciones entre variables
	Rendimiento (mpg)	Caballos de Fuerza	Peso	Aceleración	Año de fabricación	Origen
Rendimiento (mpg)		0.000000	0.00e+00	0.0000028	0.0000011	0.0000070
Caballos de Fuerza	0.0e+00		0.00e+00	0.0000000	0.0005540	0.0012320
Peso	0.0e+00	0.000000		0.0000459	0.0003590	0.0000004
Aceleración	2.8e-06	0.000000	4.59e-05		0.0003655	0.3609646
Año de fabricación	1.1e-06	0.000554	3.59e-04	0.0003655		0.0261537
Origen	7.0e-06	0.001232	4.00e-07	0.3609646	0.0261537

Los hallazgos previos se confirman, dado que la relación entre el Rendimiento y los factores Caballos de Fuerza y Peso es fuertemente negativa, con coeficientes de -0.88 y -0.95 respectivamente, acompañados de un p-value cercano a cero. Por otro lado, tanto la Aceleración como el Año presentan correlaciones positivas con el Rendimiento, con valores de 0.61 y 0.63, respaldados por p-values muy bajos.

Como primer enfoque, se planteó el Modelo 1, que incorpora todas las variables confusoras, con el objetivo de capturar la interacción completa entre las variables. Paralelamente, se diseñó el Modelo 2, que selecciona un subconjunto de variables basado en su importancia estadística y su relación con el Rendimiento. Este modelo integra exclusivamente Peso y Modelo (año) para lograr un balance entre parsimonia y eficiencia, El Modelo 3 incluye únicamente Peso, ya que es la variable con mayor correlación.

# 1. Modelo completo
modelo_1 <- lm(Rendimiento_mpg ~ Caballos_de_Fuerza + Peso + Aceleración + Año + Origen, data = datos)

# 2. Modelo reducido (eliminando variables no significativas)
modelo_2 <- lm(Rendimiento_mpg ~ Peso + Año, data = datos)

# 3. Modelo simple
modelo_3 <- lm(Rendimiento_mpg ~ Peso, data = datos)

La inclusión de Peso en el Modelo 2 se debe a su alta correlación con el Rendimiento (-0.95) y su significativa contribución evidenciada por la Prueba F de Fisher de la Tabla 3.

Aunque Caballos de Fuerza también muestra una fuerte correlación con el Rendimiento, presenta alta dependencia con Peso, lo que podría generar multicolinealidad. Para evitar efectos no deseados en la estimación, se decidió excluir esta variable del Modelo 2. En cambio, Modelo (año) se incorporó debido a su correlación significativa (0.63), lo que confirma su impacto en el consumo de combustible, respaldado por los resultados obtenidos en la prueba F.

# Generar tabla de coeficientes en español
tabla <- capture.output(
  stargazer(modelo_1, modelo_2, modelo_3, type = "html",
            title = "Tabla 3: Coeficientes de los Modelos, significancia y prueba F",
            digits = 3,
            header = F,
            omit.stat = c("rsq", "adj.rsq", "ser"),
            covariate.labels = c("Caballos de Fuerza", "Peso", "Aceleración", "Año", 
                                 "Origen (Extranjero)", "Origen (ND)", "Intercepto"),
            dep.var.caption = "Variable dependiente:",
            dep.var.labels = c("Rendimiento (mpg)"))
)

# Reemplazar términos en inglés por español
tabla_modificada <- gsub("Observations", "Observaciones", tabla)
tabla_modificada <- gsub("F Statistic", "Estadístico F", tabla_modificada)

# Mostrar la tabla modificada
cat(tabla_modificada, sep = "\n")

**Tabla 3: Coeficientes de los Modelos, significancia y prueba F**

	Variable dependiente:

	Rendimiento (mpg)
	(1)	(2)	(3)

Caballos de Fuerza	0.037
	(0.040)

Peso	-0.006^***	-0.006^***	-0.007^***
	(0.001)	(0.0005)	(0.001)

Aceleración	0.332
	(0.328)

Año	0.619^***	0.643^***
	(0.138)	(0.131)

Origen (Extranjero)	2.515
	(1.804)

Origen (ND)	1.170
	(1.226)

Intercepto	-14.429	-7.965	43.974^***
	(11.753)	(10.640)	(1.658)


Observaciones	50	50	50
Estadístico F	47.789^*** (df = 6; 43)	145.353^*** (df = 2; 47)	179.591^*** (df = 1; 48)

Note:	p<0.1; p<0.05; p<0.01

Los modelos fueron evaluados mediante AIC, BIC, R\(^2\), R\(^2\) ajustado y RMSE, cuyos resultados se presentan en la Tabla 4.

# Crear tabla comparativa de los modelos
comparacion <- compare_performance(
  modelo_1, 
  modelo_2,
  modelo_3,
  metrics = c("AIC", "BIC", "R2", "R2_adj", "RMSE")
)
colnames(comparacion) <- c("Nombre", "Modelo","AIC","AIC (peso)","BIC",
                           "BIC (peso)", "R2","R2 ajustada", "RMSE")

# Formatear como tabla con kable
knitr::kable(
  comparacion[,-c(2,4,6)],
  caption = "Tabla 4: Criterios estadisticos de evaluación de los modelo: 
  modelo_1 (completo), modelo_2 (reducido) y modelo_3 (simple)"
)

Tabla 4: Criterios estadisticos de evaluación de los modelo: modelo_1 (completo), modelo_2 (reducido) y modelo_3 (simple)
Nombre	AIC	BIC	R2	R2 ajustada	RMSE
modelo_1	255.8871	271.1833	0.8695930	0.8513967	2.664276
modelo_2	251.1405	258.7886	0.8608255	0.8549032	2.752381
modelo_3	269.9244	275.6605	0.7890951	0.7847013	3.388224

El Modelo 1 exhibe el mayor R\(^2\) (0.8696), lo que indica que explica mejor la variabilidad del Rendimiento. Además, su R\(^2\) ajustado (0.8514) confirma que mantiene estabilidad, considerando el número de variables incluidas.
El Modelo 3, en contraste, tiene el menor R\(^2\) (0.7891) y R\(^2\) ajustado (0.7847), lo que sugiere que es el menos explicativo.
El Modelo 2 logra un R\(^2\) ajustado de 0.8549, lo que muestra que, con menos variables, alcanza un ajuste similar al del Modelo 1.

Además, al evaluar la parsimonia, el Modelo 2 es el más eficiente, ya que tiene el menor AIC (251.14) y BIC (258.79). En contraste, el Modelo 3 tiene los valores más altos (AIC = 269.92, BIC = 275.66), lo que indica menor eficiencia en la selección de variables.

Por otro lado, en términos de precisión predictiva, el Modelo 1 muestra el menor RMSE (2.6643), lo que sugiere estimaciones más precisas, mientras que el Modelo 3 presenta el mayor RMSE (3.3882), reflejando mayor error en la predicción.

La Figura 5 explora los residuales del Modelo 1, con el propósito de verificar la validez de los supuestos de regresión y detectar posibles inconsistencias. Se observa que la mayoría de los residuos están distribuidos en torno a cero, lo que sugiere que el modelo capta correctamente la tendencia de los datos. Sin embargo, hay una ligera curvatura en su ubicación, lo que podría indicar falta de linealidad.

# Residuales del modelo_1
par(mfrow = c(2, 2))
plot(modelo_1)

Figura 5: Análisis de residuales del Modelo 1

En el gráfico Q-Q, aparecen valores anómalos que sugieren desviaciones respecto al supuesto de normalidad, mientras que el análisis de homocedasticidad muestra una variabilidad relativamente constante. Además, en la relación Residuals vs Leverage, se detectan algunos puntos con alta influencia, aunque ninguno supera el umbral de Cook’s distance.

La Figura 6 analiza los residuales del Modelo 2, revelando una mejor adherencia a la normalidad en comparación con el Modelo 1. En el gráfico Q-Q, los puntos siguen más de cerca la diagonal teórica, lo que respalda el cumplimiento del supuesto de normalidad.

# Residuales del modelo_2
par(mfrow = c(2, 2))
plot(modelo_2)

Figura 6:Análisis de residuales del Modelo 2

En términos de influencia, el Residuals vs Leverage muestra una reducción en los puntos influyentes, aunque el leverage de cada observación es más alto que en el Modelo 1, sin superar Cook’s distance.

Por otro lado, la Figura 7 evalúa los residuales del Modelo 3, identificando una ligera curvatura en la ubicación de los residuos y valores atípicos en los extremos del gráfico Q-Q.

# Residuales del modelo_3
par(mfrow = c(2, 2))
plot(modelo_3)

Figura 7: Análisis de residuales del Modelo 3

Ademas, se observa una variabilidad menos constante en la homocedasticidad, aunque los valores de leverage están muy dispersos, sin superar el umbral de Cook’s distance.

Para validar los análisis anteriores, en la Tabla 5 se presentan los resultados de las pruebas de normalidad y homocedasticidad.

Tabla 5: Validación de supuestos de normalidad y homocedasticidad de residuos de los modelos
Modelo	Test	Statistic	P_Value
Modelo_1	Shapiro-Wilk	0.9818842	0.6336926
Modelo_1	Breusch-Pagan	6.3536358	0.3847629
Modelo_2	Shapiro-Wilk	0.9703009	0.2380512
Modelo_2	Breusch-Pagan	5.0534240	0.0799214
Modelo_3	Shapiro-Wilk	0.9450743	0.0214921
Modelo_3	Breusch-Pagan	4.3895427	0.0361600

Los p-values muestran que los supuestos fundamentales se cumplen en los Modelos 1 y 2, pero no en el Modelo 3, lo que confirma que sus residuos no siguen una distribución normal y presentan heterocedasticidad.

El análisis de VIF (Tabla 6) muestra que el Modelo 1 tiene moderada multicolinealidad en Caballos de Fuerza y Peso (VIF = 3.64 y 3.10, respectivamente), mientras que el Modelo 2 exhibe valores dentro de rangos seguros (VIF < 3).

# Análisis de factores de inflación de la varianza
vif_modelo_1 <- t(vif(modelo_1))
vif_modelo_2 <- t(vif(modelo_2))
vif_1 <- data.frame(vif_modelo_1)[3,]
vif_2 <- data.frame(vif_modelo_2)
vif_2_c <- data.frame(vif_1)

for (i in colnames(vif_1)) {
  ifelse (i %in% colnames(vif_2),
    vif_2_c[, i] <- vif_2[, i],
    vif_2_c[, i] <- NA)
}

vif_completo <- rbind(Modelo_1 = vif_1, Modelo_2 = vif_2_c)

# Mostrar la tabla con kable
options(knitr.kable.NA = '')
knitr::kable(
  vif_completo,
  caption = "Tabla 6: Valores de factores de inflación de la varianza (VIF) para los Modelos 1 y 2"
)

Tabla 6: Valores de factores de inflación de la varianza (VIF) para los Modelos 1 y 2
	Caballos_de_Fuerza	Peso	Aceleración	Año	Origen
Modelo_1	3.644139	3.106529	1.955929	1.179920	1.197311
Modelo_2		1.274598		1.274598

Dado que el Modelo 2 combina parsimonia, ajuste óptimo y estabilidad estadística, se considera la mejor alternativa.

En este modelo, el Intercepto es -7.965353, el coeficiente de Peso es -0.005907, y el coeficiente de Año es 0.642819.

Peso tiene un efecto negativo sobre el Rendimiento, lo que implica que autos más pesados consumen más combustible.
Año muestra una relación positiva, indicando que vehículos más recientes tienen mejor eficiencia, posiblemente debido a mejoras tecnológicas.

Conclusiones

El Modelo 2 parece ser la mejor opción, ya que tiene el menor AIC y BIC, logrando un balance entre ajuste y complejidad sin perder capacidad explicativa.

El Modelo 1 es sólido en términos de ajuste, pero su complejidad y problemas de multicolinealidad podrían afectar su interpretabilidad.

El Modelo 3 no es recomendable, debido a su bajo poder explicativo y el incumplimiento de supuestos fundamentales de la regresión.

El Modelo 2 demuestra cumplimiento en la normalidad, homocedasticidad y reducción de valores influyentes en comparación con los demas modelos, lo que lo posiciona como el modelo más sólido y estable hasta el momento. Este avance no solo refuerza la capacidad predictiva del modelo, sino que también facilita una interpretación más clara y fiable de los resultados.

El Peso (r = -0.95) y la Año (r = 0.85) fueron los predictores más fuertes y significante del Rendimiento, respaldando su papel crítico en el gasto de combustible.

E peso tiene un impacto negativo en el rendimiento, lo que es esperable en la mayoría de los vehículos.

El año tiene un impacto positivo, lo que sugiere que los autos más nuevos son más eficientes en consumo de combustible.

Bibliografía

Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19, 716–723.

Bento, A. M., Goulder, L. H., Jacobsen, M. R., & Von Haefen, R. H. (2009). Distributional and efficiency impacts of increased US gasoline taxes. American Economic Review, 99(3), 667–699.

Breusch, T. S., & Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation. Econometrica: Journal of the Econometric Society, 47, 1287–1294.

Daniel, C., & Wood, F. S. (1979). Applications of variance inflation factors in regression analysis. Technometrics, 21, 1–12.

EPA. (2022). Fuel economy trends report 2022. U.S. Environmental Protection Agency.

Kahane, C. J. (2003). Vehicle weight, fatality risk and crash compatibility of model year 1991-99 passenger cars and light trucks.

Knittel, C. R. (2011). Automobiles on steroids: Product attribute trade-offs and technological progress in the automobile sector. American Economic Review, 101(7), 3368–3399.

Nagelkerke, N. J. D. (1991). A note on a general definition of the coefficient of determination. Biometrika, 78, 691–692.

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6, 461–464.

Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52, 591–611.

Willmott, C. J. (1982). Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society, 63, 1309–1313.

Análisis de Regresión Lineal: Factores influyentes en el rendimiento de los vehículos