El presente trabajo tiene como objetivo construir, analizar y validar modelos econométricos de regresión lineal aplicados al mercado de vehículos usados de la marca Mazda en Colombia. Específicamente, se busca explicar el comportamiento del precio de venta de los automóviles (variable dependiente) a partir de variables que influyen de forma lógica y observable en su valorización.
Para ello, se utilizaron como variables independientes el kilometraje (como indicador del uso o desgaste del vehículo), el año del modelo (que refleja la antigüedad y, por ende, el grado de obsolescencia) y el tipo de transmisión (automática o mecánica), por ser una característica técnica con impacto en el valor percibido por el comprador. En los modelos múltiples, también se incluyeron variables categóricas como el departamento, la ciudad y el color, con el fin de evaluar si existen patrones de precio asociados a la ubicación geográfica o la estética del vehículo.
La metodología se basó en estimaciones de regresión lineal simple y múltiple, acompañadas de análisis exploratorios, pruebas estadísticas y validación cruzada, con el propósito de identificar el modelo con mejor capacidad explicativa y predictiva. Este enfoque no solo permite comprender mejor la dinámica de precios en el mercado automotor, sino también generar herramientas aplicables a la toma de decisiones comerciales, financieras y de política de precios.
## # A tibble: 6 × 7
## precio kilometraje transmision modelo color ciudad Dpto
## <dbl> <dbl> <chr> <dbl> <chr> <chr> <chr>
## 1 34000000 140000 Automática 2008 Gris Medellín Antioquia
## 2 26400000 112000 Automática 2012 Gris Medellín Antioquia
## 3 42500000 102222 Automática 2013 Gris Itagüí Antioquia
## 4 91000000 1000 Automática 2022 Gris Envigado Antioquia
## 5 35000000 134500 Automática 2012 Blanco Medellín Antioquia
## 6 67000000 61997 Automática 2017 Gris Medellín Antioquia
## precio kilometraje modelo
## Min. : 6800000 Min. : 0 Min. :1995
## 1st Qu.: 35000000 1st Qu.: 39125 1st Qu.:2011
## Median : 42000000 Median : 79000 Median :2015
## Mean : 50467516 Mean : 74996 Mean :2015
## 3rd Qu.: 63000000 3rd Qu.:107375 3rd Qu.:2018
## Max. :169800000 Max. :280000 Max. :2022
Al analizar la variable precio, observamos una distribución asimétrica a la derecha, lo que indica que la mayoría de los vehículos Mazda se encuentran en un rango de precios entre 30 y 60 millones de pesos, aunque existen algunos casos atípicos con precios muy elevados que podrían corresponder a modelos recientes o versiones de lujo. Esta concentración sugiere un mercado predominante de vehículos usados de gama media.
En cuanto a kilometraje, la distribución es bastante dispersa pero con una tendencia clara: la mayor parte de los vehículos tiene entre 50.000 y 120.000 km recorridos. Este comportamiento es consistente con un parque automotor de segunda mano que ya ha tenido un uso moderado. También se observan algunos valores extremos, que podrían estar influyendo en el análisis y que sería recomendable revisar en una etapa posterior para evaluar su impacto en el modelo.
Por último, la variable modelo (año de fabricación) muestra que la mayoría de los vehículos disponibles en la base de datos pertenecen a los últimos 10 a 15 años, con un claro aumento en la frecuencia de modelos más recientes, especialmente entre los años 2012 y 2022. Esto refleja una mayor participación de autos más modernos en el mercado, lo cual puede tener una influencia directa sobre el precio, ya que se espera que a mayor año, mayor sea el valor del vehículo.
##
## Automática Mecánica
## 174 140
##
## Azul Beige Blanco Crema Dorado Gris Marrón Morado
## 19 5 76 1 1 105 2 1
## Negro Otro Plateado Rojo Verde Vinotinto
## 19 6 26 44 3 6
##
## Acacías Aipe Ansermanuevo Armenia Barrancabermeja
## 1 1 1 11 2
## Barranquilla Bello Bogotá Bucaramanga Cali
## 13 10 51 8 49
## Cartago Chía Cúcuta Envigado Floridablanca
## 1 3 5 5 8
## Funza Fusagasugá Girardot Girón Ibagué
## 1 2 1 1 8
## Itagüí La Ceja Manizales Medellín Montería
## 4 1 21 55 1
## Neiva Palestina Palmira Pereira Piedecuesta
## 8 1 1 10 1
## Pitalito Popayán Río de Oro Rionegro Sabaneta
## 1 1 1 5 2
## San Gil SanJuandePasto SantaMarta Sincelejo Tuluá
## 1 3 1 1 2
## Valledupar Villavicencio Yarumal Yopal Yumbo
## 1 6 1 1 1
## Zipaquirá
## 1
##
## Antioquia Atlántico Bogotá Caldas
## 83 13 51 22
## Casanare Cauca Cesar Córdoba
## 1 1 2 1
## Cundinamarca Huila Magdalena Meta
## 8 10 1 7
## Nariño NortedeSantander Quindío Risaralda
## 3 5 11 10
## Santander Sucre Tolima ValledelCauca
## 21 1 8 55
Al observar la variable transmisión, se evidencia una distribución relativamente equilibrada entre vehículos automáticos y mecánicos, aunque con una ligera preferencia por los automáticos. Esta proporción puede reflejar una creciente demanda por vehículos más cómodos para la conducción urbana, lo cual puede tener un impacto relevante sobre el precio.
En cuanto a la variable color, se identifica una alta concentración en tres colores principales: gris, blanco y rojo. Particularmente, el gris es el más frecuente con diferencia, lo que sugiere que los compradores tienden a preferir tonos neutros y sobrios, posiblemente por razones de estética, mantenimiento o facilidad de reventa. Este patrón puede ser relevante al momento de incorporar el color como variable explicativa en los modelos múltiples.
Respecto a la variable ciudad, se observa que la mayoría de los vehículos se encuentran en ciudades principales como Medellín, Bogotá y Bucaramanga. Estas concentraciones indican mercados automotores más activos, lo cual también puede relacionarse con mayores niveles de oferta y demanda, influenciando potencialmente el valor de los vehículos en esas zonas.
Finalmente, al analizar la variable departamento, se confirma lo anterior: Antioquia, Bogotá D.C. y Valle del Cauca son los departamentos con mayor número de registros. Este comportamiento es lógico dada la densidad poblacional y el dinamismo económico de estas regiones, lo que refuerza la importancia de considerar la ubicación geográfica dentro del análisis econométrico del precio.
En el primer gráfico, que representa la relación entre precio y kilometraje, se observa una clara tendencia negativa. A medida que el kilometraje aumenta, el precio tiende a disminuir. Esta relación es lógica desde una perspectiva financiera y de mercado: un mayor kilometraje refleja mayor desgaste del vehículo, lo que reduce su valor de reventa. Además, la línea de tendencia refuerza esta relación inversa, lo cual sugiere que el kilometraje podría ser una variable predictora importante dentro del modelo de regresión. A pesar de que hay algunos valores atípicos (vehículos con alto kilometraje pero precios relativamente altos), la tendencia general es clara.
Por otro lado, en el segundo gráfico que relaciona el precio con el año del modelo, se aprecia una relación positiva. Es decir, los vehículos más nuevos tienden a tener precios más altos, lo cual es coherente con la teoría financiera que indica que los activos se deprecian con el tiempo. La pendiente ascendente de la línea de regresión muestra que a mayor año (es decir, modelos más recientes), mayor es el valor estimado del vehículo. También se nota cierta dispersión en los modelos más nuevos, lo que podría deberse a diferencias en versiones o características específicas de cada vehículo.
En conjunto, estos análisis confirman que tanto el kilometraje como el año del modelo son variables con fuerte relación con el precio, lo que valida su inclusión como variables independientes en los modelos de regresión que desarrollaremos más adelante.
## [1] -0.6543672
## [1] 0.8295419
Al calcular el coeficiente de correlación entre el precio y las variables kilometraje y modelo, se obtuvieron valores de -0.65 y 0.83, respectivamente. Estos resultados permiten interpretar de forma cuantitativa la relación entre estas variables y el precio del vehículo. En primer lugar, el valor de -0.65 indica una correlación negativa moderadamente fuerte entre el precio y el kilometraje, lo que significa que a mayor uso del vehículo (mayor kilometraje), el precio tiende a disminuir.
Por otro lado, el coeficiente de 0.83 entre el precio y el año del modelo refleja una correlación positiva fuerte, lo que implica que los vehículos más nuevos suelen tener un precio más elevado.
Ambos coeficientes no solo refuerzan la evidencia visual mostrada en los gráficos de dispersión, sino que también validan la inclusión de estas variables dentro de los modelos de regresión que se construirán posteriormente.
##
## Call:
## lm(formula = precio ~ kilometraje, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -60471042 -6914624 -489462 6727120 108002424
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.227e+07 1.675e+06 43.15 <2e-16 ***
## kilometraje -2.907e+02 1.902e+01 -15.29 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15560000 on 312 degrees of freedom
## Multiple R-squared: 0.4282, Adjusted R-squared: 0.4264
## F-statistic: 233.6 on 1 and 312 DF, p-value: < 2.2e-16
En este primer modelo de regresión lineal simple se analizó el efecto del kilometraje sobre el precio del vehículo. Los resultados muestran que existe una relación negativa y estadísticamente significativa entre estas dos variables. El coeficiente estimado para el kilometraje es de -290.7, lo que significa que por cada kilómetro adicional recorrido, el precio del vehículo disminuye en promedio $290 pesos.
El intercepto del modelo es de $72.270.000, que representa el precio promedio estimado de un vehículo con cero kilómetros. El valor del R² es de 0.4282, lo que indica que aproximadamente el 42.8% de la variación del precio se explica únicamente por el kilometraje. Aunque no es un valor extremadamente alto, sí es una proporción razonable para un modelo con una sola variable.
Finalmente, tanto el coeficiente como el modelo completo son altamente significativos (p-value < 2.2e-16), lo cual respalda la validez estadística de los resultados. En resumen, este modelo evidencia que el kilometraje es un factor determinante en la fijación del precio de los vehículos usados, y justifica plenamente su inclusión como predictor en modelos econométricos más complejos.
##
## Call:
## lm(formula = precio ~ modelo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -71764290 -4601367 -772342 3182090 103056684
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.889e+09 3.026e+08 -26.07 <2e-16 ***
## modelo 3.940e+06 1.502e+05 26.24 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11490000 on 312 degrees of freedom
## Multiple R-squared: 0.6881, Adjusted R-squared: 0.6871
## F-statistic: 688.4 on 1 and 312 DF, p-value: < 2.2e-16
Este segundo modelo evalúa la relación entre el año del modelo del vehículo y su precio de venta. Los resultados muestran una relación positiva y altamente significativa entre ambas variables. El coeficiente estimado para la variable modelo es de 3.940.000, lo que indica que, en promedio, por cada año más reciente del vehículo, su precio aumenta en aproximadamente $3.94 millones de pesos. Esta interpretación es coherente con la lógica del mercado de automoviles, donde los vehículos más nuevos conservan un mayor valor por su menor nivel de uso, mejor tecnología y menor riesgo de fallas mecánicas.
El intercepto del modelo es de -7.889.000.000, que, aunque carece de sentido. El R² obtenido es de 0.6881, lo cual significa que cerca del 68.8% de la variación en el precio puede explicarse únicamente por el año del modelo del vehículo. Este es un valor considerablemente alto para tratarse de un modelo simple, lo que confirma que el año de fabricación es una variable predictora muy poderosa en este contexto.
El valor del p-value asociado al coeficiente es menor a 2.2e-16, lo que indica que el resultado es estadísticamente significativo al 1%. En resumen, este modelo demuestra que el año del vehículo es un determinante clave en la formación del precio, y refuerza su utilidad como variable independiente tanto en análisis simples como en modelos múltiples.
##
## Call:
## lm(formula = precio ~ trans_automatica, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -36737286 -14043563 -3787286 13262714 113756437
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 43537286 1657062 26.274 < 2e-16 ***
## trans_automatica 12506278 2226020 5.618 4.28e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 19610000 on 312 degrees of freedom
## Multiple R-squared: 0.09187, Adjusted R-squared: 0.08896
## F-statistic: 31.56 on 1 and 312 DF, p-value: 4.276e-08
En este tercer modelo se evaluó el impacto del tipo de transmisión del vehículo sobre su precio. El resultado obtenido indica que los vehículos con transmisión automática tienen, en promedio, un precio $12.506.278 más alto que aquellos con transmisión mecánica. Este valor corresponde al coeficiente y representa la diferencia promedio de precio atribuible únicamente al tipo de transmisión, manteniendo todo lo demás constante.
El intercepto del modelo, de aproximadamente $43.537.286, representa el precio promedio estimado de los vehículos con transmisión mecánica. Como puede observarse, el efecto de la transmisión automática es estadísticamente significativo con un p-value muy bajo (4.28e-08), lo que confirma que este factor tiene un impacto real sobre el precio.
Sin embargo, el R² del modelo es de apenas 0.0919, lo que significa que solo el 9.2% de la variación del precio puede explicarse por la transmisión. Esto sugiere que, si bien la transmisión tiene un efecto significativo, no es una variable suficiente por sí sola para explicar grandes variaciones en el precio. Aun así, su inclusión es valiosa como variable categórica relevante dentro de modelos más completos.
En conclusión, este modelo demuestra que los vehículos automáticos tienen una prima de precio significativa frente a los mecánicos, lo cual es coherente con las preferencias del mercado por la comodidad y facilidad de manejo que ofrecen estas transmisiones.
Este modelo es el mejor de los 3 ya que tiene:
Mayor capacidad explicativa: El modelo 2 tiene un R² ajustado de 0.6871, lo que significa que casi el 69% de la variación en el precio puede explicarse únicamente por el año del modelo del vehículo. Es el valor más alto entre los tres modelos, lo que indica una mayor precisión en la estimación.
El coeficiente de modelo es positivo y significativo (3.94 millones por año), lo cual es lógico desde el punto de vista económico: los vehículos más recientes son más costosos por su menor desgaste, tecnología actualizada y mayor valor residual.
Significancia estadística fuerte: El p-valor del coeficiente es menor a 2.2e-16, lo que confirma que la relación entre el año del vehículo y su precio es estadísticamente significativa al 1%.
Estabilidad del modelo: A diferencia del modelo 3 (transmisión), que solo explica el 9% de la variabilidad, y del modelo 1 (kilometraje), que explica un 42.6%, el modelo 2 combina simplicidad y alto poder predictivo sin perder interpretación.
¿Por qué no los otros modelos? El modelo 1, aunque relevante, tiene menor poder explicativo (R² de 42.6%) y mayor dispersión en los residuos.
El modelo 3, aunque significativo, no es suficientemente explicativo por sí solo (R² < 10%), aunque es útil como variable dentro de modelos múltiples.
Conclusión El mejor modelo de regresión lineal simple propuesto es el modelo 2: precio ~ modelo, ya que presenta la combinación más sólida entre ajuste estadístico, sentido económico y relevancia predictiva. Esto demuestra que el año del vehículo es el principal determinante del precio entre las variables analizadas de forma individual, y será clave en modelos más complejos.
Variables escogidas:
kilometraje: refleja el desgaste del vehículo → se espera efecto negativo sobre el precio.
modelo: representa la antigüedad del auto → se espera efecto positivo.
transmision: algunos tipos (automática) se valoran más → variable categórica clave.
Dpto: ubicación geográfica puede afectar oferta/demanda y por tanto precios → categórica.
##
## Call:
## lm(formula = precio ~ kilometraje + modelo + transmision + Dpto,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -69639955 -3837340 -775986 2792653 99070086
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.926e+09 4.763e+08 -14.542 < 2e-16 ***
## kilometraje -4.089e+01 2.207e+01 -1.853 0.06491 .
## modelo 3.465e+06 2.358e+05 14.700 < 2e-16 ***
## transmisionMecánica -5.456e+06 1.407e+06 -3.879 0.00013 ***
## DptoAtlántico -3.570e+06 3.396e+06 -1.051 0.29410
## DptoBogotá -2.453e+06 2.032e+06 -1.208 0.22818
## DptoCaldas -6.410e+05 2.748e+06 -0.233 0.81576
## DptoCasanare -2.717e+06 1.178e+07 -0.231 0.81784
## DptoCauca 1.147e+06 1.143e+07 0.100 0.92015
## DptoCesar 1.251e+06 8.100e+06 0.154 0.87734
## DptoCórdoba -9.974e+06 1.138e+07 -0.876 0.38155
## DptoCundinamarca 7.837e+06 4.216e+06 1.859 0.06406 .
## DptoHuila -1.137e+06 3.886e+06 -0.293 0.76998
## DptoMagdalena 4.215e+06 1.144e+07 0.368 0.71289
## DptoMeta -2.105e+06 4.467e+06 -0.471 0.63782
## DptoNariño -3.594e+06 6.742e+06 -0.533 0.59440
## DptoNortedeSantander -1.409e+06 5.240e+06 -0.269 0.78814
## DptoQuindío -1.062e+05 3.715e+06 -0.029 0.97721
## DptoRisaralda -1.784e+06 3.830e+06 -0.466 0.64181
## DptoSantander -1.647e+06 2.795e+06 -0.589 0.55616
## DptoSucre -4.335e+06 1.140e+07 -0.380 0.70411
## DptoTolima -2.682e+06 4.186e+06 -0.641 0.52221
## DptoValledelCauca 1.360e+06 1.985e+06 0.685 0.49370
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11300000 on 291 degrees of freedom
## Multiple R-squared: 0.7185, Adjusted R-squared: 0.6972
## F-statistic: 33.77 on 22 and 291 DF, p-value: < 2.2e-16
En este primer modelo múltiple se analizó el efecto conjunto de las variables kilometraje, modelo (año), tipo de transmisión y departamento sobre el precio del vehículo. Los resultados muestran un buen nivel de ajuste del modelo, con un R² ajustado de 0.6972, lo que indica que aproximadamente el 69.7% de la variabilidad en el precio de los vehículos puede explicarse por estas variables. Este valor es bastante sólido para un modelo económico aplicado a datos reales y refleja la capacidad del modelo para capturar patrones significativos en el mercado.
Dentro de las variables numéricas, el kilometraje presenta un coeficiente negativo (-40.89), lo que significa que, en promedio, por cada kilómetro adicional recorrido, el precio del vehículo disminuye aproximadamente $40 pesos. Aunque esta relación es esperada por el efecto del desgaste, el valor-p de 0.0649 indica que no es estadísticamente significativa al 5%, aunque sí lo sería al 10%, por lo que podría considerarse marginalmente relevante.
Por el contrario, la variable modelo (año del vehículo) tiene un coeficiente positivo de 3.465.000, con un valor-p menor a 0.001, lo que confirma su alta significancia estadística y económica. Esto indica que por cada año adicional en el modelo del vehículo, su precio aumenta, en promedio, $3.46 millones de pesos, lo cual es coherente con el valor residual que conservan los vehículos más nuevos.
La variable categórica transmisión también resulta significativa: los vehículos con transmisión mecánica tienen un precio promedio $5.46 millones menor que los automáticos (categoría base), lo cual es estadísticamente significativo al 1%. Esto valida la percepción del mercado de que los automáticos son más valorados, especialmente en contextos urbanos.
Respecto a los departamentos, aunque individualmente ninguno de los coeficientes resulta estadísticamente significativo al 5%, la inclusión de la variable Dpto permite capturar diferencias regionales que, aunque sutiles, aportan valor al modelo en su conjunto. Esto se refleja en el F-statistic de 33.77, con un p-valor menor a 2.2e-16, lo que indica que el modelo como un todo es altamente significativo.
En conclusión, este modelo múltiple mejora notablemente el poder explicativo respecto a los modelos simples y permite una visión más integral del comportamiento del precio de los vehículos, al considerar tanto variables técnicas como geográficas y de mercado.
Se mantiene kilometraje y modelo por su peso explicativo demostrado.
Se cambia Dpto por ciudad, para un enfoque más granular.
Se cambia transmision por color, explorando la influencia estética/visual sobre el precio.
##
## Call:
## lm(formula = precio ~ kilometraje + modelo + color + ciudad,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74535425 -3936609 -22063 2985469 98597560
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.486e+09 5.891e+08 -12.708 <2e-16 ***
## kilometraje -3.742e+01 2.652e+01 -1.411 0.160
## modelo 3.738e+06 2.921e+05 12.798 <2e-16 ***
## colorBeige 9.708e+06 6.998e+06 1.387 0.167
## colorBlanco -2.779e+05 3.457e+06 -0.080 0.936
## colorCrema 2.655e+06 1.346e+07 0.197 0.844
## colorDorado 2.886e+06 1.273e+07 0.227 0.821
## colorGris 2.041e+06 3.360e+06 0.608 0.544
## colorMarrón 8.287e+03 9.196e+06 0.001 0.999
## colorMorado 1.727e+06 1.264e+07 0.137 0.891
## colorNegro 8.209e+05 4.372e+06 0.188 0.851
## colorOtro 2.595e+06 5.959e+06 0.435 0.664
## colorPlateado 2.556e+05 3.977e+06 0.064 0.949
## colorRojo -5.562e+05 3.655e+06 -0.152 0.879
## colorVerde 1.032e+06 8.018e+06 0.129 0.898
## colorVinotinto -1.765e+06 6.486e+06 -0.272 0.786
## ciudadAipe 2.639e+06 1.825e+07 0.145 0.885
## ciudadAnsermanuevo 8.714e+06 1.742e+07 0.500 0.617
## ciudadArmenia 5.941e+06 1.289e+07 0.461 0.645
## ciudadBarrancabermeja 9.215e+05 1.531e+07 0.060 0.952
## ciudadBarranquilla 5.217e+06 1.283e+07 0.407 0.685
## ciudadBello 8.822e+06 1.286e+07 0.686 0.493
## ciudadBogotá 4.637e+06 1.239e+07 0.374 0.709
## ciudadBucaramanga 4.658e+06 1.302e+07 0.358 0.721
## ciudadCali 9.214e+06 1.242e+07 0.742 0.459
## ciudadCartago 5.949e+06 1.724e+07 0.345 0.730
## ciudadChía 2.129e+07 1.428e+07 1.490 0.137
## ciudadCúcuta 6.280e+06 1.357e+07 0.463 0.644
## ciudadEnvigado 1.071e+07 1.348e+07 0.795 0.427
## ciudadFloridablanca 5.558e+06 1.301e+07 0.427 0.670
## ciudadFunza 7.046e+06 1.740e+07 0.405 0.686
## ciudadFusagasugá 6.986e+06 1.511e+07 0.462 0.644
## ciudadGirardot 9.908e+06 1.751e+07 0.566 0.572
## ciudadGirón 3.180e+06 1.734e+07 0.183 0.855
## ciudadIbagué 5.246e+06 1.306e+07 0.402 0.688
## ciudadItagüí 3.987e+06 1.384e+07 0.288 0.774
## ciudadLa Ceja 7.788e+06 1.740e+07 0.448 0.655
## ciudadManizales 6.167e+06 1.261e+07 0.489 0.625
## ciudadMedellín 7.778e+06 1.236e+07 0.629 0.530
## ciudadMontería -1.406e+06 1.726e+07 -0.081 0.935
## ciudadNeiva 3.570e+06 1.312e+07 0.272 0.786
## ciudadPalestina 1.164e+06 1.729e+07 0.067 0.946
## ciudadPalmira 7.426e+06 1.760e+07 0.422 0.673
## ciudadPereira 5.281e+06 1.294e+07 0.408 0.684
## ciudadPiedecuesta 2.040e+06 1.737e+07 0.117 0.907
## ciudadPitalito 1.008e+07 1.743e+07 0.578 0.564
## ciudadPopayán 7.365e+06 1.756e+07 0.420 0.675
## ciudadRío de Oro 1.044e+07 1.745e+07 0.598 0.550
## ciudadRionegro 2.627e+06 1.348e+07 0.195 0.846
## ciudadSabaneta 6.992e+06 1.497e+07 0.467 0.641
## ciudadSan Gil 5.329e+06 1.736e+07 0.307 0.759
## ciudadSanJuandePasto -3.072e+05 1.427e+07 -0.022 0.983
## ciudadSantaMarta 1.653e+07 1.740e+07 0.950 0.343
## ciudadSincelejo 7.265e+06 1.737e+07 0.418 0.676
## ciudadTuluá 6.458e+06 1.500e+07 0.430 0.667
## ciudadValledupar 1.339e+07 1.743e+07 0.768 0.443
## ciudadVillavicencio 5.293e+06 1.336e+07 0.396 0.692
## ciudadYarumal 2.744e+06 1.741e+07 0.158 0.875
## ciudadYopal 9.007e+06 1.770e+07 0.509 0.611
## ciudadYumbo 6.543e+06 1.743e+07 0.375 0.708
## ciudadZipaquirá 8.235e+06 1.730e+07 0.476 0.635
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12170000 on 253 degrees of freedom
## Multiple R-squared: 0.7161, Adjusted R-squared: 0.6488
## F-statistic: 10.64 on 60 and 253 DF, p-value: < 2.2e-16
En el segundo modelo de regresión lineal múltiple se analizaron como variables predictoras del precio del vehículo el kilometraje, el año del modelo, el color y la ciudad. El resultado arroja un R² ajustado de 0.6488, lo que significa que aproximadamente el 64.9% de la variabilidad del precio se explica a través de estas cuatro variables. Este nivel de ajuste es sólido, aunque ligeramente menor al del Modelo 1, lo cual sugiere que el conjunto de variables explicativas tiene un buen desempeño pero podría ser más efectivo si se ajustan algunos factores.
Entre las variables numéricas, el año del modelo se mantiene como el predictor más relevante, con un coeficiente positivo de 3.738.000 y un valor p significativamente bajo (p < 0.001), indicando que por cada año adicional del modelo del vehículo, el precio aumenta en promedio en esa cantidad. Este resultado refuerza la conclusión obtenida en los modelos simples y en el Modelo Múltiple 1, confirmando que los vehículos más recientes se valorizan mejor en el mercado.
Por otro lado, el kilometraje vuelve a presentar un coeficiente negativo (-37.42), lo que sugiere que a mayor uso, menor es el valor del vehículo, aunque este efecto no es estadísticamente significativo (p = 0.160), lo cual indica que su impacto en este modelo no es concluyente por sí solo.
En cuanto a las variables categóricas, ni los colores ni las ciudades presentan coeficientes individualmente significativos, como lo evidencian sus altos valores p (mayores a 0.1 en todos los casos). Sin embargo, es importante destacar que al incluir muchas categorías (especialmente ciudades), el modelo gana en granularidad pero también pierde precisión si no hay suficientes observaciones por categoría. A pesar de ello, el modelo completo es estadísticamente significativo según el F-statistic (10.64, p < 2.2e-16), lo que indica que, en conjunto, las variables sí aportan información valiosa para explicar el precio.
En conclusión, aunque este modelo es sólido en términos de ajuste general y confirma la importancia del año del modelo como variable clave, su menor rendimiento comparado con el Modelo 1 y la poca significancia de las variables categóricas hacen que el Modelo 1 siga siendo la opción más robusta y equilibrada para explicar el precio de los vehículos Mazda en esta base de datos.
## Start: AIC=10221.18
## precio ~ kilometraje + modelo + transmision + Dpto
##
## Df Sum of Sq RSS AIC
## - Dpto 19 1.3519e+15 3.8527e+16 10194
## <none> 3.7175e+16 10221
## - kilometraje 1 4.3857e+14 3.7613e+16 10223
## - transmision 1 1.9222e+15 3.9097e+16 10235
## - modelo 1 2.7603e+16 6.4778e+16 10394
##
## Step: AIC=10194.39
## precio ~ kilometraje + modelo + transmision
##
## Df Sum of Sq RSS AIC
## <none> 3.8527e+16 10194
## - kilometraje 1 3.7435e+14 3.8901e+16 10195
## - transmision 1 2.2470e+15 4.0774e+16 10210
## + Dpto 19 1.3519e+15 3.7175e+16 10221
## - modelo 1 3.1995e+16 7.0522e+16 10382
##
## Call:
## lm(formula = precio ~ kilometraje + modelo + transmision, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -67801596 -4005789 -967519 2918840 100935418
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.048e+09 4.439e+08 -15.877 < 2e-16 ***
## kilometraje -3.539e+01 2.039e+01 -1.736 0.0836 .
## modelo 3.526e+06 2.197e+05 16.045 < 2e-16 ***
## transmisionMecánica -5.506e+06 1.295e+06 -4.252 2.81e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11150000 on 310 degrees of freedom
## Multiple R-squared: 0.7083, Adjusted R-squared: 0.7055
## F-statistic: 250.9 on 3 and 310 DF, p-value: < 2.2e-16
## Start: AIC=10299.82
## precio ~ kilometraje + modelo + color + ciudad
##
## Df Sum of Sq RSS AIC
## - ciudad 45 2.2020e+15 3.9692e+16 10228
## - color 13 6.2928e+14 3.8119e+16 10279
## <none> 3.7490e+16 10300
## - kilometraje 1 2.9492e+14 3.7785e+16 10300
## - modelo 1 2.4269e+16 6.1759e+16 10455
##
## Step: AIC=10227.75
## precio ~ kilometraje + modelo + color
##
## Df Sum of Sq RSS AIC
## - color 13 1.0821e+15 4.0774e+16 10210
## <none> 3.9692e+16 10228
## - kilometraje 1 3.5041e+14 4.0042e+16 10228
## + ciudad 45 2.2020e+15 3.7490e+16 10300
## - modelo 1 3.1504e+16 7.1196e+16 10409
##
## Step: AIC=10210.19
## precio ~ kilometraje + modelo
##
## Df Sum of Sq RSS AIC
## <none> 4.0774e+16 10210
## - kilometraje 1 4.1446e+14 4.1188e+16 10211
## + color 13 1.0821e+15 3.9692e+16 10228
## + ciudad 45 2.6548e+15 3.8119e+16 10279
## - modelo 1 3.4746e+16 7.5520e+16 10402
##
## Call:
## lm(formula = precio ~ kilometraje + modelo, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -71805375 -4322906 -820863 2780591 102828488
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.290e+09 4.522e+08 -16.120 <2e-16 ***
## kilometraje -3.723e+01 2.094e+01 -1.778 0.0764 .
## modelo 3.644e+06 2.239e+05 16.280 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 11450000 on 311 degrees of freedom
## Multiple R-squared: 0.6913, Adjusted R-squared: 0.6893
## F-statistic: 348.2 on 2 and 311 DF, p-value: < 2.2e-16
Después de aplicar el procedimiento de selección de variables paso a paso utilizando el criterio AIC (Akaike Information Criterion), se concluye que el Modelo 1 reducido, que incluye las variables kilometraje, modelo (año) y transmisión, es el mejor modelo de regresión lineal múltiple para explicar el precio de los vehículos Mazda en esta base de datos.
Durante el proceso, el modelo eliminó la variable Dpto, reduciendo el AIC de 10221 a 10194, lo que indica una mejora en la relación entre ajuste y complejidad. El modelo final logró un R² ajustado de 0.7055, lo que significa que el 70.5% de la variación en el precio se explica por estas tres variables. Además, todos los coeficientes resultaron estadísticamente significativos o marginalmente significativos, especialmente el modelo, que tiene un impacto positivo claro sobre el precio, y transmisionMecánica, que mostró una disminución de $5.5 millones en promedio frente a la automática.
En contraste, el Modelo 2, que comenzó con más variables (color y ciudad), fue reducido progresivamente por el mismo proceso hasta quedarse únicamente con kilometraje y modelo. Aunque este modelo también es estadísticamente significativo (R² ajustado de 0.6893) y con un AIC final ligeramente menor (10210 frente a 10227 del punto anterior), su poder explicativo es inferior al del Modelo 1. Además, la variable transmision, que fue eliminada en el Modelo 2, demostró ser relevante y significativa en el Modelo 1, tanto estadística como económicamente.
En conclusión, el Modelo 1 reducido (precio ~ kilometraje + modelo + transmisión) es el más equilibrado entre simplicidad, ajuste y capacidad interpretativa. Conserva variables clave con sentido económico y poder estadístico, sin sobrecargar el modelo con variables poco significativas como el color o la ciudad. Este modelo resulta ser una herramienta sólida para analizar y predecir el precio de vehículos usados dentro del mercado analizado.
Para garantizar la validez estadística del modelo final de regresión lineal múltiple (precio ~ kilometraje + modelo + transmisión), se analizaron los principales supuestos mediante los gráficos de diagnóstico clásicos. En el gráfico de “Residuos vs Valores Ajustados”, se observa que los residuos están dispersos de forma relativamente aleatoria alrededor de cero, lo cual sugiere que no hay una clara violación del supuesto de linealidad ni de homocedasticidad. Aunque existe un par de observaciones atípicas (casos 273, 271 y 280), estas no parecen afectar significativamente la estructura general.
El gráfico QQ-Plot muestra que la mayoría de los residuos siguen una línea recta, lo que indica que los errores del modelo se distribuyen de manera aproximadamente normal. Si bien hay ligeras desviaciones en los extremos (colas), estas son comunes en bases de datos reales y no afectan gravemente la validez del modelo.
En el gráfico Scale-Location, que evalúa la homocedasticidad, los residuos estandarizados se mantienen distribuidos de forma constante a lo largo de los valores ajustados, lo que refuerza la idea de que el modelo cumple con el supuesto de varianza constante.
Finalmente, en el gráfico “Residuos vs Leverage”, no se identifican observaciones con un nivel de influencia crítica sobre el modelo (leverage elevado y residuos altos simultáneamente), lo cual indica que no hay puntos que distorsionen de manera significativa los resultados.
En conclusión, los supuestos fundamentales de la regresión lineal —normalidad de los errores, varianza constante y ausencia de observaciones influyentes extremas— se cumplen de manera aceptable en este modelo, lo cual fortalece la confiabilidad de sus inferencias y predicciones.
Como parte de la validación de supuestos del modelo de regresión lineal múltiple final (precio ~ kilometraje + modelo + transmisión), se analizó si los residuos (errores del modelo) siguen una distribución normal. Esta condición es clave para que las inferencias estadísticas (como los intervalos de confianza y los valores p) sean válidas.
En primer lugar, el histograma de los residuos muestra una forma aproximadamente simétrica y centrada en cero, lo que es un buen indicio de normalidad. Aunque hay cierta concentración de observaciones en el centro y presencia de valores extremos hacia los lados, esto es esperable en datos económicos reales y no sugiere una violación severa del supuesto.
Por otro lado, el gráfico QQ plot compara los cuantiles teóricos de una distribución normal con los cuantiles observados de los residuos. En este caso, la mayoría de los puntos siguen la línea diagonal, lo cual indica que los residuos se distribuyen de forma cercana a la normal. Solo se observan ligeras desviaciones en las colas (extremos), lo cual puede estar asociado a la presencia de outliers, pero no representa un problema crítico en la validez del modelo.
En conclusión, tanto visual como estadísticamente, se puede afirmar que el modelo cumple adecuadamente con el supuesto de normalidad de los residuos, reforzando la confiabilidad de los resultados obtenidos.
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.59398, p-value < 2.2e-16
Para complementar el análisis gráfico de los residuos, se aplicó la prueba de Shapiro-Wilk, que permite evaluar estadísticamente si los errores del modelo siguen una distribución normal. En este caso, el valor estadístico obtenido fue W = 0.59398 con un p-valor < 2.2e-16, lo cual es significativamente menor al nivel de significancia convencional (α = 0.05).
Este resultado nos lleva a rechazar la hipótesis nula de normalidad, es decir, los residuos del modelo no se distribuyen normalmente desde un punto de vista estrictamente estadístico. Sin embargo, es importante tener en cuenta que esta prueba es muy sensible al tamaño de la muestra; en conjuntos de datos grandes, como el presente, incluso desviaciones leves de la normalidad pueden dar lugar a resultados estadísticamente significativos.
Por esta razón, y considerando también los resultados del histograma y el gráfico QQ, donde se observó una distribución razonablemente simétrica y con solo ligeras desviaciones en las colas, se puede argumentar que aunque el supuesto de normalidad no se cumple perfectamente, no se encuentra una violación severa que invalide los resultados del modelo.
##
## studentized Breusch-Pagan test
##
## data: modelo_final
## BP = 2.1372, df = 3, p-value = 0.5444
Con el objetivo de verificar el supuesto de varianza constante de los residuos en el modelo final (precio ~ kilometraje + modelo + transmisión), se aplicó la prueba de Breusch-Pagan, que evalúa si los errores presentan heterocedasticidad, es decir, si su varianza cambia en función de las variables independientes.
El resultado arrojó un estadístico BP = 2.1372 con 3 grados de libertad y un p-valor de 0.5444, que es considerablemente superior al nivel de significancia convencional de 0.05. Esto implica que no se rechaza la hipótesis nula de homocedasticidad, lo cual sugiere que los errores tienen una varianza constante a lo largo del modelo.
Desde el punto de vista econométrico, este es un resultado positivo, ya que la homocedasticidad es un supuesto clave para que los errores estándar, los intervalos de confianza y los valores p sean confiables. En resumen, el modelo no presenta problemas de heterocedasticidad y, por lo tanto, se considera estadísticamente robusto bajo este criterio.
Después de comparar los resultados del modelo original (precio ~ kilometraje + modelo + transmisión) con su versión transformada utilizando log(precio) como variable dependiente, se concluye que sí es conveniente aplicar la transformación logarítmica, por las siguientes razones:
Menor error de predicción (MAE): El modelo transformado redujo significativamente el error absoluto medio en escala real, pasando de aproximadamente $8.187.333 en el modelo original a $4.862.311 en el modelo logarítmico. Esta diferencia indica que el modelo transformado predice con mayor precisión los precios reales de los vehículos.
Mantenimiento del poder explicativo (R² ajustado): A pesar de la transformación, el R² ajustado se mantuvo prácticamente igual:
Modelo original: 0.7055
Modelo logarítmico: 0.7186 Esto indica que la capacidad de explicación del modelo no se sacrificó, lo cual es un resultado muy favorable.
Mejora en la interpretación económica: Con la variable dependiente transformada, los coeficientes pueden interpretarse en términos de variaciones porcentuales, lo que resulta útil en análisis financieros. Por ejemplo, el coeficiente de transmisionMecánica implica una reducción aproximada del 8.2% en el precio si el vehículo tiene transmisión mecánica, lo cual es una interpretación más intuitiva y relevante en términos relativos.
Soporte en la validación de supuestos: Aunque el test de Shapiro-Wilk indicó una ligera desviación de la normalidad, los gráficos de residuos y el QQ plot mostraron mejoras visuales con la transformación. Además, no se evidenció heterocedasticidad en ninguno de los modelos, por lo que la transformación se justifica más desde el punto de vista de la precisión que por problemas estructurales.
Conclusión: Sí es conveniente transformar el modelo aplicando log(precio), ya que se obtiene mejor precisión en la predicción, interpretaciones más claras en términos relativos y se mantiene un buen poder explicativo, sin violar los supuestos fundamentales del modelo. Por lo tanto, si el objetivo principal es predecir de forma más precisa y comunicar efectos relativos en el precio de los vehículos, el modelo transformado es el más adecuado.
##
## Call:
## lm(formula = log(precio) ~ kilometraje + modelo + transmision,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.40126 -0.05946 0.00066 0.07333 1.04225
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.236e+02 8.045e+00 -15.361 < 2e-16 ***
## kilometraje -2.627e-07 3.696e-07 -0.711 0.477655
## modelo 7.013e-02 3.982e-03 17.611 < 2e-16 ***
## transmisionMecánica -8.161e-02 2.347e-02 -3.477 0.000578 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.202 on 310 degrees of freedom
## Multiple R-squared: 0.7213, Adjusted R-squared: 0.7186
## F-statistic: 267.4 on 3 and 310 DF, p-value: < 2.2e-16
## MAE del modelo transformado: 4862311
## R² ajustado del modelo transformado: 0.7186
Con el fin de explorar una posible mejora en el ajuste del modelo y en el cumplimiento de los supuestos clásicos de la regresión lineal, se construyó un modelo alternativo utilizando el logaritmo natural del precio como variable dependiente. El modelo incluye las mismas variables explicativas del modelo original final: kilometraje, modelo y transmisión.
Los resultados muestran que el R² ajustado del modelo transformado es de 0.7186, un valor muy similar al del modelo original (0.723), lo que indica que ambos explican aproximadamente el 71–72% de la variabilidad del precio (aunque uno lo hace en escala logarítmica y el otro en escala original). Sin embargo, al calcular el MAE (error absoluto medio) en unidades monetarias reales, el modelo transformado obtiene un error promedio de $4.862.311, lo que representa una mejora significativa frente al MAE del modelo original, que era de aproximadamente $8.187.333.
En términos de significancia estadística, tanto modelo como transmisión resultan altamente significativas (p < 0.001), mientras que kilometraje, aunque mantiene el signo negativo esperado, no es estadísticamente significativo (p = 0.477), lo cual coincide con los resultados del modelo original. El coeficiente de transmisionMecánica indica que, en promedio, tener transmisión mecánica está asociado con una disminución de aproximadamente 8.2% en el precio del vehículo (esto se interpreta porque el modelo está en escala logarítmica).
En conclusión, aunque el poder explicativo de ambos modelos es similar, el modelo con log(precio) tiene un menor error de predicción en pesos, y permite interpretaciones relativas (porcentuales), lo que puede ser más útil en análisis de precios y valorización. Por lo tanto, la transformación logarítmica resulta no solo válida sino conveniente en este contexto, especialmente si el objetivo principal es mejorar la precisión de pronóstico del precio.
Después de comparar los resultados del modelo 1 con su versión transformada utilizando log(precio) como variable dependiente, se concluye que sí es conveniente aplicar la transformación logarítmica, por las siguientes razones:
Menor error de predicción (MAE): El modelo transformado redujo significativamente el error absoluto medio en escala real, pasando de aproximadamente $8.187.333 en el modelo original a $4.862.311 en el modelo logarítmico. Esta diferencia indica que el modelo transformado predice con mayor precisión los precios reales de los vehículos.
Mantenimiento del poder explicativo (R² ajustado): A pesar de la transformación, el R² ajustado se mantuvo prácticamente igual:
Modelo original: 0.7055
Modelo logarítmico: 0.7186 Esto indica que la capacidad de explicación del modelo no se sacrificó, lo cual es un resultado muy favorable.
Mejora en la interpretación económica: Con la variable dependiente transformada, los coeficientes pueden interpretarse en términos de variaciones porcentuales, lo que resulta útil en análisis financieros. Por ejemplo, el coeficiente de transmisionMecánica implica una reducción aproximada del 8.2% en el precio si el vehículo tiene transmisión mecánica, lo cual es una interpretación más intuitiva y relevante en términos relativos.
Soporte en la validación de supuestos: Aunque el test de Shapiro-Wilk indicó una ligera desviación de la normalidad, los gráficos de residuos y el QQ plot mostraron mejoras visuales con la transformación. Además, no se evidenció heterocedasticidad en ninguno de los modelos, por lo que la transformación se justifica más desde el punto de vista de la precisión que por problemas estructurales.
Conclusión: Sí es conveniente transformar el modelo aplicando log(precio), ya que se obtiene mejor precisión en la predicción, interpretaciones más claras en términos relativos y se mantiene un buen poder explicativo, sin violar los supuestos fundamentales del modelo. Por lo tanto, si el objetivo principal es predecir de forma más precisa y comunicar efectos relativos en el precio de los vehículos, el modelo transformado es el más adecuado.
## kilometraje modelo transmision Precio_Pronosticado
## 1 25000 2022 Automática 81267474
## 2 60000 2020 Mecánica 64500870
## 3 90000 2018 Automática 60349060
Con base en el modelo de regresión lineal múltiple ajustado con el logaritmo natural del precio como variable dependiente, se realizaron tres pronósticos hipotéticos para estimar el valor de vehículos Mazda según sus características clave: kilometraje, modelo y tipo de transmisión.
Los resultados muestran que un vehículo modelo 2022, con apenas 25.000 km recorridos y transmisión automática, tiene un precio estimado de aproximadamente $81.267.474, lo cual se alinea con la lógica del mercado, ya que al ser un modelo reciente y con bajo kilometraje, mantiene un alto valor.
En cambio, un carro modelo 2020, con 60.000 km y transmisión mecánica, presenta un valor estimado de $64.500.870, reflejando una disminución de precio atribuida tanto al mayor uso como a la menor preferencia por la transmisión mecánica en el mercado.
Finalmente, el vehículo más antiguo y más usado de los tres, un modelo 2018 con 90.000 km y transmisión automática, fue valorado en $60.349.060. Este resultado ilustra cómo, aunque la transmisión automática suele tener un mayor valor, el efecto negativo del kilometraje y del año del modelo afecta más significativamente la valorización.
En resumen, el modelo logra capturar de forma coherente las relaciones esperadas entre las variables explicativas y el precio del vehículo. Estos pronósticos permiten ilustrar su utilidad práctica en la toma de decisiones relacionadas con la compra, venta o financiamiento de vehículos usados.
El modelo final elegido, basado en la regresión lineal múltiple con transformación logarítmica del precio, tiene una alta utilidad práctica en el sector automotor, especialmente en el mercado de vehículos usados. Este modelo permite estimar de forma objetiva el valor de un automóvil Mazda en función de variables claves como el kilometraje, el año del modelo y el tipo de transmisión, variables que tienen una relación lógica y estadísticamente significativa con el precio.
Este tipo de herramienta es valiosa para concesionarios, plataformas de compraventa (como OLX, TuCarro, etc.), aseguradoras, fintechs de financiamiento vehicular, e incluso para particulares que buscan establecer un precio justo antes de vender o comprar un vehículo usado. Por ejemplo, una empresa que ofrece financiamiento de vehículos podría usar este modelo para estimar el valor de garantía real de un activo, ayudando así a definir cupos de crédito o tasas más ajustadas al riesgo.
Además, el hecho de que el modelo haya sido validado con métricas como el MAE y R² ajustado, y que supere pruebas estadísticas como la de Breusch-Pagan para homocedasticidad, respalda su robustez y confiabilidad. Finalmente, su facilidad de implementación en plataformas digitales o sistemas internos lo hace una solución económicamente eficiente y operativamente viable, permitiendo automatizar evaluaciones de precios en tiempo real y reducir la subjetividad en la toma de decisiones.