El mercado automotriz es uno de los sectores más complejos para la fijación de precios debido a la convergencia de factores tecnológicos, temporales y de uso. Esta investigación se centra en la valoración de automóviles bajo condiciones de información imperfecta. A diferencia de los bienes raíces, por ejemplo, los vehículos son bienes de capital que pierden valor desde el momento de su adquisición, siguiendo curvas de depreciación que dependen de variables tanto endógenas (ingeniería del auto) como exógenas (confianza en el vendedor y tendencias del mercado).
La plataforma de compraventa de autos usados Dherko de origen hindú, desea automatizar la tasación de los vehículos que ingresan a su catálogo para asegurar precios competitivos y mejorar el margen de ganancia, teniendo en cuenta que la devaluación de los vehículos no es un proceso lineal ni uniforme. El objetivo de negocio es cuantificardata la elasticidad del precio de venta frente a factores de influencia como la marca del vehículo, el año de frabricación (modelo), el kilometraje, tipo de combustible, tipo de transmisión (manual o automática) y cantidad de dueños.
¿Cuáles son los factores asociados a las cualidades intrinsecas de un vehículo que determinan su precio en la plataforma de autos usados hindú Dheko?
Modelar el comportamiento del precio de venta y la dinámica de devaluación de los vehículos en el mercado secundario, mediante técnicas de regresión lineal múltiple.
Identificardata los determinantes críticos que rigen el valor residual de estos activos.
El Análisis Exploratorio de Datos (AED) constituye la etapa fundamental para comprender la naturaleza de las variables que rigen el mercado de vehículos usados en la plataforma Dherko. En esta sección, se procede a inspeccionar la integridad de la base de datos de carDekho, realizando una limpieza técnica que incluye la normalización de nombres de marcas y la derivación de la variable antigüedad, esencial para capturar el fenómeno de devaluación. A través de visualizaciones de distribución y análisis de tendencias centrales, buscaremos identificar patrones de comportamiento en el precio de venta y posibles sesgos en variables críticas como el kilometraje y el tipo de combustible, estableciendo así una base sólida para la posterior modelación predictiva.
Tamaño de la muestra: La muestra seleccionada de datos cuenta con 4340 registros y 9 variables de interés que serán utilizadas en el análisis.
| Métrica | Valor |
|---|---|
| Cantidad de Registros (Filas) | 4340 |
| Cantidad de Variables (Columnas) | 9 |
Diccionario de datos:
La descripción de cada variable es:
| year | selling_price | km_driven | antique | |
|---|---|---|---|---|
| Min. | 1992.00 | 270.00 | 1.00 | 0.00 |
| 1st Qu. | 2011.00 | 2818.00 | 35000.00 | 4.00 |
| Median | 2014.00 | 4725.00 | 60000.00 | 6.00 |
| Mean | 2013.09 | 6805.72 | 66215.78 | 6.91 |
| 3rd Qu. | 2016.00 | 8100.00 | 90000.00 | 9.00 |
| Max. | 2020.00 | 120150.00 | 806599.00 | 28.00 |
Detección de datos faltantes: No se presentan datos faltantes en ninguna de las columnas de la muestra de vehículos usados.
Exploramos las clases de cada uno de los atributos de nuestra muestra
| Nombre de la Columna | Tipo de Dato (Clase) | |
|---|---|---|
| brand | brand | character |
| year | year | numeric |
| selling_price | selling_price | numeric |
| km_driven | km_driven | numeric |
| fuel | fuel | character |
| seller_type | seller_type | character |
| transmission | transmission | character |
| owner | owner | character |
| antique | antique | numeric |
Análisis de la Variable Objetivo: Precio de Venta
El análisis de la variable objetivo precio de venta revela una distribución con una fuerte asimetría positiva (sesgo a la derecha), donde la gran mayoría de las unidades se concentran en el segmento de precios bajos. El boxplot y el histograma confirman la presencia de valores atípicos significativos que se alejan drásticamente de la mediana del mercado. Esta dispersión sugiere que un modelo de regresión lineal simple podría verse desproporcionadamente influenciado por los vehículos de lujo o de alta gama, afectando la capacidad de predicción para el mercado de volumen. Por tanto, para estabilizar la varianza y normalizar la distribución, se determinar filtrar los valores extremos.Distribución de Ventas por Tipo de Vendedor
Antiguedad de los Vehículos
El 80,1% de los vehículos ofertados en la plataforma, presentan una antiguedad igual o menor a 10 años, siendo los años de antiguedad 3, 5, 6, 7 y 8 los 5 más representativos con 10,7%, 9,7%, 9,6%, 8,9% y 8,5%, Respectivamente. De lo anterior se intuye que las personas tienden a ofertar con mayor frecuencia sus vehículos después de los 3 años de antiguedad, lo cual tiene sentido en un escenario como el de colombia donde los vehículos despues de 5 años de antiguedad deben realizar de manera obligatoria una revisión técnico mecánica del vehículo.Marcas y Tipo de Combustible
El análisis del volumen de oferta por fabricante revela un mercado con una alta concentración en marcas específicas, donde Maruti se posiciona como el líder absoluto con un 29.5% de participación (1,280 unidades), seguida por Hyundai con un 18.9%. Juntas, estas dos firmas representan casi la mitad de la oferta total en la plataforma para el año 2020, lo que sugiere una fuerte preferencia o disponibilidad de estos vehículos en el mercado de usados. El resto de la oferta se distribuye entre marcas como Mahindra, Tata y Honda, que mantienen una presencia relevante pero significativamente menor.
Por su parte, el tipo de combustible revela un mercado dominado casi en su totalidad por vehículos a Diesel y Petrol (Gasolina), los cuales presentan una participación equitativa y mayoritaria en el conjunto de datos. En contraste, las opciones alternativas como CNG, LPG y Electric tienen una presencia marginal, lo que sugiere que el comportamiento del precio estará dictado principalmente por las dos categorías dominantes. Desde una perspectiva de modelado, esta distribución justifica el tratamiento de estas categorías mediante variables dummy, permitiendo identificar si existe una prima de precio asociada al Diesel —común en mercados como el de Car Dekho por su eficiencia en largas distancias— frente a los vehículos de gasolina.”
Cantidad de dueños durante el ciclo de vida del vehículo
El gráfico “Distribución por Número de Dueños” revela la “juventud” de la oferta:
Dominio de Primer Dueño: El 65.3% (2,832 autos) son de un único propietario. Esto es un indicador positivo de valor, ya que los compradores suelen percibir los vehículos de un solo dueño como mejor cuidados.
Depreciación por Uso: Solo el 7% ha pasado por tres manos, y apenas un 1.9% tiene cuatro o más dueños.
La visualización multivariada del mapa de valor confirma que la antigüedad actúa como el principal catalizador de la depreciación. Existe un ‘punto dulce’ de mercado para los vendedores en los primeros 5 años, donde el vehículo retiene su color rojo (valor máximo). El kilometraje actúa como un factor secundario que reduce el precio, pero no con la misma severidad que el paso del tiempo
Precio y tipo de transmisión
El diagrama de caja confirma que la transmisión automática actúa como un determinante de precio superior. Un vehículo automático no solo parte de una base de precio más alta, sino que mantiene un valor de mercado más elevado en comparación con la transmisión manual, la cual domina el segmento de entrada y de bajo costo del inventario.
Análisis de correlación de las variables numéricas
La matriz de correlación identifica a la antigüedad como el factor de mayor peso negativo sobre el precio de venta (\(r = -0.41\)). Aunque el kilometraje también reduce el valor (\(r = -0.19\)), su impacto es menos de la mitad que el de la edad del vehículo. Estos resultados sugieren que el modelo de regresión lineal debe priorizar la variable temporal para maximizar su capacidad explicativa (\(R^2\)).
El modelo de regresión lineal propuesto busca cuantificar el valor de mercado de los vehículos en la plataforma CarDekho como una función de su desgaste físico, obsolescencia temporal e identidad de marca. La variable objetivo se define como el logaritmo del precio de venta, lo que permite interpretar los resultados en términos de elasticidad y variaciones porcentuales de valor.
Para capturar la complejidad del mercado, el modelo descompone el valor a través de las siguientes variables explicativas:
Variables de Desgaste y Tiempo: La antigüedad (antique) y el recorrido (km_driven) actúan como los principales factores de depreciación mecánica y tecnológica.
Identidad y Segmentación: La marca (brand) captura el valor intangible y la confiabilidad percibida, mientras que el tipo de combustible (fuel) y la transmisión (transmission) segmentan el vehículo según su eficiencia y nivel de confort (premium vs. estándar).
Confianza y Canal: El tipo de vendedor (seller_type) y el historial de propietarios (owner) funcionan como indicadores de riesgo y cuidado del activo, influyendo en la disposición a pagar del comprador final.
Antes del modelado, se transformó la variable objetivo mediante \(log(selling\_price)\) para estabilizar la varianza, permitiendo que los coeficientes representen variaciones porcentuales. Se consolidaron variables críticas como la antigüedad (antique) y el recorrido (km_driven), mientras que las marcas con baja frecuencia se agruparon en “Otras Marcas” (que muestran un impacto positivo de +0.66). Este paso aseguró que el modelo se enfoque en patrones generales del mercado y no en ruidos estadísticos de categorías minoritarias.
El flujo garantiza la integridad del análisis al utilizar únicamente el conjunto de entrenamiento para ajustar los parámetros. Esta separación es vital para validar que el modelo sea capaz de generalizar. Para este caso la partición fue del 80% para datos de entrenamiento y un 20% para prueba.
En esta fase, el algoritmo cuantificó el peso real de cada característica sobre el precio. Los resultados muestran que la antigüedad es el mayor detractor de valor, con una caída del 11.2% por cada año adicional (coeficiente -0.112), mientras que la transmisión manual castiga el precio en un 47.2% (\(e^{-0.6387} - 1\)) respecto a la automática. El entrenamiento también reveló que el Diesel es el combustible más valorado (+0.478) y que vender como Particular reduce el valor esperado en un 10.8% respecto a un Dealer.
| Variable | Estimación | Error Estándar | Estadístico t | p-valor | Significancia |
|---|---|---|---|---|---|
| (Intercept) | 9.2928 | 0.2039 | 45.5811 | 0.0000 | *** |
| antique | -0.1149 | 0.0020 | -58.3964 | 0.0000 | *** |
| km_driven | 0.0000 | 0.0000 | -4.9864 | 0.0000 | *** |
| fuelDiesel | 0.4618 | 0.0649 | 7.1119 | 0.0000 | *** |
| fuelElectric | 0.0163 | 0.3879 | 0.0421 | 0.9664 | n.s. |
| fuelLPG | -0.0564 | 0.1099 | -0.5132 | 0.6078 | n.s. |
| fuelPetrol | 0.0508 | 0.0644 | 0.7879 | 0.4308 | n.s. |
| seller_typeIndividual | -0.0821 | 0.0171 | -4.8127 | 0.0000 | *** |
| seller_typeTrustmark Dealer | 0.3391 | 0.0446 | 7.6071 | 0.0000 | *** |
| transmissionManual | -0.3494 | 0.0266 | -13.1272 | 0.0000 | *** |
| ownerFourth & Above Owner | -0.1230 | 0.0509 | -2.4194 | 0.0156 | * |
| ownerSecond Owner | -0.0416 | 0.0168 | -2.4695 | 0.0136 | * |
| ownerTest Drive Car | 0.1534 | 0.1047 | 1.4658 | 0.1428 | n.s. |
| ownerThird Owner | -0.0981 | 0.0279 | -3.5131 | 0.0004 | *** |
| brandAudi | 1.1890 | 0.2002 | 5.9383 | 0.0000 | *** |
| brandBMW | 1.2985 | 0.2036 | 6.3772 | 0.0000 | *** |
| brandChevrolet | -0.2342 | 0.1932 | -1.2126 | 0.2254 | n.s. |
| brandDaewoo | -0.1027 | 0.4255 | -0.2414 | 0.8092 | n.s. |
| brandDatsun | -0.2846 | 0.2034 | -1.3995 | 0.1618 | n.s. |
| brandFiat | -0.1679 | 0.2038 | -0.8240 | 0.4100 | n.s. |
| brandForce | -0.1516 | 0.4252 | -0.3565 | 0.7215 | n.s. |
| brandFord | 0.1496 | 0.1930 | 0.7754 | 0.4382 | n.s. |
| brandHonda | 0.3641 | 0.1931 | 1.8854 | 0.0595 | . |
| brandHyundai | 0.1395 | 0.1916 | 0.7283 | 0.4665 | n.s. |
| brandIsuzu | 0.8577 | 0.4254 | 2.0163 | 0.0438 | * |
| brandJaguar | 1.3363 | 0.2917 | 4.5817 | 0.0000 | *** |
| brandJeep | 1.0001 | 0.2911 | 3.4354 | 0.0006 | *** |
| brandKia | 0.2240 | 0.4261 | 0.5257 | 0.5992 | n.s. |
| brandLand | 1.8329 | 0.2570 | 7.1319 | 0.0000 | *** |
| brandMahindra | 0.3120 | 0.1921 | 1.6246 | 0.1043 | n.s. |
| brandMaruti | 0.0368 | 0.1913 | 0.1923 | 0.8475 | n.s. |
| brandMercedes-Benz | 1.5026 | 0.2061 | 7.2898 | 0.0000 | *** |
| brandMG | 0.8761 | 0.3303 | 2.6521 | 0.0080 | ** |
| brandMitsubishi | 1.1821 | 0.2560 | 4.6178 | 0.0000 | *** |
| brandNissan | 0.0908 | 0.1990 | 0.4564 | 0.6481 | n.s. |
| brandOpelCorsa | 0.0856 | 0.3298 | 0.2596 | 0.7952 | n.s. |
| brandRenault | -0.0145 | 0.1945 | -0.0745 | 0.9406 | n.s. |
| brandSkoda | 0.2460 | 0.1974 | 1.2466 | 0.2126 | n.s. |
| brandTata | -0.3096 | 0.1921 | -1.6117 | 0.1071 | n.s. |
| brandToyota | 0.7349 | 0.1934 | 3.7993 | 0.0001 | *** |
| brandVolkswagen | 0.2138 | 0.1952 | 1.0954 | 0.2734 | n.s. |
| brandVolvo | 1.3846 | 0.3311 | 4.1814 | 0.0000 | *** |
A partir de los resultados obtenidos en el conjunto de prueba, la evaluación del modelo confirma una sólida capacidad predictiva para el mercado de vehículos usados. El gráfico de comparación entre el Precio Real y el Precio Predicho muestra una alta sincronía en las tendencias, logrando un \(R^2\) ajustado de 0.799, lo que significa que el modelo explica aproximadamente el 80% de la variabilidad del precio incluso con datos nuevos.En términos de precisión financiera, el Error Absoluto Medio (MAE) resultó en $1.968, indicando que, en promedio, las estimaciones del modelo se desvían apenas esta cantidad respecto al valor real de venta. Como se observa en la visualización, el modelo es particularmente eficaz siguiendo los patrones de los vehículos de precio medio, aunque presenta una ligera subestimación en los picos de precios más altos (outliers), los cuales suelen corresponder a marcas premium o modelos excepcionalmente recientes.
| True Price | Predicted Price |
|---|---|
| $1,822 | $1,654 |
| $8,100 | $4,701 |
| $3,240 | $2,487 |
| $22,275 | $18,522 |
| $16,132 | $12,399 |
| $19,238 | $32,895 |
| $16,065 | $17,242 |
| $7,088 | $4,271 |
| $23,422 | $24,228 |
| $18,562 | $28,758 |
Diagnóstico de Precisión del Modelo El modelo de regresión múltiple desarrollado presenta una robustez excepcional, logrando un \(R^2\) Ajustado de 0.799. Esto implica que el sistema es capaz de predecir el 80% de la variabilidad de los precios de venta, permitiendo una gestión de inventarios con un alto grado de certidumbre. El Error Absoluto Medio (MAE) de $1,968 se posiciona como una métrica competitiva, ofreciendo estimaciones precisas que minimizan el riesgo de sobrevaloración o subvaloración de las unidades.
Determinantes Críticos de Valor (Cualidades Intrínsecas) La dinámica de precios en la plataforma está regida por tres pilares fundamentales que dictan la devaluación del activo:
Depreciación Temporal: La antigüedad es el factor más punitivo; por cada año de vida, el vehículo pierde un 11.5% de su valor de mercado.
Segmentación por Confort y Eficiencia: Existe una clara preferencia por la tecnología Diesel (que incrementa el valor en un 58% frente a referencias básicas) y la transmisión automática, dado que los modelos manuales sufren un castigo del 34.9% en su precio de reventa.
Desgaste Físico: Aunque significativo, el impacto del kilometraje (km_driven) es secundario frente a la edad del vehículo, lo que sugiere que el mercado valora más la “actualidad” del modelo que el uso acumulado.
Estrategia de Marca y Valor de Activos El valor residual está fuertemente anclado al prestigio y la confianza de la marca:Liderazgo Premium: Marcas como Land Rover, Mercedes-Benz y BMW operan en una escala de valor superior, logrando coeficientes de retención que duplican o triplican los precios base.Dominio de Volumen: Toyota se consolida como la marca no-premium con mayor poder de reventa (+73%), lo que la convierte en el activo más seguro para inversiones de flota o de inventario.
Impacto del Canal y el Historial El análisis revela que la “confianza” es una moneda de cambio en el mercado:Valor del Dealer: La certificación Trustmark Dealer añade un 40% de valor percibido a la unidad, validando la estrategia de ofrecer garantías para maximizar el margen de utilidad.
Riesgo por Propietario: A partir del segundo dueño, el valor cae progresivamente, llegando a una pérdida del 12.3% al alcanzar un cuarto propietario, lo que define el límite de rentabilidad para la adquisición de unidades.