## # A tibble: 8 × 7
## `link-href` precio modelo kilometraje transmision Localidad Ciudad
## <chr> <dbl> <dbl> <dbl> <chr> <chr> <chr>
## 1 https://www.olx.com.co… 4.15e7 2015 66523 Mecánica Las Coli… Caldas
## 2 https://www.olx.com.co… 4.7 e7 2016 80000 Mecánica La Conce… Atlán…
## 3 https://www.olx.com.co… 5.65e7 2018 30000 Mecánica Bosques … Valle…
## 4 https://www.olx.com.co… 2.2 e7 2008 136 Automática Los Pino… Bogotá
## 5 https://www.olx.com.co… 3 e7 2008 174 Mecánica La Ceja Antio…
## 6 https://www.olx.com.co… 3.44e7 2010 97000 Automática La Loma … Antio…
## 7 https://www.olx.com.co… 3.3 e7 2010 129500 Automática Asomader… Antio…
## 8 https://www.olx.com.co… 3.95e7 2012 90500 Automática Sabaneta Antio…
Realizar una exploración de datos para evaluar la posible relación entre precio con las demás variables.
## link-href precio modelo kilometraje
## Length:91 Min. : 6000000 Min. :2008 Min. : 0
## Class :character 1st Qu.: 33750000 1st Qu.:2011 1st Qu.: 49500
## Mode :character Median : 41500000 Median :2014 Median : 88700
## Mean : 46038536 Mean :2014 Mean : 79669
## 3rd Qu.: 55500000 3rd Qu.:2016 3rd Qu.:105611
## Max. :123456789 Max. :2022 Max. :198000
## transmision Localidad Ciudad
## Length:91 Length:91 Length:91
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
A continuación, se procede con el análisis bivariado de la base de vehículos:
Para el primer valor atipíco, al validar la información de la base de datos recopilada, este registro corresponde a un error por parte de la página ya que corresponde a un mueble más no a las características de un vehículo. Para el segundo valor atípico al validar la información y al realizar una comparación con los concesionarios de la ciudad se decide quitar este registro ya que no corresponde a los precios que se esperarían si este fuera un vehículo nuevo.
Se procede a visualizar el comportamiento de los kilometrajes de los vehículos respecto al precio:
La figura 3, corresponde al kilometraje del vehículo respecto al precio, dentro de esta comparación podemos evidenciar valores que no corresponden a la realidad del mercado ya que se aprecian valores que están fuera del rango esperado de acuerdo con las características del kilometraje donde: Existen 5 valores con 136, 0, 174, 113 y 183 kilómetros con precios de 22, 28, 30, 35 y 36 Millones COP respectivamente. Ante dicha situación se procede a realizar la imputación correspondiente de los valores atípicos evidenciados.
Al imputar los valores atípicos del kilometraje respecto al precio de los vehículos observamos una relación lineal para estas dos variables. Dentro de la base de vehículos la variable del tipo de transmisión puede influir dentro de la variabilidad de precios para ello procedemos mediante un diagrama de boxplot evidenciar este comportamiento:
A continuación, se describe el precio de los vehículos respecto al tipo de transmisión
Dentro de la exploración de datos bivariado en cual podemos observar el precio de los vehículos respecto al tipo de transmisión, en el cual observamos que existen tres tipos de transmisión Automática, Automática secuencial y Mecánica, sin embargo, se puede apreciar para el set de datos existen valores nulos en el tipo de transmisión.
Cantidad de valores nulos para la categoría transmisión: \(2\) los cuales son imputados al tratarse de valores nulos:
Al realizar la imputación de los valores nulos identificamos que la nueva dimensión del set de datos es de \(81*7\) y al representar los datos se aprecia que la media del precio más bajo es para la transmisión mecánica seguida de Automática y Automática secuencial con precios de 38.5, 42.3, y 71.5 Millones en COP. Podemos observar que para el tipo de transmisión automática mayor diversidad de precios que pueden estar relacionado con el modelo del vehículo y el kilometraje. Para la transmisión automática secuencial evidenciamos que sus precios no varían tanto respecto a las otras categorías esto puede obedecer a que este tipo de tecnología es de última generación.
##
## Antioquia Valle del Cauca Santander Caldas Bogotá
## 32.10 17.28 12.35 9.88 6.17
## Atlántico Meta Risaralda Quindío Cauca
## 4.94 3.70 3.70 2.47 1.23
## Cesar Cundinamarca Huila Magdalena Nariño
## 1.23 1.23 1.23 1.23 1.23
Dentro de la extracción de la información se tiene en cuenta la ciudad en el cual según las condiciones y publicaciones de la página OLX Colombia se encuentra con el mayor número de publicaciones Antioquía con el 32% seguida de Valle del Cauca con 17% y Santander con el 12% de las publicaciones.
Bogotá, Cesar, Cundinamarca y Magdalena son las únicas ciudades donde se encuentra vehículos de tipo de transmisión automatica. Por otro lado, donde solo se encuentran vehículos con tipo de transmisión mecánica estarán en Cauca, Huila Nariño y Cauca.
##
## Call:
## lm(formula = precio ~ modelo + kilometraje + transmision + Ciudad,
## data = sub_veh_c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7914630 -2636624 -68899 1775891 10060608
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.584e+09 5.613e+08 -11.731 < 2e-16 ***
## modelo 3.294e+06 2.779e+05 11.853 < 2e-16 ***
## kilometraje -3.004e+01 2.389e+01 -1.258 0.21328
## transmisionAutomática Secuencial 6.302e+06 2.181e+06 2.890 0.00531 **
## transmisionMecánica -3.951e+06 1.164e+06 -3.393 0.00121 **
## CiudadAtlántico -3.728e+05 2.394e+06 -0.156 0.87678
## CiudadBogotá -2.862e+06 2.210e+06 -1.295 0.20001
## CiudadCaldas -1.185e+06 1.822e+06 -0.651 0.51761
## CiudadCauca 1.165e+06 4.596e+06 0.254 0.80067
## CiudadCesar 2.000e+06 4.560e+06 0.439 0.66248
## CiudadCundinamarca -5.661e+06 4.772e+06 -1.186 0.24006
## CiudadHuila -1.599e+06 4.558e+06 -0.351 0.72696
## CiudadMagdalena -8.142e+06 4.754e+06 -1.712 0.09181 .
## CiudadMeta 2.107e+06 2.784e+06 0.757 0.45190
## CiudadNariño 5.135e+06 4.602e+06 1.116 0.26880
## CiudadQuindío 4.177e+06 3.331e+06 1.254 0.21456
## CiudadRisaralda 7.022e+04 2.786e+06 0.025 0.97997
## CiudadSantander -1.003e+06 1.715e+06 -0.585 0.56054
## CiudadValle del Cauca -1.909e+03 1.546e+06 -0.001 0.99902
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4395000 on 62 degrees of freedom
## Multiple R-squared: 0.942, Adjusted R-squared: 0.9251
## F-statistic: 55.93 on 18 and 62 DF, p-value: < 2.2e-16
La interpretación de las variables predictores se describe a continuación:
Dentro de las variables de estudio esperaríamos un comportamiento de significancia diferente para la variable kilometraje debido a que está estrechamente relacionada posiblemente con el precio del vehículo, para ellos procedemos a validar el VIF del modelo.
Como podemos observar en la anterior figura los valores VIF del modelo, evidenciamos un problema de multicolinealidad moderada para la variable del modelo del vehículo el cual tiene un valor de 5.19. Para ello procedemos a realizar la selección de variables mediante el método de todas las regresiones posibles.
## Start: AIC=2494.28
## precio ~ modelo + kilometraje + transmision + Ciudad
##
## Df Sum of Sq RSS AIC
## - Ciudad 14 1.9532e+14 1.3927e+15 2478.5
## <none> 1.1974e+15 2494.3
## - kilometraje 1 3.0541e+13 1.2279e+15 2494.3
## - transmision 2 4.7686e+14 1.6742e+15 2517.4
## - modelo 1 2.7133e+15 3.9107e+15 2588.2
##
## Step: AIC=2478.52
## precio ~ modelo + kilometraje + transmision
##
## Df Sum of Sq RSS AIC
## <none> 1.3927e+15 2478.5
## - kilometraje 1 4.2930e+13 1.4356e+15 2479.0
## + Ciudad 14 1.9532e+14 1.1974e+15 2494.3
## - transmision 2 6.3998e+14 2.0327e+15 2505.2
## - modelo 1 3.2816e+15 4.6743e+15 2574.6
##
## Call:
## lm(formula = precio ~ modelo + kilometraje + transmision, data = sub_veh_c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7422258 -2948066 -408127 2918578 11442121
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.232e+09 4.711e+08 -13.230 < 2e-16 ***
## modelo 3.119e+06 2.331e+05 13.382 < 2e-16 ***
## kilometraje -3.319e+01 2.169e+01 -1.531 0.13002
## transmisionAutomática Secuencial 8.329e+06 1.951e+06 4.268 5.63e-05 ***
## transmisionMecánica -3.264e+06 1.016e+06 -3.213 0.00193 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4281000 on 76 degrees of freedom
## Multiple R-squared: 0.9325, Adjusted R-squared: 0.929
## F-statistic: 262.6 on 4 and 76 DF, p-value: < 2.2e-16
## lag Autocorrelation D-W Statistic p-value
## 1 -0.1579741 2.290728 0.178
## Alternative hypothesis: rho != 0
##
## Shapiro-Wilk normality test
##
## data: residuals(mod_final)
## W = 0.96729, p-value = 0.03627
Al llevar a cabo el método de todas las regresiones posibles para seleccionar las variables del modelo, se logra identificar que la variable con el cual el modelo desarrolla mejor su desempeño es imputando la variable de ciudad y sin embargo podemos apreciar que la variable kilometraje es importante dentro de esta selección. El modelo estimado es igual a \(precio = 2e^{16} + (2e^{16}*modelo) + (0.13002*kilometraje) + (5.63e^{05}*transmisionAutomática Secuencial) + (0.00193*transmisionMecánica) + e\).
##
## Call:
## lm(formula = log(precio) ~ log(modelo) + kilometraje + transmision,
## data = sub_veh_c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.19408 -0.05210 -0.00225 0.06430 0.19661
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.074e+03 6.499e+01 -16.531 <2e-16 ***
## log(modelo) 1.435e+02 8.538e+00 16.810 <2e-16 ***
## kilometraje -2.047e-07 3.943e-07 -0.519 0.6052
## transmisionAutomática Secuencial 8.511e-02 3.549e-02 2.398 0.0189 *
## transmisionMecánica -4.051e-02 1.848e-02 -2.193 0.0314 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07786 on 76 degrees of freedom
## Multiple R-squared: 0.9442, Adjusted R-squared: 0.9412
## F-statistic: 321.3 on 4 and 76 DF, p-value: < 2.2e-16
## R2 RMSE MAE
## 1 0.9306722 4814854 4180037
RMSE(predictions, test.data$precio)/mean(test.data$precio)*100
## [1] 10.31018
Discutir potenciales usos del modelo como herramienta practica (como monetizar los resultados de este modelo).
Los modelos de regresión lineal son herramientas sumamente importantes en el mundo de la economía debido a que permite realizar proyecciones y pronósticos de una variable dependiente explicada por una o más variables independientes (Granados, R. M., 2016). Lo que buscamos es establecer una relación directa o inversa entre dos o más variables, pues se puede observar como las diferentes variables afectan en el costo de un producto. Entendiendo que este es el caso, donde podemos evidenciar cómo las características de un vehículo contribuyen a su costo; realizando los análisis exploratorios univariados y bivariados que pueden conllevar a que estas características sirvan como parámetros del modelo, se puede contemplar un mayor entendimiento de ello en las gráficas de los modelos de regresión, donde se pudo observar la fuerza de la posible relación entre estas variables y agilizar la toma de decisiones según el precio de un vehículo, estas gráficas nos muestran de una manera sencilla e intuitiva la correlación entre dos o más variables al igual que la naturaleza de su relación, si es lineal o no lineal, si es negativa o positiva.
La importancia de los datos y su ventaja competitiva se hace más fuerte cuando se logra monetizar, es decir, que cuando los resultados de un modelo o algoritmo construido en base a los datos logran conseguir generar valor agregado a cierto manejo de producto o servicio, como lo es este caso el aumento en la decisión de compra de un vehículo según el valor monetario de este. Cada uno de estos logros, hace eficiente el proceso a bajo costo, pues las plataformas de ventas de automóviles, concesionarios, entre otros, podrían hacer uso de esta tecnología manteniendo la innovación en su negocio. En este caso, la monetización se realiza cuando se adquiriere un vehículo al mejor precio y de acuerdo con las mejores características que mantienen este modelo de regresión, las cuales son referentes al modelo (antigüedad del vehículo), el kilometraje y el tipo de transmisión. Las ganancias de acuerdo con el kilometraje de un vehículo se ven reflejadas en la disminución de gastos de mantenimientos del vehículo, es conocido que entre más kilómetros de uso más desgaste tiene en general el vehículo, por lo tanto, el gasto en repuestos será más cercano; lo mismo pasa con la transmisión, si bien el uso de transmisiones automáticas o secuenciales en los vehículos hace que su precio se aumente, se debe tener en cuenta que el mantenimiento de este tipo de cajas de transmisión es más elevado y finalmente, el modelo del vehículo es una variable muy importante, dado que el modelo entre más reciente es más fácil volver a vender, en caso contrario es más complicado vender o revender además que se debe tener en cuenta el valor de la depreciación por este concepto, sumado a esto la adquisición de los diferentes seguros aumentan su valor dependiendo de la antigüedad del vehículo por variables como índice de siniestralidad. Adicionalmente, se debe de tener en cuenta el tema del pago de impuestos, variable cuantitativa no asociada a este modelo, pero si es de suma importancia en el comercio porque puede afectar el margen de ganancia de la compra y/o venta de un vehículo.
Finalmente, en este caso en particular tenemos datos muy importantes que permiten validar el precio del vehículo de acuerdo con ciertas variables, con el fin de minimizar el gasto en la posible adquisición de un automotor la marca y modelo Mazda 2. Al mejorar las decisiones comerciales con el uso de este modelo, se logran monetizar los resultados impulsando la transformación del negocio para venta por parte del vendedor y compra para los clientes que requieren un vehículo con ciertas características y con valores entre rangos específicos, es aquí donde conviene enfatizar que haciendo uso de modelos de regresión lineales y con una buena cantidad de datos, podemos obtener estimaciones y buenos resultados generados a un bajo costo y posiblemente pueda generar un mayor beneficio a los comercios reflejados en su utilidad monetaria.
[1] Granados, R. M. (2016). Modelos de regresión lineal múltiple. Granada, España: Departamento de Economía Aplicada, Universidad de Granada.