Punto 1

  1. Por medio de web scraping descargar la base de datos de precios de vehiculos mazda 2 para Colombia del portal [olx]:(https://www.olx.com.co) las variables: precio, kilometraje, modelo, transmisión y ciudad.

Web Scraping

## # A tibble: 8 × 7
##   `link-href`             precio modelo kilometraje transmision Localidad Ciudad
##   <chr>                    <dbl>  <dbl>       <dbl> <chr>       <chr>     <chr> 
## 1 https://www.olx.com.co… 4.15e7   2015       66523 Mecánica    Las Coli… Caldas
## 2 https://www.olx.com.co… 4.7 e7   2016       80000 Mecánica    La Conce… Atlán…
## 3 https://www.olx.com.co… 5.65e7   2018       30000 Mecánica    Bosques … Valle…
## 4 https://www.olx.com.co… 2.2 e7   2008         136 Automática  Los Pino… Bogotá
## 5 https://www.olx.com.co… 3   e7   2008         174 Mecánica    La Ceja   Antio…
## 6 https://www.olx.com.co… 3.44e7   2010       97000 Automática  La Loma … Antio…
## 7 https://www.olx.com.co… 3.3 e7   2010      129500 Automática  Asomader… Antio…
## 8 https://www.olx.com.co… 3.95e7   2012       90500 Automática  Sabaneta  Antio…
  • Para el proceso del raspado de la web “OLX” se logró extraer 91 registros en el cual se obtuvieron los atributos: enlace de publicación, precio, modelo, kilometraje, transmisión, localidad y ciudad.

Punto 2

Realizar una exploración de datos para evaluar la posible relación entre precio con las demás variables.

Exploración

  • Se describen algunas de métricas descriptivas de la base de datos:
##   link-href             precio              modelo      kilometraje    
##  Length:91          Min.   :  6000000   Min.   :2008   Min.   :     0  
##  Class :character   1st Qu.: 33750000   1st Qu.:2011   1st Qu.: 49500  
##  Mode  :character   Median : 41500000   Median :2014   Median : 88700  
##                     Mean   : 46038536   Mean   :2014   Mean   : 79669  
##                     3rd Qu.: 55500000   3rd Qu.:2016   3rd Qu.:105611  
##                     Max.   :123456789   Max.   :2022   Max.   :198000  
##  transmision         Localidad            Ciudad         
##  Length:91          Length:91          Length:91         
##  Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character  
##                                                          
##                                                          
## 
  • La media de precio de referencia es de 46 MM, con un precio mínimo de 6 MM y máximo de 123 MM. Por otro lado, el kilometraje medio de los vehículos es de 79.7 mil kilómetros en el cual se podrán encontrar vehículos de cero hasta 198 mil kilómetros para vehículos desde el 2008 hasta los últimos modelos 2022.

A continuación, se procede con el análisis bivariado de la base de vehículos:

Precio vehículo respecto al modelo

Para el primer valor atipíco, al validar la información de la base de datos recopilada, este registro corresponde a un error por parte de la página ya que corresponde a un mueble más no a las características de un vehículo. Para el segundo valor atípico al validar la información y al realizar una comparación con los concesionarios de la ciudad se decide quitar este registro ya que no corresponde a los precios que se esperarían si este fuera un vehículo nuevo.

  • Al imputar los valores atípicos de los precios encontramos normalidad en precios respecto al modelo del vehículo como se aprecia en la anterior figura (Figura 2).

Kilometraje vehículo respecto al precio

Se procede a visualizar el comportamiento de los kilometrajes de los vehículos respecto al precio:

La figura 3, corresponde al kilometraje del vehículo respecto al precio, dentro de esta comparación podemos evidenciar valores que no corresponden a la realidad del mercado ya que se aprecian valores que están fuera del rango esperado de acuerdo con las características del kilometraje donde: Existen 5 valores con 136, 0, 174, 113 y 183 kilómetros con precios de 22, 28, 30, 35 y 36 Millones COP respectivamente. Ante dicha situación se procede a realizar la imputación correspondiente de los valores atípicos evidenciados.

Al imputar los valores atípicos del kilometraje respecto al precio de los vehículos observamos una relación lineal para estas dos variables. Dentro de la base de vehículos la variable del tipo de transmisión puede influir dentro de la variabilidad de precios para ello procedemos mediante un diagrama de boxplot evidenciar este comportamiento:

Transmisión respecto al precio del vehículo

A continuación, se describe el precio de los vehículos respecto al tipo de transmisión

Dentro de la exploración de datos bivariado en cual podemos observar el precio de los vehículos respecto al tipo de transmisión, en el cual observamos que existen tres tipos de transmisión Automática, Automática secuencial y Mecánica, sin embargo, se puede apreciar para el set de datos existen valores nulos en el tipo de transmisión.

Cantidad de valores nulos para la categoría transmisión: \(2\) los cuales son imputados al tratarse de valores nulos:

Al realizar la imputación de los valores nulos identificamos que la nueva dimensión del set de datos es de \(81*7\) y al representar los datos se aprecia que la media del precio más bajo es para la transmisión mecánica seguida de Automática y Automática secuencial con precios de 38.5, 42.3, y 71.5 Millones en COP. Podemos observar que para el tipo de transmisión automática mayor diversidad de precios que pueden estar relacionado con el modelo del vehículo y el kilometraje. Para la transmisión automática secuencial evidenciamos que sus precios no varían tanto respecto a las otras categorías esto puede obedecer a que este tipo de tecnología es de última generación.

  • A continuación, se detalla la participación de publicaciones por ciudad:
## 
##       Antioquia Valle del Cauca       Santander          Caldas          Bogotá 
##           32.10           17.28           12.35            9.88            6.17 
##       Atlántico            Meta       Risaralda         Quindío           Cauca 
##            4.94            3.70            3.70            2.47            1.23 
##           Cesar    Cundinamarca           Huila       Magdalena          Nariño 
##            1.23            1.23            1.23            1.23            1.23

Dentro de la extracción de la información se tiene en cuenta la ciudad en el cual según las condiciones y publicaciones de la página OLX Colombia se encuentra con el mayor número de publicaciones Antioquía con el 32% seguida de Valle del Cauca con 17% y Santander con el 12% de las publicaciones.

  • En la anterior figura observamos la participación del tipo de transmisión para las 15 ciudades donde se vende este tipo de vehículos, si bien la mayor participación es Antioquia aquí el mayor tipo de vehículos comercializados son de tipo Automática 54% y Mecánica con 35%.

Bogotá, Cesar, Cundinamarca y Magdalena son las únicas ciudades donde se encuentra vehículos de tipo de transmisión automatica. Por otro lado, donde solo se encuentran vehículos con tipo de transmisión mecánica estarán en Cauca, Huila Nariño y Cauca.

  • En la figura 8 observamos el comportamiento de los precios para cada una de las ciudades donde se comercializan estos tipos de vehículos donde encontramos ciudades de interés por su media de precio como Meta en el cual el precio medio de comercialización es de $70 M COP.

Punto 3

  • Proponer un modelo de regresión lineal múltiple e interpretar los resultados (betas)

Modelamiento

  • A continuación, se desarrolla el primer escenario del modelo lineal multivariable, en el cual se seleccionan como variables predictoras: Modelo, Kilometraje, transmisión y ciudad.
## 
## Call:
## lm(formula = precio ~ modelo + kilometraje + transmision + Ciudad, 
##     data = sub_veh_c)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -7914630 -2636624   -68899  1775891 10060608 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      -6.584e+09  5.613e+08 -11.731  < 2e-16 ***
## modelo                            3.294e+06  2.779e+05  11.853  < 2e-16 ***
## kilometraje                      -3.004e+01  2.389e+01  -1.258  0.21328    
## transmisionAutomática Secuencial  6.302e+06  2.181e+06   2.890  0.00531 ** 
## transmisionMecánica              -3.951e+06  1.164e+06  -3.393  0.00121 ** 
## CiudadAtlántico                  -3.728e+05  2.394e+06  -0.156  0.87678    
## CiudadBogotá                     -2.862e+06  2.210e+06  -1.295  0.20001    
## CiudadCaldas                     -1.185e+06  1.822e+06  -0.651  0.51761    
## CiudadCauca                       1.165e+06  4.596e+06   0.254  0.80067    
## CiudadCesar                       2.000e+06  4.560e+06   0.439  0.66248    
## CiudadCundinamarca               -5.661e+06  4.772e+06  -1.186  0.24006    
## CiudadHuila                      -1.599e+06  4.558e+06  -0.351  0.72696    
## CiudadMagdalena                  -8.142e+06  4.754e+06  -1.712  0.09181 .  
## CiudadMeta                        2.107e+06  2.784e+06   0.757  0.45190    
## CiudadNariño                      5.135e+06  4.602e+06   1.116  0.26880    
## CiudadQuindío                     4.177e+06  3.331e+06   1.254  0.21456    
## CiudadRisaralda                   7.022e+04  2.786e+06   0.025  0.97997    
## CiudadSantander                  -1.003e+06  1.715e+06  -0.585  0.56054    
## CiudadValle del Cauca            -1.909e+03  1.546e+06  -0.001  0.99902    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4395000 on 62 degrees of freedom
## Multiple R-squared:  0.942,  Adjusted R-squared:  0.9251 
## F-statistic: 55.93 on 18 and 62 DF,  p-value: < 2.2e-16

La interpretación de las variables predictores se describe a continuación:

  • La variable Modelo tiene un p-value de 2e-16. Dado este valor está en el rango de [0, 0,001] el cual tiene el mayor valor de significancia.
  • Las variables transmisión Automática Secuencial y transmisión Mecánica están dentro del rango de significancia de (0.001, 0.01] lo cual indica la significancia que tienen dentro de este primer modelo propuesto. Si utilizamos un nivel de significancia de \(\alpha = 0.05\) para determinar las variables predictoras significativas para nuestro modelo de regresión dentro del cual seleccionamos Modelo, transmisión Automática Secuencial y transmisión Mecánica Mientras que las variables de kilometraje y ciudad no lo son.

Dentro de las variables de estudio esperaríamos un comportamiento de significancia diferente para la variable kilometraje debido a que está estrechamente relacionada posiblemente con el precio del vehículo, para ellos procedemos a validar el VIF del modelo.

Como podemos observar en la anterior figura los valores VIF del modelo, evidenciamos un problema de multicolinealidad moderada para la variable del modelo del vehículo el cual tiene un valor de 5.19. Para ello procedemos a realizar la selección de variables mediante el método de todas las regresiones posibles.

## Start:  AIC=2494.28
## precio ~ modelo + kilometraje + transmision + Ciudad
## 
##               Df  Sum of Sq        RSS    AIC
## - Ciudad      14 1.9532e+14 1.3927e+15 2478.5
## <none>                      1.1974e+15 2494.3
## - kilometraje  1 3.0541e+13 1.2279e+15 2494.3
## - transmision  2 4.7686e+14 1.6742e+15 2517.4
## - modelo       1 2.7133e+15 3.9107e+15 2588.2
## 
## Step:  AIC=2478.52
## precio ~ modelo + kilometraje + transmision
## 
##               Df  Sum of Sq        RSS    AIC
## <none>                      1.3927e+15 2478.5
## - kilometraje  1 4.2930e+13 1.4356e+15 2479.0
## + Ciudad      14 1.9532e+14 1.1974e+15 2494.3
## - transmision  2 6.3998e+14 2.0327e+15 2505.2
## - modelo       1 3.2816e+15 4.6743e+15 2574.6
## 
## Call:
## lm(formula = precio ~ modelo + kilometraje + transmision, data = sub_veh_c)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -7422258 -2948066  -408127  2918578 11442121 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      -6.232e+09  4.711e+08 -13.230  < 2e-16 ***
## modelo                            3.119e+06  2.331e+05  13.382  < 2e-16 ***
## kilometraje                      -3.319e+01  2.169e+01  -1.531  0.13002    
## transmisionAutomática Secuencial  8.329e+06  1.951e+06   4.268 5.63e-05 ***
## transmisionMecánica              -3.264e+06  1.016e+06  -3.213  0.00193 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4281000 on 76 degrees of freedom
## Multiple R-squared:  0.9325, Adjusted R-squared:  0.929 
## F-statistic: 262.6 on 4 and 76 DF,  p-value: < 2.2e-16
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.1579741      2.290728   0.178
##  Alternative hypothesis: rho != 0
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod_final)
## W = 0.96729, p-value = 0.03627

Al llevar a cabo el método de todas las regresiones posibles para seleccionar las variables del modelo, se logra identificar que la variable con el cual el modelo desarrolla mejor su desempeño es imputando la variable de ciudad y sin embargo podemos apreciar que la variable kilometraje es importante dentro de esta selección. El modelo estimado es igual a \(precio = 2e^{16} + (2e^{16}*modelo) + (0.13002*kilometraje) + (5.63e^{05}*transmisionAutomática Secuencial) + (0.00193*transmisionMecánica) + e\).

## 
## Call:
## lm(formula = log(precio) ~ log(modelo) + kilometraje + transmision, 
##     data = sub_veh_c)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.19408 -0.05210 -0.00225  0.06430  0.19661 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      -1.074e+03  6.499e+01 -16.531   <2e-16 ***
## log(modelo)                       1.435e+02  8.538e+00  16.810   <2e-16 ***
## kilometraje                      -2.047e-07  3.943e-07  -0.519   0.6052    
## transmisionAutomática Secuencial  8.511e-02  3.549e-02   2.398   0.0189 *  
## transmisionMecánica              -4.051e-02  1.848e-02  -2.193   0.0314 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.07786 on 76 degrees of freedom
## Multiple R-squared:  0.9442, Adjusted R-squared:  0.9412 
## F-statistic: 321.3 on 4 and 76 DF,  p-value: < 2.2e-16

  • El grafico de Residuales vs Valores Ajustados del modelo podemos identificar que los residuos están dispersos de manera aleatoria ya que no se aprecia comportamiento claro respecto a la linea roja.
  • Los residuos forman aproximadamente una “banda horizontal” alrededor de la línea 0.
  • El grafico Normal Q-Q de normalidad se aprecia que no todos los valores están cercanos a la línea.

Punto 4

  • Validar el poder predictivo del modelo con validación cruzada

Web Scraping

##          R2    RMSE     MAE
## 1 0.9306722 4814854 4180037
  • Al desarrollar la validación cruzada del modelo podemos indicar que mediante el \(RMSE\) podemos evidenciar un error de predicción respecto al precio real de 4.8 MM COP en términos absolutos, teniendo en cuenta la cantidad de datos con los cuales se trabajó para el modelo se considera un buen modelo de precondición. Por otro lado, el \(MAE\) indica el promedio de diferencia absoluta entre los valores reales y los previsto del conjunto de datos tenemos un error de 4.2 MM COP. Finalmente el \(R^2\) del modelo nos indica que con un 93% el modelo explica la variación del precio de los vehículos.
RMSE(predictions, test.data$precio)/mean(test.data$precio)*100
## [1] 10.31018
  • Al dividir el RMSE por el valor promedio de la variable de resultado arroja un 10% de error de predicción en la predicción del precio del vehículo.

Punto 5

Discutir potenciales usos del modelo como herramienta practica (como monetizar los resultados de este modelo).

Discusión

Los modelos de regresión lineal son herramientas sumamente importantes en el mundo de la economía debido a que permite realizar proyecciones y pronósticos de una variable dependiente explicada por una o más variables independientes (Granados, R. M., 2016). Lo que buscamos es establecer una relación directa o inversa entre dos o más variables, pues se puede observar como las diferentes variables afectan en el costo de un producto. Entendiendo que este es el caso, donde podemos evidenciar cómo las características de un vehículo contribuyen a su costo; realizando los análisis exploratorios univariados y bivariados que pueden conllevar a que estas características sirvan como parámetros del modelo, se puede contemplar un mayor entendimiento de ello en las gráficas de los modelos de regresión, donde se pudo observar la fuerza de la posible relación entre estas variables y agilizar la toma de decisiones según el precio de un vehículo, estas gráficas nos muestran de una manera sencilla e intuitiva la correlación entre dos o más variables al igual que la naturaleza de su relación, si es lineal o no lineal, si es negativa o positiva.

La importancia de los datos y su ventaja competitiva se hace más fuerte cuando se logra monetizar, es decir, que cuando los resultados de un modelo o algoritmo construido en base a los datos logran conseguir generar valor agregado a cierto manejo de producto o servicio, como lo es este caso el aumento en la decisión de compra de un vehículo según el valor monetario de este. Cada uno de estos logros, hace eficiente el proceso a bajo costo, pues las plataformas de ventas de automóviles, concesionarios, entre otros, podrían hacer uso de esta tecnología manteniendo la innovación en su negocio. En este caso, la monetización se realiza cuando se adquiriere un vehículo al mejor precio y de acuerdo con las mejores características que mantienen este modelo de regresión, las cuales son referentes al modelo (antigüedad del vehículo), el kilometraje y el tipo de transmisión. Las ganancias de acuerdo con el kilometraje de un vehículo se ven reflejadas en la disminución de gastos de mantenimientos del vehículo, es conocido que entre más kilómetros de uso más desgaste tiene en general el vehículo, por lo tanto, el gasto en repuestos será más cercano; lo mismo pasa con la transmisión, si bien el uso de transmisiones automáticas o secuenciales en los vehículos hace que su precio se aumente, se debe tener en cuenta que el mantenimiento de este tipo de cajas de transmisión es más elevado y finalmente, el modelo del vehículo es una variable muy importante, dado que el modelo entre más reciente es más fácil volver a vender, en caso contrario es más complicado vender o revender además que se debe tener en cuenta el valor de la depreciación por este concepto, sumado a esto la adquisición de los diferentes seguros aumentan su valor dependiendo de la antigüedad del vehículo por variables como índice de siniestralidad. Adicionalmente, se debe de tener en cuenta el tema del pago de impuestos, variable cuantitativa no asociada a este modelo, pero si es de suma importancia en el comercio porque puede afectar el margen de ganancia de la compra y/o venta de un vehículo.

Finalmente, en este caso en particular tenemos datos muy importantes que permiten validar el precio del vehículo de acuerdo con ciertas variables, con el fin de minimizar el gasto en la posible adquisición de un automotor la marca y modelo Mazda 2. Al mejorar las decisiones comerciales con el uso de este modelo, se logran monetizar los resultados impulsando la transformación del negocio para venta por parte del vendedor y compra para los clientes que requieren un vehículo con ciertas características y con valores entre rangos específicos, es aquí donde conviene enfatizar que haciendo uso de modelos de regresión lineales y con una buena cantidad de datos, podemos obtener estimaciones y buenos resultados generados a un bajo costo y posiblemente pueda generar un mayor beneficio a los comercios reflejados en su utilidad monetaria.

[1] Granados, R. M. (2016). Modelos de regresión lineal múltiple. Granada, España: Departamento de Economía Aplicada, Universidad de Granada.