Se parametriza la herramientra de webscraping en el navegador para que descargue los datos de vehículos Renault Logan, publicados en la página web www.olx.com.co.
Se descargaron 108 registros en formato excel
require(table1)
Se corrió la función table1 al set de datos, se observaron colores que solo aparecían en máximo 3 registros, por tanto se estandarizaron el color plateado con el color gris, y por otro lado los colores rojo, vino tinto, azul y verde en la opcion “otro”
table1(~precio_mill+Km+año+transmision+color+udplaca+Unicopropietario+puertas+tipovendedor+combustible+usado, data = datos_renault_logan)
| Overall (N=108) |
|
|---|---|
| precio_mill | |
| Mean (SD) | 37.0 (14.3) |
| Median [Min, Max] | 38.3 [1.00, 72.7] |
| Km | |
| Mean (SD) | 73.9 (60.9) |
| Median [Min, Max] | 59.0 [0, 260] |
| año | |
| Mean (SD) | 2020 (4.85) |
| Median [Min, Max] | 2020 [2010, 2020] |
| transmision | |
| Automatica | 9 (8.3%) |
| Mecanica | 98 (90.7%) |
| NA | 1 (0.9%) |
| color | |
| Beige | 9 (8.3%) |
| Blanco | 16 (14.8%) |
| Gris | 63 (58.3%) |
| Otro | 20 (18.5%) |
| udplaca | |
| 0 | 8 (7.4%) |
| 1 | 15 (13.9%) |
| 2 | 11 (10.2%) |
| 3 | 11 (10.2%) |
| 4 | 8 (7.4%) |
| 5 | 7 (6.5%) |
| 6 | 6 (5.6%) |
| 7 | 4 (3.7%) |
| 8 | 5 (4.6%) |
| 9 | 7 (6.5%) |
| NA | 26 (24.1%) |
| Unicopropietario | |
| NA | 16 (14.8%) |
| No | 53 (49.1%) |
| Sí | 39 (36.1%) |
| puertas | |
| 4 | 71 (65.7%) |
| 5 | 33 (30.6%) |
| NA | 4 (3.7%) |
| tipovendedor | |
| NA | 8 (7.4%) |
| Persona Natural | 72 (66.7%) |
| Vendedor Profesional | 28 (25.9%) |
| combustible | |
| Gasolina | 105 (97.2%) |
| Gasolina y Gas | 2 (1.9%) |
| NA | 1 (0.9%) |
| usado | |
| NA | 4 (3.7%) |
| Nuevo | 6 (5.6%) |
| Usado | 98 (90.7%) |
Se construye el modelo inicial para identificar las variables significativas.
datos_renault_logan$Antiguedad=2022-datos_renault_logan$año
modelo=lm(precio_mill~año+Km+transmision+color+udplaca+Unicopropietario+puertas+tipovendedor+combustible+usado, data = datos_renault_logan)
modelo
##
## Call:
## lm(formula = precio_mill ~ año + Km + transmision + color + udplaca +
## Unicopropietario + puertas + tipovendedor + combustible +
## usado, data = datos_renault_logan)
##
## Coefficients:
## (Intercept) año
## -2.393e+03 1.219e+00
## Km transmisionMecanica
## -1.269e-02 -1.197e+01
## transmisionNA colorBlanco
## 1.041e+01 7.432e+00
## colorGris colorOtro
## 8.675e-05 4.574e+00
## udplaca1 udplaca2
## 3.185e+00 8.951e-02
## udplaca3 udplaca4
## 7.877e-01 -3.447e-01
## udplaca5 udplaca6
## -9.764e+00 -1.062e+00
## udplaca7 udplaca8
## -7.515e-01 2.428e+00
## udplaca9 udplacaNA
## 3.983e+00 -3.536e+00
## UnicopropietarioNo UnicopropietarioSí
## -6.832e+00 -2.652e+00
## puertas5 puertasNA
## 1.018e+00 -1.708e+01
## tipovendedorPersona Natural tipovendedorVendedor Profesional
## 1.483e+00 -8.307e-01
## combustibleGasolina y Gas combustibleNA
## -2.358e+01 -7.617e+00
## usadoNuevo usadoUsado
## 2.038e+00 -1.450e+01
Se observa alta correlación positiva en la variable año de lanzamiento del vehículo, es decir, que en la medida en que aumenta el año, también aumenta el valor. Adicionalmente se observa correlación negativa en la variable transmisión opción mecánica, por tanto, los vehículos con transmisión mecánica tienen menos valor que los que tienen transmisión automática. Así mismo, la variable Puertas presenta correlación negativa cuando no fue reportado el número de puertas del vehículo, y por eso los vehículos en los que no se indica el número de puertas tienen menor valor que aquellos en los que se registraron 4 puertas.
En menor relevancia la variable usado presenta baja correlación negativa en comparación con los que no reportaron en esta característica, es decir, que esta característica disminuy el valor del vehículo. En este mismo sentido la variable combustible muestra baja correlación negativa, por tanto, por esta variable el vehículo pierde valor.
Finalmente, la variable udplaca(último dígito de la placa) en el número 5 presentó baja correlación negativa, afectando el precio del vehículo a la baja, a la vez que los demás números del 0 al 9 no se mostraron relevantes para el modelo.
summary(modelo)
##
## Call:
## lm(formula = precio_mill ~ año + Km + transmision + color + udplaca +
## Unicopropietario + puertas + tipovendedor + combustible +
## usado, data = datos_renault_logan)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.860 -2.846 -0.536 4.492 19.421
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.393e+03 6.246e+02 -3.832 0.000252 ***
## año 1.219e+00 3.090e-01 3.947 0.000169 ***
## Km -1.269e-02 2.331e-02 -0.544 0.587694
## transmisionMecanica -1.197e+01 3.528e+00 -3.394 0.001075 **
## transmisionNA 1.041e+01 1.355e+01 0.768 0.444651
## colorBlanco 7.432e+00 4.175e+00 1.780 0.078886 .
## colorGris 8.675e-05 3.475e+00 0.000 0.999980
## colorOtro 4.574e+00 4.124e+00 1.109 0.270669
## udplaca1 3.185e+00 4.195e+00 0.759 0.449837
## udplaca2 8.951e-02 4.168e+00 0.021 0.982920
## udplaca3 7.877e-01 4.245e+00 0.186 0.853262
## udplaca4 -3.447e-01 4.435e+00 -0.078 0.938257
## udplaca5 -9.764e+00 4.552e+00 -2.145 0.035011 *
## udplaca6 -1.062e+00 5.296e+00 -0.200 0.841614
## udplaca7 -7.515e-01 5.417e+00 -0.139 0.890008
## udplaca8 2.428e+00 5.642e+00 0.430 0.668136
## udplaca9 3.983e+00 4.657e+00 0.855 0.394854
## udplacaNA -3.536e+00 3.851e+00 -0.918 0.361218
## UnicopropietarioNo -6.832e+00 3.875e+00 -1.763 0.081707 .
## UnicopropietarioSí -2.652e+00 3.861e+00 -0.687 0.494120
## puertas5 1.018e+00 2.214e+00 0.460 0.646837
## puertasNA -1.708e+01 5.874e+00 -2.907 0.004718 **
## tipovendedorPersona Natural 1.483e+00 5.634e+00 0.263 0.793016
## tipovendedorVendedor Profesional -8.307e-01 5.503e+00 -0.151 0.880391
## combustibleGasolina y Gas -2.358e+01 1.033e+01 -2.283 0.025091 *
## combustibleNA -7.617e+00 1.008e+01 -0.755 0.452289
## usadoNuevo 2.038e+00 8.242e+00 0.247 0.805377
## usadoUsado -1.450e+01 5.984e+00 -2.423 0.017631 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.599 on 80 degrees of freedom
## Multiple R-squared: 0.7304, Adjusted R-squared: 0.6395
## F-statistic: 8.029 on 27 and 80 DF, p-value: 1.568e-13
Se seleccionaron las 8 variables que presentaron alguna correlación ya fuera positiva, negativa, alta, media o baja.
año, transmisión, color, udplaca, unicopropetario, puertas, combustible, usado
datos_renault_logan$Antiguedad=2022-datos_renault_logan$año
modelo=lm(precio_mill~año+transmision+color+udplaca+Unicopropietario+puertas+combustible+usado, data = datos_renault_logan)
modelo
##
## Call:
## lm(formula = precio_mill ~ año + transmision + color + udplaca +
## Unicopropietario + puertas + combustible + usado, data = datos_renault_logan)
##
## Coefficients:
## (Intercept) año
## -2.672e+03 1.357e+00
## transmisionMecanica transmisionNA
## -1.212e+01 8.723e+00
## colorBlanco colorGris
## 7.349e+00 7.357e-02
## colorOtro udplaca1
## 4.334e+00 2.541e+00
## udplaca2 udplaca3
## -3.996e-01 3.918e-01
## udplaca4 udplaca5
## -5.976e-01 -9.652e+00
## udplaca6 udplaca7
## -1.329e+00 2.732e-01
## udplaca8 udplaca9
## 1.120e+00 4.102e+00
## udplacaNA UnicopropietarioNo
## -3.173e+00 -5.518e+00
## UnicopropietarioSí puertas5
## -1.973e+00 6.934e-01
## puertasNA combustibleGasolina y Gas
## -1.690e+01 -2.187e+01
## combustibleNA usadoNuevo
## -7.149e+00 2.024e+00
## usadoUsado
## -1.356e+01
Para este ejemplo se supone un vehìculo modelo 2021, con transmisión mecánica, color blanco, último dígito de la placa 5, único propietario, 5 puertas, combustible gasolina o gas, usado.
En la primera columna se presentan las diferentes variables, en la segunda se relacionan los supuestos del ejemplo, en la tercera se relacionan los coeficientes correspondientes a la variable en el modelo, y en la cuarta columna se relacionan todos los coeficientes que se suman para estimar el precio del vehículo.
Se presentan las cifras con 3 decimales y el precio del vehículo está expresado en millones de pesos
| variable | dato | factor | producto |
|---|---|---|---|
| intercepto | -2672.000 | -2672.000 | |
| año | 2021 | 1.357 | 2742.970 |
| transmisión | mecanica | -12.120 | -12.120 |
| color | blanco | 7.349 | 7.349 |
| udplaca | 5 | -9.652 | -9.652 |
| unicopropietario | unico | -1.973 | -1.973 |
| puertas | 5 | -0.693 | -0.693 |
| combustible | gasolina y gas | -2.187 | -2.187 |
| usado | usado | -13.560 | -13.560 |
La suma de la columna “producto”
## [1] 38.134
El precio del vehículo se estima en:
## [1] "38.134.000"
Se muestran gráficamente las variables seleccionadas para el modelo
g2=ggplot(datos_renault_logan,aes(y=precio_mill,x=udplaca))+geom_boxplot()
g3=ggplot(datos_renault_logan,aes(y=precio_mill,x=Antiguedad))+geom_point()+geom_smooth()
g4=ggplot(datos_renault_logan,aes(y=precio_mill,x=transmision))+geom_boxplot()
g5=ggplot(datos_renault_logan,aes(y=precio_mill,x=color))+geom_boxplot()
g6=ggplot(datos_renault_logan,aes(y=precio_mill,x=puertas))+geom_boxplot()
g7=ggplot(datos_renault_logan,aes(y=precio_mill,x=Unicopropietario))+geom_boxplot()
g8=ggplot(datos_renault_logan,aes(y=precio_mill,x=combustible))+geom_boxplot()
g9=ggplot(datos_renault_logan,aes(y=precio_mill,x=usado))+geom_boxplot()
ggarrange(g3,g2,g4,g5,g6,g7,g8,g9,ncol=1)
Se aplica la función predict para evaluar el margen de error del modelo construído a partir de las 8 variables correlacionadas.
Se evalúa el modelo con el siguiente supuesto: Vehículo Renault Logan modelo 2017, transmisión mecánica, color gris, 4 puertas, usado, tipo de combustible gasolina, cuyo último digito de la placa es el 1, y ha tenido un único propietario,
predict(modelo,list(año=2017,transmision="Mecanica",
color="Gris",udplaca="1",Unicopropietario="Sí",puertas="4",combustible="Gasolina",usado="Usado"))*0.12
## 1
## 4.771315
El modelo presenta un margen de error del 4,77%, es decir, un 95.23% de precisión del modelo construído
## 1 2 3 4 5 6 7 8
## 34.04764 22.19158 25.13403 34.19509 38.96891 31.27928 30.78805 30.78805
## 9 10 11 12 13 14 15 16
## 29.36706 56.77557 31.00000 23.71790 33.18479 21.92852 51.97316 18.42277
## 17 18 19 20 21 22 23 24
## 22.84752 22.84752 55.28847 47.16093 21.46315 15.57688 39.76096 29.39404
## 25 26 27 28 29 30 31 32
## 42.92082 27.12493 35.40447 29.82434 23.77720 27.80000 30.99240 45.39265
## 33 34 35 36 37 38 39 40
## 29.07168 48.60461 25.65203 46.20445 62.64645 40.89112 26.90704 49.32538
## 41 42 43 44 45 46 47 48
## 45.39265 21.00422 50.01875 37.96474 27.97570 50.61632 40.18722 50.21670
## 49 50 51 52 53 54 55 56
## 34.74100 39.66448 32.87809 28.02750 43.36203 30.56138 27.28233 74.76692
## 57 58 59 60 61 62 63 64
## 63.33981 56.15628 35.98873 36.21540 49.52333 32.00906 50.88956 30.28163
## 65 66 67 68 69 70 71 72
## 46.18008 26.90704 22.15651 39.68900 19.02272 27.92062 61.36719 63.33981
## 73 74 75 76 77 78 79 80
## 63.33981 24.13465 34.72084 52.44622 23.66476 43.83147 41.70931 40.00000
## 81 82 83 84 85 86 87 88
## 50.31954 32.93764 37.97950 28.63917 39.42730 39.33634 39.69681 50.22482
## 89 90 91 92 93 94 95 96
## 31.07938 23.93034 36.78019 37.28626 48.10632 33.21575 30.06690 27.31443
## 97 98 99 100 101 102 103 104
## 45.18830 45.34584 20.49815 25.76810 27.31443 29.82506 18.07010 24.36632
## 105 106 107 108
## 55.88779 39.29797 56.12489 37.33711
## 1 2 3 4 5
## 5.952361e+00 2.808421e+00 -6.340341e-01 -5.195088e+00 2.031089e+00
## 6 7 8 9 10
## -2.792752e-01 -2.288052e+00 -2.288052e+00 -5.367064e+00 -1.027557e+01
## 11 12 13 14 15
## 7.660539e-15 3.282104e+00 5.815206e+00 9.571484e+00 3.026845e+00
## 16 17 18 19 20
## 3.077234e+00 -3.475224e-01 5.247759e-02 -1.028847e+01 -6.609286e-01
## 21 22 23 24 25
## -9.631473e-01 4.423122e+00 -1.760958e+00 -5.894040e+00 4.979178e+00
## 26 27 28 29 30
## 5.375068e+00 6.095525e+00 -8.243405e-01 1.722802e+00 -1.443290e-15
## 31 32 33 34 35
## -4.492396e+00 -5.392648e+00 6.928325e+00 -1.604610e+00 -1.852035e+00
## 36 37 38 39 40
## 1.879555e+01 6.453550e+00 -8.911221e-01 -4.407039e+00 -3.253830e-01
## 41 42 43 44 45
## -5.392648e+00 3.995777e+00 -1.018747e+00 -9.064743e+00 -4.756959e-01
## 46 47 48 49 50
## -4.616319e+00 7.812777e+00 -4.166966e-01 6.758998e+00 4.835520e+00
## 51 52 53 54 55
## -4.378093e+00 -7.127501e+00 -4.862026e+00 1.938620e+00 -1.782332e+00
## 56 57 58 59 60
## -2.066921e+00 -1.639813e+00 -1.135628e+01 5.011275e+00 2.284602e+00
## 61 62 63 64 65
## 2.766669e-01 -3.109056e+00 -2.389560e+00 -2.928163e+01 2.819924e+00
## 66 67 68 69 70
## -7.907039e+00 1.343489e+00 -4.689004e+00 -5.227154e-01 1.579379e+00
## 71 72 73 74 75
## -3.367189e+00 -1.639813e+00 2.260187e+00 -4.334648e+00 5.279157e+00
## 76 77 78 79 80
## -1.946219e+00 6.835238e+00 5.668533e+00 -2.709313e+00 -8.881784e-15
## 81 82 83 84 85
## -5.819535e+00 1.062364e+00 5.020501e+00 -1.391688e-01 5.072700e+00
## 86 87 88 89 90
## 7.163664e+00 1.031939e-01 1.327518e+01 -1.179381e+00 -2.293034e+01
## 91 92 93 94 95
## 7.219813e+00 -3.628626e+01 1.579368e+01 1.078425e+01 -2.066903e+00
## 96 97 98 99 100
## -3.314429e+00 1.211696e+00 -4.345838e+00 1.001850e+00 -7.680960e-01
## 101 102 103 104 105
## -3.314429e+00 1.517494e+01 6.429902e+00 -1.866316e+00 7.112213e+00
## 106 107 108
## 1.360203e+01 6.875111e+00 -1.837108e+00
MAE=mean(abs(modelo$residuals))
MAE/mean(datos_renault_logan$precio_mill)*100
## [1] 13.328
Significa que el modelo se está equivocando en $13,33% aproximadamente, sobre el precio del vehículo
En la valoración de empresas este modelo puede proporcionar información relevante para comparar valores de los activos medidos por métodos distintos al valor de mercado.
Por otro lado esta herramienta pudiera usarse en un modelo de negocio de compra venta de vehículos, para proporcionar una idea del valor del vehículo ofrecido por el cliente, en ausencia o en concomitancia con el periaje físico.
También puede ser usado por personas que estén interesadas en conocer un valor aproximado por el que puedan ofrecer su vehículo en venta.