Por medio de webscrapping descargar la base de datos de precios de vehiculos mazda 2 para Colombia del portal OLX https://www.olx.com.co/, con las variables: precio, kilometraje, modelo, transmisióm y ciudad.
La base de datos descargada, procesada y utilizada en este ejercicio aplicado contiene información de ofertas de vehiculos tipo mazda 2, halladas en el portal de OLX en Colombia, por medio de Webscrapping. La base contiene 11 columnas (variables) y 314 observaciones. Entre las variables que se resultan relevantes se encuentran el precio (millones$), kilometraje, modelo (año), transmisión y ciudad.
## [1] "web-scraper-order" "web-scraper-start-url" "link"
## [4] "link-href" "precio" "kilometraje"
## [7] "transmision" "modelo" "color"
## [10] "ciudad" "Dpto"
**Verificación de datos faltantes*
Se observa que no existen valores faltantes. Se confirma que el pre-procesamiento de datos fue realizado previamente. Es decir que los NA de la base fueron eliminados previo a este análisis.
## web-scraper-order web-scraper-start-url link
## 0 0 0
## link-href precio kilometraje
## 0 0 0
## transmision modelo color
## 0 0 0
## ciudad Dpto
## 0 0
Realizar una exploración de datos para evaluar la posible relación entre precio con las demas variables.
Análisis univariado
De las variables cuantitativas es posible identificar que el precio promedio de los vehiculos Mazda 2 en Colombia es de $50.357.547, el precio mínimo es de $6.800.000 (se considera un valor atìpico) y el precio máximo de 169.800.000 millones. Frente al kilometraje el promedio es de 74.996 kilometros, mientras que frente al modelo, la media corresponde al año 2015.
## web-scraper-order web-scraper-start-url link link-href
## Length:314 Length:314 Length:314 Length:314
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## precio kilometraje transmision modelo
## Min. : 6800000 Min. : 0 Length:314 Min. :1995
## 1st Qu.: 35000000 1st Qu.: 39125 Class :character 1st Qu.:2011
## Median : 42000000 Median : 79000 Mode :character Median :2015
## Mean : 50467516 Mean : 74996 Mean :2015
## 3rd Qu.: 63000000 3rd Qu.:107375 3rd Qu.:2018
## Max. :169800000 Max. :280000 Max. :2022
## color ciudad Dpto
## Length:314 Length:314 Length:314
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
En los siguientes gráficos se observa que:
*Precio V.S Kilometraje y Modelo (año)**
Se puede observar que a medida que va aumentando el modelo (año) del mazda 2, el precio va incrementando, es decir, que se confirma una relación lineal positiva. También es posible observar una relación inversa entre el precio y el kilometraje, lo que nos dice que cuando uno aumenta el otro disminuye; en este caso si el kilometraje aumenta el precio disminuye: si el modelo es mas nuevo es más probable que este tenga menor kilometraje y su precio sea mucho mayor. EN caso contrario, si el modelo es mas antiguo, la probabilidad de que el kilometraje sea mucho mayor es alta, lo que haria que su precio fuera menor.
Precio V.S Kilometraje y Transmisión
RProponer un modelo de regresión lineal múltiple e interpretar los resultados(betas).
NOTAPara ejecutar el modelo de regresión múltiple debemos PREVIAMENTE segmentar los datos 80-20, 80% de los datos para realizar el modelamiento y el 20% para validar dicho modelo.
Luego de realizar la división de datos para la modelación y para la validación, entonces, planteamos el siguiente modelo:
Modelo a
Este modelo solo explica el 45% de la variabilidad del precio en el vehículo mazda 2 en Colombia.
##
## Call:
## lm(formula = precio ~ kilometraje, data = df_mod)
##
## Residuals:
## Min 1Q Median 3Q Max
## -60247645 -7058916 -983061 6523300 108138762
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.197e+07 1.991e+06 36.15 <2e-16 ***
## kilometraje -2.861e+02 2.219e+01 -12.89 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16460000 on 252 degrees of freedom
## Multiple R-squared: 0.3975, Adjusted R-squared: 0.3951
## F-statistic: 166.3 on 1 and 252 DF, p-value: < 2.2e-16
Modelo 1
Este modelo explica sólo el 48,7% de la variabilidad en el precio del vehículo mazda 2 en Colombia.
##
## Call:
## lm(formula = precio ~ kilometraje + transmision, data = df_mod)
##
## Residuals:
## Min 1Q Median 3Q Max
## -53787008 -6834172 -97137 7145323 106738144
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.248e+07 2.150e+06 33.708 < 2e-16 ***
## kilometraje -2.615e+02 2.185e+01 -11.965 < 2e-16 ***
## transmisionAutomática Secuencial 9.254e+06 3.698e+06 2.502 0.012977 *
## transmisionMecánica -7.398e+06 2.092e+06 -3.536 0.000483 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15770000 on 250 degrees of freedom
## Multiple R-squared: 0.4514, Adjusted R-squared: 0.4448
## F-statistic: 68.56 on 3 and 250 DF, p-value: < 2.2e-16
Modelo 2
##
## Call:
## lm(formula = precio ~ kilometraje + transmision + modelo, data = df_mod)
##
## Residuals:
## Min 1Q Median 3Q Max
## -67113740 -4076781 -1094839 2811411 101394958
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.969e+09 5.313e+08 -13.117 < 2e-16 ***
## kilometraje -3.155e+01 2.413e+01 -1.308 0.19223
## transmisionAutomática Secuencial 3.030e+06 2.876e+06 1.053 0.29315
## transmisionMecánica -5.543e+06 1.611e+06 -3.441 0.00068 ***
## modelo 3.486e+06 2.630e+05 13.254 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12100000 on 249 degrees of freedom
## Multiple R-squared: 0.6783, Adjusted R-squared: 0.6731
## F-statistic: 131.3 on 4 and 249 DF, p-value: < 2.2e-16
Se elije el modelo 2, por tener un r2 mayor, en comparacion con el modelo 1.
Interpretación
El modelo de regresión lineal múltiple, sugiere unos parámetros: \(β0=-7.176\;,\; β1=-3.412\;,\; β2=3.087\;,\; β3=-4.171\;,\; β4=3.589\)
por lo que podemos expresar que
\[Precio(Kilometraje, Transmision automatica
secuencial , transmision mecanica, modelo) = \\-7.176 -
3.412*kilometraje + 3.087*Transmision automatica secuencial-
4.171*Transmision mecanica + 3.589 *Modelo\].
\(β1=-3.412\) por cada kilometro adicional del carro, se espera que el precio promedio se reduzca en 3.412 millones de pesos \(β2=3.087\) si la transmisión es automatica,se espera que en promedio el precio incremente en 3.087 millones de pesos versus los vehiculos mazda 2 mecánicos. \(β3=-4.171\) si la transmisión es mecánica,se espera que en promedio el precio se reduzca en 4.171 millones de pesos versus los vehiculos mazda 2 automáticos.
\(β3=3.589\) por cada año adicional en el modelo del vehiculo, se espera que en promedio el precio del carro mazda 2 se incremente en 3.589 millones de pesos.
\(β0\;,\; β3\;y\; β4\) tienen \(p-values < \alpha\) por lo tanto son significativos para el modelo. Por su parte \(β1\) y \(β2\) tiene un \(p-value> \alpha\) lo cual indica que no es relevante o significativo para el modelo (a un nivel de significacia del 5%)
El coeficiente de determinación representa la proporción de la variabilidad de Y que es posible explicar a travez de x. El modelo tiene un \(R^2=0.7134\) y su \(p-value = 2.2e-16<\alpha\) lo que indica que el modelo construido explica el 71,34% de las variaciones del precio del vehículo mazda 2 a partir del kilometraje, la transmisión automatica, la transmiisón mecanica y el modelo del carro.Es un modelo aceptable predictor de la variable de salida.
Validación de supuestos
Normalidad
Com P−value es menor a a 0.05 (nivel de significancia escogido), se rechaza H0, entonces podría pensar que los errores no siguen una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: mod_2$residuals
## W = 0.58017, p-value < 2.2e-16
Supuesto de Homocedasticidad de Varianza (Breush Pagan)
H0:Los residuales se distribuyen con la misma varianza Ha:Los residuales NO se distribuyen con la misma varianza
Como $ P-value $ es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces se podría pensar que los errores cumplen con el supuesto de homocedasticidad.
##
## studentized Breusch-Pagan test
##
## data: mod_2
## BP = 2.9598, df = 4, p-value = 0.5646
Supuesto de Autocorrelación de los errores (Durbin-Watson)
H0:No existe correlación entre los errores Ha:Existe correlación entre los errores
Como valor P es mayor a 0.05 (nivel de significancia escogido),no se rechaza H0, entonces se podría pensar que los errores no estan autocorrelacionados.
##
## Durbin-Watson test
##
## data: mod_2
## DW = 2.0527, p-value = 0.6634
## alternative hypothesis: true autocorrelation is greater than 0
Validar el poder predictivo del modelo con validación cruzada
El modelo2 propuesto permite predecir el precio de un vehículo Mazda 2 en Colombia de acuerdo a las variables kilometraje, transmisión y modelo.
A partir de este modelo podemos predecir el precio en un 78%, con un MAE de ~5.669.164 millones y un RMSE de ~10.959.374 millones, lo cuál corresponde a errores del 12% y 23% respectivamente; este resultado no se considera aceptable para la predicción del valor de este tipo de vehículo, debido al alto porcentaje de error en el MAE y del RMSE. Se concluye que el modelo tiene poca capacidad de predicción y debe reformularse.
| Precio.Real | Precio.Estimado | Error |
|---|---|---|
| 66900000 | 79750575 | -12850574.9 |
| 27500000 | 35908187 | -8408186.8 |
| 36000000 | 36103997 | -103996.5 |
| 35500000 | 35872977 | -372977.4 |
| 39500000 | 42284014 | -2784014.4 |
| 33000000 | 29153261 | 3846739.2 |
Calculamos el MAE:
## [1] 4426691
Calculamor el RMSE:
## [1] 5578828
## [1] 0.08456518
## [1] 0.106575
## Start: AIC=8289.91
## precio ~ kilometraje + transmision + modelo
##
## Df Sum of Sq RSS AIC
## - kilometraje 1 2.5045e+14 3.6726e+16 8289.7
## <none> 3.6476e+16 8289.9
## - transmision 2 2.2499e+15 3.8725e+16 8301.1
## - modelo 1 2.5731e+16 6.2207e+16 8423.5
##
## Step: AIC=8289.65
## precio ~ transmision + modelo
##
## Df Sum of Sq RSS AIC
## <none> 3.6726e+16 8289.7
## - transmision 2 2.2840e+15 3.9010e+16 8301.0
## - modelo 1 6.1103e+16 9.7829e+16 8536.5
##
## Call:
## lm(formula = precio ~ transmision + modelo, data = df_mod)
##
## Coefficients:
## (Intercept) transmisionAutomática Secuencial
## -7.469e+09 2.986e+06
## transmisionMecánica modelo
## -5.602e+06 3.733e+06
Discutir potenciales usos del modelo como herramienta práctica (como monetizar los resultados de este modelo)
Con los resultados encontrados se pudo evidenciar que el modelo de regresión múltiple planteado y propuesto (modelo 2) se puede llegar a tener una primera idea de cómo es la dinámica y evolución de los precios del vehículo mazda 2 en Colombia. No obstante, se debe considerar incorporar otras variables y reajustar el modelo hasta lograr un error de predicción aceptable (bajo) para lograr monetizarlo. Tal vez incluyendo y segementado por ciudades, el modelo tendria mayor utilidad para los compradores y vendedores de carros, pues tendrian una guia sencilla para saber si es viable o no hacer la inversión/compra en una ciudad diferente a la de residencia.
Con mejoras sutanciales en el modelo, se puede ofrecer a la misma plataforma OLX para que este modelo sea implementado dentro del sitio web de búsqueda, logrando así un amayor interacción y mayor acogida para el público objetivo.