3 modelos fueron ocupados: xgboost, regresión lasso y ensamblaje (stacked generalization)
El modelo xgboost tuvo la mejor performance con un RMSE de 0.2223.
Pareciera que las variables más importantes para predecir el precio son: la comuna en la que la casa es construida junto con los metros útiles y totales de una propiedad.
En el caso de los metros útiles existe una fuerte relación lineal con el precio de la vivienda. Para los metros totales la relación con el outcome es cuadrática cóncava.
El número de piezas, baños y estacionamientos también tienen un efecto sobre el precio.
Aunque no tan importante como las variables anteriores, las palabras en la descripción de la casa también tienen un impacto. Entre las más importantes están los lugares (calles, barrios), los adjetivos (finas, espectacular) y las características de la casa (pozo, parquet, mediterránea, riego).
Se que esto ha sido hecho muchas veces, pero quería intentar predecir el precio de las casas en la ciudad donde vivo. Con ese objetivo hice webscrapping en la página Portal Inmobiliario, el cual es un sitio web en donde la gente publica propiedades para la venta o el arriendo. La base de datos fue recolectada en mayo de 2021. Solo casas en los distritos urbanos de la Región Metropolitana de Chile fueron consideradas.
Vamos a partir por describir nuestra variable outcome. Esta es PrecioPesos la cual es el precio de las casas en pesos chilenos.
La distribución de la variable es bastante interesante, ya que tiene 3 peaks. Esto se debe a que la gente que publica los precios prefiere poner números “bonitos” en vez de “feos”. Por ejemplo, es más común que la gente publique una propiedad con un precio de 100,000,000 o 50,000,000 en vez de números como 127,699,322. Esto es lo que provoca que la data tenga estos peaks. Los datos están cargados hacia la izquierda; hay más casas caras que baratas. La razón detrás de esto es que en nuestra muestra la mayoría de las casas proviene de comunas ricas.
Una siguiente variable es metrosUtiles que son aquellos metros que están dentro de la casa. Parece que existe una relación lineal bastante fuerte entre ésta y la variable de outcome.
Otra variable importante son los metros totales de las casas, metrosTotales3 en la base. Los metros totales es la suma de los metros que están dentro y fuera de la casa. En este caso pareciera haber una fuerte relación cuadrática. Los valores son marginalmente positivos hasta cierto punto en donde un metro cuadrado más pasa a tener un efecto negativo sobre el precio de la casa. Esto se debe posiblemente a que las casas con muchos metros totales tienden a estar en sectores rurales, en donde el precio de suelo es más bajo en comparación con las zonas urbanas.
Si miramos al resto de las variables es también posible establecer algún tipo de relación. A medida que aumenta el número de baños también aumenta el precio de las casas, como se puede apreciar en el gráfico.
En el caso de los dormitorios pareciera ser que las casas con 1 dormitorio son más caras que las que tienen dos. Pero luego el valor pareciera ir incrementando desde las 2 piezas hasta estabilizarse cerca de las 6 o 7 habitaciones.
Sobre el número de estacionamiento es claro que las casas con 1 solo estacionamiento tienen precios mucho más bajos. Luego el precio al igual que con las otras variables se incrementa hasta estancarse cerca de los 6 estacionamientos.
Otra variable importante es la comuna. En el gráfico se puede ver las claras diferencias que existen entre los diferentes distritos. La línea roja representa la mediana del precio en nuestra muestra. La mayoría de las casas en nuestra muestra vienen de los 4 distritos más exclusivos de Santiago (Lo Barnechea, Vitacura, Las Condes, Chicureo). Mirando el gráfico es claro que existen diferencias muy grandes entre los distritos. Los ochos distritos más pobres tienen una mediana de precios que no es ni la octava parte de la mediana del distrito más rico.
En el siguiente mapa 3D podemos ver la mediana del precio (En millones de pesos chilenos) de las casas por comuna. El precio está representado por el color y la altura que tiene cada distrito en el mapa. Se puede ver que las comunas ricas están hacia el noreste del mapa. Mientras que los distritos más pobres están al sur y al este del mapa. Son estos los distritos en donde, preferentemente, se relocaliza a personas que vivían en asentamientos ilegales en los años 80 ’s. Por último, tenemos a Chicureo y Colina hacia el norte separado del resto de la región metropolitana. El gráfico es interactivo por lo que se puede rotar y hacer zoom.