Resultados

  1. 3 modelos fueron ocupados: xgboost, regresión lasso y ensamblaje (stacked generalization)

  2. El modelo xgboost tuvo la mejor performance con un RMSE de 0.2223.

  3. Pareciera que las variables más importantes para predecir el precio son: la comuna en la que la casa es construida junto con los metros útiles y totales de una propiedad.

  4. En el caso de los metros útiles existe una fuerte relación lineal con el precio de la vivienda. Para los metros totales la relación con el outcome es cuadrática cóncava.

  5. El número de piezas, baños y estacionamientos también tienen un efecto sobre el precio.

  6. Aunque no tan importante como las variables anteriores, las palabras en la descripción de la casa también tienen un impacto. Entre las más importantes están los lugares (calles, barrios), los adjetivos (finas, espectacular) y las características de la casa (pozo, parquet, mediterránea, riego).

Intro

Se que esto ha sido hecho muchas veces, pero quería intentar predecir el precio de las casas en la ciudad donde vivo. Con ese objetivo hice webscrapping en la página Portal Inmobiliario, el cual es un sitio web en donde la gente publica propiedades para la venta o el arriendo. La base de datos fue recolectada en mayo de 2021. Solo casas en los distritos urbanos de la Región Metropolitana de Chile fueron consideradas.

Variables

Vamos a partir por describir nuestra variable outcome. Esta es PrecioPesos la cual es el precio de las casas en pesos chilenos.

La distribución de la variable es bastante interesante, ya que tiene 3 peaks. Esto se debe a que la gente que publica los precios prefiere poner números “bonitos” en vez de “feos”. Por ejemplo, es más común que la gente publique una propiedad con un precio de 100,000,000 o 50,000,000 en vez de números como 127,699,322. Esto es lo que provoca que la data tenga estos peaks. Los datos están cargados hacia la izquierda; hay más casas caras que baratas. La razón detrás de esto es que en nuestra muestra la mayoría de las casas proviene de comunas ricas.

Una siguiente variable es metrosUtiles que son aquellos metros que están dentro de la casa. Parece que existe una relación lineal bastante fuerte entre ésta y la variable de outcome.

Otra variable importante son los metros totales de las casas, metrosTotales3 en la base. Los metros totales es la suma de los metros que están dentro y fuera de la casa. En este caso pareciera haber una fuerte relación cuadrática. Los valores son marginalmente positivos hasta cierto punto en donde un metro cuadrado más pasa a tener un efecto negativo sobre el precio de la casa. Esto se debe posiblemente a que las casas con muchos metros totales tienden a estar en sectores rurales, en donde el precio de suelo es más bajo en comparación con las zonas urbanas.

Si miramos al resto de las variables es también posible establecer algún tipo de relación. A medida que aumenta el número de baños también aumenta el precio de las casas, como se puede apreciar en el gráfico.

En el caso de los dormitorios pareciera ser que las casas con 1 dormitorio son más caras que las que tienen dos. Pero luego el valor pareciera ir incrementando desde las 2 piezas hasta estabilizarse cerca de las 6 o 7 habitaciones.

Sobre el número de estacionamiento es claro que las casas con 1 solo estacionamiento tienen precios mucho más bajos. Luego el precio al igual que con las otras variables se incrementa hasta estancarse cerca de los 6 estacionamientos.

Otra variable importante es la comuna. En el gráfico se puede ver las claras diferencias que existen entre los diferentes distritos. La línea roja representa la mediana del precio en nuestra muestra. La mayoría de las casas en nuestra muestra vienen de los 4 distritos más exclusivos de Santiago (Lo Barnechea, Vitacura, Las Condes, Chicureo). Mirando el gráfico es claro que existen diferencias muy grandes entre los distritos. Los ochos distritos más pobres tienen una mediana de precios que no es ni la octava parte de la mediana del distrito más rico.

En el siguiente mapa 3D podemos ver la mediana del precio (En millones de pesos chilenos) de las casas por comuna. El precio está representado por el color y la altura que tiene cada distrito en el mapa. Se puede ver que las comunas ricas están hacia el noreste del mapa. Mientras que los distritos más pobres están al sur y al este del mapa. Son estos los distritos en donde, preferentemente, se relocaliza a personas que vivían en asentamientos ilegales en los años 80 ’s. Por último, tenemos a Chicureo y Colina hacia el norte separado del resto de la región metropolitana. El gráfico es interactivo por lo que se puede rotar y hacer zoom.

Existe también una pequeña descripción la cual tokenizamos con el fin de ver las palabras que tienen un efecto más grande sobre el precio de las casas. En los 2 gráficos que vienen a continuación, solo seleccionamos palabras que aparecieran como mínimo en la descripción de 200 casas. Entre las palabras con una mayor mediana en el precio hay algunas que presentan características de la casa como: cava, cine, mármol, sauna, subterráneo. Otras representan barrios (La Dehesa, El Golf) y otras a adjetivos: finas, espectacular, maravilloso, precioso. Una palabra que llama la atención es arquitecto. Esta palabra tiene probablemente un efecto positivo, debido que solo se mencionara al arquitecto, por nombre y apellido, cuando es un arquitecto reconocido. Es posible pensar que este tipo de arquitectos construyen casas muy caras. La palabra mediterránea también nos llama la atención, ésta tiene un efecto positivo porque está de moda en los barrios de clase media alta construir casas con este estilo.

Por otro lado, existen también palabras que están asociadas a precios bajos. Algunas tienen relación con lugares, en específico distritos y calles: Vespucio, Tobalaba, Maipú, Puente. Hay otras 5 palabras que me llaman la atención. La primera es villa, que es la manera de referirse a un barrio de clase media en Chile. La segunda son las palabras asociadas a los bienes raíces como corretaje, corredora. La tercera es pareada, esto se debe a que en Chile es muy común construir casas pareadas en barrios de clase media. La cuarta es pasaje, que probablemente está asociada con la forma en la que construyen los barrios de clase media. Quinto, locomoción, es obvio que esta palabra va a estar ligada a casas en barrios en que las personas no pueden comprar un auto.

Tenemos un gran grupo de variables dummy. Una que me pareció interesante es la variable piscina, está variable tiene un efecto también sobre el precio de las casas. El gráfico tiene en un eje el precio de la casa y en otro los metros útiles. El color de los hexágonos representa el porcentaje de casas con piscina en esa área Es posible constatar que la proporción de casas con piscina tiende a aumentar a medida que el precio de las casas aumenta. Ahora bien, es importante notar que esta variable pareciera también tener una relación con los metros cuadrados de la casa.

Tratamiento A Las Variables

Algunos outliers fueron removidos, principalmente algunas casas que pertenecían a sectores rurales (que no eran de nuestro interés), algunos errores de tipeo y observaciones duplicadas. Las observaciones numéricas fueron transformadas a logaritmos y normalizadas. Además, la variable comuna fue transformada a una variable numérica tomando como referencia la mediana del precio de las casas por distrito.

Resultados

Corrimos 3 modelos, uno ocupando xgboost, el segundo una regresión lasso y el último en el cual ensamblamos ambos modelos. El mejor modelo fue en xgboost. Estos fueron los resultados:

Si miramos las variables más importantes tenemos el distrito (comuna2), esto quizás se explica porque esta variable contiene muchos componentes dentro de ésta, principalmente acceso a servicios y bienes públicos como: hospitales, parques, escuelas; y otros elementos muy importantes como puede ser la seguridad.

La segunda variable más importante son los metros totales (metrosTotales3_poly_1 y metrosTotales3_poly_2) y metros útiles metrosUtiles. Lo cual tiene sentido porque uno esperaría que mientras más grande fuera la casa mayor sería el precio. Lo interesante es que los metros totales tienen una relación cuadrática cóncava, lo cual puede ser debido a que las casas con una extensión muy grande de terreno están localizadas en sectores más rurales en donde el precio del suelo es más bajo lo cual produce esta relación.

Luego de estas variables las más importantes son el número de baños baños2, la existencia de una piscina piscina, el número de dormitorios dormitorios2 y el número de estacionamientos parking20

Aunque el texto no era una variable importante en el modelo xgboost si lo era en el modelo lasso. Aquí los resultados de las palabras que tenían mayor importancia:

Entre las palabras con un efecto positivo tenemos lugares tales: los distritos de Quilicura, Providencia, condes (Las Condes) y barrios tales como damián (San Damián) y golf (El Golf). El hecho de que Quilicura tenga un efecto positivo nos toma por sorpresa ya que no es un distrito rico de Santiago. Verbo está ahí por el colegio Verbo Divino, que es uno de los establecimientos educacionales más exclusivos de Santiago. Otras palabras con un efecto positivo son: los adjetivos espectacular y finas, la presencia de parquet en la casas, cuando las casas son construidas con estilo mediterraneo y,por último, la palabra easybroker que es probablemente una compañía de corretaje.

Entre las palabras con efecto negativo tenemos Chicureo, lo cual es curioso debido a que es uno de los distritos más ricos de Santiago. La explicación es que ya que la mayoría de la muestra proviene de los 4 cuatros distritos más ricos (Lo Barnechea, Vitacura, Las Condes y Chicureo), Chicureo al tener la mediana de precios más baja de este grupo pasa a tener un efecto negativo en el total de la muestra. Chamisero es una calle en Chicureo por lo tanto esa es la razón por la que por la que esta palabra también tendría un efecto negativo.

Otras palabras como riego, pozo y bosca son señales de ruralidad porque creo que es esa la razón del efecto que tienen. Las últimas palabras son colegio y contando. Sobre éstas es un poco difícil tener una razón clara de la razón del efecto negativo. Puede ser que cuando los precios no son caros los vendedores piden el pago al contado. Colegios, puede tener un efecto negativo debido a que cuando los colegios alrededor de una propiedad no son muy conocidos, las personas solo mencionan la palabra “colegio” en vez del nombre del colegio, como pasa con el Verbo Divino.

Aquí están los resultados para todos los modelos:

Conclusiones

Primero que todo, creo que es importante precisar que hay que tener consideraciones importantes cuando se analizan estos resultados, ya que el grueso de las casas en nuestra muestra viene de barrios acomodados. Si tuviéramos una muestra más equilibrada quizás los resultados serían otros. Aquí un gráfico con las casas por comuna.

Dejando lo anterior claro aquí, la comuna es la variable que ayuda a predecir de mejor manera el precio de la vivienda. Es interesante notar como aquellas comunas que recibieron más familias relocalizadas en los 80 ’s son aquellas que tienen precios más bajos. La importancia de los metros útiles y totales no nos sorprende, lo que sí consideramos sorprendente es la relación cuadrática entre el precio de la vivienda y los metros totales del hogar.

A pesar de que intentamos no considerar sectores rurales en nuestra muestra pareciera que no fuimos del todo exitosos como indicarían las palabras: riego, pozo y bosca. Creo, además, que queda pendiente hacer un modelo con pares de palabras, binomios, en vez de solo ocupar palabras sueltas. Creo que a pesar de los buenos resultados del modelo queda espacio para mejorar la performance, seria del gran ayuda poder contar con servidores para entrenar de mejor manera nuestros datos.

