Autor
Francisco Guijarro
Catedrático de Universidad (profesor funcionario a tiempo completo)
Universidad Politécnica de Valencia
Dar a conocer diferentes metodologías de Inteligencia Artificial aplicables al campo de la valoración inmobiliaria:
Entender el funcionamiento de estas metodologías, a través de su comparación con otros modelos de valoración más tradicionales.
Poner en práctica estos métodos a través de un caso real de valoración de apartamentos (requisitos para la aplicación de la IA en valoraciones; depuración de datos; análisis de testigos duplicados; cómo manejar las variables que explican el precio; cómo medir la significación de los modelos de valoración; training y Test: qué son y cómo definirlos en la práctica valorativa).
Presentar los diferentes pasos y decisiones a tomar en la puesta en marcha de estas metodologías.
\(~\)
Reduce la discrecionalidad. Esto es, evita que el valorador pueda sesgar los resultados de la valoración introduciendo alguna sobrevaloración o subvaloración, como veremos en un ejemplo posterior del método de homogeneización.
Permite capturar relaciones no lineales:
Entre el precio y cada variable explicativa individual.
Entre combinaciones de variables explicativas.
Resultado más preciso, modelo más ajustado: el tratamiento masivo de datos posibilita una mejor acotación en la precisión de las estimaciones (medir errores).
Posibilidad de conocer la importancia relativa de cada variable en la explicación del precio de los inmuebles.
Caja negra. Algunos modelos de Inteligencia Artificial, como las redes neuronales artificiales, actúan como una caja negra, lo que dificulta poder expresar con claridad cómo se ha llegado a explicar el precio de los inmuebles. Sin embargo, otros modelos como los basados en árboles de decisión sí permiten una mayor trazabilidad.
Sobreoptimización. Un número reducido de comparables, una estructura del modelo demasiado compleja, o la inclusión de variables no correlacionadas con el precio puede hacer que caigamos en la sobreoptimización, uno de los problemas más habituales al diseñar un modelo de de valoración basado en inteligencia artificial.
A diferencia del modelo econométrico que siempre devuelve la misma solución cuando se le dan los mismos inputs, los modelos de inteligencia artificial pueden ofrecen soluciones distintas (no todos los modelos de inteligencia artificial) incluso cuando los valores de entrada son los mismos. El valor final dependerá del valor semilla utilizado en el entrenamiento.
Falta normatividad. Siguen siendo muy pocos los países donde se regula la aplicación de estos métodos, por lo general restringidos al caso de valoración masivas.
Figura 1. Ejemplo de sobreoptimización. Cómo ajustar una recta a tres puntos, y cómo ajustar un plano a esos mismos tres puntos
Pregunta
1Cuando pasamos de dos dimensiones (precio-superficie) a 3 dimensiones, ¿importa cuál sea la variable a la hora de hacer que los tres puntos pasen por un plano?
Los modelos de valoración de inteligencia artificial son en muchos casos herederos de modelos más clásicos, como el modelo de regresión o econométrico, por lo que representan la siguiente generación.
Una de las principales ventajas es que permiten capturar relaciones no necesariamente lineales entre las variables.
Por ejemplo, podemos asumir que el precio de los inmuebles es lineal con la superficie de los mismos. Sin embargo, por lo general nos vamos a encontrar con situaciones donde esta relación no sea estrictamente lineal.
En concordancia con la ley económica de rendimientos marginales decrecientes, podemos pensar que la relación positiva entre precio y superficie tiende a decaer conforme aumenta el tamaño de las viviendas. Simplemente porque un consumidor no siempre va a estar dispuesto a pagar la misma cantidad por un incremento unitario en la superficie de la vivienda, sino que una vez cubierto cierto tamaño en la vivienda, tenderá a a asumir un menor valor por cada metro adicional en que se amplíe la superficie de la misma.
Esta idea viene representada en las siguientes imágenes (los siguientes datos fueron proporcionados por la sociedad de tasación Euroval):
Figura 2. Gráfico de dispersión entre las variables precio y superficie. Muestra construida por 1.900 apartamentos de segunda mano en la ciudad de Valencia, España. Fuente: elaboración propia a partir de datos de Euroval
Figura 3. Hipótesis de relación lineal
Figura 4. Relación no lineal
Figura 5. El precio unitario frente al número de baños
Figura 6. El precio unitario frente al número de baños
Figura 7. El precio unitario frente al número de baños
Figura 8. El precio unitario frente al número de baños
\(~\)
Figura 9. Imagen de una estructura de red neuronal artificial
\(~\)
Figura 10. Ejemplo gráfico de un tipo de árbol de decisión complejo: random forest
\(~\)
Pregunta
2¿Sustituirán los modelos de inteligencia artificial a los valoradores?
\(~\)
Los diferentes algoritmos de machine learning se basan en el proceso de aprendizaje de las máquinas a través de la búsqueda de patrones dentro de los datos.
Podemos agrupar los problemas abordados por la inteligencia artificial en 3 grandes grupos:
Aprendizaje supervisado. En los datos se busca predecir una variable (variable respuesta) a través de otras variables relacionaadas con la misma (variables independientes). La variable respuesta puede ser continua (problemas de regresión) o discreta (problemas de clasificación). Nos centraremos en este tipo porque es el que tiene una aplicación directa al ámbito de la valoración inmobiliaria. Ejemplos:
Valoración de inmuebles: el precio es la variable respuesta o dependiente, mientras que las independientes pueden ser el área, número de dormitorios, localización, estrato, etc.
Estimación de la evolución futura de precios inmobiliarios.
Clasificación de fotos de inmuebles. Tipo de estancia fotografiada (salón, cocina, baños, piscina, exterior, etc.), o impacto comercial de la fotografía (cuantificación de la atracción que la fotografía supondrá para el potencial cliente).
Detección de inmuebles duplicados.
Pregunta
3¿Qué problema puede representar que en nuestra base de datos tengamos inmuebles duplicados?
Aprendizaje no supervisado. El modelo es alimentado sin tener una variable respuesta u objetivo. Por ejemplo, para clasificar inmuebles en función de características comunes; o la determinación de si una vivienda unifamiliar es 1) chalet independiente, 2) vivienda pareada, o 3) vivienda adosada.
Aprendizaje por refuerzo, reinforcement learning. La máquina aprenderá de los aciertos y errores. Además de obtener los modelos a través de los datos de entrada, el diseñador del modelo le indicará a la máquina cómo debe ir modificando los modelos a través de la experiencia en el tratamiento de nuevos datos.
Figura 11. Determinación automática o etiquetado del tipo de estancia fotografiada
Figura 12. Cuantificación del impacto comercial de las fotografías
\(~\)
A la hora de aplicar cualquiera de los métodos de Inteligencia Artificial (IA) a la valoración de activos inmobiliarios, necesitamos dos elementos básicos:
Datos. Los modelos IA son intensivos en información. Necesitan gran cantidad de datos para extraer la máxima información de la relación existente entre las variables, por lo que es importante tener el máximo número de variables que puedan explicar el precio, así como un número elevado de inmuebles que sirvan como testigos para configurar el modelo IA. Ésta es una diferencia muy importante respecto de los métodos tradicionales de valoración inmobiliaria, como el método de homogeneización, donde el precio del activo problema se estima a partir de un número muy limitado de testigos. ¿Cuál de los métodos es mejor?
Software. Aplicar un modelo de redes neuronales artificiales no está al alcance de cualqueir software. Por ejemplo, la hoja de cálculo Excel no incorpora este tipo de metodologías, pese a que sí incorpora otros modelos útiles en el ámbito de la valoración como es el modelo de regresión. Los modelos IA se encuentran implementados en diferentes programas más especializados.
\(~\)
Excel es la hoja de cálculo más popular, y que tiene múltiples aplicaciones en el ámbio de la valoración. Puede ser, por ejemplo, la herramienta básica para aplicar el método de homogoneización, o realizar una valoración inmobiliaria multicriterio.
También incorpora un número importante de funciones estadísticas y herramientas gráficas que pueden emplearse para calcular algunos estadísticos básicos y representar la distribución de las variables. Incluso puede llevarse a cabo un modelo econométrico a través de la herramienta Análisis de Datos.
Sin embargo, no incorpora ninguna herramienta para realizar redes neuronales artificiales o árboles de decisión, e incluso la herramienta para el análisis de regresión sigue siendo muy limitada en comparación de otros programas informáticos.
Figura 13. Imagen de la hoja de cálculo Excel. Ejemplo de apartamentos en Bogotá, representación gráfica del valor de venta frente a la superficie construida
\(~\)
SPSS es un software diseñado para el análisis estadístico de datos, con un formato similar al de la hoja de datos Excel, y con una gran variedad de análisis estadísticos accesibles a través del menú.
En la siguiente imagen aparece el visor de datos de SPSS. El ejemplo incluye apartamentos de la ciudad de Bogotá. Vemos cómo los inmuebles se colocan por filas, mientras que las variables aparecen en las columnas (nombre_comun_barrio, nombre_barrio_catastral, estrato, valor_de_venta, area_construida, etc), de forma análoga a como se presentan en una hoja de cálculo.
En la parte superior se encuentra el menú con diferentes opciones tantos estadísticas como gráficas.
Pregunta
4¿Sabes a qué se corresponden las siglas SPSS?
\(~\)
Figura 14. Imagen del visor de datos de SPSS. Ejemplo de apartamentos en Bogotá
\(~\)
Una alternativa a SPSS es Stata, que también sigue un esquema similar en cuanto a presentación de los datos y modelos estadísticos disponibles:
Figura 15. Imagen del visor de datos de Stata
\(~\)
El software RStudio (hay que diferenciar el lenguaje de programación R del IDE RStudio), que utiliza como base el programa estadístico R, incluye un amplísimo abanico de análisis estadísticos, incluyendo los modelos de inteligencia artificial más recientes. Es con diferencia el más completo de los considerados hasta aquí, y además es gratuito.
El principal inconveniente de este software es el grado de dificultad en su manejo. A diferencia de SPSS, los análisis no están disponible a través del menú, sino que el usuario debe programarlos empleando el lenguaje de programación R. Por lo tanto, se requiere que el usuario tenga conocimientos avanzados de programación.
Aunque se trata de un software mucho más potente que SPSS que permite diseñar modelos de valoración automatizados de gran nivel, la dificultad en la programación hace que no sea aconsejable para el valorador profesional, salvo que disponga de conocimientos avanzados de programación.
Sí puede resultar de gran utilidad para las sociedades de tasación, ejerciendo labores de tasador de control, creación de informes automatizados, elaboración de estudios de mercado, diseño de modelos de valoración masiva, etc.
En la actualidad RStudio permite modelizar funciones de valoración por el método econométrico, el método multicriterio o AHP, multitud de métodos de inteligencia artificial. Al ser un software multipropósito, también facilita la adquisición de datos de portales inmobiliarias (webscraping), o la edición de documentos (esta página web se ha implementado en RStudio).
Figura 16. Imagen del programa RStudio. Ejemplo de código utilizado para analizar apartamentos
\(~\)
Debemos dedicar tiempo al análisis preliminar de los datos, lo que incluye la depuración de los mismos y la transformación de aquellas variables que puedan ayudar a los modelos a optimizar la búsqueda de la función de valoración.
Algunas de estas tareas previas serán:
Eliminación de aparamentos repetidos.
Transformación de variables tipo texto a variables numéricas, aunque en el caso de aplicar redes neuronales es un paso prescindible.
Identificación y eliminación de apartamentos atípicos.
La información que obtengamos sobre la muestra puede dividirse en 3 grandes bloques:
Figura 17. Los 3 grandes bloques en que podremos agrupar la información obtenida sobre los inmuebles
\(~\)
Evidentemente el empleo de estos métodos resulta más complejo que, por ejemplo, el método de homogeneización:
Figura 18. Ejemplo de tabla de homogeneización para la valoración de un inmueble
\(~\)
Sin embargo, el método de homogeneización presenta algunas limitaciones, que podemos repasar a través del anterior ejemplo:
Al emplear muy poco testigos (o muestras en el argot valorativo), el resultado obtenido puede ser muy dependiente de lo acertados o no que hayamos estado a la hora de elegir estos testigos.
También podemos encontranos con mala praxis en la elección de los testigos. Por ejemplo, seleccionar únicamente aquellos que tienen un valor muy similar entre sí. Al combinar sus precios, y precisamente por esa semejanza, obtendremos un valor muy parecido al de los testigos.
La comparación del inmueble a valorar con cada uno de los testigos y para cada una de las variables puede resultar subjetiva. ¿Cómo determinar, de forma objetiva, si los acabados del inmueble problema son peor - igual - mejor que los de un testigo?
También puede resultar subjetiva la distinta importancia que demos a los testigos o a las variables utilizadas en el método.
Los modelos de Inteligencia Artificial superan muchos de estos inconvenientes, haciendo que el proceso sea más objetivo y transparente, aún a costa de una mayor complejidad en su obtención. Se limita la intervención del valorador en la determinación de la importancia de las variables o los testigos.
\(~\)
Obtener un modelo de valoración de redes neuronales artificiales no sólo puede resultar complejo, sino que además puede llevar mucho más tiempo. Desde la obtención de la muestra, que es mucho más amplia que la que emplearíamos en el método de homogeneización, hasta el diseño y validación del propio modelo.
Por contra, una vez obtenidas las muestras y el modelo de valoración, éste nos puede servir para diferentes valoraciones en el futuro, con lo que el tiempo empleado en la recopilación de datos y diseño del modelo se puede amortizar en el tiempo.
\(~\)
Como se ha comentado con anterioridad, la aplicación de otros métodos de valoración puede llevarse a cabo mediante simples hojas de cálculo.
Sin embargo, para poder obtener todo el potencial de los modelos resulta aconsejable emplear algún tipo de software estadístico. Algunos de los estadísticos y análisis previos de los datos pueden llevarse a cabo igualmente con Excel, pero el proceso es más largo y tedioso, por lo que resulta recomendable emplear un programa como SPSS o Stata que, en el largo plazo, nos ahorrará mucho tiempo.
\(~\)
Como pasa en muchos otros ámbitos, la incorporación de nuevos paradigmas siempre lleva aparejado la aparición de resistencias. Resulta habitual escuchar argumentos del tipo “siempre se ha hecho de esta otra forma” para seguir defendiendo la utilización de metodologías tradicionales y resistirse a incorporar nuevos métodos y técnicas como los modelos multicriterio, el modelo econométrico o los modelos de valoración basados en la inteligencia artificial.
\(~\)
Pregunta
5¿Significa lo anterior que debemos dejar de emplear el método de homogeneización?
\(~\)
En el ámbito estadístico, que también aplica a los modelos de Inteligencia Artificial, nos referimos a la población como al conjunto de todas las observaciones de las que se puede obtener información para su posterior análisis.
La muestra, sin embargo, es un subconjunto de la población.
En ocasiones, no resulta posible obtener el conjunto completo de observaciones de la población, bien por imposibilidad técnica o porque supondría un coste excesivo. En estos casos es cuando resulta adecuado escoger una muestra de los mismos, de forma que sean un número suficiente como para poder aplicar las técnicas estadísticas deseadas y, así mismo, sea representativa de la población de la que se ha extraído.
https://www.idealista.com/venta-viviendas/madrid/barrio-de-salamanca/castellana/mapa-google
Figura 19. Mapa con detalle de la ciudad de Madrid y su oferta inmobiliaria. Fuente: www.idealista.com
\(~\)
Podemos asumir que el conjunto de variables que vamos a incluir en nuestros modelos se pueden resumir en 3 grandes grupos:
\(~\)
Se definen a partir de diferentes categorías que no guardan orden entre sí. Habitualmente se emplean para definir atributos cualitativos de las viviendas. Ejemplos: orientación de la vivienda.
| Número de vivienda | Orientación |
|---|---|
| 1 | Este |
| 2 | Norte |
| 3 | Norte |
| 4 | Sur |
| 5 | Norte |
| 6 | Oeste |
Veremos que en redes neuronales artificiales estas variables se llaman también factores. \(~\)
Pueden venir representadas tanto por categorías como por valores numéricos, pero en este caso sí existe un orden entre dichas categorías o valores. Ejemplos: calidad acabados, entorno comercial, etc.
También es habitual encontrarnos con variables originalmente numéricas, pero que se han transformado en categorías ordenadas (como la antigüedad).
| Número de vivienda | Calidad acabados | Antigüedad |
|---|---|---|
| 1 | Buena | Entre 0 y 5 años |
| 2 | Excelente | Entre 10 y 20 años |
| 3 | Buena | Entre 5 y 10 años |
| 4 | Normal | Entre 0 y 5 años |
| 5 | Excelente | Entre 0 y 5 años |
| 6 | Excelente | Entre 5 y 10 años |
\(~\)
Pregunta
6Siendo las dos variables ordinales, ¿cuál te parece más objetiva?
\(~\)
Son variables que vienen expresadas en forma de número. Ejemplos: superficie, número de dormitorios, número de parqueaderos, etc.
| Número de vivienda | Área construida | Número de parqueaderos |
|---|---|---|
| 1 | 80 | 0 |
| 2 | 100 | 1 |
| 3 | 120 | 2 |
| 4 | 98 | 1 |
| 5 | 220 | 1 |
| 6 | 75 | 2 |
\(~\)
Ejercicio
7Realizar la clasificación de las siguientes variables obtenidas del portal
metrocuadradoen los 3 siguientes grupos: variables nominales o categóricas, variables ordinales y variables numéricas. Si lo consideras importante, puedes abrir el programa SPSS para ver los valores que toman estas variables.
Valor de venta (ejemplo: $430.000.000)
Nombre del barrio catastral (El Dorado)
Área construida (87 \(m^2\))
Número de habitaciones (3)
Número de piso (3)
Tiempo de construido (entre 5 y 10 años)
Vigilancia (No)
Estudio o biblioteca (Sí)
Conjunto cerrado (No)
\(~\)
La distribución de los datos informa sobre cómo se distribuyen los mismos. En las variables numéricas, la distribución más habitual es la Distribución Normal.
Figura 20. Ejemplo de distribución normal
\(~\)
En el ámbito de la valoración inmobiliaria es habitual encontrarnos con situaciones en las que algunas variables numéricas no siguen una distribución típicamente normal, sino que presentan algunos sesgos.
Por ejemplo, suele ser habitual que el precio de venta, o la variable superficie, tengan colas muy alargadas a la derecha de la distribución, indicando que existen apartamentos con precios y superficies anormalmente grandes, mientras que la cola de la izquierda de la distribución está, como no podía ser de otro modo, acotada por el valor 0.
Figura 21. Distribución del valor de venta en los apartamentos de la ciudad de Bogotá
\(~\)
Figura 22. Distribución de la variable área construida en los aparamentos de la ciudad de Bogotá
\(~\)