Autor

Francisco Guijarro

Catedrático de Universidad (profesor funcionario a tiempo completo)

Universidad Politécnica de Valencia

1 Introducción

Los árboles de decisión consituyen una alternativa muy interesantes a las redes neuronales artificiales.

Entre sus principales ventajas está que los modelos generados con árboles de decisión se pueden interpretar mucho más fácilmente que las redes neuronales artificiales, sobre todo cuando éstas ya empiezan a tener una arquitectura de cierta complejidad.

Al igual que las redes neuronales, también permiten capturar relaciones no lineales entre las variables.

Los árboles de decisión son una técnica ideada para la toma de decisiones, y que permite ser fácilmente implementada en el ámbito de la valoración, y en especial la valoración inmobiliaria.

Se trata de:

  • Paso 1: definir la decisión que se ha de llevar a cabo.

  • Paso 2: definir qué elementos o variables intervienen en esa decisión.

  • Paso 3: determinar la ruta óptima (reglas de decisión) que nos llevará a tomar la mejor decisión posible teniendo en cuenta todas las variables que intervienen en el proceso.

En la siguiente figura se visualizan los elementos clave de un árbol de decisión: estructura del árbol, nodos decisionales, ramas y nodos hoja

Figura 1. Estructura de un árbol de decisión

\(~\)

  • La traslación de este esquema al ámbito de la valoración es muy sencilla:

Figura 2. Adaptación de la estructura de un árbol de decisión al campo de la valoración inmobiliaria

\(~\)

Vamos a ver un primer ejemplo para saber cómo interpretar los resultados de un árbol de decisión obtenidos con SPSS.

Empezaremos por un árbol sencillo para el Estrato 5. Los árboles de decisión se encuentran a través del menú “Analizar -> Clasificar -> Árbol”.

Ejercicio 1

Obtener un árbol de decisión, filtrando previamente a los apartamentos con estrato 5. Explicar el valor_de_venta a partir de area_construida y la antigüedad. ¿Cuáles son los nodos hoja o nodos hijo? ¿Cuáles son los nodos decisionales? ¿Cuál es el precio medio de los inmuebles en cada hoja? ¿Son todos los grupos igual de homogéneos en cuanto al precio? ¿Igual de numerosos? ¿Qué significa que no todos sean homogéneos en cuanto al precio?

\(~\)

Figura 3. Estructura de árbol para el estrato 5

\(~\)

Figura 4. Información adicional para el árbol obtenido del estrato 5

\(~\)

Ejercicio 2

Repetir el ejercicio sin filtrar por estrato, añadiendo además el estrato como variable explicativa. En la pestaña “Resultados”, se puede seleccionar la opción “Visualización -> Orientación -> De izquierda a derecha” para poder visualizar mejor el árbol.

\(~\)

  • Se puede ver como la estructura del árbol para este segundo ejercicio se ha complicado. En las siguientes figuras aparece el detalle de algunos nodos:

Figura 5. Detalle del árbol

\(~\)

Figura 6. Detalle del árbol

\(~\)

  • Podemos ver que el árbol está asignando el mismo valor de venta a apartamentos con diferente área construida.

  • Una alternativa es colocar como variable a explicar el valor de venta unitario (valor_m2 = valor_de_venta / area_construida).

Ejercicio 3

Construir un árbol de decisión que explique el valor de venta por metro cuadrado (valor_de_venta_m2 = valor_de_venta / area_construida). Las variables explicativas serán area_construida, estrato y antiguedad. Guardar el “Valor pronosticado”. Explora el árbol para comprobar si se han empleado las 3 variables explicativas. Calcular la correlación entre el valor_de_venta_m2 y el valor pronosticado. ¿A qué valor de \(R^2\) correspondería del módelo clásico de regresión?

\(~\)

Figura 7. Correlación entre el valor de venta unitario y el valor de venta unitario estimado

\(~\)

  • Vemos que la correlación con los valores unitarios es muy pequeña.

  • Sin embargo, para poder comparar con los resultados obtenidos en las redes neuronales, o los que obtendríamos en un modelo de regresión, lo habitual es emplear valores absolutos (valor de venta) en lugar de valores unitarios (valor de venta por metro cuadrado).

Ejercicio 4

Calcula el valor_de_venta_estimado multipliando el valor estimado en el ejercicio anterior por el area_construida. Calcular la matriz de correlación entre valor_de_venta y valor_de_venta_estimado.

\(~\)

Figura 8. Correlación entre los valores absolutos

\(~\)

Figura 9. Diagrama de dispersión entre el valor de venta y el valor de venta estimado por el árbol de decisión

\(~\)

2 Un modelo completo de árbol de decisión

Como en el caso de las redes neuronales, vamos a obtener un modelo con un mayor número de variales explicativas a fin de comprobar la calidad de los modelos obtenidos.

La variable dependiente será:

  • log_valor_de_venta

Vamos a considerar las siguientes variables explicativas:

  • log_area_construida

  • estrato

  • habitaciones

  • banyos

  • antiguedad

  • conjunto_cerrado

  • estudio_biblioteca

  • area_terraza_balcon

  • parqueadero

  • parqueadero_cubierto

  • vigilancia

Ejercicio 5

Correr un modelo de árbol de decisión, guardando los valores pronosticados, y calculando posteriormente la correlación entre log_valor_de_venta y los valores estimados (que ya están en logaritmos).

\(~\)

Figura 10. Resumen de los nodos hoja obtenidos en el árbol de decisión

\(~\)

Figura 11. Correlación entre los valores observados y los estimados

\(~\)

Ejercicio 6

Repetir el anterior modelo, pero eliminando previamente los apartamentos que por si residuo se puedan considerar anómalos.