Autor
Francisco Guijarro
Catedrático de Universidad (profesor funcionario a tiempo completo)
Universidad Politécnica de Valencia
La estadística descriptiva tiene por objeto caracterizar los datos que vamos a manejar en la valoración, dándonos una visión general de cómo se comportan las variables involucradas y cuál es la relación entre dichas variables, de forma que se nos facilite su explotación posterior en los modelos de valoración.
Además, un conocimiento adecuado de los datos facilitará el manejo de las diferentes técnicas estadísticas empleadas en valoración inmobiliaria.
Para poder aplicar estas técnicas en el ámbito de la valoración de inmuebles, vamos a contar con una base de datos de apartamentos usados de la ciudad de Bogotá.
El tamaño de la muestra es de algo más de 2.300 apartamentos, con las siguientes variables:
| Variable | Tipo |
|---|---|
| nombre_comun_barrio | texto |
| nombre_barrio_castastral | texto |
| estrato | numérico: 2–6 |
| valor_de_venta | numérico |
| area_construida | numérico |
| numero_de_piso | numérico |
| valor_de_administracion | numérico |
| valor_de_arriendo | numérico |
| area_privada | numérico |
| habitaciones | numérico |
| antiguedad | Entre 0 y 5 / Entre 5 y 10 / Entre 10 y 20 / Mas de 20 / Remodelado |
| banyos | numerico |
| depositos | numerico |
| conjunto_cerrado | Si/No |
| estudio_biblioteca | Si/No |
| area_terraza_balcon | numérico |
| numero_closets | numérico |
| tipo_comedor | Comedor independiente / Sala-comedor |
| tipo_acabado_piso | Alfombra / Balsosa / Ceramica / Laminado / Madera / Marmol / Otro / Porcelanato |
| tipo_instalacion_gas | Natural / Ninguno / Propano |
| tipo_estufa | Electrica / Gas / Mixta |
| tipo_calentador | Caldera / Electrico / Gas / No tiene |
| parqueadero | numérico |
| tipo_parqueadero | Comunal / Independiente / Propio / Servidumbre |
| parqueadero_cubierto | Si/No |
| vigilancia | Si/No |
Ejercicio
1En el capítulo anterior clasificamos las variables en 3 grupos: categóricas, ordinales y numéricas. Observa como todas las variables consideradas se agrupan en estos grupos. Además, tenemos uns subvariante: variables binarias, que sólo pueden tomar dos categorías.
Ejercicio
2También definimos las variables asociadas a los inmuebles en 3 grandes bloques: información del apartamento, información del edificio, información de la zona. ¿Pueden agruparse las variables mencionadas en estos 3 bloques?
A continuación exploramos con más detalle estas variables, examinando los valores más comunes y la distribución de los mismos.
No osbtante, y como paso previo, es importante explorar el programa SPSS, su ventana de datos, ventana de resultados, y algunas opciones que aparecen en los diferentes menús de la barra horizontal superior.
\(~\)
La hoja de cálculo Excel trae algunos elementos estadísticos que pueden ser utilizados en la práctica valorativa, si bien como veremos existen grandes diferencias respecto de otros programas estadísticos.
A través de Análisis de datos tenemos acceso a algunos análisis:
Estadística descriptiva básica.
Análisis de correlaciones.
Análisis de regresión.
Pero también presenta serias limitaciones:
No puede tratar variables no numéricas.
No aporta la significación estadística en algunos análisis (como el análisis de correlaciones).
El manejo de herramientas gráficas es limitado y en muchas ocasiones complejo.
En el análisis de regresión, las variables independientes tienen que ocupar un rango consecutivo.
Ejercicio
3A partir del archivo “datos_reducido.xls” obtener estadísticos descriptivos, análisis de correlaciones y análisis de regresión en los términos que aparecen en las siguientes figuras:
Figura 1. Descriptiva univariante de Excel para las variables estrato, valor de venta, área construida y número de piso
\(~\)
Figura 2. Análisis de correlación con Excel
\(~\)
Figura 3. Análisis de regresión con Excel
\(~\)
El principal problema de Excel es que no está diseñado para ser un programa estadístico. Si bien desde hace años incluye algunos elementos como los que acabamos de mostrar, no tiene incorporadas algunas herramientas de manejo de datos muy útiles para el tasador, ni suficientes herramientas estadísticas para poder obtener todo el potencial de los modelos de regresión.
SPSS es una alternativa mucho más práctica que puede facilitar enormemente el trabajo del valorador. No incluye elementos más avanzados que sí vienen incorporados en un software como R y RStudio, pero a cambio su manejo es sencillo y está al alcance de cualquier profesional sin necesidad de tener grandes conocimientos informáticos, simplemente un manejo básico a nivel ofimático.
\(~\)
La descripción univariante se encarga de informarnos de las características que definen una sola variable.
Veremos que una variable se puede describir a través de sus estadísticos de posición y de sus estadísticos de dispersión.
Estadísticos de posición
Informan sobre los valores más representativos, los que marcan la tendencia central de los datos: media, mediana, moda.
Estadísticos de dispersión
Informan sobre la variabilidad de los valores: rango, varianza, desviación típica.
\(~\)
\(~\)
Media
\(Media(X) = \bar x = \frac{\sum_{i=1}^N x_i}{N}\)
Un problema asociada a la media como estadística de posición es que puede verse muy afectada por los valores extremos:
\(Media(X) = \bar x = \left(10+8+13+15+14 \right)/5 = 12\)
\(Media(X) = \bar x = (100+8+13+15+14)/5=30\)
\(~\)
Mediana
Su valor se obtiene como aquél que deja por encima de sí a la mitad de la muestra, y por debajo a la otra mitad.
En el siguiente ejemplo vemos cómo la mediana apenas cambia, de 13 a 14, tras modificar uno de los elementos de la serie. Cosa muy distinta a lo que ocurría con la media, donde un solo valor hacía que variase de 12 a 30.
\(Mediana(X) = Mediana\left(10+8+13+15+14\right) = Mediana\left(8+10+13+14+15\right) = 13\)
\(Mediana(X) = Mediana\left(100+8+13+15+14\right) = Mediana\left(8+13+14+15+100\right) = 14\)
¿Qué ocurre si el número de elementos en la serie es par? Se obtiene como promedio de los valores que separan una parte de la muestra de la otra. Ejemplo:
\(Mediana(X) = Mediana\left(10+8+13+15+14+16\right) = Mediana\left(8+10+13+14+15+16\right) = 13,5\)
\(~\)
Moda
La moda es el valor que aparece con más frecuencia entre los datos.
Este estadístico tiene sentido en aquellas variables donde el número de posibles valores es limitado (número de dormitorios, número de parqueaderos, estrato).
Ejercicio
4Obtener la moda de la variable número de habitaciones a partir del histograma de frecuencias de dicha variable
Figura 4. Histograma del número de habitaciones
\(~\)
\(~\)
Rango
Se calcula como diferencia entre el valor máximo y el mínimo:
\(Rango(X) = Rango\left(10+8+13+15+14\right) = 15-8 = 7\)
\(~\)
Varianza
\(Varianza(X) = \sigma_X^2 = \frac{1}{N}\sum_{i=1}^N {\left(x_i-\bar x\right)^2}\)
\(Varianza(X) = \sigma_X^2 = \frac{1}{5} \left[ \left(10-12\right)^2 + \left(8-12\right)^2 + \left(13-12\right)^2 + \left(15-12\right)^2 + \left(14-12\right)^2 \right] =\)
\(\frac{1}{5} \left[4 + 16 + 1 + 9 + 4 \right] = 6,8\)
\(~\)
Desviación típica
Se obtiene como la raiz cuadrada de la varianza:
\(Desviación Típica (X) = \sigma_X = \sqrt \sigma_X^2 = \sqrt(6,8) = 2,61\)
\(~\)
Ejercicio
5Vamos a calcular los estadísticos descriptivos de posición y dispersión de diferentes variables, a fin de observar si sus valores son muy diferentes entre sí:
Paso 1: Debemos ir a la opción Analizar -> Estadísticos descripticos -> Descriptivos
Paso 2: En la ventana emergente, seleccionar la variable valor de venta y moverla al cuadro “Variables”.
Paso 3: Pinchar en el botón “Opciones”, y seleccionar los elementos que aparecen en la siguiente tabla:
Figura 5. Cuadro de diálogo para estadísticos descriptivos
Paso 4: Continuar y aceptar
\(~\)
El resultado sería el de la siguiente figura.
Figura 6. Resultado de los estadísticos descriptivos
\(~\)
Podemos ver que, aunque SPSS ofrece con esta opción diferentes estadísticos descriptivos, no aparecen todos. Por ejemplo, faltan la mediana y la moda. Para obtenerls, existe una segunda opción que, aunque no tan evidente como la anteriormente señalada, sí nos puede ofrecer toda la información que buscamos:
Paso 1: Debemos ir a la opción Analizar -> Estadísticos descripticos -> Frecuencias
Paso 2: En la ventana emergente, seleccionar la variable valor de venta y moverla al cuadro “Estadísticos”.
Paso 3: Pinchar en el botón “Opciones”, y seleccionar los elementos que aparecen en la siguiente figura:
Figura 7. Cuadro de diálogo para estadísticos descriptivos en frecuencias
Paso 3: Continuar y aceptar
El resultado sería el de la siguiente tabla:
Figura 8. Resultado de los estadísticos descriptivos con frecuencias
Ejercicio
6¿Cómo interpretamos los anteriores resultados? Por ejemplo, ¿qué significa que el valor de venta medio, 956 millones COP, esté muy por encima de la mediana del valor de venta, 635 millones COP?
\(~\)
Hasta aquí los elementos básicos y fundamentalmente teóricos para realizar una descripción univariante de nuestros datos. A continuación realizaremos un análisis más pormenorizado, realista y práctico de una base de datos de apartamentos.
En este apartado vamos a analizar las diferentes variables que componen la base de datos, examinando el tipo de cada variable, sus valores más representativos, el porcentaje de valores faltantes, etc.
Esta información tiene dos serios problemas para ser considerada en nuestros modelos de valoración.
En primer lugar, tenemos demasiados niveles (787) dado el número de apartamentos en la base de datos. En segundo lugar, algunos elementos aparecen repetidos pero con diferente formato, lo que hará que el programa los tome como barrios distintos (Altos de Cabrera, ALTOS DE CABRERA) aún tratándose en realidad del mismo.
Figura 9. Frecuencia del nombre común del barrio
\(~\)
\(~\)
| Estrato | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|
| Num apartamentos | 46 | 221 | 483 | 496 | 1069 |
Aunque no lo reportamos en los resultados, hemos cruzado el estrato con la variable nombre_barrio_catastral, y no siempre todos los apartamentos en un barrio pertenecen al mismo estrato.
\(~\)
10 se puede observar un histograma de esta variable. Comprobamos que no sigue una distribución normal, y que la cola de la derecha es mucho más alargada de la que se correspondería con una distribución normal. Esto suele ser bastante habitual en la valoración de inmuebles, donde un porcentaje muy elevado de apartamentos se sitúan con un valor de venta muy próximo a la media, mientras que un porcentaje reducido tienen un valor de venta muy alto, excesivamente elevado para la tendencia central del mercado.Figura 10. Histograma del valor de venta, junto con la curva teórica de la distribución normal
\(~\)
Veremos en otro capítulo que esto puede generar una serie de problemas cuando se aplica un modelo de regresión (heterocedasticidad). Sin embargo, existe una solución habitualmente adoptada para superar este inconveniente, mediante la aplicación del logaritmo:
Ejercicio
7Crear una nueva variable log_valor_de_venta cuya fórmula sea log_valor_de_venta = log10(valor_de_venta), a través del menú Transformar -> Calcular variable. Representarla gráficamente mediante un histograma y superponer la distribución normal.
Figura 11. Histograma de la variable log_valor_de_venta y su comparación con la distribución normal
\(~\)
Figura 12. Histograma del área construida, junto con la curva teórica de la distribución normal
\(~\)
Igualmente podemos conseguir normalidad si calculamos la transformada logarítmica. Vemos en la figura 13 como algunos apartamentos tienen un valor 0 o muy próximo a cero, lo que debe tratarse de algún error a la hora de introducir su área en el archivo de datos.
Figura 13. Histograma del logaritmo del área construida, junto con la curva teórica de la distribución normal
\(~\)
En este caso observamos dos diferencias muy relevantes respecto de los gráficos anteriores. En la Figura 14 podemos ver que el número de apartamentos con esta información es muy reducido. De los 2.315 apartamentos que tenemos en nuestra base de datos, únicamente 354 tienen información sobre el número de piso en que se encuentra.
La otra diferencia es que algunos datos van más allá de no poder ser considerados “normales”. El hecho de encontrar números de piso por encima de 400 nos hace pensar que se tratan de valores erróneos. Ante esto podemos plantearnos dos acciones.
La primera sería eliminar del análisis aquellos apartamentos cuyo número de piso se pueda considerar claramente un error.
La segunda opción, que será la que vamos a elegir, es desechar la variable numero_de_piso por no tener suficientes observaciones. Tengamos en cuenta que sólo disponemos del número de piso para apenas un 15% de los apartamentos, y muchos de los métodos de valoración que podemos emplear asumen que debemos tener información completa para todos los apartamentos. Esto es, que si alguna variable no tiene valor, el método de valoración directamente descarta el apartamento de la muestra. Eso implicaría que si consideramos el número de piso, nuestra muestra pasa de 2.315 apartamentos a tan solo 354.
Figura 14. Histograma del número de piso
Ejercicio
8Calcular la tabla de frecuencias de la variable numero_de_piso (Analizar -> Estadísticos descriptivos -> Frecuencias).
\(~\)
Para el valor de administración de nuevo nos encontramos con el problema de valores muy alejados del promedio. Esto no se observa muy bien en el histograma, pero sí en el diagrama de caja.
No obstante, podría ser una variable a considerar ya que en este caso sí tenemos bastantes apartamentos en los que se informa sobre el valor de administración: 2.045.
Figura 15. Histograma del valor de administración
\(~\)
Figura 16. Diagrama de caja del valor de administración
\(~\)
Pues bien, imaginemos ahora que todos los apartamentos que figuren con un coste de administración superior a 100.000.000 COP son, simplemente, un error a la hora de introducir ese dato. Si los excluimos del análisis, vemos como ahora sí se observa mucho mejor la distribución de la variable, que antes apenas se podía apreciar tanto en el histograma como en el diagrama de caja.
Vemos como al filtrar los apartamentos con un valor de administración por debajo de los 100 millones COP, sólo quedan apartamentos con un valor de administración por debajo de los 5 millones COP.
Vemos que hemos pasado de 2.045 inmuebles a 2.037. Es decir, que eliminando tan sólo 8 apartamentos conseguimos obtener unos valores que podrían ser considerados “normales”.
Figura 17. Histograma del valor de administración, una vez filrados los apartamentos con valores anómalos
\(~\)
Figura 18. Diagrama de caja del valor de administración, una vez filrados los apartamentos con valores anómalos
\(~\)
Vemos en la Figura 19 que el principal problema de esta variable es que tenemos muy pocos apartamentos que brinden información sobre esta variable.
Figura 19. Histograma del valor de arriendo
\(~\)
Atendiendo al gráfico del histograma, podemos ver que la variable area_privada tiene un comportamiento similar al de area_construida. Eso sí, tenemos menos apartamentos que informan sobre el área privada (2.087) frente a los apartamentos para los que sí tenemos el área contruida (2.315).
Figura 20. Histograma del área privada
\(~\)
Obviamente, ambas variables van a estar muy relacionadas entre sí. En la Figura 21 hemos representado mediante un gráfico de dispersión la similitud entre ambas variables.
Es de suponer que el área construida siempre será mayor o igual que el área privada. Sin embargo, esto no siempre ocurre con los datos que tenemos. El 2,7% de los apartamentos presentan un área privada mayor que el área construida, por lo que podemos suponer que se trata de algún error a la hora de introducir los datos.
Figura 21. Diagrama de dispersión entre el área construida y el área privada
\(~\)
Veremos, tras aplicar el modelo de valoración econométrico, si ambas variables entran en la función de valoración o realmente sólo contamos con una de ellas.
\(~\)
Aunque no es una variable que viene definida en la base de datos de apartamento, podemos calcularla fácilmente dividiendo el valor de venta por el área construida.
Ejercicio
9Crear una nueva variable valor_de_venta_m2 cuya fórmula sea valor_de_venta_m2 = valor_de_venta/area_construida, a través del menú Transformar -> Calcular variable
En la Figura 22 observamos que la mayor parte de los apartamentos se sitúan sobre una de las barras, mientras que por la derecha aparecen valores muy extremos, excepcionalmente caros.
¿Qué nos está indicando esto? Que en nuestra base de datos muy probablemente tengamos apartamentos en los que o bien ha habido un error a la hora de transcribir el valor de venta, o bien la superficie construida contiene un error (valores 0 o muy próximos a 0). Este tipo de situaciones pueden ser muy perjudiciales a la hora de diseñar un modelo de valoración, pues la presencia de estos datos atípicos o outliers pueden afectar gravemente a los resultados. Nuestra tarea consistirá en limpiar la base de datos antes de lanzar un modelo econométrico.
Figura 22. Histograma de la variable valor_de_venta_m2
\(~\)
También hemos obtenido una tabla cruzada entre el valor de venta por metro cuadrado construido y el estrato, de forma que podamos conocer las diferencias medias en valor unitario según el estrato donde se situe el inmueble.
Lo que comprobamos en la tabla es que el valor promedio del metro cuadrado sube con el estrato, como era de esperar. No obstante, estas diferencias serán más afinadas y precisas cuando eliminemos los valores atípicos que hemos comentado anteriormente.
Figura 23. Tabla cruzada entre valor_de_venta_m2 y estrato. Permite conocer el valor medio del metro cuadrato constuido por estrato
\(~\)
Respecto de las habitaciones, únicamente tenemos dos apartamentos en los que no figura esa información.
Figura 24. Frecuencia del número de habitaciones
\(~\)
Como única observación, tenemos un pequeño porcentaje de apartamentos en los que no se indica la antiguedad, así como otro pequeño porcentaje en el que se indican que están remodelados.
Puede resultar interesante conocer cómo se distribuye el valor de venta en función de esta antigüedad, y si hay diferencias en la antigüedad según el estrato.
Es difícil extraer alguna conclusión de las siguientes tablas. No se puede afirmar que exista una relación clara entre la antiguedad y el estrato donde se ubican los apartamentos. Y tampoco se puede afirmar que necesariamente las viviendas más recientes son las más caras. Quizá también pueda deberse a una variación de la superficie de las viviendas a lo largo dle tiempo, o simplemente que la relación entre valor de venta y antiguedad deba ser considerada añadiendo otras variables que expliquen el comportamiento del precio.
Figura 25. Tabla de frecuencias para la variables antiguedad
\(~\)
Figura 26. Tabla cruzada entre la antiguedad y el estrato
\(~\)
Figura 27. Tabla cruzada entre la antiguedad y el valor de venta
\(~\)
Figura 28. Tabla de frecuencias para la variable banyos
\(~\)
El problema de esta variable es que tiene un porcentaje de valores ausentes muy grande, lo que dificulta su empleo en cualquier metodología de valoración.
Figura 29. Tabla de frecuencias para la variable depositos
\(~\)
Figura 30. Tabla de frecuencias para la variable conjunto_cerrado
\(~\)
Figura 31. Gráfico de tarta para la variable conjunto_cerrado
\(~\)
Al igual que en el caso de la variable conjunto_cerrado, también contamos con información sobre estudio_biblioteca en el 100% de los apartamentos.
Figura 32. Gráfico de tarta para la variable estudio_biblioteca
\(~\)
De la siguiente figura podemos concluir que la mayoría de los inmuebles no tienen terraza o balcón. A diferencia de otras variables en las que directamente no tenemos información, en este caso sí podríamos considerarla en un modelo de valoración, ya que los valores o son estrictamente positivos (apartamento con balcón o terraza) o son cero (apartamento sin balcón ni terraza).
Figura 33. Diagrama de caja para la variable area_terraza_balcon
\(~\)
Un elevado porcentaje de casos en los que no se reporta el número de closets. Podría incluirse en los modelos de valoración, pero para ello tendríamos que asumir explícitamente que los apartamentos en los que no se reportan closets deben ser considerados con un valor 0 en dicha variable.
Figura 34. Frecuencias de la variable número de closets
\(~\)
Figura 35. Frecuencias de la variable tipo_comedor
\(~\)
Figura 36. Frecuencias de la variable tipo_acabado_piso
\(~\)
Figura 37. Frecuencias de la variable tipo_instalacion_gas
\(~\)
Figura 38. Frecuencias de la variable tipo_estufa
\(~\)
Figura 39. Frecuencias de la variable tipo_calentador
\(~\)
Figura 40. Frecuencias de la variable parqueadero
\(~\)
Figura 41. Frecuencias de la variable tipo_parqueadero
\(~\)
Figura 42. Frecuencias de la variable parqueadero_cubierto
\(~\)
Variable que informa de si el apartamento se encuentra ubicado en un conjunto con vigilancia. Observando lo valores de las tablas vemos que 1) no es muy común que el conjunto cuente con vigilancia, y 2) el nivel de vigilancia no depende del estrato.
Figura 43. Frecuencias de la variable vigilancia
\(~\)
Figura 44. Tabla cruzada entre las variables vigilancia y estrato
\(~\)
Hasta aquí el análisis univariante, relacionado con el estudio individual de las variables.
En el siguiente epígrafe analizaremos en qué forma se relacionan unas variables con otras, y si existe dependencia entre las mismas.
Un aspecto importante antes de avanzar en un modelo de valoración econométrico es estudiar el grado de correlación entre las variables.
La correlación de Pearson es la más utilizada para cuantificar el grado de relación entre variables numéricas:
\(\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \sigma_y} \in [-1,+1]\)
En la Figura 45 aparecen reflejados algunos conceptos de la correlación:
Podemos disinguir entre correlación positiva y negativa. Cuanto más próximo está el coeficiente de correlación a +1, mayor es el grado de relación positiva entre las variables. Cuanto más próximo está el coeficiente de correlación a -1, mayor es el grado de relación negativa entre las variables.
Si una variable no está correlacionada con el precio (valores del coeficiente próximos a 0), con toda seguridad no aparecerá en el modelo de valoración.
También es importante diferenciar entre una correlación fuerte y una débil. Si el precio está fuertemente correlacionado con una variable, a buen seguro esa variable aparecerá en el modelo de valoración.
Por último, los modelos tradicionales de regresión pueden tener dificultades para encontrar relaciones no lineales e incluirlas en el modelo de valoración. Es ahí donde otros modelos de valoración, como los modelos de Inteligencia Artificial, tienen un éxito considerable.
Figura 45. Esquema general del concepto de correlación
\(~\)
Figura 46. Diagrama de dispersión entre valor de venta y área construida
\(~\)
Figura 47. Diagrama de dispersión entre el logaritmo del valor de venta y el logaritmo del área construida
\(~\)
Figura 48. Matriz de correlaciones para valor de venta, área construida, logaritmo del valor de venta, y logaritmo del área construida
\(~\)
Pregunta
10La correlacion entre
valor_de_ventaylog_valor_de_ventano es +1, pese a que el valor de la segunda se obtiene a partir de la primera. ¿Indica esto que la correlación de Pearson sólo cuantifica un tipo de relación, la lineal?
Ejercicio
11Hemos visto en las figuras anteriores que al representar la variable
log_valor_de_ventafrente alog_area_construida, unos pocos apartamentos conlog_area_construidapróximo al valor 0 pueden distorsionar gravemente el coeficiente de correlación. De ahí que la mejora de este coeficiente de correlación frente al obtenido entrevalor_de_ventayarea_construidasea pequeña. El ejericicio consiste en filtrar esos datos atípicos, y calcular la correlación de nuevo excluyendo esos valores. Los apartamentos a excluir son los que tienen unarea_construidade valor 1.
Figura 49. Matriz de correlaciones para valor de venta, área construida, logaritmo del valor de venta, y logaritmo del área construida una vez eliminaos unos apartamentos con un área construida muy baja
\(~\)
Más adelante comprobaremos que una correlación de 0,90 supone un coeficiente \(R^2\) de 81%.
Una vez considerado lo anterior, observemos la matriz de correlaciones entre el valor de venta y el resto de variables numéricas en la Figura 50. Se trata de una matriz simétrica, cuyos coeficientes nos indican si la correlación es significativa (desde un punto de vista estadístico) con un nivel de confianza del 95% o del 99%.
Figura 50. Tabla de correlaciones entre las variables numéricas
\(~\)
Ejercicio
12¿Cuál es el significado de los símbolos * y ** al pie de la matriz de correlaciones?
Puesto que nuestro objetivo es obtener un modelo de valoración que explique el valor de venta, nos podemos limitar a analizar la primera columna de la matriz de correlaciones.
Aquí podemos evidenciar que no todas las variables son significativas, y que entre las significativas las hay con correlación fuerte y con correlación débil.
En cualquier caso, los elevados valores obtenidos auguran un buen modelo de valoración. Por ejemplo, si la correlación entre el valor de venta y el área construida es de 0,836, esto implica que si hiciéramos un modelo de regresión entre las dos variables obtendríamos un \(R^2\) del 0.698896.
¿Es este valor suficiente para un modelo de valoración? Claramente no, pues al menos se emplea un 90% (0.9) en los modelos de regresión. Sin embargo, podemos añadir más variables que vayan mejorando ese porcentaje hasta alcanzar el valor mínimo deseado, junto con algunos otros elementos que nos permitirán ir subiendo el valor de \(R^2\).
\(~\)
Figura 51. Detalle de la matriz de correlaciones. Correlación entre el valor de venta y el resto de variables numéricas
\(~\)
Pero además tengamos en cuenta dos cuestiones muy importantes que sin duda mejorarán el modelo de valoración:
La correlación de Pearson, que es la que hemos calculado, únicamente recoge la relación lineal entre variables. Si además de ésta existe alguna relación no lineal (por ejemplo entre valor de venta y estrato), deberemos adaptar los modelos para recoger este tipo de relaciones.
A estas variables numéricas hay que añadir otras variables no numéricas, como la antigüedad, que producirán una mejora en la explicación del valor de venta, mejorando la precisión de los modelos de valoración.
La correlación parcial permite conocer la relación entre dos variables dada una tercera (o varias terceras variables).
Cuando dos o más variables están muy correlacionadas, es muy probable que sólo una de ellas entre en el modelo de valoración. Esto es así porque el elevado grado de correlación hace que conociendo el valor de una de estas variables, prácticamente sepamos el valor de la otra. Expresado de otra forma: si se incluye una de las variables en el modelo de valoración, es como si estuviéramos incluyendo la otra, de forma que al considerar una no merece la pena incluir la otra, pues no aportaría información nueva relevante.
En la siguiente tabla vemos la correlación entre el valor de venta y las dos variables ligadas al área (area_construida y area_privada), así como el alto grado de correlación entre estas dos últimas.
Ya podemos observar la importancia que tiene el área en el valor de venta de la vivienda. La correlación es muy elevada tanto para el área construida como para el área privada. Podemos pensar en emplear el área privada en nuestros modelos de valoración, de forma preferente al área construida, ya que su coeficiente de correlación es mayor. Pero cuidado: si procedemos de esa forma estamos descartando aproximadamente un 10% de la muestra, puesto que no para todos los apartamentos tenemos información sobre el área privada.
Figura 52. Correlación entre las variables valor de venta, área construida y área privada
\(~\)
¿Podemos asumir que el área privada seguiría siendo importante a la hora de explicar los valores de venta una vez se haya considerado el área construida? Esta respuesta la podemos obtener a través del análisis de correlación parcial.
En este análisis, se calcula la correlación entre dos variables una vez descontado el efecto de una tercera. En nuestro caso, hemos calculado la correlación entre el valor de venta y el área privada, una vez descontado el efecto del área contruida. Podemos comprobar como la correlación entre valor y área privada sigue siendo estadísticamente significativa (la Significación está por debajo del límite de 0,05), pero la correlación es mucho menor a la encontrada originalmente entre el valor de venta y el área privada. Esto indica que la inclusión del área privada en un modelo de regresión aportaría muy poca información si previamente se ha incluido la variable área construida.
Figura 53. Correlación parcial entre valor de venta y área privada, controlando mediante la variable área construida
\(~\)
Ejercicio
13Repetir los cálculos anteriores pero utilizando las variables en forma de logaritmo:
log_valor_de_venta,log_area_construidaylog_area_privada. Calcular también la correlación de Pearson entrevalor_de_venta,area_construidayhabitaciones, para luego calcular la correlación parcial entrevalor_de_ventayhabitaciones, controlando por la variablearea_construida. Interpreta los resultados.
Ejercicio
14Comprobar qué ocurre con el anterior ejercicio si se repite pero excluyendo los apartamentos con
area_construidaigual a 1 metro cuadrado.
La correlación de Spearman permite obtener la correlación entre variables ya sean continuas o discretas. El coeficiente de correlación de Spearman se calcula mediante la siguiente expresión:
\(\rho_{xy} = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n(n^2-1)}\)
El significado de \(d_i\) y el propio cálclo del coeficiente de correlación se entienden mejor con un ejemplo. En el siguiente supuesto lo hemos calculado sobre una variable numérica (Precio) y otra que podría ser considerada numérica pero también ordinal (número de dormitorios)
Figura 54. Ejemplo de correlación parcial
\(\rho_{xy} = 1 - \frac{6 \sum_{i=1}^n d_i^2}{n(n^2-1)} = 1-\frac{6(16^2 + 0^2 + 1^2 + \ldots + 2,25^2)}{10(10^2-1)} = 0,709 (70,9\%)\)
\(~\)
Ejercicio
15Calcular la correlación de Pearson entre estrato y número de habitaciones. Después calcular la de Spearman y comparar los resultados.
\(~\)
Ejercicio
16Utilizando el menú Líneas de
Gráficos -> Generador de gráficos–Simple, Resúmenes para grupos de casos. La línea representa otro estadístico (valor_de_venta), eje de categorías (estrato)–, representar el valor de venta medio por estrato. Repetirlo utilizando el valor de venta por metro cuadrado.
Figura 55. Valor de venta medio por estrato
\(~\)
La inclusión de apartamentos atípicos (outliers) puede afectar negativamente a los resultados que obtengamos. Fundamentalmente por dos motivos:
Pueden hacer que el ajuste obtenido sea muy bajo (estadístico \(R^2\) en los modelos de regresión).
Pueden sesgar la recta de regresión, haciendo que la pendiente (por ejemplo entre valor de venta y superficie) sea muy diferente a la que obtendríamos si esos apartamentos atípicos no se consideraran.
En la siguiente figura podemos ver representado un gráfico de dispersión entre el valor de venta y el área construida. Hemos señalado 3 posibles valores atípicos, porque nos parece que pueden representar valores extremos dentro del conjunto de datos que manejamos. Unos porque tienen una superficie muy alta, otros porque tienen la superficie muy pequeña. Aunque igualmente podríamos haber empleado el valor de venta para hacer esa distinción.
Figura 56. Diagrama de dispersión entre valor de venta y área construida
\(~\)
¿Qué ocurre si trazamos una recta que se acomode a la dispersión de los puntos? Pues en este caso, observamos como algunos valores que parecían atípicos ahora aparecen bastante cerca de la recta trazada. Esto es, que tienen un valor de venta que es acorde con su superficie, con lo que no parece razonable marcarlos como valores atípicos.
En este caso lo que hemos hecho es realizar el análisis de atípicos no de forma univariante (teniendo en cuenta una sola variable) sino de forma multivariante (dos variables, en este caso).
Figura 57. Diagrama de dispersión entre valor de venta y área construida
\(~\)
Pues bien, en lugar de tomar los valores extremos de una variable para identificar los apartamentos atípicos, vamos a emplear un estadístico que tiene en cuenta más de una variable y la relación entre las mismas para identificarlos: la distancia de Mahalanobis.
\(~\)
Ejercicio
17Identificar gráficamente posibles valores atípicos en la relación entre el precio de venta y el área privada (representarlas en un diagrama de dispersión).
\(~\)
Para obtener la distancia de Mahalanobis iremos a la opción Analizar -> Regresión -> Lineales, escogeremos valor_de_venta como variable dependiente y area_construida como variable independiente, y en el botón Guardar seleccionaremos distancia de Mahalanobis.
Esto hará que al correr la regresión aparezca una nueva variable al final de nuestros datos con el nombre MAH_1.
Ejercicio
18Representar un histograma de frecuencias de la variable MAH_1 y comentarlo (
Gráficos -> Cuadro de diálogos antiguos -> Histograma.
Ejercicio
19Representar la variable MAH_1 en un diagrama de cajas (
Gráficos -> Cuadro de diálogos antiguos -> Diagramas de caja ->Los datos del gráfico son ... Resúmenes para distintas variables), para poder identificar los apartamentos con valores de Mahalanobis más extremos.
Figura 58. Diagrama de caja para la variable distancia de Mahalanobis
\(~\)
Podemos ver que entre las observaciones con mayor distancia de Mahalanobis, y por lo tanto con relaciones valor de venta – área construida más atípicas, están los apartamentos 2.117, 800, 1.137, 1.959, etc.
Ejercicio
20Seleccionar únicamente los apartamentos con distancia Mahalanobis menor que 20, para poder llevar a cabo las siguientes comprobaciones.
\(~\) Si deseleccionamos los apartamentos con una distancia de Mahalanobis mayor que 20, y repetimos el gráfico de dispersión, podemos ver cómo ha afectado la eliminación de estos apartamentos al ajuste obtenido mediante una recta entre ambas variables.
Figura 59. Diagrama de dispersión entre valor de venta y área constuida una vez se han descartado algunos apartamentos sospechosos de ser atípicos
\(~\)
Este mismo criterio lo podemos aplicar, no sobre un par de variables, sino sobre un conjunto más amplio de variables que tenemos en el archivo:
Si volvemos a descartar los apartamentos con una distancia de Mahalanobis por encima de 20, veremos que se elimina un número importante de apartamentos atípicos.
De hecho, la correlación entre estas variables antes de considerar Mahalanobis era:
Figura 60. Correlación antes de aplicar Mahalanobis
\(~\)
Mientras que ahora se ha mejorado sensiblemente al eliminar aproximadamente 50 apartamentos:
Figura 61. Correlación despuéx de aplicar Mahalanobis
\(~\)
Ejercicio
21Aprovechando la identificación de estos apartamentos como atípicos, vamos a guardar un nuevo fichero en SPSS donde únicamente aparezcan los apartamentos que la distancia de Mahalanobis considera normales. Para ellos tendemos 1) ordenar los datos según la variable de distancia de Mahalanabis (Datos -> Ordenar casos), y 2) eliminar las observaciones donde el filtro sea distinto de 1 (Editar -> Borrar). Al nuevo fichero lo denominaremos “Datos_sin_atipicos.sav”.
\(~\)
Los siguientes ejercicios se van a realizar sobre la segunda versión del archivo de apartamentos de Bogotá; es decir, una vez eliminados los apartamentos atípicos a través de la distancia de Mahalanobis.
Ejercicio
22Aprovechando la opción de filtros que incorpora SPSS, obtener la correlación entre valor de venta y área construida para los diferentes estratos.
Esto es, selecccionar únicamente los apartamentos de estrato 2, y calcular la correlación entre valor de venta y área construida. Posterioremente seleccionar los apartamentos de estrato 3 y repetir el análisis de correlación; y así sucesivamente.
¿Es la correlación igual de importante y significativa en todos ellos? ¿En qué estratos es la correlación más y menos significativa, respectivamente? Implicaciones prácticas: si la relación entre valor y área no es la misma en todos los estratos, en nuestra función de valuación el metro cuadrado tendrá un valor o peso distinto según el estrato en que se situe el apartamento.
Aquí un par de ejemplos (estratos 3 y 5):
Figura 62. Diagrama de dispersión entre valor_de_venta y area_construida, en estrato 3. Detalle del valor por metro cuadrado
\(~\)
Figura 63. Diagrama de dispersión entre valor_de_venta y area_construida, en estrato 5. Detalle del valor por metro cuadrado
\(~\)
Ejercicio
23Obtener un diagrama de caja entre el valor unitario y el estrato. Para ello habrá que crear la variable valor_m2 a través de Transformar -> Calcular variable. El resultado debe servir para evidenciar que pese a haber eliminado algunos apartamentos por atípicos, será necesario afinar un poco más en capítulos posteriores.
Figura 64. Diagrama de caja entre valor_m2 y estrato
\(~\)
Ejercicio
24Obtener la correlación de Pearson entre valor_de_venta, area_construida, dormitorios y parqueaderos. Calcular posterioremente la correlación parcial entre valor de venta, dormitorios y parqueaderos, eliminando el efecto de area_constuida. Interpretar los resultados.
Figura 65. Correlación de Pearson entre diferentes variables
\(~\)
Figura 66. Correlación parcial entre diferentes variables, controlando por area_construida
\(~\)
Ejercicio
25Comentábamos en un subapartado de este capítulo que en la base de datos aparecían algunos apartamentos con un área constuida 0 o muy próxima a 0. Aunque la eliminación de atípicos ha eliminado la mayor parte de estos apartamentos, aún queda algunos con un área muy pequeña. En este ejercicio deberán eliminarse todos los apartamentos con area_construida < 30, y salvar de nuevo el fichero con el nombre “Datos_sin_atipicos.sav”. Para ello recuerda que puedes ordenar los apartamentos a través de la opción Datos -> Ordenar casos, y posteriormente Editar -> Borrar.
En el siguiente capítulo trabajaremos únicamente con el archivo “Datos_sin_atípicos.sav” creado en este último ejercicio del capítulo.