En colaboración con La Inmobiliaria de Hoyo.
El sector inmobiliario en España es una parte fundamental del IPC del país y de la economía de las familias. En el mes de enero, se registró el nivel más alto de venta de viviendas desde el boom inmobiliario de 2008. Según los datos del INE, en el año 2021 se vendieron 565.523 viviendas en España, un 34,6% más que en el 2020 y un 12% más que en 2019, el último año pre-pandemia. Esto ha supuesto un aumento del precio de las viviendas que también ha afectado a la ciudad de Valencia.
Esta subida de los precios ha sido la motivación para intentar averiguar qué factores pueden revalorizar una vivienda. Más concretamente, dadas las características de una casa (número de habitaciones, baños, terraza, piscina, etc.), se quiere examinar en qué medida influyen en el precio por metro cuadrado de ésta y cuáles son más determinantes.
Además, dada la importancia de este sector, también se quiere analizar concretamente en la ciudad de Valencia, el tipo de pisos que se venden y cómo se ven afectados por la estructura geográfica de la ciudad.
Por tanto, el objetivo de este trabajo es estudiar la agrupación de pisos con características similares, la homogeneidad o heterogeneidad intra e inter distritos, las variables que más influyen en el precio por m2 y la predicción de dicha variable. Se considera que el peso del distrito es importante, ya que un piso con mismas características puede tener un precio de venta distinto, dependiendo de una zona u otra.
Para poder llevar a cabo este análisis, se ha escogido una base de datos con datos provenientes del portal inmobiliario Idealista.com, que recoge las ventas de viviendas en la provincia de Valencia durante los meses de diciembre a febrero de este mismo año. El dataset se obtuvo mediante numerosas peticiones de un servidor a la página web de Idealista. En un principio, se decidió estudiar el sector inmobiliario de todo tipo de inmuebles pero, tras ver la dificultad de dicho estudio, el análisis se redujo a los pisos de Valencia ciudad.
La base de datos final cuenta con 2324 observaciones y 20 variables que se describen a continuación:
Con todo ello, se procede a limpiar la base de datos.
La base de datos original (pisos vendidos en Valencia) tenía 2478 observaciones y 39 variables. Sin embargo, se decidió descartar ciertas variables porque no nos servían para el análisis. Las variables que se eliminaron fueron:
Respecto a los registros eliminados, se hizo un rápido estudio de las observaciones de las variables baño, habitaciones y m2 (ver Figura 11 y Figura 12 en el Anexo).
En cuanto a la variable baño, se detectó 1 piso sin baño (valor 0 en baño). También, se encontró un piso con 41 baños y 85 m2. Probablemente, este inmueble tendría un único baño. Como se trata de un único registro, aunque se podría eliminar, se ha optado por considerarlo como un valor faltante para luego imputarlo.
Por último, se observaron 31 pisos sin habitaciones (valor 0 en habitaciones). Se eliminaron estas observaciones, no porque fueran errores en sí mismos, sino porque se consideró esencial para el análisis que un piso tuviera datos no nulos en baños y habitaciones. Por otro lado, no detectamos ningún piso sin m2 ( pisos con valor 0 en m2).
En el pre-proceso de los datos, se tuvieron que transformar dos variables: dias_venta y vistas:
Nota: estas tres últimas variables calculadas no aparecen en esta memoria, pues son modificaciones anteriores a esta Base de Datos. Estos cambios se hicieron para otra asignatura, pero son útiles para este proyecto. Sin embargo, queríamos especificar que estas variables no las obtuvimos directamente del servidor.
Para estudiar con detalle cuántos datos faltantes había por variable, se consideró relevante hacer una tabla resumen con el número y porcentaje de valores faltantes en cada variable en la base de datos (ver Figura 13 en el Anexo). Como se puede observar, hay 3 variables con valores faltantes: baños, planta y vistas.
Con la intención de ver cómo se distribuyen los valores faltantes de vistas, según distrito, se hizo una tabla (ver Figura 14 en el Anexo). Inicialmente se contempló la idea de eliminar distritos con grandes porcentajes de NAs en vistas. Sin embargo, ésta se desechó debido a que, resultaría en una significativa pérdida de información.
Así, se decidió utilizar la librería Mice de R para imputar los datos faltantes. Realmente, sólo se tuvo que imputar datos de las tres variables mencionadas anteriormente (ver Figura 15 y Figura 16 en el Anexo)
Seguidamente, se vuelve a generar la tabla con los NAs por variable. Como se puede ver, ya no hay ningún dato faltante en nuestra BD (ver Figura 17 en el Anexo).
El primer paso del análisis es agrupar las viviendas de acuerdo a características similares entre las mismas. Una vez agrupadas, se pretende averiguar si casas con patrones iguales pertenecen a un mismo distrito.
De igual forma se quiere hallar la característica que más determina el precio de una casa, así como ver si hay algunas que tienen la misma importancia.
Para ello, se va a buscar relaciones entre individuos y variables, mediante un AFC múltiple. El método se va a aplicar con las librerías FactoMineR y FactoExtra.
En primer lugar, se realiza el AFC con todas las variables binarias del dataset y las variables numéricas categorizadas (baños, habitaciones y planta). Se deja como variables auxiliares cualitativas distrito y barrio y como auxiliares cuantitativas, dias_venta, variacion_precio y preciom2. De esta manera, se podrá determinar cómo influyen estas variables sobre los individuos.
Con esto, se hallan los valores propios, que indican el porcentaje de explicación de cada una de las componentes del análisis. Bajo el supuesto de que todas las componentes explicaran lo mismo, cada una de ellas tendría que explicar un 5.26% del modelo. Son 8 las componentes que superan este porcentaje. A pesar de ello, para volver a realizar el AFC múltiple se seleccionarán 5 dimensiones, que explican el 42.8% de la inercia total.
| eigenvalue | variance.percent | cumulative.variance.percent | |
|---|---|---|---|
| Dim.1 | 0.1775777 | 15.888531 | 15.88853 |
| Dim.2 | 0.0994491 | 8.898076 | 24.78661 |
| Dim.3 | 0.0711941 | 6.369995 | 31.15660 |
| Dim.4 | 0.0671174 | 6.005244 | 37.16185 |
| Dim.5 | 0.0634050 | 5.673081 | 42.83493 |
| Dim.6 | 0.0627683 | 5.616110 | 48.45104 |
Figura 1. Screeplot dimensiones AFC Múltiple.
Para visualizar los individuos sobre las componentes principales que requerimos, se han graficado coloreando según el distrito.
Como se puede ver en el gráfico de los individuos, no hay relación entre los distritos y las características en ninguna dimensión (ver Figura 18 y Figura 19 en el Anexo).
Esto confirma nuestra sospecha de heterogeneidad en distritos. Es decir, dentro de un mismo distrito, se pueden encontrar pisos con diferentes características, tales como estado (a reformar y nuevos), número de habitaciones y baños. Además, entre distintos distritos tampoco parece haber mucha disparidad. Todas estas cuestiones se analizarán con detenimiento en el gráfico de variables.
Figura 2. Gráfico de individuos dimensiones 1 y 2. AFC Múltiple.
A continuación, se ha vuelto a colorear el gráfico de los individuos según las variables cuantitativas auxiliares (preciom2, dias_venta y variacion_precio).
Se observa que las observaciones son muy homogéneas en cuanto a la variable precio/m2, pues casi todas presentan el mismo ratio. Entre las observaciones que presentan mayor ratio (ver individuos rojos en Figura 20 del Anexo), no parece haber ninguna agrupación en torno a ninguna dimensión.
Ello es debido a que el precio/m2 (como es un ratio) no sirve para distinguir entre mansiones y casas pequeñas. Por ejemplo, una casa muy cara con muchos metros cuadrados tendrá el mismo ratio que una pequeña muy barata, siempre que la proporción sea igual. Por ello, el precio/m2 no es una característica óptima para agrupar las viviendas.
Por lo que respecta a los días que tarda en venderse una vivienda (ver Figura 21 en el Anexo), se deduce que las casas que más tardan en venderse son muy explicadas por la dimensión 1. Pero, en general, ocurre lo mismo que con la variable anterior, las dimensiones no separan las casas que tardan más en venderse de las que se venden rápido.
Además, si se colorea los individuos por la variable variación precio, también resultan ser muy homogéneos, pues apenas se presenta variación en el conjunto (ver Figura 22 en el Anexo).
Sin embargo, al fijarse en los pocos que tienen variación negativa, se observa que se encuentran en torno a la primera y cuarta dimensiones. Así pues, estas dos dimensiones sí que separan los individuos cuya variación es negativa de los individuos que no varían. No obstante, se debería disponer de una muestra cuya variación precio fuese más dispar, pues son muy pocos los que varían, y por ello, no se puede afirmar con seguridad que esta variable es buena clasificadora de las observaciones.
Según el gráfico de contribuciones a las 5 dimensiones (ver Figura 23 y Figura 24 en el Anexo), las variables que más contribuyen a las 5 dimensiones son jardín, piscina, a_reformar, aire acondicionado, ascensor y baños.
Figura 3. Gráfico de contribución dimensiones 1 y 2. AFC Múltiple.
En el gráfico de loadings, se ha añadido la variable distrito (que habíamos dejado como auxiliar categórica) para ver qué características de la casa están más relacionadas con ellos (ver Figura 25 en el Anexo). En este caso, observamos que Campanar está relacionado con piscina_1, jardín_1, planta 9-13, planta 14-18, tipo_vendedor_1 (profesional), trastero_1 y garaje.incluido_1 en todas las dimensiones (ver Figura 26 en el Anexo). Esta información coincide con la realidad, pues Campanar es uno de los distritos más nuevos de la ciudad de Valencia, en la que se encuentran muchos pisos en forma de urbanizaciones. Además, en este distrito también hay viviendas de gran altura (Nou Campanar).
Los distritos El Pla del Real, L’Eixample, Extramurs y Ciutat Vella se caracterizan por tener 4 o más habitaciones (+4 habitaciones), estar adaptados para personas con movilidad reducida (acceso_adaptado_1) y tener balcón (balcon_1). Además, estos son los distritos más caros de la ciudad.
Los pisos de Rascanya, L’Olivereta y Poblats Marítims no suelen tener ni ascensor ni garaje incluido, disponen de 1 baño y suelen ser interiores. También coincide con la realidad, pues son de los distritos más baratos de Valencia. Estos tres distritos (a excecpción de algunos barrios como Sant Llorenç) se caracterizan por tener viviendas “humildes” con menos equipamiento que las del grupo anterior.
Cuando se dispone de un conjunto de datos mixto, es decir, un conjunto de individuos sobre los que se han observado tanto variables cuantitativas como cualitativas (o categóricas), la distancia de Gower es la apropiada. Por ello, se utilizará para agrupar los datos.
Para estudiar si existe tendencia de agrupamiento de los datos, utilizaremos un mapa de calor (ver Figura 27 en el Anexo). Se descartó el uso del estadístico de Hopkins, porque está programado para la distancia euclídea y no para la de Gower. Como se puede ver en el mapa de calor, a simple vista, parece haber 6 u 8 clusters.
En primer lugar, los métodos que se van a utilizar son jerárquicos: Ward, Media, Centroide y Mediana. La elección de los métodos no es aleatoria, sino que los tres primeros se han escogido por ser los más comunes. Por otro lado, el de la Mediana, por ser un estadístico robusto, ya que la mediana no se ve tan afectada por valores anómalos como la media.
Tras obervar los gráficos de SS y el coeficiente de Silhouette, el número de clusters elegidos es 6, ya que tiene el mismo coeficiente de Silhouette que con 4 y 5 clusters (ver Figura 28 en el Anexo). Sin embargo, la suma de cuadrados intracluster es más pequeña. El resumen estadístico de este método se encuentra en el Anexo (ver Figura 29). El número de pisos en cada cluster es el siguiente:
## ward_groups
## 1 2 3 4 5 6
## 632 280 397 275 493 285
Tras obervar de nuevo los gráficos de SS y el coeficiente de Silhouette (ver Figura 30 en el Anexo), el número de clusters elegidos es 4. A pesar de ello, es indiferente que el número de clusters sea 4, 5 o 6, ya que este método forma un cluster con la mayoría de pisos (en torno a 2000) y el resto de clusters con menos de 200 pisos (e incluso menos de 50).
El resumen estadístico de este método se encuentra en el Anexo (ver Figura 31). El número de pisos en cada cluster es el siguiente:
## average_groups
## 1 2 3 4
## 2044 237 68 13
Al igual que ha ocurrido con el método de la media, este método tampoco separa “correctamente” los clusters (ver Figura 32 en el Anexo). Es indiferente entre escoger una k de 3, 4 o 5, ya que el primer cluster tiene prácticamente todos los pisos y el resto de clusters, 1, 2 o 3. El resumen estadístico de este método se encuentra en el Anexo (ver Figura 33).
## centroid_groups
## 1 2 3 4 5
## 2353 3 3 2 1
Del mismo modo que con los dos métodos anteriores, ocurre también con el método de la mediana. Además, como se puede observar en el gráfico del coeficiente de Silhouette (ver Figura 34 en el Anexo), sólo con k=2 o k=3 es positivo. Aún con este número de clusters, vemos cómo el patrón se repite; el primer cluster con la mayoría de pisos y el resto con 1 o 5 pisos:
## median_groups
## 1 2 3
## 2356 5 1
El resumen estadístico de este método se encuentra en el Anexo (ver Figura 35).
El método de K-medoides, en comparación con el método de K-medias, es mucho más robusto, puesto que, los medoides son mejores representantes de los clusters que los centroides.
Como podemos observar en el gráfico del coeficiente de Silhouette, el número de clusters elegido es 6, porque tiene un coeficiente más alto que con k=5 y k=7.
Figura 4. Gráfico SS y coeficiente de silhouette k-medoides.
Tras ver todos los métodos, se descarta el método de la media, de la mediana y del centroide. Ahora, hay que seleccionar entre el método de Ward y K-Medoides:
par(mfrow = c(1,2))
plot(silhouette(pam_fit$clustering, gower_dist), col=rainbow(6), border=NA, main = "K-MEDOIDES")
plot(silhouette(ward_groups, gower_dist), col=rainbow(6), border=NA, main = "WARD")
Figura 5. Comparación método ward y k-medoides.
El método final seleccionado es el método K-Medoides con K= 6 porque tiene un mayor coeficiente de silhouette medio que el método de Ward. Además, también tiene menos observaciones mal clasificadas (negativos).
La interpretación de este análisis es la siguiente: * Cluster 1: pisos exteriores de 4 plantas, con dos baños, tres habitaciones, ascensor, aire acondicionado, en buen estado y sin jardín, ni terraza, ni acceso adaptado, ni trastero. Lo destacable de este grupo es que todos los pisos tienen balcón. (ver figura 36 en el Anexo)
Cluster 2: pisos exteriores de 3 plantas, con dos baños, tres habitaciones, ascensor, armarios empotrados, calefacción, aire acondicionado, en buenas condiciones, sin trastero, ni garaje incluido, ni piscina. Lo destacable de este grupo es que ninguno de los pisos tiene balcón. (ver figura 37 en el Anexo)
Cluster 3: pisos exteriores de 4 plantas, con dos baños, tres habitaciones, ascensor, armarios empotrados, acceso adaptado, balcon, en buenas condiciones, sin trastero, ni garaje incluido, ni piscina. Lo destacable de este grupo es que a penas tienen jardín, pero disponen de terraza. (ver figura 38 en el Anexo)
Cluster 4: pisos exteriores de 3 plantas, con dos baños (menos baños de media que los de los clusters 1, 2 y 3), tres habitaciones, buenas condiciones, sin jardín, ni piscina, ni trastero, ni acceso adaptado, ni garaje incluido, ni calefacción, ni aire acondicionado. Lo destacable de este grupo es que todos los pisos tienen ascensor. (ver figura 39 en el Anexo)
Cluster 5: pisos exteriores de menos de 3 plantas, con un baño, tres habitaciones (menos habitaciones de media que los de los clusters 1,2,3 y 4), buenas condiciones, sin terraza, ni armarios empotrados, ni acceso adaptado, ni balcón, ni trastero, aire accondicionado. Lo destacable de este grupo es que ninguno de los pisos tiene ascensor y muy pocos tienen piscina, jardín y garaje incluido. (ver figura 40 en el Anexo)
Cluster 6: pisos exteriores de más de 4 plantas, con dos baños (más baños de media que el resto de clusters), más de tres habitaciones, ascensor, jardín, piscina, terraza, armarios empotrados, aire acondicionado, calefacción, trastero y garaje inlcuido y sin balcón, ni acceso adaptado. Lo destacable de este grupo es que casi todos los pisos son exteriores, están en buenas condiciones y disponen de más equipamiento que el resto de los pisos pertenecientes a otros clusters. (ver figura 41 en el Anexo)
Se procede a hacer un estudio más detallado para ver si hay clusters en los que predomina algún distrito (ver Figura 42 en el Anexo), pero parece ser que todos se distribuyen de forma equitativa en los clusters. Con ello, reforzamos nuestra hipótesis de que los distritos son muy heterogéneos. No hay un distrito cuyos pisos sean totalmente iguales, y todos los pisos iguales no se agrupan en un mismo distrito. Hay que excluir el distrito de Campanar, que es el más homogéneo de la ciudad, como podemos ver en el cluster 6 (ver Figura 49 en el Anexo) y el distrito de Poblats Marítims, aglutinado principalmente en el cluster 5 (ver Figura 48 en el Anexo).
Con el objetivo de realizar un modelo que prediga el precio por m2 de los pisos de Valencia, se ha utilizado PLS. Este método, a diferencia de otros como Redes neuronales (Machine Learning) o SVM, permite entender cuáles son las variables que más contribuyen al modelo y las relaciones entre las variables explicativas (X) y la variable respuesta (Y).
En primer lugar, se realizó un modelo PLS sin aplicar ninguna transformación a la variable respuesta (Y), pero tras ver que no se podía asumir colinealidad entre los scores t y u, se tuvo que repetir el proceso aplicando alguna transformación.
Figura 6. Gráfico t/u modelo pls sin transformación logarítmica.
## p1 p2
## 0.4694247 0.2726041
Tras graficar la densidad de la variable Y, se pudo comprobar que seguía una distribución asimétrica positiva, por lo que se procedió a transformarla aplicando logaritmos. Una vez hecho este paso, se volvió a realizar PLS.
Para la partición de datos entre entrenamiento y test, se escoge una partición de 80% para datos de entrenamiento y de 20% para los de test (siempre fijando la semilla aleatoria).
A continuación, se escala tanto la matriz X como la Y, ya que las variables están medidas en distintas unidades. Esta transformación se hace desde la propia función opls(), teniendo en cuenta que la opción seleccionada (‘standard’) centra y escala ambas matrices.
Seguidamente, se estima el número de componentes óptimo mediante validación cruzada. En este caso, dado que hay 1890 observaciones, optamos por el procedimiento “k-fold” con k=10. Se descarta la opción de utilizar el método “leave-one-out” porque se generarían 1890 modelos, y sería computacionalmente muy costoso.
Haciendo que R elija las componentes que considere oportunas, se obtiene que es suficiente con seleccionar 3 componentes. Este número es muy aceptable, pues facilitará la visualización posteriormente.
Para validar el modelo PLS, puede ser útil observar el valor de R2 y Q2. A la vista de los resultados del modelo, la bondad de predicción de nuestro modelo PLS con A=3 componentes no es muy bueno, pues no supera el valor 0.5 (0.346).
En cuanto a la bondad de ajuste, entre las 3 componentes obtenemos un R2 acumulado de 0.267 para las X y de 0.373 para las Y.
Respecto al gráfico de similaridad, se concluye que, por azar, el modelo sería menos bueno que el ya obtenido. Si no fuese así, sería inteligente replantearse la elección de otro tipo de técnica.
No obstante, a pesar de que la función opls() aconseja utilizar 3 componentes, se va a visualizar R2 y Q2 por si fuera conveniente escoger una componente más. Hay veces donde la Q2 empieza a disminuir, pero la caída es muy pequeña y se sigue pareciendo a la R2.
Recordemos que R selecciona componentes hasta donde Q2 empieza a disminuir. Esto se realiza para que no haya sobreajuste porque si se aumenta innecesariamente el número de componentes, la capacidad predictiva (Q2) disminuye estrepitosamente.
Realmente, a la vista de este gráfico (ver Figura 51 en el Anexo), es adecuado seleccionar 3 componentes, ya que la \(Q^2\) se aleja bastante de \(R^2\) en la cuarta componente. Por ello, nos quedamos con el modelo que habíamos planteado en un principio.
A continuación, se visualizan las observaciones (ver Figura 52 en el Anexo). Para ello, se crea el gráfico de scores, y se colorea por la variable que queremos predecir: precio_m2 (Y). En ambos gráficos se concluye que los individuos se distribuyen de forma uniforme (pero degradada) sobre los ejes. Esto es, los individuos con mayor ratio se encuentran a la derecha, mientras que los de menor a la izquierda. Esta observación será clave para después comentar que variables explican esta diferencia de ratios.
Seguidamente, se hace el mismo gráfico de scores, pero coloreando los individuos por distrito (ver Figura 53 en el Anexo). Dado que hay 19 distritos, es muy difícil observar si hay outliers extremos por distrito en un mismo gráfico. Se puede ver, grosso modo, que los pisos (individuos) pertenecientes a Campanar, tienen scores más altos dado que se salen de la región elíptica .
En primer lugar, es interesante conocer que una observación puede ser anómala en el Espacio X, en el Espacio Y, en el Espacio X e Y y en el Espacio t/u (X+Y). También, hay que destacar que hay dos tipos de observaciones anómalas:
Observaciones atípicas/outliers moderados: aquellas que no están bien modeladas por el modelo. Tienen valores altos en su SCR.
Observaciones extremas/outliers moderados: aquellas cuya distancia, desde su proyección al centro del plano (T2-Hotelling), es muy grande o muy pequeña.
Podemos detectar posibles valores anómalos tanto para la matriz X como para la Y. Dado que se han seleccionado solo 3 componentes, solo se tiene una opción de representación:
En primer lugar, se grafican los anómalos extremos del modelo (ver Figura 54 en el Anexo). Se observa que hay varios datos que superan el umbral del 99%. Tras realizar algunos cálculos, efectivamente hay demasiadas observaciones (77) que sobrepasan el umbral del 99%, de las 18.9 que deberían hacerlo. Por ello, se van a eliminar aquellas observaciones de X que más lo sobrepasan. Para que el modelo PLS funcione, también se quitan dichas observaciones de la matriz Y.
Como se ha cambiado la matriz X y la matriz Y, se vuelve a generar el modelo PLS (con las mismas componentes).
En el siguiente gráfico se representa la Suma de Cuadrados Residual de X y su límite de confianza al 95% (ver Figura 54 en el Anexo). El gráfico de la distancia al modelo sería equivalente, pero calculando la raíz cuadrada de la SCR (y del límite correspondiente).
Como se ve solo hay 10 observaciones que sobrepasan el umbral del 95%, de las 91.9 posibles que podían sobrepasar. Por tanto, no se va a eliminar ningún individuo.
Una vez examinadas las observaciones extremas de la matriz X, se procede a hacer el mismo diagnóstico con la matriz Y.
De nuevo, se observa que hay varios datos que superan el umbral del 99% (ver Figura 54 en el Anexo). Así, se estudian para ver si hay que eliminarlos. Efectivamente, hay demasiadas observaciones sobrepasan el umbral (67) del 99%, de las 18.38 que deberían hacerlo. Por ello, se van a eliminar aquellas observaciones de Y que más lo sobrepasan. Para que el modelo PLS funcione, también se quitan dichas observaciones de la matriz X.
Por último, se procede a detectar las observaciones atípicas de la matriz Y. En la Figura 54 del Anexo se representa la Suma de Cuadrados Residual de Y y su límite de confianza al 95%. El gráfico de la distancia al modelo sería equivalente, pero calculando la raíz cuadrada de la SCR (y del límite correspondiente).
Como se puede comprobar, solo hay 98 observaciones que sobrepasan el umbral del 95%, de las 89.95 que podían sobrepasar.
El modelo final, tras haber hecho la validación y el diagnóstico de observaciones tiene 3 componentes (ver Figura 55 en el Anexo).
La linealidad de los scores es crucial estudiarla, pues si no cumpliesen con este supuesto, se tendrían que aplicar transformaciones que cambiarían completamente el modelo (en el primer modelo PLS, no se cumplía este supuesto y se tranformó logarítmicamente la matriz Y).
Esta linealidad se puede estudiar utilizando el coeficiente de correlación de Pearson, que debe ser lo más próximo a 1, o haciendo un gráfico de dispersión entre los scores t y u.
Tanto los scores de la primera componente (\(t_1\) y \(u_1\)) como los de la segunda (\(t_2\) y \(u_2\)) y tercera (\(t_3\) y \(u_3\)) deben estar correlacionados linealmente. En cuanto a estos últimos pares de vectores, éstos tienen un grado de relación lineal inferior a los de la primera componente. Esto se debe a que \(t_1\) y \(u_1\) capturan la mayor fuente de variación y correlación entre X e Y (y por ello son los primeros scores).
Figura 7. Gráfico t/u modelo PLS con transformación logarítmica.
## p1 p2 p3
## 0.5460623 0.3204588 0.1380451
A la vista de estos resultados, ahora se podría asumir una mayor linealidad entre los scores, pero no supera el 0.7.
Los siguientes gráficos servirán para interpretar el modelo PLS. Aunque el gráfico de scores t/t es muy útil para comprender la relación entre las observaciones, se ha decidido no hacerlo para interpretar el modelo dado el gran número de observaciones existentes (1799).
Otro de los gráficos que no se ha tenido en cuenta para interpretar el modelo es el de los scores u/t. El descarte de este gráfico se debe a que ya se ha hecho para estudiar la relación interna.
Finalmente, los 3 gráficos utilizados son:
Gráfico X-loadings o variables de x (ver Figura 56 en el Anexo). En esta visualización, se obtiene que las variables que más contribuyen a la dimensión 1 son a_reformar, armarios.empotrados, baños, aire acondicionado y ascensor. Estas tres últimas, por la zona del gráfico dónde están, se puede concluir que los pisos con mayor ratio de precio/m2 tienen estas características (recordar la posición de estas viviendas en el gráfico de scores).
Gráfico XY-weight w*c. Muestran la estructura de corelación entre X e Y. Dan información sobre cómo las variables se combinan para formar la relación cuantitativa entre X e Y. Se obtienen unos resultados similares a los explicados con el anterior gráfico.
Figura 8. Gráfico weights w*/c modelo PLS.
Una visión de la importancia global que tiene cada una de las variables en nuestro modelo PLS se obtiene a partir del gráfico VIP. El VIP es una medida acumulada de la influencia de cada variable X sobre la variable Y (preciom2).
Figura 9. Gráfico VIP modelo PLS.
Respecto al VIP, hay 6 variables que sobrepasan el valor de 1. Por ello, se pueden considerar variables importantes para la predicción. Estas son: baños, ascensor, habitaciones, armarios.empotrados, aire.acondicionado, garaje.incluido. Por lo que estas variables ayudan a predecir el precio por metro cuadrado de una casa.
Además, considerando que las variables con VIP menor de 0.8 son muy poco relevantes, se decide representar este valor en el gráfico. Las variables que no sobrepasan el umbral, y que por tanto, no serán relevantes para la predicción son: a_reformar, tipo_vendedor, acceso.adaptado, balcon, planta, vistas, variacion_precio, dias_venta. Por lo que estas variables no ayudan a predecir el precio/m2 de una casa.
Ahora, ya se pueden predecir los valores de la matriz respuesta Y (preciom2), a partir del modelo PLS obtenido, y compararlos con los valores reales. De esta forma, se medirá el error cometido.
La propia función plot() de la librería rolps nos ofrece un gráfico con los datos de entrenamiento predichos (ver Figura 58 en el Anexo).. En él, se observa que las predicciones de los datos de entrenamiento son bastante buenas, pues más o menos se ajustan a la realidad (por lo que el modelo es bueno). Si no fuese así, habría que replantearse su validez. Sería interesante obtener este mismo gráfico para los datos test, pero no existe.
Una visualización interesante es comprobar los residuos por distrito, pues es una variable que se ha dejado fuera del modelo para poder colorear los resultados (ver Figura 59 en el Anexo). Como se puede ver, los distritos que tienen pisos con mayores residuos en valor absoluto son El Pla del Real, La Saïdia, L’Eixample, Poblats Marítims y Ciutat Vella.
Como se ha mencionado anteriormente, estos son distritos con unos precio/m2 muy extremos. Se sabe que los distritos más caros de Valencia son El Pla del Real, L’Eixample y Ciutat Vella. Así, estos distritos tendrán un precio/m2 muy alto. Por ello, el modelo PLS no los predice bien y se queda “por debajo” de su precio/m2 real (residuos positivos).
Las zonas más baratas (La Saïdia y Poblats Marítims), tienen un precio/m2 más bajo. En este caso, el modelo PLS tampoco los predice bien y se queda “por encima” de su precio/m2 real (residuos negativos).
Por otro lado, representamos los coeficientes de regresión (b) del PLS, con el fin de ver qué variables contribuyen positiva o negativamente. Una de las grandes ventajas de los coeficientes de regresión PLS es que su magnitud y signo nos indican la influencia de cada variable X del modelo sobre la variable Y.
Figura 10. Gráfico coeficientes regresión modelo PLS.
Entre las variables que contribuyen más positivamente al precio por metro cuadrado encontramos ascensor, baños y aire_acondicionado. Como se ha concluido anteriormente, estas son las variables con mayor VIP, por lo que es razonable que sean las que más contribuyan al modelo PLS.
Entre las variables que contribuyen más negativamente al precio/m2 se encuentran habitaciones y acceso_adaptado, que también tenían un VIP por encima de 1. Esto quiere decir que para este modelo, si se aumenta el valor de estas dos variables, el precio/m2 disminuye.
Con el modelo PLS, además de poder predecir el precio/m2 de lo pisos de la ciudad de Valencia, se han podido conocer las variables más influyentes, a diferencia de otros modelos de machine learning o SVM.
El AFC múltiple ha dado un resultado bastante bueno, pues con 5 dimensiones se explica el 54,2% de la variabilidad de los datos. Sin embargo, también hay otros modelos que pueden reducir con éxito las variables de la base de datos. Veámoslos con más detalle.
En un primer momento se pensó aplicar un PCA a la base de datos, pues como ya se ha explicado, se quería buscar patrones similares entre individuos y entre variables. Pero dado el gran número de variables binarias y el pequeño número de numéricas, se decidió realizar un AFC múltiple. Se podría aplicar PCA porque este método no supervisado permite analizar variables binarias 0-1 y variables categóricas codificadas a 0-1. Pero se rechazó esta posibilidad porque, aunque sólo había una variable categórica (distrito), se hubieran generado muchas variables 0-1 para incluirla.
En cuanto al Clustering, como únicamente se habían incluido variables binarias y numéricas, se probó a utilizar la distancia Euclídea (poniendo las variables binarias como numéricas). Se descartó el uso de esta distancia porque el coeficiente de Silhouette, obtenido para los distintos métodos era menor que con la distancia de Gower.
Así pues, una vez hecho el Clustering con la distancia de Gower, se deduce que a pesar de las limitaciones comentadas anteriormente (heterogeneidad en un propio distrito y cierta homogeneidad entre distritos), sí que se pueden describir algunos distritos en función de las características de sus pisos.
Por ejemplo, si se busca un piso con altura y con instalaciones, se recomienda comprar en Campanar, un distrito que se caracteriza por tener bloques de edificios y urbanizaciones en construcción. Por otro lado, si se quiere comprar un inmueble pequeño y sin emplear mucho dinero, se aconseja acudir a los distritos periféricos de Valencia. Si se busca una vivienda grande, con muchas habitaciones y sin apenas altura, se sugiere comprar en el centro de la ciudad (teniendo en cuenta que la vivienda tendrá un precio alto). Por último, si se quiere un piso sin ningún tipo de equipamiento y lo más barato posible, se tendría que ir a distritos como Poblats Marítims o Rascanya.
Se estudió la posibilidad de ver si existen reglas de asociación entre los inmuebles (individuos). Ello se debe a que al tener una base de datos con tantas variables binarias en los “complementos” de los pisos, se podría observar ciertos patrones. Por ejemplo, si un inmueble tuviera piscina, quizás también dispondría de jardín y aire acondicionado.
Se decidió realizar una predicción del precio por m2 de los pisos de Valencia en función de las variables que tenemos en el conjunto de datos. Por ello, se eligió realizar un modelo PLS. Se descartó la posibilidad de llevar a cabo un PLS-DA o LDA dado que no se quería clasificar los individuos en distintas categorías de precios, sino intentar predecir el precio por m2 aproximado.
El método PLS realizado ha concluido con resultados interesantes. Tras transformar Y y quitar los outliers, se ha obtenido un modelo PLS adecuado con 3 componentes que predice el precio por m2 en base a las variables que tienen mayor poder discriminante anteriormente descritas.
Concluyendo, mediante los métodos previamente detallados se ha podido llevar a cabo los objetivos del proyecto. Se han podido definir las características que más influyen en el precio por m2, se ha realizado una predicción de dicha variable a partir de las demás, se ha aclarado el tipo de pisos que contienen los distritos de Valencia y se ha comparado con la agrupación de los inmuebles según patrones de características similares.
Figura 11. Histograma variable baños.
Figura 12. Histograma variable habitaciones.
| tipo | numNA | percNA | |
|---|---|---|---|
| baños | numerical | 1 | 0.04 |
| jardin | binary | 0 | 0.00 |
| ascensor | binary | 0 | 0.00 |
| piscina | binary | 0 | 0.00 |
| terraza | binary | 0 | 0.00 |
| habitaciones | numerical | 0 | 0.00 |
| a_reformar | binary | 0 | 0.00 |
| tipo_vendedor | binary | 0 | 0.00 |
| distrito | categorical | 0 | 0.00 |
| armarios.empotrados | binary | 0 | 0.00 |
| acceso.adaptado | binary | 0 | 0.00 |
| aire.acondicionado | binary | 0 | 0.00 |
| balcon | binary | 0 | 0.00 |
| trastero | binary | 0 | 0.00 |
| garaje.incluido | binary | 0 | 0.00 |
| calefaccion | binary | 0 | 0.00 |
| planta | numerical | 236 | 9.99 |
| vistas | binary | 493 | 20.87 |
| variacion_precio | numerical | 0 | 0.00 |
| dias_venta | numerical | 0 | 0.00 |
| preciom2 | numerical | 0 | 0.00 |
Figura 13. Valores faltantes por variable.
| num | perc | |
|---|---|---|
| algirós | 10 | 2.03 |
| benicalap | 32 | 6.49 |
| benimaclet | 8 | 1.62 |
| camins al grau | 13 | 2.64 |
| campanar | 21 | 4.26 |
| ciutat vella | 31 | 6.29 |
| el pla del real | 9 | 1.83 |
| extramurs | 22 | 4.46 |
| jesús | 24 | 4.87 |
| l’eixample | 37 | 7.51 |
| l’olivereta | 23 | 4.67 |
| la saïdia | 34 | 6.90 |
| patraix | 23 | 4.67 |
| poblats marítims | 86 | 17.44 |
| pobles de l’oest | 12 | 2.43 |
| pobles del nord | 4 | 0.81 |
| pobles del sud | 21 | 4.26 |
| quatre carreres | 51 | 10.34 |
| rascanya | 32 | 6.49 |
| NA | 0 | 0.00 |
Figura 14. Valores faltantes de vistas según distrito.
| x | |
|---|---|
| 0 | 94 |
| 1 | 1775 |
| NA’s | 493 |
| x | |
|---|---|
| 0 | 111 |
| 1 | 2251 |
Figura 15. Resumen de la variable vistas antes y después de imputar.
Figura 16. Boxplot variables baños y planta antes y después de imputar.
| tipo | numNA | percNA | |
|---|---|---|---|
| baños | numerical | 0 | 0 |
| jardin | binary | 0 | 0 |
| ascensor | binary | 0 | 0 |
| piscina | binary | 0 | 0 |
| terraza | binary | 0 | 0 |
| habitaciones | numerical | 0 | 0 |
| a_reformar | binary | 0 | 0 |
| tipo_vendedor | binary | 0 | 0 |
| distrito | categorical | 0 | 0 |
| armarios.empotrados | binary | 0 | 0 |
| acceso.adaptado | binary | 0 | 0 |
| aire.acondicionado | binary | 0 | 0 |
| balcon | binary | 0 | 0 |
| trastero | binary | 0 | 0 |
| garaje.incluido | binary | 0 | 0 |
| calefaccion | binary | 0 | 0 |
| planta | numerical | 0 | 0 |
| vistas | binary | 0 | 0 |
| variacion_precio | numerical | 0 | 0 |
| dias_venta | numerical | 0 | 0 |
| preciom2 | numerical | 0 | 0 |
Figura 17. Valores faltantes por variable tras imputación.
Figura 18. Gráfico individuos por distrito dim 3y4 MCA.
Figura 19. Gráfico individuos por distrito dim y 5 MCA.
Figura 20. Gráfico individuos precio/m2 MCA.
Figura 21. Gráfico individuos días venta MCA.
Figura 22. Gráfico individuos variación precio MCA.
Figura 23. Gráfico conrtibución variables dim 1-2-3-4-5 MCA.
Figura 24. Gráfico conrtibución variables MCA.
Figura 25. Gráfico variables top 10 cos2 MCA.
Figura 26. Gráfico variables dim 1y2-1y3-4y5 MCA.
Figura 27. Mapa de calor.
Figura 28. Número óptimo clusters ward.
| Test 1 | Test 2 | Test 3 | Test 4 | Test 5 | Test 6 | Test 7 | Test 8 | Test 9 | |
|---|---|---|---|---|---|---|---|---|---|
| cluster.number | 2.00 | 3.00 | 4.00 | 5.00 | 6.00 | 7.00 | 8.00 | 9.00 | 10.00 |
| n | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 |
| within.cluster.ss | 86.58 | 76.25 | 69.72 | 64.56 | 59.54 | 56.71 | 54.04 | 51.63 | 49.36 |
| average.within | 0.25 | 0.23 | 0.22 | 0.21 | 0.20 | 0.20 | 0.19 | 0.18 | 0.18 |
| average.between | 0.31 | 0.32 | 0.30 | 0.30 | 0.30 | 0.30 | 0.29 | 0.29 | 0.29 |
| wb.ratio | 0.80 | 0.74 | 0.72 | 0.70 | 0.67 | 0.66 | 0.64 | 0.63 | 0.61 |
| dunn2 | 1.17 | 0.99 | 0.89 | 0.84 | 0.84 | 0.84 | 0.70 | 0.72 | 0.72 |
| avg.silwidth | 0.19 | 0.16 | 0.14 | 0.14 | 0.14 | 0.13 | 0.12 | 0.13 | 0.12 |
| Cluster- 1 size | 1197.00 | 917.00 | 917.00 | 917.00 | 632.00 | 199.00 | 199.00 | 199.00 | 199.00 |
| Cluster- 2 size | 1165.00 | 280.00 | 280.00 | 280.00 | 280.00 | 433.00 | 433.00 | 433.00 | 168.00 |
| Cluster- 3 size | 0.00 | 1165.00 | 672.00 | 397.00 | 397.00 | 280.00 | 280.00 | 156.00 | 156.00 |
| Cluster- 4 size | 0.00 | 0.00 | 493.00 | 275.00 | 275.00 | 397.00 | 397.00 | 397.00 | 397.00 |
| Cluster- 5 size | 0.00 | 0.00 | 0.00 | 493.00 | 493.00 | 275.00 | 275.00 | 275.00 | 275.00 |
| Cluster- 6 size | 0.00 | 0.00 | 0.00 | 0.00 | 285.00 | 493.00 | 249.00 | 249.00 | 249.00 |
| Cluster- 7 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 285.00 | 285.00 | 124.00 | 265.00 |
| Cluster- 8 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 244.00 | 285.00 | 124.00 |
| Cluster- 9 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 244.00 | 285.00 |
| Cluster- 10 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 244.00 |
Figura 29. Resumen método ward.
Figura 30. Número óptimo clusters media.
| Test 1 | Test 2 | Test 3 | Test 4 | Test 5 | Test 6 | Test 7 | Test 8 | Test 9 | |
|---|---|---|---|---|---|---|---|---|---|
| cluster.number | 2.00 | 3.00 | 4.00 | 5.00 | 6.00 | 7.00 | 8.00 | 9.00 | 10.00 |
| n | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 |
| within.cluster.ss | 107.15 | 91.13 | 86.93 | 86.42 | 86.12 | 85.46 | 85.20 | 84.60 | 81.78 |
| average.within | 0.28 | 0.26 | 0.25 | 0.25 | 0.25 | 0.25 | 0.25 | 0.25 | 0.24 |
| average.between | 0.39 | 0.38 | 0.38 | 0.38 | 0.38 | 0.37 | 0.37 | 0.37 | 0.37 |
| wb.ratio | 0.71 | 0.68 | 0.67 | 0.67 | 0.67 | 0.67 | 0.67 | 0.67 | 0.66 |
| dunn2 | 1.41 | 1.36 | 1.25 | 1.28 | 1.27 | 1.25 | 1.24 | 1.25 | 1.28 |
| avg.silwidth | 0.28 | 0.23 | 0.20 | 0.18 | 0.16 | 0.13 | 0.11 | 0.11 | 0.10 |
| Cluster- 1 size | 2349.00 | 2112.00 | 2044.00 | 2044.00 | 2044.00 | 2035.00 | 2035.00 | 2035.00 | 2035.00 |
| Cluster- 2 size | 13.00 | 237.00 | 237.00 | 228.00 | 228.00 | 228.00 | 228.00 | 216.00 | 103.00 |
| Cluster- 3 size | 0.00 | 13.00 | 68.00 | 68.00 | 64.00 | 64.00 | 64.00 | 64.00 | 64.00 |
| Cluster- 4 size | 0.00 | 0.00 | 13.00 | 13.00 | 13.00 | 13.00 | 5.00 | 5.00 | 5.00 |
| Cluster- 5 size | 0.00 | 0.00 | 0.00 | 9.00 | 9.00 | 9.00 | 9.00 | 12.00 | 113.00 |
| Cluster- 6 size | 0.00 | 0.00 | 0.00 | 0.00 | 4.00 | 9.00 | 9.00 | 9.00 | 12.00 |
| Cluster- 7 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 4.00 | 4.00 | 9.00 | 9.00 |
| Cluster- 8 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 8.00 | 4.00 | 9.00 |
| Cluster- 9 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 8.00 | 4.00 |
| Cluster- 10 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 8.00 |
Figura 31. Resumen método media.
Figura 32. Número óptimo clusters centroide.
| Test 1 | Test 2 | Test 3 | Test 4 | Test 5 | Test 6 | Test 7 | Test 8 | Test 9 | |
|---|---|---|---|---|---|---|---|---|---|
| cluster.number | 2.00 | 3.00 | 4.00 | 5.00 | 6.00 | 7.00 | 8.00 | 9.00 | 10.00 |
| n | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 |
| within.cluster.ss | 108.02 | 107.75 | 107.24 | 106.75 | 106.64 | 106.55 | 106.52 | 106.50 | 106.42 |
| average.within | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 |
| average.between | 0.44 | 0.42 | 0.45 | 0.45 | 0.44 | 0.44 | 0.44 | 0.44 | 0.43 |
| wb.ratio | 0.64 | 0.66 | 0.63 | 0.62 | 0.63 | 0.64 | 0.64 | 0.64 | 0.65 |
| dunn2 | 1.56 | 1.49 | 1.49 | 1.36 | 1.27 | 1.26 | 0.86 | 0.72 | 0.72 |
| avg.silwidth | 0.34 | 0.25 | 0.20 | 0.18 | 0.12 | 0.04 | 0.03 | 0.02 | -0.04 |
| Cluster- 1 size | 2361.00 | 2359.00 | 2356.00 | 2353.00 | 2352.00 | 2351.00 | 2351.00 | 2351.00 | 2350.00 |
| Cluster- 2 size | 1.00 | 2.00 | 3.00 | 3.00 | 3.00 | 3.00 | 3.00 | 3.00 | 3.00 |
| Cluster- 3 size | 0.00 | 1.00 | 2.00 | 3.00 | 3.00 | 3.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 4 size | 0.00 | 0.00 | 1.00 | 2.00 | 2.00 | 2.00 | 2.00 | 1.00 | 1.00 |
| Cluster- 5 size | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | 2.00 | 2.00 | 2.00 |
| Cluster- 6 size | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 7 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 8 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 9 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 |
| Cluster- 10 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 |
Figura 33. Resumen método centroide.
Figura 34. Número óptimo clusters mediana.
| Test 1 | Test 2 | Test 3 | Test 4 | Test 5 | Test 6 | Test 7 | Test 8 | Test 9 | |
|---|---|---|---|---|---|---|---|---|---|
| cluster.number | 2.00 | 3.00 | 4.00 | 5.00 | 6.00 | 7.00 | 8.00 | 9.00 | 10.00 |
| n | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 | 2362.00 |
| within.cluster.ss | 108.05 | 107.33 | 107.16 | 106.70 | 106.51 | 106.48 | 106.42 | 106.37 | 106.31 |
| average.within | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 | 0.28 |
| average.between | 0.40 | 0.45 | 0.39 | 0.38 | 0.38 | 0.38 | 0.38 | 0.38 | 0.38 |
| wb.ratio | 0.70 | 0.63 | 0.72 | 0.73 | 0.73 | 0.73 | 0.73 | 0.73 | 0.73 |
| dunn2 | 1.43 | 1.44 | 1.06 | 1.03 | 1.06 | 0.89 | 0.89 | 0.89 | 0.89 |
| avg.silwidth | 0.28 | 0.23 | -0.01 | -0.06 | -0.09 | -0.15 | -0.17 | -0.19 | -0.19 |
| Cluster- 1 size | 2361.00 | 2356.00 | 2352.00 | 2345.00 | 2345.00 | 2345.00 | 2345.00 | 2345.00 | 2345.00 |
| Cluster- 2 size | 1.00 | 5.00 | 4.00 | 7.00 | 5.00 | 5.00 | 4.00 | 4.00 | 4.00 |
| Cluster- 3 size | 0.00 | 1.00 | 5.00 | 4.00 | 4.00 | 4.00 | 4.00 | 4.00 | 4.00 |
| Cluster- 4 size | 0.00 | 0.00 | 1.00 | 5.00 | 2.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 5 size | 0.00 | 0.00 | 0.00 | 1.00 | 5.00 | 5.00 | 5.00 | 4.00 | 2.00 |
| Cluster- 6 size | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | 1.00 | 2.00 |
| Cluster- 7 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 8 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 | 1.00 |
| Cluster- 9 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 1.00 |
| Cluster- 10 size | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 |
Figura 35. Resumen método mediana.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.00 0:541 0: 81 0:543 0:491 Min. :1.000 0:509
## 1st Qu.:1.00 1: 15 1:475 1: 13 1: 65 1st Qu.:3.000 1: 47
## Median :2.00 Median :3.000
## Mean :1.75 Mean :3.165
## 3rd Qu.:2.00 3rd Qu.:4.000
## Max. :8.00 Max. :8.000
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 29 0:105 0:459 0: 82 0: 0
## 2:527 1:451 1: 97 1:474 1:556
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0:471 0:425 0:177 Min. : 0.000 0: 24 Min. :1
## 1: 85 1:131 1:379 1st Qu.: 2.000 1:532 1st Qu.:1
## Median : 4.000 Median :1
## Mean : 3.892 Mean :1
## 3rd Qu.: 5.000 3rd Qu.:1
## Max. :17.000 Max. :1
Figura 36. Resumen cluster 1.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.00 0:469 0: 44 0:467 0:327 Min. :1.00 0:445
## 1st Qu.:1.00 1: 11 1:436 1: 13 1:153 1st Qu.:2.00 1: 35
## Median :2.00 Median :3.00
## Mean :1.85 Mean :3.04
## 3rd Qu.:2.00 3rd Qu.:4.00
## Max. :5.00 Max. :8.00
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 24 0: 94 0:363 0: 55 0:480
## 2:456 1:386 1:117 1:425 1: 0
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0:417 0:381 0: 85 Min. : 0.00 0: 29 Min. :2
## 1: 63 1: 99 1:395 1st Qu.: 1.00 1:451 1st Qu.:2
## Median : 3.00 Median :2
## Mean : 3.56 Mean :2
## 3rd Qu.: 5.00 3rd Qu.:2
## Max. :18.00 Max. :2
Figura 37. Resumen cluster 2.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.000 0:229 0: 25 0:228 0: 58 Min. :1.000 0:195
## 1st Qu.:1.000 1: 5 1:209 1: 6 1:176 1st Qu.:3.000 1: 39
## Median :2.000 Median :3.000
## Mean :1.885 Mean :3.462
## 3rd Qu.:2.000 3rd Qu.:4.000
## Max. :5.000 Max. :8.000
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 21 0: 53 0: 34 0:154 0: 50
## 2:213 1:181 1:200 1: 80 1:184
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0:196 0:176 0: 51 Min. : 0.000 0: 11 Min. :3
## 1: 38 1: 58 1:183 1st Qu.: 2.000 1:223 1st Qu.:3
## Median : 4.000 Median :3
## Mean : 3.983 Mean :3
## 3rd Qu.: 6.000 3rd Qu.:3
## Max. :18.000 Max. :3
Figura 38. Resumen cluster 3.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.000 0:475 0: 0 0:467 0:381 Min. :1.00 0:422
## 1st Qu.:1.000 1: 20 1:495 1: 28 1:114 1st Qu.:3.00 1: 73
## Median :2.000 Median :3.00
## Mean :1.628 Mean :3.17
## 3rd Qu.:2.000 3rd Qu.:4.00
## Max. :6.000 Max. :9.00
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 25 0:411 0:437 0:417 0:368
## 2:470 1: 84 1: 58 1: 78 1:127
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0:449 0:421 0:405 Min. : 0.00 0: 26 Min. :4
## 1: 46 1: 74 1: 90 1st Qu.: 2.00 1:469 1st Qu.:4
## Median : 3.00 Median :4
## Mean : 3.36 Mean :4
## 3rd Qu.: 4.00 3rd Qu.:4
## Max. :18.00 Max. :4
Figura 39. Resumen cluster 4.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.000 0:434 0:444 0:443 0:367 Min. : 1.000 0:367
## 1st Qu.:1.000 1: 10 1: 0 1: 1 1: 77 1st Qu.: 2.000 1: 77
## Median :1.000 Median : 3.000
## Mean :1.196 Mean : 2.721
## 3rd Qu.:1.000 3rd Qu.: 3.000
## Max. :5.000 Max. :12.000
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 14 0:379 0:426 0:376 0:350
## 2:430 1: 65 1: 18 1: 68 1: 94
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0:423 0:436 0:302 Min. :0.000 0: 20 Min. :5
## 1: 21 1: 8 1:142 1st Qu.:1.000 1:424 1st Qu.:5
## Median :3.000 Median :5
## Mean :2.655 Mean :5
## 3rd Qu.:4.000 3rd Qu.:5
## Max. :7.000 Max. :5
Figura 40. Resumen cluster 5.
## baños jardin ascensor piscina terraza habitaciones a_reformar
## Min. :1.000 0: 47 0: 24 0: 41 0: 22 Min. :1.000 0:150
## 1st Qu.:2.000 1:106 1:129 1:112 1:131 1st Qu.:3.000 1: 3
## Median :2.000 Median :3.000
## Mean :2.464 Mean :3.431
## 3rd Qu.:3.000 3rd Qu.:4.000
## Max. :6.000 Max. :8.000
## tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon
## 1: 18 0: 20 0:97 0: 22 0:114
## 2:135 1:133 1:56 1:131 1: 39
##
##
##
##
## trastero garaje.incluido calefaccion planta vistas cluster
## 0: 46 0: 22 0: 44 Min. : 0.000 0: 1 Min. :6
## 1:107 1:131 1:109 1st Qu.: 2.000 1:152 1st Qu.:6
## Median : 3.000 Median :6
## Mean : 4.549 Mean :6
## 3rd Qu.: 7.000 3rd Qu.:6
## Max. :17.000 Max. :6
Figura 41. Resumen cluster 6.
Figura 42. Gráfico clustering k-medoides.
Figura 43. Gráficos clusters según distritos
| num1 | perc1 | |
|---|---|---|
| algirós | 26 | 4.6762590 |
| benicalap | 11 | 1.9784173 |
| benimaclet | 6 | 1.0791367 |
| camins al grau | 24 | 4.3165468 |
| campanar | 18 | 3.2374101 |
| ciutat vella | 74 | 13.3093525 |
| el pla del real | 23 | 4.1366906 |
| extramurs | 39 | 7.0143885 |
| jesús | 38 | 6.8345324 |
| l’eixample | 69 | 12.4100719 |
| l’olivereta | 15 | 2.6978417 |
| la saïdia | 23 | 4.1366906 |
| patraix | 51 | 9.1726619 |
| poblats marítims | 56 | 10.0719424 |
| pobles de l’oest | 3 | 0.5395683 |
| pobles del sud | 8 | 1.4388489 |
| quatre carreres | 42 | 7.5539568 |
| rascanya | 30 | 5.3956835 |
Figura 44. Cluster 1. Porcentaje viviendas vendidas por distrito.
| num2 | perc2 | |
|---|---|---|
| algirós | 11 | 2.291667 |
| benicalap | 9 | 1.875000 |
| benimaclet | 5 | 1.041667 |
| camins al grau | 19 | 3.958333 |
| campanar | 15 | 3.125000 |
| ciutat vella | 74 | 15.416667 |
| el pla del real | 32 | 6.666667 |
| extramurs | 57 | 11.875000 |
| jesús | 11 | 2.291667 |
| l’eixample | 69 | 14.375000 |
| l’olivereta | 16 | 3.333333 |
| la saïdia | 17 | 3.541667 |
| patraix | 30 | 6.250000 |
| poblats marítims | 60 | 12.500000 |
| pobles de l’oest | 5 | 1.041667 |
| pobles del sud | 10 | 2.083333 |
| quatre carreres | 31 | 6.458333 |
| rascanya | 9 | 1.875000 |
Figura 45. Cluster 2. Porcentaje viviendas vendidas por distrito.
| num3 | perc3 | |
|---|---|---|
| algirós | 6 | 2.5641026 |
| benicalap | 5 | 2.1367521 |
| benimaclet | 4 | 1.7094017 |
| camins al grau | 10 | 4.2735043 |
| campanar | 8 | 3.4188034 |
| ciutat vella | 27 | 11.5384615 |
| el pla del real | 14 | 5.9829060 |
| extramurs | 19 | 8.1196581 |
| jesús | 11 | 4.7008547 |
| l’eixample | 28 | 11.9658120 |
| l’olivereta | 12 | 5.1282051 |
| la saïdia | 10 | 4.2735043 |
| patraix | 21 | 8.9743590 |
| poblats marítims | 25 | 10.6837607 |
| pobles de l’oest | 1 | 0.4273504 |
| pobles del nord | 1 | 0.4273504 |
| pobles del sud | 8 | 3.4188034 |
| quatre carreres | 12 | 5.1282051 |
| rascanya | 12 | 5.1282051 |
Figura 46. Cluster 3. Porcentaje viviendas vendidas por distrito.
| num4 | perc4 | |
|---|---|---|
| algirós | 17 | 3.4343434 |
| benicalap | 25 | 5.0505051 |
| benimaclet | 2 | 0.4040404 |
| camins al grau | 20 | 4.0404040 |
| campanar | 15 | 3.0303030 |
| ciutat vella | 34 | 6.8686869 |
| el pla del real | 7 | 1.4141414 |
| extramurs | 35 | 7.0707071 |
| jesús | 31 | 6.2626263 |
| l’eixample | 38 | 7.6767677 |
| l’olivereta | 27 | 5.4545455 |
| la saïdia | 36 | 7.2727273 |
| patraix | 39 | 7.8787879 |
| poblats marítims | 56 | 11.3131313 |
| pobles de l’oest | 5 | 1.0101010 |
| pobles del nord | 3 | 0.6060606 |
| pobles del sud | 17 | 3.4343434 |
| quatre carreres | 42 | 8.4848485 |
| rascanya | 46 | 9.2929293 |
Figura 47. Cluster 4. Porcentaje viviendas vendidas por distrito.
| num5 | perc5 | |
|---|---|---|
| algirós | 4 | 0.9009009 |
| benicalap | 34 | 7.6576577 |
| benimaclet | 9 | 2.0270270 |
| camins al grau | 14 | 3.1531532 |
| campanar | 8 | 1.8018018 |
| ciutat vella | 22 | 4.9549550 |
| el pla del real | 1 | 0.2252252 |
| extramurs | 15 | 3.3783784 |
| jesús | 30 | 6.7567568 |
| l’eixample | 14 | 3.1531532 |
| l’olivereta | 34 | 7.6576577 |
| la saïdia | 29 | 6.5315315 |
| patraix | 18 | 4.0540541 |
| poblats marítims | 98 | 22.0720721 |
| pobles de l’oest | 10 | 2.2522523 |
| pobles del nord | 1 | 0.2252252 |
| pobles del sud | 20 | 4.5045045 |
| quatre carreres | 33 | 7.4324324 |
| rascanya | 50 | 11.2612613 |
Figura 48. Cluster 5. Porcentaje viviendas vendidas por distrito.
| num6 | perc6 | |
|---|---|---|
| benicalap | 21 | 13.7254902 |
| camins al grau | 5 | 3.2679739 |
| campanar | 39 | 25.4901961 |
| ciutat vella | 3 | 1.9607843 |
| el pla del real | 8 | 5.2287582 |
| extramurs | 6 | 3.9215686 |
| jesús | 2 | 1.3071895 |
| l’eixample | 7 | 4.5751634 |
| la saïdia | 1 | 0.6535948 |
| patraix | 1 | 0.6535948 |
| poblats marítims | 17 | 11.1111111 |
| pobles de l’oest | 2 | 1.3071895 |
| pobles del nord | 1 | 0.6535948 |
| pobles del sud | 10 | 6.5359477 |
| quatre carreres | 18 | 11.7647059 |
| rascanya | 12 | 7.8431373 |
Figura 49. Cluster 6. Porcentaje viviendas vendidas por distrito.
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| algirós | 26 | 11 | 6 | 17 | 4 | 0 |
| benicalap | 11 | 9 | 5 | 25 | 34 | 21 |
| benimaclet | 6 | 5 | 4 | 2 | 9 | 0 |
| camins al grau | 24 | 19 | 10 | 20 | 14 | 5 |
| campanar | 18 | 15 | 8 | 15 | 8 | 39 |
| ciutat vella | 74 | 74 | 27 | 34 | 22 | 3 |
| el pla del real | 23 | 32 | 14 | 7 | 1 | 8 |
| extramurs | 39 | 57 | 19 | 35 | 15 | 6 |
| jesús | 38 | 11 | 11 | 31 | 30 | 2 |
| l’eixample | 69 | 69 | 28 | 38 | 14 | 7 |
| l’olivereta | 15 | 16 | 12 | 27 | 34 | 0 |
| la saïdia | 23 | 17 | 10 | 36 | 29 | 1 |
| patraix | 51 | 30 | 21 | 39 | 18 | 1 |
| poblats marítims | 56 | 60 | 25 | 56 | 98 | 17 |
| pobles de l’oest | 3 | 5 | 1 | 5 | 10 | 2 |
| pobles del nord | 0 | 0 | 1 | 3 | 1 | 1 |
| pobles del sud | 8 | 10 | 8 | 17 | 20 | 10 |
| quatre carreres | 42 | 31 | 12 | 42 | 33 | 18 |
| rascanya | 30 | 9 | 12 | 46 | 50 | 12 |
Figura 50. Número viviendas vendidas por distrito y cluster.
Figura 51. R2 y Q2 modelo PLS.
Figura 52. Gráfico x-score (t) PLS.
Figura 53. Gráfico x-score (t) PLS por distrito.
Figura 54. Gráficos scr x-y y T2 Hotelling x-y.
| R2X(cum) | R2Y(cum) | Q2(cum) | RMSEE | pre | ort | pR2Y | pQ2 | |
|---|---|---|---|---|---|---|---|---|
| Total | 0.27 | 0.382 | 0.359 | 0.366 | 3 | 0 | 0.05 | 0.05 |
| R2X | R2X(cum) | R2Y | R2Y(cum) | Q2 | Q2(cum) | Signif. | Iter. | |
|---|---|---|---|---|---|---|---|---|
| p1 | 0.1530 | 0.153 | 0.2980 | 0.298 | 0.29400 | 0.294 | R1 | 1 |
| p2 | 0.0568 | 0.210 | 0.0721 | 0.370 | 0.08860 | 0.356 | R1 | 1 |
| p3 | 0.0597 | 0.270 | 0.0120 | 0.382 | 0.00387 | 0.359 | R1 | 1 |
Figura 55. Resumen modelo final PLS.
Figura 56. Gráficos x-loading (p) PLS.
Figura 57. Gráficos correlación PLS.
Figura 58. Gráfico predict-train PLS.
Figura 59. Gráfico residuos por distrito.