En colaboración con La Inmobiliaria de Hoyo.

1 Índice

Introducción
- 1.1. Contexto del estudio y descripción de la base de datos
Análisis exploratorio inicial y pre-proceso de los datos
- 2.1. Variables y registros descartados
- 2.2. Transformación de variables
- 2.3. Cálculo de nuevas variables
- 2.4. Valores faltantes. Imputación
ANÁLISIS 1: AFC MÚLTIPLE
- 3.1. Análisis de los individuos
- 3.2. Análisis de las variables
ANÁLISIS 2: CLUSTERING
- 4.1. Matriz distancia de Gower
- 4.2. Tendencia agrupamiento datos
- 4.3. Métodos jerárquicos: WARD, Media, Centroide y Mediana
- 4.4. Métodos de partición: K-medoides
- 4.5. Selección del método de clustering
ANÁLISIS 3: PLS (Proyección a estructuras latentes por medio de Mínimos Cuadrados Parciales)
- 5.1. Creación del modelo
- 5.2. Exploración del modelo
- 5.3. Validación del modelo y diagnóstico de observaciones
- 5.4. Linealidad de los scores
- 5.5. Interpretación del modelo
- 5.6. Predicciones con PLS
Conclusiones
Anexo

2 Introducción

2.1 Contexto del estudio y descripción de la base de datos

El sector inmobiliario en España es una parte fundamental del IPC del país y de la economía de las familias. En el mes de enero, se registró el nivel más alto de venta de viviendas desde el boom inmobiliario de 2008. Según los datos del INE, en el año 2021 se vendieron 565.523 viviendas en España, un 34,6% más que en el 2020 y un 12% más que en 2019, el último año pre-pandemia. Esto ha supuesto un aumento del precio de las viviendas que también ha afectado a la ciudad de Valencia.

Esta subida de los precios ha sido la motivación para intentar averiguar qué factores pueden revalorizar una vivienda. Más concretamente, dadas las características de una casa (número de habitaciones, baños, terraza, piscina, etc.), se quiere examinar en qué medida influyen en el precio por metro cuadrado de ésta y cuáles son más determinantes.

Además, dada la importancia de este sector, también se quiere analizar concretamente en la ciudad de Valencia, el tipo de pisos que se venden y cómo se ven afectados por la estructura geográfica de la ciudad.

Por tanto, el objetivo de este trabajo es estudiar la agrupación de pisos con características similares, la homogeneidad o heterogeneidad intra e inter distritos, las variables que más influyen en el precio por m² y la predicción de dicha variable. Se considera que el peso del distrito es importante, ya que un piso con mismas características puede tener un precio de venta distinto, dependiendo de una zona u otra.

Para poder llevar a cabo este análisis, se ha escogido una base de datos con datos provenientes del portal inmobiliario Idealista.com, que recoge las ventas de viviendas en la provincia de Valencia durante los meses de diciembre a febrero de este mismo año. El dataset se obtuvo mediante numerosas peticiones de un servidor a la página web de Idealista. En un principio, se decidió estudiar el sector inmobiliario de todo tipo de inmuebles pero, tras ver la dificultad de dicho estudio, el análisis se redujo a los pisos de Valencia ciudad.

La base de datos final cuenta con 2324 observaciones y 20 variables que se describen a continuación:

baños: número de baños del piso. Variable numérica.
jardín: si el piso tiene jardín. Variable binaria.
ascensor: si el piso tiene ascensor. Variable binaria.
piscina: si el piso tiene piscina. Variable binaria.
terraza: si el piso tiene terraza. Variable binaria.
habitaciones: número de habitaciones del piso. Variable numérica.
a_reformar: si el piso está para reformar. Variable binaria.
tipo_vendedor: si el piso lo vende un particular o una inmobiliaria. Variable binaria.
distrito: distrito al que pertenece el piso. Variable categórica.
armarios empotrados: si el piso tiene armarios empotrados. Variable binaria.
acceso adaptado: si el piso está adaptado a personas con movilidad reducida. Variable binaria.
aire acondicionado: si el piso tiene aire acondicionado. Variable binaria.
balcón: si el piso tiene balcón. Variable binaria.
trastero: si el piso tiene trastero. Variable binaria.
calefacción: si el piso tiene calefacción. Variable binaria.
planta: nº de planta del piso. Variable numérica ordinal.
vistas: si el piso es exterior o interior (exterior=1, interior=0)
variacion_precio: variación del precio entre el precio inicial y el de venta. Variable numérica.
tiempo_venta: días registrados que ha estado el piso en venta, desde la fecha de recogida de los datos (y creación de la base de datos). Variable numérica.
preciom2: precio final por metro cuadrado. Variable numérica.

Con todo ello, se procede a limpiar la base de datos.

3 Análisis exploratorio inicial y pre-proceso de los datos

3.1 Variables y registros descartados

La base de datos original (pisos vendidos en Valencia) tenía 2478 observaciones y 39 variables. Sin embargo, se decidió descartar ciertas variables porque no nos servían para el análisis. Las variables que se eliminaron fueron:

m2: superficie en metros cuadrados del piso. La eliminamos porque vemos más interesante y mejor para el análisis utilizar el precio por metro cuadrado.
precio_final: precio de venta del piso. La eliminamos por la misma razón que m2.
buenas_condiciones: variable binaria que indica si el piso estaba en buenas condiciones. 1 si lo estaba, 0 si no. Era la variable complementaria de a_reformar.
ad_operation: si el piso era de alquiler o estaba a la venta. Como nuestro estudio se centra en los pisos a la venta, era una variable constante con todo unos.
address_location_x: cadena de caracteres con la dirección exacta del piso. La eliminamos, ya que sólo nos interesa el distrito.
date_insert: fecha exacta de introducción del piso en Idealista.com. Esta variable se ha eliminado y se ha utilizado para obtener otra variable.
date_update: fecha exacta del último rastreo del servidor.
date_last: fecha exacta de venta del piso. Esta variable, al igual que date_insert, se ha eliminado y se ha utilizado para obtener otra variable.
url: url del piso en Idealista.com.
latitude: latitud de la localización del piso.
longitude: longitud de la localización del piso.
precio: precio de venta inicial del piso. Cabe decir que esta variable la eliminamos pero la utilizamos para crear una nueva (variación precio).
address_location_y: misma variable que adress_location_x.
day_insert: día de inserción del piso en Idealista.com.
day_last: día de venta del piso en Idealista.com.
vendido: variable binaria que indica si el piso estaba vendido. La eliminamos porque, al tener nuestro dataset sólo pisos vendidos, la variable era constante (todos 1).
tipo_inmueble: tipo del inmueble vendido. Si el inmueble es un piso, la observación es un 1, si el inmueble es una obra nueva, la observación es un 0. Se eliminó esta variable para facilitar el análisis y porque el número de obras nuevas era muy pequeño respecto del total (3.24%).

Respecto a los registros eliminados, se hizo un rápido estudio de las observaciones de las variables baño, habitaciones y m2 (ver Figura 11 y Figura 12 en el Anexo).

En cuanto a la variable baño, se detectó 1 piso sin baño (valor 0 en baño). También, se encontró un piso con 41 baños y 85 m². Probablemente, este inmueble tendría un único baño. Como se trata de un único registro, aunque se podría eliminar, se ha optado por considerarlo como un valor faltante para luego imputarlo.

Por último, se observaron 31 pisos sin habitaciones (valor 0 en habitaciones). Se eliminaron estas observaciones, no porque fueran errores en sí mismos, sino porque se consideró esencial para el análisis que un piso tuviera datos no nulos en baños y habitaciones. Por otro lado, no detectamos ningún piso sin m² ( pisos con valor 0 en m2).

3.2 Transformación de variables

En el pre-proceso de los datos, se tuvieron que transformar dos variables: dias_venta y vistas:

dias_venta es una variable calculada (resta entre day_last y day_insert). Como es una cadena de caracteres, tuvimos que limpiarla (quitar la palabra ‘days’) y convertirla a variable numérica. Si algún piso tenía un número negativo de días de venta (porque había registros de date_last menores que date_insert), lo pusimos a 0 .
vistas es una variable binaria codificada. Anteriormente si un piso tenía vistas 1, tenía vistas “exterior” y si tenía vistas 0, tenía vistas “interior”. Por otro lado, había casillas vacías, con TRUE o FALSE, pero que no tenían NA. Por ello, hubo que hacer una pequeña codificación y corregir estas celdas.

3.3 Cálculo de nuevas variables

preciom2: variable resultante de la división entre precio_final de la vivienda dividido y m2.
distrito: variable “calculada” de address_location_x. El proceso de limpieza de esta cadena de caracteres se realizó anteriormente y no compete a esta asignatura. Así que no se detallará, por falta de espacio, cómo se obtuvo exactamente.
variacion_precio: variable que se calculó como la resta entre price_last y price.
tiempo_venta, como se ha descrito anteriormente, también es una resta entre day_last y day_insert

Nota: estas tres últimas variables calculadas no aparecen en esta memoria, pues son modificaciones anteriores a esta Base de Datos. Estos cambios se hicieron para otra asignatura, pero son útiles para este proyecto. Sin embargo, queríamos especificar que estas variables no las obtuvimos directamente del servidor.

3.4 Valores faltantes. Imputación

Para estudiar con detalle cuántos datos faltantes había por variable, se consideró relevante hacer una tabla resumen con el número y porcentaje de valores faltantes en cada variable en la base de datos (ver Figura 13 en el Anexo). Como se puede observar, hay 3 variables con valores faltantes: baños, planta y vistas.

Con la intención de ver cómo se distribuyen los valores faltantes de vistas, según distrito, se hizo una tabla (ver Figura 14 en el Anexo). Inicialmente se contempló la idea de eliminar distritos con grandes porcentajes de NAs en vistas. Sin embargo, ésta se desechó debido a que, resultaría en una significativa pérdida de información.

Así, se decidió utilizar la librería Mice de R para imputar los datos faltantes. Realmente, sólo se tuvo que imputar datos de las tres variables mencionadas anteriormente (ver Figura 15 y Figura 16 en el Anexo)

Seguidamente, se vuelve a generar la tabla con los NAs por variable. Como se puede ver, ya no hay ningún dato faltante en nuestra BD (ver Figura 17 en el Anexo).

4 ANÁLISIS 1: AFC MÚLTIPLE

El primer paso del análisis es agrupar las viviendas de acuerdo a características similares entre las mismas. Una vez agrupadas, se pretende averiguar si casas con patrones iguales pertenecen a un mismo distrito.

De igual forma se quiere hallar la característica que más determina el precio de una casa, así como ver si hay algunas que tienen la misma importancia.

Para ello, se va a buscar relaciones entre individuos y variables, mediante un AFC múltiple. El método se va a aplicar con las librerías FactoMineR y FactoExtra.

En primer lugar, se realiza el AFC con todas las variables binarias del dataset y las variables numéricas categorizadas (baños, habitaciones y planta). Se deja como variables auxiliares cualitativas distrito y barrio y como auxiliares cuantitativas, dias_venta, variacion_precio y preciom2. De esta manera, se podrá determinar cómo influyen estas variables sobre los individuos.

Con esto, se hallan los valores propios, que indican el porcentaje de explicación de cada una de las componentes del análisis. Bajo el supuesto de que todas las componentes explicaran lo mismo, cada una de ellas tendría que explicar un 5.26% del modelo. Son 8 las componentes que superan este porcentaje. A pesar de ello, para volver a realizar el AFC múltiple se seleccionarán 5 dimensiones, que explican el 42.8% de la inercia total.

	eigenvalue	variance.percent	cumulative.variance.percent
Dim.1	0.1775777	15.888531	15.88853
Dim.2	0.0994491	8.898076	24.78661
Dim.3	0.0711941	6.369995	31.15660
Dim.4	0.0671174	6.005244	37.16185
Dim.5	0.0634050	5.673081	42.83493
Dim.6	0.0627683	5.616110	48.45104

^{Figura 1. Screeplot dimensiones AFC Múltiple.}

4.1 Análisis de los individuos

Para visualizar los individuos sobre las componentes principales que requerimos, se han graficado coloreando según el distrito.

Como se puede ver en el gráfico de los individuos, no hay relación entre los distritos y las características en ninguna dimensión (ver Figura 18 y Figura 19 en el Anexo).

Esto confirma nuestra sospecha de heterogeneidad en distritos. Es decir, dentro de un mismo distrito, se pueden encontrar pisos con diferentes características, tales como estado (a reformar y nuevos), número de habitaciones y baños. Además, entre distintos distritos tampoco parece haber mucha disparidad. Todas estas cuestiones se analizarán con detenimiento en el gráfico de variables.

^{Figura 2. Gráfico de individuos dimensiones 1 y 2. AFC Múltiple.}

A continuación, se ha vuelto a colorear el gráfico de los individuos según las variables cuantitativas auxiliares (preciom2, dias_venta y variacion_precio).

Se observa que las observaciones son muy homogéneas en cuanto a la variable precio/m², pues casi todas presentan el mismo ratio. Entre las observaciones que presentan mayor ratio (ver individuos rojos en Figura 20 del Anexo), no parece haber ninguna agrupación en torno a ninguna dimensión.

Ello es debido a que el precio/m² (como es un ratio) no sirve para distinguir entre mansiones y casas pequeñas. Por ejemplo, una casa muy cara con muchos metros cuadrados tendrá el mismo ratio que una pequeña muy barata, siempre que la proporción sea igual. Por ello, el precio/m² no es una característica óptima para agrupar las viviendas.

Por lo que respecta a los días que tarda en venderse una vivienda (ver Figura 21 en el Anexo), se deduce que las casas que más tardan en venderse son muy explicadas por la dimensión 1. Pero, en general, ocurre lo mismo que con la variable anterior, las dimensiones no separan las casas que tardan más en venderse de las que se venden rápido.

Además, si se colorea los individuos por la variable variación precio, también resultan ser muy homogéneos, pues apenas se presenta variación en el conjunto (ver Figura 22 en el Anexo).

Sin embargo, al fijarse en los pocos que tienen variación negativa, se observa que se encuentran en torno a la primera y cuarta dimensiones. Así pues, estas dos dimensiones sí que separan los individuos cuya variación es negativa de los individuos que no varían. No obstante, se debería disponer de una muestra cuya variación precio fuese más dispar, pues son muy pocos los que varían, y por ello, no se puede afirmar con seguridad que esta variable es buena clasificadora de las observaciones.

4.1.1 Análisis de las variables

Según el gráfico de contribuciones a las 5 dimensiones (ver Figura 23 y Figura 24 en el Anexo), las variables que más contribuyen a las 5 dimensiones son jardín, piscina, a_reformar, aire acondicionado, ascensor y baños.

^{Figura 3. Gráfico de contribución dimensiones 1 y 2. AFC Múltiple.}

En el gráfico de loadings, se ha añadido la variable distrito (que habíamos dejado como auxiliar categórica) para ver qué características de la casa están más relacionadas con ellos (ver Figura 25 en el Anexo). En este caso, observamos que Campanar está relacionado con piscina_1, jardín_1, planta 9-13, planta 14-18, tipo_vendedor_1 (profesional), trastero_1 y garaje.incluido_1 en todas las dimensiones (ver Figura 26 en el Anexo). Esta información coincide con la realidad, pues Campanar es uno de los distritos más nuevos de la ciudad de Valencia, en la que se encuentran muchos pisos en forma de urbanizaciones. Además, en este distrito también hay viviendas de gran altura (Nou Campanar).

Los distritos El Pla del Real, L’Eixample, Extramurs y Ciutat Vella se caracterizan por tener 4 o más habitaciones (+4 habitaciones), estar adaptados para personas con movilidad reducida (acceso_adaptado_1) y tener balcón (balcon_1). Además, estos son los distritos más caros de la ciudad.

Los pisos de Rascanya, L’Olivereta y Poblats Marítims no suelen tener ni ascensor ni garaje incluido, disponen de 1 baño y suelen ser interiores. También coincide con la realidad, pues son de los distritos más baratos de Valencia. Estos tres distritos (a excecpción de algunos barrios como Sant Llorenç) se caracterizan por tener viviendas “humildes” con menos equipamiento que las del grupo anterior.

5 ANÁLISIS 2: CLUSTERING

5.1 Matriz distancia de Gower

Cuando se dispone de un conjunto de datos mixto, es decir, un conjunto de individuos sobre los que se han observado tanto variables cuantitativas como cualitativas (o categóricas), la distancia de Gower es la apropiada. Por ello, se utilizará para agrupar los datos.

5.2 Tendencia agrupamiento datos

Para estudiar si existe tendencia de agrupamiento de los datos, utilizaremos un mapa de calor (ver Figura 27 en el Anexo). Se descartó el uso del estadístico de Hopkins, porque está programado para la distancia euclídea y no para la de Gower. Como se puede ver en el mapa de calor, a simple vista, parece haber 6 u 8 clusters.

5.3 Métodos jerárquicos: WARD, Media, Centroide y Mediana

En primer lugar, los métodos que se van a utilizar son jerárquicos: Ward, Media, Centroide y Mediana. La elección de los métodos no es aleatoria, sino que los tres primeros se han escogido por ser los más comunes. Por otro lado, el de la Mediana, por ser un estadístico robusto, ya que la mediana no se ve tan afectada por valores anómalos como la media.

5.3.1 Ward

Tras obervar los gráficos de SS y el coeficiente de Silhouette, el número de clusters elegidos es 6, ya que tiene el mismo coeficiente de Silhouette que con 4 y 5 clusters (ver Figura 28 en el Anexo). Sin embargo, la suma de cuadrados intracluster es más pequeña. El resumen estadístico de este método se encuentra en el Anexo (ver Figura 29). El número de pisos en cada cluster es el siguiente:

## ward_groups
##   1   2   3   4   5   6 
## 632 280 397 275 493 285

5.3.2 Media

Tras obervar de nuevo los gráficos de SS y el coeficiente de Silhouette (ver Figura 30 en el Anexo), el número de clusters elegidos es 4. A pesar de ello, es indiferente que el número de clusters sea 4, 5 o 6, ya que este método forma un cluster con la mayoría de pisos (en torno a 2000) y el resto de clusters con menos de 200 pisos (e incluso menos de 50).

El resumen estadístico de este método se encuentra en el Anexo (ver Figura 31). El número de pisos en cada cluster es el siguiente:

## average_groups
##    1    2    3    4 
## 2044  237   68   13

5.3.3 Centroide

Al igual que ha ocurrido con el método de la media, este método tampoco separa “correctamente” los clusters (ver Figura 32 en el Anexo). Es indiferente entre escoger una k de 3, 4 o 5, ya que el primer cluster tiene prácticamente todos los pisos y el resto de clusters, 1, 2 o 3. El resumen estadístico de este método se encuentra en el Anexo (ver Figura 33).

## centroid_groups
##    1    2    3    4    5 
## 2353    3    3    2    1

5.3.4 Mediana

Del mismo modo que con los dos métodos anteriores, ocurre también con el método de la mediana. Además, como se puede observar en el gráfico del coeficiente de Silhouette (ver Figura 34 en el Anexo), sólo con k=2 o k=3 es positivo. Aún con este número de clusters, vemos cómo el patrón se repite; el primer cluster con la mayoría de pisos y el resto con 1 o 5 pisos:

## median_groups
##    1    2    3 
## 2356    5    1

El resumen estadístico de este método se encuentra en el Anexo (ver Figura 35).

5.4 Métodos de partición: K-medoides

El método de K-medoides, en comparación con el método de K-medias, es mucho más robusto, puesto que, los medoides son mejores representantes de los clusters que los centroides.

Como podemos observar en el gráfico del coeficiente de Silhouette, el número de clusters elegido es 6, porque tiene un coeficiente más alto que con k=5 y k=7.

^{Figura 4. Gráfico SS y coeficiente de silhouette k-medoides.}

5.5 Selección del método de clustering

Tras ver todos los métodos, se descarta el método de la media, de la mediana y del centroide. Ahora, hay que seleccionar entre el método de Ward y K-Medoides:

par(mfrow = c(1,2))
plot(silhouette(pam_fit$clustering, gower_dist), col=rainbow(6), border=NA, main = "K-MEDOIDES")
plot(silhouette(ward_groups, gower_dist), col=rainbow(6), border=NA, main = "WARD")

^{Figura 5. Comparación método ward y k-medoides.}

El método final seleccionado es el método K-Medoides con K= 6 porque tiene un mayor coeficiente de silhouette medio que el método de Ward. Además, también tiene menos observaciones mal clasificadas (negativos).

La interpretación de este análisis es la siguiente: * Cluster 1: pisos exteriores de 4 plantas, con dos baños, tres habitaciones, ascensor, aire acondicionado, en buen estado y sin jardín, ni terraza, ni acceso adaptado, ni trastero. Lo destacable de este grupo es que todos los pisos tienen balcón. (ver figura 36 en el Anexo)

Cluster 2: pisos exteriores de 3 plantas, con dos baños, tres habitaciones, ascensor, armarios empotrados, calefacción, aire acondicionado, en buenas condiciones, sin trastero, ni garaje incluido, ni piscina. Lo destacable de este grupo es que ninguno de los pisos tiene balcón. (ver figura 37 en el Anexo)
Cluster 3: pisos exteriores de 4 plantas, con dos baños, tres habitaciones, ascensor, armarios empotrados, acceso adaptado, balcon, en buenas condiciones, sin trastero, ni garaje incluido, ni piscina. Lo destacable de este grupo es que a penas tienen jardín, pero disponen de terraza. (ver figura 38 en el Anexo)
Cluster 4: pisos exteriores de 3 plantas, con dos baños (menos baños de media que los de los clusters 1, 2 y 3), tres habitaciones, buenas condiciones, sin jardín, ni piscina, ni trastero, ni acceso adaptado, ni garaje incluido, ni calefacción, ni aire acondicionado. Lo destacable de este grupo es que todos los pisos tienen ascensor. (ver figura 39 en el Anexo)
Cluster 5: pisos exteriores de menos de 3 plantas, con un baño, tres habitaciones (menos habitaciones de media que los de los clusters 1,2,3 y 4), buenas condiciones, sin terraza, ni armarios empotrados, ni acceso adaptado, ni balcón, ni trastero, aire accondicionado. Lo destacable de este grupo es que ninguno de los pisos tiene ascensor y muy pocos tienen piscina, jardín y garaje incluido. (ver figura 40 en el Anexo)
Cluster 6: pisos exteriores de más de 4 plantas, con dos baños (más baños de media que el resto de clusters), más de tres habitaciones, ascensor, jardín, piscina, terraza, armarios empotrados, aire acondicionado, calefacción, trastero y garaje inlcuido y sin balcón, ni acceso adaptado. Lo destacable de este grupo es que casi todos los pisos son exteriores, están en buenas condiciones y disponen de más equipamiento que el resto de los pisos pertenecientes a otros clusters. (ver figura 41 en el Anexo)

Se procede a hacer un estudio más detallado para ver si hay clusters en los que predomina algún distrito (ver Figura 42 en el Anexo), pero parece ser que todos se distribuyen de forma equitativa en los clusters. Con ello, reforzamos nuestra hipótesis de que los distritos son muy heterogéneos. No hay un distrito cuyos pisos sean totalmente iguales, y todos los pisos iguales no se agrupan en un mismo distrito. Hay que excluir el distrito de Campanar, que es el más homogéneo de la ciudad, como podemos ver en el cluster 6 (ver Figura 49 en el Anexo) y el distrito de Poblats Marítims, aglutinado principalmente en el cluster 5 (ver Figura 48 en el Anexo).

6 ANÁLISIS 3: PLS (Proyección a estructuras latentes por medio de Mínimos Cuadrados Parciales)

6.1 Creación del modelo

Con el objetivo de realizar un modelo que prediga el precio por m² de los pisos de Valencia, se ha utilizado PLS. Este método, a diferencia de otros como Redes neuronales (Machine Learning) o SVM, permite entender cuáles son las variables que más contribuyen al modelo y las relaciones entre las variables explicativas (X) y la variable respuesta (Y).

En primer lugar, se realizó un modelo PLS sin aplicar ninguna transformación a la variable respuesta (Y), pero tras ver que no se podía asumir colinealidad entre los scores t y u, se tuvo que repetir el proceso aplicando alguna transformación.

Figura 6. Gráfico t/u modelo pls sin transformación logarítmica.

##        p1        p2 
## 0.4694247 0.2726041

Tras graficar la densidad de la variable Y, se pudo comprobar que seguía una distribución asimétrica positiva, por lo que se procedió a transformarla aplicando logaritmos. Una vez hecho este paso, se volvió a realizar PLS.

Para la partición de datos entre entrenamiento y test, se escoge una partición de 80% para datos de entrenamiento y de 20% para los de test (siempre fijando la semilla aleatoria).

A continuación, se escala tanto la matriz X como la Y, ya que las variables están medidas en distintas unidades. Esta transformación se hace desde la propia función opls(), teniendo en cuenta que la opción seleccionada (‘standard’) centra y escala ambas matrices.

Seguidamente, se estima el número de componentes óptimo mediante validación cruzada. En este caso, dado que hay 1890 observaciones, optamos por el procedimiento “k-fold” con k=10. Se descarta la opción de utilizar el método “leave-one-out” porque se generarían 1890 modelos, y sería computacionalmente muy costoso.

Haciendo que R elija las componentes que considere oportunas, se obtiene que es suficiente con seleccionar 3 componentes. Este número es muy aceptable, pues facilitará la visualización posteriormente.

Para validar el modelo PLS, puede ser útil observar el valor de R² y Q². A la vista de los resultados del modelo, la bondad de predicción de nuestro modelo PLS con A=3 componentes no es muy bueno, pues no supera el valor 0.5 (0.346).

En cuanto a la bondad de ajuste, entre las 3 componentes obtenemos un R² acumulado de 0.267 para las X y de 0.373 para las Y.

Respecto al gráfico de similaridad, se concluye que, por azar, el modelo sería menos bueno que el ya obtenido. Si no fuese así, sería inteligente replantearse la elección de otro tipo de técnica.

No obstante, a pesar de que la función opls() aconseja utilizar 3 componentes, se va a visualizar R² y Q² por si fuera conveniente escoger una componente más. Hay veces donde la Q² empieza a disminuir, pero la caída es muy pequeña y se sigue pareciendo a la R².

Recordemos que R selecciona componentes hasta donde Q² empieza a disminuir. Esto se realiza para que no haya sobreajuste porque si se aumenta innecesariamente el número de componentes, la capacidad predictiva (Q²) disminuye estrepitosamente.

Realmente, a la vista de este gráfico (ver Figura 51 en el Anexo), es adecuado seleccionar 3 componentes, ya que la \(Q^2\) se aleja bastante de \(R^2\) en la cuarta componente. Por ello, nos quedamos con el modelo que habíamos planteado en un principio.

6.2 Exploración del modelo

A continuación, se visualizan las observaciones (ver Figura 52 en el Anexo). Para ello, se crea el gráfico de scores, y se colorea por la variable que queremos predecir: precio_m2 (Y). En ambos gráficos se concluye que los individuos se distribuyen de forma uniforme (pero degradada) sobre los ejes. Esto es, los individuos con mayor ratio se encuentran a la derecha, mientras que los de menor a la izquierda. Esta observación será clave para después comentar que variables explican esta diferencia de ratios.

Seguidamente, se hace el mismo gráfico de scores, pero coloreando los individuos por distrito (ver Figura 53 en el Anexo). Dado que hay 19 distritos, es muy difícil observar si hay outliers extremos por distrito en un mismo gráfico. Se puede ver, grosso modo, que los pisos (individuos) pertenecientes a Campanar, tienen scores más altos dado que se salen de la región elíptica .

6.3 Validación del modelo y diagnóstico de observaciones

En primer lugar, es interesante conocer que una observación puede ser anómala en el Espacio X, en el Espacio Y, en el Espacio X e Y y en el Espacio t/u (X+Y). También, hay que destacar que hay dos tipos de observaciones anómalas:

Observaciones atípicas/outliers moderados: aquellas que no están bien modeladas por el modelo. Tienen valores altos en su SCR.
Observaciones extremas/outliers moderados: aquellas cuya distancia, desde su proyección al centro del plano (T²-Hotelling), es muy grande o muy pequeña.

6.3.1 X: Detección de anómalos severos con T2-Hotelling

Podemos detectar posibles valores anómalos tanto para la matriz X como para la Y. Dado que se han seleccionado solo 3 componentes, solo se tiene una opción de representación:

Representar a los individuos de acuerdo a los dos límites de la T2: 95% Y 99%.

En primer lugar, se grafican los anómalos extremos del modelo (ver Figura 54 en el Anexo). Se observa que hay varios datos que superan el umbral del 99%. Tras realizar algunos cálculos, efectivamente hay demasiadas observaciones (77) que sobrepasan el umbral del 99%, de las 18.9 que deberían hacerlo. Por ello, se van a eliminar aquellas observaciones de X que más lo sobrepasan. Para que el modelo PLS funcione, también se quitan dichas observaciones de la matriz Y.

Como se ha cambiado la matriz X y la matriz Y, se vuelve a generar el modelo PLS (con las mismas componentes).

6.3.2 X: Detección de casos atípicos con la SCR (distancia al modelo)

En el siguiente gráfico se representa la Suma de Cuadrados Residual de X y su límite de confianza al 95% (ver Figura 54 en el Anexo). El gráfico de la distancia al modelo sería equivalente, pero calculando la raíz cuadrada de la SCR (y del límite correspondiente).

Como se ve solo hay 10 observaciones que sobrepasan el umbral del 95%, de las 91.9 posibles que podían sobrepasar. Por tanto, no se va a eliminar ningún individuo.

6.3.3 Y: Detección de anómalos severos con T2-Hotelling

Una vez examinadas las observaciones extremas de la matriz X, se procede a hacer el mismo diagnóstico con la matriz Y.

De nuevo, se observa que hay varios datos que superan el umbral del 99% (ver Figura 54 en el Anexo). Así, se estudian para ver si hay que eliminarlos. Efectivamente, hay demasiadas observaciones sobrepasan el umbral (67) del 99%, de las 18.38 que deberían hacerlo. Por ello, se van a eliminar aquellas observaciones de Y que más lo sobrepasan. Para que el modelo PLS funcione, también se quitan dichas observaciones de la matriz X.

6.3.4 Y: Detección de casos atípicos con la SCR (distancia al modelo)

Por último, se procede a detectar las observaciones atípicas de la matriz Y. En la Figura 54 del Anexo se representa la Suma de Cuadrados Residual de Y y su límite de confianza al 95%. El gráfico de la distancia al modelo sería equivalente, pero calculando la raíz cuadrada de la SCR (y del límite correspondiente).

Como se puede comprobar, solo hay 98 observaciones que sobrepasan el umbral del 95%, de las 89.95 que podían sobrepasar.

El modelo final, tras haber hecho la validación y el diagnóstico de observaciones tiene 3 componentes (ver Figura 55 en el Anexo).

6.4 Linealidad de los scores

La linealidad de los scores es crucial estudiarla, pues si no cumpliesen con este supuesto, se tendrían que aplicar transformaciones que cambiarían completamente el modelo (en el primer modelo PLS, no se cumplía este supuesto y se tranformó logarítmicamente la matriz Y).

Esta linealidad se puede estudiar utilizando el coeficiente de correlación de Pearson, que debe ser lo más próximo a 1, o haciendo un gráfico de dispersión entre los scores t y u.

Tanto los scores de la primera componente (\(t_1\) y \(u_1\)) como los de la segunda (\(t_2\) y \(u_2\)) y tercera (\(t_3\) y \(u_3\)) deben estar correlacionados linealmente. En cuanto a estos últimos pares de vectores, éstos tienen un grado de relación lineal inferior a los de la primera componente. Esto se debe a que \(t_1\) y \(u_1\) capturan la mayor fuente de variación y correlación entre X e Y (y por ello son los primeros scores).

Figura 7. Gráfico t/u modelo PLS con transformación logarítmica.

##        p1        p2        p3 
## 0.5460623 0.3204588 0.1380451

A la vista de estos resultados, ahora se podría asumir una mayor linealidad entre los scores, pero no supera el 0.7.

6.5 Interpretación del modelo

Los siguientes gráficos servirán para interpretar el modelo PLS. Aunque el gráfico de scores t/t es muy útil para comprender la relación entre las observaciones, se ha decidido no hacerlo para interpretar el modelo dado el gran número de observaciones existentes (1799).

Otro de los gráficos que no se ha tenido en cuenta para interpretar el modelo es el de los scores u/t. El descarte de este gráfico se debe a que ya se ha hecho para estudiar la relación interna.

Finalmente, los 3 gráficos utilizados son:

Gráfico X-loadings o variables de x (ver Figura 56 en el Anexo). En esta visualización, se obtiene que las variables que más contribuyen a la dimensión 1 son a_reformar, armarios.empotrados, baños, aire acondicionado y ascensor. Estas tres últimas, por la zona del gráfico dónde están, se puede concluir que los pisos con mayor ratio de precio/m² tienen estas características (recordar la posición de estas viviendas en el gráfico de scores).
Gráfico XY-weight w*c. Muestran la estructura de corelación entre X e Y. Dan información sobre cómo las variables se combinan para formar la relación cuantitativa entre X e Y. Se obtienen unos resultados similares a los explicados con el anterior gráfico.

Figura 8. Gráfico weights w*/c modelo PLS.

Gráfico de correlación. Correlación entre las variables X e Y y las componentes PLS (ver Figura 57 en el Anexo). No se encuentra ninguna referencia remarcable.

Una visión de la importancia global que tiene cada una de las variables en nuestro modelo PLS se obtiene a partir del gráfico VIP. El VIP es una medida acumulada de la influencia de cada variable X sobre la variable Y (preciom2).

Figura 9. Gráfico VIP modelo PLS.

Respecto al VIP, hay 6 variables que sobrepasan el valor de 1. Por ello, se pueden considerar variables importantes para la predicción. Estas son: baños, ascensor, habitaciones, armarios.empotrados, aire.acondicionado, garaje.incluido. Por lo que estas variables ayudan a predecir el precio por metro cuadrado de una casa.

Además, considerando que las variables con VIP menor de 0.8 son muy poco relevantes, se decide representar este valor en el gráfico. Las variables que no sobrepasan el umbral, y que por tanto, no serán relevantes para la predicción son: a_reformar, tipo_vendedor, acceso.adaptado, balcon, planta, vistas, variacion_precio, dias_venta. Por lo que estas variables no ayudan a predecir el precio/m² de una casa.

6.6 Predicciones con PLS

Ahora, ya se pueden predecir los valores de la matriz respuesta Y (preciom2), a partir del modelo PLS obtenido, y compararlos con los valores reales. De esta forma, se medirá el error cometido.

La propia función plot() de la librería rolps nos ofrece un gráfico con los datos de entrenamiento predichos (ver Figura 58 en el Anexo).. En él, se observa que las predicciones de los datos de entrenamiento son bastante buenas, pues más o menos se ajustan a la realidad (por lo que el modelo es bueno). Si no fuese así, habría que replantearse su validez. Sería interesante obtener este mismo gráfico para los datos test, pero no existe.

Una visualización interesante es comprobar los residuos por distrito, pues es una variable que se ha dejado fuera del modelo para poder colorear los resultados (ver Figura 59 en el Anexo). Como se puede ver, los distritos que tienen pisos con mayores residuos en valor absoluto son El Pla del Real, La Saïdia, L’Eixample, Poblats Marítims y Ciutat Vella.

Como se ha mencionado anteriormente, estos son distritos con unos precio/m² muy extremos. Se sabe que los distritos más caros de Valencia son El Pla del Real, L’Eixample y Ciutat Vella. Así, estos distritos tendrán un precio/m² muy alto. Por ello, el modelo PLS no los predice bien y se queda “por debajo” de su precio/m² real (residuos positivos).

Las zonas más baratas (La Saïdia y Poblats Marítims), tienen un precio/m² más bajo. En este caso, el modelo PLS tampoco los predice bien y se queda “por encima” de su precio/m² real (residuos negativos).

Por otro lado, representamos los coeficientes de regresión (b) del PLS, con el fin de ver qué variables contribuyen positiva o negativamente. Una de las grandes ventajas de los coeficientes de regresión PLS es que su magnitud y signo nos indican la influencia de cada variable X del modelo sobre la variable Y.

Figura 10. Gráfico coeficientes regresión modelo PLS.

Entre las variables que contribuyen más positivamente al precio por metro cuadrado encontramos ascensor, baños y aire_acondicionado. Como se ha concluido anteriormente, estas son las variables con mayor VIP, por lo que es razonable que sean las que más contribuyan al modelo PLS.

Entre las variables que contribuyen más negativamente al precio/m² se encuentran habitaciones y acceso_adaptado, que también tenían un VIP por encima de 1. Esto quiere decir que para este modelo, si se aumenta el valor de estas dos variables, el precio/m² disminuye.

Con el modelo PLS, además de poder predecir el precio/m² de lo pisos de la ciudad de Valencia, se han podido conocer las variables más influyentes, a diferencia de otros modelos de machine learning o SVM.

7 Conclusiones

El AFC múltiple ha dado un resultado bastante bueno, pues con 5 dimensiones se explica el 54,2% de la variabilidad de los datos. Sin embargo, también hay otros modelos que pueden reducir con éxito las variables de la base de datos. Veámoslos con más detalle.

En un primer momento se pensó aplicar un PCA a la base de datos, pues como ya se ha explicado, se quería buscar patrones similares entre individuos y entre variables. Pero dado el gran número de variables binarias y el pequeño número de numéricas, se decidió realizar un AFC múltiple. Se podría aplicar PCA porque este método no supervisado permite analizar variables binarias 0-1 y variables categóricas codificadas a 0-1. Pero se rechazó esta posibilidad porque, aunque sólo había una variable categórica (distrito), se hubieran generado muchas variables 0-1 para incluirla.

En cuanto al Clustering, como únicamente se habían incluido variables binarias y numéricas, se probó a utilizar la distancia Euclídea (poniendo las variables binarias como numéricas). Se descartó el uso de esta distancia porque el coeficiente de Silhouette, obtenido para los distintos métodos era menor que con la distancia de Gower.

Así pues, una vez hecho el Clustering con la distancia de Gower, se deduce que a pesar de las limitaciones comentadas anteriormente (heterogeneidad en un propio distrito y cierta homogeneidad entre distritos), sí que se pueden describir algunos distritos en función de las características de sus pisos.

Por ejemplo, si se busca un piso con altura y con instalaciones, se recomienda comprar en Campanar, un distrito que se caracteriza por tener bloques de edificios y urbanizaciones en construcción. Por otro lado, si se quiere comprar un inmueble pequeño y sin emplear mucho dinero, se aconseja acudir a los distritos periféricos de Valencia. Si se busca una vivienda grande, con muchas habitaciones y sin apenas altura, se sugiere comprar en el centro de la ciudad (teniendo en cuenta que la vivienda tendrá un precio alto). Por último, si se quiere un piso sin ningún tipo de equipamiento y lo más barato posible, se tendría que ir a distritos como Poblats Marítims o Rascanya.

Se estudió la posibilidad de ver si existen reglas de asociación entre los inmuebles (individuos). Ello se debe a que al tener una base de datos con tantas variables binarias en los “complementos” de los pisos, se podría observar ciertos patrones. Por ejemplo, si un inmueble tuviera piscina, quizás también dispondría de jardín y aire acondicionado.

Se decidió realizar una predicción del precio por m² de los pisos de Valencia en función de las variables que tenemos en el conjunto de datos. Por ello, se eligió realizar un modelo PLS. Se descartó la posibilidad de llevar a cabo un PLS-DA o LDA dado que no se quería clasificar los individuos en distintas categorías de precios, sino intentar predecir el precio por m² aproximado.

El método PLS realizado ha concluido con resultados interesantes. Tras transformar Y y quitar los outliers, se ha obtenido un modelo PLS adecuado con 3 componentes que predice el precio por m² en base a las variables que tienen mayor poder discriminante anteriormente descritas.

Concluyendo, mediante los métodos previamente detallados se ha podido llevar a cabo los objetivos del proyecto. Se han podido definir las características que más influyen en el precio por m², se ha realizado una predicción de dicha variable a partir de las demás, se ha aclarado el tipo de pisos que contienen los distritos de Valencia y se ha comparado con la agrupación de los inmuebles según patrones de características similares.

8 Anexo

^{Figura 11. Histograma variable baños.}

^{Figura 12. Histograma variable habitaciones.}

	tipo	numNA	percNA
baños	numerical	1	0.04
jardin	binary	0	0.00
ascensor	binary	0	0.00
piscina	binary	0	0.00
terraza	binary	0	0.00
habitaciones	numerical	0	0.00
a_reformar	binary	0	0.00
tipo_vendedor	binary	0	0.00
distrito	categorical	0	0.00
armarios.empotrados	binary	0	0.00
acceso.adaptado	binary	0	0.00
aire.acondicionado	binary	0	0.00
balcon	binary	0	0.00
trastero	binary	0	0.00
garaje.incluido	binary	0	0.00
calefaccion	binary	0	0.00
planta	numerical	236	9.99
vistas	binary	493	20.87
variacion_precio	numerical	0	0.00
dias_venta	numerical	0	0.00
preciom2	numerical	0	0.00

^{Figura 13. Valores faltantes por variable.}

	num	perc
algirós	10	2.03
benicalap	32	6.49
benimaclet	8	1.62
camins al grau	13	2.64
campanar	21	4.26
ciutat vella	31	6.29
el pla del real	9	1.83
extramurs	22	4.46
jesús	24	4.87
l’eixample	37	7.51
l’olivereta	23	4.67
la saïdia	34	6.90
patraix	23	4.67
poblats marítims	86	17.44
pobles de l’oest	12	2.43
pobles del nord	4	0.81
pobles del sud	21	4.26
quatre carreres	51	10.34
rascanya	32	6.49
NA	0	0.00

^{Figura 14. Valores faltantes de vistas según distrito.}

	x
0	94
1	1775
NA’s	493

	x
0	111
1	2251

^{Figura 15. Resumen de la variable vistas antes y después de imputar.}

^{Figura 16. Boxplot variables baños y planta antes y después de imputar.}

	tipo	numNA	percNA
baños	numerical	0	0
jardin	binary	0	0
ascensor	binary	0	0
piscina	binary	0	0
terraza	binary	0	0
habitaciones	numerical	0	0
a_reformar	binary	0	0
tipo_vendedor	binary	0	0
distrito	categorical	0	0
armarios.empotrados	binary	0	0
acceso.adaptado	binary	0	0
aire.acondicionado	binary	0	0
balcon	binary	0	0
trastero	binary	0	0
garaje.incluido	binary	0	0
calefaccion	binary	0	0
planta	numerical	0	0
vistas	binary	0	0
variacion_precio	numerical	0	0
dias_venta	numerical	0	0
preciom2	numerical	0	0

^{Figura 17. Valores faltantes por variable tras imputación.}

^{Figura 18. Gráfico individuos por distrito dim 3y4 MCA.}

^{Figura 19. Gráfico individuos por distrito dim y 5 MCA.}

^{Figura 20. Gráfico individuos precio/m2 MCA.}

^{Figura 21. Gráfico individuos días venta MCA.}

^{Figura 22. Gráfico individuos variación precio MCA.}

^{Figura 23. Gráfico conrtibución variables dim 1-2-3-4-5 MCA.}

^{Figura 24. Gráfico conrtibución variables MCA.}

^{Figura 25. Gráfico variables top 10 cos2 MCA.}

^{Figura 26. Gráfico variables dim 1y2-1y3-4y5 MCA.}

^{Figura 27. Mapa de calor.}

^{Figura 28. Número óptimo clusters ward.}

	Test 1	Test 2	Test 3	Test 4	Test 5	Test 6	Test 7	Test 8	Test 9
cluster.number	2.00	3.00	4.00	5.00	6.00	7.00	8.00	9.00	10.00
n	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00
within.cluster.ss	86.58	76.25	69.72	64.56	59.54	56.71	54.04	51.63	49.36
average.within	0.25	0.23	0.22	0.21	0.20	0.20	0.19	0.18	0.18
average.between	0.31	0.32	0.30	0.30	0.30	0.30	0.29	0.29	0.29
wb.ratio	0.80	0.74	0.72	0.70	0.67	0.66	0.64	0.63	0.61
dunn2	1.17	0.99	0.89	0.84	0.84	0.84	0.70	0.72	0.72
avg.silwidth	0.19	0.16	0.14	0.14	0.14	0.13	0.12	0.13	0.12
Cluster- 1 size	1197.00	917.00	917.00	917.00	632.00	199.00	199.00	199.00	199.00
Cluster- 2 size	1165.00	280.00	280.00	280.00	280.00	433.00	433.00	433.00	168.00
Cluster- 3 size	0.00	1165.00	672.00	397.00	397.00	280.00	280.00	156.00	156.00
Cluster- 4 size	0.00	0.00	493.00	275.00	275.00	397.00	397.00	397.00	397.00
Cluster- 5 size	0.00	0.00	0.00	493.00	493.00	275.00	275.00	275.00	275.00
Cluster- 6 size	0.00	0.00	0.00	0.00	285.00	493.00	249.00	249.00	249.00
Cluster- 7 size	0.00	0.00	0.00	0.00	0.00	285.00	285.00	124.00	265.00
Cluster- 8 size	0.00	0.00	0.00	0.00	0.00	0.00	244.00	285.00	124.00
Cluster- 9 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	244.00	285.00
Cluster- 10 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	244.00

^{Figura 29. Resumen método ward.}

^{Figura 30. Número óptimo clusters media.}

	Test 1	Test 2	Test 3	Test 4	Test 5	Test 6	Test 7	Test 8	Test 9
cluster.number	2.00	3.00	4.00	5.00	6.00	7.00	8.00	9.00	10.00
n	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00
within.cluster.ss	107.15	91.13	86.93	86.42	86.12	85.46	85.20	84.60	81.78
average.within	0.28	0.26	0.25	0.25	0.25	0.25	0.25	0.25	0.24
average.between	0.39	0.38	0.38	0.38	0.38	0.37	0.37	0.37	0.37
wb.ratio	0.71	0.68	0.67	0.67	0.67	0.67	0.67	0.67	0.66
dunn2	1.41	1.36	1.25	1.28	1.27	1.25	1.24	1.25	1.28
avg.silwidth	0.28	0.23	0.20	0.18	0.16	0.13	0.11	0.11	0.10
Cluster- 1 size	2349.00	2112.00	2044.00	2044.00	2044.00	2035.00	2035.00	2035.00	2035.00
Cluster- 2 size	13.00	237.00	237.00	228.00	228.00	228.00	228.00	216.00	103.00
Cluster- 3 size	0.00	13.00	68.00	68.00	64.00	64.00	64.00	64.00	64.00
Cluster- 4 size	0.00	0.00	13.00	13.00	13.00	13.00	5.00	5.00	5.00
Cluster- 5 size	0.00	0.00	0.00	9.00	9.00	9.00	9.00	12.00	113.00
Cluster- 6 size	0.00	0.00	0.00	0.00	4.00	9.00	9.00	9.00	12.00
Cluster- 7 size	0.00	0.00	0.00	0.00	0.00	4.00	4.00	9.00	9.00
Cluster- 8 size	0.00	0.00	0.00	0.00	0.00	0.00	8.00	4.00	9.00
Cluster- 9 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	8.00	4.00
Cluster- 10 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	8.00

^{Figura 31. Resumen método media.}

^{Figura 32. Número óptimo clusters centroide.}

	Test 1	Test 2	Test 3	Test 4	Test 5	Test 6	Test 7	Test 8	Test 9
cluster.number	2.00	3.00	4.00	5.00	6.00	7.00	8.00	9.00	10.00
n	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00
within.cluster.ss	108.02	107.75	107.24	106.75	106.64	106.55	106.52	106.50	106.42
average.within	0.28	0.28	0.28	0.28	0.28	0.28	0.28	0.28	0.28
average.between	0.44	0.42	0.45	0.45	0.44	0.44	0.44	0.44	0.43
wb.ratio	0.64	0.66	0.63	0.62	0.63	0.64	0.64	0.64	0.65
dunn2	1.56	1.49	1.49	1.36	1.27	1.26	0.86	0.72	0.72
avg.silwidth	0.34	0.25	0.20	0.18	0.12	0.04	0.03	0.02	-0.04
Cluster- 1 size	2361.00	2359.00	2356.00	2353.00	2352.00	2351.00	2351.00	2351.00	2350.00
Cluster- 2 size	1.00	2.00	3.00	3.00	3.00	3.00	3.00	3.00	3.00
Cluster- 3 size	0.00	1.00	2.00	3.00	3.00	3.00	1.00	1.00	1.00
Cluster- 4 size	0.00	0.00	1.00	2.00	2.00	2.00	2.00	1.00	1.00
Cluster- 5 size	0.00	0.00	0.00	1.00	1.00	1.00	2.00	2.00	2.00
Cluster- 6 size	0.00	0.00	0.00	0.00	1.00	1.00	1.00	1.00	1.00
Cluster- 7 size	0.00	0.00	0.00	0.00	0.00	1.00	1.00	1.00	1.00
Cluster- 8 size	0.00	0.00	0.00	0.00	0.00	0.00	1.00	1.00	1.00
Cluster- 9 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	1.00	1.00
Cluster- 10 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	1.00

^{Figura 33. Resumen método centroide.}

^{Figura 34. Número óptimo clusters mediana.}

	Test 1	Test 2	Test 3	Test 4	Test 5	Test 6	Test 7	Test 8	Test 9
cluster.number	2.00	3.00	4.00	5.00	6.00	7.00	8.00	9.00	10.00
n	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00	2362.00
within.cluster.ss	108.05	107.33	107.16	106.70	106.51	106.48	106.42	106.37	106.31
average.within	0.28	0.28	0.28	0.28	0.28	0.28	0.28	0.28	0.28
average.between	0.40	0.45	0.39	0.38	0.38	0.38	0.38	0.38	0.38
wb.ratio	0.70	0.63	0.72	0.73	0.73	0.73	0.73	0.73	0.73
dunn2	1.43	1.44	1.06	1.03	1.06	0.89	0.89	0.89	0.89
avg.silwidth	0.28	0.23	-0.01	-0.06	-0.09	-0.15	-0.17	-0.19	-0.19
Cluster- 1 size	2361.00	2356.00	2352.00	2345.00	2345.00	2345.00	2345.00	2345.00	2345.00
Cluster- 2 size	1.00	5.00	4.00	7.00	5.00	5.00	4.00	4.00	4.00
Cluster- 3 size	0.00	1.00	5.00	4.00	4.00	4.00	4.00	4.00	4.00
Cluster- 4 size	0.00	0.00	1.00	5.00	2.00	1.00	1.00	1.00	1.00
Cluster- 5 size	0.00	0.00	0.00	1.00	5.00	5.00	5.00	4.00	2.00
Cluster- 6 size	0.00	0.00	0.00	0.00	1.00	1.00	1.00	1.00	2.00
Cluster- 7 size	0.00	0.00	0.00	0.00	0.00	1.00	1.00	1.00	1.00
Cluster- 8 size	0.00	0.00	0.00	0.00	0.00	0.00	1.00	1.00	1.00
Cluster- 9 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	1.00	1.00
Cluster- 10 size	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	1.00

^{Figura 35. Resumen método mediana.}

##      baños      jardin  ascensor piscina terraza  habitaciones   a_reformar
##  Min.   :1.00   0:541   0: 81    0:543   0:491   Min.   :1.000   0:509     
##  1st Qu.:1.00   1: 15   1:475    1: 13   1: 65   1st Qu.:3.000   1: 47     
##  Median :2.00                                    Median :3.000             
##  Mean   :1.75                                    Mean   :3.165             
##  3rd Qu.:2.00                                    3rd Qu.:4.000             
##  Max.   :8.00                                    Max.   :8.000             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 29         0:105               0:459           0: 82              0:  0  
##  2:527         1:451               1: 97           1:474              1:556  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta       vistas     cluster 
##  0:471    0:425           0:177       Min.   : 0.000   0: 24   Min.   :1  
##  1: 85    1:131           1:379       1st Qu.: 2.000   1:532   1st Qu.:1  
##                                       Median : 4.000           Median :1  
##                                       Mean   : 3.892           Mean   :1  
##                                       3rd Qu.: 5.000           3rd Qu.:1  
##                                       Max.   :17.000           Max.   :1

^{Figura 36. Resumen cluster 1.}

##      baños      jardin  ascensor piscina terraza  habitaciones  a_reformar
##  Min.   :1.00   0:469   0: 44    0:467   0:327   Min.   :1.00   0:445     
##  1st Qu.:1.00   1: 11   1:436    1: 13   1:153   1st Qu.:2.00   1: 35     
##  Median :2.00                                    Median :3.00             
##  Mean   :1.85                                    Mean   :3.04             
##  3rd Qu.:2.00                                    3rd Qu.:4.00             
##  Max.   :5.00                                    Max.   :8.00             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 24         0: 94               0:363           0: 55              0:480  
##  2:456         1:386               1:117           1:425              1:  0  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta      vistas     cluster 
##  0:417    0:381           0: 85       Min.   : 0.00   0: 29   Min.   :2  
##  1: 63    1: 99           1:395       1st Qu.: 1.00   1:451   1st Qu.:2  
##                                       Median : 3.00           Median :2  
##                                       Mean   : 3.56           Mean   :2  
##                                       3rd Qu.: 5.00           3rd Qu.:2  
##                                       Max.   :18.00           Max.   :2

^{Figura 37. Resumen cluster 2.}

##      baños       jardin  ascensor piscina terraza  habitaciones   a_reformar
##  Min.   :1.000   0:229   0: 25    0:228   0: 58   Min.   :1.000   0:195     
##  1st Qu.:1.000   1:  5   1:209    1:  6   1:176   1st Qu.:3.000   1: 39     
##  Median :2.000                                    Median :3.000             
##  Mean   :1.885                                    Mean   :3.462             
##  3rd Qu.:2.000                                    3rd Qu.:4.000             
##  Max.   :5.000                                    Max.   :8.000             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 21         0: 53               0: 34           0:154              0: 50  
##  2:213         1:181               1:200           1: 80              1:184  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta       vistas     cluster 
##  0:196    0:176           0: 51       Min.   : 0.000   0: 11   Min.   :3  
##  1: 38    1: 58           1:183       1st Qu.: 2.000   1:223   1st Qu.:3  
##                                       Median : 4.000           Median :3  
##                                       Mean   : 3.983           Mean   :3  
##                                       3rd Qu.: 6.000           3rd Qu.:3  
##                                       Max.   :18.000           Max.   :3

^{Figura 38. Resumen cluster 3.}

##      baños       jardin  ascensor piscina terraza  habitaciones  a_reformar
##  Min.   :1.000   0:475   0:  0    0:467   0:381   Min.   :1.00   0:422     
##  1st Qu.:1.000   1: 20   1:495    1: 28   1:114   1st Qu.:3.00   1: 73     
##  Median :2.000                                    Median :3.00             
##  Mean   :1.628                                    Mean   :3.17             
##  3rd Qu.:2.000                                    3rd Qu.:4.00             
##  Max.   :6.000                                    Max.   :9.00             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 25         0:411               0:437           0:417              0:368  
##  2:470         1: 84               1: 58           1: 78              1:127  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta      vistas     cluster 
##  0:449    0:421           0:405       Min.   : 0.00   0: 26   Min.   :4  
##  1: 46    1: 74           1: 90       1st Qu.: 2.00   1:469   1st Qu.:4  
##                                       Median : 3.00           Median :4  
##                                       Mean   : 3.36           Mean   :4  
##                                       3rd Qu.: 4.00           3rd Qu.:4  
##                                       Max.   :18.00           Max.   :4

^{Figura 39. Resumen cluster 4.}

##      baños       jardin  ascensor piscina terraza  habitaciones    a_reformar
##  Min.   :1.000   0:434   0:444    0:443   0:367   Min.   : 1.000   0:367     
##  1st Qu.:1.000   1: 10   1:  0    1:  1   1: 77   1st Qu.: 2.000   1: 77     
##  Median :1.000                                    Median : 3.000             
##  Mean   :1.196                                    Mean   : 2.721             
##  3rd Qu.:1.000                                    3rd Qu.: 3.000             
##  Max.   :5.000                                    Max.   :12.000             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 14         0:379               0:426           0:376              0:350  
##  2:430         1: 65               1: 18           1: 68              1: 94  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta      vistas     cluster 
##  0:423    0:436           0:302       Min.   :0.000   0: 20   Min.   :5  
##  1: 21    1:  8           1:142       1st Qu.:1.000   1:424   1st Qu.:5  
##                                       Median :3.000           Median :5  
##                                       Mean   :2.655           Mean   :5  
##                                       3rd Qu.:4.000           3rd Qu.:5  
##                                       Max.   :7.000           Max.   :5

^{Figura 40. Resumen cluster 5.}

##      baños       jardin  ascensor piscina terraza  habitaciones   a_reformar
##  Min.   :1.000   0: 47   0: 24    0: 41   0: 22   Min.   :1.000   0:150     
##  1st Qu.:2.000   1:106   1:129    1:112   1:131   1st Qu.:3.000   1:  3     
##  Median :2.000                                    Median :3.000             
##  Mean   :2.464                                    Mean   :3.431             
##  3rd Qu.:3.000                                    3rd Qu.:4.000             
##  Max.   :6.000                                    Max.   :8.000             
##  tipo_vendedor armarios.empotrados acceso.adaptado aire.acondicionado balcon 
##  1: 18         0: 20               0:97            0: 22              0:114  
##  2:135         1:133               1:56            1:131              1: 39  
##                                                                              
##                                                                              
##                                                                              
##                                                                              
##  trastero garaje.incluido calefaccion     planta       vistas     cluster 
##  0: 46    0: 22           0: 44       Min.   : 0.000   0:  1   Min.   :6  
##  1:107    1:131           1:109       1st Qu.: 2.000   1:152   1st Qu.:6  
##                                       Median : 3.000           Median :6  
##                                       Mean   : 4.549           Mean   :6  
##                                       3rd Qu.: 7.000           3rd Qu.:6  
##                                       Max.   :17.000           Max.   :6

^{Figura 41. Resumen cluster 6.}

^{Figura 42. Gráfico clustering k-medoides.}

^{Figura 43. Gráficos clusters según distritos}

	num1	perc1
algirós	26	4.6762590
benicalap	11	1.9784173
benimaclet	6	1.0791367
camins al grau	24	4.3165468
campanar	18	3.2374101
ciutat vella	74	13.3093525
el pla del real	23	4.1366906
extramurs	39	7.0143885
jesús	38	6.8345324
l’eixample	69	12.4100719
l’olivereta	15	2.6978417
la saïdia	23	4.1366906
patraix	51	9.1726619
poblats marítims	56	10.0719424
pobles de l’oest	3	0.5395683
pobles del sud	8	1.4388489
quatre carreres	42	7.5539568
rascanya	30	5.3956835

^{Figura 44. Cluster 1. Porcentaje viviendas vendidas por distrito.}

	num2	perc2
algirós	11	2.291667
benicalap	9	1.875000
benimaclet	5	1.041667
camins al grau	19	3.958333
campanar	15	3.125000
ciutat vella	74	15.416667
el pla del real	32	6.666667
extramurs	57	11.875000
jesús	11	2.291667
l’eixample	69	14.375000
l’olivereta	16	3.333333
la saïdia	17	3.541667
patraix	30	6.250000
poblats marítims	60	12.500000
pobles de l’oest	5	1.041667
pobles del sud	10	2.083333
quatre carreres	31	6.458333
rascanya	9	1.875000

^{Figura 45. Cluster 2. Porcentaje viviendas vendidas por distrito.}

	num3	perc3
algirós	6	2.5641026
benicalap	5	2.1367521
benimaclet	4	1.7094017
camins al grau	10	4.2735043
campanar	8	3.4188034
ciutat vella	27	11.5384615
el pla del real	14	5.9829060
extramurs	19	8.1196581
jesús	11	4.7008547
l’eixample	28	11.9658120
l’olivereta	12	5.1282051
la saïdia	10	4.2735043
patraix	21	8.9743590
poblats marítims	25	10.6837607
pobles de l’oest	1	0.4273504
pobles del nord	1	0.4273504
pobles del sud	8	3.4188034
quatre carreres	12	5.1282051
rascanya	12	5.1282051

^{Figura 46. Cluster 3. Porcentaje viviendas vendidas por distrito.}

	num4	perc4
algirós	17	3.4343434
benicalap	25	5.0505051
benimaclet	2	0.4040404
camins al grau	20	4.0404040
campanar	15	3.0303030
ciutat vella	34	6.8686869
el pla del real	7	1.4141414
extramurs	35	7.0707071
jesús	31	6.2626263
l’eixample	38	7.6767677
l’olivereta	27	5.4545455
la saïdia	36	7.2727273
patraix	39	7.8787879
poblats marítims	56	11.3131313
pobles de l’oest	5	1.0101010
pobles del nord	3	0.6060606
pobles del sud	17	3.4343434
quatre carreres	42	8.4848485
rascanya	46	9.2929293

^{Figura 47. Cluster 4. Porcentaje viviendas vendidas por distrito.}

	num5	perc5
algirós	4	0.9009009
benicalap	34	7.6576577
benimaclet	9	2.0270270
camins al grau	14	3.1531532
campanar	8	1.8018018
ciutat vella	22	4.9549550
el pla del real	1	0.2252252
extramurs	15	3.3783784
jesús	30	6.7567568
l’eixample	14	3.1531532
l’olivereta	34	7.6576577
la saïdia	29	6.5315315
patraix	18	4.0540541
poblats marítims	98	22.0720721
pobles de l’oest	10	2.2522523
pobles del nord	1	0.2252252
pobles del sud	20	4.5045045
quatre carreres	33	7.4324324
rascanya	50	11.2612613

^{Figura 48. Cluster 5. Porcentaje viviendas vendidas por distrito.}

	num6	perc6
benicalap	21	13.7254902
camins al grau	5	3.2679739
campanar	39	25.4901961
ciutat vella	3	1.9607843
el pla del real	8	5.2287582
extramurs	6	3.9215686
jesús	2	1.3071895
l’eixample	7	4.5751634
la saïdia	1	0.6535948
patraix	1	0.6535948
poblats marítims	17	11.1111111
pobles de l’oest	2	1.3071895
pobles del nord	1	0.6535948
pobles del sud	10	6.5359477
quatre carreres	18	11.7647059
rascanya	12	7.8431373

^{Figura 49. Cluster 6. Porcentaje viviendas vendidas por distrito.}

	1	2	3	4	5	6
algirós	26	11	6	17	4	0
benicalap	11	9	5	25	34	21
benimaclet	6	5	4	2	9	0
camins al grau	24	19	10	20	14	5
campanar	18	15	8	15	8	39
ciutat vella	74	74	27	34	22	3
el pla del real	23	32	14	7	1	8
extramurs	39	57	19	35	15	6
jesús	38	11	11	31	30	2
l’eixample	69	69	28	38	14	7
l’olivereta	15	16	12	27	34	0
la saïdia	23	17	10	36	29	1
patraix	51	30	21	39	18	1
poblats marítims	56	60	25	56	98	17
pobles de l’oest	3	5	1	5	10	2
pobles del nord	0	0	1	3	1	1
pobles del sud	8	10	8	17	20	10
quatre carreres	42	31	12	42	33	18
rascanya	30	9	12	46	50	12

^{Figura 50. Número viviendas vendidas por distrito y cluster.}

^{Figura 51. R2 y Q2 modelo PLS.}

^{Figura 52. Gráfico x-score (t) PLS.}

^{Figura 53. Gráfico x-score (t) PLS por distrito.}

^{Figura 54. Gráficos scr x-y y T2 Hotelling x-y.}

	R2X(cum)	R2Y(cum)	Q2(cum)	RMSEE	pre	ort	pR2Y	pQ2
Total	0.27	0.382	0.359	0.366	3	0	0.05	0.05

	R2X	R2X(cum)	R2Y	R2Y(cum)	Q2	Q2(cum)	Signif.	Iter.
p1	0.1530	0.153	0.2980	0.298	0.29400	0.294	R1	1
p2	0.0568	0.210	0.0721	0.370	0.08860	0.356	R1	1
p3	0.0597	0.270	0.0120	0.382	0.00387	0.359	R1	1

^{Figura 55. Resumen modelo final PLS.}

^{Figura 56. Gráficos x-loading (p) PLS.}

^{Figura 57. Gráficos correlación PLS.}

^{Figura 58. Gráfico predict-train PLS.}

^{Figura 59. Gráfico residuos por distrito.}

Análisis de la venta de pisos en la ciudad de Valencia

GRUPO 0 MDP I. Grado en Ciencia de Datos. ETSINF UPV.

Eva Cantín Larumbe, Adriana Chust Vendrell, Belén Inglés Granero y Andrea Sancho González

03 jul. 2022