1 Introducción

El objetivo del presente informe es estimar las posibles caídas de precios en el sector inmobiliario residencial a 3 años vista.

Para ello se dispone tanto de información oficial como propia, referida a viviendas plurifamiliares repartidas por todo el ámbito nacional.

La metodología empleada se basa en los reconocidos modelos ARIMA, a los que se ha aplicado alguna ligera modificación para incorporar elementos distintivos del mercado inmobiliario.

Como resultado, se ha obtenido la estimación del factor hipotecario a 3 años vista y a nivel de sección censal.

En los siguientes apartados se resumen las fuentes de información, la metodología, los principales resultados obtenidos y la organización del análisis en diferentes scripts y conjuntos de datos.

2 Fuentes de información

Para la elaboración del presente informe se han empleado diferentes proveedores de información.

  • Ministerio de Transportes, Movilidad y Agenda Urbana. Se ha empleado la estadística sobre el valor tasado de la vivienda libre, información con frecuencia trimestral desde el año 1995 y que viene desglosada a nivel provincial. El Ministerio también publica la estadística para municipios mayores de 25.000 habitantes. Sin embargo, al quedar fuera todos los municipios por debajo de ese umbral, se ha buscado otra opción para incluir un mayor número de municipios posible ya que el objetivo es poder calcular el factor hipotecario de cualquier inmueble, con independencia de su localización. Además, la estadística municipal sólo se reporta desde el año 2005, lo que limita el tamaño de las series temporales frente a la estadística a nivel provincial, de la que se tienen datos desde 1995. Los datos del Ministerio se encuentran resumidos en la hoja de cálculo “fomento_precio_unitario_vivienda_libre.xlsx”.

  • Idealista / Parsebox. Ambos proveedores han servido para recopilar información sobre valores de oferta en vivienda residencial plurifamiliar. Los datos de Idealista reflejan las ofertas publicadas en dicho portal inmobiliario, desde el primer trimestre de 2018 (2018T1). Con posterioridad a la contratación de este servicio, se amplió el número de portales inmobiliarios a través del proveedor Parsebox. De esta forma, se han podido combinar ambas fuentes de información para poder conocer, a partir de 2018T1, los valores de oferta de viviendas plurifamiliares a nivel de sección censal. Esto ha permitido poder aplicar un enfoque más detallado de la evolución de los precios inmobiliarios, de forma que los datos provinciales publicados por el Ministerio se han podido completar a nivel municipal y de sección censal a partir de la fecha 2018T1.

  • Instituto Nacional de Estadística (INE). Se ha empleado la representación geográfica de las secciones censales correspondiente al año 2021. En total, los datos del INE reflejan los polígonos definidos por 36.334 secciones censales que, a su vez, se agrupan en 10.479 distritos censales. Es precisamente la distribución en distritos censales la que se ha aplicado para el cálculo del factor hipotecario.

  • Unica360. De este proveedor se ha empleado la tabla urbanidad, que incorpora una serie de variables informativas sobre el distinto grado de urbanidad/ruralidad de diferentes zonas geográficas. La información se provee a varios niveles: bien a través de cuadrículas de \(100×100\) m2 que cubren todo el territorio nacional, o bien mediante la agregación de las mismas a nivel de sección censal. Es precisamente esta última la empleada en el presente informe.

3 Depuración de datos

En los portales inmobiliarios suele ser habitual encontrar un elevado porcentaje de inmuebles repetidos. La duplicidad de ofertas en la base de datos puede generar un sesgo importante, sobre todo en los distritos censales donde el número de testigos pueda ser escaso y unos pocos inmuebles duplicados puedan afectar a los valores promedio empleados en cálculos posteriores.

Para detectar y eliminar inmuebles repetidos se ha hecho uso de la técnica Dynamic Time Warping (DTW), que permite precisar la similitud entre dos testigos atendiendo a las características que los definen (precio, superficie, número de dormitorios, etc.). La técnica DTW se ha aplicado sobre los distritos, lo que acota el número de comparaciones a realizar entre los testigos y permite llevar a cabo el análisis con un coste computacional razonable.

Además de eliminar duplicados, también se han suprimido los inmuebles considerados atípicos o outliers. Para ello se ha seguido un doble proceso de eliminación. En el primero, han quedado fuera del análisis los inmuebles con una superficie construida por debajo de los 30 m2 y los que excedían los 500 m2; también los ofertados por menos de 30.000 € y los que superan los 5.000.000 €; y, finalmente, aquellos inmuebles para los que no ha podido determinarse la fecha de oferta o que no tienen asignada una sección censal. En un segundo paso, se ha seguido el procedimiento empleado por la consultora AIS para la detección y eliminación de atípicos, que elimina inmuebles que se alejan de la hipotética recta de regresión obtenida entre el precio de oferta y el área construida. A este respecto, el número de inmuebles eliminados es relativamente pequeño, ya que el primer filtro hace que muchos de los inmuebles con una relación entre precio y superficie anómala, queden eliminados en un primer paso, con lo que ya no aparecen al aplicar el filtro de AIS.

4 Agrupación geográfica en zonas de valor, a nivel de distrito censal

Como se ha comentado con anterioridad, el presente informe pretende extender el análisis del factor hipotecario a un nivel de detalle más pormenorizado que el provincial. Tampoco se quiere limitarlo al de municipios con una población superior a los 25.000 habitantes, porque dejaría fuera la mayor parte de los municipios españoles.

Es por ello que se ha adoptado un enfoque donde la unidad geográfica de medida ha sido el distrito censal. La agrupaión de algunos de estos distritos en uno de entidad superior, o la consideranción de los distritos individuales cuando por tamaño tienen entidad suficiente, se ha venido a denominar área de valor. Esto permite tener en muchos casos un número suficiente de ofertas publicadas por los portales inmobiliarios, de forma que sea factible realizar un análisis estadístico de dichos distritos censales por encontrar un número elevado de ofertas. En otros casos, sobre todo en municipios de interior, no se ha podido encontrar un número adecuado de ofertas. En otros, ni tan siquiera se ha registrado ninguna oferta durante todo el periodo analizado.

Esta heterogeneidad en cuanto a la distribución de las ofertas inmobiliarias en los distritos censales hace que su análisis estadístico no pueda llevarse a cabo de forma uniforme, sino que sea necesario realizar un preprocesamiento de los distritos censales antes de obtener una estadística sobre la evolución de los precios en los mismos.

El tratamiento de los distritos censales se ha llevado a cabo diferenciando entre distritos grandes y distritos pequeños.

4.1 Distritos grandes

Se ha considerado que un distrito es grande cuando, en promedio, se han registrado al menos 50 ofertas inmobiliarias en promedio por trimestre, desde 2018T1. Éste es el umbral mínimo considerado para, posteriormente, poder obtener una serie de precios unitarios con suficiente significatividad estadística, y sin que unos pocos datos puedan afectar de forma signficativa a la evolución del precio a lo largo de la serie histórica.

Por contra, un distrito se ha considerado pequeño cuando no ha llegado al umbral establecido de 50 ofertas en promedio por trimestre. En ese caso, no ha parecido razonable establecer una serie histórica de precios unitarios, ya que nos encontramos con casuísticas muy variadas donde la presencia o ausencia de algunos inmuebles hace que la serie presente movimientos muy bruscos en el precio unitario, sin que dicha volatilidad se pueda entender que refleje de forma objetiva la evolución del mercado inmobiliario en esas zonas.

Por lo tanto, así como los distritos grandes pueden considerarse como una unidad geográfica mínima y adecuada para estimar una serie de precios unitarios, en los distritos pequeños no puede aseverarse lo mismo, lo que hace que deban recibir un tratamiento diferente al empleado con los distritos grandes.

En este punto conviene reseñar que un municipio puede tener únicamente distritos grandes, únicamente distritos pequeños o, como ocurre en muchos casos, una combinación de ambos. Desde un punto de vista estadístico, se ha constatado que aproximadamente el 90% de las ofertas de inmuebles se concentran en distritos grandes, mientras que algo menos del 50% de los distritos pequeños no han registrado ninguna oferta desde 2018T1.

Una posibilidad es que todos los distritos sean grandes (>= 50 ofertas en promedio por trimestre). Esto es lo que ocurre, por ejemplo, en los dos distritos de San Juan de Alicante, de los que reproducimos sólo unos trimestres por cuestiones de espacio:

1T2019 2T2019 3T2019 4T2019 1T2020 2T2020 3T2020 4T2020
0311901 363 426 297 387 398 335 340 355
0311902 207 194 130 180 182 189 211 225

Pero también puede ocurrir que en una ciudad grande se alternen tanto distritos grandes como pequeños. Un ejemplo sería la ciudad de Alcoy, con un total de 8 distritos:

1T2019 2T2019 3T2019 4T2019 1T2020 2T2020 3T2020 4T2020
0300901 80 73 61 84 69 62 61 51
0300902 54 77 44 53 47 49 54 58
0300903 53 77 44 50 42 37 34 30
0300904 52 64 52 68 56 52 49 53
0300905 42 45 29 32 29 35 43 40
0300906 49 62 43 55 52 54 51 33
0300907 46 58 24 31 30 26 32 24
0300908 55 72 33 44 41 48 38 39

Los distritos “0300903”, “0300905”, “0300906”, “0300907” y “0300908” no consiguen alcanzar un promedio de 50 testigos por trimestre para todo el periodo de análisis, por lo que se consideran pequeños y no son, por sí mismos, autosuficientes como para poder configurar una serie de precios:

A continuación se explica el procedimiento seguido para tratar las diferentes casuísticas que podemos encontrar:

  1. Los distritos pequeños intentan alcanzar el mínimo de testigos necesarios para convertirse en distritos grandes, bien uniéndose entre ellos o bien uniéndoe a otros distritos grandes para conformar una unión de distritos (macro-distrito). La unión de distritos debe venir avalada por una similitud en los precios unitarios históricos registrados, no debiendo unirse distritos cuyos precios son claramente muy diferentes.

  2. Cuando algún distrito pequeño no haya podido unirse a otros en su objetivo de alcanzar el tamaño mínimo exigido, se le continúa considerando distrito pequeño, pasando a ser evaluado en la siguiente fase exclusiva de los distritos pequeños.

Siguiendo con el ejemplo de Alcoy, la siguiente figura representa el rango de precios por metro cuadrado en los diferentes distritos de la ciudad. Cada punto de las líneas verticales representa el precio por metro cuadrado mediano en un trimestre determinado (12 puntos por los 12 trimestres del periodo 1T2018-4T2020). Una línea vertical muy extensa implica que ha habido una gran variación en los precios unitarios medianos del distrito durante el periodo analizado (ejemplo distrito “0300903”), mientras que si la linea vertical es corta se trataría de un distrito con baja volatilidad en precios durante ese periodo (ejemplo distrito “0300905”).

El color rojo se corresponde a los distritos grandes, mientras que con color azul se representan los distritos pequeños. Por lo tanto, para el caso de Alcoy tenemos 3 distritos que son considerados distritos grandes (“0300901”, “0300902”, “0300904”), y el cálculo del factor de actualización se puede realizar directamente sobre sus testigos, sin necesidad de unirlos a otros distritos. Los distritos “0300903”, “0300905”, “0300906”, “0300907” y “0300908” son distritos pequeños, por lo que tienen las siguientes opciones:

  • Unirse varios de ellos entre sí para alcanzar el umbral mínimo de testigos y conseguir la consideración de distrito grande.

  • Unirse a algún distrito grande, y de esta forma conseguir automáticamente la consideración de distrito grande a través de dicha unión.

  • Caso de no poder aplicar ninguna de las anteriores uniones, porque sencillamente sus precios son muy diferentes de sus potenciales parejas, mantener su consideración de distrito pequeño para poder obtener una serie de precios significativa en la siguiente parte del análisis (la dedicada en exclusiva a distritos pequeños).

En la anterior figura, tal y como se ha comentado con anterioridad, cada uno de los puntos representados en las rectas verticales representa el precio unitario medio de un trimestre. Por lo tanto, los distritos con un rango pequeño de su recta, implican poca variabilidad en los precios durante el periodo analizado (por ejemplo, el distrito 4 de Alcoy); otros distritos presentan un rango mucho mayor, lo que supone que sus precios unitarios medios han presentado alta volatilidad durante ese periodo. Lógicamente, esto puede ser mucho más habitual en los distritos con escasas ofertas de inmuebles, donde los precios unitarios pueden variar mucho de un trimestre a otro, simplemente porque no se ha alcanzado un número mínimo significativo de ofertas.

¿Qué condición debe cumplirse para que dos distritos puedan unirse? Para la unión de distritos se ha exigido un solapamiento del rango de precios unitarios de al menos el 80%.

El solapamiento de precios entre dos distritos se hace configurando un nuevo distrito hipotético cuyos límites de precios mínimo y máximo coincidan con los precios mínimo y máximo observados, respectivamente, en los distritos originales. En la siguiente imagen se presenta un ejemplo de solapamiento obtenido entre dos distritos. Las líneas verticales continuas representan el rango de precios de los distritos A (máximo 200.000 €, mínimo 110.000 €) y B (máximo 150.000 €, mínimo 100.000 €), mientras que la línea discontinua se obtendría uniendo el máximo y mínimo observado en los precios de los distritos (máximo 200.000 €, mínimo 100.000 €). Posteriormente, se calcula el solapamiento entre los precios originales de los distritos y los precios del nuevo distrito. El solapamiento de A es de un 90% mientras que el de B es del 50%, lo que hace un promedio del 70%. Por lo tanto, atendiendo al umbral mínimo establecido en el 80%, estos dos distritos no se podrían unir.

Siguiendo con el ejemplo de Alcoy, en la siguiente tabla se representan los precios del metro cuadrado medianos junto con el número de testigos de cada uno de los 8 distritos en que se divide la ciudad, y que son los que sirven de base para poder calcular el porcentaje de solapamiento para cada uno de los posibles pares de distritos. Como tenemos 8 distritos, el número potencial de posibles parejas es de \(\frac{8 \times 7}{2}=28\). Además, leemos los puntos que determinan cada distrito censal para poder determinar, en un paso posterior, qué distritos son colidantes y cuáles no.

distrito min_precios max_precios n_testigos_total
0300901 718.0645 876.4706 541
0300902 691.6667 893.9320 436
0300903 635.9649 774.1573 367
0300904 617.5824 683.0417 446
0300905 631.3906 851.8519 295
0300906 666.6667 840.0000 399
0300907 595.5978 828.4314 271
0300908 580.4598 865.9794 370

Las siguientes 3 tablas muestran el proceso iterativo por el cual se van uniendo 1) los distritos pequeños entre sí, o 2) un distrito pequeño a otro distrito grande.

Por ejemplo, en la primera iteración se identifican hasta 7 parejas de distritos con un solapamiento igual o por encima del 80%. Nótese como únicamente aparecen las parejas donde al menos uno de los distritos ha sido calificado como pequeño (no tendría interés unir dos distritos grandes). Además, y gracias a las coordenadas de estos distritos, se determina cuáles de ellos son vecinos. Por ejemplo, los distritos 7 y 8 son colindantes, por lo que la variable \(vecindad\) toma valor \(TRUE\). Sin embargo, los distritos 4 y 7 no son colindantes, por lo que la variable \(vecindad\) toma valor \(FALSE\).

¿Cómo se realiza el proceso de unión entre distritos?

En primer lugar, se priorizan los distritos que son vecinos frente a los que no lo son. Esto es, si tenemos dos parejas candidatas a unirse y con un mismo valor de solapamiento, se escoge aquella pareja donde los distritos son vecinos entre sí. Una vez ordenados por vecindad, se emplea el grado de solapamiento como segundo criterio de ordenación. De esa forma, la pareja de distritos “0300907” y “0300908” es la primera candidata a constituir un nuevo macro-distrito: ambos distritos son vecinos entre sí, y además obtienen el mayor grado de solapamiento.

Por lo tanto, la primera iteración habría generado un nuevo macro-distrito. La consecuencia es tener que recalcular los precios mínimo y máximo de cada distrito, puesto que las nuevas combinaciones van a afectar a la tabla original de precios medianos por trimestre. Hay que tener en cuenta que al unir dos distritos, los precios del metro cuadrado mediano de cada trimestre no se pueden calcular directamente sobre los máximo y mínimos previos de cada distrito, sino que hay que mezclar los testigos de ambos distritos y recalcular los nuevos precios, junto con sus máximos y mínimos que permiten recalcular los solapamientos.

En la segunda iteración, se comprueba que el distrito “0300905” y el “0300906” cumplen las condiciones para generar un nuevo macro-distrito, que será el último en generarse en este iteración.

Tras recalcular nuevamente los rangos de precios unitarios, el último gran distrito se crea uniendo el anterior “0300905-0300906” con el distrito “0300903”.

Ya no quedan más distritos pequeños que unir, por lo que el proceso finalizaría y podríamos observar los nuevos precios medianos correspondientes a la nueva ordenación de distritos. Se comprueba en la tabla como cada distrito supera el mínimo de testigos requeridos para que el distrito se considere grande, y como en la figura todos los distritos se dibujan en color rojo, que es el asignado a los distritos grandes.

## 
## 
## |distrito1 |distrito2 | solapamiento|vecindad |
## |:---------|:---------|------------:|:--------|
## |0300907   |0300908   |    0.9077365|TRUE     |
## |0300905   |0300906   |    0.8931152|TRUE     |
## |0300905   |0300908   |    0.8860703|TRUE     |
## |0300906   |0300907   |    0.8309396|TRUE     |
## |0300906   |0300908   |    0.8035402|TRUE     |
## |0300905   |0300907   |    0.8844638|FALSE    |
## |0300902   |0300906   |    0.8263440|FALSE    |
## |0300903   |0300905   |    0.8134165|FALSE    |
## |0300902   |0300905   |    0.8050665|FALSE    |
## 
## 
## |distrito1 |distrito2       | solapamiento|vecindad |
## |:---------|:---------------|------------:|:--------|
## |0300905   |0300906         |    0.8931152|TRUE     |
## |0300905   |0300907-0300908 |    0.8860703|FALSE    |
## |0300902   |0300906         |    0.8263440|FALSE    |
## |0300903   |0300905         |    0.8134165|FALSE    |
## |0300902   |0300905         |    0.8050665|FALSE    |
## |0300906   |0300907-0300908 |    0.8035402|FALSE    |
## 
## 
## |distrito1 |distrito2       | solapamiento|vecindad |
## |:---------|:---------------|------------:|:--------|
## |0300903   |0300905-0300906 |    0.8134165|FALSE    |
distrito min_precios max_precios n_testigos_total
0300901 718.0645 876.4706 541
0300902 691.6667 893.9320 436
0300903-0300905-0300906 633.6364 796.2264 1061
0300904 617.5824 683.0417 446
0300907-0300908 604.1667 781.9293 641

4.2 Distritos pequeños

En esta sección se tratan todos los distritos pequeños ubicados en localidades donde no hubo ningún distrito grande (municipios definidos como pequeños), así como todos los distritos pequeños que no lograron unirse a ninguno grande en el paso anterior.

Por ejemplo, si en el caso de Alcoy hubiera quedado algún distrito pequeño sin unir, se trataría en este apartado.

El objetivo de esta sección es poder unir distritos pequeños entre sí, con independencia de que pertenezcan a municipios que puedan estar muy distantes entre sí, pero respetando la restricción de que los distritos a unir deben pertenecer a una misma provincia. Es decir, se busca unir distritos pequeños en lo que originará nuevos macro-distritos, pero siempre limitando las uniones a municipios pertenecientes a la provincia que se esté tratando.

Así como en el paso anterior la unión de distritos se realizó atendiendo a la similitud de precios observada entre ellos, en el caso de los distritos pequeños nos encontramos con situaciones donde bien tenemos muy pocos testigos, o incluso donde no tenemos ningún testigo.

Por lo tanto, la unión de distritos emplea otras variables para determinar el grado de semejanza entre los distritos. Con este fin, se ha llevado a cabo una análisis de las variables proporcionadas por Unica360. Algunas de estas variables están enfocadass al análisis de poblaciones grandes, mientras que la mayor parte de los distritos pequeños se ubican en zonas rurales o de densidad poblacional muy baja. Es por ello que la elección de variables se ha centrado en aquellas focalizadas al análisis de zonas rurales, todas ellas de la tabla \(urbanidad\).

Esto ha permitido poder unificar distritos con características similares en cuanto a la urbanidad, bajo la hipótesis de que los precios pueden seguir una evolución similar en aquellas zonas en las que la urbanidad es similar. Para hacer el análisis más detallado, se ha llevado a cabo un análisis cluster a nivel provincial, de forma que los distritos unidos por su urbanidad tengan un número mínimo de ofertas para que la estadística sobre la evolución del precio sea significativa.

5 Estimación del precio a 3 años vista

Una vez identificadas las zonas o áreas de valor que servirán de base para la estimación del precio de la vivienda residencial a 3 años, toca definir cómo realizar ese proceso de estimación.

El punto de partida son los precios oficiales de vivienda residencial, serie de la que se publica información con carácter trimestral desde 1995 a nivel provincial.

5.1 Series de precios oficiales a nivel provincial

Esta serie de precios presenta la ventaja de tener una fuente oficial, y por lo tanto sus valores se han obtenido de forma rigurosa. Además, la serie es lo suficientemente profunda para poder aplicar alguna metodología econométrica, ya que se cuenta con más de 100 observaciones del precio para cada una de las provincias españolas. Si bien este tamaño se puede considerar adecuado para aplicar un enfoque econométrico, la serie se queda corta para poder pensar en tratarle con alguna técnica más reciente de inteligencia artificial.

Pese a las ventajas comentadas en el anterior párrafo, también deben destacarse algunas limitaciones. La primera es que el nivel de detalle de la serie se queda en el ámbito provincial. Lógicamente, no parece razonable pensar que la evolución del precio en los inmuebles residenciales ha de ser igual para todos los municipios de una provincia; o incluso que dentro de un municipio todas las viviendas vayan a tener la misma evolución en el precio a 3 años vista.

Otro inconveniente es que el Ministerio no reporta en todos los trimestres información sobre alguna provincia. Esto es debido a que en ocasiones las tasaciones, que es el dato del que se nutre el Ministerio para realizar las series, se producen en un número tan escaso que no resulta significativo.

Además, también se observa cómo el precio presenta, en algunas casos, oscilaciones que visiblemente se alejan de la lógica económica. A modo de ejemplo ilustratio, encontramos cómo el precio de la vivienda residencial en la provincia de Albacete comenzó a caer con posterioridad a 2007. Sin embargo, no lo hizo de forma continua durante los años siguientes, sino que al poco de pinchar la burbuja inmobiliaria la serie nos indica una recuperación significativa en el precio durante al menos varios trimestres. Este comportamiento no se observa, sin embargo, en otras provincias, y aún menos a nivel nacional. Pensamos que se trata, sin duda, de una anomalía estadística producida, probablmente, por la aparición de algunos inmuebles con un valor de tasación anormalmente alto. Esta circunstancia se da, sobre todo, en provincias con un número reducido de tasaciones, por lo que unas pocas pueden afectar de forma significativa a los valores medios observados en la serie.

Analizando las series provinciales, podemos destacar un aumento paulatino en precios, generalizado a partir de los años 2012 y 2013; si bien en la mayor parte de los casos los precios se sitúan aún lejos de los máximos de 2007. También son llamativas algunas provincias donde el precio aún no ha detenido su caída desde el pinchazo de la burbuja, y continúa en senda bajista aunque de forma moderada.

Serie de precios oficinales, nivel provincial, datos trimestrales

5.2 Reconstrucción de las series de precio provinciales

Como se ha comentado en el apartado anterior, las series de precios provinciales presentan algunos valores faltantes o NA. Para poder aplicar los posteriores modelos econométricos se hace necesario completar dichos valores faltantes, para lo que se ha hecho uso de la función na_interpolation de la librería imputeTS del programa estadístico R. Es precisamente este programa el empleado para implementar todos los cálculos en el presente informe.

El resultado de este proceso de rellenado de valores faltantes son series que no presentan huecos, en aquellos casos en los que se ha comprobado que faltaba uno o varios trimestres en los precios oficiales.

Serie de precios oficinales reconstruida

5.3 Modelo econométrico

Como se ha comentado en un apartado anterior, se ha creído más conveniente emplear un modelo econométrico para estimar el precio unitario de la vivienda residencial a 3 años vista, en detrimento de otras opciones como las obtenidas a través de modelos de inteligencia artificial. Por una parte, las limitaciones en el número de observaciones hace inviable en la actualidad emplear estos últimos modelos. Por otra parte, los modelos econométricos son más fácilmente explicables que los modelos basados en IA.

A la hora de explicar el precio unitario a nivel provincial, podemos plantearnos utilizar un amplio abanico de variables teóricamente ligadas a la evolución del precio. Desde los tipos de interés, las cifras de empleo y desempleo, la evolución del PIB, etc. Sin embargo, estas variables no siempre aparecen desglosadas a nivel provincial, y mucho menos al nivel de detalle que se persigue obtener en este informe. Además, podemos asumir, como ocurre por ejemplo en los mercados financieros y en su teoría del mercado eficiente, que el precio resume el efecto de todas esas variables sobre la evolución del mercado. Es por ello que se ha optado por emplear un modelo en el que sólo se emplea el precio histórico o pasado para intentar predecir el precio unitario futuro.

El modelo base que ha servido para realizar un número importante de pruebas ha sido el reconocido modelo ARIMA, si bien se han incluido algunas modificaciones para mejorar la capacidad explicativa del precio.

Sin embargo, no sólo se trata de emplear la variable precio con uno o más trimestres de retardo, ya que la simple visualización de las series ya nos advierte que el precio en un determinado trimestre t no influye de la misma forma el precio del trimestre posterior t+1, o en el precio de los 3 años siguientes. En ocasiones el precio sufre una aceleración, tanto en las caídas como en las subidas, mientras que en otras ocasiones el precio parece estabilizarse y moverse de forma muy limitada. Por lo tanto, podemos concluir que el precio no sólo se ve afectado por la tendencia previa observada en el mismo, sino que también es importante conocer el diferente grado de aceleración o desaceleración que lleva su movimiento.

Es por eso que, junto con diferentes retardos en el precio, también se han incluido las variaciones registradas en los dos últimos trimestres, tres últimos trimestres, etc., pues da una medida de si dichas variaciones van en aumento (aceleración) o si empieza a declinar la tendencia actual (desaceleración).

Tomando también como ejemplo el de los mercados financieros, también se han incluidos diferentes medias móviles, en cuyo cálculo interviene el precio de los trimestres inmediatamente anteriores al actual.

Obviamente, no podemos incluir un número excesivo de retardos en el precio, de sus variaciones, o un alto número de medias móviles, ya que rápidamente nos quedaríamos sin grados de libertad y el ajuste obtenido podría alcanzar una explicación muy satisfactoria de lo ocurrido en el pasado con el precio, pero muy escaso nivel predictivo para futuros trimestres.

Para limitar el número de variables explicativas en el modelo econométrico se ha empleado la técnica de regresión stepwise o por pasos. Esta técnica es especialmente adecuada cuando un modelo de regresión incluye un número excesivo de variables explicativas, de forma que no todas ellas resultan ser estadísticaente significativas. El modelo de regresión por pasos va construyéndose de forma incremental, de forma que se van incluyendo variables en función de la importancia o relevancia que tienen con el precio. El proceso de selección e inclusión de variables en el modelo finaliza cuando ya no quedan más variables significativas que incorporar; esto es, la inclusión de una nueva variable haría que su coeficiente no fuera significativo en el modelo de regresión. De esta forma se obtiene un modelo parsimonioso, en cuanto a que se incluye el menor número de variables explicativas de forma que todas ellas ayuden a explicar la variable dependiente, sin que se haya dejado ninguna variable relevante fuera del modelo, pero sin que se haya incluido ninguna otra que no lo fuera.

A modo de ejemplo ilustrativo, reproducimos el modelo que se generaría a nivel nacional empleando en primer lugar un modelo de regresión con diferenes variables explcativas para, posteriormente, reducir el número de variables a aquellas indispensables y significativas mediante un modelo de regresión stepwise.

En primer lugar planteamos un modelo con diferentes variables obtenidas a partir de la propia serie de precios históricos. Puede observarse un R2 muy bueno, pero no todas las variables obtienen un coeficiente estadísticamente significativo. Es precisamente lo que hace plantear la utilización de un modelo de regresión stepwise de forma que, aunque inicialmente parezca que prácticamente nos quedamos sin variables significativa, la selección de las variables empleando esta técnica hace que el modelo resultante sea mucho más satisfactorio.

## 
## Call:
## lm(formula = precio_3_anyo ~ precio_lag_1 * variacion_precio_1t + 
##     precio_lag_1 * variacion_precio_2t + precio_lag_1 * variacion_precio_4t + 
##     precio_lag_1 * precio_media_movil_2 + precio_lag_1 * precio_media_movil_4, 
##     data = zona_precios)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -153.972  -53.259    5.224   40.626  187.110 
## 
## Coefficients: (1 not defined because of singularities)
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       -5.640e+02  8.441e+01  -6.682 3.01e-09 ***
## precio_lag_1                       7.700e+00  1.044e+01   0.738  0.46282    
## variacion_precio_1t                9.173e-01  2.772e+00   0.331  0.74161    
## variacion_precio_2t               -4.032e+00  4.881e+00  -0.826  0.41132    
## variacion_precio_4t                4.783e+00  1.559e+00   3.067  0.00296 ** 
## precio_media_movil_2                      NA         NA      NA       NA    
## precio_media_movil_4              -5.215e+00  1.043e+01  -0.500  0.61849    
## precio_lag_1:variacion_precio_1t  -3.058e-03  3.032e-03  -1.009  0.31622    
## precio_lag_1:variacion_precio_2t   2.972e-03  3.452e-03   0.861  0.39178    
## precio_lag_1:variacion_precio_4t  -1.588e-03  1.039e-03  -1.527  0.13065    
## precio_lag_1:precio_media_movil_2 -5.461e-03  7.269e-03  -0.751  0.45470    
## precio_lag_1:precio_media_movil_4  4.779e-03  7.264e-03   0.658  0.51253    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 76.19 on 79 degrees of freedom
##   (17 observations deleted due to missingness)
## Multiple R-squared:  0.9537, Adjusted R-squared:  0.9478 
## F-statistic: 162.6 on 10 and 79 DF,  p-value: < 2.2e-16

Al resolver el modelo mediante una regresión stepwise, comprobamos que el R2 es prácticamente igual, pero ahora sólo quedan las variables relevantes y significativas, que además recogen la evolución del precio en el corto plazo (2 trimestres) y en el medio plazo (4 trimestres, 1 año):

  • la variación de los 4 últimos trimestres y su interacción con el precio unitario (esto permite que el modelo pueda asumir que las variaciones de precio entre 4 trimestres dependa de en qué nivel esté el precio en ese momento; un cambio de 100 € en el precio no tiene la misma importancia si el precio unitario está en 800 €/m2 que si está en 2.000 €/m2).

  • la interacción entre el precio unitario y la media móvil “corta” (2 trimestres).

## 
## Call:
## lm(formula = precio_3_anyo ~ precio_lag_1 + variacion_precio_4t + 
##     precio_media_movil_2 + precio_lag_1:variacion_precio_4t + 
##     precio_lag_1:precio_media_movil_2, data = zona_precios)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -152.592  -48.512    5.202   40.153  184.726 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       -5.465e+02  8.130e+01  -6.722 2.02e-09 ***
## precio_lag_1                       1.115e+00  1.057e+00   1.055    0.294    
## variacion_precio_4t                5.168e+00  5.070e-01  10.193 2.39e-16 ***
## precio_media_movil_2               1.334e+00  1.084e+00   1.231    0.222    
## precio_lag_1:variacion_precio_4t  -2.088e-03  2.951e-04  -7.076 4.14e-10 ***
## precio_lag_1:precio_media_movil_2 -6.671e-04  4.920e-05 -13.559  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 75.06 on 84 degrees of freedom
##   (17 observations deleted due to missingness)
## Multiple R-squared:  0.9522, Adjusted R-squared:  0.9493 
## F-statistic: 334.6 on 5 and 84 DF,  p-value: < 2.2e-16

Pese al elevado R2 obtenido por este modelo, y la significación de las variables consideradas, un rápido vistazo al modelo resultante y su comparativa con los precios originales nos da una idea del espacio de mejora que queda.

Efectivamente, en la siguiente figura podemos ver como aunque en líneas generales el valor estimado se ajuste relativamente bien a la curva de precios, existen momentos en los que la estimación del precio unitario a 3 años presenta una volatilidad muy elevada, separándose en exceso de la tendencia marcada por los precios unitarios observados. Esto ha dado pie a plantear una mejora de este primer modelo inicial.

5.4 Modelo econométrico sobre precios unitarios suavizados

Si nos fijamos en detalle en la figura que cerraba el apartado anterior, comprobamos que los movimientos en los precios unitarios observados no son lineales o suaves, sino que en muchos casos el precio avanza en forma de zigzag. En unos casos, este zigzag presenta una estacionalidad. Hasta el pinchazo de la burbuja inmobiliaria, el precio paracía tener un comportamiento trimestral bastante reconocible, de forma que ese zigzag se reproducía de manera bastante repetitiva cada año. Sin embargo, a partir de la burbuja el patrón de movimiento cambia, y no sólo porque se produzca un descenso significativo en los precios, sino también en la forma en que dicho movimiento se produce a lo largo de los trimestres del año.

En cualquier caso, sí que parece evidente que aunque el precio traiga un tendencia de fondo, de un trimestre a otro se observa cierto ruido en la serie. Y es precisamente ese ruido el que dificulta el buen comportamiento de los modelos econométricos.

La propuesta para eliminar ese ruido y, de esta forma, obtener un modelo econométrico más ajustado que el reportado en el anterior apartado, es realizar un suavizado de la serie de precios. De esta forma se eliminarán los patrones trimestrales encontrados hasta el pinchazo de la burbuja, así como el consiguiente ruido y volatilidad que encontramos en el periodo posterior.

Veamos como ejemplo el caso de la provincia de Albacete. Justo después del comienzo de la crisis parece que los precios se recuperan. Pero eso no parece que tenga mucho sentido económico, por lo que podría ser más adecuado suavizar la curva. En rojo aparece la curva suavizada, que hace que los cambios de precios entre trimestres sean mucho más suaves, eliminando el ruido de la serie original de precios.

Pues bien, resulta en un ajuste de mucha mayor calidad aplicar el modelo sobre la curva suavizada que sobre la original, obteniendo con ello un modelo con mejor R2, y con menos “picos” en los precios estimados.

Volviendo al ejemplo nacional, en las siguientes figuras se representa en negro la serie de precios original, en rojo la serie suavizada, y en azul el modelo econométrico obtenido sobre la serie suavizada (en lugar de sobre la serie original). Es precisamente la parte final de esta curva la que realiza la predicción del precio unitario, siendo justamente su extremo el valor estimado a 3 años vista.

6 El modelo a nivel de área de valor

Con el objetivo de obtener un modelo para la predicción del precio unitario a 3 años vista lo más detallado posible, el siguiente paso ha consistido en pasar del modelo econométrico sobre precios suavizados de nivel provincial al de área de valor.

En la primera parte de este informe se ha detallado la forma en que se han construido las áreas de valor, partiendo de los distritos censales, y agrupando aquellos que por escasez de oferta no podían conformar una unidad propia.

A continuación, se ha detallado la forma en que se ha planteado el modelo econométrico, partiendo de la estructura de un modelo ARIMA, a nivel provincial.

En este apartado se unen ambas partes para configurar un modelo de predicción del precio unitario a nivel de área de valor.

Para ello, se toman los precios oficiales desde el primer trimestre de 1995 (1995T1) hasta el primer trimestre de 2018 (2018T1). A partir justamente de ese primer trimestre (incluido) se tienen datos propios de oferta de vivienda residencial de diferentes portales inmobiliarios, a nivel de área de valor. La nueva serie temporal se obtiene uniendo la parte de la serie provincial con la parte de la serie de área de valor. Ambas partes se “unen” a partir del primer trimestre de 2018.

Lógicamente, la unión de las series no se hace sobre los precios originales, ya que el precio unitario medio de la provincia puede ser muy diferente al observado en las diferentes áreas de valor de esa misma provincia. Lo que se hace en cada caso es, tomando el precio del área de valor en 2018T1, deflactar las series de precios provinciales para que el valor en 2018T1 coincida con el valor en ese mismo trimestre observado en el área de valor. De esta forma, se consigue homogeneizar la serie de cada una de las áreas de valor, haciendo que la tendencia en todas las áreas de valor de una misma provincia sea la misma desde 1995T1 hasta 2018T1, y que a partir de ese trimestre cada área de valor tome su propia tendencia en función de los precios registrados para cada una de ellas.

Y es precisamente sobre estas nuevas series de precios sobre las que se aplica el modelo econométrico, de forma que en cada caso el modelo de regresión stepwise decide qué variables pasan a formar parte de la explicación del precio unitario.

7 Resultados

Como se ha comentado en el anterior apartado, el análisis realizado permite obtener el precio unitario estimado para los próximos 3 años. A partir de este valor, se puede calcular la variación correspondiente respecto del precio actual. Esto es, el factor hipotecario.

Puesto que una zona de valor puede estar compuesta por uno o más distritos, también puede contener una o más secciones censales. Esto hace que muchas secciones censales compartan el mismo factor hipotecario.

El output obtenido mediante este trabajo consiste en una tabla donde a cada sección censal se le asigna un factor hipotecario calculado a fecha 2022T1. Esto es, la estimación de cuánto cambiará el precio desde dicho trimestre hasta 2025T1.

La siguiente figura representa el histograma del factor hipotecario para las 36.304 secciones censales consideradas.

A modo de resumen, se destacan algunos estadísticos relevantes:

  • Se han considerado un total de 8.131 municipios y 36.304 secciones censales a nivel nacional.

  • De ellos, hay 2.750 municipios y 8.308 secciones censales con previsión de bajada en el precio unitario de vivienda residencial a 3 años vistas.

  • Si entendemos como bajada significativa aquella superior al 10%, la estadística se queda en 84 municipios y 341 secciones censales. Es decir, un 1% aproximadamente del total.

  • Que un municipio esté en la estadística de bajada no implica que todas sus secciones censales tengan previsión bajista del precio. Esto sí ocurre en los municipios muy pequeños (sólo tienen una sección censal), pero en los medianos/grandes se da más bien una situación mixta: algunas secciones bajan y otras suben.

  • Las 8.308 secciones censales donde se prevé caída en el precio están repartidos en 2.750 municipios, donde el número total de secciones censales es de 16.752. Si nos ceñimos a la caída significativa de más del 10%, las 341 secciones censales se agrupan en 84 municipios, que en total tienen 958 secciones censales.

8 Scripts y datos

La programación de todos los cálculos se ha repartido a lo largo de diferentes scripts. A continuación se relacionan dichos scripts, así como los datos intermedios generados por los mismos y los datos empleados como fuente para los cálculos.

  • 01_lectura_datos.R: en este script se leen las tablas de datos del servidor SQL de Euroval, correspondientes con las ofertas de inmuebles plurifamiliares de Idealista y de Parsebox. También se eliminan los registros duplicados, así como los inmuebles considerados atipicos. Debido al coste computacional de todos estos cálculos, se generan diferentes archivos intermedios donde se van guardando las ofertas consideradas como testigos a medida que pasan por cada una de las diferentes fases (desde “testigos_01.RData” hasta “testigos_04.RData”).

  • 02_distritos_grandes.R: se parte del último fichero generado en el script anterior, “testigos_04.RData”, para determinar qué distritos censales han obtenido en promedio el número mínimo de ofertas para ser considerados distritos grandes. El resultado es un nuevo archivo de datos que contiene un subconjunto de “testigos_04.RData”, y al que se ha denominado “testigos_grandes.RData”. Aquí se incluyen los testigos que aparecen registrados en los distritos censales grandes.

  • 03_areas_valor.R: una vez indentificados los distritos grandes (lo que también denominamos áreas de valor) se calculan los precios medios unitarios a lo largo de los diferentes trimestres. Esta información se guarda en el fichero de datos “precios_medios_area_valor.RData”.

  • 04_serie_precios_area_valor.R: en este script se hace uso de los precios oficiales de vivienda (archivo “fomento_precio_unitario_vivienda_libre.xlsx”) para obtener la serie de precios provinciales, así como los datos guardados en el archivo “precios_medios_area_valor.RData”. El objetivo es combinar ambas series siguiendo la metodología explicada en este informe, de forma que se guarden los valores estimados a 3 años vista en el fichero de datos “valores_estimados.RData”.

  • 05_distritos_pequenyos.R: siguiendo el procedimiento descrito en este informe, se procede a organizar los distritos que no alcanzan el número promedio de ofertas por trimestre, haciendo diferentes agrupaciones a nivel provincial. Se emplea la tabla urbanidad del proveedor Unica360, así como la descripción geográfica de las secciones censales para delimitar los distritos censales. Fruto de este análisis es el archivo de datos “distritos_pequenyos.RData”.

  • 06_areas_valor_distritos_peq.R: se sigue el mismo procedimiento que el empleado con los distritos grandes, generando su correspondiente archivo de datos “precios_medios_area_valor_distritos_pequenyos.RData”.

  • 07_serie_precios_area_valor_distritos_peq.R: también guarda equivalencia con el script dedicado a los distritos grandes, generando el archivo de datos “valores_estimados_dist_pequenyos.RData”.

  • 08_union_distritos.R: se unen los archivos “valores_estimados.RData” y “valores_estimados_dist_pequenyos.RData”, para generar el definitivo “valores_estimados_area_valor.RData”. Se trata de una tabla con 36.304 filas, tantas como secciones censales, donde comparando el valor estimado por el modelo con el último precio unitario registrado, se obtiene la variación; esto es, el factor hipotecario para esa sección censal.