1 Comprensión del Negocio

En el sector inmobiliario, la fijación de precios es un desafío debido a la alta heterogeneidad de las viviendas. Tradicionalmente, la Regresión Lineal por Mínimos Cuadrados Ordinarios (OLS) modela el comportamiento del “inmueble promedio”. Sin embargo, el promedio oculta la realidad de los extremos del mercado.

1.1 Objetivo del Negocio

El objetivo principal de este proyecto es desarrollar un modelo para la valoración inmobiliaria, superando las limitaciones de los modelos estadísticos tradicionales que se limitan a estimar el comportamiento promedio del mercado. Al modelar la sensibilidad del precio a través de toda su distribución, se busca transformar los datos históricos en inteligencia accionable para distintos actores del sector.

1.2 Pregunta de investigación y motivación

¿Cómo cambia el efecto del tamaño de la vivienda y la cantidad de baños sobre el precio a lo largo de la distribución? Es decir, ¿un metro cuadrado o un baño adicional tiene el mismo impacto financiero en el mercado de viviendas económicas (zonas vulnerables/difícil acceso, \(\tau=0.10\)) que en el mercado de propiedades de lujo (\(\tau=0.90\))?

Contar con una comprensión diferenciada de estas dinámicas estructurales no solo mejora la precisión predictiva, sino que habilita la toma de decisiones estratégicas en dos frentes radicalmente opuestos del mercado:

  • Frente de Políticas Públicas y Equidad (Cola inferior, \(\tau=0.10\)): Entender qué atributos físicos realmente dictan el precio en el segmento de acceso difícil o vulnerable permite optimizar el diseño de proyectos de vivienda de interés social (VIS). Esta información es vital para que las entidades gubernamentales y ONGs estructuren políticas de subsidios más eficientes, asegurando que la inversión se dirija a características que ofrezcan habitabilidad sin encarecer artificialmente el acceso a la vivienda.
  • Frente de Inversión Privada (Cola superior, \(\tau=0.90\)): Identificar cuales son las variables que aumentan el valor en del mercado para definir las estrategias de desarrollo e inversión inmobiliaria de alto rendimiento. Conocer la prima de precio exacta que otorga la exclusividad por cada metro o baño adicional permite a las constructoras y agentes inmobiliarios afinar sus valoraciones en zonas de alta valorización, maximizando el retorno de inversión y ajustando el portafolio a las exigencias del segmento más exclusivo del mercado.

Impacto Estratégico: La regresión cuantil dejará de ser únicamente un ejercicio estadístico para convertirse en una herramienta de focalización. Permitirá identificar dónde invertir recursos para impacto social y dónde enfocarlos para maximizar la rentabilidad financiera.

2 Comprensión de los Datos

Utilizamos un dataset de ventas de propiedades que cuenta con más de 4600 observaciones. Seleccionamos variables clave como el precio, el área habitable, el número de baños y si la propiedad tiene vista al agua, la cual usaremos como nuestra variable de interacción.

2.1 Diccionario de Variables

Se describen las variables de estudio para su correcta interpretación de la información durante las fases de modelado, se presenta a continuación el diccionario de datos correspondiente a las observaciones inmobiliarias. El conjunto original consta de 18 variables que capturan la heterogeneidad de las propiedades, las cuales pueden agruparse en cuatro dimensiones principales para el análisis en características estructurales de las casas, atributos de calidad y su entorno, ubicación geográfica y su comportamiento temporal frente al precio de la vivienda:

Diccionario de Variables
Variable Significado Tipo
date Fecha de registro o venta de la propiedad Fecha
price Precio de venta de la vivienda Numérico
bedrooms Número de habitaciones Numérico
bathrooms Número de baños Numérico
sqft_living Área habitable de la vivienda Numérico
sqft_lot Tamaño total del lote Numérico
floors Número de pisos Numérico
waterfront Acceso o vista al agua (0 = No, 1 = Sí) Binaria
view Índice de calidad de la vista Ordinal
condition Estado general de la propiedad Ordinal
sqft_above Área habitable sobre el nivel del suelo Numérico
sqft_basement Área del sótano Numérico
yr_built Año de construcción Numérico
yr_renovated Año de renovación Numérico
street Dirección de la propiedad Categórico
city Ciudad Categórico
statezip Estado y código postal Categórico
country País Categórico

3 Preparación de los Datos

La calidad de nuestras estimaciones cuantílicas depende de una correcta depuración del dataset. Nuestro objetivo en esta fase no es forzar una distribución normal, sino eliminar errores de registro e inconsistencias lógicas, preservando la valiosa información estructural de las colas (viviendas muy económicas y de ultra-lujo).

3.1 Tratamiento de Inconsistencias y Valores Faltantes

Iniciamos cargando la base de datos y seleccionando las variables de interés definidas en nuestro diccionario. Procedemos a eliminar registros de propiedades con valores en cero, área habitable nula o sin baños.

Al aplicar este primer filtro, pasamos de 4600 a 4549 observaciones, garantizando que todos los registros representen transacciones inmobiliarias válidas.

3.2 Gestión de Valores Atípicos

En modelos OLS tradicionales, los valores extremos se eliminan de forma directa para no sesgar la media. Sin embargo, dado que utilizaremos Regresión Cuantil, nuestro interés radica precisamente en estudiar los extremos (τ=0.10 y τ=0.90).

Por lo tanto, aplicaremos un filtro basado en el Rango Intercuartílico (IQR) asimétrico:

Límite Inferior (1.5 x IQR): Para limpiar posibles errores de digitación en precios absurdamente bajos.

Límite Superior (3.0 x IQR): Ampliamos el umbral estándar (1.5) a un nivel conservador (3.0) para mantener las propiedades de lujo legítimas, eliminando únicamente anomalías extremas que podrían desestabilizar el algoritmo de optimización del modelo.

Insight Metodológico: Tras la depuración, conservamos el 96.96% de los datos originales (4460 observaciones). Esta depuración de datos confirma que no hemos sesgado la naturaleza del mercado, sino que hemos acotado el espacio muestral a transacciones estadísticamente modelables.

3.3 Impacto de la limpieza de valores atípicos

Para validar nuestra limpieza, comparamos la distribución del precio antes y después de nuestra intervención.

Como se observa en el diagrama de cajas, hemos eliminado los puntos rojos más distantes posibles errores de registro que superaban los varios millones de dólares, logrando una estructura de datos lista para el modelado OLS y Cuantílico.

Antes de la limpieza, la presencia de valores atípicos extremos en donde se encuentran propiedades con precios de más de 20 millones de dólares, estiraba la visual y estadísticamente la distribución. La inmensa mayoría de las observaciones quedaban comprimidas en el primer decil del eje X, inflando la varianza e inutilizando la Media como medida representativa, lo cual habría desestabilizado las estimaciones del modelo paramétrico.

Tras aplicar el filtro IQR asimétrico, se revela la verdadera topología del mercado inmobiliario. La distribución resultante presenta una pronunciada asimetría positiva con un sesgo a la derecha. El mercado, donde se concentra el mayor volumen de transacciones, se ubica entre los 300,000 y 600,000 dólares.

4 Modelado

4.1 Análisis de Correlación de Variables

Para definir una especificación de modelo parsimoniosa y robusta, se evalúa la correlación lineal de Pearson entre las variables numéricas del conjunto de datos. El objetivo es identificar las características con mayor poder predictivo sobre la variable objetivo (price) y descartar aquellas que presenten redundancia estadística.

Los resultados del correlograma revelan que el área habitable (sqft_living) es el factor numérico con mayor poder predictivo lineal sobre la variable objetivo, presentando un coeficiente de r=0.66. Otras características geométricas, como el área sobre el nivel del suelo (sqft_above, r=0.56) y el número de baños (bathrooms, r=0.51), también muestran asociaciones positivas considerables.

Sin embargo, la tabla de correlaciones sugiere multicolinealidad muy alta (r=0.86) entre sqft_living y sqft_above. Incluir ambas métricas en la misma ecuación generaría problemas de multicolinealidad severa, volviendo inestables los coeficientes del modelo. Dado que el área habitable general (sqft_living) tiene un impacto superior sobre el precio y es una medida más estandarizada en el mercado, se selecciona como predictor principal, descartando a sqft_above.

Por otro lado, se observa que atributos como el tamaño del lote exterior (sqft_lot, r=0.09), la condición física aparente (condition, r=0.05) y el año de construcción (yr_built, r=0.04) tienen asociaciones lineales casi nulas frente al precio en este nivel de agregación. Para mantener la parsimonia del modelo y evitar ruido estadístico, se decide no incluirlas en la especificación base del modelo.

Definición del Modelo: En consecuencia, la estructura analítica se construirá utilizando sqft_living y bathrooms como predictores continuos. A este núcleo se le añadirá la variable categórica waterfront —evaluada desde la lógica de negocio y no desde esta matriz lineal— para poder capturar los efectos propios del mercado de viviendas de lujo.

4.2 Modelo de Mínimos Cuadrados (OLS)

Antes de revisar el comportamiento de las colas de los diferentes segmentos del mercado, es fundamental establecer una línea base. Para ello, utilizamos un modelo de regresión lineal por Mínimos Cuadrados Ordinarios (OLS). Este enfoque clásico nos ayuda a responder una pregunta fundamental: ¿cuál es el comportamiento promedio de las propiedades en nuestro conjunto de datos?

Al visualizar este modelo inicial, la imagen es clara:

El modelo OLS nos asegura que, en promedio, un pie cuadrado habitable suma unos $265 dólares. Sin embargo, no permite desglosar el mercado por las diferencias que existen en sus colas. No permite diferenciar el mercado de lujo y las viviendas de interés social donde prima la habitabilidad que el tamaño de la propiedad.

4.3 Cuantiles Incondicionales

Antes de evaluar cómo las características de la vivienda afectan el valor de mercado, es importante estudiar como se comporta el precio de la vivienda de forma incondicional.

El siguiente gráfico ilustra la función de densidad de los precios de las viviendas, identificando los umbrales críticos que segmentan el mercado. Se destacan tres puntos de corte principales: el percentil 10 (p10), que enmarca las viviendas más económicas o de interés social; la mediana (p50), que representa el punto de equilibrio exacto del mercado; y el percentil 90 (p90), que delimita la frontera del segmento de lujo.

Si bien estos cuantiles fijos ofrecen información general del comportamiento de los precios, asume que todas las propiedades pertenecen a una única categoría homogénea. El objetivo de la Regresión Cuantil, que se formula a continuación, es transformar estos umbrales estáticos en cuantiles condicionales. Es decir, el modelo buscará explicar cómo se desplazan estos límites (p10,p50,p90) al condicionarlos por el área construida, el número de baños o su ubicación frente al agua.

4.4 Cuantiles condicionales

Haber identificado los umbrales estáticos del mercado como el p10 o el p90 proporciona información útil, pero en la realidad, el precio de una vivienda varía por variables como sus características físicas y su ubicación espacial. Aquí es donde se da el salto metodológico hacia los cuantiles condicionales.

Mientras que la regresión lineal tradicional (OLS) se limita a trazar una única trayectoria que representa el promedio condicional, la regresión cuantil permite modelar distintos niveles de la distribución en función de las variables predictoras.

Al introducir predictores estructurales como el área habitable (sqft_living) o cualitativos como el acceso al agua (waterfront), los percentiles dejan de ser cortes fijos y se transforman en funciones dinámicas. Este enfoque revelará si el retorno de inversión por cada metro cuadrado adicional es constante o si, por el contrario, su impacto financiero se acelera de manera asimétrica dependiendo del estrato al que pertenezca la propiedad.

La visualización de las predicciones condicionales revela la principal limitación técnica de los modelos tradicionales de regresión frente a datos inmobiliarios reales. El gráfico de dispersión expone un patrón evidente de heterocedasticidad a medida que se incrementa el área habitable, la varianza o dispersión de los precios se amplía de forma considerable, adoptando una clásica forma de cono.

Al superponer las rectas de ajuste para los distintos cuantiles (\(\tau\)), se hace evidente que el efecto marginal del tamaño sobre el precio no es estático, sino que cambia drásticamente según el estrato del mercado que se analice:

  • Segmento de entrada o viviendas económicas (\(\tau = 0.1\)): La pendiente de la recta inferior es notablemente más plana. Esto indica que, en el extremo inferior de la distribución, un incremento en los metros cuadrados tiene un impacto positivo, pero modesto, sobre el valor final del precio de la vivienda. En este estrato, la valoración está fuertemente acotada por la capacidad adquisitiva; el mercado prioriza el acceso básico sobre la amplitud.
  • El estándar del mercado (\(\tau = 0.5\)): La recta punteada central refleja la mediana condicional. Representa el comportamiento del inmueble promedio donde la relación área-precio mantiene una proporcionalidad moderada.
  • Mercado de lujo o alta valorización (\(\tau = 0.9\)): La pendiente se vuelve marcadamente más pronunciada. En el decil superior de los precios, el mercado aumenta el precio de forma creciente por cada metro cuadrado adicional. El tamaño deja de ser una simple métrica de habitabilidad para convertirse en un efecto multiplicador del precio sustentado en exclusividad, incrementando la valoración de la propiedad.

Divergencia Estructural: Las líneas de los cuantiles divergen progresivamente. Si se confiara exclusivamente en la recta del promedio (OLS), se asumiría un efecto constante que terminaría sobrestimando el valor del espacio en proyectos de vivienda accesible y subestimando gravemente el impacto del área en propiedades de alto estándar. La regresión cuantil demuestra que un metro cuadrado no vale lo mismo para todos.

5 5. Evaluación

Extraemos los intervalos de confianza al 95% para comparar cómo los efectos de nuestras variables cambian a través de los cuantiles frente a la constante de OLS.

5.1 Contraste OLS

En el primer gráfico Efecto Área, se observa que las casas del segmento bajo (cuantiles 0.1 a 0.25), el coeficiente está por los suelos, cerca de 100. Pero a medida que nos movemos hacia el lujo (cuantiles > 0.75), el valor se dispara hasta casi 400. El mercado de gama alta es mucho más sensible al tamaño. Si estás valorando una propiedad de lujo, usar el promedio de del modelo OLS va a generar una estimación del precio muy por debajo del precio real.

En el segundo gráfico Efecto Vista al Agua vemos que la línea roja está por debajo del promedio estimado por OLS. Solo cuando llegamos al último 25% del mercado e donde encontramos las casas de lujo, el valor de la vista al agua incrementa por encima del millón de dólares. Si se quiere vender una casa de clase media usando el modelo OLS de valor por vista al agua, se estaría sobre estimando el precio de la vivienda. La gente en esos segmentos prefiere metros cuadrados reales sobre una buena vista. La vista al agua es, estadísticamente, un lujo de nicho.

El tercer gráfico muestra la interacción entre área y vista, lo más notable aquí es la banda azul del intervalo de confianza. Al final se ensancha, esto sugiere que en el segmento de viviendas de lujo hay mucha variedad, y el efecto combinado de tener una casa gigante con vista al agua ya no sigue una regla fija. Es un terreno más impredecible para el modelo.

5.2 Interacción

Ahora, se analizará la influencia de la interacción con la variable binaria de efecto de vista del agua, para cada cuantil y la influencia por cada baño.

Al observar el comportamiento de las propiedades sin vista al agua, se observa que el espacio adicional genera un aumento en el precio de la vivienda. A medida que aumentan los metros cuadrados, el precio sube de forma constante. Además, el efecto de las viviendas de lujo en el percentil 90%, su pendiente es más pronunciada que la línea del cuantil 0.1. Esto sugiere que en el mercado tradicional, el comprador de alto perfil está dispuesto a pagar un sobreprecio mucho mayor por cada metro cuadrado adicional.

Sin embargo, el escenario cambia cuando analizamos las casas con vista al agua. Las viviendas que cuentan con acceso a vista al agua suelen tener precios elevados. Al fijarnos en el intercepto, donde arrancan estas líneas en el eje vertical, es evidente que solo por el hecho de tener el agua enfrente, una casa pequeña ya comienza costando entre medio millón y un millón de dólares más que una de tamaño similar sin esta característica.

Pero también ocurre para las casas con vista en el percentil de 90%, la curva desciende. Esto sugiere que, en las casas de lujo con vista al agua, se encuentra que agregar más área construida no eleva el precio; de hecho, estadísticamente parece penalizarlo. Este fenómeno visual coincide con el gráfico de interacción del análisis previo, donde el coeficiente caía en picada hacia un terreno negativo a partir de la mediana. En conclusión, el mercado está valorando atributos completamente distintos dependiendo de la ubicación. Quien compra una casa tradicional, valora ante todo el espacio habitable. Por el contrario, quien adquiere una propiedad de lujo con vista al agua está pagando casi exclusivamente por el lote, la vista y la escasez del terreno. Es muy probable que las propiedades de este conjunto de datos sean lugares de tamaño moderado pero con una ubicación exclusiva con una baja representación en la fuente de datos, mientras que las casas de gran tamaño con agua cerca podrían ser construcciones más antiguas o situadas en zonas de menor demanda.

6 Conclusiones

La aplicación de la regresión cuantil en este conjunto de datos nos ha permitido hacer un análisis difernciado de los promedios tradicionales y descubrir cómo cambian realmente las reglas de juego en los diferentes niveles de precio del mercado inmobiliario.

La conclusión principal es que el mercado valora los atributos de las propiedades según su tamaño y ubicación. Por un lado, las propiedades sin vista al agua el espacio habitable es el motor del precio. En este segmento, los compradores de alto perfil están dispuestos a pagar un sobreprecio por cada metro cuadrado adicional.

Por otro lado, el segmento de lujo con vista al agua opera bajo sus propias reglas. La ubicación y la escasez del terreno imponen un costo de entrada sumamente alto. Más importante aún, en los niveles más altos de precio, la relación entre el área construida y el valor se invierte. El mercado nos indica que, cuando se trata de una ubicación exclusiva frente al agua, el comprador está pagando por el lote y la vista; un área construida excesivamente grande no solo deja de sumar valor.

6.1 Aplicaciones en el Mercado Inmobiliario

Se evidencian ventajas competitivas directas para la toma de decisiones en el sector inmobiliario:

1. Estrategia de fijación de precios: Las agencias inmobiliarias no pueden usar la misma fórmula para tasar todas las casas. Para las propiedades sin vista, el precio debe anclarse fuertemente en los metros cuadrados construidos. Sin embargo, para tasar una propiedad con vista al agua, el enfoque debe cambiar, el valor base ya es alto por defecto, y el argumento de venta debe girar en torno a la exclusividad de la ubicación, no al tamaño.

2. Optimización del desarrollo inmobiliario: Para los constructores e inversores, este modelo revela una oportunidad. En lotes ribereños o costeros, resulta mucho más rentable construir propiedades compactas pero con acabados de lujo que invertir grandes sumas en construir mansiones gigantescas. El mercado de lujo paga por la vista, por lo que minimizar el área construida reduce costos sin afectar el precio de venta.