Contexto y propósito del proyecto

La empresa inmobiliaria busca comprender de manera integral el mercado de vivienda urbana a partir de una base de datos con información detallada de propiedades residenciales. Este informe aplica técnicas de análisis multivariado descriptivo para identificar patrones, relaciones y segmentaciones relevantes que apoyen la toma de decisiones en compra, venta y valoración.

Preparación y validación de datos

Se cargó la base vivienda y se realizó una validación interna de estructura, tipos de variables, valores faltantes y duplicados. Estos procesos se ejecutan automáticamente en R y no se muestran en el informe, garantizando la calidad de la información analizada.


Tratamiento de valores faltantes y estandarización

Antes de aplicar las técnicas multivariadas, se gestionaron los valores faltantes para evitar sesgos y pérdida de información. Para variables numéricas se utilizó imputación basada en PCA y para variables categóricas una imputación por moda. Posteriormente, las variables numéricas se centraron y escalaron para asegurar comparabilidad y estabilidad en ACP y Clúster.

Análisis de Componentes Principales (ACP)

El ACP se emplea para reducir la dimensionalidad del conjunto de variables numéricas y sintetizar la información en componentes que explican la mayor proporción de variabilidad. En este informe, el scree plot permite decidir cuántos componentes retener; el gráfico de variables muestra cuáles aportan más a cada componente; y el biplot facilita interpretar simultáneamente variables y viviendas, revelando estructuras y tendencias del mercado.

Lectura del Scree plot

Este gráfico muestra cuánta variabilidad del mercado inmobiliario se explica con cada componente principal. A partir de aquí definimos cuántas dimensiones son suficientes para resumir la información sin perder lo esencial. En adelante, trabajaremos principalmente con las primeras componentes, porque concentran la mayor parte de la estructura del conjunto de datos.

¿Qué variables están “moviendo” el mercado?

El mapa de variables permite identificar qué características de la vivienda están asociadas entre sí y cuáles empujan las diferencias del mercado. Variables con flechas largas contribuyen más a la variación (son más “explicativas” dentro del resumen ACP). Además, la cercanía angular entre flechas sugiere relaciones (positivas o negativas) entre variables.

Segmentación con análisis de conglomerados (Clúster)

Para segmentar el mercado en grupos homogéneos, se aplicó k-means sobre las coordenadas obtenidas del ACP. El número de grupos se seleccionó mediante el criterio de silhouette, priorizando una separación clara entre segmentos. Los clústeres resultantes representan perfiles de vivienda con características similares, útiles para diferenciar estrategias de precios, inversión y comercialización por segmento.

Selección del número de clústeres

El índice silhouette evalúa qué tan bien separados y compactos están los grupos. Elegimos el valor de K que maximiza el silhouette promedio, buscando segmentos con buena diferenciación. Este paso es clave porque determina cuántos “perfiles de vivienda” serán interpretables para decisiones comerciales.

Interpretación visual de la segmentación

Este gráfico ubica las viviendas en el espacio reducido (derivado del ACP) y colorea según el clúster asignado. Si los grupos se superponen mucho, significa que la separación es moderada y conviene reforzar la interpretación con métricas (silhouette) y con comparaciones de variables clave (por ejemplo, el precio por clúster).

## # A tibble: 2 × 19
##   cluster id_media id_sd estrato_media estrato_sd preciom_media preciom_sd
##   <fct>      <dbl> <dbl>         <dbl>      <dbl>         <dbl>      <dbl>
## 1 1          3226. 2228.          4.18      0.870          256.       110.
## 2 2          5754. 1762.          5.41      0.786          737.       355.
## # ℹ 12 more variables: areaconst_media <dbl>, areaconst_sd <dbl>,
## #   parqueaderos_media <dbl>, parqueaderos_sd <dbl>, banios_media <dbl>,
## #   banios_sd <dbl>, habitaciones_media <dbl>, habitaciones_sd <dbl>,
## #   longitud_media <dbl>, longitud_sd <dbl>, latitud_media <dbl>,
## #   latitud_sd <dbl>
Análisis de correspondencia (MCA)

Para comprender relaciones entre variables categóricas (por ejemplo tipo de vivienda, zona, barrio o estrato), se aplicó Análisis de Correspondencia Múltiple (MCA). Los mapas factoriales permiten identificar categorías asociadas: categorías cercanas tienden a coexistir en el mercado, lo que aporta evidencia sobre patrones territoriales o de tipología dentro de la oferta inmobiliaria.

Categorías de Zona resaltadas

En el siguiente mapa factorial del MCA, las categorías asociadas a la variable Zona se muestran en azul, mientras que el resto de categorías se mantienen en rojo. Este resaltado permite identificar de manera más clara la relación entre las zonas de la ciudad y las demás características del mercado inmobiliario.

Conclusiones clave y recomendaciones estratégicas

El análisis multivariado permitió convertir una base de datos extensa en conocimiento accionable para la toma de decisiones. La reducción de dimensión (ACP), la segmentación (Clúster) y las asociaciones cualitativas (MCA) ofrecen una visión integral del mercado y soportan decisiones más informadas.

  • Implementar estrategias diferenciadas por clúster (precio, marketing, captación y tipo de inventario).
  • Priorizar zonas y tipologías asociadas con mayor valor o mayor demanda según los mapas factoriales.
  • Monitorear periódicamente los indicadores sintéticos del ACP para detectar cambios del mercado.
  • Actualizar la segmentación de manera regular para mantener ventajas competitivas en un entorno dinámico.