La empresa inmobiliaria busca comprender de manera integral el mercado de vivienda urbana a partir de una base de datos con información detallada de propiedades residenciales. Este informe aplica técnicas de análisis multivariado descriptivo para identificar patrones, relaciones y segmentaciones relevantes que apoyen la toma de decisiones en compra, venta y valoración.
Se cargó la base vivienda y se realizó una validación interna de estructura, tipos de variables, valores faltantes y duplicados. Estos procesos se ejecutan automáticamente en R y no se muestran en el informe, garantizando la calidad de la información analizada.
Antes de aplicar las técnicas multivariadas, se gestionaron los valores faltantes para evitar sesgos y pérdida de información. Para variables numéricas se utilizó imputación basada en PCA y para variables categóricas una imputación por moda. Posteriormente, las variables numéricas se centraron y escalaron para asegurar comparabilidad y estabilidad en ACP y Clúster.
El ACP se emplea para reducir la dimensionalidad del conjunto de variables numéricas y sintetizar la información en componentes que explican la mayor proporción de variabilidad. En este informe, el scree plot permite decidir cuántos componentes retener; el gráfico de variables muestra cuáles aportan más a cada componente; y el biplot facilita interpretar simultáneamente variables y viviendas, revelando estructuras y tendencias del mercado.
Este gráfico muestra cuánta variabilidad del mercado inmobiliario se explica con cada componente principal. A partir de aquí definimos cuántas dimensiones son suficientes para resumir la información sin perder lo esencial. En adelante, trabajaremos principalmente con las primeras componentes, porque concentran la mayor parte de la estructura del conjunto de datos.
El mapa de variables permite identificar qué características de la vivienda están asociadas entre sí y cuáles empujan las diferencias del mercado. Variables con flechas largas contribuyen más a la variación (son más “explicativas” dentro del resumen ACP). Además, la cercanía angular entre flechas sugiere relaciones (positivas o negativas) entre variables.
Para segmentar el mercado en grupos homogéneos, se aplicó k-means sobre las coordenadas obtenidas del ACP. El número de grupos se seleccionó mediante el criterio de silhouette, priorizando una separación clara entre segmentos. Los clústeres resultantes representan perfiles de vivienda con características similares, útiles para diferenciar estrategias de precios, inversión y comercialización por segmento.
El índice silhouette evalúa qué tan bien separados y compactos están los grupos. Elegimos el valor de K que maximiza el silhouette promedio, buscando segmentos con buena diferenciación. Este paso es clave porque determina cuántos “perfiles de vivienda” serán interpretables para decisiones comerciales.
Este gráfico ubica las viviendas en el espacio reducido (derivado del ACP) y colorea según el clúster asignado. Si los grupos se superponen mucho, significa que la separación es moderada y conviene reforzar la interpretación con métricas (silhouette) y con comparaciones de variables clave (por ejemplo, el precio por clúster).
## # A tibble: 2 × 19
## cluster id_media id_sd estrato_media estrato_sd preciom_media preciom_sd
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 3226. 2228. 4.18 0.870 256. 110.
## 2 2 5754. 1762. 5.41 0.786 737. 355.
## # ℹ 12 more variables: areaconst_media <dbl>, areaconst_sd <dbl>,
## # parqueaderos_media <dbl>, parqueaderos_sd <dbl>, banios_media <dbl>,
## # banios_sd <dbl>, habitaciones_media <dbl>, habitaciones_sd <dbl>,
## # longitud_media <dbl>, longitud_sd <dbl>, latitud_media <dbl>,
## # latitud_sd <dbl>
Para comprender relaciones entre variables categóricas (por ejemplo tipo de vivienda, zona, barrio o estrato), se aplicó Análisis de Correspondencia Múltiple (MCA). Los mapas factoriales permiten identificar categorías asociadas: categorías cercanas tienden a coexistir en el mercado, lo que aporta evidencia sobre patrones territoriales o de tipología dentro de la oferta inmobiliaria.
En el siguiente mapa factorial del MCA, las categorías asociadas a la variable Zona se muestran en azul, mientras que el resto de categorías se mantienen en rojo. Este resaltado permite identificar de manera más clara la relación entre las zonas de la ciudad y las demás características del mercado inmobiliario.
El análisis multivariado permitió convertir una base de datos extensa en conocimiento accionable para la toma de decisiones. La reducción de dimensión (ACP), la segmentación (Clúster) y las asociaciones cualitativas (MCA) ofrecen una visión integral del mercado y soportan decisiones más informadas.