Análisis Multidimensional del Mercado Inmobiliario Urbano

PCA + Segmentación (Gower/PAM) + CA/MCA · Reporte reproducible

1 Resumen

En este informe se realiza un análisis integral del mercado inmobiliario urbano usando técnicas multivariadas:

  • EDA (calidad, faltantes, sesgos, outliers, relaciones clave).

  • PCA para identificar los principales ejes de variación en atributos que influyen en el mercado (precio/oferta).

  • Clustering (Gower + PAM) para segmentar propiedades en grupos homogéneos accionables.

  • CA + MCA (Correspondencia simple y múltiple) para revelar patrones entre variables categóricas (tipo, zona, barrio) y su estructura.

Propósito: detectar oportunidades, orientar inversión y mejorar decisiones comerciales en un entorno competitivo.

1.1 Preguntas de negocio

Este análisis responde explícitamente:

  1. Drivers de valorización: ¿Qué variables explican la mayor variación en preciom y precio_m2?
  2. Segmentos del mercado: ¿Qué grupos homogéneos de propiedades existen y cómo difieren en valor, tamaño, estrato y ubicación?
  3. Patrones de oferta: ¿Qué asociaciones tipo–zona–barrio son dominantes y qué implican para comercialización?
  4. Decisiones: ¿Cómo usar segmentos y patrones para compra, venta/pricing y valoración por comparables?

2 Carga de datos y comprensión inicial

## Filas: 8.322  | Columnas: 13
## Rows: 8,322
## Columns: 13
## $ id           <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona         <chr> "Zona Oriente", "Zona Oriente", "Zona Oriente", "Zona Sur…
## $ piso         <chr> NA, NA, NA, "02", "01", "01", "01", "01", "02", "02", "02…
## $ estrato      <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom      <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst    <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios       <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo         <chr> "Casa", "Casa", "Casa", "Casa", "Apartamento", "Apartamen…
## $ barrio       <chr> "20 de julio", "20 de julio", "20 de julio", "3 de julio"…
## $ longitud     <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud      <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…

El dataset contiene 8.322 registros y 13 variables. Las variables combinan atributos físicos (área, habitaciones, baños, parqueaderos), ubicación (zona, barrio, latitud/longitud) y contexto socioeconómico (estrato).

2.1 Dimensiones del mercado analizadas

  • Económica: precio total (preciom) y valor relativo (precio_m2).
  • Física/funcional: área, habitaciones, baños, parqueaderos, piso.
  • Socioeconómica: estrato.
  • Espacial: zona, barrio y coordenadas (latitud/longitud).
  • Tipología: tipo de vivienda.

3 EDA

3.1 Diccionario, tipos y unicidad

La variable id presenta alta unicidad (prop. únicos ≈ 100.0%), por lo que se trata como identificador y se excluye de PCA/Clustering/CA/MCA. La calidad general del dataset es alta: precio, área y ubicación tienen faltantes mínimos (2–3 registros).

Los principales problemas de completitud están en piso (~31,7% NA) y parqueaderos (~19,3% NA).

3.2 Duplicados exactos

## [1] 1

Duplicados exactos detectados: 1. Ese registro se eliminó para evitar que “infle” conteos y sesgue promedios y segmentaciones (clustering).

3.3 Conversión y limpieza

Se evidencia que zona, tipo, barrio y piso vienen como texto; piso contiene formatos tipo “02” y NA.

Se transformó piso a piso_num (entero) y se creó piso_cat para lectura ejecutiva. La proporción de NA en piso_num es 31.7% (puede no aplicar a ciertos tipos de vivienda).

3.4 Faltantes: magnitud y patrón

La variable con mayor proporción de faltantes es piso con 31.7%. Un faltante alto puede ser MAR (condicionado por tipo/zona/estrato) o MNAR (condicionado por el propio valor). Para variables con faltante elevado se prefiere imputación condicional y/o un indicador de missingness.

  • Los faltantes no son aleatorios: cambian fuerte según tipo y estrato, lo que respalda un mecanismo MAR (Missing At Random condicionado por perfil del inmueble).

  • parqueaderos tiene NA muy altos en estrato 3 (≈53% en apartamentos y ≈52% en casas) y cae drásticamente en estratos altos (≈5–8% en estrato 6): esto sugiere diferencias de registro/oferta por nivel socioeconómico.

  • piso_num también depende del tipo: en casas el NA es mayor (≈36–46%) que en apartamentos (≈25–31%), consistente con que “piso” no aplica o no se reporta en muchas casas; en cambio baños y habitaciones aparecen completos (0% NA).

3.5 Validación de ceros sospechosos

En vivienda urbana, banios=0 o habitaciones=0 suele indicar faltante codificado o registro atípico.

Se detectaron 45 registros con banios=0 y 66 con habitaciones=0.

La tabla por tipo/zona sirve para ver si esos “ceros” se concentran en algún segmento específico (lo que reforzaría que es un problema de captura/registro, no del mercado).

para este caso conviene reclasificar esos 0 como NA antes de imputar/modelar.

3.6 Imputación

  • parqueaderos: faltante alto → imputación condicional + indicador.

  • Faltantes bajos (2–3): imputación robusta por grupos (tipo/estrato).

Se aplicó imputación condicional (por tipo y estrato) para variables numéricas con NA. Este enfoque es explicable y consistente con un mecanismo MAR: el faltante depende del perfil del inmueble.

  • Indicador de faltante (parqueaderos): se crea parq_missing (=1 si parqueaderos es NA, 0 si no). Esto guarda una “bandera” de calidad/ausencia de dato que puede ser informativa (por ejemplo, ciertos tipos de vivienda o estratos reportan menos parqueaderos).

  • Imputación condicional de parqueaderos: si parqueaderos está en NA, se reemplaza por la mediana del grupo (tipo, estrato) (parqueaderos_imp). Esto es mejor que una mediana global porque respeta el contexto del inmueble (MAR: el faltante depende del perfil).

  • Imputación del resto de numéricas: para preciom, areaconst, banios, habitaciones, piso_num, se rellena NA con la mediana por (tipo, estrato) y si en algún grupo la mediana no es válida (ej. grupo vacío o todo NA), se usa un fallback global.

Queda una base sin NA en variables clave, pero es más estable para análisis multivariado

3.7 Ingeniería de variables clave (precio/m² + logs)

Se construyó precio_m2 y se aplicaron transformaciones log1p para estabilizar distribuciones. Indicador de asimetría (Pearson 2) aproximado: preciom0,95, areaconst1,09 (valores positivos sugieren cola derecha).

  • precio_m2 (preciom/areaconst): convierte el precio total en valor relativo por tamaño, permitiendo comparar inmuebles grandes vs pequeños en condiciones más justas.

  • Se aplica log1p() a preciom, areaconst y precio_m2: en mercado inmobiliario suele haber cola derecha (pocos inmuebles muy caros o muy grandes). El log reduce el impacto de esos extremos, estabiliza varianza y evita que el PCA/clustering quede dominado por valores premium.

  • se verifican con un indicador de asimetría (Pearson 2): el resultado fué positivo para preciom (~0,95) y areaconst (~1,09), lo que confirma asimetría positiva (media > mediana).

3.8 Univariado (distribuciones y boxplots)

Data summary
Name vivienda3 %>% select(all_…
Number of rows 8321
Number of columns 7
_______________________
Column type frequency:
numeric 7
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
preciom 0 1 433.88 328.63 58.00 220.00 330.00 540.00 1999.00 ▇▂▁▁▁
areaconst 0 1 174.92 142.95 30.00 80.00 123.00 229.00 1745.00 ▇▁▁▁▁
precio_m2 0 1 2.72 1.08 0.15 1.92 2.64 3.38 9.47 ▃▇▂▁▁
parqueaderos_imp 2 1 1.71 1.06 1.00 1.00 1.00 2.00 10.00 ▇▁▁▁▁
banios 0 1 3.13 1.41 1.00 2.00 3.00 4.00 10.00 ▇▇▃▁▁
habitaciones 0 1 3.64 1.43 1.00 3.00 3.00 4.00 10.00 ▂▇▂▁▁
estrato 2 1 4.63 1.03 3.00 4.00 5.00 5.00 6.00 ▅▆▁▇▆

Para preciom, la media (433,9) es mayor que la mediana (330), lo cual sugiere asimetría positiva (mercado con cola de propiedades premium). Para areaconst, media (174,9) > mediana (123), patrón consistente con inmuebles de gran metraje en el extremo superior.

  • areaconst: media 174.9 > mediana 123 → pocos metrajes grandes elevan la media.

  • Deducción de negocio: el mercado está dominado por oferta “media”, con un segmento premium pequeño pero influyente.

3.9 Outliers (regla IQR) – reporte cuantitativo

La mayor proporción de outliers por IQR aparece en habitaciones con (822; 9.9%). Le siguen parqueaderos_imp (567; 6.8%) y preciom (552; 6.6%).

  • Los outliers en habitaciones/parqueaderos suelen reflejar inmuebles “no típicos” (propiedades grandes, multifamiliares, o registros extremos) y pueden afectar promedios.

  • Los outliers en precio y área son coherentes con un mercado con segmento premium (pocas propiedades muy grandes/muy caras). No necesariamente son “errores”: pueden ser oportunidades/nichos.

3.10 Bivariado (señales de mercado)

La relación precio-área muestra el patrón esperado (a mayor área, mayor precio), con correlación aproximada r=0,69.

  • Precio vs área: relación positiva clara con r ≈ 0,69 (fuerte señal de mercado). A igual área hay variación de precio → ubicación/estrato/tipo influyen mucho.

  • Precio por estrato: las medianas suben con el estrato; estrato 6 tiene mayor nivel y dispersión → mercado premium más heterogéneo.

  • Precio por tipo: Casas muestran mediana más alta que apartamentos → mayor tamaño/terreno/atributos; útil para segmentación y pricing.

3.11 Categóricas: cardinalidad y legibilidad (barrio)

Se toma la decisión de agrupar barrios raros

Barrio tiene 436 niveles, con una oferta muy concentrada en pocos y una cola larga de barrios raros. Para que el MCA sea legible y estable,se creó barrio_lumped y se agrupan barrios con <1% de frecuencia. Así barrio_lumped queda en 18 niveles, mejorando interpretabilidad y decisiones por micro-mercados.

3.12 Validación espacial (mapa)

  • Se observa concentración por colores (clusters geográficos): varias zonas forman “manchas” relativamente compactas. Eso sugiere que zona sí captura estructura espacial real (macro-segmentación del territorio).

  • También hay zonas que se solapan en bordes o áreas intermedias: es normal, porque los límites de zonas no son perfectos y puede haber barrios de transición.

3.13 Matriz de correlación (numéricas)

La presencia de correlaciones entre atributos respalda el uso de PCA para reducir redundancia y extraer ejes latentes del mercado.

  • areaconst aparece con correlaciones positivas con banios, habitaciones y parqueaderos_imp. A mayor metraje, normalmente hay más habitaciones/baños y más parqueaderos. Es el patrón típico del mercado.

  • preciom está positivamente asociado con areaconst y también con estructura fisica (baños/habitaciones/parqueaderos). El precio total sube con el tamaño y con la “configuración” del inmueble (comodidad/funcionalidad).

  • precio_m2 suele correlacionar menos con areaconst porque es un precio relativo.Dos inmuebles pueden tener el mismo precio total por ser grandes/pequeños, pero el precio/m² captura valorización del “micro-mercado” (ubicación, estrato, demanda, etc.). Por eso su relación con tamaño puede ser más débil o diferente.

  • estrato tiende a tener correlación positiva con precios (total y/o por m²). Estrato funciona como proxy de poder adquisitivo/zonificación: a mayor estrato, típicamente mayor valorización y mejores características.

  • latitud y longitud tienen entre sí una relación marcada y además muestran correlaciones (a veces débiles/moderadas) con otras variables. Hay un componente espacial: moverse en el mapa (cambiar lat/long) se asocia con cambios de estrato y precios, lo cual es normal si ciertas zonas son más valorizadas.

El mercado tiene dos fuerzas principales mezcladas:

  • Escala/estructura del inmueble (área + habitaciones/baños/parqueaderos)

  • Valorización socio-espacial (estrato + ubicación, capturada más por precio/m²)

3.14 Bitácora de decisiones

4 PCA (Análisis de Componentes Principales)

4.1 Justificación metodológica

  • PCA se aplica a variables numéricas estandarizadas para reducir dimensionalidad y detectar drivers de variación del mercado.

  • Se prefieren variables transformadas (log_*) para evitar dominancia de colas.

4.2 Matriz PCA y estandarización

Aplicamos PCA sobre variables numéricas del inmueble para reducir dimensionalidad e identificar los principales ejes de variación del mercado. Como las variables están en escalas distintas, se estandarizan, por lo que el análisis es equivalente a trabajar sobre la matriz de correlaciones. Se excluyen identificadores y coordenadas (lat/long) para que los componentes reflejen drivers estructurales (valor, tamaño y configuración) y no únicamente geografía.

4.3 Ejecutar PCA y selección de componentes

(PCA). Los dos primeros componentes explican 73,2% de la variación. Para alcanzar al menos 80% de varianza explicada se requieren 3 componentes. Se usarán PC1–PC2 para visualización y el conjunto de PCs hasta 80% para interpretación global.

  • PC1 explica 46,6% de la variación total: es el driver dominante. En inmobiliaria, casi siempre representa un eje fuerte tipo “escala/valor” (tamaño + precio), aunque la confirmación exacta sale de las cargas/contribuciones.

  • PC2 explica 26,6% adicional. PC1+PC2 = 73,2%: con solo 2 dimensiones ya se resumen casi tres cuartas partes de la estructura del mercado.

  • PC3 aporta 9,9% y con esto se llega al 83,1% acumulado. Por eso es claro que para superar 80% se necesita de 3 componentes.

  • A partir de PC4 en adelante, cada componente aporta poco (≈6,3%, 5,0%, 2,8%…), lo que indica rendimientos decrecientes: ya no agregan “señal” grande, sino detalles finos/ruido.

4.4 Contribución de variables y biplot

* PC1 / Dim1 (≈ 46.6% de la varianza): “nivel/tamaño premium” Está dominado por log_preciom (~23%), log_areaconst (~21%), baños (~20.7%), parqueaderos (~15.7%) y estrato (~10.3%).

  • Al moverse hacia la derecha en Dim1, se tiende a ver inmuebles más caros (precio total), más grandes y con más caracteristicas (baños/parqueaderos), y en estratos más altos.

  • PC2 / Dim2 (≈ 26.6%): “intensidad del precio (m²) + perfil socio/ configuración” Está dominado por log_precio_m2 (~37.5%), estrato (~19.4%), habitaciones (~18.5%), piso (~15.3%) (y algo de log_areaconst).

  • Hacia arriba en Dim2 se agrupan inmuebles con mayor precio por m² y, típicamente, mayor estrato. Hacia abajo suelen quedar propiedades donde pesa más el metraje/ configuración (casas grandes con más habitaciones pueden tener precio/m² relativamente menor).

círculo de correlaciones

  • log_preciom se alinea con parqueaderos/baños ⇒ “premium” suele venir con mejores configuraciones.

  • log_precio_m2 apunta muy fuerte en Dim2 ⇒ es el driver de “precio relativo”.

  • log_areaconst y habitaciones tienden a ir hacia la zona baja-derecha ⇒ señal de “tamaño/configuración” que no siempre implica precio/m² alto.

Por lo que se puede decir que:

  • PC1 captura un eje premium/tamaño (precio total, área, baños, parqueaderos, estrato).

  • PC2 captura precio por m² + perfil socio/configuración (precio_m2, estrato, habitaciones, piso).

  • Con PC1–PC2 es posible segmentar el mercado y detectar grupos: premium intenso, premium por tamaño, pequeños caros por m², y base.

5 Clustering (segmentación de propiedades)

5.1 Justificación metodológica

El objetivo es agrupar propiedades en segmentos homogéneos para orientar estrategias. Dado que tenemos variables mixtas (numéricas + categóricas), se usa:

  • Distancia de Gower (maneja datos mixtos sin distorsión).

  • PAM (k-medoids) (más robusto a outliers que k-means).

  • Selección de k vía silhouette promedio.

5.2 Matriz para clustering (mixta)

5.3 Distancia Gower y selección de k

## [1] 2
## [1] 0.1818364

(Clustering). El mejor k según silhouette es 2 con silhouette promedio 0,18, calidad débil (segmentos poco definidos; revisar variables o k). Este criterio evalúa cohesión interna y separación entre clusters.

5.3.1 Clustering jerárquico (dendrograma) como exploración

El dendrograma jerárquico con distancia Gower sugiere una estructura de similitud continua, sin saltos muy pronunciados. Al cortar en k=2 se obtienen dos macro-segmentos, coherentes con el silhouette (≈0,18) que indica separación débil. Incrementar k produciría subsegmentos más finos, pero con fronteras difusas entre grupos.

5.4 Ajuste final del modelo y asignación de clusters

## 
##    1    2 
## 5839 2482
##   cluster size ave.sil.width
## 1       1 5839          0.13
## 2       2 2482          0.30

## **Robustez:** silhouette promedio en submuestras (60%): media=0.222, sd=0.055.

Se ajustó PAM (k-medoids) con distancia Gower (datos mixtos) y se seleccionó k=2. Los clusters tienen 5.839 y 2.482 inmuebles; la calidad es débil (silhouette global ≈ 0,18, submuestras ≈ 0,22), indicando solapamiento entre segmentos. El Cluster 2 es más consistente (avg silhouette ≈ 0,30) mientras que el Cluster 1 es más heterogéneo (≈ 0,13), sugiriendo subperfiles internos.

5.5 Perfilamiento de clusters (resultado accionable)

El clustering separa dos perfiles: (1) apartamentos de ~100 m² con precio/m² alto (~2,85) y precio total menor (valorización por m²), y (2) casas de ~222 m² con precio/m² bajo (~2,05) y precio total mayor (valor por espacio). Ambos perfiles se concentran en Zona Sur y estrato ~5; barrio_top=Otros proviene de barrio_lumped (agrupación de barrios de baja frecuencia).

5.5.1 Etiquetas de negocio para los segmentos

Cada cluster se nombra con base en su valorización relativa (precio/m²) y su tipología dominante.

(Segmentos). A continuación se describen segmentos con medianas robustas y categorías dominantes:

  • Cluster 1 (n=5.839): precio med=300, precio_m2 med=2,84, área med=100, hab=3, baños=2, parq=1, estrato~5. Dominante: tipo=Apartamento, zona=Zona Sur, barrio=Otros, piso=Sin info / No aplica.
  • Cluster 2 (n=2.482): precio med=420, precio_m2 med=2,05, área med=222, hab=4, baños=4, parq=2, estrato~5. Dominante: tipo=Casa, zona=Zona Sur, barrio=Otros, piso=Bajo (<=3).

Regla de decisión (negocio). Clusters con precio_m2 alto suelen representar zonas de mayor valorización relativa; clusters con área y precio altos suelen corresponder a inmuebles premium.

Etiquetas cluster

  • Cluster 1: “Apartamento premium compacto (precio/m² alto)”

Segmento de alta valorización por m² (más “premium relativo”), típicamente compacto.

  • Cluster 2: “Casa familiar amplia (precio/m² accesible)”

Segmento más amplio (mayor metraje y precio total), con mejor valor por espacio (precio/m² menor).

5.6 Visualizaciones de validación (clusters vs precio, PCA y mapa)

Los boxplots confirman que los clusters sí se diferencian económicamente: uno tiene mayor precio total y el otro mayor precio/m². En PCA/PCoA se ve separación principalmente en el eje 1, aunque con solape (segmentos tipo “gradiente”, coherente con silhouette moderado/bajo). En el mapa los clusters se mezclan, pero aparecen bolsones de concentración, sugiriendo micro-mercados más que fronteras geográficas rígidas.

Detalles:

  • Boxplot de precio por cluster: el cluster con mediana más alta representa propiedades más costosas en valor absoluto (típicamente más grandes / más dotación).

  • Boxplot de precio_m2 por cluster: el cluster con mediana más alta captura mayor valorización relativa (mercado “premium por m²”, incluso si el precio total no es el mayor).

  • Puntos en PCA (PC1 vs PC2): hay estructura (no es ruido), pero no separación perfecta → es normal cuando el mercado es continuo; los clusters son perfiles dominantes, no “dos mundos” totalmente aislados.

  • PCoA/MDS sobre distancia Gower: aquí la separación se ve más clara porque se está visualizando en el mismo “lenguaje” del clustering (Gower). Si se separan en este plano, es una buena validación geométrica del agrupamiento.

  • Mapa (lat/long coloreado por cluster): si hay zonas donde un color domina, eso sugiere segmentación espacial (micro-mercados). Si están muy mezclados, indica que los clusters están explicados más por estructura/valor que por geografía pura.

6 Análisis de Correspondencia

6.1 CA (Correspondencia simple): Zona × Estrato

## **CA (Zona × Estrato).**
## - Se construye la tabla de contingencia Zona×Estrato.
## - Se aplica Chi-cuadrado para evaluar independencia.
## **Chi-cuadrado:** X²=3830.44, gl=12, p-value=<2e-16

## **Hallazgos CA (categorías más discriminantes en Dim1–Dim2):**
## - Zona: Zona Oriente (dist≈2.09)
## - Zona: Zona Centro (dist≈1.76)
## - Estrato: 3 (dist≈1.2)
## - Zona: Zona Oeste (dist≈0.97)
## - Estrato: 6 (dist≈0.75)
## - Zona: Zona Norte (dist≈0.42)
## - Estrato: 4 (dist≈0.41)
## - Zona: Zona Sur (dist≈0.28)
## 
## Categorías cercanas en el mapa tienden a co-ocurrir (en términos relativos vs el promedio); categorías opuestas sugieren perfiles distintos.
  • Chi-cuadrado muy significativo (p < 2e-16) : Zona y estrato NO son independientes: la distribución de estratos cambia según la zona (hay asociación real en los datos).

  • Inercia explicada: Dim1 = 70% y Dim2 = 27.7% (≈ 97.7% entre ambas) : con 2 ejes ya capturas casi toda la estructura Zona–Estrato.

De manera que:

  • Zona Oriente y Zona Centro quedan a la derecha y lejos del origen : son de las zonas más discriminantes y comparten un perfil similar en la asociación con estratos.

  • Estrato 3 también aparece muy lejos del origen y hacia el mismo lado : sugiere que una parte importante de la estructura del cruce está marcada por la relación Oriente/Centro ↔︎ Estrato 3 (comparado contra el promedio).

  • Zona Oeste está arriba-izquierda y relativamente alejada : se asocia más con un perfil distinto; por su cercanía visual, tiende a alinearse más con Estrato 6.

  • Zona Sur queda cerca de Estrato 5 (zona de ligera asociación) y Zona Norte más cerca del centro : Norte parece más mezclada / menos extrema en términos de estrato.

  • Top drivers: Zona Oriente, Zona Centro, Estrato 3, Zona Oeste, Estrato 6 : son las categorías que más “explican” la separación del mapa.

El CA evidencia una asociación estadísticamente significativa entre zona y estrato; el patrón se explica casi totalmente en dos dimensiones (≈97.7%), donde Oriente/Centro y los estratos 3/6 aparecen como categorías altamente discriminantes, sugiriendo perfiles socioeconómicos diferenciados por zona.

6.2 MCA (Extensión): Tipo–Zona–Barrio

  • CA es apropiado para 2 categóricas (tabla de contingencia 2D).

  • Con 3 variables (tipo, zona, barrio) el método natural es MCA (Correspondencia Múltiple).

6.3 Ejecutar MCA

(MCA). Las dos primeras dimensiones explican 19,5% de la inercia. Las modalidades que más definen Dim1 son: zona.NA (25%), barrio_lumped.NA (25%), estrato_cat.NA (25%), tipo.NA (25%), Sin info / No aplica ( 0%), Bajo (<=3) ( 0%), Apartamento ( 0%), Zona Sur ( 0%).

Las modalidades que más definen Dim2 son: Zona Oeste (18,0%), 6 (13,2%), 3 (10,2%), santa teresita ( 8,6%), Casa ( 6,9%), Zona Oriente ( 6,0%), normandía ( 5,3%), Otros ( 4,9%).

Hallazgos MCA (modalidades más discriminantes en Dim1–Dim2):

  • zona.NA (distancia≈64.49)
  • barrio_lumped.NA (distancia≈64.49)
  • estrato_cat.NA (distancia≈64.49)
  • tipo.NA (distancia≈64.49)
  • normandía (distancia≈2.54)
  • santa teresita (distancia≈2.49)
  • los cristales (distancia≈2.22)
  • aguacatal (distancia≈1.98)
  • Zona Oriente (distancia≈1.79)
  • Zona Oeste (distancia≈1.68)
  • Zona Centro (distancia≈1.63)
  • 3 (distancia≈1.15)

Estas modalidades aportan fuerte a la estructura del mercado; si aparecen próximas a otras en el mapa, tienden a co-ocurrir(en términos relativos vs el promedio) en la oferta.

7 Visualizaciones ejecutivas

7.1 Oferta por zona y tipo (composición)

Ese heatmap “Zona vs Tipo” está mostrando, dentro de cada zona, qué proporción de la oferta es Apartamento vs Casa (cada fila suma 100%, porque calculas prop = n/sum(n) por zona).

Lo que se puede deducir:

  • Hay zonas con mix sesgado: Zona Oriente se ve más cargada a Apartamento, mientras que en Zona Centro se ve relativamente más Casa (comparando intensidades por fila).

  • Zona Sur luce más balanceada (las dos celdas principales están más cercanas), lo que sugiere un mercado menos “especializado” en un solo tipo.

7.2 Oferta por zona y barrio (Top 20 barrios)

Este heatmap “Zona × Barrio (Top 20)” muestra, dentro de cada zona, qué tan concentrada está la oferta en los 20 barrios más frecuentes (y el resto queda agrupado en Otros). La escala de color representa proporción: celdas más intensas = mayor peso de ese barrio dentro de esa zona (cada fila, conceptualmente, suma ~100% entre los barrios mostrados).

Qué se puede deducir:

  • Concentración vs diversificación por zona: si una zona tiene pocas celdas muy intensas, su oferta está muy concentrada en pocos barrios; si tiene muchas celdas con intensidad media, está más diversificada (en este caso, Zona Sur se ve distribuida en varios barrios top, no en uno solo).

  • Micro-mercados accionables: las celdas más intensas identifican barrios “drivers” de cada zona (útiles para priorizar campañas, inventario, pricing por submercado).

Top barrios por valorización (mediana precio/m² + n):

Este ranking calcula, por barrio_lumped, la mediana de precio_m2 (valorización relativa) y la mediana de preciom, además del tamaño de muestra (n). Se excluyen barrios con n < 10 para evitar sesgos por muestras pequeñas y luego se ordena de mayor a menor precio_m2_med (Top 15). Según el resultado, los barrios con mayor valorización relativa son Santa Teresita (mediana precio/m²≈4.08; n=262), Normandía (≈3.95; n=154) y Pance (≈3.83; n=409).

Mapa de precio/m² (quantiles):

  • Se observan concentraciones de quintiles altos (4–5), indicando micro-mercados premium.

  • Hay zonas mixtas con alta dispersión de quintiles, sugiriendo heterogeneidad de oferta.

  • La geografía muestra estructura, por lo que es útil para segmentación y priorización comercial.

8 Conclusiones y recomendaciones estratégicas

8.1 Conclusiones (basadas en evidencia)

8.2 Conclusiones clave

  1. Estructura del mercado (PCA): PC1 está dominado por log_preciom, log_areaconst, banios, parqueaderos_imp, estrato, interpretándose como un eje de escala/valor total (precio+tamaño+configuración+contexto). PC2 está dominado por log_precio_m2, estrato, habitaciones, piso_num, log_areaconst, interpretándose como valorización por m² / configuración (eficiencia del m² y rasgos del inmueble).

  2. Segmentación (Clustering): Se eligió k=2 por silhouette promedio (≈0,18; global≈0,18), lo que sugiere una separación moderada-baja (clusters con solapamiento). La calidad no es homogénea: el cluster 2 es más consistente (sil≈0,30) y el cluster 1 es más difuso (sil≈0,13). La robustez por submuestras (60%) sugiere un silhouette promedio ≈ 0,222 (sd≈0,055).

  3. Valorización relativa vs precio total: El cluster 1 presenta mayor precio/m² (mediana≈2,84), asociado a unidades más compactas (área med≈100) donde el m² es más costoso; su precio total puede ser menor (preciom med≈300). En contraste, el cluster 2 tiene menor precio/m² (mediana≈2,05), pero mayor área (área med≈222), por lo que el precio total puede ser mayor (preciom med≈420) aunque el m² sea más barato.

  4. Patrones categóricos (CA/MCA): La proximidad en CA/MCA sugiere asociaciones tipo–zona–barrio útiles para portafolio y posicionamiento. La cercanía sugiere asociación en la muestra; no implica causalidad. El mapa MCA debe leerse como exploratorio: Dim1–Dim2 explican ≈ 19,5% de la inercia (señal útil para asociaciones, no para predicción).

8.3 Recomendaciones (acción + justificación)

8.4 Recomendaciones estratégicas (accionables)

8.4.1 Cluster 1 — Intermedio (mercado medio)

  • Perfil: tipo=Apartamento; zona=Zona Sur; barrio=Otros; piso=Sin info / No aplica
  • Medianas: preciom=300; precio/m²=2,84; área=100; hab=3; baños=2; parq=1; estrato≈5
  • Acción recomendada: Portafolio balanceado: competir por comparables del micro-mercado y diferenciar por atributos observables (zona, piso, parqueadero, acabados).
  • Evidencia: diferencias en medianas/boxplots;(silhouette bajo = segmentos con solapamiento).

8.4.2 Cluster 2 — Intermedio (mercado medio)

  • Perfil: tipo=Casa; zona=Zona Sur; barrio=Otros; piso=Bajo (<=3)
  • Medianas: preciom=420; precio/m²=2,05; área=222; hab=4; baños=4; parq=2; estrato≈5
  • Acción recomendada: Portafolio balanceado: competir por comparables del micro-mercado y diferenciar por atributos observables (zona, piso, parqueadero, acabados).
  • Evidencia: diferencias en medianas/boxplots;(silhouette bajo = segmentos con solapamiento).

8.5 Guía operativa para decisiones (compra, venta y valoración)

8.5.1 Reglas sugeridas (base por cluster)

  • Compra (oportunidades): priorizar inmuebles con precio_m2 < P25 de su cluster (subvaloración relativa dentro del segmento).
  • Compra (muy fuerte): precio_m2 < P25 - 0.5*IQR del cluster (más exigente, reduce falsos positivos).
  • Venta / pricing inicial: precio_sugerido ≈ P50(precio_m2 del cluster) × areaconst.
  • Banda de negociación (recomendada): [P25 × areaconst, P75 × areaconst].
  • Comparables: inmuebles del mismo cluster + misma tipología; afinar por zona y tamaño similar.

8.5.2 Nota:

  • Reglas por cluster+tipo+zona se aplican solo si n >= 50. Si no, usar reglas base por cluster.
  • Esto es importante porque el silhouette es bajo: el cluster orienta, pero se valida con comparables.