PCA + Segmentación (Gower/PAM) + CA/MCA · Reporte reproducible
En este informe se realiza un análisis integral del mercado inmobiliario urbano usando técnicas multivariadas:
EDA (calidad, faltantes, sesgos, outliers, relaciones clave).
PCA para identificar los principales ejes de variación en atributos que influyen en el mercado (precio/oferta).
Clustering (Gower + PAM) para segmentar propiedades en grupos homogéneos accionables.
CA + MCA (Correspondencia simple y múltiple) para revelar patrones entre variables categóricas (tipo, zona, barrio) y su estructura.
Propósito: detectar oportunidades, orientar inversión y mejorar decisiones comerciales en un entorno competitivo.
Este análisis responde explícitamente:
preciom y precio_m2?## Filas: 8.322 | Columnas: 13
## Rows: 8,322
## Columns: 13
## $ id <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona <chr> "Zona Oriente", "Zona Oriente", "Zona Oriente", "Zona Sur…
## $ piso <chr> NA, NA, NA, "02", "01", "01", "01", "01", "02", "02", "02…
## $ estrato <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo <chr> "Casa", "Casa", "Casa", "Casa", "Apartamento", "Apartamen…
## $ barrio <chr> "20 de julio", "20 de julio", "20 de julio", "3 de julio"…
## $ longitud <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…
El dataset contiene 8.322 registros y 13 variables. Las variables combinan atributos físicos (área, habitaciones, baños, parqueaderos), ubicación (zona, barrio, latitud/longitud) y contexto socioeconómico (estrato).
preciom) y
valor relativo (precio_m2).La variable id presenta alta unicidad (prop. únicos ≈
100.0%), por lo que se trata como
identificador y se excluye de PCA/Clustering/CA/MCA. La
calidad general del dataset es alta: precio, área y ubicación tienen
faltantes mínimos (2–3 registros).
Los principales problemas de completitud están en piso (~31,7% NA) y parqueaderos (~19,3% NA).
## [1] 1
Duplicados exactos detectados: 1. Ese registro se eliminó para evitar que “infle” conteos y sesgue promedios y segmentaciones (clustering).
Se evidencia que zona, tipo, barrio y piso vienen como texto; piso contiene formatos tipo “02” y NA.
Se transformó piso a piso_num (entero) y se
creó piso_cat para lectura ejecutiva. La proporción de NA
en piso_num es 31.7% (puede no aplicar a
ciertos tipos de vivienda).
La variable con mayor proporción de faltantes es piso
con 31.7%. Un faltante alto puede ser
MAR (condicionado por tipo/zona/estrato) o
MNAR (condicionado por el propio valor). Para variables
con faltante elevado se prefiere imputación condicional y/o un indicador
de missingness.
Los faltantes no son aleatorios: cambian fuerte según tipo y estrato, lo que respalda un mecanismo MAR (Missing At Random condicionado por perfil del inmueble).
parqueaderos tiene NA muy altos en estrato 3 (≈53% en apartamentos y ≈52% en casas) y cae drásticamente en estratos altos (≈5–8% en estrato 6): esto sugiere diferencias de registro/oferta por nivel socioeconómico.
piso_num también depende del tipo: en casas el NA es mayor (≈36–46%) que en apartamentos (≈25–31%), consistente con que “piso” no aplica o no se reporta en muchas casas; en cambio baños y habitaciones aparecen completos (0% NA).
En vivienda urbana, banios=0 o habitaciones=0 suele indicar faltante codificado o registro atípico.
Se detectaron 45 registros con banios=0
y 66 con habitaciones=0.
La tabla por tipo/zona sirve para ver si esos “ceros” se concentran en algún segmento específico (lo que reforzaría que es un problema de captura/registro, no del mercado).
para este caso conviene reclasificar esos 0 como NA antes de imputar/modelar.
parqueaderos: faltante alto → imputación condicional + indicador.
Faltantes bajos (2–3): imputación robusta por grupos (tipo/estrato).
Se aplicó imputación condicional (por tipo y
estrato) para variables numéricas con NA. Este enfoque es
explicable y consistente con un mecanismo MAR: el
faltante depende del perfil del inmueble.
Indicador de faltante (parqueaderos): se crea parq_missing (=1 si parqueaderos es NA, 0 si no). Esto guarda una “bandera” de calidad/ausencia de dato que puede ser informativa (por ejemplo, ciertos tipos de vivienda o estratos reportan menos parqueaderos).
Imputación condicional de parqueaderos: si parqueaderos está en NA, se reemplaza por la mediana del grupo (tipo, estrato) (parqueaderos_imp). Esto es mejor que una mediana global porque respeta el contexto del inmueble (MAR: el faltante depende del perfil).
Imputación del resto de numéricas: para preciom, areaconst, banios, habitaciones, piso_num, se rellena NA con la mediana por (tipo, estrato) y si en algún grupo la mediana no es válida (ej. grupo vacío o todo NA), se usa un fallback global.
Queda una base sin NA en variables clave, pero es más estable para análisis multivariado
Se construyó precio_m2 y se aplicaron transformaciones
log1p para estabilizar distribuciones. Indicador de
asimetría (Pearson 2) aproximado:
preciom≈0,95,
areaconst≈1,09 (valores positivos sugieren
cola derecha).
precio_m2 (preciom/areaconst): convierte el precio total en valor relativo por tamaño, permitiendo comparar inmuebles grandes vs pequeños en condiciones más justas.
Se aplica log1p() a preciom, areaconst y precio_m2: en mercado inmobiliario suele haber cola derecha (pocos inmuebles muy caros o muy grandes). El log reduce el impacto de esos extremos, estabiliza varianza y evita que el PCA/clustering quede dominado por valores premium.
se verifican con un indicador de asimetría (Pearson 2): el resultado fué positivo para preciom (~0,95) y areaconst (~1,09), lo que confirma asimetría positiva (media > mediana).
| Name | vivienda3 %>% select(all_… |
| Number of rows | 8321 |
| Number of columns | 7 |
| _______________________ | |
| Column type frequency: | |
| numeric | 7 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| preciom | 0 | 1 | 433.88 | 328.63 | 58.00 | 220.00 | 330.00 | 540.00 | 1999.00 | ▇▂▁▁▁ |
| areaconst | 0 | 1 | 174.92 | 142.95 | 30.00 | 80.00 | 123.00 | 229.00 | 1745.00 | ▇▁▁▁▁ |
| precio_m2 | 0 | 1 | 2.72 | 1.08 | 0.15 | 1.92 | 2.64 | 3.38 | 9.47 | ▃▇▂▁▁ |
| parqueaderos_imp | 2 | 1 | 1.71 | 1.06 | 1.00 | 1.00 | 1.00 | 2.00 | 10.00 | ▇▁▁▁▁ |
| banios | 0 | 1 | 3.13 | 1.41 | 1.00 | 2.00 | 3.00 | 4.00 | 10.00 | ▇▇▃▁▁ |
| habitaciones | 0 | 1 | 3.64 | 1.43 | 1.00 | 3.00 | 3.00 | 4.00 | 10.00 | ▂▇▂▁▁ |
| estrato | 2 | 1 | 4.63 | 1.03 | 3.00 | 4.00 | 5.00 | 5.00 | 6.00 | ▅▆▁▇▆ |
Para preciom, la media (433,9) es mayor
que la mediana (330), lo cual sugiere asimetría
positiva (mercado con cola de propiedades premium). Para
areaconst, media (174,9) > mediana
(123), patrón consistente con inmuebles de gran metraje
en el extremo superior.
areaconst: media 174.9 > mediana 123 → pocos metrajes grandes elevan la media.
Deducción de negocio: el mercado está dominado por oferta “media”, con un segmento premium pequeño pero influyente.
La mayor proporción de outliers por IQR aparece en
habitaciones con (822; 9.9%). Le siguen
parqueaderos_imp (567; 6.8%) y
preciom (552; 6.6%).
Los outliers en habitaciones/parqueaderos suelen reflejar inmuebles “no típicos” (propiedades grandes, multifamiliares, o registros extremos) y pueden afectar promedios.
Los outliers en precio y área son coherentes con un mercado con segmento premium (pocas propiedades muy grandes/muy caras). No necesariamente son “errores”: pueden ser oportunidades/nichos.
La relación precio-área muestra el patrón esperado (a mayor área, mayor precio), con correlación aproximada r=0,69.
Precio vs área: relación positiva clara con r ≈ 0,69 (fuerte señal de mercado). A igual área hay variación de precio → ubicación/estrato/tipo influyen mucho.
Precio por estrato: las medianas suben con el estrato; estrato 6 tiene mayor nivel y dispersión → mercado premium más heterogéneo.
Precio por tipo: Casas muestran mediana más alta que apartamentos → mayor tamaño/terreno/atributos; útil para segmentación y pricing.
Se toma la decisión de agrupar barrios raros
Barrio tiene 436 niveles, con una
oferta muy concentrada en pocos y una cola larga de barrios raros. Para
que el MCA sea legible y estable,se creó barrio_lumped y se
agrupan barrios con <1% de frecuencia. Así barrio_lumped queda en
18 niveles, mejorando interpretabilidad y decisiones
por micro-mercados.
Se observa concentración por colores (clusters geográficos): varias zonas forman “manchas” relativamente compactas. Eso sugiere que zona sí captura estructura espacial real (macro-segmentación del territorio).
También hay zonas que se solapan en bordes o áreas intermedias: es normal, porque los límites de zonas no son perfectos y puede haber barrios de transición.
La presencia de correlaciones entre atributos respalda el uso de PCA para reducir redundancia y extraer ejes latentes del mercado.
areaconst aparece con correlaciones positivas con banios, habitaciones y parqueaderos_imp. A mayor metraje, normalmente hay más habitaciones/baños y más parqueaderos. Es el patrón típico del mercado.
preciom está positivamente asociado con areaconst y también con estructura fisica (baños/habitaciones/parqueaderos). El precio total sube con el tamaño y con la “configuración” del inmueble (comodidad/funcionalidad).
precio_m2 suele correlacionar menos con areaconst porque es un precio relativo.Dos inmuebles pueden tener el mismo precio total por ser grandes/pequeños, pero el precio/m² captura valorización del “micro-mercado” (ubicación, estrato, demanda, etc.). Por eso su relación con tamaño puede ser más débil o diferente.
estrato tiende a tener correlación positiva con precios (total y/o por m²). Estrato funciona como proxy de poder adquisitivo/zonificación: a mayor estrato, típicamente mayor valorización y mejores características.
latitud y longitud tienen entre sí una relación marcada y además muestran correlaciones (a veces débiles/moderadas) con otras variables. Hay un componente espacial: moverse en el mapa (cambiar lat/long) se asocia con cambios de estrato y precios, lo cual es normal si ciertas zonas son más valorizadas.
El mercado tiene dos fuerzas principales mezcladas:
Escala/estructura del inmueble (área + habitaciones/baños/parqueaderos)
Valorización socio-espacial (estrato + ubicación, capturada más por precio/m²)
PCA se aplica a variables numéricas estandarizadas para reducir dimensionalidad y detectar drivers de variación del mercado.
Se prefieren variables transformadas (log_*) para evitar dominancia de colas.
Aplicamos PCA sobre variables numéricas del inmueble para reducir dimensionalidad e identificar los principales ejes de variación del mercado. Como las variables están en escalas distintas, se estandarizan, por lo que el análisis es equivalente a trabajar sobre la matriz de correlaciones. Se excluyen identificadores y coordenadas (lat/long) para que los componentes reflejen drivers estructurales (valor, tamaño y configuración) y no únicamente geografía.
(PCA). Los dos primeros componentes explican 73,2% de la variación. Para alcanzar al menos 80% de varianza explicada se requieren 3 componentes. Se usarán PC1–PC2 para visualización y el conjunto de PCs hasta 80% para interpretación global.
PC1 explica 46,6% de la variación total: es el driver dominante. En inmobiliaria, casi siempre representa un eje fuerte tipo “escala/valor” (tamaño + precio), aunque la confirmación exacta sale de las cargas/contribuciones.
PC2 explica 26,6% adicional. PC1+PC2 = 73,2%: con solo 2 dimensiones ya se resumen casi tres cuartas partes de la estructura del mercado.
PC3 aporta 9,9% y con esto se llega al 83,1% acumulado. Por eso es claro que para superar 80% se necesita de 3 componentes.
A partir de PC4 en adelante, cada componente aporta poco (≈6,3%, 5,0%, 2,8%…), lo que indica rendimientos decrecientes: ya no agregan “señal” grande, sino detalles finos/ruido.
* PC1 / Dim1 (≈ 46.6% de la varianza): “nivel/tamaño
premium” Está dominado por log_preciom (~23%), log_areaconst (~21%),
baños (~20.7%), parqueaderos (~15.7%) y estrato (~10.3%).
Al moverse hacia la derecha en Dim1, se tiende a ver inmuebles más caros (precio total), más grandes y con más caracteristicas (baños/parqueaderos), y en estratos más altos.
PC2 / Dim2 (≈ 26.6%): “intensidad del precio (m²) + perfil socio/ configuración” Está dominado por log_precio_m2 (~37.5%), estrato (~19.4%), habitaciones (~18.5%), piso (~15.3%) (y algo de log_areaconst).
Hacia arriba en Dim2 se agrupan inmuebles con mayor precio por m² y, típicamente, mayor estrato. Hacia abajo suelen quedar propiedades donde pesa más el metraje/ configuración (casas grandes con más habitaciones pueden tener precio/m² relativamente menor).
círculo de correlaciones
log_preciom se alinea con parqueaderos/baños ⇒ “premium” suele venir con mejores configuraciones.
log_precio_m2 apunta muy fuerte en Dim2 ⇒ es el driver de “precio relativo”.
log_areaconst y habitaciones tienden a ir hacia la zona baja-derecha ⇒ señal de “tamaño/configuración” que no siempre implica precio/m² alto.
Por lo que se puede decir que:
PC1 captura un eje premium/tamaño (precio total, área, baños, parqueaderos, estrato).
PC2 captura precio por m² + perfil socio/configuración (precio_m2, estrato, habitaciones, piso).
Con PC1–PC2 es posible segmentar el mercado y detectar grupos: premium intenso, premium por tamaño, pequeños caros por m², y base.
El objetivo es agrupar propiedades en segmentos homogéneos para orientar estrategias. Dado que tenemos variables mixtas (numéricas + categóricas), se usa:
Distancia de Gower (maneja datos mixtos sin distorsión).
PAM (k-medoids) (más robusto a outliers que k-means).
Selección de k vía silhouette promedio.
## [1] 2
## [1] 0.1818364
(Clustering). El mejor k según silhouette es 2 con silhouette promedio 0,18, calidad débil (segmentos poco definidos; revisar variables o k). Este criterio evalúa cohesión interna y separación entre clusters.
El dendrograma jerárquico con distancia Gower sugiere una estructura de
similitud continua, sin saltos muy pronunciados. Al cortar en k=2 se
obtienen dos macro-segmentos, coherentes con el silhouette (≈0,18) que
indica separación débil. Incrementar k produciría subsegmentos más
finos, pero con fronteras difusas entre grupos.
##
## 1 2
## 5839 2482
## cluster size ave.sil.width
## 1 1 5839 0.13
## 2 2 2482 0.30
## **Robustez:** silhouette promedio en submuestras (60%): media=0.222, sd=0.055.
Se ajustó PAM (k-medoids) con distancia Gower (datos mixtos) y se seleccionó k=2. Los clusters tienen 5.839 y 2.482 inmuebles; la calidad es débil (silhouette global ≈ 0,18, submuestras ≈ 0,22), indicando solapamiento entre segmentos. El Cluster 2 es más consistente (avg silhouette ≈ 0,30) mientras que el Cluster 1 es más heterogéneo (≈ 0,13), sugiriendo subperfiles internos.
El clustering separa dos perfiles: (1) apartamentos de ~100 m² con precio/m² alto (~2,85) y precio total menor (valorización por m²), y (2) casas de ~222 m² con precio/m² bajo (~2,05) y precio total mayor (valor por espacio). Ambos perfiles se concentran en Zona Sur y estrato ~5; barrio_top=Otros proviene de barrio_lumped (agrupación de barrios de baja frecuencia).
Cada cluster se nombra con base en su valorización relativa (precio/m²) y su tipología dominante.
(Segmentos). A continuación se describen segmentos con medianas robustas y categorías dominantes:
Regla de decisión (negocio). Clusters con
precio_m2 alto suelen representar zonas de mayor
valorización relativa; clusters con área y
precio altos suelen corresponder a inmuebles premium.
Etiquetas cluster
Segmento de alta valorización por m² (más “premium relativo”), típicamente compacto.
Segmento más amplio (mayor metraje y precio total), con mejor valor por espacio (precio/m² menor).
Los boxplots confirman que los clusters sí se diferencian
económicamente: uno tiene mayor precio total y el otro mayor precio/m².
En PCA/PCoA se ve separación principalmente en el eje 1, aunque con
solape (segmentos tipo “gradiente”, coherente con silhouette
moderado/bajo). En el mapa los clusters se mezclan, pero aparecen
bolsones de concentración, sugiriendo micro-mercados más que fronteras
geográficas rígidas.
Detalles:
Boxplot de precio por cluster: el cluster con mediana más alta representa propiedades más costosas en valor absoluto (típicamente más grandes / más dotación).
Boxplot de precio_m2 por cluster: el cluster con mediana más alta captura mayor valorización relativa (mercado “premium por m²”, incluso si el precio total no es el mayor).
Puntos en PCA (PC1 vs PC2): hay estructura (no es ruido), pero no separación perfecta → es normal cuando el mercado es continuo; los clusters son perfiles dominantes, no “dos mundos” totalmente aislados.
PCoA/MDS sobre distancia Gower: aquí la separación se ve más clara porque se está visualizando en el mismo “lenguaje” del clustering (Gower). Si se separan en este plano, es una buena validación geométrica del agrupamiento.
Mapa (lat/long coloreado por cluster): si hay zonas donde un color domina, eso sugiere segmentación espacial (micro-mercados). Si están muy mezclados, indica que los clusters están explicados más por estructura/valor que por geografía pura.
## **CA (Zona × Estrato).**
## - Se construye la tabla de contingencia Zona×Estrato.
## - Se aplica Chi-cuadrado para evaluar independencia.
## **Chi-cuadrado:** X²=3830.44, gl=12, p-value=<2e-16
## **Hallazgos CA (categorías más discriminantes en Dim1–Dim2):**
## - Zona: Zona Oriente (dist≈2.09)
## - Zona: Zona Centro (dist≈1.76)
## - Estrato: 3 (dist≈1.2)
## - Zona: Zona Oeste (dist≈0.97)
## - Estrato: 6 (dist≈0.75)
## - Zona: Zona Norte (dist≈0.42)
## - Estrato: 4 (dist≈0.41)
## - Zona: Zona Sur (dist≈0.28)
##
## Categorías cercanas en el mapa tienden a co-ocurrir (en términos relativos vs el promedio); categorías opuestas sugieren perfiles distintos.
Chi-cuadrado muy significativo (p < 2e-16) : Zona y estrato NO son independientes: la distribución de estratos cambia según la zona (hay asociación real en los datos).
Inercia explicada: Dim1 = 70% y Dim2 = 27.7% (≈ 97.7% entre ambas) : con 2 ejes ya capturas casi toda la estructura Zona–Estrato.
De manera que:
Zona Oriente y Zona Centro quedan a la derecha y lejos del origen : son de las zonas más discriminantes y comparten un perfil similar en la asociación con estratos.
Estrato 3 también aparece muy lejos del origen y hacia el mismo lado : sugiere que una parte importante de la estructura del cruce está marcada por la relación Oriente/Centro ↔︎ Estrato 3 (comparado contra el promedio).
Zona Oeste está arriba-izquierda y relativamente alejada : se asocia más con un perfil distinto; por su cercanía visual, tiende a alinearse más con Estrato 6.
Zona Sur queda cerca de Estrato 5 (zona de ligera asociación) y Zona Norte más cerca del centro : Norte parece más mezclada / menos extrema en términos de estrato.
Top drivers: Zona Oriente, Zona Centro, Estrato 3, Zona Oeste, Estrato 6 : son las categorías que más “explican” la separación del mapa.
El CA evidencia una asociación estadísticamente significativa entre zona y estrato; el patrón se explica casi totalmente en dos dimensiones (≈97.7%), donde Oriente/Centro y los estratos 3/6 aparecen como categorías altamente discriminantes, sugiriendo perfiles socioeconómicos diferenciados por zona.
CA es apropiado para 2 categóricas (tabla de contingencia 2D).
Con 3 variables (tipo, zona, barrio) el método natural es MCA (Correspondencia Múltiple).
(MCA). Las dos primeras dimensiones explican 19,5% de la inercia. Las modalidades que más definen Dim1 son: zona.NA (25%), barrio_lumped.NA (25%), estrato_cat.NA (25%), tipo.NA (25%), Sin info / No aplica ( 0%), Bajo (<=3) ( 0%), Apartamento ( 0%), Zona Sur ( 0%).
Las modalidades que más definen Dim2 son: Zona Oeste (18,0%), 6 (13,2%), 3 (10,2%), santa teresita ( 8,6%), Casa ( 6,9%), Zona Oriente ( 6,0%), normandía ( 5,3%), Otros ( 4,9%).
Hallazgos MCA (modalidades más discriminantes en Dim1–Dim2):
Estas modalidades aportan fuerte a la estructura del mercado; si aparecen próximas a otras en el mapa, tienden a co-ocurrir(en términos relativos vs el promedio) en la oferta.
Ese heatmap “Zona vs Tipo” está mostrando, dentro de cada zona, qué
proporción de la oferta es Apartamento vs Casa (cada fila suma 100%,
porque calculas prop = n/sum(n) por zona).
Lo que se puede deducir:
Hay zonas con mix sesgado: Zona Oriente se ve más cargada a Apartamento, mientras que en Zona Centro se ve relativamente más Casa (comparando intensidades por fila).
Zona Sur luce más balanceada (las dos celdas principales están más cercanas), lo que sugiere un mercado menos “especializado” en un solo tipo.
Este heatmap “Zona × Barrio (Top 20)” muestra, dentro de cada zona, qué
tan concentrada está la oferta en los 20 barrios más frecuentes (y el
resto queda agrupado en Otros). La escala de color representa
proporción: celdas más intensas = mayor peso de ese barrio dentro de esa
zona (cada fila, conceptualmente, suma ~100% entre los barrios
mostrados).
Qué se puede deducir:
Concentración vs diversificación por zona: si una zona tiene pocas celdas muy intensas, su oferta está muy concentrada en pocos barrios; si tiene muchas celdas con intensidad media, está más diversificada (en este caso, Zona Sur se ve distribuida en varios barrios top, no en uno solo).
Micro-mercados accionables: las celdas más intensas identifican barrios “drivers” de cada zona (útiles para priorizar campañas, inventario, pricing por submercado).
Top barrios por valorización (mediana precio/m² + n):
Este ranking calcula, por barrio_lumped, la mediana de precio_m2 (valorización relativa) y la mediana de preciom, además del tamaño de muestra (n). Se excluyen barrios con n < 10 para evitar sesgos por muestras pequeñas y luego se ordena de mayor a menor precio_m2_med (Top 15). Según el resultado, los barrios con mayor valorización relativa son Santa Teresita (mediana precio/m²≈4.08; n=262), Normandía (≈3.95; n=154) y Pance (≈3.83; n=409).
Mapa de precio/m² (quantiles):
Se observan concentraciones de quintiles altos (4–5), indicando micro-mercados premium.
Hay zonas mixtas con alta dispersión de quintiles, sugiriendo heterogeneidad de oferta.
La geografía muestra estructura, por lo que es útil para segmentación y priorización comercial.
Estructura del mercado (PCA): PC1 está dominado por log_preciom, log_areaconst, banios, parqueaderos_imp, estrato, interpretándose como un eje de escala/valor total (precio+tamaño+configuración+contexto). PC2 está dominado por log_precio_m2, estrato, habitaciones, piso_num, log_areaconst, interpretándose como valorización por m² / configuración (eficiencia del m² y rasgos del inmueble).
Segmentación (Clustering): Se eligió k=2 por silhouette promedio (≈0,18; global≈0,18), lo que sugiere una separación moderada-baja (clusters con solapamiento). La calidad no es homogénea: el cluster 2 es más consistente (sil≈0,30) y el cluster 1 es más difuso (sil≈0,13). La robustez por submuestras (60%) sugiere un silhouette promedio ≈ 0,222 (sd≈0,055).
Valorización relativa vs precio total: El cluster 1 presenta mayor precio/m² (mediana≈2,84), asociado a unidades más compactas (área med≈100) donde el m² es más costoso; su precio total puede ser menor (preciom med≈300). En contraste, el cluster 2 tiene menor precio/m² (mediana≈2,05), pero mayor área (área med≈222), por lo que el precio total puede ser mayor (preciom med≈420) aunque el m² sea más barato.
Patrones categóricos (CA/MCA): La proximidad en CA/MCA sugiere asociaciones tipo–zona–barrio útiles para portafolio y posicionamiento. La cercanía sugiere asociación en la muestra; no implica causalidad. El mapa MCA debe leerse como exploratorio: Dim1–Dim2 explican ≈ 19,5% de la inercia (señal útil para asociaciones, no para predicción).
precio_m2 < P25 de su cluster
(subvaloración relativa dentro del segmento).precio_m2 < P25 - 0.5*IQR del cluster
(más exigente, reduce falsos positivos).precio_sugerido ≈ P50(precio_m2 del cluster) × areaconst.[P25 × areaconst, P75 × areaconst].n >= 50. Si no, usar reglas base por cluster.