Modelos multivariados - Informe Unidad 1 - Caso Vivienda

Carolina de la Espriella Alvarez

Modelos Estadísticos Para la Toma de Decisiones

Maestría en Ciencia de Datos

En este informe se presenta en análisis del dataset Vivienda desde diferentes puntos de vista con ayuda de los métodos: Análisis de Componentes Principales (ACP), Análisis de Conglomerados y Análisis de Correspondencia, para finalizar con un resumen general para transmitir de manera efectiva y explicativa los resultados obtenidos.

Exploración de los datos

Inicialmente se realiza una sensibilización con los datos por medio de una exploración general de estos, con el fin de asegurar la calidad de los datos antes de aplicar modelos multivariados; comprender distribuciones, valores atípicos y relaciones iniciales. Esta fase incluye: verificación de estructura, tratamiento de ausentes (imputación simple por media, como en clase), estandarización para métodos que lo requieran y visualizaciones univariantes/bivariantes.

Revisión general

A continuación, se presentan los datos generales del dataset con el fin de identificar de manera ordenada, el número de observaciones y de columnas, el tipo de dato de cada variable (numérica o categórica). Esta lectura rápida permite anticipar qué técnicas aplican a cada subconjunto (cuantitativas para ACP y clustering y cualitativas para correspondencia).

## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : chr [1:8322] NA NA NA "02" ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "problems")=<externalptr>
##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Datos faltantes

Ahora, se desea cuantificar y localizar los ausentes a través de un mapa/tabla de NA por variable, para establecer si los faltantes se concentran en una variable específica o si están dispersos. Además, de distinguir si el patrón podría depender de otra característica (lo que sugiere MAR/MNAR) o si es aleatorio (MCAR).

## # A tibble: 13 × 4
##    variable     tipo       n_na pct_na
##    <chr>        <chr>     <int>  <dbl>
##  1 id           numeric       3   0.04
##  2 zona         character     3   0.04
##  3 piso         character  2638  31.7 
##  4 estrato      numeric       3   0.04
##  5 preciom      numeric       2   0.02
##  6 areaconst    numeric       3   0.04
##  7 parqueaderos numeric    1605  19.3 
##  8 banios       numeric       3   0.04
##  9 habitaciones numeric       3   0.04
## 10 tipo         character     3   0.04
## 11 barrio       character     3   0.04
## 12 longitud     numeric       3   0.04
## 13 latitud      numeric       3   0.04

El conjunto de datos presenta datos faltantes principalmente en piso y parqueaderos, lo cual puede indicar que los usuarios omiten repetitivamente este dato por algún motivo y que los datos faltantes puede que no sean completamente al azar, y en un contexto real sería relevante analizarlo con el proveedor de los datos.

Gráficas

En este apartado, se espera observar la distribución de cada atributo, ademas, dependiendo del tipo de dato identificar, en variables numéricas asimetrías, colas pesadas y posibles valores extremos, ya que tales rasgos condicionan distancias y varianzas, y en variables categóricas importa detectar concentración en pocas categorías o desbalance severo, pues esto afecta la contribución de cada nivel en análisis posteriores.

Interpretaciones

  • estrato: No se observan comportamientos atípicos, se puede ver que hay una mayor concentración de viviendas entre los estratos 4 y 5.
  • preciom: Presenta sesgo a la derecha, reflejando pocas viviendas de valor muy elevado, lo cual podría afectar los estadísticos de distancia sin una estandarización adecuada. Adicionalemente, presenta diversos datos atípicos, lo cual, en el contexto de viviendas podría ser correcto debido a los diversos factores que afectan los precios actualmente.
  • areaconst: Muestra asimetría positiva similar al precio, aunque menos extrema, lo cual afirma la tendencia actual de la reducción en el área de vivienda para la población en general. Sin embargo, se registran viviendas con áreas significativamente mayores, que se categorizan como atípicas.
  • parqueaderos: Se puede resaltar que hay una gran proporción de viviendas sin parqueadero, pero como parte importante para el reporte al área operativa de los datos, se debe alertar sobre los datos atípicos que llegan hasta 10 parqueaderos lo cual no es normal.
  • banios: Se observa una concentración entre 1 a 3 baños, lo cual responde a un comportamiento normal. Sin embargo, hay viviendas con 0 baños y otras con 10, lo cual requiere una revisión y posible necesidad de clasificar los datos debido a que esto puede indicar que hay otro tipo de inmuebles.
  • habitaciones: Acorde con los comentarios anteriores, se observa que la mayor concentración de datos se encuentra en un rango normal, pero se siguen presentando datos atípicos que deben ser revisados.
  • piso: En la distribución de piso se identifica una gran proporción de faltantes como se mencionó en el apartado anterior y se espera brindarle el tratamiento adecuado posteriormente.

Correlaciones

El mapa confirma dos bloques bien definidos. Por un lado, precio, área construida, baños, habitaciones y parqueaderos tienen correlaciones positivas de moderadas a altas (tonos azules). En particular, precio–área es la relación más fuerte del conjunto, seguida por precio–baños/área–baños

El estrato se asocia positivamente con las variables de valor y tamaño (azules), aunque con magnitud algo menor frente a precio–área. Esto sugiere un comportamiento socioeconómico coherente con el mercado (estratos más altos concentran inmuebles más grandes y costosos).

En contraste, latitud y longitud muestran correlaciones bajas y mayoritariamente negativas (tonos cálidos) con el bloque de tamaño/valor. La señal es espacial: a medida que nos desplazamos en una dirección geográfica, cambian sistemáticamente las características y los precios. Entre latitud y longitud la correlación es baja, lo que indica que aportan información complementaria.

Análisis de componentes principales ACP

A continuación se procede a la reducción de dimensionalidad mediante ACP con el fin de identificar ejes latentes que concentren la mayor parte de la variabilidad conjunta de las métricas. Para mantener los supuestos del método, se excluye estrato por su naturaleza ordinal y se trabaja sobre la matriz cuantitativa previamente estandarizada.

Tratamiento de datos faltante

Debido a que este método es sensible a datos faltantes, incialmente, se realiza un gráfico del patrón de valores faltantes, donde cada columna es una variable; cada fila representa un patrón de completitud y el número a la izquierda es la cantidad de registros que siguen ese patrón. El color azul indica dato presente y el rosado dato faltante.

A partir de esta identificación de datos faltantes, se decide imputarlos con su media.

##      preciom areaconst banios habitaciones longitud latitud parqueaderos     
## 6717       1         1      1            1        1       1            1    0
## 1602       1         1      1            1        1       1            0    1
## 1          1         0      0            0        0       0            0    6
## 2          0         0      0            0        0       0            0    7
##            2         3      3            3        3       3         1605 1622

Aspectos relevantes:

  • Cobertura general alta. Hay 6.717 registros completamente observados.
  • Un faltante dominante. Existen 1.602 registros con solo parqueaderos faltante.
  • Casos raros. Se observa 1 registro con 6 variables faltantes y 2 registros con 7 faltantes (filas “1” y “2” con la suma correspondiente en la derecha). Son outliers de calidad de dato y no afectan el panorama global.

Resumen del PCA

A continuación, se muestra, para cada componente, su desviación estándar, la proporción de varianza individual y la proporción acumulada. Con el fin de alcanzar al menos el 70% de la varianza explicada se define que PCA1 al PCA3 son los componentes principales que deben ser abordados.

## Importance of components:
##                           PC1    PC2    PC3    PC4     PC5     PC6     PC7
## Standard deviation     1.8047 1.1128 0.9200 0.8525 0.64077 0.57489 0.43646
## Proportion of Variance 0.4653 0.1769 0.1209 0.1038 0.05865 0.04721 0.02721
## Cumulative Proportion  0.4653 0.6422 0.7631 0.8669 0.92557 0.97279 1.00000
##                      PC1         PC2         PC3         PC4         PC5
## preciom       0.47338926  0.11577241  0.31140064 -0.09599405  0.38893978
## areaconst     0.47055089 -0.16045740  0.01424439 -0.04490433  0.44370803
## parqueaderos  0.40404798  0.05415421  0.37082645 -0.45483504 -0.68576815
## banios        0.47916704 -0.09332928 -0.18241412  0.11105431  0.08435709
## habitaciones  0.33096698 -0.43256039 -0.55522310  0.28159010 -0.36534593
## longitud     -0.20548446 -0.60384103 -0.14700651 -0.71243065  0.19613417
## latitud      -0.09932595 -0.63045591  0.63415768  0.42744632 -0.05008699
##                      PC6         PC7
## preciom      -0.21418775  0.67761612
## areaconst     0.64920129 -0.36369884
## parqueaderos  0.09145051 -0.10384714
## banios       -0.68815817 -0.48518330
## habitaciones  0.15700409  0.39706267
## longitud     -0.15062837  0.05316277
## latitud      -0.05828577 -0.04344472

De manera visual se identifica que el mayor salto entre las varianzas está entre PCA 1 y 2, sin embargo, se considera hasta el PCA 3 con el fin de tener el 76,3% de la varianza explicada y así obtener resultados mas confiables en los análisis posteriores.

Cargas y círculo de correlaciones

En el gráfico se puede observar que el primer componente sintetiza un gradiente de tamaño/valor; ello se evidencia en cargas altas y concordantes de precio, área, baños y habitaciones. A su vez, latitud y longitud conforman un eje de localización geográfica relativamente independiente del anterior, lo cual explica desplazamientos en el plano que no están asociados al tamaño. La variable parqueaderos muestra aporte moderado, coherente con su patrón inicial de ausentes.

Biplot

El mercado muestra superposición entre zonas, con ligeras diferencias sobre la primera dimensión asociadas al tamaño y al valor. Las posiciones más altas en Dim1 corresponden a viviendas con mayor dotación y precio, mientras que Dim2 introduce matices espaciales.

Análisis de conglomerados

Ahora, se implementa el análisis de conglomerados con el objetivo de segmentar viviendas en grupos homogéneos según su perfil cuantitativo.

Inicialmente se identifica la cantidad de observaciones que serán tenidas en cuenta para el modelo:

## [1] 8322

Luego, se realiza el dendograma para identificar cómo se agrupan las observaciones de manera visual.

Ahora, al ordenar de mayor a menor las alturas de fusión, el gráfico exhibe de manera clara los escalones que separan fusiones de alta disonancia de aquellas más finas. Es precisamente ese “quiebre” abrupto el que orienta la elección de un rango razonable de k antes de trazar el corte en el dendrograma.

A partir de estos resultados, se identifica que la distribución de los grupos es altamente desigual:

  • C1: 7.754 casos (93.2%) → clúster masivo, que concentra el “comportamiento base” del mercado.
  • C2: 451 casos (5.4%) → clúster minorista pero relevante, con rasgos distintivos respecto de C1.
  • C3: 47 casos (0.6%) → microsegmento; podría corresponder a un nicho muy específico o a observaciones extremas coherentes entre sí.
  • C4: 70 casos (0.8%) → microsegmento adicional, también compacto bajo el criterio complete.
## grp_complete
##    1    2    3    4 
## 7754  451   47   70

El dendrograma representa la secuencia de fusiones jerárquicas usando distancia euclidiana sobre variables estandarizas. El eje vertical (Height) es la distancia de fusión: cuanto más alta, más diferentes son los grupos que se unieron. Al cortar el árbol en k = 4 (rectángulo rojo), se obtienen cuatro subárboles claramente separados por encima de muchas fusiones de baja altura, lo que respalda la existencia de macrogrupos diferenciados.

## [1] 0.4034143
##   cluster size ave.sil.width
## 1       1 7754          0.42
## 2       2  451          0.19
## 3       3   47          0.01
## 4       4   70          0.27

El gráfico muestra, para cada observación, su ancho de silhouette [−1,1]: valores cercanos a 1 implican asignación muy consistente al clúster, valores aproximados a 0 denotan ambigüedad, y valores negativos sugieren que el punto estaría mejor en otro clúster. La línea punteada marca el promedio global, que aquí se ubica alrededor de 0,4, indicador de separación aceptable a nivel general.

  • Clúster 1 (rojo, 7.754 obs.): concentra la masa del dataset y presenta silhouette mayoritariamente positiva (0,5 en buena parte), lo que confirma alta cohesión interna. La cola negativa al extremo derecho refleja un subconjunto en zona de frontera, pero no compromete la validez del grupo.
  • Clúster 2 (verde, 451 obs.): muestra anchos positivos pero más bajos (banda en torno a 0,2–0,4). Es un segmento diferenciado, aunque cercano al clúster 1 en algunas dimensiones; esa menor separación es consistente con su tamaño intermedio y con la estructura del dendrograma.
  • Clúster 3 (azul, 47 obs.) y Clúster 4 (morado, 70 obs.): exhiben silhouette cerca de 0 (algunas observaciones levemente negativas). Son microsegmentos, existen como grupos compactos, pero con separación débil respecto al resto.

Conclusión general del modelo: con k = 4 se obtiene una partición coherente: un clúster principal bien definido (C1), un submercado cercano pero distinguible (C2) y dos nichos pequeños (C3–C4) cuya separabilidad es limitada. Para la toma de decisiones, C1 define el estándar del mercado; C2 puede requerir tácticas específicas; C3–C4 deben perfilase con cautela: si representan propuestas de valor claras, se comunican como nichos, y si reflejan ruido o casos extremos, se tratan como segmentos de baja prioridad en acciones masivas.

Análisis de correspondencia

Finalmente, se exploran asociaciones entre categorías mediante Análisis de Correspondencia. A diferencia de las técnicas previas, aquí no se emplean métricas continuas, sino tablas de contingencia que recogen la relación entre dos variables cualitativas que en este caso serán zona y estrato.

Inicialmente, se identifican datos faltantes en los atributos de interés y se eliminan los na debido a que son muy pocos y no afectarían al resultado del análisis:

##      zona estrato  
## 3999    1       1 0
## 1       0       0 2
##         1       1 2

Luego, se construye la tabla cruzada y se aplica la prueba \(X^2\) de independencia, con el fin de observar el valor‑p y el estadístico, ya que, si se rechaza la hipótesis de independencia (valor‑p < 0.05), se justifica avanzar al mapa factorial para describir qué asociaciones específicas explican dicha dependencia.

##               
##                Estrato3 Estrato4 Estrato5 Estrato6
##   Zona Centro        50        8        3        0
##   Zona Norte        265      168      393       82
##   Zona Oeste         24       38      147      377
##   Zona Oriente      170        0        1        0
##   Zona Sur          180      776      809      508
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 1933.4, df = 12, p-value < 2.2e-16

Ahora, se construye el biplot de correspondencia con el fin de identificar la distancia al origen y la proximidad entre puntos para tener una idea visual de su contrinución y asociación entre variables.

El plano Dim1–Dim2 explica 96.4% de la inercia total (Dim1 = 69.8%, Dim2 = 26.6%), de modo que la lectura en dos dimensiones es fiable. En este tipo de biplot, la proximidad entre puntos indica asociación relativa respecto a la independencia; a su vez, los puntos alejados del origen aportan más a las dimensiones, mientras que los cercanos al (0,0) tienen contribución baja y deben interpretarse con cautela.

  • Eje 1 (Dim1) concentra el principal gradiente del cruce zona–estrato. En el lado derecho se ubican Zona Oriente y Zona Centro, y en esa misma dirección aparece Estrato 3; esto sugiere afinidad de estas zonas con dicho estrato. En el lado izquierdo de Dim1 se sitúan Zona Oeste y los estratos 6 y 4. La cercanía entre “Zona Oeste” y “Estrato 6” indica una asociación marcada entre ambos niveles.
  • Eje 2 (Dim2) aporta un matiz adicional: Zona Oeste y Estrato 6 comparten no solo el signo negativo en Dim1, sino también valores positivos en Dim2, reforzando su vínculo; en contraste, Estrato 4 cae en el cuadrante inferior izquierdo, separándose verticalmente y señalando un patrón distinto dentro del mismo lado de Dim1. Zona Sur y Estrato 5 aparecen muy próximos al origen, lo que implica baja contribución y asociación débil con las dimensiones dominantes. Zona Norte también queda cerca del origen, de modo que no muestra una afinidad fuerte con un estrato particular en este plano; su comportamiento es relativamente neutro.
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.33730884              69.767822                          69.76782
## dim 2 0.12866848              26.613355                          96.38118
## dim 3 0.01749605               3.618823                         100.00000

De acuerdo con estos resultados, se muestra que la Dimensión 1 explica 69,8% de la inercia y Dimensión 2 aporta 26,6% adicionales; en conjunto, las dos primeras dimensiones concentran 96,4% de la variabilidad del cruce (zona × estrato). La Dimensión 3 es residual (3,6%), por lo que no añade información sustantiva. En AC, estas proporciones se interpretan como la fracción del \(χ^2\) total (inercia) que captura cada eje; por tanto, representar los puntos en el plano Dim1–Dim2 es fiel y suficiente para interpretar asociaciones sin distorsiones relevantes.

Conclusión general del modelo: Con un 96% de inercia capturada por dos ejes, el mapa factorial resume con solvencia la estructura del cruce zona × estrato. El patrón es claro:

  • Asociaciones fuertes entre Zona Oriente/Centro y Estrato 3, y entre Zona Oeste y Estrato 6 (puntos alejados del origen y próximos entre sí).
  • Categorías neutras como Zona Sur y Estrato 5, cercanas al origen, cuya distribución se asemeja al promedio y no muestran afinidad marcada.
  • Un matiz vertical (Dim2) que separa Estrato 4 dentro del mismo lado de Dim1, sugiriendo un patrón propio.

Informe Gerencial

El presente informe resume, los principales hallazgos del análisis del conjunto vivienda, elaborado con información inmobiliaria estructurada (precio, área, baños, habitaciones, parqueaderos y localización, entre otras variables).

El objetivo central es convertir los resultados analíticos en información útil para la gestión. Para ello, se presentan conclusiones de valor práctico, se muestran visualizaciones comprensibles y se indican implicaciones para la estrategia (producto, territorio y precios).

Este análisis está estructurado de la siguiente manera: diagnostico del estado actual de los datos; sintetiza la información en ejes interpretables (ACP); segmentación la base en grupos accionables (conglomerados), y evidencia asociaciones entre categorías relevantes (correspondencia).

Descripción de los datos

Los datos utilizados como base para este análisis se cuenta con métricas cuantitativas (precio, área, baños, habitaciones, parqueaderos y coordenadas) y variables categóricas (zona, entre otras).

En términos gerenciales, dos aspectos son críticos:

  • Datos faltantes: si no se gestionan, pueden sesgar conclusiones o reducir el tamaño útil de la muestra. Aquí los faltantes se concentran en parqueaderos; para no perder información, se imputó con valores promedio (criterio didáctico), lo cual estabiliza los modelos pero suaviza diferencias reales en esa variable.
  • Datos atípicos: precios o áreas inusualmente altos no invalidan el análisis, pero influyen en la lectura de dispersiones y, por tanto, en decisiones de rango de precio. Al estandarizar las métricas, se evita que estos casos dominen los resultados.
Resumen ejecutivo de variables numéricas
variable NAs min p50 mean max
areaconst 3 30.00000 123.000 174.934938 1745.0000
banios 3 0.00000 3.000 3.111311 10.0000
habitaciones 3 0.00000 3.000 3.605361 10.0000
latitud 3 3.33300 3.416 3.417644 3.4977
longitud 3 -76.58915 -76.530 -76.528606 -76.4630
parqueaderos 1605 1.00000 2.000 1.835194 10.0000
preciom 2 58.00000 330.000 433.891947 1999.0000

Modelos estadísticos aplicados

Análisis de componentes principales ACP

Objetivo: Simplificar la lectura de muchas métricas en pocos ejes comprensibles, de modo que sea fácil explicar qué distingue a unas viviendas de otras.

Beneficio esperado: Identificar el eje de valor/tamaño que ordena el mercado y un eje espacial que introduzca matices por ubicación.

Resultados principales: El ACP concentra cerca del 76% de la información en tres componentes. El primero resume el tamaño y la dotación (área, baños, habitaciones) junto con el precio; el segundo y tercero incorporan ubicación geográfica (latitud/longitud).

Análisis de conglomerados

Objetivo: Segmentar el mercado en grupos accionables para orientar estrategia de producto y precios.

Beneficio esperado: Contar con perfiles claros de vivienda que faciliten decisiones: qué ofrecer, a qué precio y en qué territorio.

Resultados principales: Con 4 clústeres, se observa un grupo principal que concentra la mayor parte de la base (93%), un subgrupo diferenciado (5%) y dos nichos pequeños (<1% cada uno). El grupo principal marca el estándar del mercado; el segundo sugiere tácticas específicas, y los nichos aportan una lectura de oportunidades puntuales o de casos extremos que deben tratarse con cautela.

Perfil ejecutivo por clúster (media por variable)
cluster preciom areaconst banios habitaciones parqueaderos longitud latitud
1 374.1743 152.6533 2.938589 3.503032 1.670698 -76.52786 3.418505
2 1241.3703 435.9955 5.490022 4.995565 3.162963 -76.54114 3.410083
3 1214.1277 983.4468 5.106383 5.340426 4.756098 -76.52297 3.391334
4 1320.8571 417.3143 5.571429 4.814286 7.014286 -76.53462 3.388675

Análisis de correspondencia

Objetivo: Detectar afinidades entre las categorías zona–estrato, útiles para el mix de producto y la focalización territorial.

Beneficio esperado: Alineamiento de portafolio y mensaje con el perfil predominante de cada zona (evitando estrategias homogéneas donde el comportamiento es distinto).

Resultados principales: Con dos ejes se explica 96% de la variación del cruce zona–estrato. Se observan asociaciones claras, por ejemplo, Zona Oriente/Centro con Estrato 3, y Zona Oeste con Estrato 6; en cambio, Zona Sur y Estrato 5 se comportan de forma cercana al promedio (sin afinidades marcadas). Esto facilita decisiones focalizadas por territorio–perfil.

Conclusiones generales

En síntesis, el mercado analizado se organiza principalmente por un eje de tamaño y dotación que, de forma natural, se traduce en rango de precios. Este patrón, consistente a lo largo del análisis, permite alinear la definición de escalas de producto con expectativas de precio.

La segmentación en cuatro clústeres confirma la presencia de un perfil mayoritario y de submercados con necesidades específicas. Por tanto, se recomienda gestionar el catálogo y los precios tomando como referencia el clúster principal, al tiempo que se diseñan ofertas diferenciadas para el subgrupo intermedio. Los microsegmentos, por su tamaño, deben abordarse como nichos o casos de baja prioridad en acciones masivas.

Por su parte, el análisis de correspondencia corrobora asociaciones territoriales: ciertas zonas muestran afinidades con estratos específicos. En consecuencia, conviene priorizar combinaciones zona–estrato donde la evidencia es más fuerte y mantener mensajes generales en categorías cercanas al promedio.

Aspectos a monitorear. 1. La variable parqueaderos presentó el mayor volumen de faltantes que, aunque se imputó para no perder casos, es recomendable mejorar su captura para afinar la lectura de dotación. 2. La existencia de valores atípicos en precio/área sugiere comunicar resultados usando medianas/percentiles cuando el público sea sensible a rangos.