La presente actividad aborda un análisis integral del mercado de vivienda urbana con base en un conjunto de datos obtenido mediante web scraping de OLX e incorporado en el paquete paqueteMODELOS. El propósito es caracterizar la oferta disponible, identificar patrones y relaciones entre variables, y generar insumos analíticos que apoyen la toma de decisiones estratégicas (compra, venta y valoración de propiedades) en un entorno competitivo.
En este informe se realizará: (i) un análisis exploratorio descriptivo, (ii) Análisis de Componentes Principales (PCA) para sintetizar información de variables numéricas, (iii) clustering para segmentar la oferta en grupos homogéneos, y (iv) Análisis de Correspondencia (CA) para estudiar relaciones entre variables categóricas (p. ej., tipo, zona y barrio). Los hallazgos se presentarán mediante tablas y visualizaciones.
La Tabla 1 presenta el diccionario de variables de la base de datos vivienda. En él se especifica el nombre de cada variable, el tipo de dato esperado y una breve descripción de su contenido, con el fin de proporcionar una visión general de la información disponible y facilitar la interpretación de los análisis posteriores:
| variable | tipo_esperado | descripcion |
|---|---|---|
| id | Numérica | Identificador único del registro |
| zona | Categórica | Zona de la ciudad |
| piso | Categórica* | Piso reportado (puede venir como texto y con NA) |
| estrato | Ordinal | Estrato socioeconómico (1–6) |
| preciom | Numérica | Precio en millones de moneda local |
| areaconst | Numérica | Área construida (m²) |
| parqueaderos | Numérica | Número de parqueaderos |
| banios | Numérica | Número de baños |
| habitaciones | Numérica | Número de habitaciones |
| tipo | Categórica | Tipo de vivienda (Casa, Apartamento, etc.) |
| barrio | Categórica | Barrio |
| longitud | Numérica | Longitud geográfica |
| latitud | Numérica | Latitud geográfica |
La Tabla 2 presenta las clases de datos que R ha identificado de manera automática para cada una de las variables incluidas en la base vivienda. Este paso es fundamental para contrastar el tipo de dato detectado por el software con el tipo esperado definido en el diccionario de variables, ya que posibles discrepancias —por ejemplo, variables numéricas leídas como texto— pueden afectar el desarrollo y la validez de los análisis estadísticos posteriores
| variable | clase_detectada |
|---|---|
| id | numeric |
| zona | character |
| piso | character |
| estrato | numeric |
| preciom | numeric |
| areaconst | numeric |
| parqueaderos | numeric |
| banios | numeric |
| habitaciones | numeric |
| tipo | character |
| barrio | character |
| longitud | numeric |
| latitud | numeric |
La comparación entre la Tabla 1 y la Tabla 2 evidencia que la mayoría de las variables numéricas han sido correctamente identificadas por R, manteniendo coherencia con el tipo de dato esperado. Sin embargo, se observa que las variables zona, piso, tipo y barrio fueron leídas como texto (character), por lo que será necesario transformarlas a factores para su análisis. Asimismo, la variable estrato, aunque fue detectada como numérica, corresponde a un dato de tipo ordinal y deberá recodificarse como factor ordenado. Estas transformaciones permitirán garantizar una correcta interpretación de los resultados en las siguientes etapas del análisis exploratorio y multivariado.
La Tabla 3 presenta el número total de filas y columnas del conjunto de datos vivienda, lo cual permite dimensionar la cantidad de observaciones disponibles y el número de variables que se analizarán.
| total_filas | total_columnas |
|---|---|
| 8322 | 13 |
La Tabla 4 muestra el número y porcentaje de valores faltantes en cada variable del conjunto de datos.
| variable | total_obs | n_miss | pct_miss |
|---|---|---|---|
| piso | 8322 | 2638 | 31.7 |
| parqueaderos | 8322 | 1605 | 19.3 |
| id | 8322 | 3 | 0.04 |
| zona | 8322 | 3 | 0.04 |
| estrato | 8322 | 3 | 0.04 |
| areaconst | 8322 | 3 | 0.04 |
| banios | 8322 | 3 | 0.04 |
| habitaciones | 8322 | 3 | 0.04 |
| tipo | 8322 | 3 | 0.04 |
| barrio | 8322 | 3 | 0.04 |
| longitud | 8322 | 3 | 0.04 |
| latitud | 8322 | 3 | 0.04 |
| preciom | 8322 | 2 | 0.02 |
La Tabla 4 evidencia que las variables con mayor proporción de datos faltantes son piso (31,7 %) y parqueaderos (19,3 %), lo que indica que casi un tercio y una quinta parte de las observaciones, respectivamente, carecen de información en estas columnas. El resto de variables presenta porcentajes mínimos de ausencia (0,04 %), lo que sugiere registros puntuales sin datos. La variable preciom es la que menos datos faltantes presenta (0,02 %).
La Tabla 5 presenta el número de registros únicos y duplicados según la variable id. Este análisis permite identificar si existen repeticiones de registros en la base de datos, lo cual podría indicar problemas de carga o duplicidad de información.
| total_filas | ids_unicos | duplicados_por_id |
|---|---|---|
| 8322 | 8320 | 2 |
La Tabla 5 indica que de las 8.322 observaciones registradas en la base, existen 8.320 identificadores únicos y 2 registros duplicados según la variable id.
La Tabla 6 presenta la detección preliminar de valores atípicos en las variables numéricas del conjunto de datos vivienda, utilizando el criterio del rango intercuartílico (IQR).
| variable | total_obs | n_atipicos | pct_atipicos |
|---|---|---|---|
| estrato | 8322 | 0 | 0.00 |
| preciom | 8322 | 552 | 6.63 |
| areaconst | 8322 | 382 | 4.59 |
| parqueaderos | 8322 | 567 | 6.81 |
| banios | 8322 | 72 | 0.87 |
| habitaciones | 8322 | 888 | 10.67 |
| longitud | 8322 | 130 | 1.56 |
| latitud | 8322 | 0 | 0.00 |
La Figura 1 muestra un conjunto de diagramas de caja (boxplots) para las variables numéricas, dispuestos en un panel tipo mosaico. Esta visualización permite identificar de manera rápida la dispersión de los datos, la presencia de valores atípicos y las diferencias en la escala de cada variable.
Los atípicos se concentran en habitaciones (10,67 %), parqueaderos (6,81 %), preciom (6,63 %) y areaconst (4,59 %). banios y longitud tienen pocos outliers; estrato y latitud no presentan atípicos por IQR.
La Tabla 7 resume, para cada variable numérica, el tamaño de muestra disponible y las principales medidas de tendencia central y dispersión.
| variable | n | media | sd | min | q1 | mediana | q3 | max | cv |
|---|---|---|---|---|---|---|---|---|---|
| areaconst | 8319 | 174.935 | 142.964 | 30.000 | 80.000 | 123.000 | 229.000 | 1745.000 | 0.817 |
| banios | 8319 | 3.111 | 1.428 | 0.000 | 2.000 | 3.000 | 4.000 | 10.000 | 0.459 |
| estrato | 8319 | 4.634 | 1.029 | 3.000 | 4.000 | 5.000 | 5.000 | 6.000 | 0.222 |
| habitaciones | 8319 | 3.605 | 1.460 | 0.000 | 3.000 | 3.000 | 4.000 | 10.000 | 0.405 |
| latitud | 8319 | 3.418 | 0.043 | 3.333 | 3.381 | 3.416 | 3.452 | 3.498 | 0.012 |
| longitud | 8319 | -76.529 | 0.017 | -76.589 | -76.542 | -76.530 | -76.519 | -76.463 | 0.000 |
| parqueaderos | 6717 | 1.835 | 1.125 | 1.000 | 1.000 | 2.000 | 2.000 | 10.000 | 0.613 |
| preciom | 8320 | 433.892 | 328.647 | 58.000 | 220.000 | 330.000 | 540.000 | 1999.000 | 0.757 |
La Tabla 7 muestra que el precio promedio de las propiedades (preciom) es de 433,89 millones, con una alta dispersión (CV = 0,757) y un rango amplio que va de 58 a 1.999 millones, lo que sugiere gran heterogeneidad en el mercado. El área construida (areaconst) presenta una media de 174,94 m² y también una alta variabilidad (CV = 0,817), con casos extremos que alcanzan 1.745 m². En cuanto a las características internas, el número promedio de baños es 3,11 y de habitaciones 3,60, con presencia de registros con valor cero que podrían corresponder a datos faltantes codificados erróneamente o a inmuebles tipo lotes sin construcción. El número de parqueaderos promedia 1,84, pero también presenta alta variabilidad relativa (CV = 0,613). Las variables estrato, latitud y longitud muestran baja variabilidad, como es esperable dado su carácter geográfico o categórico ordinal. Los resultados sugieren la presencia de propiedades de lujo o de gran tamaño que amplían la dispersión en varias variables, lo que coincide con la detección previa de valores atípicos.
La Figura 2 presenta un conjunto de diagramas de barras para las principales variables categóricas (zona, tipo y barrio), dispuestos en un panel de facetas. Esta visualización permite identificar de forma rápida las categorías predominantes y su peso relativo en la base de datos.
La Figura 2 muestra que, en la variable zona, la oferta inmobiliaria se concentra principalmente en la Zona Sur, seguida por la Zona Norte y la Zona Oeste, mientras que la Zona Centro y la Zona Oriente presentan una participación significativamente menor. En cuanto al tipo de vivienda, predominan los apartamentos sobre las casas, lo que indica una mayor disponibilidad de unidades en edificios o conjuntos residenciales verticales. El análisis de barrio, limitado al top-20 más frecuente, evidencia una alta concentración en unos pocos sectores: la categoría “Otros” agrupa la mayor cantidad de registros debido a la diversidad de barrios con baja frecuencia individual, mientras que entre los barrios específicos destacan Valle del Lili y Ciudad Jardín. Este patrón sugiere que el mercado inmobiliario urbano analizado presenta focos geográficos definidos con mayor intensidad de oferta, lo cual es clave para segmentar estrategias comerciales y orientar estudios de mercado.
Con base en el diccionario de variables y en las clases detectadas por R, se ajustaron los tipos de datos para garantizar que las variables categóricas y ordinales sean interpretadas correctamente en los análisis posteriores.
Se aplicaron estrategias diferenciadas para el tratamiento de valores
faltantes:
- En variables categóricas, los NA se etiquetaron como “Sin dato” para
no perder observaciones.
- En variables numéricas, los NA se imputaron con la mediana, reduciendo
el impacto de valores extremos en el cálculo.
En esta etapa, los valores atípicos detectados previamente no se eliminaron, dado que en el contexto inmobiliario pueden representar propiedades de lujo o de características únicas. Sin embargo, para los análisis multivariados como el PCA y el clustering, las variables numéricas fueron escaladas, reduciendo así el peso relativo de estos valores extremos.
Para el PCA se seleccionaron únicamente variables numéricas que aportan información cuantitativa sobre las características de las propiedades. Las variables geográficas (latitud, longitud) se excluyen para evitar que la ubicación domine la variabilidad del análisis.Las variables latitud y longitud se excluyeron del PCA porque reflejan únicamente la ubicación geográfica y no características propias de los inmuebles. Incluirlas podría hacer que la variabilidad principal se explique casi por completo por diferencias espaciales, distorsionando el análisis de atributos como precio, área o número de habitaciones. Estas variables se reservan para análisis geográficos posteriores.
Para realizar el Análisis de Componentes Principales se seleccionaron únicamente las variables numéricas que describen características físicas y socioeconómicas de los inmuebles (areaconst, banios, estrato, habitaciones, parqueaderos y preciom). Dado que estrato fue tratado como factor ordenado en la preparación, aquí se convierte a numérico para ser incluido en el PCA. Posteriormente, las variables se estandarizaron (media 0, desviación estándar 1) con el fin de evitar que las diferencias de escala influyan en la estimación de los componentes.
La Tabla 8 y la Tabla 9 presentan, respectivamente, un resumen estadístico de las variables originales y de las variables estandarizadas. Esta comparación permite verificar el cambio en la escala y confirmar que el proceso de estandarización centró las variables en cero y ajustó su dispersión a la unidad.
| variable | Min | Q1 | Mediana | Media | Q3 | Max | n |
|---|---|---|---|---|---|---|---|
| areaconst | 30 | 80 | 123 | 174.916 | 229 | 1745 | 8322 |
| banios | 0 | 2 | 3 | 3.111 | 4 | 10 | 8322 |
| estrato | 1 | 2 | 3 | 2.634 | 3 | 5 | 8322 |
| habitaciones | 0 | 3 | 3 | 3.605 | 4 | 10 | 8322 |
| parqueaderos | 1 | 1 | 2 | 1.867 | 2 | 10 | 8322 |
| preciom | 58 | 220 | 330 | 433.867 | 540 | 1999 | 8322 |
| variable | Min | Q1 | Mediana | Media | Q3 | Max | n |
|---|---|---|---|---|---|---|---|
| areaconst | -1.014 | -0.664 | -0.363 | 0 | 0.378 | 10.984 | 8322 |
| banios | -2.179 | -0.778 | -0.078 | 0 | 0.622 | 4.824 | 8322 |
| estrato | -1.587 | -0.616 | 0.355 | 0 | 0.355 | 2.297 | 8322 |
| habitaciones | -2.470 | -0.415 | -0.415 | 0 | 0.271 | 4.382 | 8322 |
| parqueaderos | -0.856 | -0.856 | 0.131 | 0 | 0.131 | 8.031 | 8322 |
| preciom | -1.144 | -0.651 | -0.316 | 0 | 0.323 | 4.763 | 8322 |
| Componente | Varianza explicada (%) | Varianza acumulada (%) |
|---|---|---|
| PC1 | 56.09 | 56.09 |
| PC2 | 20.02 | 76.10 |
| PC3 | 10.38 | 86.48 |
| PC4 | 6.47 | 92.95 |
| PC5 | 3.95 | 96.91 |
| PC6 | 3.09 | 100.00 |
La Tabla 10 y la Figura 3 muestran la proporción de varianza explicada por cada componente principal y su acumulado. El primer componente (PC1) concentra la mayor parte de la información, explicando el 56,09 % de la variabilidad total, mientras que el segundo (PC2) aporta un 20,02 % adicional. En conjunto, los dos primeros componentes explican el 76,10 % de la varianza, lo que indica que una representación bidimensional preserva gran parte de la estructura de los datos. El tercer componente (PC3) incrementa la varianza explicada hasta el 86,48 %, aunque a partir de este punto la contribución marginal de los componentes es reducida, lo que sugiere que la mayoría de la información relevante se concentra en los primeros componentes.
La Figura 4 muestra que el primer componente principal (Dim1), que explica el 56,1 % de la variabilidad total, está fuertemente asociado con variables como precio (preciom), área construida (areaconst), número de baños, parqueaderos y estrato, lo que sugiere que este eje refleja principalmente el tamaño y nivel socioeconómico de los inmuebles. El segundo componente (Dim2), con un 20 % de la varianza explicada, está influenciado sobre todo por el número de habitaciones, diferenciando propiedades según su distribución interna. La disposición y longitud de las flechas indican que las variables tienen correlaciones positivas entre sí dentro de cada componente, mientras que la contribución al modelo (escala de color) evidencia que habitaciones, areaconst y precio son las más relevantes para definir el espacio bidimensional.
La Figura 5 muestra el mapa de individuos en el espacio definido por los
dos primeros componentes principales, que explican en conjunto el 76,1 %
de la variabilidad total. La distribución es amplia sobre el eje Dim1,
lo que indica que este componente concentra la mayor parte de la
diferenciación entre propiedades. Los colores, asociados al cos²,
permiten identificar los registros mejor representados en el plano
factorial: los puntos en tonos azulados tienen mayor calidad de
representación, mientras que los anaranjados presentan menor
contribución y se ubican más cerca del centro. Esta disposición sugiere
la existencia de subgrupos de inmuebles con características
diferenciadas, lo que servirá de base para el análisis de clustering
posterior.
Para este análisis se utilizó la base de datos previamente estandarizada, con el fin de que todas las variables tuvieran media cero y desviación estándar uno. Esto evita que las diferencias en la escala de medición influyan de forma desproporcionada en el cálculo de las distancias.
Se empleó el método de clustering jerárquico con distancia euclidiana y criterio de enlace Ward.D2. Esta elección se fundamenta en que el análisis jerárquico no requiere definir el número de grupos desde el inicio y permite representar la estructura de similitud entre las observaciones mediante un dendrograma. El método Ward minimiza la varianza interna de los grupos formados, favoreciendo conglomerados más homogéneos.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|
| 0.000 | 2.210 | 2.143 | 4.379 | 2.257 | 2.580 | 2.491 | 2.755 | 1.730 | 3.767 |
| 2.210 | 0.000 | 1.407 | 4.023 | 0.657 | 1.726 | 1.318 | 2.513 | 2.894 | 2.899 |
| 2.143 | 1.407 | 0.000 | 3.435 | 1.631 | 2.311 | 1.511 | 2.187 | 2.274 | 2.325 |
| 4.379 | 4.023 | 3.435 | 0.000 | 4.106 | 3.896 | 3.459 | 2.585 | 3.739 | 3.378 |
| 2.257 | 0.657 | 1.631 | 4.106 | 0.000 | 2.227 | 1.411 | 2.829 | 2.759 | 2.930 |
| 2.580 | 1.726 | 2.311 | 3.896 | 2.227 | 0.000 | 1.838 | 1.895 | 3.562 | 3.934 |
| 2.491 | 1.318 | 1.511 | 3.459 | 1.411 | 1.838 | 0.000 | 1.892 | 2.944 | 3.290 |
| 2.755 | 2.513 | 2.187 | 2.585 | 2.829 | 1.895 | 1.892 | 0.000 | 3.210 | 3.663 |
| 1.730 | 2.894 | 2.274 | 3.739 | 2.759 | 3.562 | 2.944 | 3.210 | 0.000 | 3.059 |
| 3.767 | 2.899 | 2.325 | 3.378 | 2.930 | 3.934 | 3.290 | 3.663 | 3.059 | 0.000 |
La Tabla 11 presenta la matriz de distancias euclidianas calculada a partir de las variables estandarizadas de la base vivienda. Cada celda indica la distancia entre dos registros (observaciones) considerando simultáneamente todas las variables del análisis. Por ejemplo, la distancia entre las observaciones 1 y 2 es 2.210, mientras que entre la 1 y la 4 es 4.379, lo que indica que la observación 1 está mucho más próxima a la 2 que a la 4 en el espacio multivariado. El valor 0 en la diagonal representa la distancia de cada observación consigo misma. Distancias pequeñas indican mayor similitud, mientras que distancias grandes señalan menor similitud entre las observaciones.
En la Figura 6, el dendrograma muestra el resultado del análisis de conglomerados jerárquico utilizando el método de Ward.D2, que busca minimizar la varianza interna dentro de cada grupo. Las uniones en el gráfico indican cómo las observaciones o grupos se van fusionando a medida que aumenta la distancia (o disimilitud). Al trazar una línea horizontal a la altura de una distancia aproximada de 100, se identifican 4 conglomerados principales, resaltados en recuadros rojos. Esto sugiere que, en este punto de corte, las observaciones se agrupan en cuatro conjuntos bien diferenciados según sus características estandarizadas.
En el gráfico se observa que:
Dim1 está fuertemente asociado con las variables preciom, areaconst, baños, parqueaderos y estrato, que apuntan en la misma dirección y se relacionan principalmente con el tamaño, valor y nivel socioeconómico de los inmuebles.
Dim2 está más influenciado por habitaciones, que presenta una dirección diferente, indicando que esta variable aporta información complementaria para diferenciar los grupos.
Los clústeres se distribuyen de forma diferenciada en el plano:
– Clúster 1 (verde) agrupa inmuebles con valores bajos en las variables asociadas a Dim1 y Dim2.
– Clúster 2 (naranja) presenta mayor número de habitaciones y valores intermedios en precio y área.
– Clúster 3 (azul) concentra propiedades con menores valores en Dim1, pero cercanas a cero en Dim2, indicando niveles medios-bajos en la mayoría de las variables.
– Clúster 4 (rosado) agrupa los inmuebles con valores más altos en precio, área y estrato, así como más parqueaderos y baños.
| cluster | n | porc | habitaciones_m | areaconst_m2_m | banios_m | parqueaderos_m | preciom_m | estrato_mediana |
|---|---|---|---|---|---|---|---|---|
| 1 | 2068 | 24.8 | 3.30 | 129.12 | 2.52 | 1.58 | 300.16 | 2 |
| 2 | 2104 | 25.3 | 4.74 | 231.37 | 4.18 | 2.02 | 535.48 | 3 |
| 3 | 3236 | 38.9 | 2.86 | 100.80 | 2.28 | 1.43 | 261.46 | 2 |
| 4 | 914 | 11.0 | 4.31 | 410.99 | 4.91 | 3.75 | 1112.87 | 4 |
La distribución observada en la Figura 7 se corresponde con las características resumidas en la Tabla 12, donde los clústeres se diferencian principalmente por el tamaño y el valor de las propiedades. El clúster 4, ubicado hacia valores altos de Dim1 y Dim2, agrupa las viviendas más grandes y costosas, con mayor número de habitaciones, baños y parqueaderos, correspondientes a estratos altos. En contraste, el clúster 3 se sitúa en la zona opuesta, asociado a viviendas pequeñas y de menor precio, localizadas en estratos medios-bajos. Los clústeres 1 y 2 ocupan posiciones intermedias: el clúster 2 con viviendas más amplias y costosas que las del clúster 1, y este último caracterizado por dimensiones y precios moderados. Las direcciones y longitudes de las flechas en el gráfico confirman que variables como precio, área construida y número de habitaciones son determinantes en la separación de los grupos.
El análisis de clústeres permitió identificar cuatro perfiles diferenciados de viviendas. El primer grupo corresponde a viviendas medianas y asequibles, ubicadas principalmente en estrato 2, con alrededor de tres habitaciones, áreas de 129 m² y precios promedio cercanos a 300 millones. El segundo grupo agrupa viviendas amplias de precio medio-alto, en estrato 3, con cerca de cinco habitaciones, 231 m² y precios promedio de 535 millones. El tercer grupo concentra viviendas pequeñas y económicas, en estrato 2, con menos de tres habitaciones, 101 m² y un precio promedio de 261 millones. Finalmente, el cuarto grupo representa viviendas muy amplias y de alto costo, en estrato 4, con más de cuatro habitaciones, áreas superiores a 400 m² y precios que superan los 1100 millones. La Figura 7 muestra visualmente cómo estos grupos se distribuyen en el espacio de componentes principales, evidenciando una separación clara entre los clústeres, lo que confirma que las variables seleccionadas permiten diferenciar de forma efectiva los perfiles de inmuebles.
| Variable | Nivel | Contrib. Dim1 | Contrib. Dim2 | Contrib. total (Dim1+Dim2) |
|---|---|---|---|---|
| estrato_Sin dato | NA | 33.27 | 0.01 | 33.29 |
| tipo_Sin dato | NA | 33.27 | 0.01 | 33.29 |
| zona_Sin dato | NA | 33.27 | 0.01 | 33.29 |
| zona_Zona Oeste | NA | 0.01 | 18.72 | 18.73 |
| estrato_6 | NA | 0.01 | 12.78 | 12.79 |
| estrato_3 | NA | 0.00 | 9.91 | 9.91 |
| santa teresita | NA | 0.00 | 8.18 | 8.18 |
| tipo_Casa | NA | 0.00 | 6.29 | 6.29 |
| zona_Zona Oriente | NA | 0.00 | 5.33 | 5.33 |
| normandía | NA | 0.00 | 5.07 | 5.07 |
| Otros | NA | 0.03 | 4.81 | 4.84 |
| tipo_Apartamento | NA | 0.02 | 3.96 | 3.98 |
| los cristales | NA | 0.00 | 3.87 | 3.87 |
| zona_Zona Norte | NA | 0.00 | 3.71 | 3.71 |
| aguacatal | NA | 0.00 | 2.12 | 2.12 |
| 06 | NA | 0.00 | 1.93 | 1.93 |
| cristales | NA | 0.00 | 1.91 | 1.91 |
| zona_Zona Centro | NA | 0.00 | 1.62 | 1.62 |
| 07 | NA | 0.00 | 1.03 | 1.04 |
| 09 | NA | 0.00 | 1.03 | 1.03 |
Las categorías con mayor contribución conjunta a las dos primeras dimensiones corresponden principalmente a valores ausentes en las variables estrato, tipo y zona, lo que indica que los registros incompletos generan una diferenciación marcada en el espacio factorial. Entre los datos disponibles, destacan la Zona Oeste, el estrato 6 y el estrato 3, así como barrios como Santa Teresita, Normandía y Los Cristales, y los tipos de vivienda Casa y Apartamento, evidenciando que la localización geográfica y el tipo de inmueble son ejes clave de variabilidad en el mercado inmobiliario.
El gráfico de inercia muestra que las dos primeras dimensiones explican conjuntamente un 12,4% de la variabilidad total, lo que justifica su uso para la representación bidimensional del MCA. Aunque el porcentaje explicado no es elevado —algo común en datos categóricos con muchas modalidades—, estas dimensiones concentran la mayor parte de la información relevante para identificar asociaciones entre las categorías.
En el plano factorial (Dimensiones 1 y 2) se observan asociaciones
claras entre determinados barrios, zonas y estratos. La Dimensión 1
diferencia principalmente zonas y tipos de vivienda, mientras que la
Dimensión 2 resalta agrupaciones de barrios de alto nivel socioeconómico
junto con estratos altos y zonas específicas. La nube de individuos
coloreada por zona confirma estos patrones, mostrando concentraciones
definidas en la Zona Oeste y la Zona Norte, frente a una mayor
dispersión en otras zonas, lo que refuerza la relevancia de la
localización como criterio de segmentación del mercado.
El análisis integrado de la base de vivienda permite delinear con claridad la estructura del mercado urbano. En el EDA se evidenció una alta heterogeneidad en precio y área construida, con presencia de atípicos coherentes con propiedades de lujo. El PCA mostró que el primer componente captura un eje de “tamaño–valor socioeconómico” (precio, área, baños y parqueaderos, más estrato), mientras que el segundo diferencia principalmente por número de habitaciones. Con base en estos ejes, el clustering reveló cuatro perfiles: (i) viviendas pequeñas y económicas (estrato 2), (ii) viviendas medianas y asequibles (estrato 2), (iii) viviendas amplias de precio medio‑alto (estrato 3) y (iv) viviendas muy amplias y costosas (estrato 4). Finalmente, el MCA confirmó que la localización (zona y barrios) y el tipo de inmueble estructuran las asociaciones entre categorías; la Zona Oeste y algunos barrios de alto nivel se alinean con estratos altos, mientras que zonas Centro/Oriente se asocian a estratos medios‑bajos. En conjunto, los resultados son consistentes: tamaño, precio y localización son los vectores que organizan la oferta.
Los resultados sugieren enfocar las campañas comerciales diferenciando la oferta según los perfiles detectados. En los segmentos premium, asociados principalmente a la Zona Oeste y barrios de alto estrato, se recomienda destacar atributos de exclusividad, seguridad y amenidades. Para el segmento medio-alto, más frecuente en las Zonas Norte y Sur, es clave resaltar facilidades de financiación, espacios familiares y cercanía a servicios. En el segmento más asequible, concentrado en el Centro y Oriente, el mensaje debe centrarse en precios competitivos, eficiencia del espacio y buena conectividad.
La estrategia geográfica debe priorizar el fortalecimiento de la presencia en la Zona Oeste y barrios premium, sin descuidar la oferta para apartamentos en Zonas Norte y Sur. Paralelamente, es importante potenciar productos de bajo costo en Centro y Oriente, aprovechando las ventajas de transporte y ubicación.
Desde el marketing, se sugiere alinear los mensajes con los ejes identificados en el análisis: metros cuadrados y parqueaderos como símbolos de estatus en el segmento alto, y distribución eficiente como valor en las unidades compactas. Estas acciones pueden complementarse con campañas geolocalizadas dirigidas a barrios clave detectados por el MCA.