El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.
Análisis de Correspondencia: Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.
Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
Los datos a trabajar provienen de OLX y fueron tomados por medio de un procedimiento de webscraping.
A continuación se observa en la siguiente tabla, la descripción de las variables del dataset.
| Variable | Descripción | Naturaleza |
|---|---|---|
| id | ID de la propiedad | Categórica - Nominal |
| zona | Sector de la ciudad donde esta ubicada la propiedad | Categórica - Nominal |
| piso | Piso | Categórica - Nominal |
| estrato | Estrato de la propiedad | Categórica - Ordinal |
| preciom | Precio de la propiedad (En millones) | Numérica - Continua |
| areaconst | Área construida | Numérica - Continua |
| parqueaderos | Cantidad de parqueaderos | Numérica - Discreta |
| banios | Cantidad de baños | Numérica - Discreta |
| habitaciones | Cantidad de habitaciones | Numérica - Discreta |
| tipo | Tipo de propiedad (Casa o apartamento) | Categórica - Nominal |
| barrio | Barrio donde esta ubicada la propiedad | Categórica - Nominal |
| longitud | Longitud (Coordenada). | Numérica - Continua |
| latitud | Latitud (Coordenada) | Numérica - Continua |
Figure 3.1: Gráficos de barras de variables categóricas
Los gráficos muestran la distribución de varias variables categóricas del dataset. A continuación, se analiza cada una y luego se extraen conclusiones generales.
Zona
La muestra está fuertemente sesgada hacia la Zona Sur, lo que sugiere que cualquier modelo podría aprender patrones dominados por esta zona y generalizar peor a las demás.
Piso
La distribución es asimétrica y decreciente, lo cual es coherente con mercados donde predominan edificios bajos. Los pisos altos podrían representar un segmento especial o de mayor valor, pero con poca representación.
Estrato
El dataset está sesgado hacia estratos medios y medio-altos, lo que puede limitar inferencias sobre estratos bajos. Esto es clave si la variable objetivo está relacionada con precio o valor.
Tipo de vivienda
La muestra representa principalmente el mercado de apartamentos. Cualquier conclusión del análisis estará más alineada con este tipo de inmueble que con casas.
En resumen:
Figure 3.2: Histogramas de variables continuas
Los histogramas muestran la distribución de varias variables numéricas del dataset. A continuación, se analiza cada una y luego se presentan conclusiones globales relevantes para el análisis y el modelado.
Area Construida
Es una variable típica del mercado inmobiliario: muchos inmuebles pequeños y pocos muy grandes. Los outliers pueden influir de forma significativa en modelos sensibles a la escala.
Baños
El número de baños es bastante informativo y refleja segmentación del mercado. Puede ser tratada como numérica discreta o incluso ordinal.
Habitaciones
Variable coherente con el tipo de vivienda dominante (apartamentos). Los valores extremos representan propiedades atípicas o de lujo.
ID
Es un identificador, no contiene información útil para el modelo y debe eliminarse antes de cualquier análisis predictivo.
Latitud
Longitud
Junto con latitud, define la ubicación geográfica. Su utilidad aumenta si se modela de forma conjunta (features espaciales).
Parqueaderos
Variable discreta con fuerte poder de segmentación.
Precio
En resumen:
Figure 3.3: Boxplot de variables numéricas
Los boxplots permiten analizar dispersión, tendencia central y presencia de valores atípicos en las variables numéricas. A continuación, se interpreta cada gráfico de forma individual y luego se extraen conclusiones generales.
Área Construida
La mayoría de los inmuebles tienen áreas construidas pequeñas o medias, pero hay propiedades muy grandes que generan una fuerte asimetría. Estos valores extremos pueden dominar el análisis si no se tratan adecuadamente.
Latitud
La latitud es una variable estable y bien comportada. Refleja concentración geográfica sin valores aberrantes, lo que la hace adecuada para el modelado sin transformaciones agresivas.
Longitud
La longitud presenta alta concentración espacial, con pocos puntos alejados que podrían corresponder a ubicaciones marginales o registros atípicos.
Precio
El precio presenta el patrón típico del mercado inmobiliario: muchos inmuebles de precio medio y pocos muy caros. Estos outliers son informativos, pero pueden afectar modelos lineales.
Baños
Refleja un mercado con predominio de viviendas familiares estándar, mientras que los valores extremos representan inmuebles de alto nivel.
Habitaciones
La mayor parte de los inmuebles tiene un número típico de habitaciones, mientras que los extremos pueden corresponder a estudios o propiedades de lujo.
En resumen:
| Name | vivienda |
| Number of rows | 8322 |
| Number of columns | 13 |
| _______________________ | |
| Column type frequency: | |
| character | 4 |
| factor | 1 |
| numeric | 8 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| zona | 3 | 1.00 | 8 | 12 | 0 | 5 | 0 |
| piso | 2638 | 0.68 | 2 | 2 | 0 | 12 | 0 |
| tipo | 3 | 1.00 | 4 | 11 | 0 | 2 | 0 |
| barrio | 3 | 1.00 | 4 | 29 | 0 | 436 | 0 |
Variable type: factor
| skim_variable | n_missing | complete_rate | ordered | n_unique | top_counts |
|---|---|---|---|---|---|
| estrato | 3 | 1 | TRUE | 4 | 5: 2750, 4: 2129, 6: 1987, 3: 1453 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| id | 3 | 1.00 | 4160.00 | 2401.63 | 1.00 | 2080.50 | 4160.00 | 6239.50 | 8319.00 | ▇▇▇▇▇ |
| preciom | 2 | 1.00 | 433.89 | 328.65 | 58.00 | 220.00 | 330.00 | 540.00 | 1999.00 | ▇▂▁▁▁ |
| areaconst | 3 | 1.00 | 174.93 | 142.96 | 30.00 | 80.00 | 123.00 | 229.00 | 1745.00 | ▇▁▁▁▁ |
| parqueaderos | 1605 | 0.81 | 1.84 | 1.12 | 1.00 | 1.00 | 2.00 | 2.00 | 10.00 | ▇▁▁▁▁ |
| banios | 3 | 1.00 | 3.11 | 1.43 | 0.00 | 2.00 | 3.00 | 4.00 | 10.00 | ▇▇▃▁▁ |
| habitaciones | 3 | 1.00 | 3.61 | 1.46 | 0.00 | 3.00 | 3.00 | 4.00 | 10.00 | ▂▇▂▁▁ |
| longitud | 3 | 1.00 | -76.53 | 0.02 | -76.59 | -76.54 | -76.53 | -76.52 | -76.46 | ▁▅▇▂▁ |
| latitud | 3 | 1.00 | 3.42 | 0.04 | 3.33 | 3.38 | 3.42 | 3.45 | 3.50 | ▃▇▅▇▅ |
Visión general del dataset
El tamaño del dataset es adecuado para análisis exploratorio y modelado estadístico. Existe una mezcla balanceada de variables estructurales, categóricas y espaciales.
Variables tipo character
Zona
Variable categórica limpia y bien definida. El bajo número de categorías la hace adecuada para codificación directa (one-hot o similar).
Piso
Es una variable potencialmente relevante, pero el nivel de missing es significativo. Requiere imputación cuidadosa o evaluación de si los faltantes contienen información estructural.
Tipo
Variable binaria muy clara (p. ej., apartamento vs casa). Fácil de incorporar al modelo y probablemente informativa.
Barrio
Alta cardinalidad. Puede capturar información geográfica fina, pero introduce complejidad. No es ideal para one-hot encoding directo; conviene agrupar o transformar.
Variable tipo factor
Estrato
Variable clave en el contexto inmobiliario. Su carácter ordinal es importante y debería respetarse en el modelado (no tratarla como nominal pura).
Variables numéricas
ID
Es un identificador. No aporta información predictiva y debe eliminarse antes del modelado.
Precio
Distribución típica de precios inmobiliarios. Los valores extremos son informativos pero pueden distorsionar modelos lineales.
Área Construida
Variable con cola larga y outliers claros.
Parqueaderos
Variable importante, pero con missing estructural. Puede indicar ausencia real de parqueadero o falta de registro.
Baños
Variable discreta bien comportada, con outliers asociados a propiedades grandes o de lujo.
Habitaciones
Distribución coherente con el mercado. Los extremos representan casos atípicos pero plausibles.
Latitud y Longitud
Variables espaciales limpias. Capturan localización con buena precisión, aunque su efecto probablemente no sea lineal.
En resumen:
piso, parqueaderos)barrio)preciom, areaconst)Figure 3.4: Distribución de datos faltantes
Figure 3.5: Porcentaje de datos faltantes
Las visualizaciones presentan 3.4 y 3.5 patrones, magnitud y distribución de los valores faltantes en el dataset. Esto es clave para decidir estrategias de imputación, eliminación o modelado robusto.
Variables con faltantes significativos
Parqueaderos
Los valores faltantes podrían ser información estructural (por ejemplo, inmuebles sin parqueadero) o problemas de registro. No parece un patrón aleatorio puro.
Piso
La ausencia de piso puede deberse a: - Casas (donde el piso no aplica), - Falta de información, - Diferencias en el tipo de inmueble.
Esto sugiere que el missing tiene significado, no es completamente aleatorio.
Variables con faltantes mínimos
Variables como:
- preciom, areaconst, banios, habitaciones,
- latitud, longitud,
- zona, estrato, tipo, barrio, id
tienen menos del 0.05% de faltantes, lo cual es prácticamente despreciable.
Estos faltantes aislados pueden eliminarse o imputarse sin impacto significativo en el análisis.
Con el objetivo de evaluar una estrategia adecuada de imputación para la variable parqueaderos, se analizó su distribución en función del estrato socioeconómico y del tipo de vivienda.
Figure 3.6: Parqueaderos por estrato
Parqueaderos por estrato
El gráfico muestra una relación clara y creciente entre el estrato y el número de parqueaderos:
Este patrón indica que el número de parqueaderos está fuertemente asociado al estrato, lo que sugiere que esta variable contiene información socioeconómica relevante.
Parqueaderos por tipo de vivienda
Al analizar el número de parqueaderos según el tipo de vivienda, se observan diferencias consistentes:
Aunque el tipo de vivienda aporta información adicional, la relación observada es menos marcada que la del estrato.
Implicaciones para la imputación
Dado que parqueaderos presenta una relación estructural clara con el estrato y, en menor medida, con el tipo de vivienda, resulta inapropiado realizar una imputación global (por ejemplo, usando la media o la moda general).
En su lugar, una estrategia razonable y defendible consiste en imputar los valores faltantes utilizando la mediana de parqueaderos por estrato, lo cual permite preservar la estructura observada en los datos y reduce la influencia de valores atípicos. Alternativamente, puede considerarse una imputación más granular combinando estrato y tipo de vivienda, siempre que el tamaño de los grupos lo permita.
Figure 3.7: Pisos NA vs tipo de vivienda
La Figura 3.7 muestra la proporción de valores faltantes (NA) en la variable piso según el tipo de vivienda.
Relación entre piso y tipo de vivienda
De acuerdo con el gráfico se puede decir lo siguiente:
piso, mientras que la mayoría de los registros sí contienen información válida.piso, mientras que la mayoría de los registros sí contienen información válida.En resumen:
Con base en el análisis gráfico y en el alto porcentaje de valores faltantes (Ver imagen: 3.5), no se considera recomendable imputar la variable piso. La estrategia más prudente es excluirla del modelo, priorizando la estabilidad y la interpretabilidad, especialmente dado que existen otras variables estructurales más informativas (como estrato, área construida o tipo de vivienda) que capturan mejor las diferencias entre los inmuebles.
Durante el análisis exploratorio de los datos se identificaron las siguientes alertas:
Las variales: preciom, areaconst, banios, habitaciones, latitud, longitud, zona, estrato, tipo, barrio tienen menos del 0.05% de datos faltantes por lo que se procede a eliminarlas.
La variable id no aporta información significativa por lo cual se excluirá.
La variable parqueaderos tiene un porcentaje significativo de faltantes 19.29% pero debido a que aporta información importante al dataset se va a imputar teniendo en cuenta que el estrato influye en dicha variable.
La variable piso tiene un porcentaje muy alto de faltantes 31.7% y no se encontró relación con otra variable para hacer una imputación que no introduzca un sesgo significativo, de modo que con la intención de mantener un dataset más estable se procede a eliminarla del análisis.
Cantidad de registros antes de la eliminación de datos faltantes
## [1] 8322
Cantidad de registros después de la eliminación de datos faltantes
## [1] 8319
Como se puede observar se eliminaron solamente 3 registros.
Para este caso se procede a realizar la imputación de la variable parqueaderos teniendo en cuenta la mediana por estrato como se puede observar en la siguiente tabla:
| estrato | n_total | n_na_parqueaderos | mediana_parqueaderos | n_imputados | n_porcentaje_imputados |
|---|---|---|---|---|---|
| 3 | 1453 | 769 | 1 | 769 | 52.92 |
| 4 | 2129 | 488 | 1 | 488 | 22.92 |
| 5 | 2750 | 228 | 2 | 228 | 8.29 |
| 6 | 1987 | 117 | 2 | 117 | 5.89 |
Una vez se obtiene el dataset con el cual se va a proceder a realizar los diferentes análisis que se expusieron en los objetivos se procede a realizar la correlación entre las variables numéricas para verificar posibles relaciones entre variables.
Figure 5.1: Correlación de variables
De acuerdo con la gráfica 5.1 se obtienen las siguientes relaciones:
La variable preciom está altamente correlacionada (0.82) con la variable área construida lo cual tiene sentido debido a que las propiedades tiende a tener precios más altos debido a que se ha invertido más dinero en su construcción.
La variable preciom está altamente correlacionada (0.73) con la variable parqueadero indicando que las propiedades más costosas tienen más parqueaderos.
La variable preciom está altamente correlacionada (0.77) con la variable baños indicando que las propiedades más costosas tienen más baños.
La variable área construida está altamente correlacionada (0.60) con la variable parqueaderos indicando que las propiedades más grandes en términos de área tienen más parqueaderos.
La variable área construida está altamente correlacionada (0.77) con la variable baños indicando que las propiedades más grandes en términos de área tienen más baños.
La variable área construida está altamente correlacionada (0.65) con la variable habitaciones indicando que las propiedades más grandes en términos de área tienen más habitaciones.
Para el cálculo de los componentes principales se utiliza la prcomp de R con el párametro scale en TRUE para estandarizar los datos del procedimiento.
pca <- prcomp(df_prep_imputed_num, scale. = TRUE)
Una vez se realiza el cálculo, se puede observar que se obtuvieron 7 componentes en total y en la siguiente tabla se encuentran cada uno de los coeficientes asociados a las variables de entrada.
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | PC7 | |
|---|---|---|---|---|---|---|---|
| preciom | 0.472 | 0.106 | 0.301 | 0.167 | -0.273 | -0.306 | 0.692 |
| areaconst | 0.462 | -0.182 | 0.014 | 0.076 | -0.642 | 0.448 | -0.367 |
| parqueaderos | 0.423 | 0.124 | 0.308 | 0.395 | 0.643 | 0.355 | -0.127 |
| banios | 0.475 | -0.121 | -0.161 | -0.096 | 0.141 | -0.699 | -0.466 |
| habitaciones | 0.320 | -0.467 | -0.516 | -0.348 | 0.273 | 0.263 | 0.386 |
| longitud | -0.214 | -0.583 | -0.168 | 0.749 | -0.035 | -0.148 | 0.049 |
| latitud | -0.105 | -0.607 | 0.702 | -0.345 | 0.072 | -0.036 | -0.045 |
En la imagen 6.1 se observa que los primeros 4 componentes acumulan el 87.7% de la varianza del conjunto de datos.
Figure 6.1: Gráfica de varianza PCA
La figura 6.2 presenta el círculo de correlaciones correspondiente al Análisis de Componentes Principales aplicado a las variables numéricas del conjunto de datos. Los dos primeros componentes principales explican conjuntamente el 65.3% de la variabilidad total, donde el primer componente (Dim1) explica el 47.4% y el segundo componente (Dim2) el 17.9%.
El primer componente principal (Dim1) está fuertemente asociado con las variables preciom, areaconst, banios y parqueaderos, las cuales apuntan en una dirección similar dentro del plano factorial. Esto evidencia una alta correlación positiva entre estas variables, indicando que viviendas con mayor área construida, más baños, habitaciones y parqueaderos tienden a presentar precios más altos. En este sentido, Dim1 puede interpretarse como un eje que resume el tamaño y el valor económico de la vivienda.
El segundo componente principal (Dim2) está principalmente influenciado por las variables de localización geográfica latitud y longitud, las cuales presentan una orientación distinta a las variables de tamaño y precio. Esto sugiere que la variabilidad explicada por Dim2 está relacionada con la ubicación espacial de los inmuebles, y que esta dimensión es en gran medida independiente de las características físicas y económicas de la vivienda.
En conjunto, el PCA permite reducir la dimensionalidad del conjunto de datos al concentrar la información redundante de variables altamente correlacionadas en un número reducido de componentes, facilitando su uso posterior en técnicas de agrupamiento como K-means, sin pérdida significativa de información.
Figure 6.2: Gráfico PC1 vs PC2
Una vez teniendo el conjunto de datos transformado componentes principales se dispone a usar los nuevos datos para K-means y detectar los posibles grupos de inmuebles que se encuentran en el dataset.
La elección del número de clusters se evaluó mediante dos criterios complementarios: el método del codo (WSS) y el índice Silhouette promedio.
El método del codo muestra un punto de inflexión claro en k = 4, a partir del cual la reducción de la suma de cuadrados intra-cluster se vuelve marginal. Esto sugiere que cuatro clusters capturan la mayor parte de la estructura del conjunto de datos sin introducir complejidad innecesaria.
Figure 7.1: Suma de cuadrados por tamaño de cluster
Por su parte, el análisis del índice Silhouette indica que, aunque el valor máximo se alcanza en k = 2, este número resulta poco informativo para el análisis inmobiliario. Para valores mayores de k, las diferencias en silhouette promedio entre k = 4 y k = 5 son mínimas, lo que indica que el aumento en la calidad del agrupamiento al usar cinco clusters no es sustancial.
Figure 7.2: Silhouette por tamaño de cluster
En consecuencia, se selecciona k = 4 como un compromiso adecuado entre calidad del agrupamiento, simplicidad del modelo e interpretabilidad de los resultados.
Una vez aplicado el Análisis de Componentes Principales (PCA) y utilizando los componentes principales como entrada del algoritmo K-means, se identificaron cuatro clusters que agrupan los inmuebles del dataset en función de sus características numéricas transformadas.
El gráfico de dispersión en el espacio de los dos primeros componentes principales (PC1 y PC2) evidencia una estructura clara de agrupamiento, lo que sugiere que el proceso de reducción de dimensionalidad permitió eliminar redundancias entre variables altamente correlacionadas y resaltar patrones relevantes en los datos.
Separación de los clusters
La separación entre los grupos ocurre principalmente a lo largo del primer componente principal (PC1), lo cual indica que este componente captura la mayor parte de la variabilidad asociada a las características estructurales y de escala de los inmuebles, como el precio, el tamaño y el número de parqueaderos, baños.
El segundo componente principal (PC2) introduce una diferenciación adicional entre los inmuebles, permitiendo separar observaciones que, aunque similares en escala general, presentan diferencias en variables asociadas a la localización o distribución interna.
Interpretación conceptual de los clusters
A partir del análisis descriptivo de las variables numéricas por cluster, se identifican los siguientes perfiles generales:
Cluster 1: Inmuebles con valores altos en PC1, caracterizados por mayores precios y mejores atributos estructurales, lo que sugiere propiedades de mayor escala y valor.
Cluster 2: Inmuebles con valores bajos en PC1, asociados a propiedades más pequeñas y económicas.
Cluster 3: Inmuebles con valores intermedios en PC1 y mayor dispersión, representando un segmento heterogéneo del mercado.
Cluster 4: Inmuebles diferenciados principalmente por PC2, lo que indica variaciones relevantes en características secundarias como la ubicación o la distribución interna.
El análisis de clusters basado en PCA permitió identificar cuatro grupos de inmuebles con características diferenciadas, manteniendo coherencia estadística y sentido interpretativo. Adicionalmente como se observa en la figura 7.2 el valor del silhouette para dicho agrupamiento es aproximadamente 0.29 lo cual indica que los grupos no están fuertemente separados.
Perfilamiento de clusters con variables numéricas
Aunque el clustering se realizó sobre componentes principales, es posible perfilar los clusters utilizando las variables numéricas originales. Para ello, cada observación se asocia a su cluster correspondiente y se calculan estadísticas descriptivas por grupo.
Este perfilamiento permite interpretar cada cluster en términos de:
de las variables originales del dataset.
| Cluster | N | Precio promedio | Área promedio | Parqueaderos promedio | Baños promedio | Habitaciones promedio |
|---|---|---|---|---|---|---|
| 1 | 917 | 1127.12 | 416.84 | 3.79 | 5.19 | 4.46 |
| 2 | 1630 | 238.22 | 104.49 | 1.22 | 2.19 | 3.12 |
| 3 | 2146 | 542.39 | 250.79 | 1.87 | 4.19 | 4.82 |
| 4 | 3626 | 282.36 | 100.54 | 1.32 | 2.37 | 2.89 |
Con el objetivo de caracterizar los grupos obtenidos mediante K-means, se realizó un perfilamiento utilizando los valores promedio de las variables originales dentro de cada cluster. Esto permite interpretar los clusters como segmentos del mercado inmobiliario con características diferenciadas en términos de precio, tamaño y dotación.
Cluster 1 – Viviendas de alta gama
El Cluster 1, conformado por 917 inmuebles, corresponde al segmento de mayor valor del mercado. Presenta el precio promedio más alto (1127), así como el mayor tamaño promedio (416 m²). Además, destaca por una alta dotación de comodidades, con cerca de 4 parqueaderos, más de 5 baños y aproximadamente 4.5 habitaciones.
Este perfil es consistente con viviendas de alta gama, orientadas a hogares de alto poder adquisitivo, donde el espacio y la calidad de vida son factores prioritarios.
Cluster 2 – Viviendas económicas y compactas
El Cluster 2, con 1630 observaciones, representa el segmento más económico del conjunto de datos. Sus inmuebles presentan áreas reducidas (104 m² en promedio), menor número de parqueaderos (1.22) y una configuración funcional básica en baños y habitaciones.
Este cluster puede interpretarse como viviendas de entrada o de interés medio, donde el principal atributo es la accesibilidad económica, sacrificando espacio y dotación.
Cluster 3 – Viviendas familiares de nivel medio
El Cluster 3 agrupa 2146 inmuebles y se posiciona como un segmento intermedio del mercado. Presenta un equilibrio entre precio (542) y tamaño (251 m²), con un número elevado de habitaciones (4.82) y baños (4.19).
Este perfil sugiere viviendas orientadas a hogares familiares, que requieren mayor espacio y funcionalidad, pero sin alcanzar los niveles de precio del segmento premium.
Cluster 4 – Viviendas compactas de nivel medio-bajo
El Cluster 4 es el más numeroso, con 3626 observaciones, lo que indica que representa el segmento predominante del mercado. Sus características son similares al Cluster 2 en tamaño y precio, aunque con una dotación ligeramente superior en parqueaderos y baños.
Este grupo puede interpretarse como viviendas compactas estándar, dirigidas a hogares pequeños o compradores con presupuestos limitados, pero con mejores condiciones que el segmento más económico.
En conjunto, los clusters revelan una estructura escalonada del mercado inmobiliario, donde los segmentos se diferencian principalmente por:
Los clusters no presentan fronteras rígidas, sino transiciones graduales entre segmentos, lo cual es coherente con los valores moderados del índice Silhouette obtenidos en el análisis. Aun así, los perfiles promedio permiten identificar patrones claros y útiles para segmentación exploratoria y análisis descriptivo del mercado.
En conclusión, el modelo de clustering con cuatro grupos ofrece una representación razonable y interpretable de los distintos tipos de inmuebles presentes en el dataset.
En la sección anterior se llevó a cabo un análisis de agrupamiento utilizando exclusivamente variables cuantitativas. A continuación, se procede a realizar un análisis de correspondencia, con el objetivo de identificar y explorar las posibles relaciones existentes entre las variables categóricas del conjunto de datos.
Para este caso se analizarán las siguientes variables:
Estrato
Zona
Tipo
La variable piso se descartó debido a la gran cantidad de valores faltantes y barrio contiene demasiados valores únicos lo cual dificultaría una gráfica clara.
El test de chi-cuadrado arroja un valor de χ² = 1830.4 con 12 grados de libertad y un p-valor prácticamente nulo (p < 0.001). Esto indica que existe una asociación altamente significativa entre las variables Estrato y Zona geográfica. Con un estadístico tan elevado, podemos rechazar con total certeza la hipótesis nula de independencia entre estas variables.
##
## Pearson's Chi-squared test
##
## data: tabla_estrato_zona
## X-squared = 3830.4, df = 12, p-value < 0.00000000000000022
El gráfico de correspondencia revela patrones espaciales muy claros en la distribución de estratos según zonas:
Eje 1 (69.97% de varianza explicada)
Este eje captura la mayor parte de la variabilidad y muestra un gradiente socioeconómico claro:
Lado derecho positivo: Estrato 3 se encuentra próximo a las Zonas Centro y Oriente, sugiriendo que estas áreas tienen una concentración relativa de estratos medios-bajos.
Lado izquierdo negativo: Los estratos 4, 5 y 6 se agrupan en la región izquierda, particularmente cerca de la Zona Oeste y Zona Sur, indicando que estas zonas concentran población de estratos medios y medios-altos.
Eje 2 (27.9% de varianza explicada)
Este eje secundario introduce una segunda dimensión de diferenciación:
Zona Oeste (estrato 6) aparece en la región superior positiva, representando una zona de estratos altos.
Zona Oriente (estrato 3) se ubica en la región positiva derecha, asociada a estratos bajos.
Zona Centro permanece cercana al origen, indicando una distribución más balanceada de estratos.
Zonas Sur y Norte se posicionan en la región inferior negativa, con los estratos 4 y 5 dominantes.
El mapa muestra una segregación espacial clara en la ciudad: existe una correspondencia fuerte entre estrato socioeconómico y ubicación geográfica, reflejando patrones de desigualdad territorial.
El siguiente gráfico de barras demuestra que:
El primer eje explica el 70% de la varianza total, capturando la mayor parte de la información sobre la asociación entre estrato y zona. Esta es una proporción muy alta, indicando que existe un patrón dominante claro.
El segundo eje contribuye con el 27.7% de varianza adicional, proporcionando información complementaria sobre subdivisiones dentro de los grupos principales.
El tercer eje apenas explica el 2.4%, sugiriendo que hay muy poca información residual no capturada por los dos primeros ejes.
En total, los dos primeros ejes explican el 97.7% de la varianza, lo que significa que la asociación entre estrato y zona puede representarse de manera muy eficiente en un espacio bidimensional. Esto es una evidencia sólida de que la relación es fuerte, estructurada y fácil de interpretar.
El análisis de correspondencia entre las variables Estrato y Zona geográfica revela una asociación estadística y prácticamente muy significativa (χ² = 1830.4, p < 0.001).
Hallazgos clave:
Segregación socioespacial evidente: Existe una clara correspondencia entre el estrato socioeconómico de la población y su localización geográfica en la ciudad.
Patrón dominante unidimensional: El 70% de la varianza explicada por el primer eje sugiere un gradiente principal muy definido, probablemente reflejando un eje de desigualdad estructural en la ciudad.
Distribución geográfica de estratos:
Eficiencia representacional: El hecho de que el 97.7% de la varianza se explique con dos dimensiones indica que esta es una relación clara y bien estructurada, no caprichosa o aleatoria.
Estos resultados evidencian segregación residencial en la ciudad, con poblaciones de diferentes estratos socioeconómicos concentradas en zonas específicas. Esto es relevante para políticas de urbanismo, vivienda y equidad territorial.
##
## Apartamento Casa
## 3 639 814
## 4 1404 725
## 5 1766 984
## 6 1291 696
##
## Pearson's Chi-squared test
##
## data: tabla_estrato_tipo
## X-squared = 224.33, df = 3, p-value < 0.00000000000000022
Se realizó un análisis de correspondencia entre las variables “Estrato” y “Tipo de vivienda” con el objetivo de identificar posibles asociaciones entre estas dimensiones. Los resultados del test de chi-cuadrado (χ² = 224.33, gl = 3, p < 0.001) indican una dependencia estadísticamente significativa entre las variables estudiadas.
Sin embargo, es importante notar que la significancia estadística debe interpretarse considerando el tamaño muestral disponible, el cual es lo suficientemente grande para detectar asociaciones incluso de magnitud pequeña. El análisis de correspondencia revela que, aunque existen diferencias estadísticas en las proporciones de tipo de vivienda según el estrato, estas diferencias son de magnitud limitada en términos prácticos.
Específicamente, la distribución entre “Apartamento” y “Casa” se mantiene relativamente consistente entre los estratos 4, 5 y 6 (con proporciones cercanas al 65% de apartamentos), presentando una variación notable únicamente en el estrato 3 (43.9% de apartamentos). Esta variabilidad sugiere que, a pesar de la significancia estadística detectada, el tipo de vivienda no está fuertemente asociado con el estrato socioeconómico en la población estudiada.
En conclusión, aunque el análisis estadístico confirma la existencia de una relación entre las variables, la magnitud de esta asociación es insuficiente para considerarla como un determinante significativo del tipo de vivienda según el estrato.
El análisis integrado del mercado inmobiliario mediante técnicas de segmentación (K-means) y análisis de asociaciones espaciales (Análisis de Correspondencia) ha identificado patrones claros y estructurados que permiten caracterizar el mercado y proyectar estrategias de inversión y comercialización diferenciadas.
El análisis K-means identifica una estructura escalonada y bien definida del mercado inmobiliario, compuesta por cuatro segmentos con características y potenciales distintos:
Cluster 1 – Segmento Premium (917 inmuebles, 12.4% del mercado)
Precio promedio: $1,127 millones Área promedio: 416 m² Dotación alta: 4 parqueaderos, 5+ baños, 4.5 habitaciones Perfil: Hogares de alto poder adquisitivo que priorizan lujo, espacio y comodidades Potencial de valorización: Alto. Este segmento tiende a apreciarse más en ciclos alcistas y mantiene valor en crisis.
Cluster 4 – Segmento Masivo Económico (3,626 inmuebles, 49% del mercado)
Precio promedio: bajo (~$250 millones estimado) Área promedio: ~120 m² Dotación básica: 1-2 parqueaderos, 1-2 baños, 2-3 habitaciones Perfil: Primera vivienda, compradores con presupuestos limitados, inversores buscando rentabilidad Potencial de valorización: Moderado-Bajo en valor absoluto, pero Alto en volumen y rentabilidad relativa
Cluster 3 – Segmento Familiar Intermedio (2,146 inmuebles, 29% del mercado)
Precio promedio: $542 millones Área promedio: 251 m² Dotación intermedia: 2-3 parqueaderos, 4 baños, 4.8 habitaciones Perfil: Familias de clase media que requieren espacio y funcionalidad Potencial de valorización: Moderado-Alto. Segmento resiliente con demanda constante
Cluster 2 – Segmento Económico Competitivo (1,630 inmuebles, 22% del mercado)
Precio promedio: bajo con mejor accesibilidad que Cluster 4 Área promedio: 104 m² Dotación compacta: 1.22 parqueaderos, pocos baños/habitaciones Perfil: Nichos específicos, inversión pequeña, alta rotación Potencial de valorización: Bajo. Mercado saturado con márgenes reducidos
El análisis de correspondencia revela una segregación socioespacial altamente estructurada (χ² = 1830.4, p < 0.001) con patrones predecibles y geográficamente determinados:
Distribución por Zona:
Zona Oeste: Asociada a estratos altos (6) → Concentra Cluster 1 (Premium)
Mayor potencial de valorización a largo plazo Menor volumen de operaciones, márgenes más altos Público cautivo con inelasticidad de precio
Zona Centro y Oriente: Asociadas a estratos bajos (3) → Concentra Clusters 2 y 4 (Económicos)
Mayor volumen de operaciones Competencia feroz, márgenes reducidos Sensible a ciclos económicos y políticas de vivienda
Zonas Sur y Norte: Asociadas a estratos medios (4-5) → Concentran Cluster 3 (Familiar)
Equilibrio entre volumen y márgenes Demanda resiliente y predecible Buen potencial de crecimiento equilibrado
Implicación clave: El 97.7% de varianza explicada en dos dimensiones indica que este patrón es robusto, no aleatorio y predecible a nivel territorial.
Estrategia de Cartera Diversificada
Para maximizar rentabilidad a corto-mediano plazo:
Enfocarse en Cluster 3 (Familiar Intermedio) en Zonas Sur y Norte Volumen significativo (2,146 inmuebles), demanda estable, potencial de valorización moderado-alto Menor volatilidad que segmentos extremos
Para maximizar valorización a largo plazo:
Evitar concentración en:
Análisis de Oportunidades Geográficas
Zona Oeste:
Oportunidad: Crecimiento premium sostenido Acción: Construir relaciones con desarrolladores de lujo, especializarse en servicios de alto nivel Precaución: Mercado limitado, ciclos más lentos
Zona Sur y Norte:
Oportunidad: Segmento intermedio con crecimiento potencial Acción: Volumen operativo, eficiencia en procesos, estrategias de financiamiento accesible Precaución: Competencia moderada, márgenes en compresión
Zona Centro y Oriente:
Oportunidad: Volumen masivo, penetración de mercado Acción: Especializarse en vivienda económica, gestión de rentabilidad por volumen Precaución: Saturación, sensibilidad a ciclos económicos