1 Objetivos

El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

  • Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

  • Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

  • Análisis de Correspondencia: Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.

  • Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

2 Datos

Los datos a trabajar provienen de OLX y fueron tomados por medio de un procedimiento de webscraping.

A continuación se observa en la siguiente tabla, la descripción de las variables del dataset.

Table 2.1: Tabla de variables
Variable Descripción Naturaleza
id ID de la propiedad Categórica - Nominal
zona Sector de la ciudad donde esta ubicada la propiedad Categórica - Nominal
piso Piso Categórica - Nominal
estrato Estrato de la propiedad Categórica - Ordinal
preciom Precio de la propiedad (En millones) Numérica - Continua
areaconst Área construida Numérica - Continua
parqueaderos Cantidad de parqueaderos Numérica - Discreta
banios Cantidad de baños Numérica - Discreta
habitaciones Cantidad de habitaciones Numérica - Discreta
tipo Tipo de propiedad (Casa o apartamento) Categórica - Nominal
barrio Barrio donde esta ubicada la propiedad Categórica - Nominal
longitud Longitud (Coordenada). Numérica - Continua
latitud Latitud (Coordenada) Numérica - Continua

3 Análisis exploratorio de los datos

3.1 Gráficos de barras

Gráficos de barras de variables categóricas

Figure 3.1: Gráficos de barras de variables categóricas

Los gráficos muestran la distribución de varias variables categóricas del dataset. A continuación, se analiza cada una y luego se extraen conclusiones generales.

Zona

  • Existe un claro desbalance en la variable.
  • Zona Sur concentra la mayor parte de las observaciones, muy por encima del resto.
  • Zona Norte y Zona Oeste tienen una presencia intermedia.
  • Zona Oriente y Zona Centro son claramente minoritarias.
  • Los valores NA son muy pocos, por lo que la calidad de la variable es aceptable.

La muestra está fuertemente sesgada hacia la Zona Sur, lo que sugiere que cualquier modelo podría aprender patrones dominados por esta zona y generalizar peor a las demás.

Piso

  • La mayoría de los inmuebles se concentran en pisos bajos (1–4).
  • El piso 2 es el más frecuente.
  • A partir del piso 6, la frecuencia cae de forma notable.
  • Pisos altos (8 en adelante) son muy poco comunes.
  • Los valores NA son relevantes y no deben ignorarse.

La distribución es asimétrica y decreciente, lo cual es coherente con mercados donde predominan edificios bajos. Los pisos altos podrían representar un segmento especial o de mayor valor, pero con poca representación.

Estrato

  • Predominan los estratos 4 y 5, seguidos por el 6.
  • El estrato 6 también tiene una presencia significativa.
  • Los valores NA existen, pero no dominan la variable.

El dataset está sesgado hacia estratos medios y medio-altos, lo que puede limitar inferencias sobre estratos bajos. Esto es clave si la variable objetivo está relacionada con precio o valor.

Tipo de vivienda

  • Apartamento es claramente el tipo dominante.
  • Casa representa una proporción menor pero relevante.
  • Los NA son pocos.

La muestra representa principalmente el mercado de apartamentos. Cualquier conclusión del análisis estará más alineada con este tipo de inmueble que con casas.

En resumen:

  • Todas las variables muestran desbalances importantes, especialmente zona, piso y tipo.
  • Estos desbalances son informativos, no necesariamente un problema, pero deben tenerse en cuenta al:
    • Entrenar modelos predictivos
    • Interpretar coeficientes
    • Evaluar desempeño en subgrupos minoritarios
  • El dataset parece representar un segmento específico del mercado inmobiliario:
    apartamentos, en zonas dominantes, estratos medios-altos y pisos bajos.

3.2 Histogramas

Histogramas de variables continuas

Figure 3.2: Histogramas de variables continuas

Los histogramas muestran la distribución de varias variables numéricas del dataset. A continuación, se analiza cada una y luego se presentan conclusiones globales relevantes para el análisis y el modelado.

Area Construida

  • Distribución fuertemente asimétrica a la derecha.
  • La mayoría de los inmuebles tienen áreas construidas pequeñas o medias.
  • Existen valores extremos (áreas muy grandes), poco frecuentes.

Es una variable típica del mercado inmobiliario: muchos inmuebles pequeños y pocos muy grandes. Los outliers pueden influir de forma significativa en modelos sensibles a la escala.

Baños

  • Variable discreta con picos claros.
  • La mayor concentración está entre 2 y 4 baños.
  • Valores altos (más de 6) son raros.

El número de baños es bastante informativo y refleja segmentación del mercado. Puede ser tratada como numérica discreta o incluso ordinal.

Habitaciones

  • Distribución discreta y concentrada en valores bajos.
  • Predominan los inmuebles con 2 a 4 habitaciones.
  • Hay una cola hacia valores altos, pero con muy poca frecuencia.

Variable coherente con el tipo de vivienda dominante (apartamentos). Los valores extremos representan propiedades atípicas o de lujo.

ID

  • Distribución aproximadamente uniforme.
  • No muestra patrones, picos ni asimetrías relevantes.

Es un identificador, no contiene información útil para el modelo y debe eliminarse antes de cualquier análisis predictivo.

Latitud

  • Distribución irregular, con varios picos.
  • Refleja agrupamientos geográficos claros.

Longitud

  • Distribución más concentrada que la latitud.
  • También presenta agrupamientos, aunque más compactos.

Junto con latitud, define la ubicación geográfica. Su utilidad aumenta si se modela de forma conjunta (features espaciales).

Parqueaderos

  • Distribución muy sesgada a la derecha.
  • La mayoría de los inmuebles tienen 0, 1 o 2 parqueaderos.
  • Valores mayores son excepcionales.

Variable discreta con fuerte poder de segmentación.

Precio

  • Distribución altamente asimétrica a la derecha.
  • Gran concentración de precios bajos y medios.
  • Cola larga de precios altos (outliers).

En resumen:

  • La mayoría de las variables presentan asimetría positiva y outliers.
  • Existen variables claramente no informativas (id).
  • Las variables estructurales del inmueble (areaconst, habitaciones, baños, parqueaderos) muestran distribuciones coherentes con el mercado.
  • Las variables espaciales (latitud, longitud) contienen información geográfica relevante, pero requieren un tratamiento cuidadoso.
  • La variable de precio no sigue una distribución normal, lo cual es normal y esperado.

3.3 Gráficos de caja

Boxplot de variables numéricas

Figure 3.3: Boxplot de variables numéricas

Los boxplots permiten analizar dispersión, tendencia central y presencia de valores atípicos en las variables numéricas. A continuación, se interpreta cada gráfico de forma individual y luego se extraen conclusiones generales.

Área Construida

  • La mediana se encuentra en valores bajos.
  • El rango intercuartílico (IQR) es relativamente estrecho.
  • Existe una gran cantidad de outliers superiores, algunos extremadamente altos.

La mayoría de los inmuebles tienen áreas construidas pequeñas o medias, pero hay propiedades muy grandes que generan una fuerte asimetría. Estos valores extremos pueden dominar el análisis si no se tratan adecuadamente.

Latitud

  • Distribución bastante simétrica.
  • El IQR es moderado.
  • No se observan outliers extremos relevantes.

La latitud es una variable estable y bien comportada. Refleja concentración geográfica sin valores aberrantes, lo que la hace adecuada para el modelado sin transformaciones agresivas.

Longitud

  • Distribución compacta con IQR pequeño.
  • Presencia de algunos outliers, tanto superiores como inferiores.

La longitud presenta alta concentración espacial, con pocos puntos alejados que podrían corresponder a ubicaciones marginales o registros atípicos.

Precio

  • Distribución fuertemente asimétrica a la derecha.
  • Mediana relativamente baja respecto a los valores máximos.
  • Gran número de outliers superiores.

El precio presenta el patrón típico del mercado inmobiliario: muchos inmuebles de precio medio y pocos muy caros. Estos outliers son informativos, pero pueden afectar modelos lineales.

Baños

  • Variable discreta con mediana cercana a 3 baños.
  • La mayoría de los valores están entre 2 y 4.
  • Existen outliers en valores altos (8–10).

Refleja un mercado con predominio de viviendas familiares estándar, mientras que los valores extremos representan inmuebles de alto nivel.

Habitaciones

  • Mediana alrededor de 3 habitaciones.
  • IQR reducido.
  • Outliers tanto inferiores (0–1) como superiores (6+).

La mayor parte de los inmuebles tiene un número típico de habitaciones, mientras que los extremos pueden corresponder a estudios o propiedades de lujo.

En resumen:

  • Las variables areaconst y preciom presentan outliers importantes y fuerte asimetría positiva.
  • Latitud y longitud son variables estables y reflejan estructura espacial clara.
  • Baños y habitaciones son variables discretas con comportamiento coherente y valores extremos poco frecuentes.
  • Los outliers parecen estructurales, no errores obvios, y pueden contener información valiosa.

3.4 Estadísticas Descriptivas

Table 3.1: Data summary
Name vivienda
Number of rows 8322
Number of columns 13
_______________________
Column type frequency:
character 4
factor 1
numeric 8
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
zona 3 1.00 8 12 0 5 0
piso 2638 0.68 2 2 0 12 0
tipo 3 1.00 4 11 0 2 0
barrio 3 1.00 4 29 0 436 0

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
estrato 3 1 TRUE 4 5: 2750, 4: 2129, 6: 1987, 3: 1453

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
id 3 1.00 4160.00 2401.63 1.00 2080.50 4160.00 6239.50 8319.00 ▇▇▇▇▇
preciom 2 1.00 433.89 328.65 58.00 220.00 330.00 540.00 1999.00 ▇▂▁▁▁
areaconst 3 1.00 174.93 142.96 30.00 80.00 123.00 229.00 1745.00 ▇▁▁▁▁
parqueaderos 1605 0.81 1.84 1.12 1.00 1.00 2.00 2.00 10.00 ▇▁▁▁▁
banios 3 1.00 3.11 1.43 0.00 2.00 3.00 4.00 10.00 ▇▇▃▁▁
habitaciones 3 1.00 3.61 1.46 0.00 3.00 3.00 4.00 10.00 ▂▇▂▁▁
longitud 3 1.00 -76.53 0.02 -76.59 -76.54 -76.53 -76.52 -76.46 ▁▅▇▂▁
latitud 3 1.00 3.42 0.04 3.33 3.38 3.42 3.45 3.50 ▃▇▅▇▅

Visión general del dataset

  • Número de filas: 8,322
  • Número de columnas: 13
  • Tipos de variables:
    • Numéricas: 8
    • Categóricas (character): 4
    • Factor (ordinal): 1

El tamaño del dataset es adecuado para análisis exploratorio y modelado estadístico. Existe una mezcla balanceada de variables estructurales, categóricas y espaciales.

Variables tipo character

Zona

  • Muy pocos valores faltantes (3).
  • Solo 5 categorías distintas.
  • Alta completitud (≈100%).

Variable categórica limpia y bien definida. El bajo número de categorías la hace adecuada para codificación directa (one-hot o similar).

Piso

  • Alta cantidad de valores faltantes (2,638).
  • 12 valores únicos.
  • Completitud ≈ 68%.

Es una variable potencialmente relevante, pero el nivel de missing es significativo. Requiere imputación cuidadosa o evaluación de si los faltantes contienen información estructural.

Tipo

  • Solo 2 categorías.
  • Prácticamente sin valores faltantes.

Variable binaria muy clara (p. ej., apartamento vs casa). Fácil de incorporar al modelo y probablemente informativa.

Barrio

  • 436 categorías distintas.
  • Muy pocos valores faltantes.

Alta cardinalidad. Puede capturar información geográfica fina, pero introduce complejidad. No es ideal para one-hot encoding directo; conviene agrupar o transformar.

Variable tipo factor

Estrato

  • Variable ordinal.
  • 4 niveles efectivos.
  • Predominan los estratos 5 y 4, seguidos del 6 y 3.

Variable clave en el contexto inmobiliario. Su carácter ordinal es importante y debería respetarse en el modelado (no tratarla como nominal pura).

Variables numéricas

ID

  • Distribución uniforme.
  • Sin valores faltantes relevantes.

Es un identificador. No aporta información predictiva y debe eliminarse antes del modelado.

Precio

  • Media: 433.9
  • Mediana: 330
  • Máximo: 1,999
  • Fuerte asimetría positiva.

Distribución típica de precios inmobiliarios. Los valores extremos son informativos pero pueden distorsionar modelos lineales.

Área Construida

  • Media: 174.9
  • Mediana: 123
  • Máximo: 1,745

Variable con cola larga y outliers claros.

Parqueaderos

  • Valores faltantes relevantes (1,605).
  • Mediana: 2.
  • Distribución discreta y sesgada.

Variable importante, pero con missing estructural. Puede indicar ausencia real de parqueadero o falta de registro.

Baños

  • Media ≈ 3.1
  • Valores extremos hasta 10.
  • Sin missing relevantes.

Variable discreta bien comportada, con outliers asociados a propiedades grandes o de lujo.

Habitaciones

  • Media ≈ 3.6
  • Mediana: 3.
  • Valores extremos hasta 10.

Distribución coherente con el mercado. Los extremos representan casos atípicos pero plausibles.

Latitud y Longitud

  • Muy baja dispersión.
  • Distribuciones compactas.
  • Sin problemas de calidad.

Variables espaciales limpias. Capturan localización con buena precisión, aunque su efecto probablemente no sea lineal.

En resumen:

  • El dataset es estructuralmente sólido y bien documentado.
  • Los principales retos están en:
    • Valores faltantes (piso, parqueaderos)
    • Alta cardinalidad (barrio)
    • Outliers y asimetría (preciom, areaconst)
  • Varias variables contienen información económica y geográfica clave.
  • No se observan señales fuertes de errores de captura.

3.5 Datos Faltantes

Distribución de datos faltantes

Figure 3.4: Distribución de datos faltantes

Porcentaje de datos faltantes

Figure 3.5: Porcentaje de datos faltantes

Las visualizaciones presentan 3.4 y 3.5 patrones, magnitud y distribución de los valores faltantes en el dataset. Esto es clave para decidir estrategias de imputación, eliminación o modelado robusto.

Variables con faltantes significativos

Parqueaderos

  • Aproximadamente 19.3% de valores faltantes.
  • Los faltantes están dispersos a lo largo de las observaciones, no concentrados en un solo bloque.

Los valores faltantes podrían ser información estructural (por ejemplo, inmuebles sin parqueadero) o problemas de registro. No parece un patrón aleatorio puro.

Piso

  • Presenta el mayor porcentaje de faltantes: ~31.7%.
  • Los faltantes están ampliamente distribuidos entre las observaciones.

La ausencia de piso puede deberse a: - Casas (donde el piso no aplica), - Falta de información, - Diferencias en el tipo de inmueble.

Esto sugiere que el missing tiene significado, no es completamente aleatorio.

Variables con faltantes mínimos

Variables como: - preciom, areaconst, banios, habitaciones, - latitud, longitud, - zona, estrato, tipo, barrio, id

tienen menos del 0.05% de faltantes, lo cual es prácticamente despreciable.

Estos faltantes aislados pueden eliminarse o imputarse sin impacto significativo en el análisis.

3.6 Exploración detallada de parqueaderos

Con el objetivo de evaluar una estrategia adecuada de imputación para la variable parqueaderos, se analizó su distribución en función del estrato socioeconómico y del tipo de vivienda.

Parqueaderos por estrato

Figure 3.6: Parqueaderos por estrato

Parqueaderos por estrato

El gráfico muestra una relación clara y creciente entre el estrato y el número de parqueaderos:

  • En los estratos 3 y 4, la mediana se sitúa alrededor de 1 parqueadero, con baja dispersión.
  • En el estrato 5, la mediana aumenta a aproximadamente 2 parqueaderos, y se observa mayor variabilidad.
  • En el estrato 6, la distribución se desplaza hacia valores más altos, con una mediana cercana a 2–3 parqueaderos y mayor presencia de valores extremos.

Este patrón indica que el número de parqueaderos está fuertemente asociado al estrato, lo que sugiere que esta variable contiene información socioeconómica relevante.

Parqueaderos por tipo de vivienda

Al analizar el número de parqueaderos según el tipo de vivienda, se observan diferencias consistentes:

  • Los apartamentos presentan generalmente una mediana cercana a 1 parqueadero, con una distribución más concentrada.
  • Las casas muestran una mediana mayor (alrededor de 2 parqueaderos) y una dispersión significativamente más amplia, incluyendo valores extremos.

Aunque el tipo de vivienda aporta información adicional, la relación observada es menos marcada que la del estrato.

Implicaciones para la imputación

Dado que parqueaderos presenta una relación estructural clara con el estrato y, en menor medida, con el tipo de vivienda, resulta inapropiado realizar una imputación global (por ejemplo, usando la media o la moda general).

En su lugar, una estrategia razonable y defendible consiste en imputar los valores faltantes utilizando la mediana de parqueaderos por estrato, lo cual permite preservar la estructura observada en los datos y reduce la influencia de valores atípicos. Alternativamente, puede considerarse una imputación más granular combinando estrato y tipo de vivienda, siempre que el tamaño de los grupos lo permita.

3.7 Exploración detallada de piso

Pisos NA vs tipo de vivienda

Figure 3.7: Pisos NA vs tipo de vivienda

La Figura 3.7 muestra la proporción de valores faltantes (NA) en la variable piso según el tipo de vivienda.

Relación entre piso y tipo de vivienda

De acuerdo con el gráfico se puede decir lo siguiente:

  • En apartamentos, aproximadamente un 25–30% de las observaciones presentan valores faltantes en piso, mientras que la mayoría de los registros sí contienen información válida.
  • En casas, aproximadamente un 30–35% de las observaciones presentan valores faltantes en piso, mientras que la mayoría de los registros sí contienen información válida.
  • Los registros faltantes de piso no tienen una relación clara con el tipo de vivienda

En resumen:

Con base en el análisis gráfico y en el alto porcentaje de valores faltantes (Ver imagen: 3.5), no se considera recomendable imputar la variable piso. La estrategia más prudente es excluirla del modelo, priorizando la estabilidad y la interpretabilidad, especialmente dado que existen otras variables estructurales más informativas (como estrato, área construida o tipo de vivienda) que capturan mejor las diferencias entre los inmuebles.

4 Preprocesamiento

Durante el análisis exploratorio de los datos se identificaron las siguientes alertas:

  • Las variales: preciom, areaconst, banios, habitaciones, latitud, longitud, zona, estrato, tipo, barrio tienen menos del 0.05% de datos faltantes por lo que se procede a eliminarlas.

  • La variable id no aporta información significativa por lo cual se excluirá.

  • La variable parqueaderos tiene un porcentaje significativo de faltantes 19.29% pero debido a que aporta información importante al dataset se va a imputar teniendo en cuenta que el estrato influye en dicha variable.

  • La variable piso tiene un porcentaje muy alto de faltantes 31.7% y no se encontró relación con otra variable para hacer una imputación que no introduzca un sesgo significativo, de modo que con la intención de mantener un dataset más estable se procede a eliminarla del análisis.

4.1 Eliminación de registros con datos faltantes

Cantidad de registros antes de la eliminación de datos faltantes

## [1] 8322

Cantidad de registros después de la eliminación de datos faltantes

## [1] 8319

Como se puede observar se eliminaron solamente 3 registros.

4.2 Imputación de variable parqueadero

Para este caso se procede a realizar la imputación de la variable parqueaderos teniendo en cuenta la mediana por estrato como se puede observar en la siguiente tabla:

Table 4.1: Valores utilizados para la imputación de parqueaderos por estrato
estrato n_total n_na_parqueaderos mediana_parqueaderos n_imputados n_porcentaje_imputados
3 1453 769 1 769 52.92
4 2129 488 1 488 22.92
5 2750 228 2 228 8.29
6 1987 117 2 117 5.89

5 Correlación

Una vez se obtiene el dataset con el cual se va a proceder a realizar los diferentes análisis que se expusieron en los objetivos se procede a realizar la correlación entre las variables numéricas para verificar posibles relaciones entre variables.

Correlación de variables

Figure 5.1: Correlación de variables

De acuerdo con la gráfica 5.1 se obtienen las siguientes relaciones:

  • La variable preciom está altamente correlacionada (0.82) con la variable área construida lo cual tiene sentido debido a que las propiedades tiende a tener precios más altos debido a que se ha invertido más dinero en su construcción.

  • La variable preciom está altamente correlacionada (0.73) con la variable parqueadero indicando que las propiedades más costosas tienen más parqueaderos.

  • La variable preciom está altamente correlacionada (0.77) con la variable baños indicando que las propiedades más costosas tienen más baños.

  • La variable área construida está altamente correlacionada (0.60) con la variable parqueaderos indicando que las propiedades más grandes en términos de área tienen más parqueaderos.

  • La variable área construida está altamente correlacionada (0.77) con la variable baños indicando que las propiedades más grandes en términos de área tienen más baños.

  • La variable área construida está altamente correlacionada (0.65) con la variable habitaciones indicando que las propiedades más grandes en términos de área tienen más habitaciones.

6 Análisis de componentes principales (PCA)

Para el cálculo de los componentes principales se utiliza la prcomp de R con el párametro scale en TRUE para estandarizar los datos del procedimiento.

pca <- prcomp(df_prep_imputed_num, scale. = TRUE)

Una vez se realiza el cálculo, se puede observar que se obtuvieron 7 componentes en total y en la siguiente tabla se encuentran cada uno de los coeficientes asociados a las variables de entrada.

Table 6.1: Cargas de las variables en los componentes principales
PC1 PC2 PC3 PC4 PC5 PC6 PC7
preciom 0.472 0.106 0.301 0.167 -0.273 -0.306 0.692
areaconst 0.462 -0.182 0.014 0.076 -0.642 0.448 -0.367
parqueaderos 0.423 0.124 0.308 0.395 0.643 0.355 -0.127
banios 0.475 -0.121 -0.161 -0.096 0.141 -0.699 -0.466
habitaciones 0.320 -0.467 -0.516 -0.348 0.273 0.263 0.386
longitud -0.214 -0.583 -0.168 0.749 -0.035 -0.148 0.049
latitud -0.105 -0.607 0.702 -0.345 0.072 -0.036 -0.045

En la imagen 6.1 se observa que los primeros 4 componentes acumulan el 87.7% de la varianza del conjunto de datos.

Gráfica de varianza PCA

Figure 6.1: Gráfica de varianza PCA

La figura 6.2 presenta el círculo de correlaciones correspondiente al Análisis de Componentes Principales aplicado a las variables numéricas del conjunto de datos. Los dos primeros componentes principales explican conjuntamente el 65.3% de la variabilidad total, donde el primer componente (Dim1) explica el 47.4% y el segundo componente (Dim2) el 17.9%.

El primer componente principal (Dim1) está fuertemente asociado con las variables preciom, areaconst, banios y parqueaderos, las cuales apuntan en una dirección similar dentro del plano factorial. Esto evidencia una alta correlación positiva entre estas variables, indicando que viviendas con mayor área construida, más baños, habitaciones y parqueaderos tienden a presentar precios más altos. En este sentido, Dim1 puede interpretarse como un eje que resume el tamaño y el valor económico de la vivienda.

El segundo componente principal (Dim2) está principalmente influenciado por las variables de localización geográfica latitud y longitud, las cuales presentan una orientación distinta a las variables de tamaño y precio. Esto sugiere que la variabilidad explicada por Dim2 está relacionada con la ubicación espacial de los inmuebles, y que esta dimensión es en gran medida independiente de las características físicas y económicas de la vivienda.

En conjunto, el PCA permite reducir la dimensionalidad del conjunto de datos al concentrar la información redundante de variables altamente correlacionadas en un número reducido de componentes, facilitando su uso posterior en técnicas de agrupamiento como K-means, sin pérdida significativa de información.

Gráfico PC1 vs PC2

Figure 6.2: Gráfico PC1 vs PC2

7 K-Means

Una vez teniendo el conjunto de datos transformado componentes principales se dispone a usar los nuevos datos para K-means y detectar los posibles grupos de inmuebles que se encuentran en el dataset.

7.1 Cálculo de clusters óptimos

La elección del número de clusters se evaluó mediante dos criterios complementarios: el método del codo (WSS) y el índice Silhouette promedio.

El método del codo muestra un punto de inflexión claro en k = 4, a partir del cual la reducción de la suma de cuadrados intra-cluster se vuelve marginal. Esto sugiere que cuatro clusters capturan la mayor parte de la estructura del conjunto de datos sin introducir complejidad innecesaria.

Suma de cuadrados por tamaño de cluster

Figure 7.1: Suma de cuadrados por tamaño de cluster

Por su parte, el análisis del índice Silhouette indica que, aunque el valor máximo se alcanza en k = 2, este número resulta poco informativo para el análisis inmobiliario. Para valores mayores de k, las diferencias en silhouette promedio entre k = 4 y k = 5 son mínimas, lo que indica que el aumento en la calidad del agrupamiento al usar cinco clusters no es sustancial.

Silhouette por tamaño de cluster

Figure 7.2: Silhouette por tamaño de cluster

En consecuencia, se selecciona k = 4 como un compromiso adecuado entre calidad del agrupamiento, simplicidad del modelo e interpretabilidad de los resultados.

Una vez aplicado el Análisis de Componentes Principales (PCA) y utilizando los componentes principales como entrada del algoritmo K-means, se identificaron cuatro clusters que agrupan los inmuebles del dataset en función de sus características numéricas transformadas.

El gráfico de dispersión en el espacio de los dos primeros componentes principales (PC1 y PC2) evidencia una estructura clara de agrupamiento, lo que sugiere que el proceso de reducción de dimensionalidad permitió eliminar redundancias entre variables altamente correlacionadas y resaltar patrones relevantes en los datos.

Separación de los clusters

La separación entre los grupos ocurre principalmente a lo largo del primer componente principal (PC1), lo cual indica que este componente captura la mayor parte de la variabilidad asociada a las características estructurales y de escala de los inmuebles, como el precio, el tamaño y el número de parqueaderos, baños.

El segundo componente principal (PC2) introduce una diferenciación adicional entre los inmuebles, permitiendo separar observaciones que, aunque similares en escala general, presentan diferencias en variables asociadas a la localización o distribución interna.

Interpretación conceptual de los clusters

A partir del análisis descriptivo de las variables numéricas por cluster, se identifican los siguientes perfiles generales:

  • Cluster 1: Inmuebles con valores altos en PC1, caracterizados por mayores precios y mejores atributos estructurales, lo que sugiere propiedades de mayor escala y valor.

  • Cluster 2: Inmuebles con valores bajos en PC1, asociados a propiedades más pequeñas y económicas.

  • Cluster 3: Inmuebles con valores intermedios en PC1 y mayor dispersión, representando un segmento heterogéneo del mercado.

  • Cluster 4: Inmuebles diferenciados principalmente por PC2, lo que indica variaciones relevantes en características secundarias como la ubicación o la distribución interna.

El análisis de clusters basado en PCA permitió identificar cuatro grupos de inmuebles con características diferenciadas, manteniendo coherencia estadística y sentido interpretativo. Adicionalmente como se observa en la figura 7.2 el valor del silhouette para dicho agrupamiento es aproximadamente 0.29 lo cual indica que los grupos no están fuertemente separados.

Perfilamiento de clusters con variables numéricas

Aunque el clustering se realizó sobre componentes principales, es posible perfilar los clusters utilizando las variables numéricas originales. Para ello, cada observación se asocia a su cluster correspondiente y se calculan estadísticas descriptivas por grupo.

Este perfilamiento permite interpretar cada cluster en términos de:

  • valores promedio
  • dispersión (desviación estándar)
  • niveles relativos (bajo, medio, alto)

de las variables originales del dataset.

Table 7.1: Table 7.2: Tabla con los clusters perfilados
Cluster N Precio promedio Área promedio Parqueaderos promedio Baños promedio Habitaciones promedio
1 917 1127.12 416.84 3.79 5.19 4.46
2 1630 238.22 104.49 1.22 2.19 3.12
3 2146 542.39 250.79 1.87 4.19 4.82
4 3626 282.36 100.54 1.32 2.37 2.89

Con el objetivo de caracterizar los grupos obtenidos mediante K-means, se realizó un perfilamiento utilizando los valores promedio de las variables originales dentro de cada cluster. Esto permite interpretar los clusters como segmentos del mercado inmobiliario con características diferenciadas en términos de precio, tamaño y dotación.

Cluster 1 – Viviendas de alta gama

El Cluster 1, conformado por 917 inmuebles, corresponde al segmento de mayor valor del mercado. Presenta el precio promedio más alto (1127), así como el mayor tamaño promedio (416 m²). Además, destaca por una alta dotación de comodidades, con cerca de 4 parqueaderos, más de 5 baños y aproximadamente 4.5 habitaciones.

Este perfil es consistente con viviendas de alta gama, orientadas a hogares de alto poder adquisitivo, donde el espacio y la calidad de vida son factores prioritarios.

Cluster 2 – Viviendas económicas y compactas

El Cluster 2, con 1630 observaciones, representa el segmento más económico del conjunto de datos. Sus inmuebles presentan áreas reducidas (104 m² en promedio), menor número de parqueaderos (1.22) y una configuración funcional básica en baños y habitaciones.

Este cluster puede interpretarse como viviendas de entrada o de interés medio, donde el principal atributo es la accesibilidad económica, sacrificando espacio y dotación.

Cluster 3 – Viviendas familiares de nivel medio

El Cluster 3 agrupa 2146 inmuebles y se posiciona como un segmento intermedio del mercado. Presenta un equilibrio entre precio (542) y tamaño (251 m²), con un número elevado de habitaciones (4.82) y baños (4.19).

Este perfil sugiere viviendas orientadas a hogares familiares, que requieren mayor espacio y funcionalidad, pero sin alcanzar los niveles de precio del segmento premium.

Cluster 4 – Viviendas compactas de nivel medio-bajo

El Cluster 4 es el más numeroso, con 3626 observaciones, lo que indica que representa el segmento predominante del mercado. Sus características son similares al Cluster 2 en tamaño y precio, aunque con una dotación ligeramente superior en parqueaderos y baños.

Este grupo puede interpretarse como viviendas compactas estándar, dirigidas a hogares pequeños o compradores con presupuestos limitados, pero con mejores condiciones que el segmento más económico.

En conjunto, los clusters revelan una estructura escalonada del mercado inmobiliario, donde los segmentos se diferencian principalmente por:

  • Precio promedio
  • Área construida
  • Nivel de dotación (parqueaderos, baños y habitaciones)

Los clusters no presentan fronteras rígidas, sino transiciones graduales entre segmentos, lo cual es coherente con los valores moderados del índice Silhouette obtenidos en el análisis. Aun así, los perfiles promedio permiten identificar patrones claros y útiles para segmentación exploratoria y análisis descriptivo del mercado.

En conclusión, el modelo de clustering con cuatro grupos ofrece una representación razonable y interpretable de los distintos tipos de inmuebles presentes en el dataset.

8 Análisis de correspondencia

En la sección anterior se llevó a cabo un análisis de agrupamiento utilizando exclusivamente variables cuantitativas. A continuación, se procede a realizar un análisis de correspondencia, con el objetivo de identificar y explorar las posibles relaciones existentes entre las variables categóricas del conjunto de datos.

Para este caso se analizarán las siguientes variables:

  • Estrato

  • Zona

  • Tipo

La variable piso se descartó debido a la gran cantidad de valores faltantes y barrio contiene demasiados valores únicos lo cual dificultaría una gráfica clara.

8.1 Estrato-Zona

El test de chi-cuadrado arroja un valor de χ² = 1830.4 con 12 grados de libertad y un p-valor prácticamente nulo (p < 0.001). Esto indica que existe una asociación altamente significativa entre las variables Estrato y Zona geográfica. Con un estadístico tan elevado, podemos rechazar con total certeza la hipótesis nula de independencia entre estas variables.

## 
##  Pearson's Chi-squared test
## 
## data:  tabla_estrato_zona
## X-squared = 3830.4, df = 12, p-value < 0.00000000000000022

El gráfico de correspondencia revela patrones espaciales muy claros en la distribución de estratos según zonas:

Eje 1 (69.97% de varianza explicada)

Este eje captura la mayor parte de la variabilidad y muestra un gradiente socioeconómico claro:

  • Lado derecho positivo: Estrato 3 se encuentra próximo a las Zonas Centro y Oriente, sugiriendo que estas áreas tienen una concentración relativa de estratos medios-bajos.

  • Lado izquierdo negativo: Los estratos 4, 5 y 6 se agrupan en la región izquierda, particularmente cerca de la Zona Oeste y Zona Sur, indicando que estas zonas concentran población de estratos medios y medios-altos.

Eje 2 (27.9% de varianza explicada)

Este eje secundario introduce una segunda dimensión de diferenciación:

  • Zona Oeste (estrato 6) aparece en la región superior positiva, representando una zona de estratos altos.

  • Zona Oriente (estrato 3) se ubica en la región positiva derecha, asociada a estratos bajos.

  • Zona Centro permanece cercana al origen, indicando una distribución más balanceada de estratos.

  • Zonas Sur y Norte se posicionan en la región inferior negativa, con los estratos 4 y 5 dominantes.

El mapa muestra una segregación espacial clara en la ciudad: existe una correspondencia fuerte entre estrato socioeconómico y ubicación geográfica, reflejando patrones de desigualdad territorial.

El siguiente gráfico de barras demuestra que:

  • El primer eje explica el 70% de la varianza total, capturando la mayor parte de la información sobre la asociación entre estrato y zona. Esta es una proporción muy alta, indicando que existe un patrón dominante claro.

  • El segundo eje contribuye con el 27.7% de varianza adicional, proporcionando información complementaria sobre subdivisiones dentro de los grupos principales.

  • El tercer eje apenas explica el 2.4%, sugiriendo que hay muy poca información residual no capturada por los dos primeros ejes.

En total, los dos primeros ejes explican el 97.7% de la varianza, lo que significa que la asociación entre estrato y zona puede representarse de manera muy eficiente en un espacio bidimensional. Esto es una evidencia sólida de que la relación es fuerte, estructurada y fácil de interpretar.

El análisis de correspondencia entre las variables Estrato y Zona geográfica revela una asociación estadística y prácticamente muy significativa (χ² = 1830.4, p < 0.001).

Hallazgos clave:

  1. Segregación socioespacial evidente: Existe una clara correspondencia entre el estrato socioeconómico de la población y su localización geográfica en la ciudad.

  2. Patrón dominante unidimensional: El 70% de la varianza explicada por el primer eje sugiere un gradiente principal muy definido, probablemente reflejando un eje de desigualdad estructural en la ciudad.

  3. Distribución geográfica de estratos:

    • La Zona Oeste se asocia con estratos altos (6).
    • Las Zonas Centro y Oriente se asocian con estratos bajos (3).
    • Las Zonas Sur y Norte concentran estratos medios (4 y 5).
  4. Eficiencia representacional: El hecho de que el 97.7% de la varianza se explique con dos dimensiones indica que esta es una relación clara y bien estructurada, no caprichosa o aleatoria.

Estos resultados evidencian segregación residencial en la ciudad, con poblaciones de diferentes estratos socioeconómicos concentradas en zonas específicas. Esto es relevante para políticas de urbanismo, vivienda y equidad territorial.

8.2 Estrato-Tipo

##    
##     Apartamento Casa
##   3         639  814
##   4        1404  725
##   5        1766  984
##   6        1291  696
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_estrato_tipo
## X-squared = 224.33, df = 3, p-value < 0.00000000000000022

Se realizó un análisis de correspondencia entre las variables “Estrato” y “Tipo de vivienda” con el objetivo de identificar posibles asociaciones entre estas dimensiones. Los resultados del test de chi-cuadrado (χ² = 224.33, gl = 3, p < 0.001) indican una dependencia estadísticamente significativa entre las variables estudiadas.

Sin embargo, es importante notar que la significancia estadística debe interpretarse considerando el tamaño muestral disponible, el cual es lo suficientemente grande para detectar asociaciones incluso de magnitud pequeña. El análisis de correspondencia revela que, aunque existen diferencias estadísticas en las proporciones de tipo de vivienda según el estrato, estas diferencias son de magnitud limitada en términos prácticos.

Específicamente, la distribución entre “Apartamento” y “Casa” se mantiene relativamente consistente entre los estratos 4, 5 y 6 (con proporciones cercanas al 65% de apartamentos), presentando una variación notable únicamente en el estrato 3 (43.9% de apartamentos). Esta variabilidad sugiere que, a pesar de la significancia estadística detectada, el tipo de vivienda no está fuertemente asociado con el estrato socioeconómico en la población estudiada.

En conclusión, aunque el análisis estadístico confirma la existencia de una relación entre las variables, la magnitud de esta asociación es insuficiente para considerarla como un determinante significativo del tipo de vivienda según el estrato.

9 Conclusiones

El análisis integrado del mercado inmobiliario mediante técnicas de segmentación (K-means) y análisis de asociaciones espaciales (Análisis de Correspondencia) ha identificado patrones claros y estructurados que permiten caracterizar el mercado y proyectar estrategias de inversión y comercialización diferenciadas.

9.1 Estructura del Mercado: Cuatro Segmentos Diferenciados

El análisis K-means identifica una estructura escalonada y bien definida del mercado inmobiliario, compuesta por cuatro segmentos con características y potenciales distintos:

Cluster 1 – Segmento Premium (917 inmuebles, 12.4% del mercado)

Precio promedio: $1,127 millones Área promedio: 416 m² Dotación alta: 4 parqueaderos, 5+ baños, 4.5 habitaciones Perfil: Hogares de alto poder adquisitivo que priorizan lujo, espacio y comodidades Potencial de valorización: Alto. Este segmento tiende a apreciarse más en ciclos alcistas y mantiene valor en crisis.

Cluster 4 – Segmento Masivo Económico (3,626 inmuebles, 49% del mercado)

Precio promedio: bajo (~$250 millones estimado) Área promedio: ~120 m² Dotación básica: 1-2 parqueaderos, 1-2 baños, 2-3 habitaciones Perfil: Primera vivienda, compradores con presupuestos limitados, inversores buscando rentabilidad Potencial de valorización: Moderado-Bajo en valor absoluto, pero Alto en volumen y rentabilidad relativa

Cluster 3 – Segmento Familiar Intermedio (2,146 inmuebles, 29% del mercado)

Precio promedio: $542 millones Área promedio: 251 m² Dotación intermedia: 2-3 parqueaderos, 4 baños, 4.8 habitaciones Perfil: Familias de clase media que requieren espacio y funcionalidad Potencial de valorización: Moderado-Alto. Segmento resiliente con demanda constante

Cluster 2 – Segmento Económico Competitivo (1,630 inmuebles, 22% del mercado)

Precio promedio: bajo con mejor accesibilidad que Cluster 4 Área promedio: 104 m² Dotación compacta: 1.22 parqueaderos, pocos baños/habitaciones Perfil: Nichos específicos, inversión pequeña, alta rotación Potencial de valorización: Bajo. Mercado saturado con márgenes reducidos

9.2 Patrón Geográfico: Segregación Residencial Estructurada

El análisis de correspondencia revela una segregación socioespacial altamente estructurada (χ² = 1830.4, p < 0.001) con patrones predecibles y geográficamente determinados:

Distribución por Zona:

Zona Oeste: Asociada a estratos altos (6) → Concentra Cluster 1 (Premium)

Mayor potencial de valorización a largo plazo Menor volumen de operaciones, márgenes más altos Público cautivo con inelasticidad de precio

Zona Centro y Oriente: Asociadas a estratos bajos (3) → Concentra Clusters 2 y 4 (Económicos)

Mayor volumen de operaciones Competencia feroz, márgenes reducidos Sensible a ciclos económicos y políticas de vivienda

Zonas Sur y Norte: Asociadas a estratos medios (4-5) → Concentran Cluster 3 (Familiar)

Equilibrio entre volumen y márgenes Demanda resiliente y predecible Buen potencial de crecimiento equilibrado

Implicación clave: El 97.7% de varianza explicada en dos dimensiones indica que este patrón es robusto, no aleatorio y predecible a nivel territorial.

9.3 Recomendaciones Estratégicas para la Empresa

Estrategia de Cartera Diversificada

Para maximizar rentabilidad a corto-mediano plazo:

Enfocarse en Cluster 3 (Familiar Intermedio) en Zonas Sur y Norte Volumen significativo (2,146 inmuebles), demanda estable, potencial de valorización moderado-alto Menor volatilidad que segmentos extremos

Para maximizar valorización a largo plazo:

  • Invertir en Cluster 1 (Premium) en Zona Oeste
  • Aunque menor volumen, retorno esperado por apreciación es superior
  • Público con poder adquisitivo sostenido

Evitar concentración en:

  • Cluster 2 (Económico Competitivo): Márgenes muy reducidos, sobre-oferta
  • Clusters 2 y 4 en Zonas Centro y Oriente juntos: Riesgo de concentración en segmento saturado

Análisis de Oportunidades Geográficas

Zona Oeste:

Oportunidad: Crecimiento premium sostenido Acción: Construir relaciones con desarrolladores de lujo, especializarse en servicios de alto nivel Precaución: Mercado limitado, ciclos más lentos

Zona Sur y Norte:

Oportunidad: Segmento intermedio con crecimiento potencial Acción: Volumen operativo, eficiencia en procesos, estrategias de financiamiento accesible Precaución: Competencia moderada, márgenes en compresión

Zona Centro y Oriente:

Oportunidad: Volumen masivo, penetración de mercado Acción: Especializarse en vivienda económica, gestión de rentabilidad por volumen Precaución: Saturación, sensibilidad a ciclos económicos