Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Objetivo del análisis

Realizar un análisis multidimensional del mercado inmobiliario urbano para identificar patrones en el precio, segmentos de viviendas y relaciones entre variables cuantitativas y categóricas usando PCA, Clúster y Correspondencia.

Datos y limpieza

Primeras filas de dataset vivienda
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971
## [1] 4808   13

Se eliminan los NA porque para trabajar el análisis de componentes principales (PCA) y clustering no es posible si hay datos faltantes, en total quedaron 4808 filas con 13 columnas.

Estadísticas descriptivas de las variables numéricas
Variable Media SD Min Max
areaconst 181.14 144.10 30 1745
banios 3.26 1.38 0 10
estrato 4.83 0.95 3 6
habitaciones 3.61 1.36 0 10
parqueaderos 1.84 1.12 1 10
preciom 468.88 335.04 58 1999

Las variables con mayor dispersión son el precio por metro cuadrado y el área construida, lo que indica alta heterogeneidad en la oferta inmobiliaria. El estrato presenta menor variabilidad relativa, sugiriendo segmentación socioeconómica establecida.

Análisis de componentes principales (PCA)

Los dos primeros componentes principales explican el 78.5% de la variabilidad total del mercado inmobiliario, lo que indica una adecuada reducción dimensional sin pérdida significativa de información.

Contribucion porcentual de las variables en cada componente principal
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
preciom 22.14 5.73 1.17 8.47 7.07
areaconst 20.27 4.18 6.73 43.19 9.23
parqueaderos 18.30 2.29 37.97 38.50 1.42
banios 21.65 2.56 13.66 1.98 46.01
habitaciones 8.92 44.57 10.98 7.36 17.35
estrato 8.73 40.67 29.50 0.50 18.92

El primer componente principal (Dim1), explica el 58.1% de la varianza total, El análisis de contribuciones confirma que la Dimensión 1 está compuesta principalmente por precio (22.13%), número de baños (21.64%), área construida (20.27%) y parqueaderos (18.30%), lo que indica que esta dimensión representa el nivel de valorización y confort de la vivienda.

El segundo componente principal (Dim2), explica el 20.4% de la varianza, La Dimensión 2 está dominada por el número de habitaciones (44.57%) y el estrato socioeconómico (40.67%), lo que sugiere que esta dimensión captura la estructura habitacional y segmentación socioeconómica.

Análisis de Conglomerados (Clustering)

Determino el numero optimo de Clusters

El método del codo muestra una reducción significativa en la suma de cuadrados intra-cluster al pasar de 1 a 3 grupos. A partir de k = 3, la disminución es marginal, lo que indica que 3 conglomerados es una solución adecuada y parsimoniosa para segmentar el mercado.

En el plano definido por los dos primeros componentes principales (que explican el 78.5% de la varianza total), se observa una separación clara entre tres grupos:

El Cluster 1 se ubica hacia valores altos de Dim1.

El Cluster 2 se concentra en valores bajos de Dim1.

El Cluster 3 ocupa una posición intermedia.

Dado que la Dimensión 1 representa principalmente el nivel económico y tamaño de vivienda, la segmentación ocurre fundamentalmente por nivel de valorización inmobiliaria.

Perfil promedio por cluster
cluster preciom areaconst parqueaderos banios habitaciones estrato
1 1117.04 419.65 3.82 5.23 4.59 5.68
2 261.26 97.70 1.23 2.27 2.94 4.40
3 533.78 215.57 1.98 3.98 4.24 5.15

Cluster 1 — Segmento Premium

Representa viviendas de lujo con alto nivel de confort y valorización.

Posible estrategia: Este segmento es ideal para inversión de alto valor y proyectos exclusivos.

Cluster 2 — Segmento Económico

Representa viviendas compactas y de menor capacidad.

Posible estrategia: Segmento atractivo para vivienda de interés social o mercado masivo.

Cluster 3 — Segmento Intermedio

Segmento consolidado de clase media-alta.

Posible estrategia: Mercado estable con buena relación precio-beneficio.

El mercado inmobiliario urbano no es homogéneo; presenta una estructura claramente segmentada en tres niveles:

La segmentación está principalmente determinada por:

Esto confirma que el nivel socioeconómico y el tamaño de la propiedad son los principales determinantes de la estructura del mercado.

Análisis de Correspondencia

Tabla de contingencia Zona vs Estrato
3 4 5 6
Zona Centro 33 3 0 0
Zona Norte 141 184 482 79
Zona Oeste 19 51 181 502
Zona Oriente 94 2 1 0
Zona Sur 147 973 1195 721

De la tabla se observa:

Esto ya sugiere una segmentación socioespacial clara del mercado.

En el gráfico de Análisis de Correspondencia:

Asociaciones claras:

El análisis confirma que el mercado inmobiliario no solo está segmentado por características físicas (como mostró el PCA), sino también por localización geográfica y nivel socioeconómico.

Tabla de contingencia Zona vs Tipo
Apartamento Casa
Zona Centro 4 32
Zona Norte 632 254
Zona Oeste 669 84
Zona Oriente 17 80
Zona Sur 1860 1176

De la tabla se observa:

Del analisis se evidencia que existen zonas donde se prefieren apartamentos (Oeste) y Zonas donde se prefiere casas sobre apartamentos (Centro y Oriente.

Visualizacion de resultados

El mapa espacial muestra:

Esto refuerza lo encontrado en el análisis de correspondencia y clustering.

Conclusiones

  1. El mercado inmobiliario urbano presenta una estructura claramente segmentada en tres niveles: económico, intermedio y premium.

  2. El PCA identificó que el principal factor explicativo del mercado es el nivel de valorización económica, determinado por área construida, número de baños, parqueaderos y estrato socioeconómico.

  3. El análisis de conglomerados confirmó la existencia de tres segmentos homogéneos con características diferenciadas en precio y tamaño.

  4. El análisis de correspondencia evidenció una fuerte relación entre ubicación geográfica y estrato socioeconómico, demostrando una clara segmentación territorial del mercado.

  5. La distribución espacial del precio confirma que las zonas asociadas a estratos altos concentran mayores niveles de valorización.

La empresa deberia tener como estrategia:

El mercado inmobiliario urbano presenta una estructura segmentada tanto económica como geográficamente. Las decisiones estratégicas deben considerar simultáneamente las características físicas de la vivienda y su ubicación espacial para maximizar la rentabilidad y optimizar la inversión