Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
Dataset | Observaciones | Variables |
---|---|---|
Vivienda | 8322 | 13 |
Variable | Tipo_R | Ejemplo_valores | |
---|---|---|---|
id | id | numeric | 1147, 1169, 1350, 5992, 1212 |
zona | zona | character | Zona Oriente, Zona Sur, Zona Norte, Zona Oeste, Zona Centro |
piso | piso | character | NA, 02, 01, 03, 04 |
estrato | estrato | numeric | 3, 4, 5, 6, NA |
preciom | preciom | numeric | 250, 320, 350, 400, 260 |
areaconst | areaconst | numeric | 70, 120, 220, 280, 90 |
parqueaderos | parqueaderos | numeric | 1, 2, 3, NA, 4 |
banios | banios | numeric | 3, 2, 5, 4, 7 |
habitaciones | habitaciones | numeric | 6, 3, 4, 5, 2 |
tipo | tipo | character | Casa, Apartamento, NA, NA, NA |
barrio | barrio | character | 20 de julio, 3 de julio, acopi, agua blanca, aguablanca |
longitud | longitud | numeric | -76.51168, -76.51237, -76.51537, -76.54, -76.5135 |
latitud | latitud | numeric | 3.43382, 3.43369, 3.43566, 3.435, 3.45891 |
En esta sección se realiza:
Variable | NAs |
---|---|
piso | 2638 |
parqueaderos | 1605 |
id | 3 |
zona | 3 |
estrato | 3 |
areaconst | 3 |
banios | 3 |
habitaciones | 3 |
tipo | 3 |
barrio | 3 |
longitud | 3 |
latitud | 3 |
preciom | 2 |
Variable | NAs | % |
---|---|---|
piso | 2638 | 31.699% |
parqueaderos | 1605 | 19.286% |
areaconst | 3 | 0.036% |
estrato | 3 | 0.036% |
banios | 3 | 0.036% |
habitaciones | 3 | 0.036% |
zona | 3 | 0.036% |
tipo | 3 | 0.036% |
barrio | 3 | 0.036% |
preciom | 2 | 0.024% |
Filas originales | Filas tras filtrado | Eliminadas | % Eliminadas |
---|---|---|---|
8322 | 4808 | 3514 | 42% |
Dataset | Filas | Columnas |
---|---|---|
df_num | 4808 | 7 |
df_cat | 4808 | 3 |
Reducir la dimensionalidad del conjunto de datos y explorar la estructura de las variables numéricas, transformándolas en componentes principales que concentran la mayor parte de la variabilidad. Esto permitirá identificar las características clave que explican la variación en los precios y la oferta del mercado inmobiliario.
Tipo | Variable | Tipo_R | Tipo_valores |
---|---|---|---|
Numérica | preciom | numeric | 400, 260, 240, 220, 310 |
Numérica | areaconst | numeric | 280, 90, 87, 52, 137 |
Numérica | estrato | integer | 4, 5, 6, 3 |
Numérica | parqueaderos | integer | 3, 1, 2, 4, 5 |
Numérica | banios | integer | 5, 2, 3, 4, 6 |
Numérica | habitaciones | integer | 3, 4, 6, 5, 2 |
Numérica | piso | numeric | 2, 1, 3, 4, 5 |
Categórica | zona | factor | Zona Sur, Zona Norte, Zona Oeste, Zona Centro, Zona Oriente |
Categórica | tipo | factor | Casa, Apartamento |
Categórica | barrio | factor | Other, aguacatal, ciudad 2000, ciudad jardín, cristales |
Métrica | Valor |
---|---|
Total de filas | 4808 |
Total de columnas | 10 |
Se seleccionaron únicamente las observaciones con datos completos en las siete variables numéricas, evitando así errores en la estimación del modelo. Las variables zona, tipo y barrio se conservaron como variables cualitativas suplementarias, con el fin de utilizarlas para colorear y segmentar la interpretación de los planos factoriales. Asimismo, los barrios con baja frecuencia de aparición se agruparon en una categoría común, con el propósito de mantener las leyendas legibles y facilitar la interpretación visual.
Componente | Eigenvalor | Varianza (%) | Varianza acumulada (%) |
---|---|---|---|
comp 1 | 3.5849689 | 51.213842 | 51.21384 |
comp 2 | 1.3598495 | 19.426422 | 70.64026 |
comp 3 | 0.8095183 | 11.564547 | 82.20481 |
comp 4 | 0.4772999 | 6.818570 | 89.02338 |
comp 5 | 0.3422676 | 4.889537 | 93.91292 |
comp 6 | 0.2447078 | 3.495825 | 97.40874 |
comp 7 | 0.1813880 | 2.591258 | 100.00000 |
Resultados del Análisis de Componentes Principales (ACP)
El ACP se ejecutó con FactoMineR utilizando las siete variables numéricas como activas, mientras que zona, tipo y barrio se incluyeron como variables cualitativas suplementarias. Esto garantiza que no influyan en el cálculo de los componentes, pero sí puedan emplearse en la interpretación y segmentación de los planos factoriales.
El primer componente principal (CP1) explica el 51.2% de la varianza total, lo que revela la existencia de un patrón dominante muy marcado en los datos. El segundo componente (CP2) aporta un 19.4% adicional, alcanzando un 70.6% de varianza acumulada. Con la incorporación del tercer componente (CP3), el porcentaje acumulado asciende al 82.2%, lo cual se considera excelente en términos de retención de la información original, permitiendo representar gran parte de la variabilidad en un espacio de baja dimensión.
Variable | PC1 (%) | PC2 (%) | PC3 (%) |
---|---|---|---|
banios | 21.364214 | 0.482928 | 3.1536651 |
preciom | 21.333518 | 5.567408 | 0.4340015 |
areaconst | 20.342775 | 2.936866 | 0.4646964 |
parqueaderos | 18.148532 | 1.664171 | 1.5737839 |
habitaciones | 9.639603 | 26.452160 | 19.6822126 |
estrato | 8.168244 | 31.754095 | 8.9475723 |
piso | 1.003114 | 31.142372 | 65.7440682 |
PC1 (51.2% de la varianza): Este componente está dominado por variables relacionadas con características y tamaño del inmueble, principalmente baños (21.36%), precio (21.33%), área construida (20.34%) y parqueaderos (18.15%). Esto sugiere que PC1 representa un gradiente de tamaño y valor de la propiedad, donde inmuebles más amplios y costosos se sitúan en un extremo, y los más pequeños y económicos en el otro.
PC2 (19.4% de la varianza): Explica diferencias asociadas a la tipología y nivel socioeconómico, con mayor peso de estrato (31.75%), piso (31.14%) y habitaciones (26.45%). Este eje diferencia, por ejemplo, viviendas de estratos altos en pisos elevados con más habitaciones, frente a viviendas de estratos bajos o medianos en pisos bajos.
PC3 (11.6% de la varianza, acumulado 82.2%): Destaca piso (65.74%) y habitaciones (19.68%) como variables clave. Este componente podría estar capturando variabilidad más específica relacionada con la altura de la vivienda y su distribución interna, independientemente del precio o área.
Para este análisis se emplean las coordenadas obtenidas del Análisis de Componentes Principales (PCA), que ya se encuentran estandarizadas y condensan la mayor parte de la variabilidad del conjunto de datos original. De esta forma, se reducen posibles redundancias entre variables y se mejora la eficiencia del proceso de agrupamiento.
Se trabajará con las tres primeras componentes principales, que en conjunto explican aproximadamente el 82 % de la varianza total. Esto garantiza que los clústeres se formen sobre la información más relevante del dataset, minimizando el ruido y la complejidad de los datos originales.
Atributo | Valor |
---|---|
Número de filas | 4808 |
Número de columnas | 3 |
PC1 | PC2 | PC3 |
---|---|---|
1.0110 | -0.8097 | -0.3273 |
-1.2628 | -0.3565 | -1.1849 |
-0.9589 | -0.4187 | -1.0509 |
-1.3645 | -0.8294 | -0.9867 |
-0.0756 | -0.6991 | -0.8212 |
0.7523 | -1.3236 | 0.2848 |
Cluster | Frecuencia |
---|---|
1 | 1281 |
2 | 586 |
3 | 735 |
4 | 2206 |
cluster | preciom | areaconst | estrato | parqueaderos | banios | habitaciones | piso | n |
---|---|---|---|---|---|---|---|---|
1 | 542.41 | 155.71 | 5.61 | 2.03 | 3.49 | 3.21 | 5.34 | 1281 |
2 | 1097.45 | 412.73 | 5.73 | 3.83 | 5.27 | 4.60 | 2.93 | 586 |
3 | 444.46 | 272.70 | 4.27 | 1.82 | 4.08 | 5.34 | 2.19 | 735 |
4 | 241.87 | 89.98 | 4.34 | 1.15 | 2.23 | 2.90 | 3.86 | 2206 |
En este estudio usamos las tres primeras componentes principales del PCA, que juntas explican un 82.2% de la variabilidad en los datos (PC1: 51.2%, PC2: 19.4%, PC3: 11.6%). Con el método del codo y la silueta vimos que lo mejor era trabajar con 4 clústeres usando K-means.
En el plano PC1–PC2, que por sí solo capta el 70.6% de la varianza, se nota claramente la separación de los grupos:
Los Clústeres 1 y 2 se diferencian sobre todo por precio, área y parqueaderos.
Los Clústeres 3 y 4 se distinguen más por estrato, número de habitaciones y pisos.
Al incluir la tercera componente (PC3) aparecen matices que no se ven antes:
El Clúster 3 resalta en PC3 con características únicas.
El Clúster 4 se separa mejor de los demás, sobre todo por “piso” y “estrato”.
Entre PC2 y PC3 se ve más claramente la frontera entre los Clústeres 2 y 4.
El Clúster 4 es el más grande y está muy concentrado.
Los Clústeres 2 y 3 son compactos y bien definidos.
El Clúster 1 es más disperso, mostrando más variedad interna.
El Clúster 4 está dominado por Zona Sur.
El Clúster 1 mezcla Zona Sur y Zona Norte.
El Clúster 2 combina Zona Norte, Oeste y Sur.
El Clúster 3 es más diverso, con presencia también en Zona Oriente.
Clúster 1: precio y área intermedios, estrato medio-alto, 2–3 parqueaderos, 3 baños y 3 habitaciones.
Clúster 2: el más alto en precio, área y estrato; más parqueaderos (≈ 8) y baños (≈ 5).
Clúster 3: bajo precio y área, estrato bajo-medio, menos parqueaderos, pero más habitaciones proporcionalmente.
Clúster 4: precio y área bajos, estrato medio, pocos parqueaderos y baños.
En resumen, encontramos cuatro segmentos claros de oferta inmobiliaria, diferenciados por sus características físicas y su ubicación. Además, la tercera componente del PCA ayudó a confirmar la separación y a tener una visión más completa que solo con PC1–PC2.
En este caso, el analisis de correspondencia se utiliza para identificar patrones de asociación entre tipo de vivienda, zona y barrio, con el fin de entender cómo se agrupa la oferta inmobiliaria según características geográficas y tipológicas.
Para facilitar la interpretación gráfica y evitar saturación, los barrios con menor frecuencia se agrupan en la categoría “Otros”. Las dos primeras dimensiones del MCA concentran gran parte de la inercia total, permitiendo visualizar de manera resumida las relaciones más relevantes entre categorías.
Variable | Frecuencias |
---|---|
tipo | Apartamento (5100), Casa (3219) |
zona | Zona Centro (124), Zona Norte (1920), Zona Oeste (1198), Zona Oriente (351), Zona Sur (4726) |
barrio | acopi (158), aguacatal (109), brisas de los (81), caney (88), ciudad 2000 (95), ciudad jardín (516), cristales (83), el caney (208), el ingenio (202), el limonar (135), el refugio (120), la flora (366), la hacienda (164), los cristales (154), normandía (154), pance (409), prados del norte (126), santa teresita (262), urbanización la flora (83), valle del lili (1008), Other (3798) |
Dimensión | Autovalor | % Varianza | % Acumulada |
---|---|---|---|
Dim 1 | 0.6254 | 7.51 | 7.51 |
Dim 2 | 0.5666 | 6.80 | 14.30 |
Dim 3 | 0.4703 | 5.64 | 19.95 |
Dim 4 | 0.3611 | 4.33 | 24.28 |
Dim 5 | 0.3355 | 4.03 | 28.31 |
Dim 6 | 0.3333 | 4.00 | 32.31 |
Dim 7 | 0.3333 | 4.00 | 36.31 |
Dim 8 | 0.3333 | 4.00 | 40.31 |
Dim 9 | 0.3333 | 4.00 | 44.31 |
Dim 10 | 0.3333 | 4.00 | 48.31 |
Dim 11 | 0.3333 | 4.00 | 52.31 |
Dim 12 | 0.3333 | 4.00 | 56.31 |
Dim 13 | 0.3333 | 4.00 | 60.31 |
Dim 14 | 0.3333 | 4.00 | 64.31 |
Dim 15 | 0.3333 | 4.00 | 68.31 |
Dim 16 | 0.3333 | 4.00 | 72.31 |
Dim 17 | 0.3333 | 4.00 | 76.31 |
Dim 18 | 0.3333 | 4.00 | 80.31 |
Dim 19 | 0.3333 | 4.00 | 84.31 |
Dim 20 | 0.3333 | 4.00 | 88.31 |
Dim 21 | 0.3312 | 3.97 | 92.28 |
Dim 22 | 0.2502 | 3.00 | 95.28 |
Dim 23 | 0.2200 | 2.64 | 97.92 |
Dim 24 | 0.1010 | 1.21 | 99.14 |
Dim 25 | 0.0720 | 0.86 | 100.00 |
Variable | Nivel | Contribución Dim1 | Contribución Dim2 | Contribución total (Dim1+Dim2) |
---|---|---|---|---|
Zona Oeste | NA | 36.90 | 0.57 | 37.47 |
Zona Norte | NA | 0.17 | 34.90 | 35.06 |
Zona Sur | NA | 5.89 | 13.54 | 19.43 |
santa teresita | NA | 13.01 | 0.33 | 13.34 |
la flora | NA | 0.00 | 13.24 | 13.24 |
normandía | NA | 8.15 | 0.21 | 8.36 |
los cristales | NA | 7.75 | 0.19 | 7.94 |
Casa | NA | 7.02 | 0.13 | 7.15 |
valle del lili | NA | 0.45 | 6.25 | 6.69 |
acopi | NA | 0.04 | 5.81 | 5.85 |
aguacatal | NA | 5.42 | 0.14 | 5.56 |
Apartamento | NA | 4.43 | 0.08 | 4.52 |
prados del norte | NA | 0.00 | 4.44 | 4.44 |
ciudad jardín | NA | 1.63 | 2.69 | 4.32 |
cristales | NA | 3.91 | 0.09 | 4.00 |
pance | NA | 1.02 | 2.27 | 3.29 |
Other | NA | 0.73 | 2.43 | 3.16 |
urbanización la flora | NA | 0.00 | 3.03 | 3.03 |
brisas de los | NA | 0.00 | 2.95 | 2.95 |
Zona Oriente | NA | 1.02 | 0.63 | 1.65 |
Cluster | Casos (n) | % del total | Precio (M) | Area const. (m2) | Estrato | Parqueaderos | Banios | Habitaciones | Piso |
---|---|---|---|---|---|---|---|---|---|
1 | 1281 | 26.6% | 542.4 | 155.7 | 5.6 | 2.0 | 3.5 | 3.2 | 5.3 |
2 | 586 | 12.2% | 1097.4 | 412.7 | 5.7 | 3.8 | 5.3 | 4.6 | 2.9 |
3 | 735 | 15.3% | 444.5 | 272.7 | 4.3 | 1.8 | 4.1 | 5.3 | 2.2 |
4 | 2206 | 45.9% | 241.9 | 90.0 | 4.3 | 1.2 | 2.2 | 2.9 | 3.9 |
Variable | Nivel | Contribución Dim1 | Contribución Dim2 | Contribución total |
---|---|---|---|---|
Zona Oeste | NA | 36.90 | 0.57 | 37.47 |
Zona Norte | NA | 0.17 | 34.90 | 35.06 |
Zona Sur | NA | 5.89 | 13.54 | 19.43 |
santa teresita | NA | 13.01 | 0.33 | 13.34 |
la flora | NA | 0.00 | 13.24 | 13.24 |
normandía | NA | 8.15 | 0.21 | 8.36 |
los cristales | NA | 7.75 | 0.19 | 7.94 |
Casa | NA | 7.02 | 0.13 | 7.15 |
valle del lili | NA | 0.45 | 6.25 | 6.69 |
acopi | NA | 0.04 | 5.81 | 5.85 |
aguacatal | NA | 5.42 | 0.14 | 5.56 |
Apartamento | NA | 4.43 | 0.08 | 4.52 |
prados del norte | NA | 0.00 | 4.44 | 4.44 |
ciudad jardín | NA | 1.63 | 2.69 | 4.32 |
cristales | NA | 3.91 | 0.09 | 4.00 |
pance | NA | 1.02 | 2.27 | 3.29 |
Other | NA | 0.73 | 2.43 | 3.16 |
urbanización la flora | NA | 0.00 | 3.03 | 3.03 |
brisas de los | NA | 0.00 | 2.95 | 2.95 |
Zona Oriente | NA | 1.02 | 0.63 | 1.65 |
El MCA aplicado a tipo de vivienda, zona y barrio (agrupando los menos
frecuentes) mostró que las dos primeras dimensiones explican el 14.3% de
la inercia total.
Dimensión 1 (7.5%) diferencia barrios y zonas de alta valoración (Zona Oeste, Cristales, Normandía) frente a zonas de expansión (Zona Sur, Pance, Valle del Lili).
Dimensión 2 (6.8%) distingue áreas de alta densidad urbana (Zona Norte, La Flora, Prados del Norte) de zonas residenciales amplias.
Se observa que apartamentos predominan en Zona Oeste y Zona Norte, mientras que las casas se concentran en Zona Sur y Zona Oriente.
Análisis de Componentes Principales (PCA)
Las tres primeras componentes explican ~82% de la variabilidad (PC1 ≈ 51.2%, PC2 ≈ 19.4%, PC3 ≈ 11.6%), permitiendo resumir adecuadamente las 7 variables numéricas.
PC1 concentra tamaño y “dotación” del inmueble (precio, área, baños, parqueaderos, habitaciones). PC2 está más asociado a estrato y piso.
Patrón general: inmuebles de mayor precio/estrato tienden a más área y comodidades.
Análisis de Conglomerados (K‑means sobre PCs, k=4)
Distribución: C1=1281, C2=586, C3=735, C4=2206.
Perfil (promedios, ver tabla):
Cluster 1: nivel alto – precio y área elevados; más parqueaderos/baños; estratos altos.
Cluster 2: nivel medio‑alto – buen balance de área y dotación.
Cluster 3: nivel medio – valores intermedios; menor piso; dotación moderada.
Cluster 4: nivel medio‑bajo – menor precio y área; menos comodidades.
Las composiciones por zona muestran concentración diferencial (p.ej., mayor peso de Zona Oeste/Norte en clusters altos; Sur/Oriente en clusters medios‑bajos).
Análisis de Correspondencia (MCA)
Dim1+Dim2 explican 14.3% de la inercia (esperable con muchas categorías).
Apartamentos se asocian principalmente a Zona Oeste/Norte y barrios como Cristales, La Flora, Normandía. Casas predominan en Zona Sur/Oriente y en barrios como Pance, Valle del Lili, Ciudad Jardín.
El mapa perceptual evidencia polos geográficos y tipológicos coherentes con el clustering.
CONCLUSIONES Y RECOMENDACIONES FINALES
El mercado se organiza en segmentos claros por tamaño/precio/estrato y por localización.
Los hallazgos de PCA–Clustering–MCA son consistentes y complementarios mostrando segmentos numéricos alineados con patrones geográficos/categóricos.
Por ultimo, con todo lo que vimos en el análisis, yo lo que haría sería trabajar campañas específicas para cada clúster.Por ejemplo, a las propiedades de gama alta, que están sobre todo en la Zona Oeste y Norte y que son más que todo apartamentos, les haría una estrategia diferente, más enfocada en destacar lujo y ubicación.
Para las de nivel medio-alto, que están en barrios más consolidados, podríamos ir por un enfoque de confort y buena relación calidad-precio, porque ahí la gente busca equilibrio entre ubicación y características del inmueble.
En el caso de las propiedades más económicas, que se concentran en el Sur y Oriente y que suelen ser casas, yo apostaría por resaltar accesibilidad y facilidades de pago, porque ahí pesa más el presupuesto que el lujo.
También creo que vale la pena enfocarnos en algunos barrios “clave” que salieron como muy influyentes. Por ejemplo, Cristales y La Flora para apartamentos, o Pance y Ciudad Jardín para casas. Si logramos posicionarnos bien ahí, nos puede abrir muchas puertas en zonas parecidas.
Y por último, me parece importante que no dejemos este análisis guardado en un cajón. Podríamos revisarlo cada tres meses, volver a correr el PCA y el clustering para ver si hay cambios en el mercado, y así ajustar precios y portafolio con datos frescos.