1 INTRODUCCIÓN

El mercado inmobiliario de la ciudad de Cali, Colombia, es un sector dinámico influenciado por múltiples factores, como la ubicación, el estrato socioeconómico, la oferta y demanda de propiedades, y las características estructurales de las viviendas. Para una empresa inmobiliaria líder que busca optimizar sus estrategias de compra, venta y valoración de inmuebles, es fundamental comprender en profundidad los patrones y tendencias del mercado.

Este análisis se basa en una base de datos extensa que recopila información detallada sobre las propiedades residenciales disponibles en Cali. A través del uso de técnicas avanzadas de análisis de datos, se explorarán aspectos clave del mercado con el fin de proporcionar información valiosa para la toma de decisiones estratégicas.

2 OBJETIVOS DEL ANÁLISIS

El presente estudio tiene como propósito examinar el mercado inmobiliario de Cali mediante diversas técnicas de análisis de datos, enfocándose en:

  1. Análisis de Componentes Principales (PCA): Reducir la dimensionalidad del conjunto de datos para identificar las características más influyentes en la variación de precios y oferta del mercado.
  2. Análisis de Clústeres: Segmentar las propiedades residenciales en grupos homogéneos, lo que permitirá entender las dinámicas de la oferta en distintos sectores y estratos socioeconómicos.
  3. Análisis de Correspondencias: Examinar la relación entre variables categóricas como el tipo de vivienda, la zona y el barrio, para identificar patrones en la distribución y disponibilidad de inmuebles.
  4. Visualización de Resultados: Presentar los hallazgos mediante gráficos, mapas y visualizaciones interactivas, facilitando así su interpretación y aplicación en estrategias comerciales.

A partir de este análisis, la empresa podrá tomar decisiones más informadas y basadas en evidencia, optimizando sus procesos de inversión y comercialización en el mercado inmobiliario de Cali.

3 EXPLORACIÓN Y RESUMEN ESTADÍSTICO DE LOS DATOS

Antes de aplicar técnicas avanzadas de análisis, es fundamental realizar una exploración preliminar de los datos disponibles. Este proceso permite comprender la estructura del conjunto de datos, identificar posibles inconsistencias o valores atípicos, y obtener una visión general de las variables involucradas.

En esta sección, se generan dos tipos de resúmenes estadísticos:

  1. Estadísticas descriptivas generales: Se presentan métricas clave como la media, mediana, desviación estándar, valores mínimos y máximos de las variables numéricas, proporcionando una primera aproximación a su distribución y variabilidad.
  2. Resumen detallado de las variables: Se realiza una inspección más profunda de cada variable, incluyendo información sobre la distribución de valores, la presencia de datos faltantes y la frecuencia de categorías en variables cualitativas.
areaconst banios estrato habitaciones id latitud longitud parqueaderos preciom
Mean 174.93 3.11 4.63 3.61 4160.00 3.42 -76.53 1.84 433.89
Std.Dev 142.96 1.43 1.03 1.46 2401.63 0.04 0.02 1.12 328.65
Min 30.00 0.00 3.00 0.00 1.00 3.33 -76.59 1.00 58.00
Q1 80.00 2.00 4.00 3.00 2080.00 3.38 -76.54 1.00 220.00
Median 123.00 3.00 5.00 3.00 4160.00 3.42 -76.53 2.00 330.00
Q3 229.00 4.00 5.00 4.00 6240.00 3.45 -76.52 2.00 540.00
Max 1745.00 10.00 6.00 10.00 8319.00 3.50 -76.46 10.00 1999.00
MAD 84.51 1.48 1.48 1.48 3083.81 0.05 0.02 1.48 207.56
IQR 149.00 2.00 1.00 1.00 4159.00 0.07 0.02 1.00 320.00
CV 0.82 0.46 0.22 0.40 0.58 0.01 0.00 0.61 0.76
Skewness 2.69 0.93 -0.18 1.63 0.00 0.03 0.65 2.33 1.85
SE.Skewness 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03
Kurtosis 12.91 1.13 -1.11 3.98 -1.20 -1.15 0.58 8.31 3.67
N.Valid 8319 8319 8319 8319 8319 8319 8319 6717 8320
Pct.Valid 99.96 99.96 99.96 99.96 99.96 99.96 99.96 80.71 99.98
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 id [numeric]
Mean (sd) : 4160 (2401.6)
min ≤ med ≤ max:
1 ≤ 4160 ≤ 8319
IQR (CV) : 4159 (0.6)
8319 distinct values 8319 (100.0%) 3 (0.0%)
2 zona [character]
1. Zona Centro
2. Zona Norte
3. Zona Oeste
4. Zona Oriente
5. Zona Sur
124(1.5%)
1920(23.1%)
1198(14.4%)
351(4.2%)
4726(56.8%)
8319 (100.0%) 3 (0.0%)
3 piso [character]
1. 02
2. 03
3. 01
4. 04
5. 05
6. 06
7. 08
8. 07
9. 09
10. 10
[ 2 others ]
1450(25.5%)
1097(19.3%)
860(15.1%)
607(10.7%)
567(10.0%)
245(4.3%)
211(3.7%)
204(3.6%)
146(2.6%)
130(2.3%)
167(2.9%)
5684 (68.3%) 2638 (31.7%)
4 estrato [numeric]
Mean (sd) : 4.6 (1)
min ≤ med ≤ max:
3 ≤ 5 ≤ 6
IQR (CV) : 1 (0.2)
3:1453(17.5%)
4:2129(25.6%)
5:2750(33.1%)
6:1987(23.9%)
8319 (100.0%) 3 (0.0%)
5 preciom [numeric]
Mean (sd) : 433.9 (328.6)
min ≤ med ≤ max:
58 ≤ 330 ≤ 1999
IQR (CV) : 320 (0.8)
539 distinct values 8320 (100.0%) 2 (0.0%)
6 areaconst [numeric]
Mean (sd) : 174.9 (143)
min ≤ med ≤ max:
30 ≤ 123 ≤ 1745
IQR (CV) : 149 (0.8)
652 distinct values 8319 (100.0%) 3 (0.0%)
7 parqueaderos [numeric]
Mean (sd) : 1.8 (1.1)
min ≤ med ≤ max:
1 ≤ 2 ≤ 10
IQR (CV) : 1 (0.6)
1:3155(47.0%)
2:2475(36.8%)
3:520(7.7%)
4:384(5.7%)
5:68(1.0%)
6:68(1.0%)
7:18(0.3%)
8:17(0.3%)
9:4(0.1%)
10:8(0.1%)
6717 (80.7%) 1605 (19.3%)
8 banios [numeric]
Mean (sd) : 3.1 (1.4)
min ≤ med ≤ max:
0 ≤ 3 ≤ 10
IQR (CV) : 2 (0.5)
11 distinct values 8319 (100.0%) 3 (0.0%)
9 habitaciones [numeric]
Mean (sd) : 3.6 (1.5)
min ≤ med ≤ max:
0 ≤ 3 ≤ 10
IQR (CV) : 1 (0.4)
11 distinct values 8319 (100.0%) 3 (0.0%)
10 tipo [character]
1. Apartamento
2. Casa
5100(61.3%)
3219(38.7%)
8319 (100.0%) 3 (0.0%)
11 barrio [character]
1. valle del lili
2. ciudad jardín
3. pance
4. la flora
5. santa teresita
6. el caney
7. el ingenio
8. la hacienda
9. acopi
10. los cristales
[ 426 others ]
1008(12.1%)
516(6.2%)
409(4.9%)
366(4.4%)
262(3.1%)
208(2.5%)
202(2.4%)
164(2.0%)
158(1.9%)
154(1.9%)
4872(58.6%)
8319 (100.0%) 3 (0.0%)
12 longitud [numeric]
Mean (sd) : -76.5 (0)
min ≤ med ≤ max:
-76.6 ≤ -76.5 ≤ -76.5
IQR (CV) : 0 (0)
2928 distinct values 8319 (100.0%) 3 (0.0%)
13 latitud [numeric]
Mean (sd) : 3.4 (0)
min ≤ med ≤ max:
3.3 ≤ 3.4 ≤ 3.5
IQR (CV) : 0.1 (0)
3679 distinct values 8319 (100.0%) 3 (0.0%)

3.1 Eliminación de Valores Faltantes en la Variable ID y Eliminación de la Columna

En el proceso de limpieza de datos, se identificaron registros con valores faltantes en la variable id, lo que sugiere que estas filas podrían contener errores o información incompleta. Para garantizar la integridad de la base de datos, se decidió primero eliminar únicamente las filas en las que id tenía valores faltantes, asegurando que solo se trabajara con registros completos y confiables.

Una vez realizado este paso, la columna id fue eliminada por completo del conjunto de datos. Esta decisión se tomó debido a que la variable no aportaba información útil para los análisis exploratorios, de segmentación y modelado, ya que su función principal era actuar como un identificador único sin valor analítico. Al eliminarla, se optimiza la memoria y se evita que influya en los cálculos estadísticos posteriores.

Esta estrategia de limpieza permite depurar el dataset sin afectar la calidad de la información, asegurando que solo se conserven registros completos y relevantes para el análisis.

3.2 Conversión de la Variable Piso a un Formato Numérico

La variable que representa el número del piso de la propiedad estaba almacenada como texto. Esto puede dificultar el análisis, ya que impide la correcta ejecución de operaciones matemáticas y estadísticas.

Para solucionar esto, se convierte la variable a formato numérico, eliminando los ceros iniciales que pueden generar interpretaciones incorrectas. Con esta transformación, la variable ahora puede ser utilizada correctamente en cálculos y modelos.

3.3 Imputación de Valores Faltantes en la Variable Piso

La variable piso, que representa el número de piso de cada propiedad, inicialmente se encontraba en formato de texto, lo que impedía su correcto análisis. Para garantizar su adecuada manipulación, se convirtió a un formato numérico, eliminando los ceros iniciales que podían generar interpretaciones incorrectas.

Una vez realizada la conversión, se procedió a evaluar la distribución de la variable mediante el cálculo de su asimetría. La asimetría es un indicador clave que permite entender si los valores están distribuidos de manera equilibrada o si existen sesgos en la concentración de los datos.

Con base en este análisis, se estableció que, cuando la asimetría es alta, el valor central más representativo para la imputación de datos faltantes es la mediana, ya que esta no se ve afectada por valores extremos. De esta forma, se asegura que la imputación respete la distribución original de los datos, evitando sesgos que puedan distorsionar los resultados del análisis posterior.

Este enfoque permite una asignación más precisa de los valores faltantes, asegurando que la información mantenga su coherencia estadística y refleje de manera más fiel la realidad del mercado inmobiliario.

3.4 Imputación de Valores Faltantes en la Variable Parqueaderos

En la base de datos también se identificaron valores faltantes en la variable parqueaderos. Dado que esta variable puede verse influenciada por el tipo de propiedad y la zona, se opta por imputar los valores faltantes utilizando la mediana en lugar de la media.

3.5 Manejo de Variables de Ubicación

Las variables longitud y latitud fueron almacenadas temporalmente en un objeto separado para su posterior recuperación. A continuación, fueron eliminadas temporalmente del conjunto de datos principal con el propósito de evitar sesgos en los análisis intermedios.

3.6 Generación de Estadísticas Descriptivas Posteriores al Preprocesamiento

Una vez completados los procesos de limpieza y transformación de los datos, se vuelven a generar estadísticas descriptivas para validar los cambios realizados.

Esta exploración permite verificar que las transformaciones han sido aplicadas correctamente y que los datos están listos para los análisis posteriores. Se incluyen medidas como la media, la mediana, la desviación estándar, los valores mínimos y máximos, así como una visión detallada de la estructura de la base de datos.

areaconst banios estrato habitaciones latitud longitud parqueaderos piso preciom
Mean 174.93 3.11 4.63 3.61 3.42 -76.53 1.87 3.53 433.90
Std.Dev 142.96 1.43 1.03 1.46 0.04 0.02 1.01 2.19 328.67
Min 30.00 0.00 3.00 0.00 3.33 -76.59 1.00 1.00 58.00
Q1 80.00 2.00 4.00 3.00 3.38 -76.54 1.00 2.00 220.00
Median 123.00 3.00 5.00 3.00 3.42 -76.53 2.00 3.00 330.00
Q3 229.00 4.00 5.00 4.00 3.45 -76.52 2.00 4.00 540.00
Max 1745.00 10.00 6.00 10.00 3.50 -76.46 10.00 12.00 1999.00
MAD 84.51 1.48 1.48 1.48 0.05 0.02 1.48 1.48 207.56
IQR 149.00 2.00 1.00 1.00 0.07 0.02 1.00 2.00 320.00
CV 0.82 0.46 0.22 0.40 0.01 0.00 0.54 0.62 0.76
Skewness 2.69 0.93 -0.18 1.63 0.03 0.65 2.48 1.81 1.85
SE.Skewness 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03
Kurtosis 12.91 1.13 -1.11 3.98 -1.15 0.58 10.58 3.36 3.67
N.Valid 8319 8319 8319 8319 8319 8319 8319 8319 8319
Pct.Valid 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 zona [character]
1. Zona Centro
2. Zona Norte
3. Zona Oeste
4. Zona Oriente
5. Zona Sur
124(1.5%)
1920(23.1%)
1198(14.4%)
351(4.2%)
4726(56.8%)
8319 (100.0%) 0 (0.0%)
2 piso [numeric]
Mean (sd) : 3.5 (2.2)
min ≤ med ≤ max:
1 ≤ 3 ≤ 12
IQR (CV) : 2 (0.6)
12 distinct values 8319 (100.0%) 0 (0.0%)
3 estrato [numeric]
Mean (sd) : 4.6 (1)
min ≤ med ≤ max:
3 ≤ 5 ≤ 6
IQR (CV) : 1 (0.2)
3:1453(17.5%)
4:2129(25.6%)
5:2750(33.1%)
6:1987(23.9%)
8319 (100.0%) 0 (0.0%)
4 preciom [numeric]
Mean (sd) : 433.9 (328.7)
min ≤ med ≤ max:
58 ≤ 330 ≤ 1999
IQR (CV) : 320 (0.8)
539 distinct values 8319 (100.0%) 0 (0.0%)
5 areaconst [numeric]
Mean (sd) : 174.9 (143)
min ≤ med ≤ max:
30 ≤ 123 ≤ 1745
IQR (CV) : 149 (0.8)
652 distinct values 8319 (100.0%) 0 (0.0%)
6 parqueaderos [numeric]
Mean (sd) : 1.9 (1)
min ≤ med ≤ max:
1 ≤ 2 ≤ 10
IQR (CV) : 1 (0.5)
1:3155(37.9%)
2:4077(49.0%)
3:520(6.3%)
4:384(4.6%)
5:68(0.8%)
6:68(0.8%)
7:18(0.2%)
8:17(0.2%)
9:4(0.0%)
10:8(0.1%)
8319 (100.0%) 0 (0.0%)
7 banios [numeric]
Mean (sd) : 3.1 (1.4)
min ≤ med ≤ max:
0 ≤ 3 ≤ 10
IQR (CV) : 2 (0.5)
11 distinct values 8319 (100.0%) 0 (0.0%)
8 habitaciones [numeric]
Mean (sd) : 3.6 (1.5)
min ≤ med ≤ max:
0 ≤ 3 ≤ 10
IQR (CV) : 1 (0.4)
11 distinct values 8319 (100.0%) 0 (0.0%)
9 tipo [character]
1. Apartamento
2. Casa
5100(61.3%)
3219(38.7%)
8319 (100.0%) 0 (0.0%)
10 barrio [character]
1. valle del lili
2. ciudad jardín
3. pance
4. la flora
5. santa teresita
6. el caney
7. el ingenio
8. la hacienda
9. acopi
10. los cristales
[ 426 others ]
1008(12.1%)
516(6.2%)
409(4.9%)
366(4.4%)
262(3.1%)
208(2.5%)
202(2.4%)
164(2.0%)
158(1.9%)
154(1.9%)
4872(58.6%)
8319 (100.0%) 0 (0.0%)
11 longitud [numeric]
Mean (sd) : -76.5 (0)
min ≤ med ≤ max:
-76.6 ≤ -76.5 ≤ -76.5
IQR (CV) : 0 (0)
2928 distinct values 8319 (100.0%) 0 (0.0%)
12 latitud [numeric]
Mean (sd) : 3.4 (0)
min ≤ med ≤ max:
3.3 ≤ 3.4 ≤ 3.5
IQR (CV) : 0.1 (0)
3679 distinct values 8319 (100.0%) 0 (0.0%)

3.7 Hallazgos en el análisis exploratorio de datos

  1. Distribución de las Variables Numéricas

El análisis de estadísticos descriptivos revela una alta dispersión en algunas variables. Destacan los siguientes hallazgos:

Área Construida (areaconst): Presenta un alto rango de valores, desde 30 m² hasta 1745 m², con una desviación estándar elevada (142.96). Esto sugiere una considerable variabilidad en el tamaño de las propiedades.

Precio (preciom): Los valores oscilan entre 58 y 1999, con una media de 433.90 y una desviación estándar de 328.67, lo que indica una distribución amplia con posibles valores extremos.

Número de Parqueaderos (parqueaderos): La mayoría de los valores se concentran entre 1 y 2 parqueaderos, aunque se observan valores máximos de hasta 10.

Número de Baños (banios) y Habitaciones (habitaciones): Ambas variables muestran distribuciones concentradas con valores mínimos de 0 y máximos de 10. La mediana para los baños es 3, mientras que para habitaciones es 3, lo que indica que la mayoría de las propiedades siguen un patrón estándar en su distribución.

Número de Pisos (piso): Se observó una asimetría en la distribución con valores que oscilan entre 1 y 12, lo que motivó su imputación en función de su sesgo.

  1. Caracterización de las Variables Categóricas

El análisis de las variables categóricas muestra lo siguiente:

Zonas Geográficas: La mayor parte de las propiedades están ubicadas en la Zona Sur (56.8%), seguida por la Zona Norte (23.1%) y la Zona Oeste (14.4%).

Tipo de Propiedad: La distribución entre apartamentos y casas es de aproximadamente 61.3% y 38.7%, respectivamente.

Estratos Socioeconómicos: Se observa una mayor concentración en los estratos 5 y 6, con el 23.9% y el 33.1% de los registros, respectivamente.

  1. Impacto del Preprocesamiento en la Calidad de los Datos

Los resultados muestran una limpieza efectiva de los datos:

Reducción de Valores Nulos: Se eliminaron los valores nulos en variables críticas como id, piso y parqueaderos, asegurando la integridad de los datos.

Manejo de Variables de Ubicación: La eliminación temporal de latitud y longitud permitió realizar análisis sin interferencias, pero se planea reintroducirlas para análisis espaciales posteriores.

Transformaciones de Datos: La conversión de piso a formato numérico y su imputación mejoraron la calidad de esta variable, reduciendo inconsistencias en su distribución.

A partir de este punto, el estudio adoptará un enfoque diferenciado según el tipo de vivienda. Primero, se llevará a cabo el análisis centrado exclusivamente en los apartamentos, evaluando su distribución, segmentación y características principales. Posteriormente, se realizará un análisis independiente para las casas, permitiendo una comparación detallada entre ambos tipos de propiedad y garantizando una interpretación más precisa de los resultados.

4 ESTUDIO DE APARTAMENTOS

4.1 COMPONENTES PRINCIPALES PARA APARTAMENTOS

4.1.1 Análisis de Variables Numéricas Escaladas

Resumen de Variables Numéricas Escaladas
piso estrato preciom areaconst parqueaderos banios habitaciones
Min. :-1.2723 Min. :-1.767 Min. :-1.0682 Min. :-1.1214 Min. :-0.9221 Min. :-2.4489 Min. :-4.39581
1st Qu.:-0.4750 1st Qu.:-0.744 1st Qu.:-0.6637 1st Qu.:-0.6457 1st Qu.:-0.9221 1st Qu.:-0.5774 1st Qu.: 0.04235
Median :-0.4750 Median : 0.279 Median :-0.3041 Median :-0.3285 Median : 0.5156 Median :-0.5774 Median : 0.04235
Mean : 0.0000 Mean : 0.000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.00000
3rd Qu.: 0.3224 3rd Qu.: 1.302 3rd Qu.: 0.2180 3rd Qu.: 0.2482 3rd Qu.: 0.5156 3rd Qu.: 0.3583 3rd Qu.: 0.04235
Max. : 3.1130 Max. : 1.302 Max. : 5.4735 Max. :11.8113 Max. :12.0167 Max. : 5.0371 Max. : 8.91866

La tabla de resumen de variables numéricas escaladas proporciona una visión detallada de la distribución de las principales características de las propiedades analizadas. Se observa que las variables han sido estandarizadas con media cero y desviación estándar unitaria, lo que permite una mejor comparación entre los diferentes atributos.

El análisis de los valores mínimos y máximos indica que hay una amplia variabilidad en variables como el precio, el área construida y el número de habitaciones. Por ejemplo, el número de habitaciones varía entre una y casi nueve, lo que refleja la heterogeneidad en la oferta de propiedades. Asimismo, el número de parqueaderos tiene un rango considerable, con valores que van desde cero hasta más de doce, lo que sugiere diferencias significativas en la infraestructura de las viviendas analizadas.

El precio, una de las variables más relevantes en el estudio, muestra una distribución con un primer cuartil negativo, lo que indica que más del 25 % de las propiedades tienen valores por debajo del promedio después de la estandarización. Esta situación también se refleja en variables como el estrato y el área construida, lo que confirma que existen grupos diferenciados dentro del conjunto de datos.

Estos resultados preliminares indican la necesidad de aplicar técnicas de reducción de dimensionalidad y agrupamiento para identificar patrones en los datos y segmentar adecuadamente el mercado inmobiliario.

4.1.2 Análisis de Correlación entre Atributos Numéricos

El análisis de correlación permite identificar la relación entre las diferentes variables cuantitativas del conjunto de datos. La matriz de correlación obtenida muestra que el precio tiene una alta correlación con el área construida (0.83), lo que indica que, en general, a mayor área construida, mayor es el precio de la propiedad. Esta relación es esperada en el mercado inmobiliario, ya que el tamaño de la vivienda suele ser uno de los principales determinantes del costo.

Asimismo, se observa una correlación significativa entre el precio y el número de parqueaderos (0.61). Esto sugiere que las propiedades con más parqueaderos tienden a ser más costosas, lo cual puede estar asociado a factores como la exclusividad del sector o el tipo de vivienda.

Otro hallazgo relevante es la correlación entre el número de habitaciones y los baños (0.50), lo que indica que las propiedades con más habitaciones suelen contar también con un mayor número de baños. Además, existe una relación moderada entre el área construida y la cantidad de baños (0.41), lo que sugiere que las viviendas más grandes suelen ofrecer un mayor número de espacios sanitarios.

Por otro lado, se observa que la variable “piso” tiene correlaciones muy bajas con el resto de los atributos, lo que indica que su influencia en la variabilidad de los datos es menor. Este resultado sugiere que la variable “piso” podría no ser un factor determinante en la segmentación del mercado inmobiliario en este análisis específico.

Estos resultados refuerzan la necesidad de aplicar técnicas de reducción de dimensionalidad, como el Análisis de Componentes Principales (PCA), para eliminar redundancias en los datos y enfocarse en las variables más relevantes para la segmentación del mercado.

4.1.3 Análisis del Análisis de Componentes Principales (PCA)

Importancia de los Componentes Principales en el PCA para Apartamentos
PC1 PC2 PC3 PC4 PC5 PC6
Desviación Estándar 1.799 0.993 0.933 0.700 0.514 0.391
Proporción de Varianza 0.539 0.164 0.145 0.082 0.044 0.025
Proporción Acumulada 0.539 0.704 0.849 0.930 0.975 1.000

El Análisis de Componentes Principales (PCA) se utilizó para reducir la dimensionalidad de los datos y entender qué variables explican la mayor parte de la variabilidad en el conjunto de datos. Los resultados muestran que el primer componente principal (PC1) explica el 53.9 % de la varianza total, lo que indica que una sola dimensión capta más de la mitad de la variabilidad en los datos.

El segundo componente principal (PC2) explica un 16.4 % adicional, lo que significa que los dos primeros componentes combinados abarcan aproximadamente el 70.4 % de la variabilidad total. Al incluir el tercer componente (PC3), se logra capturar el 84.9 % de la varianza, lo que sugiere que con solo tres componentes se puede representar de manera adecuada la estructura de los datos sin una pérdida significativa de información.

Los valores de desviación estándar muestran que PC1 es el más dominante, con un valor de 1.799, mientras que los demás componentes presentan valores considerablemente menores. A partir del cuarto componente (PC4), la proporción de varianza explicada disminuye de manera notable, con valores inferiores al 10 % en cada uno. Esto refuerza la idea de que los primeros tres componentes son los más relevantes para el análisis y que los restantes pueden considerarse como ruido o información redundante.

Estos resultados justifican la reducción dimensional en el conjunto de datos y permiten simplificar el análisis sin perder información esencial. A partir de esta transformación, los componentes principales obtenidos pueden utilizarse para realizar segmentaciones y agrupaciones más eficientes en los datos inmobiliarios.

4.1.4 Análisis del Scree Plot y la Varianza Explicada

El Scree Plot permite visualizar la proporción de varianza explicada por cada componente principal. Se observa que el primer componente principal (PC1) explica poco más del 50 % de la varianza, mientras que el segundo y tercer componente añaden una cantidad significativa de información, acumulando aproximadamente el 85 % de la varianza total en los tres primeros componentes.

La curva roja representa la varianza acumulada y muestra una tendencia decreciente a medida que se agregan más componentes. A partir del tercer componente, la ganancia de información adicional es mínima, lo que sugiere que incluir componentes adicionales no aporta un valor significativo al modelo. Esta observación es clave para reducir la dimensionalidad sin perder información relevante, ya que permite trabajar con solo los primeros tres componentes en lugar de utilizar todas las variables originales.

El hecho de que PC1 concentre la mayor proporción de la variabilidad indica que los datos pueden representarse en un espacio de menor dimensión sin comprometer su estructura principal. Esto refuerza la idea de que los atributos más relevantes están fuertemente correlacionados y que es posible realizar segmentaciones del mercado inmobiliario utilizando una representación compacta de los datos.

Estos hallazgos proporcionan una base sólida para aplicar técnicas de agrupamiento, como K-means o clustering jerárquico, sobre el espacio reducido de los componentes principales, permitiendo identificar patrones dentro de los datos de manera más eficiente.

4.1.5 Contribución de las Observaciones al Primer Componente Principal

El gráfico muestra la contribución de las observaciones individuales al primer componente principal (PC1). Se observa que ciertas observaciones tienen una influencia significativamente mayor en la construcción de este componente, lo que indica que algunos datos presentan una mayor variabilidad en las dimensiones consideradas más relevantes por el PCA.

La observación 3667 es la que tiene el mayor peso en PC1, seguida de las observaciones 2796, 2827 y 3803. Estas observaciones tienen una contribución notablemente superior a la media, lo que sugiere que podrían corresponder a propiedades con características extremas en términos de precio, área construida o número de habitaciones.

Por otro lado, la línea de referencia en rojo marca el umbral mínimo de contribución esperada. Se puede notar que la mayoría de las observaciones tienen valores cercanos entre sí, mientras que unas pocas propiedades destacan como puntos de influencia clave dentro del análisis.

Este comportamiento sugiere que el primer componente está fuertemente influenciado por ciertas propiedades que presentan características diferenciadas, lo que podría indicar la presencia de valores atípicos o de segmentos específicos dentro del mercado inmobiliario.

El siguiente paso será analizar cómo estos patrones impactan en la segmentación de los datos mediante técnicas de clustering, lo que permitirá identificar la existencia de grupos diferenciados dentro del conjunto de propiedades analizado.

4.1.6 Análisis del Biplot de Variables en el PCA

El biplot del Análisis de Componentes Principales (PCA) permite visualizar la relación entre las variables en el espacio definido por los dos primeros componentes principales. En este gráfico, se observa que la variable “piso” tiene una fuerte contribución en el Componente Principal 2 (PC2), lo que indica que su variabilidad no está directamente alineada con la del resto de las variables, sino que sigue una dirección completamente diferente.

Por otro lado, variables como “precio”, “área construida” y “parqueaderos” tienen una mayor asociación con el Componente Principal 1 (PC1). Esto confirma que estos atributos son los principales determinantes de la variabilidad en los datos, lo que coincide con los resultados previos obtenidos en la matriz de correlación.

Las variables “habitaciones” y “parqueaderos” muestran una menor influencia en la construcción de los componentes principales, aunque siguen una dirección alineada con la de las variables más influyentes. Esto sugiere que, aunque estos atributos contribuyen a la estructura del mercado inmobiliario, su impacto es menos significativo en comparación con las demás variables.

Un aspecto importante de este gráfico es la dirección y magnitud de las flechas. Las variables con vectores más largos, como “piso” y “precio”, indican que tienen una mayor variabilidad y contribuyen más significativamente a la estructura de los datos. Por otro lado, las variables con vectores más cortos tienen menor peso en la construcción de los componentes principales.

Estos hallazgos refuerzan la idea de que el mercado inmobiliario está fuertemente influenciado por variables espaciales y económicas, mientras que otros factores, como el número de habitaciones, tienen una influencia menor en la segmentación del mercado.

El siguiente paso será analizar cómo estos patrones afectan la formación de clústeres dentro del conjunto de datos, utilizando técnicas de agrupamiento para identificar diferentes segmentos de propiedades con características similares.

4.1.7 Análisis de la Matriz de Cargas de los Componentes Principales

Matriz de Cargas de los Componentes Principales en el PCA para Apartamentos
CP1 CP2 CP3 CP4 CP5 CP6
piso 0.097 0.983 -0.106 -0.103 -0.033 -0.022
preciom 0.502 0.017 0.231 0.294 -0.177 0.760
areaconst 0.503 -0.045 0.074 0.279 -0.558 -0.592
parqueaderos 0.395 -0.067 0.472 -0.773 0.119 -0.076
banios 0.487 -0.013 -0.161 0.292 0.781 -0.203
habitaciones 0.304 -0.161 -0.826 -0.378 -0.180 0.158

La matriz de cargas factoriales muestra la relación entre las variables originales y los componentes principales obtenidos mediante el Análisis de Componentes Principales (PCA). Esta información es clave para comprender cómo cada variable influye en la variabilidad de los datos y en la segmentación del mercado inmobiliario.

El primer componente principal (PC1) está fuertemente asociado con las variables “precio” (0.502), “área construida” (0.503) y “baños” (0.487). Esto confirma que este componente está capturando la variabilidad relacionada con el tamaño y el costo de las propiedades, lo que lo convierte en un eje fundamental para el análisis del mercado.

El segundo componente principal (PC2) está dominado por la variable “piso” (0.983), lo que sugiere que este componente está capturando la variabilidad relacionada con la ubicación vertical de los apartamentos dentro de un edificio. Como se observó en el biplot, la variable “piso” sigue una dirección completamente diferente a las demás variables, lo que refuerza la idea de que su impacto en la segmentación del mercado es distinto al de otros atributos.

En el tercer componente principal (PC3), se observa una fuerte carga negativa en “habitaciones” (-0.826), lo que sugiere que este componente está capturando información relacionada con la distribución interna de las propiedades. Esto indica que, en algunas propiedades, el número de habitaciones puede estar compensado por otros factores, como el área construida o la cantidad de parqueaderos.

Los valores en los componentes restantes muestran menor influencia de las variables en la estructura general de los datos, lo que respalda la decisión de utilizar solo los primeros tres componentes en los análisis posteriores.

Estos resultados permiten reducir la dimensionalidad de los datos sin perder información relevante, facilitando la aplicación de técnicas de agrupamiento para identificar patrones dentro del mercado inmobiliario. La segmentación basada en estos componentes proporcionará una visión más clara de cómo se estructuran las propiedades en función de sus características principales.

4.1.8 Impacto de la Eliminación de la Variable “Piso” en el PCA

Importancia de los Componentes Principales en el PCA para Apartamentos (Sin Piso)
PC1 PC2 PC3 PC4 PC5
Desviación Estándar 1.793 0.933 0.704 0.515 0.391
Proporción de Varianza 0.643 0.174 0.099 0.053 0.031
Proporción Acumulada 0.643 0.817 0.916 0.969 1.000

Para evaluar el impacto de la variable “piso” en el Análisis de Componentes Principales (PCA), se realizó una nueva ejecución excluyéndola del conjunto de datos. La tabla resultante muestra la proporción de varianza explicada por cada componente principal en este escenario modificado.

Se observa que el primer componente principal (PC1) ahora explica el 64.3 % de la variabilidad total, un incremento notable en comparación con el 53.9 % cuando se incluía la variable “piso”. Esto sugiere que la variabilidad capturada por PC1 es ahora más representativa de la estructura subyacente de los datos inmobiliarios, sin la influencia de una variable que antes tenía un comportamiento independiente.

El segundo componente (PC2) retiene un 17.4 % de la varianza, lo que significa que los dos primeros componentes combinados explican aproximadamente el 81.7 % de la variabilidad total, un aumento significativo respecto al modelo original. Esta mejora en la capacidad explicativa de los primeros componentes refuerza la hipótesis de que la variable “piso” no aportaba información clave en la diferenciación del mercado inmobiliario.

El tercer componente (PC3) ahora explica un 9.9 % adicional, lo que permite capturar más del 91.6 % de la varianza en los tres primeros componentes. Esto indica que el modelo ajustado con menos dimensiones sigue representando de manera eficiente la estructura de los datos sin perder información relevante.

Estos hallazgos sugieren que la variable “piso” no es un factor determinante en la segmentación del mercado inmobiliario y que su eliminación permite una reducción más efectiva de la dimensionalidad. Como resultado, la aplicación de técnicas de clustering sobre este nuevo espacio de componentes principales permitirá obtener agrupaciones más precisas y representativas de las propiedades analizadas.

4.1.9 Análisis del Scree Plot sin la Variable “Piso”

El Scree Plot ajustado, donde se ha eliminado la variable “piso”, muestra una estructura más clara en la varianza explicada por cada componente principal. El primer componente (PC1) ahora explica más del 64 % de la variabilidad total, un aumento significativo respecto al 53.9 % en el modelo original. Esto indica que, sin la influencia de la variable “piso”, el PCA captura de manera más eficiente la variabilidad clave en los datos.

El segundo componente (PC2) explica un 17.4 % adicional, lo que significa que los dos primeros componentes combinados abarcan más del 81 % de la varianza total. Esta mejora en la capacidad explicativa confirma que la eliminación de la variable “piso” permite una mejor diferenciación de los atributos principales que caracterizan el mercado inmobiliario.

La curva roja de varianza acumulada sigue una tendencia decreciente más pronunciada, mostrando que a partir del tercer componente (PC3), la ganancia de información adicional es mínima. La proporción de varianza explicada por PC3 y los siguientes componentes se reduce de manera significativa, lo que refuerza la decisión de utilizar únicamente los primeros tres componentes en los análisis posteriores.

Este resultado valida la hipótesis de que la variable “piso” tenía un impacto limitado en la estructura general del mercado inmobiliario. Con esta nueva representación de los datos, las técnicas de segmentación y agrupamiento podrán realizarse de manera más efectiva, basándose en atributos que realmente diferencian las propiedades en términos de precio, área construida y número de habitaciones.

El siguiente paso será analizar cómo la eliminación de “piso” afecta la segmentación de los datos mediante técnicas de clustering, lo que permitirá identificar patrones más claros en la oferta inmobiliaria.

4.1.10 Análisis del Biplot sin la Variable “Piso”

El biplot del PCA ajustado, en el que se ha eliminado la variable “piso”, muestra una representación más clara de la relación entre las variables en el espacio de los componentes principales. Ahora, la variabilidad de los datos se distribuye de manera más homogénea entre los atributos clave, sin la influencia dominante de una única variable.

En este nuevo modelo, se observa que las variables “precio”, “área construida” y “baños” siguen estando alineadas en la misma dirección dentro del primer componente principal (PC1), lo que confirma que estos atributos continúan siendo los principales impulsores de la variabilidad en los datos inmobiliarios.

Por otro lado, la variable “parqueaderos” ahora tiene una contribución más diferenciada dentro del segundo componente principal (PC2), lo que indica que su variabilidad es independiente de la de las demás variables. Este resultado sugiere que la disponibilidad de parqueaderos en las propiedades podría ser un factor relevante en la segmentación del mercado, pero no está directamente relacionado con el tamaño o el precio de las propiedades.

La variable “habitaciones” muestra una orientación inversa a las demás variables en el gráfico, lo que implica que su influencia en la segmentación de los datos es distinta. Esto podría estar relacionado con el hecho de que algunas propiedades tienen un mayor número de habitaciones sin necesariamente estar asociadas a un mayor precio o área construida, lo que sugiere diferencias en la distribución de los espacios dentro de los inmuebles.

En general, la eliminación de la variable “piso” ha permitido que el análisis de los componentes principales se enfoque en las características estructurales y económicas de las propiedades, facilitando la identificación de patrones clave para la segmentación del mercado.

Con esta representación más clara de la variabilidad en los datos, se puede proceder a la aplicación de técnicas de clustering para agrupar las propiedades en segmentos con características similares, lo que permitirá obtener una visión más precisa del comportamiento del mercado inmobiliario.

4.1.11 Matriz de Cargas de los Componentes Principales sin la Variable “Piso”

Matriz de Cargas de los Componentes Principales en el PCA para Apartamentos (Sin Piso)
CP1 CP2 CP3 CP4 CP5
preciom 0.503 0.233 -0.293 0.177 0.759
areaconst 0.506 0.070 -0.266 0.565 -0.591
parqueaderos 0.398 0.459 0.781 -0.123 -0.074
banios 0.489 -0.159 -0.297 -0.777 -0.209
habitaciones 0.307 -0.839 0.381 0.176 0.160

La matriz de cargas factoriales muestra cómo influyen las variables originales en cada uno de los componentes principales tras la eliminación de la variable “piso”. Se observa que la estructura de los datos se ha reorganizado, permitiendo una interpretación más clara de los factores que explican la variabilidad en el mercado inmobiliario.

El primer componente principal (PC1) sigue estando fuertemente asociado con “precio” (0.503), “área construida” (0.506) y “baños” (0.489), lo que indica que este componente sigue capturando la variabilidad relacionada con el tamaño y el costo de las propiedades. Este hallazgo refuerza la idea de que estas variables son los principales impulsores de las diferencias en el mercado inmobiliario.

El segundo componente principal (PC2) ha cambiado significativamente tras la eliminación de “piso”. Ahora, la variable “habitaciones” tiene una carga negativa fuerte (-0.839), lo que indica que este componente está capturando variabilidad relacionada con la distribución de los espacios dentro de las propiedades. Además, “parqueaderos” (0.459) tiene una mayor influencia en este componente, lo que sugiere que la disponibilidad de estacionamiento también juega un papel importante en la segmentación del mercado.

En el tercer componente principal (PC3), la variable “parqueaderos” (0.781) tiene la mayor carga, lo que indica que este componente está relacionado con la oferta de estacionamientos en las propiedades. Esta observación refuerza la hipótesis de que la disponibilidad de parqueaderos no está directamente relacionada con el precio o el área construida, sino que constituye un factor independiente en la diferenciación del mercado.

Los componentes restantes (PC4 y PC5) muestran cargas más dispersas y de menor magnitud, lo que indica que capturan variabilidad menos relevante en el análisis. La variable “precio” tiene una alta carga en PC5 (0.759), lo que sugiere que en este componente se encuentran factores adicionales relacionados con la diferenciación de costos en los inmuebles.

La eliminación de la variable “piso” ha permitido una mejor estructuración de los datos, permitiendo que las variables económicas y estructurales sean los principales factores de diferenciación en la segmentación del mercado. Estos resultados son clave para la aplicación de técnicas de clustering, ya que permitirán una clasificación más precisa de las propiedades en grupos con características homogéneas.

4.2 ANÁLISIS DE CONGLOMERADOS PARA APARTAMENTOS

4.2.1 Determinación del Número Óptimo de Clústeres

Para segmentar las propiedades en grupos homogéneos, se utilizó el método del codo (Elbow Method), el cual analiza la suma total de cuadrados dentro del grupo (inercia intra-clúster) en función del número de clústeres (k).

El gráfico muestra que la disminución de la inercia es más pronunciada hasta aproximadamente k = 3, momento en el cual la pendiente comienza a estabilizarse. Este punto de inflexión es un indicador clave, ya que sugiere que tres clústeres capturan la mayor parte de la variabilidad en los datos sin introducir una segmentación excesiva.

A medida que se incrementa el número de clústeres más allá de k = 3, la reducción en la variabilidad dentro de los grupos es menor, lo que implica que agregar más clústeres no aporta una mejora significativa en la segmentación. Este comportamiento confirma que un número óptimo de clústeres se encuentra entre tres y cinco, dependiendo del nivel de granularidad que se desee alcanzar en el análisis del mercado inmobiliario.

Con esta información, se selecciona k = 3 como la cantidad óptima de clústeres para realizar el agrupamiento de propiedades. Esta elección permitirá identificar patrones diferenciados en el mercado sin sobreajustar los datos, facilitando una interpretación más clara de los segmentos inmobiliarios y sus características distintivas.

El siguiente paso consiste en aplicar el algoritmo K-means con k = 3 para asignar cada propiedad a un clúster y analizar las características de cada grupo resultante.

4.2.2 Distribución de Clústeres en el Mercado Inmobiliario

Distribución de Clusters
Cluster Cantidad
1 1069
2 3254
3 777

Tras la aplicación del algoritmo K-means con k = 3, se obtuvo una segmentación clara de las propiedades en tres grupos diferenciados. La distribución de las propiedades en cada clúster es la siguiente:

Clúster 1: 1,069 propiedades Clúster 2: 3,254 propiedades Clúster 3: 777 propiedades

El clúster 2 es el más grande, abarcando la mayor parte de las propiedades en la base de datos. Esto sugiere que la mayoría de los inmuebles comparten características similares dentro de este segmento, lo que podría representar una oferta estándar en el mercado inmobiliario.

El clúster 1, con 1,069 propiedades, es considerablemente más pequeño, lo que indica que agrupa un subconjunto de propiedades con características diferenciadas del resto. Es posible que este grupo corresponda a propiedades con precios más elevados o con atributos específicos, como mayor área construida o más parqueaderos.

El clúster 3 es el más reducido, con solo 777 propiedades. La baja cantidad de observaciones sugiere que estas propiedades podrían pertenecer a un segmento exclusivo del mercado, ya sea por su alto valor, su ubicación privilegiada o su particularidad en términos de distribución interna y comodidades.

Este análisis proporciona una base sólida para interpretar los distintos segmentos dentro del mercado inmobiliario. El siguiente paso es analizar en detalle las características de cada clúster, con el fin de comprender las diferencias en términos de precios, área construida y otros atributos clave.

4.2.3 Segmentación del Mercado Inmobiliario en el Espacio PCA

El gráfico de dispersión muestra la distribución de los clústeres en el espacio generado por los dos primeros componentes principales del Análisis de Componentes Principales (PCA). Esta representación permite visualizar cómo se han agrupado las propiedades en función de sus características más relevantes.

Cada color representa un clúster distinto:

Clúster 1 (rojo): Se extiende ampliamente en la dirección del Componente Principal 1 (PC1), lo que sugiere que las propiedades dentro de este grupo tienen una mayor variabilidad en atributos como el precio y el área construida. Este clúster podría representar propiedades de alto costo o mayor tamaño, que se diferencian notablemente del resto.

Clúster 2 (verde): Se concentra en la parte central del gráfico, con menor dispersión. Esto indica que estas propiedades son más homogéneas y comparten características similares dentro del mercado. Es probable que este segmento represente la oferta estándar en términos de precios y dimensiones.

Clúster 3 (azul): Se encuentra desplazado en la dirección del Componente Principal 2 (PC2), lo que sugiere que las propiedades en este grupo tienen factores diferenciadores distintos a los del clúster 1. Dado que en los análisis previos PC2 estaba fuertemente asociado con variables como parqueaderos y distribución interna, este clúster podría agrupar inmuebles con una configuración espacial específica, como apartamentos con más habitaciones o con características particulares en su diseño.

El hecho de que los clústeres se separen de manera clara en el espacio PCA confirma que la segmentación fue efectiva y que existen diferencias estructurales entre los grupos identificados. Esto es clave para el análisis del mercado inmobiliario, ya que permite caracterizar cada segmento de manera precisa y diseñar estrategias específicas para cada uno.

El siguiente paso será analizar la calidad de la segmentación mediante el índice de Silhouette, que evaluará qué tan bien definidas están las fronteras entre los clústeres y si las propiedades están correctamente agrupadas dentro de sus respectivas categorías.

4.2.4 Evaluación de la Calidad de la Segmentación con el Índice de Silhouette

Para evaluar la efectividad del agrupamiento realizado mediante K-means con k = 3, se calculó el índice de Silhouette, el cual mide qué tan bien cada punto está agrupado dentro de su clúster y qué tan separado está de los demás.

El gráfico muestra la distribución de los valores de Silhouette para cada clúster, donde un valor cercano a 1 indica una mejor agrupación, mientras que valores cercanos a 0 o negativos sugieren que algunos elementos podrían estar mejor ubicados en otro clúster.

Los principales hallazgos son los siguientes:

Clúster 2 (verde) presenta los valores de Silhouette más altos y consistentes, lo que indica que las propiedades dentro de este grupo están bien definidas y claramente diferenciadas de los otros clústeres. Esto sugiere que este segmento representa un conjunto homogéneo de propiedades con características compartidas.

Clúster 1 (rojo) muestra valores de Silhouette más dispersos, lo que indica una menor cohesión en este grupo. Aunque la mayoría de los puntos tienen valores positivos, algunos elementos pueden estar cercanos a los límites con otros clústeres, lo que podría sugerir cierta superposición con los otros segmentos.

Clúster 3 (azul) tiene la menor cantidad de elementos y presenta una variabilidad notable en los valores de Silhouette. La presencia de valores bajos en este grupo sugiere que algunas propiedades podrían estar situadas en una zona de transición entre clústeres, lo que indica que podrían pertenecer a más de un segmento.

El promedio general del índice de Silhouette parece estar por encima de 0.5, lo que indica que la segmentación es adecuada en términos generales. Sin embargo, el menor desempeño del clúster 3 podría sugerir la necesidad de revisar sus características o considerar un ajuste en el número de clústeres para futuras iteraciones del modelo.

En conclusión, la segmentación en tres clústeres parece ser una representación válida del mercado inmobiliario, con una buena diferenciación entre los grupos principales. La siguiente etapa consistirá en analizar la distancia entre los centroides de los clústeres para comprender mejor las diferencias entre ellos.

4.2.5 Distancia entre Clústeres en el Espacio de Componentes Principales

Matriz de Distancias entre Clústeres para Apartamentos
1 2 3
0.000 3.726 3.712
3.726 0.000 2.180
3.712 2.180 0.000

Para evaluar la separación entre los grupos identificados en la segmentación de propiedades, se calculó la matriz de distancias entre los centroides de los clústeres. Esta matriz mide la distancia euclidiana entre cada par de clústeres en el espacio generado por el Análisis de Componentes Principales (PCA).

Los valores de la matriz indican las diferencias en las características promedio de cada clúster. Los principales hallazgos son los siguientes:

El clúster 1 y el clúster 2 son los más distantes, con una separación de 3.726 unidades. Esto sugiere que las propiedades agrupadas en estos segmentos tienen diferencias significativas en sus atributos, lo que indica que representan sectores claramente diferenciados del mercado.

El clúster 2 y el clúster 3 tienen la menor distancia entre ellos (2.180 unidades), lo que sugiere que estos dos grupos comparten más similitudes en sus características estructurales o de precio en comparación con el clúster 1.

El clúster 1 y el clúster 3 presentan una distancia de 3.712 unidades, lo que indica que, aunque tienen ciertas diferencias, también poseen similitudes que los alejan de las propiedades representadas en el clúster 2.

Estos resultados refuerzan el análisis previo del índice de Silhouette, donde se observó que el clúster 3 tenía cierta superposición con los demás. La menor distancia entre los clústeres 2 y 3 sugiere que podrían representar segmentos del mercado con características que comparten algunos factores clave, como ubicación o distribución de espacios.

En conclusión, la segmentación de propiedades en tres clústeres es adecuada, ya que existen distancias considerables entre los centroides, lo que indica que cada grupo tiene características diferenciadas. Sin embargo, dado que el clúster 2 y el clúster 3 son más cercanos, podría considerarse un análisis más detallado para determinar si es conveniente fusionarlos o si existen patrones adicionales que justifiquen su separación.

El siguiente paso consistirá en evaluar la relación entre las características estructurales de los clústeres con respecto a su ubicación geográfica, para comprender mejor cómo influyen en la segmentación del mercado inmobiliario.

4.2.6 Análisis de la Jerarquización de Clústeres

El dendrograma generado mediante clustering jerárquico proporciona una visualización alternativa de la segmentación del mercado inmobiliario. Este enfoque organiza las propiedades en una estructura de árbol basada en sus similitudes, permitiendo identificar relaciones entre grupos de manera más clara.

Los principales hallazgos de esta representación son los siguientes:

Se identifican tres grupos principales, lo que concuerda con la segmentación realizada mediante K-means con k = 3.

La altura en el dendrograma indica la distancia entre grupos, y se observa que la mayor separación se encuentra en la parte superior del árbol, lo que confirma la existencia de tres segmentos bien diferenciados.

Las divisiones internas dentro de cada clúster sugieren que dentro de cada grupo aún existen niveles de subsegmentación. Esto podría indicar que algunas propiedades dentro de un mismo clúster tienen diferencias significativas con respecto a otras, lo que podría justificar una mayor granularidad en el análisis.

El clustering jerárquico refuerza la idea de que los segmentos inmobiliarios identificados en el análisis previo tienen diferencias estructurales claras. Además, la jerarquía mostrada sugiere que, si se quisiera dividir los grupos en más de tres segmentos, los dos últimos clústeres podrían subdividirse, mientras que el primero mantiene una mayor cohesión interna.

Este análisis complementario permite validar la robustez de la segmentación inicial y abre la posibilidad de explorar niveles adicionales de detalle en el estudio de mercado. El siguiente paso consistirá en evaluar cómo se distribuyen estos clústeres en el espacio geográfico mediante mapas interactivos.

4.3 ANÁLISIS DE CORRESPONDENCIA PARA APARTAMENTOS

4.3.1 Distribución de los Barrios en las Zonas de la Ciudad

El análisis de correspondencia entre barrios y zonas permite identificar la distribución de la oferta inmobiliaria en diferentes sectores de la ciudad. Las tablas de contingencia muestran la cantidad de propiedades ubicadas en cada zona, proporcionando una perspectiva clara sobre la densidad y concentración de inmuebles en distintos barrios.

Los principales hallazgos numéricos son los siguientes:

Zona Centro: Se observa una distribución uniforme en barrios como Alameda, San Pedro, San Bosco y La Merced, con 2 propiedades registradas en cada uno de ellos. Esto sugiere que la oferta inmobiliaria en esta zona es estable pero no predominante en volumen.

Zona Norte: La Flora es el barrio con la mayor cantidad de propiedades registradas (266), seguido por Prados del Norte con 93 y Acopi con 87. Además, barrios como Versalles y Torres de Comfandi también presentan una oferta relevante, con 54 y 53 propiedades respectivamente. Esto indica que la zona norte mantiene una concentración significativa de oferta, especialmente en sectores con infraestructura comercial y residencial consolidada.

Zona Oeste: En esta área, Santa Teresita lidera con 242 propiedades, seguida de Normandía con 149 y Los Cristales con 137. Barrios como Aguacatal y Cristales también destacan, con 97 y 71 propiedades respectivamente. Esto sugiere que la zona oeste es atractiva para el mercado inmobiliario, posiblemente debido a su proximidad a espacios naturales y oferta de viviendas con características exclusivas.

Zona Oriente: Aunque esta zona presenta menor cantidad de registros en comparación con otras, barrios como Las Ceibas y El Troncal poseen 2 propiedades cada uno, mientras que Calipso, El Jardín, La Base y Villa del Lago tienen 4 propiedades cada uno. Esto refleja un mercado inmobiliario más fragmentado y de menor volumen en comparación con otras zonas.

Zona Sur: Es la zona con mayor densidad de oferta inmobiliaria. Valle del Lili encabeza la lista con 837 propiedades, seguido de Ciudad Jardín con 218 y Pance con 205. Otros barrios con alta concentración incluyen El Ingenio (128), El Caney (124) y La Hacienda (108). La fuerte presencia de inmuebles en esta zona puede estar relacionada con su expansión urbana y la consolidación de desarrollos residenciales modernos.

Estos datos evidencian cómo la Zona Sur y la Zona Norte son los principales polos de actividad inmobiliaria, mientras que la Zona Oriente presenta un mercado más disperso y de menor volumen. La Zona Oeste, por su parte, exhibe una alta concentración en barrios específicos, lo que sugiere una segmentación más clara dentro del mercado de esa área.

Esta información es clave para comprender la dinámica inmobiliaria de la ciudad, permitiendo a inversionistas y desarrolladores enfocar sus estrategias de comercialización en zonas con mayor actividad y potencial de crecimiento.

###Mapa de Correspondiencias entre Zonas y Barrios

El mapa de correspondencias refleja la relación existente entre zonas y barrios, proporcionando una visión clara de cómo ciertos barrios se agrupan dentro de cada zona y su proximidad en términos de características compartidas.

Las dimensiones representadas en los ejes explican un porcentaje significativo de la variabilidad en la relación entre barrios y zonas:

Dimensión 1 (28.3%) captura la principal variabilidad en la distribución de los barrios con respecto a las zonas.

Dimensión 2 (27.7%) complementa la interpretación, diferenciando aún más la relación entre barrios y su ubicación en la ciudad.

Distribución de Barrios por Zona

Zona Sur y Valle del Lili:

Se observa que Valle del Lili se encuentra claramente separado del resto de los barrios, lo que indica que este sector tiene características únicas dentro de la ciudad. Su lejanía en la gráfica sugiere que presenta una distribución de oferta inmobiliaria bastante diferenciada en comparación con otros barrios.

Zona Norte y La Flora - Prados del Norte:

La Flora y Prados del Norte se encuentran estrechamente relacionados con la Zona Norte, lo que confirma su fuerte presencia inmobiliaria en este sector.

La ubicación de estos barrios en el extremo derecho del gráfico sugiere que tienen una oferta de inmuebles significativamente distinta en comparación con las demás zonas.

Zona Oeste y su concentración de barrios:

Los Cristales, Santa Teresita, Aguacatal y Normandía se agrupan fuertemente en la misma dirección, indicando que comparten similitudes en su oferta inmobiliaria y características urbanas.

Su cercanía en el gráfico indica que son barrios con una distribución homogénea en cuanto a propiedades dentro de la Zona Oeste.

Zona Centro y Zona Oriente:

La Zona Centro y la Zona Oriente aparecen más dispersas y menos relacionadas con barrios específicos.

La ubicación de la Zona Oriente, más aislada en el gráfico, sugiere que su distribución inmobiliaria es más heterogénea o con menor concentración de oferta en barrios específicos.

Valle del Lili se destaca como un barrio con una dinámica inmobiliaria propia, lo que puede sugerir que la demanda y oferta en esta zona son significativamente diferentes en comparación con otras áreas de la ciudad.

La Zona Norte está dominada por barrios como La Flora y Prados del Norte, con una fuerte concentración inmobiliaria en estos sectores.

La Zona Oeste exhibe una fuerte agrupación de barrios con características similares, sugiriendo que estos comparten un perfil de desarrollo urbano y demanda inmobiliaria.

Las Zonas Centro y Oriente no presentan barrios predominantes, lo que puede indicar una distribución más homogénea de la oferta en distintos barrios o una menor concentración de propiedades.

Este análisis facilita la toma de decisiones estratégicas en cuanto a inversión inmobiliaria, permitiendo identificar barrios con alta concentración de oferta y aquellos que pueden representar oportunidades de desarrollo.

4.3.2 Distribución Geográfica de los Clústeres de Apartamentos

El mapa interactivo muestra la distribución espacial de los apartamentos clasificados en tres clústeres distintos dentro de la ciudad. La visualización permite identificar zonas con mayor concentración de inmuebles y la segmentación de los mismos según sus características principales.

Patrones Geográficos

Los apartamentos agrupados en el Clúster 1 (rojo) se encuentran predominantemente en el centro y sur de la ciudad, reflejando una alta densidad de unidades en sectores tradicionalmente consolidados. La fuerte presencia en estas áreas sugiere que son zonas de alto dinamismo inmobiliario, posiblemente con una oferta diversificada en términos de precio y tamaño.

El Clúster 2 (verde) aparece menos concentrado y distribuido en sectores periféricos. Esto puede indicar que estas propiedades comparten características específicas que las diferencian del resto, como precios más accesibles o particularidades en la oferta de servicios y accesibilidad.

Por su parte, el Clúster 3 (azul) se localiza en menor medida y tiende a aparecer en áreas menos densamente pobladas, lo que sugiere que estas unidades podrían pertenecer a segmentos de mercado más exclusivos o con características diferenciadas.

Áreas de Alta Concentración

Los puntos de mayor densidad inmobiliaria, marcados con círculos de mayor tamaño y tonalidades cálidas, reflejan sectores con una oferta abundante de apartamentos. Se observa un claro predominio de estas concentraciones en el centro y sur de la ciudad, alineándose con las tendencias previamente identificadas en los análisis de componentes principales y clústeres.

Además, hay puntos de menor densidad en sectores más alejados del núcleo urbano, lo que evidencia la expansión del mercado inmobiliario hacia nuevas zonas en desarrollo.

5 ESTUDIO DE CASAS

5.1 COMPONENTES PRINCIPALES PARA CASAS

5.1.1 Análisis de Variables Numéricas en Casas

Resumen de Variables Numéricas Escaladas en Casas
piso estrato preciom areaconst parqueaderos banios habitaciones
Min. :-1.8599 Min. :-1.3625 Min. :-1.2925 Min. :-1.4199 Min. :-0.9455 Min. :-2.48174 Min. :-2.6031
1st Qu.:-0.5979 1st Qu.:-1.3625 1st Qu.:-0.6700 1st Qu.:-0.6966 1st Qu.:-0.9455 1st Qu.:-0.56995 1st Qu.:-0.9090
Median : 0.6641 Median : 0.4722 Median :-0.3071 Median :-0.1949 Median :-0.1732 Median : 0.06731 Median :-0.3444
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.00000 Mean : 0.0000
3rd Qu.: 0.6641 3rd Qu.: 0.4722 3rd Qu.: 0.3629 3rd Qu.: 0.4468 3rd Qu.:-0.1732 3rd Qu.: 0.70457 3rd Qu.: 0.2203
Max. : 9.4981 Max. : 1.3895 Max. : 4.0731 Max. : 8.5845 Max. : 6.0047 Max. : 3.89088 Max. : 3.0438

El análisis de las casas revela una amplia variabilidad en las características estructurales y de distribución de espacio. La variable “piso” muestra una dispersión considerable, lo que sugiere que la cantidad de niveles en las viviendas es diversa, desde casas de un solo nivel hasta aquellas con múltiples pisos.

El área construida presenta una gran amplitud, lo que indica que existen diferencias significativas en el tamaño de las viviendas. Algunas casas cuentan con espacios reducidos, mientras que otras tienen una extensión considerable, reflejando la diversidad en la oferta del mercado residencial.

El número de parqueaderos es otro aspecto con alta variabilidad, con algunas casas que apenas cuentan con un espacio de estacionamiento, mientras que otras tienen capacidad para múltiples vehículos. Esta diferencia responde tanto a las características de la propiedad como a la ubicación, ya que en ciertos sectores la disponibilidad de espacio es mayor.

En cuanto a la distribución interna, el número de habitaciones y baños también varía ampliamente. Algunas casas ofrecen configuraciones más compactas, mientras que otras incluyen un mayor número de habitaciones y espacios de servicio, lo que sugiere una segmentación del mercado en función de las necesidades familiares y el poder adquisitivo de los compradores.

5.1.2 Relación entre Atributos Numéricos en Casas

El análisis de correlación entre las variables numéricas de las casas permite identificar qué factores tienen mayor impacto en el precio y en otras características clave de las propiedades.

El precio de las casas muestra una correlación positiva considerable con el área construida y el número de parqueaderos. Esto indica que, a medida que aumenta la superficie habitable y la disponibilidad de estacionamiento, el valor de la propiedad tiende a incrementarse. Esta relación es esperada, dado que las casas más grandes suelen ofrecer mayor comodidad y más espacio para estacionamiento, lo que se traduce en un precio más alto.

El número de baños también guarda una relación positiva con el precio, aunque en menor medida. Esto sugiere que las viviendas con más baños pueden tener una mejor distribución del espacio y mayor funcionalidad, factores que influyen en su valoración.

Por otro lado, el número de habitaciones presenta una correlación más moderada con el precio, lo que indica que si bien es un aspecto relevante, no es el factor más determinante en la fijación del valor de una vivienda. Esto podría deberse a que, en muchos casos, la distribución y el tamaño de los espacios pueden ser más importantes que el simple número de habitaciones.

Finalmente, la variable “piso”, que hace referencia a la cantidad de niveles en las casas, no presenta una correlación significativa con el precio ni con otras variables clave. Esto sugiere que el número de pisos en una vivienda no es un determinante central en su valoración, posiblemente porque las preferencias de los compradores varían dependiendo del tipo de casa y la ubicación.

5.1.3 Importancia de los Componentes Principales en Casas

Importancia de los Componentes Principales en el PCA para Casas
PC1 PC2 PC3 PC4 PC5 PC6
Desviación Estándar 1.641 1.079 0.961 0.735 0.663 0.491
Proporción de Varianza 0.449 0.194 0.154 0.090 0.073 0.040
Proporción Acumulada 0.449 0.643 0.797 0.887 0.960 1.000

El análisis de componentes principales ha permitido reducir la dimensionalidad del conjunto de datos sin perder información clave sobre las características de las casas. Se han identificado tres componentes principales que explican la mayor parte de la variabilidad en los datos, lo que facilita la interpretación de los factores más influyentes en la diferenciación de las viviendas.

El primer componente principal (PC1) es el más representativo, explicando el 44.9% de la varianza total. Esto indica que una parte significativa de las diferencias entre las casas está determinada por una combinación específica de variables. El segundo componente principal (PC2) aporta un 19.4% adicional, y el tercero (PC3) contribuye con un 15.4%, sumando en conjunto el 79.7% de la variabilidad total.

Esta acumulación de varianza sugiere que con solo tres componentes principales es posible reconstruir la mayor parte de la información original sin necesidad de considerar todas las variables del conjunto de datos. Esto simplifica la interpretación y permite identificar con claridad los factores más relevantes que diferencian las casas analizadas.

5.1.4 Distribución de la Varianza Explicada en Casas

El scree plot muestra la proporción de varianza explicada por cada componente principal, confirmando la importancia de los primeros tres componentes en la reducción de dimensionalidad.

El primer componente principal representa casi la mitad de la variabilidad total, lo que sugiere que existe un factor dominante en la diferenciación de las casas. A medida que se agregan más componentes, la varianza explicada disminuye significativamente, indicando que los factores adicionales tienen un menor impacto en la estructura de los datos.

Este patrón refuerza la decisión de seleccionar tres componentes principales, ya que incluir más de ellos aportaría una cantidad mínima de información adicional, a costa de una mayor complejidad en la interpretación del modelo.

5.1.5 Contribución de las Observaciones al Primer Componente Principal

El análisis de la contribución de las observaciones al primer componente principal revela la existencia de ciertos casos con una influencia considerablemente mayor sobre la variabilidad de los datos. En particular, una observación sobresale con una contribución que se encuentra muy por encima del resto, lo que sugiere que representa un perfil diferenciado dentro del conjunto de viviendas analizadas. Este tipo de comportamiento puede deberse a características específicas de la vivienda, como un área construida significativamente mayor, un precio fuera del rango común o una combinación de atributos que la hacen única dentro del mercado.

En términos generales, la distribución de las contribuciones muestra que la mayoría de las observaciones tienen una participación relativamente homogénea en la variabilidad explicada por el primer componente, mientras que un grupo más reducido de casos ejerce un impacto desproporcionado. Esto indica que, aunque el primer componente captura las tendencias generales del conjunto de datos, hay viviendas que se desvían del patrón predominante y requieren un análisis más detallado para comprender qué factores las diferencian del resto.

Desde una perspectiva práctica, esta información puede ser útil para identificar segmentos específicos de viviendas con características atípicas, lo que podría ser relevante tanto para inversionistas como para desarrolladores inmobiliarios. En algunos casos, estas observaciones pueden representar oportunidades de mercado dentro de nichos específicos o pueden ser indicativas de factores estructurales que influyen en el comportamiento de los precios y la oferta de casas en determinadas zonas.

5.1.6 Relación entre Variables en el Análisis de Componentes Principales

El biplot generado a partir del análisis de componentes principales para casas proporciona una visión detallada sobre la estructura de las relaciones entre las variables del estudio. En este gráfico, se observa que el precio, el área construida, la cantidad de parqueaderos y el número de baños son las variables que más contribuyen a la variabilidad capturada por el primer componente principal. Estas variables están agrupadas en una misma dirección, lo que indica que están altamente correlacionadas entre sí y que, en conjunto, explican gran parte de la variación en los datos.

Por otro lado, la variable “piso” muestra un comportamiento diferenciado y se encuentra representada en una dirección opuesta. Esto sugiere que su influencia en la estructura del mercado de casas es distinta a la de las demás características y que podría estar más vinculada a factores específicos de construcción o a características urbanísticas.

El análisis también resalta que la variable “habitaciones” tiene una dirección ligeramente distinta a las demás, lo que indica que su contribución a la variabilidad es importante, pero no necesariamente en la misma medida o dirección que el resto de los atributos. Este hallazgo puede indicar que el número de habitaciones no siempre está estrictamente relacionado con el tamaño o el precio de la vivienda, lo que sugiere que existen otros factores que pueden influir en la distribución de este atributo dentro del mercado.

Este tipo de visualización es útil para identificar qué características tienen mayor peso en la variación de los datos y cómo se agrupan las distintas propiedades en función de sus atributos principales. A partir de esta información, es posible enfocar estrategias de análisis más detalladas para entender qué impulsa la segmentación del mercado y qué características son clave al momento de valorar una vivienda.

5.1.7 Importancia de las Variables en los Componentes Principales

Matriz de Cargas de los Componentes Principales en el PCA para Casas
CP1 CP2 CP3 CP4 CP5 CP6
piso -0.012 -0.583 0.806 0.024 -0.089 0.049
preciom -0.515 0.267 0.174 -0.189 0.244 0.733
areaconst -0.493 0.047 0.024 -0.649 -0.419 -0.397
parqueaderos -0.428 0.346 0.192 0.701 -0.375 -0.166
banios -0.486 -0.274 -0.108 0.145 0.698 -0.410
habitaciones -0.270 -0.625 -0.521 0.172 -0.358 0.326

La matriz de cargas de los componentes principales para casas proporciona información clave sobre cómo cada variable contribuye a los diferentes componentes principales. En el primer componente (CP1), el precio, el área construida y la cantidad de parqueaderos son los atributos con mayor peso negativo, lo que indica que este componente está fuertemente asociado con el tamaño y el valor de la vivienda. Esto sugiere que, al reducir la dimensionalidad de los datos, este primer componente refleja principalmente las características relacionadas con la estructura y el costo de la propiedad.

El segundo componente (CP2) está dominado por la variable “piso”, la cual tiene un peso negativo significativo. Esto implica que este componente captura información relacionada con la altura o niveles en la vivienda, una variable que, a diferencia del análisis de apartamentos, no suele ser un factor determinante en el mercado de casas, pero que aún así explica una porción importante de la variabilidad.

En el tercer componente (CP3), la variable “piso” también tiene un peso elevado, lo que confirma que este atributo es una dimensión relevante en el conjunto de datos. Sin embargo, también se observa que el número de habitaciones y la cantidad de parqueaderos tienen contribuciones significativas en este componente, lo que sugiere que esta dimensión agrupa información sobre la distribución interna de las propiedades.

Por su parte, el cuarto y quinto componente capturan variaciones en las relaciones entre los atributos estructurales y funcionales de las casas. En particular, la cantidad de parqueaderos y el número de baños parecen desempeñar un papel importante en la variabilidad capturada por estos componentes.

Finalmente, el sexto componente muestra que el precio tiene una contribución destacada en esta dimensión, lo que podría indicar que, aunque el costo de la vivienda está estrechamente relacionado con otros atributos en los primeros componentes, también existen otros factores no considerados directamente en los primeros componentes que pueden influir en el valor de las propiedades.

Estos resultados permiten entender cómo se estructuran los datos y facilitan la interpretación de las relaciones entre las características de las viviendas, ayudando a identificar qué factores son clave en la segmentación y valoración de las casas en el mercado.

5.1.8 Impacto de la Exclusión de la Variable “Piso” en el Análisis de Componentes Principales

Importancia de los Componentes Principales en el PCA para Casas (Sin Piso)
PC1 PC2 PC3 PC4 PC5
Desviación Estándar 1.641 1.040 0.735 0.666 0.493
Proporción de Varianza 0.538 0.216 0.108 0.089 0.049
Proporción Acumulada 0.538 0.755 0.863 0.951 1.000

Al eliminar la variable “piso” del análisis, se observa un cambio en la distribución de la varianza explicada por los componentes principales. El primer componente sigue siendo el más relevante, capturando el 53.8% de la varianza total, lo que representa un aumento con respecto al análisis anterior. Esto indica que la variable “piso” no era un factor determinante en la variabilidad de los datos, sino que su influencia estaba dispersa en múltiples dimensiones.

El segundo componente principal ahora explica el 21.6% de la variabilidad, mostrando que, sin la variable “piso”, la información restante se redistribuye entre los demás componentes. A su vez, el tercer y cuarto componente representan el 10.8% y 8.9%, respectivamente, mientras que el quinto componente solo explica el 4.9%. Esto significa que la eliminación de “piso” ha reducido la necesidad de incluir tantos componentes para explicar una alta proporción de la varianza total.

La proporción de varianza acumulada confirma que, con solo dos componentes, es posible capturar el 75.5% de la variabilidad presente en los datos, y con tres componentes se alcanza el 86.3%. Esto sugiere que el análisis sin “piso” permite una mejor representación de las características estructurales y económicas de las casas con menos dimensiones, facilitando su interpretación y uso en modelos predictivos o segmentación de mercado.

Este resultado refuerza la importancia de seleccionar cuidadosamente las variables en el análisis de componentes principales, ya que ciertos atributos pueden no aportar información significativa y, en su lugar, generar ruido en la interpretación.

5.1.9 Distribución de la Varianza en el Análisis de Componentes Principales sin la Variable “Piso”

El gráfico de Scree Plot muestra cómo se distribuye la varianza explicada por los componentes principales una vez que se ha eliminado la variable “piso” del análisis. Se observa que el primer componente principal sigue siendo el más significativo, capturando más del 50% de la variabilidad en los datos, lo que reafirma su papel dominante en la estructuración de la información.

El segundo componente principal también mantiene una relevancia considerable, representando una parte importante de la variabilidad restante. Sin embargo, a partir del tercer componente, la proporción de varianza explicada disminuye progresivamente, lo que sugiere que estos componentes adicionales contienen información más específica y menos determinante para la estructura global de los datos.

El crecimiento acumulativo de la varianza explicada muestra que los primeros tres componentes capturan una gran parte de la variabilidad, lo que sugiere que se podría reducir la dimensionalidad sin una pérdida significativa de información. Este resultado facilita la interpretación del modelo, ya que permite identificar los factores clave que influyen en las características de las casas sin la interferencia de la variable “piso”, que previamente no aportaba información sustancial a la variabilidad del conjunto de datos.

5.1.10 Relación entre Variables en el Espacio de Componentes Principales sin la Variable “Piso”

El biplot del análisis de componentes principales sin la variable “piso” permite visualizar cómo se relacionan las diferentes características de las casas dentro del nuevo espacio reducido. Se observa que las variables habitaciones, área construida y baños tienen una fuerte contribución al primer componente principal (CP1), indicando que estas características explican gran parte de la variabilidad en los datos.

Por otro lado, la variable precio también muestra una asociación importante con el primer componente, lo que sugiere que su variación está influenciada por el número de habitaciones y el área construida. La presencia de parqueaderos como una variable con una dirección diferenciada en el gráfico indica que su comportamiento puede estar capturado en un segundo componente, lo que puede reflejar patrones distintos en la oferta de casas.

Este resultado refuerza la importancia de ciertos atributos estructurales en la caracterización del mercado inmobiliario, donde el número de habitaciones y el área construida juegan un papel clave en la diferenciación de las viviendas. La eliminación de la variable “piso” no afecta significativamente la estructura del análisis, ya que sus aportes eran mínimos en la variabilidad general.

5.1.11 Matriz de Cargas de los Componentes Principales en Casas sin la Variable “Piso”

Matriz de Cargas de los Componentes Principales en el PCA para Casas (Sin Piso)
CP1 CP2 CP3 CP4 CP5
preciom 0.515 0.318 -0.192 -0.236 -0.735
areaconst 0.493 0.052 -0.645 0.421 0.401
parqueaderos 0.428 0.401 0.704 0.361 0.174
banios 0.485 -0.299 0.137 -0.704 0.401
habitaciones 0.269 -0.804 0.182 0.376 -0.327

El análisis de componentes principales sin la variable “piso” revela cómo las diferentes características de las casas contribuyen a cada uno de los componentes principales. En este caso, el primer componente principal (CP1) sigue siendo dominado por las variables precio, área construida y baños, con valores de carga de 0.515, 0.493 y 0.485, respectivamente. Esto indica que estos factores explican una proporción significativa de la variabilidad en los datos.

El segundo componente principal (CP2) muestra una fuerte contribución negativa de la variable habitaciones (-0.804), lo que sugiere que este componente captura una relación inversa entre el número de habitaciones y otras características estructurales de la vivienda. En contraste, el tercer componente principal (CP3) está dominado por parqueaderos (0.704) y área construida con una contribución negativa de -0.645, lo que indica que las casas con mayor número de parqueaderos pueden diferenciarse de aquellas con mayor área construida en este espacio reducido.

El cuarto y quinto componente principal reflejan variaciones más específicas, donde baños y área construida aparecen con valores altos en CP4, mientras que en CP5 el precio muestra una relación negativa con -0.735, lo que sugiere que en este componente pueden identificarse variaciones en el valor de las propiedades que no están explicadas en los primeros componentes.

En general, este análisis confirma que la estructura de las casas está determinada principalmente por factores de tamaño y funcionalidad, donde el precio, la cantidad de baños y el área construida son determinantes clave en la diferenciación de las propiedades dentro del mercado inmobiliario.

5.2 ANÁLISIS DE CONGLOMERADOS PARA CASAS

5.2.1 Determinación del Número Óptimo de Clústeres para Casas

El método del codo aplicado al análisis de agrupamiento sugiere que el número óptimo de clústeres para segmentar las casas en grupos homogéneos se encuentra alrededor de tres o cuatro. La curva muestra una reducción significativa en la suma de cuadrados dentro del grupo hasta este punto, tras lo cual la disminución se vuelve menos pronunciada, indicando un menor beneficio al agregar más clústeres.

Esta selección de clústeres permitirá diferenciar las casas según sus características estructurales y de mercado, capturando diferencias clave en el tamaño, el precio y la cantidad de parqueaderos o baños disponibles. A partir de este análisis, se espera que las agrupaciones reflejen distintas tipologías de viviendas dentro del mercado, facilitando una mejor comprensión de la oferta inmobiliaria en función de las preferencias y necesidades de los compradores.

5.2.2 Distribución de Clústeres para Casas

Distribución de Clusters para Casas
Cluster Cantidad
1 1107
2 1547
3 565

El análisis de segmentación ha identificado tres grupos diferenciados dentro del conjunto de datos de casas. El segundo clúster es el más numeroso, con 1,547 casas, lo que sugiere que representa la tipología más común en el mercado. Le sigue el primer clúster, con 1,107 casas, y finalmente el tercer clúster, que es el más reducido con 565 unidades, lo que podría indicar que estas viviendas poseen características menos frecuentes o se encuentran en segmentos específicos del mercado.

Esta distribución resalta que dentro del mercado de casas existen diferencias marcadas en las características estructurales y en la forma en que se agrupan las propiedades. La interpretación de estos grupos permitirá definir patrones más precisos en cuanto a la oferta inmobiliaria y su relación con factores como el precio, el tamaño y la cantidad de comodidades adicionales.

5.2.3 Distribución de Clústeres en el Espacio PCA para Casas

El análisis de agrupamiento muestra cómo se distribuyen las casas dentro del espacio definido por los dos primeros componentes principales. Se observa una clara separación entre los tres clústeres, lo que indica que las viviendas presentan diferencias estructurales significativas que permiten su clasificación en grupos bien diferenciados.

El clúster 1 (rojo) se concentra en la parte inferior del gráfico, lo que sugiere que estas casas tienen características específicas que las alejan de las otras dos categorías. El clúster 2 (verde) ocupa una región más central y extendida, lo que refuerza su posición como el grupo más numeroso y representativo del conjunto de datos. Finalmente, el clúster 3 (azul) se distribuye en la parte superior del espacio, indicando que este grupo contiene viviendas con características distintivas dentro del mercado.

Esta segmentación permite comprender mejor las diferencias dentro del mercado de casas, facilitando la toma de decisiones en términos de evaluación de precios, oferta y demanda según los atributos estructurales de cada grupo.

5.2.4 Evaluación de la Cohesión y Separación de los Clústeres

El índice de Silhouette permite evaluar la calidad del agrupamiento, midiendo tanto la cohesión dentro de cada clúster como la separación entre ellos. En este caso, se observa que los tres grupos presentan valores diferenciados de ancho de Silhouette, lo que sugiere que la asignación de las casas a cada clúster tiene distintos niveles de confianza.

El clúster 2 (verde) muestra los valores más altos en términos de cohesión, lo que indica que las casas dentro de este grupo son más homogéneas y bien diferenciadas de los otros clústeres. El clúster 3 (azul) también presenta una estructura relativamente definida, aunque con una menor dispersión de valores. Por otro lado, el clúster 1 (rojo) tiene un ancho de Silhouette más bajo y una mayor variabilidad, lo que sugiere que algunas casas podrían estar más cerca de los límites con otros clústeres y podrían ser menos distinguibles en términos de sus atributos.

Este análisis confirma que la segmentación en tres grupos es adecuada, pero también señala que ciertos casos dentro del clúster 1 podrían requerir un análisis más detallado para determinar si podrían pertenecer a otro grupo o si se necesita mejorar el criterio de segmentación.

5.2.5 Análisis de la Separación entre Clústeres

Matriz de Distancias entre Clústeres para Casas
1 2 3
0.000 2.017 2.785
2.017 0.000 3.853
2.785 3.853 0.000

La matriz de distancias entre clústeres proporciona información sobre la diferenciación entre los grupos definidos en el análisis. Se observa que el clúster 3 es el más alejado de los demás, con una distancia de 3.853 respecto al clúster 2 y de 2.785 respecto al clúster 1. Esto sugiere que las casas en este grupo tienen características significativamente distintas en comparación con las de los otros clústeres.

Por otro lado, el clúster 1 y el clúster 2 presentan una menor distancia entre sí (2.017), lo que indica que, aunque hay diferencias, estos dos grupos pueden compartir ciertos atributos o ubicarse en un continuo de variabilidad similar.

Esta estructura refuerza la idea de que el tercer clúster representa un segmento de viviendas con características más extremas o diferenciadas, lo que podría estar relacionado con factores como el tamaño, la ubicación o el precio. Mientras tanto, los otros dos grupos presentan una mayor proximidad en términos de sus atributos compartidos, lo que podría hacer necesario un análisis más detallado para definir sus límites con precisión.

5.2.6 Estructura Jerárquica de los Clústeres en Casas

El dendrograma del análisis de clustering jerárquico refuerza la estructura observada en la matriz de distancias entre clústeres. Se evidencia la presencia de tres grupos principales, los cuales se separan en distintos niveles de la jerarquía.

El primer grupo, representado en rojo, se encuentra claramente diferenciado desde una etapa temprana del proceso de agrupación, lo que indica que sus características son significativamente distintas de las de los otros dos grupos.

Los otros dos clústeres, representados en verde y azul, comparten una mayor similitud entre sí, dado que se agrupan en una fase más avanzada del dendrograma. Sin embargo, todavía muestran suficiente separación para ser considerados como categorías independientes.

El método de agrupamiento utilizado, basado en la distancia completa, asegura que los elementos más similares se agrupan en niveles más bajos, mientras que los más diferentes se encuentran en los niveles superiores. Esto es consistente con la matriz de distancias, donde el tercer clúster se mostró como el más alejado.

En términos prácticos, esta segmentación jerárquica puede ayudar a entender las relaciones entre los diferentes tipos de casas y sus atributos, proporcionando una base estructurada para la toma de decisiones en análisis de mercado o estrategias de inversión.

5.3 ANÁLISIS DE CORRESPONDENCIA PARA CASAS

5.3.1 Análisis de Contingencia entre Barrios y Zonas

El análisis de la tabla de contingencia entre barrios y zonas permite identificar la distribución geográfica de las casas en diferentes sectores de la ciudad. Se observa que ciertas zonas tienen una mayor concentración de viviendas en barrios específicos, lo que puede estar relacionado con características urbanísticas y niveles socioeconómicos predominantes en cada sector.

La zona Centro cuenta con una variedad de barrios con pocas unidades habitacionales cada uno, lo que indica que la oferta de casas está distribuida en diferentes sectores sin una clara predominancia de un barrio en particular. Este comportamiento sugiere una distribución más homogénea y posiblemente una mayor mezcla de usos de suelo en esta zona.

En la zona Norte, algunos barrios, como La Flora y Acopi, concentran una cantidad considerable de viviendas. Esto puede estar relacionado con la disponibilidad de terrenos más amplios y el desarrollo de sectores residenciales exclusivos. Además, esta zona presenta una menor dispersión en la oferta de casas, lo que indica que el desarrollo habitacional está más concentrado en ciertas áreas específicas.

Por otro lado, la zona Oeste tiene una notable presencia de barrios con una cantidad importante de viviendas, destacándose sectores como San Antonio, Los Cristales y Santa Teresita. Este sector es reconocido por su alta demanda debido a la ubicación estratégica y las características urbanas que ofrecen un equilibrio entre cercanía al centro y espacios más abiertos.

En la zona Oriente, se identifican algunos barrios con una cantidad considerable de viviendas, aunque en general presenta una menor concentración en comparación con otras zonas. Esto podría indicar que el desarrollo habitacional en este sector es más limitado o que predomina otro tipo de infraestructura.

Finalmente, en la zona Sur, barrios como Ciudad Jardín, Pance y Valle del Lili concentran una gran cantidad de casas, lo que sugiere una tendencia hacia el desarrollo de viviendas unifamiliares en espacios más amplios y de estrato alto. Estos barrios se caracterizan por urbanizaciones cerradas y áreas residenciales exclusivas, lo que refuerza su posición como uno de los sectores con mayor demanda de casas.

En términos generales, la distribución de casas por barrios y zonas permite inferir patrones de urbanización y segmentación del mercado inmobiliario. Las zonas con mayor concentración en barrios específicos tienden a estar asociadas a desarrollos planeados o a la consolidación de sectores residenciales exclusivos, mientras que una distribución más homogénea puede estar relacionada con una mayor diversificación en la oferta habitacional y en los perfiles socioeconómicos de los compradores.

5.3.2 Análisis de Correspondencias entre Zonas y Barrios en Casas

El mapa de correspondencias revela la relación entre las zonas de la ciudad y los barrios en los que se encuentran las casas, permitiendo identificar agrupaciones espaciales y patrones de distribución residencial.

Se observa que la Zona Norte está fuertemente asociada con barrios como La Flora, Acopi y Villa del Prado. Estos sectores se caracterizan por una concentración de viviendas en urbanizaciones organizadas y una infraestructura que ha permitido su consolidación como áreas residenciales importantes dentro de la ciudad.

En la Zona Sur, se destaca Ciudad Jardín, un barrio conocido por su desarrollo habitacional de alto estrato, con viviendas amplias y en entornos planificados. Su ubicación separada en el gráfico sugiere una identidad urbanística distintiva con respecto a otras zonas.

La Zona Oriente, que incluye barrios como Ciudad Córdoba y Alfonso López, muestra una estructura más diferenciada en el mapa, lo que sugiere que estos barrios tienen características particulares dentro de esta zona. Este comportamiento puede estar asociado con un desarrollo inmobiliario que responde a diferentes dinámicas socioeconómicas y urbanísticas en comparación con otras áreas de la ciudad.

Por su parte, la Zona Oeste y la Zona Centro se presentan con menor dispersión en el gráfico, lo que indica que los barrios dentro de estas zonas pueden compartir más similitudes entre sí o no tener una segmentación tan marcada como en otras zonas. Esto puede deberse a una mezcla entre usos comerciales, institucionales y residenciales en estos sectores.

El análisis de correspondencias muestra cómo ciertos barrios están estrechamente vinculados con zonas específicas, lo que facilita la identificación de tendencias en la distribución de casas. La separación de algunos barrios sugiere que su dinámica inmobiliaria puede diferir del resto de su zona, ya sea por el tipo de vivienda predominante, la infraestructura urbana o el perfil de los compradores.

5.3.3 Distribución Geográfica de los Clústeres de Casas

El mapa de distribución de clústeres muestra cómo las casas en la ciudad se agrupan según sus características compartidas. Se identifican tres clústeres distintos, cada uno con una distribución particular en el territorio.

El Clúster 1, representado en color rojo, está concentrado en el sur y el occidente de la ciudad, con puntos destacados en sectores como la zona de La Buitrera y el extremo suroriental. Esto sugiere que en estas áreas se encuentran casas con características particulares, posiblemente con mayor espacio construido y mayores valores de mercado, dado que estas zonas suelen estar asociadas con barrios residenciales de estratos altos.

El Clúster 2, marcado en azul, se distribuye a lo largo de diferentes puntos del área urbana, con presencia en el centro y zonas intermedias. Su dispersión sugiere que agrupa casas con características más heterogéneas, abarcando sectores con valores medios en términos de precio, tamaño y número de habitaciones. Es posible que esta categoría contenga una combinación de viviendas tradicionales y nuevas construcciones.

Por otro lado, el Clúster 3, en color verde, tiene una presencia más limitada y se ubica principalmente en los extremos de la ciudad, en zonas periféricas y cercanas a áreas naturales. Esto indica que las viviendas en este clúster podrían corresponder a casas con menor densidad urbana, posiblemente con mayor extensión de terreno, pero con características diferentes a las de los otros clústeres.

En términos generales, la distribución de los clústeres refleja una segmentación de las casas en función de su ubicación y atributos estructurales. Las áreas con mayor concentración de viviendas pertenecen a los clústeres 1 y 2, mientras que el clúster 3 se encuentra en menor proporción, pero con una distribución más periférica. Esta organización espacial permite identificar tendencias en el mercado de vivienda y comprender cómo se agrupan las casas en la ciudad.

6 CONCLUSIONES FINALES DEL ANÁLISIS

El estudio del mercado inmobiliario a través de técnicas de análisis de datos ha permitido identificar patrones clave en la distribución, características y segmentación de los inmuebles en la ciudad. Se han aplicado metodologías como el Análisis de Componentes Principales (PCA) y la segmentación por clústeres para diferenciar los factores que influyen en la oferta y la estructuración del mercado.

6.1 Segmentación y Factores Determinantes en Apartamentos

En el análisis de apartamentos, se observó que los atributos con mayor peso en la variabilidad del mercado son precio, área construida y número de parqueaderos. La relación entre estos factores sugiere que los compradores buscan un balance entre costo y espacio disponible, priorizando aquellas unidades que ofrecen mayor comodidad, especialmente en términos de parqueaderos y número de baños.

La matriz de correlación muestra que el precio presenta una fuerte asociación con el área construida (0.83), lo que indica que los apartamentos más grandes suelen tener un mayor valor. Además, los baños y parqueaderos también influyen significativamente en la categorización de los inmuebles.

El PCA reveló que los dos primeros componentes explican aproximadamente el 70.4% de la varianza total, con el primer componente capturando 53.9%. Esto implica que una combinación de variables como precio, área construida y parqueaderos es suficiente para describir la mayor parte de las diferencias entre los apartamentos.

6.1.1 Clústeres de Apartamentos

Se estableció una segmentación en tres clústeres, diferenciados principalmente por precio, área y ubicación:

Clúster 1 (1,069 apartamentos): Agrupa apartamentos de menor área construida y menor precio, ubicados principalmente en zonas periféricas.

Clúster 2 (3,254 apartamentos): Representa la mayoría del mercado, con unidades de tamaño y precio intermedio, distribuidas en diversas zonas con alta densidad habitacional.

Clúster 3 (777 apartamentos): Incluye apartamentos de mayor valor y área construida, concentrados en sectores con alta demanda inmobiliaria.

El análisis geoespacial confirma que el clúster 2 es el más extendido, mientras que el clúster 3 se encuentra en zonas premium, reflejando diferencias en el nivel socioeconómico de los sectores.

6.2 Segmentación y Factores Determinantes en Casas

El análisis de casas muestra una dinámica similar en términos de los factores más influyentes, pero con diferencias clave en su distribución y estructura de correlaciones. En este caso, el precio está más asociado con la cantidad de parqueaderos, baños y área construida, aunque con menor peso que en los apartamentos.

A diferencia de los apartamentos, el número de pisos no es un factor relevante, dado que las casas generalmente tienen un número fijo de niveles. Esto se refleja en su baja correlación con el precio (-0.04), en contraste con apartamentos donde la altura suele influir en la valoración del inmueble.

El PCA indica que los primeros dos componentes explican el 64.3% de la varianza total, mientras que el primer componente por sí solo captura 44.9%. Esto sugiere que una combinación de precio, número de parqueaderos y baños define la estructura del mercado de casas.

6.2.1 Clústeres de Casas

Al igual que en los apartamentos, el análisis de clústeres reveló tres segmentos bien diferenciados:

Clúster 1 (1,107 casas): Incluye casas más pequeñas y de menor costo, ubicadas en barrios tradicionales con alta densidad poblacional.

Clúster 2 (1,547 casas): Representa el segmento intermedio, con casas de tamaño y precio moderado, generalmente en zonas mixtas. Clúster 3 (565 casas): Comprende propiedades de mayor tamaño y valor, con amplia extensión de terreno y más comodidades.

El mapa geoespacial confirma que el clúster 1 está fuertemente concentrado en el sur y en algunas zonas centrales, mientras que el clúster 3 está disperso en las zonas de expansión urbana, indicando una tendencia de crecimiento hacia áreas menos densas.

6.3 Comparación General entre Apartamentos y Casas

Las diferencias clave entre apartamentos y casas en términos de segmentación son las siguientes:

El mercado de apartamentos está más influenciado por el área construida y el número de parqueaderos, mientras que en casas la distribución del terreno y el número de baños juegan un papel más importante.

Los apartamentos tienen una mayor concentración en el clúster de precio intermedio, mientras que en casas la segmentación es más equitativa entre los tres grupos.

Geográficamente, las casas presentan una distribución más dispersa, mientras que los apartamentos se agrupan en zonas específicas con alta densidad habitacional.

El análisis de correspondencias entre zonas y barrios muestra que ciertos sectores concentran más apartamentos, mientras que otros están dominados por casas, lo que refleja diferencias en la estructura del desarrollo urbano. Los apartamentos predominan en zonas céntricas y de mayor altura, mientras que las casas tienen mayor presencia en sectores de expansión.

6.4 Conclusiones Finales

ANÁLISIS DE APARTAMENTOS

El estudio revela la distribución y segmentación del mercado inmobiliario de apartamentos en Cali, permitiendo identificar patrones clave en términos de ubicación, características y niveles de demanda.

DEFINICIÓN DE LOS CLÚSTERES PARA APARTAMENTOS

Clúster 1 (Alta densidad y estrato medio-alto)

Se concentra principalmente en el centro y sur de la ciudad.

Está compuesto por apartamentos de estrato 4 y 5, con precios moderados y una alta rotación de mercado.

Predomina en barrios como Ciudad Jardín, Valle del Lili y El Ingenio, donde la demanda es constante debido a la oferta de servicios y proximidad a universidades y centros comerciales.

Clúster 2 (Segmento premium y baja densidad)

Se encuentra en zonas exclusivas de estrato 5 y 6, con propiedades de mayor precio y menor oferta disponible.

Se observan concentraciones en Santa Teresita, Normandía y Juanambú, con apartamentos de amplia área construida y alta valorización.

Este clúster está dirigido a compradores con alto poder adquisitivo, pero con menor rotación en el mercado.

Clúster 3 (Zonas emergentes y en expansión)

Ubicado en la periferia de la ciudad, con desarrollos nuevos y potencial de valorización.

Incluye sectores como Pance, La Flora y la zona de expansión hacia el norte y sur de la ciudad.

Son apartamentos en proyectos en preventa o de reciente construcción, dirigidos a inversionistas que buscan retornos a mediano y largo plazo.

HALLAZGOS Y RECOMENDACIONES

La zona entre las calles 42 y 48, entre las carreras 98A y 96A concentra la mayor cantidad de apartamentos en venta, con predominancia de clúster 1 y 3.

La Carrera 97B con Calle 45 presenta dos nuevos desarrollos inmobiliarios con 60 y 58 unidades disponibles, lo que representa el 67% del mercado en esta área.

El mercado en Santa Teresita y Normandía (Clúster 2) presenta precios elevados, con inmuebles de estrato 5 y 6, pero con menor rotación en comparación con las zonas de estrato 4.

En el área de la Carrera 1 con Calle 12 Oeste (Clúster 3) existen 6 apartamentos con potencial de inversión, aunque su ubicación sugiere que el retorno puede tardar más tiempo.

ANÁLISIS DE CASAS

La segmentación de casas en Cali muestra diferencias significativas con respecto a los apartamentos, principalmente en la distribución geográfica y el comportamiento del mercado.

DEFINICIÓN DE LOS CLÚSTERES PARA CASAS

Clúster 1 (Casas de estrato medio-alto con alta densidad poblacional)

Se encuentra en sectores con predominio de conjuntos cerrados, limitando la disponibilidad de terrenos para nuevas construcciones. Se ubica en El Caney, Ciudad Jardín y parte del sur de la ciudad.

Son propiedades de estrato 4 y 5, con un mercado más dinámico y demanda estable.

Clúster 2 (Casas en áreas en expansión con nuevas construcciones)

Está presente en sectores en crecimiento, con construcciones recientes y en preventa.

Zonas clave incluyen la Calle 48 con Carrera 83B y Ciudad Córdoba, donde se identifican nuevos desarrollos con varias unidades disponibles.

Estas propiedades son ideales para inversionistas, ya que tienen buen potencial de valorización.

Clúster 3 (Casas exclusivas y de gran tamaño en estratos altos)

Se concentran en Santa Rita, Normandía y Pance, con propiedades de 317 a 500 m².

Tienen precios elevados y menor liquidez, pero representan inversiones estratégicas de largo plazo.

Ejemplos clave incluyen una propiedad en Santa Rita de 380 m² a 320 millones de pesos y otra en la Avenida Norte con Calle 26 de 317 m² a 400 millones de pesos.

HALLAZGOS Y RECOMENDACIONES

En el área entre las calles 42 y 48, entre la Carrera 83B y la Carrera 85.1 (Clúster 1 y 3) se observa una oferta variada, con un mercado dividido entre casas dentro de conjuntos cerrados y algunas propiedades independientes con potencial de inversión. La intersección de la Avenida 4 Oeste y la Avenida 5 Oeste presenta una propiedad en Santa Rita de 380 m² a 320 millones de pesos, ideal para inversores que buscan reventa o arrendamiento a clientes premium.

Se recomienda estudiar en más detalle las opciones de inversión en Ciudad Córdoba y el Caney (Clúster 2), donde hay nuevas construcciones en zonas en crecimiento.

OBSERVACIONES FINALES

Los apartamentos en Cali tienen una distribución más dinámica, con alta concentración en estrato 4 y 5 (Clúster 1), mientras que las casas muestran un mercado más segmentado, con una marcada diferencia entre propiedades dentro y fuera de conjuntos cerrados. Los proyectos en preventa y nuevas construcciones en el sur y el norte de la ciudad (Clúster 2 en ambos tipos de inmuebles) presentan oportunidades de inversión con valorización a mediano plazo.

Los segmentos premium (Clúster 3 en ambos casos) ofrecen buenas oportunidades de inversión a largo plazo, pero requieren mayor análisis del tiempo de venta y el perfil del comprador.

Se recomienda priorizar la compra de apartamentos en estrato 4 para reventa rápida, y evaluar cuidadosamente las inversiones en estrato 5 y 6, considerando su menor rotación en el mercado.