En el presente informe se describe el proceso de limpieza de datos, imputación de datos faltantes, análisis de valores atípicos (preprocesamiento) y procesamiento de los datos, para posteriormente realizar un análisis integral y multidimensional de los mismos, con el objetivo de obtener una comprensión del mercado inmobiliario urbano de acuerdo con la base de datos dada.
El reto principal consiste en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
Realizar un análisis estadístico integral y multidimensional de la oferta inmobiliaria urbana, utilizando técnicas de análisis multivariado sobre la base de datos disponible, con el fin de identificar patrones, segmentaciones y relaciones relevantes que permitan optimizar la toma de decisiones estratégicas en la compra, venta y valoración de propiedades residenciales.
Explorar y caracterizar las variables cuantitativas y cualitativas del mercado inmobiliario urbano mediante análisis descriptivos y visualizaciones, con el propósito de comprender la estructura general de la oferta.
Aplicar el Análisis de Componentes Principales (ACP) para reducir la dimensionalidad del conjunto de variables numéricas, identificar los factores subyacentes que explican la variabilidad del mercado y determinar cuáles características influyen en mayor medida sobre el precio de las propiedades.
Implementar técnicas de Análisis de Conglomerados para segmentar las viviendas en grupos homogéneos según sus características estructurales, socioeconómicas y espaciales, facilitando la identificación de perfiles de oferta diferenciados.
Desarrollar un Análisis de Correspondencia entre las variables categóricas (tipo de vivienda, zona y barrio), con el fin de detectar asociaciones y patrones territoriales en la oferta inmobiliaria.
Generar visualizaciones estadísticas y geográficas que permitan comunicar de manera clara y efectiva los hallazgos a la dirección de la empresa inmobiliaria.
Formular conclusiones y recomendaciones estratégicas, basadas en la evidencia empírica obtenida, que contribuyan a fortalecer la competitividad y rentabilidad de la empresa en el mercado urbano.
La base de datos vivienda contiene información detallada sobre propiedades residenciales urbanas recolectadas mediante técnicas de web scraping desde la plataforma OLX. Incluye variables estructurales, socioeconómicas, espaciales y económicas que permiten desarrollar análisis multidimensionales del mercado inmobiliario urbano.
| Variable | Tipo_de_Dato | Descripcion |
|---|---|---|
| id | Numérica | Identificador único de cada inmueble |
| zona | Categórica (carácter) | Zona geográfica de la ciudad donde se ubica la vivienda |
| piso | Categórica (carácter) | Número de piso en el que se encuentra la vivienda |
| estrato | Numérica discreta | Estrato socioeconómico asignado a la vivienda (1–6) |
| preciom | Numérica continua | Precio del inmueble por metro cuadrado |
| areaconst | Numérica continua | Área construida de la vivienda en metros cuadrados |
| parqueaderos | Numérica discreta | Número de espacios de parqueadero |
| banios | Numérica discreta | Número de baños |
| habitaciones | Numérica discreta | Número de habitaciones |
| tipo | Categórica (carácter) | Tipo de inmueble (Casa, Apartamento, etc.) |
| barrio | Categórica (carácter) | Barrio específico donde se ubica la vivienda |
| longitud | Numérica continua | Coordenada geográfica longitudinal en grados decimales |
| latitud | Numérica continua | Coordenada geográfica latitudinal en grados decimales |
A continuación, se realiza una tabla descriptiva con las variables numéricas relevantes
## vars n mean sd median trimmed mad min max range skew
## preciom 1 8320 433.89 328.65 330 374.43 207.56 58 1999 1941 1.85
## areaconst 2 8319 174.93 142.96 123 149.15 84.51 30 1745 1715 2.69
## parqueaderos 3 6717 1.84 1.12 2 1.62 1.48 1 10 9 2.33
## banios 4 8319 3.11 1.43 3 2.99 1.48 0 10 10 0.93
## habitaciones 5 8319 3.61 1.46 3 3.41 1.48 0 10 10 1.63
## estrato 6 8319 4.63 1.03 5 4.67 1.48 3 6 3 -0.18
## kurtosis se
## preciom 3.67 3.60
## areaconst 12.91 1.57
## parqueaderos 8.31 0.01
## banios 1.13 0.02
## habitaciones 3.98 0.02
## estrato -1.11 0.01
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 NA <NA> <NA> NA NA NA NA NA NA
## 2 NA <NA> <NA> NA NA NA NA NA NA
## 3 NA <NA> <NA> NA 330 NA NA NA NA
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Se identifican 3 registros que no tienen un id definido. Al revisar dichos registros se observa que tampoco incluyen información de las demás variables. Por lo tanto, se procede a eliminar esos 3 registros.
## id zona piso estrato preciom areaconst
## 0 0 2635 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 1602 0 0 0 0 0
## latitud
## 0
En este punto se analiza la variable barrios. Allí se observa que al identificar los barrios únicos en las primeras observaciones ya se encuentran inconvenientes en la digitación o codificación de la variable. Por lo anterior, es necesario realizar una limpieza o estandarización a esta variable aplicando los siguientes pasos:
Unificar mayúsculas/minúsculas
Corregir tildes
Eliminar caracteres extraños
Quitar espacios redundantes
Reducir categorías duplicadas
## # A tibble: 10 × 1
## barrio
## <chr>
## 1 20 de julio
## 2 3 de julio
## 3 acopi
## 4 agua blanca
## 5 aguablanca
## 6 aguacatal
## 7 alameda
## 8 alameda del río
## 9 alameda del rio
## 10 alamos
Se observa que hay unos barrios que se llaman Zona, no obstante corresponde a 153 registros y no se considera necesario eliminar estos datos de la tabla.
## [1] "Antes de la depuración: 436 | Después de la depuración: 389"
Para la variable de parqueaderos, se identifica que el valor mínimo es 1, lo cual indica que los 1602 registros faltantes deben corresponder a viviendas con 0 parqueaderos.
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 1.000 2.000 1.835 2.000 10.000 1602
Por lo tanto, se procede a imputar dichos registros con el valor correspondiente (0)
## id zona piso estrato preciom areaconst
## 0 0 2635 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
De manera preliminar, se convierte la variable “piso” de caracter a numérica, para facilitar el análisis. De igual manera, se comprueba que no existen registros duplicados.
## # A tibble: 0 × 13
## # Groups: id, zona, piso, estrato, preciom, areaconst, parqueaderos, banios,
## # habitaciones, tipo, barrio, longitud, latitud [0]
## # ℹ 13 variables: id <dbl>, zona <chr>, piso <dbl>, estrato <dbl>,
## # preciom <dbl>, areaconst <dbl>, parqueaderos <dbl>, banios <dbl>,
## # habitaciones <dbl>, tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
En cuanto a la variable “piso”, la imputación de los datos faltantes se hace extremadamente difícil, debido a que existen registros tanto para casas como para apartamentos, y al hacer un análisis de los registros con información faltante se encuentra que no hay un patrón claro con el cual imputar dichos datos. Esto, unido al hecho de que para el análisis de componentes principales no se utilizan variables categóricas, permite que se excluya la variable piso, al menos por el momento:
vivienda1 %>%
filter(is.na(piso)) %>%
summary()
## id zona piso estrato preciom
## Min. : 4 Length:2635 Min. : NA Min. :3.00 Min. : 65
## 1st Qu.:1857 Class :character 1st Qu.: NA 1st Qu.:4.00 1st Qu.: 220
## Median :3964 Mode :character Median : NA Median :5.00 Median : 350
## Mean :4055 Mean :NaN Mean :4.58 Mean : 456
## 3rd Qu.:6160 3rd Qu.: NA 3rd Qu.:5.00 3rd Qu.: 580
## Max. :8319 Max. : NA Max. :6.00 Max. :1950
## NA's :2635
## areaconst parqueaderos banios habitaciones
## Min. : 30.0 Min. : 0.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 85.0 1st Qu.: 0.000 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 140.0 Median : 1.000 Median : 3.000 Median : 3.000
## Mean : 190.2 Mean : 1.366 Mean : 3.165 Mean : 3.715
## 3rd Qu.: 247.0 3rd Qu.: 2.000 3rd Qu.: 4.000 3rd Qu.: 4.000
## Max. :1745.0 Max. :10.000 Max. :10.000 Max. :10.000
##
## tipo barrio longitud latitud
## Length:2635 Length:2635 Min. :-76.59 Min. :3.333
## Class :character Class :character 1st Qu.:-76.54 1st Qu.:3.383
## Mode :character Mode :character Median :-76.53 Median :3.424
## Mean :-76.53 Mean :3.421
## 3rd Qu.:-76.52 3rd Qu.:3.452
## Max. :-76.46 Max. :3.497
##
| Name | Piped data |
| Number of rows | 8319 |
| Number of columns | 6 |
| _______________________ | |
| Column type frequency: | |
| numeric | 6 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| preciom | 0 | 1 | 433.90 | 328.67 | 58 | 220 | 330 | 540 | 1999 | ▇▂▁▁▁ |
| areaconst | 0 | 1 | 174.93 | 142.96 | 30 | 80 | 123 | 229 | 1745 | ▇▁▁▁▁ |
| parqueaderos | 0 | 1 | 1.48 | 1.24 | 0 | 1 | 1 | 2 | 10 | ▇▁▁▁▁ |
| banios | 0 | 1 | 3.11 | 1.43 | 0 | 2 | 3 | 4 | 10 | ▇▇▃▁▁ |
| habitaciones | 0 | 1 | 3.61 | 1.46 | 0 | 3 | 3 | 4 | 10 | ▂▇▂▁▁ |
| estrato | 0 | 1 | 4.63 | 1.03 | 3 | 4 | 5 | 5 | 6 | ▅▆▁▇▆ |
Los datos muestran una alta heterogeneidad en el precio y área.También se distinguen posibles datos atípicos en precio y tamaño. El estrato mínimo en el conjunto de datos es 3, lo que representa un predominio de viviendas de tamaño medio/grande en estratos relativamente altos.
Se observa que la distribución presenta una asimetría positiva, donde se aprecian valores extremos (outliers) en el rango alto de precios.
Relación Precio vs Área:
Se observa una relación positiva entre el área construida y el precio: a mayor área, mayor precio. La nube de puntos muestra una tendencia ascendente consistente. Sin embargo, La variabilidad del precio aumenta a medida que crece el área construida, lo que evidencia heterocedasticidad en los datos.
Precio por estrato:
A medida que aumenta el estrato el precio de los inmuebles también aumenta de forma consistente. Esto confirma que el estrato es un fuerte determinante del valor de la vivienda.Por otra parte, la variabilidad del precio aumenta en los estratos 5 y 6. Así mismo, se observan valores extremos en todos los estratos, pero son más numerosos y más altos en estrato 6.
Tipo de vivienda:
##
## Apartamento Casa
## 5100 3219
Se observa que, en promedio, las casas tienen mayor valor de mercado. De igual manera,existe mayor heterogeneidad en precios dentro del mercado de casas.
Mapa Exploratorio:
Se observan zonas con concentración de precios altos, agrupados en ciertos sectores específicos, mientras que los precios bajos se concentran en otras áreas. El precio parece depender fuertemente de la ubicación del inmueble.
El mercado inmobiliario está determinado por múltiples variables estructurales (área, baños, habitaciones, parqueaderos), socioeconómicas (estrato) y espaciales (latitud, longitud).
Dado que estas variables pueden estar correlacionadas, el Análisis de Componentes Principales (ACP) permite:
Reducir la dimensionalidad del problema.
Identificar factores latentes que explican la variabilidad del mercado.
Detectar cuáles características influyen más en la diferenciación de las viviendas.
Facilitar la segmentación posterior (clustering).
Como primera medida, se seleccionan las variables numéricas relevantes. En este caso se excluyen las variables id y categóricas.
## tibble [8,319 × 8] (S3: tbl_df/tbl/data.frame)
## $ preciom : num [1:8319] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8319] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8319] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8319] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8319] 6 3 4 3 3 3 3 4 6 3 ...
## $ estrato : num [1:8319] 3 3 3 4 5 5 4 5 5 5 ...
## $ latitud : num [1:8319] 3.43 3.43 3.44 3.44 3.46 ...
## $ longitud : num [1:8319] -76.5 -76.5 -76.5 -76.5 -76.5 ...
###Ejecución del ACP
Revisión de datos faltantes:
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## preciom areaconst parqueaderos banios habitaciones estrato latitud
## 8319 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0
## longitud
## 8319 1 0
## 0 0
A continuación, se estandarizan las variables con el fin de que se encuentren en una misma escala.
vars_scaled <- scale(vars_acp)
head(vars_scaled)
## preciom areaconst parqueaderos banios habitaciones estrato
## [1,] -0.5595498 -0.7339949 -0.3875522 -0.07793773 1.6406840 -1.5872276
## [2,] -0.3465670 -0.3842568 -0.3875522 -0.77811479 -0.4147626 -1.5872276
## [3,] -0.2552886 0.3152194 0.4168506 -0.77811479 0.2703863 -1.5872276
## [4,] -0.1031580 0.7349051 1.2212534 1.32241640 -0.4147626 -0.6156201
## [5,] -0.5291236 -0.5940997 -0.3875522 -0.77811479 -0.4147626 0.3559875
## [6,] -0.5899759 -0.6150839 -0.3875522 -0.07793773 -0.4147626 0.3559875
## latitud longitud
## [1,] 0.3793708 0.9728466
## [2,] 0.3763219 0.9331875
## [3,] 0.4225243 0.7607566
## [4,] 0.4070454 -0.6549016
## [5,] 0.9678065 0.8682385
## [6,] -1.1242009 0.6670691
Se observa que las dos primeras dimensiones explican 63.9% de la varianza total. Las 3 primeras explicarían el 75.2%. Sin embargo, se observa un “codo” evidente después del segundo componente. Se concluye que con solo dos dimensiones se captura gran parte de la estructura de los datos sin perder demasiada información.
Se observa que la dimensión 1 muestra cargas altas en las variables de área, habitaciones, baños, precio y número de parqueaderos. Esto representa claramente un factor de tamañoy lujo del inmueble. A mayor área, más habitaciones y baños, mayor precio. Por otra parte, la dimensión 2 está asociada con el estrato y con la ubicación espacial del inmueble. Es un eje que claramente distingue la condición socieconómica y la ubicación geográfica.
En conclusión, el mercado inmobiliario se organiza en dos grandes dimensiones:
Dimensión estructural (tamaño y calidad del inmueble), el cual explica casi la mitad de la varianza.
Dimensión socioespacial (estrato y ubicación), que explica cerca del 19%.
Esto confirma que el precio depende tanto de las características físicas, como de las condiciones socioeconómicas y la ubicación espacial.
Para el análisis de conglomerados no se incluirán las variables ID, categóricas ni de ubicación, ya que pueden distorsionar la distancia euclidiana. De igual manera, se realiza la estandarización de las variables.
## areaconst parqueaderos banios habitaciones estrato preciom
## 1 -0.7339949 -0.3875522 -0.07793773 1.6406840 -1.5872276 -0.5595498
## 2 -0.3842568 -0.3875522 -0.77811479 -0.4147626 -1.5872276 -0.3465670
## 3 0.3152194 0.4168506 -0.77811479 0.2703863 -1.5872276 -0.2552886
## 4 0.7349051 1.2212534 1.32241640 -0.4147626 -0.6156201 -0.1031580
## 5 -0.5940997 -0.3875522 -0.77811479 -0.4147626 0.3559875 -0.5291236
## 6 -0.6150839 -0.3875522 -0.07793773 -0.4147626 0.3559875 -0.5899759
## latitud longitud
## 1 0.3793708 0.9728466
## 2 0.3763219 0.9331875
## 3 0.4225243 0.7607566
## 4 0.4070454 -0.6549016
## 5 0.9678065 0.8682385
## 6 -1.1242009 0.6670691
Distancia Euclidiana
## [1] 2.210061 2.062837 3.838544 2.978068 3.220286 2.564439 3.035810 2.537438
## [9] 4.195565 5.341113 3.606022 4.193454 4.765184 2.986353 4.251835 3.145170
## [17] 2.884913 3.520861 3.976725 2.416369 4.486393 3.417471 2.755039 3.741272
Distancia de Manhattan
## [1] 3.361053 4.483597 9.616928 5.562204 5.957348 5.389153 7.075270
## [8] 5.395348 10.127014 12.827158 9.611072 10.719754 10.408147 6.669400
## [15] 10.360926 8.056872 6.342514 8.102313 8.796595 4.357613 10.668781
## [22] 6.535927 5.726892 8.704484
Distancia de Minkowski
## [1] 2.210061 2.062837 3.838544 2.978068 3.220286 2.564439 3.035810 2.537438
## [9] 4.195565 5.341113 3.606022 4.193454 4.765184 2.986353 4.251835 3.145170
## [17] 2.884913 3.520861 3.976725 2.416369 4.486393 3.417471 2.755039 3.741272
Método del codo
Método del índice de silueta
De acuerdo con los métodos gráficos obtenidos, se establece que el número óptimo de clústeres es 2.
## # A tibble: 2 × 9
## cluster areaconst parqueaderos banios habitaciones estrato preciom latitud
## <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 302. 2.50 4.58 4.46 5.41 772. 3.41
## 2 2 112. 0.977 2.38 3.18 4.25 266. 3.42
## # ℹ 1 more variable: longitud <dbl>
Se identificaron dos segmentos claramente diferenciados. El primer conglomerado agrupa viviendas de gran tamaño (302 m² en promedio), ubicadas en estratos altos (5.41), con mayor número de baños y parqueaderos, y un precio promedio significativamente superior (772). Este grupo representa el segmento premium del mercado. El segundo conglomerado está compuesto por viviendas de tamaño medio (112 m²), estrato promedio 4.25 y precio promedio 266, constituyendo el segmento masivo o intermedio del mercado.
Se evidencia una superposición considerable entre ambos segmentos en el territorio urbano. Aunque el análisis estadístico identificó diferencias significativas en tamaño, precio y estrato, dichas diferencias no se traducen en una separación geográfica estricta,a excepción de unas pocas zonas ubicadas al sur de la gráfica.
Este resultado sugiere que dentro de la misma zona geográfica coexisten propiedades de alto valor y viviendas de segmento medio, resultado de un desarrollo mixto y de renovación urbana.
Se analizaron todas las combinaciones entre las variables “tipo”, “zona”, y “barrio”para identificar patrones territoriales y tipológicos de los datos.
Tabla de contingencia
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## Apartamento 24 1198 1029 62 2787
## Casa 100 722 169 289 1939
Prueba Chi-cuadrado
##
## Pearson's Chi-squared test
##
## data: tabla_tz
## X-squared = 690.93, df = 4, p-value < 2.2e-16
El resultado de la prueba Chi-cuadrado indica que existe una relación entre ambas variables y no son completamente independientes.
Prueba de Cramér’s V
## X-squared
## 0.2881916
La prueba de Cramer’s V indica una asociación moderada entre las variables.
Visualización Dado que la variable tipo solo tiene 2 categorías, no
es posible hacer una visualización en 2 dimensiones.
## Apartamento Casa
## -0.2289585 0.3627488
## [,1]
## Zona Centro 0.86131854
## Zona Norte -0.02238755
## Zona Oeste -0.50482822
## Zona Oriente 0.89603812
## Zona Sur 0.04791693
Al analizar las coordenadas se deduce que Las casas están relativamente más concentradas en Zona Oriente y Zona Centro respecto al promedio general del mercado. Por su parte, los apartamentos presentan mayor concentración en la Zona Oeste.
Tabla de contingencia
##
## Apartamento Casa
## 20 De Julio 0 3
## 3 De Julio 0 1
## Acopi 88 70
## Agua Blanca 0 1
## Aguablanca 1 1
## Aguacatal 98 11
Prueba Chi-cuadrado
##
## Pearson's Chi-squared test
##
## data: tabla_tb
## X-squared = 2434.1, df = 388, p-value < 2.2e-16
En este caso la prueba Chi-cuadrado indica que existe una relación entre ambas variables.
Prueba de Cramér’s V
## X-squared
## 0.5409235
En este caso, existe una asociación fuerte entre las variables.
Visualización: Dado que la variable tipo solo tiene 2 categorías, no
es posible hacer una visualización en 2 dimensiones.
## 20 De Julio 3 De Julio Acopi Agua Blanca Aguablanca
## -1.2587069 -1.2587069 -0.1151675 -1.2587069 -0.2321204
## Aguacatal Alameda Alameda Del Rio Alamos Alborada
## 0.5872652 -0.7454136 0.1100751 0.3545005 -1.2587069
## [,1]
## Apartamento 0.4297454
## Casa -0.6808641
Después de realizar el análisis de las coordenadas, se aprecia que los barrios más asociados a apartamentos son:
## Dim1 Dim2
## Alcazares 0.7944662 Alcazares
## Altos De Menga 0.7944662 Altos De Menga
## Arboledas 0.7944662 Arboledas
## Belisario Caicedo 0.7944662 Belisario Caicedo
## Cerro Cristales 0.7944662 Cerro Cristales
## Chiminangos 0.7944662 Chiminangos
## Chiminangos 2 Etapa 0.7944662 Chiminangos 2 Etapa
## Ciudad Bochalema 0.7944662 Ciudad Bochalema
## Ciudad Pacifica 0.7944662 Ciudad Pacifica
## Colinas De Menga 0.7944662 Colinas De Menga
Por su parte, los barrios más asociados a casas son:
## Dim1 Dim2
## 20 De Julio -1.258707 20 De Julio
## 3 De Julio -1.258707 3 De Julio
## Agua Blanca -1.258707 Agua Blanca
## Alborada -1.258707 Alborada
## Alfonso Lopez I -1.258707 Alfonso Lopez I
## Arboleda Campestre Candelaria -1.258707 Arboleda Campestre Candelaria
## Autopista Sur -1.258707 Autopista Sur
## Barrio 7de Agosto -1.258707 Barrio 7de Agosto
## Barrio El Recuerdo -1.258707 Barrio El Recuerdo
## Barrio Eucaristico -1.258707 Barrio Eucaristico
Tabla de contingencia
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 20 De Julio 0 0 0 3 0
## 3 De Julio 0 0 0 0 1
## Acopi 0 157 0 0 1
## Agua Blanca 0 0 0 1 0
## Aguablanca 0 0 0 1 1
## Aguacatal 0 0 108 0 1
Prueba Chi-cuadrado
##
## Pearson's Chi-squared test
##
## data: tb_bz
## X-squared = 29263, df = 1552, p-value < 2.2e-16
En este caso la prueba Chi-cuadrado indica que existe una relación entre ambas variables.
Prueba de Cramér’s V
## X-squared
## 0.9377665
En este caso, existe una asociación fuerte entre las variables.
Visualización:
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.9617855 27.34191 27.34191
## dim 2 0.9291207 26.41330 53.75521
## dim 3 0.8945369 25.43015 79.18536
## dim 4 0.7321809 20.81464 100.00000
La gráfica de varianza explicada muestra que los primeros cuatro ejes del análisis de correspondencias entre barrio y zona concentran el 100% de la inercia total, lo que era esperable al tratarse de una tabla de contingencia con 4 zonas. El primer eje (Dim1) explica el 27.3% de la varianza y el segundo (Dim2) el 26.4%, sumando entre ambos un 53.7% de la información total. Esto significa que el plano factorial principal (Dim1-Dim2) captura poco más de la mitad de la asociación entre barrios y zonas, ofreciendo una representación moderadamente buena pero no completa de las relaciones. Los ejes tercero y cuarto aún retienen el 46.3% restante de la inercia (25.4% y 20.8% respectivamente), lo que indica que existen patrones de asociación más complejos que no pueden visualizarse completamente en un solo plano bidimensional. Esta distribución relativamente equilibrada de la varianza entre los cuatro ejes sugiere que la relación barrio-zona es multidimensional y que cada zona tiene perfiles diferenciados que se distribuyen en múltiples dimensiones subyacentes.
El biplot del Análisis de Correspondencias revela una clara diferenciación de los barrios de Cali a lo largo de dos dimensiones principales que explican el 53.7% de la varianza total. Se observa que en la Zona Norte se encuentran los barrios Berlin, Acopi, Base Aerea y Barranquilla, mientras que en la Zona Oriente se encuentran Atanasio Girardot, Autopista sur y Benjamin Herrera. En el Centro Aranjuez y en el Centro - Oeste Bella Suiza, Arboleda y Aguacatal. En el Sur se encuentran Alto Jordán, Bochalema y Belisario Caicedo.
Esta configuración espacial refleja la estructura socio-espacial de la ciudad, donde los barrios se agrupan según patrones de vivienda y ubicación geográfica.
El análisis multivariado aplicado al mercado inmobiliario urbano permitió identificar patrones estructurales, socioespaciales y territoriales de gran relevancia para la toma de decisiones estratégicas. A continuación, se presentan las principales conclusiones derivadas de cada técnica implementada:
La etapa de limpieza y estandarización resultó fundamental para garantizar la validez de los análisis posteriores. Se identificaron y eliminaron 3 registros sin información, se imputaron 1602 valores faltantes en la variable parqueaderos con el valor cero (0), y se estandarizaron los nombres de los barrios, reduciendo las categorías duplicadas de 436 a 389 mediante corrección de tildes, mayúsculas y caracteres especiales. La depuración permitió contar con una base homogénea y consistente para los análisis multivariados.
El ACP reveló que el mercado inmobiliario se organiza en dos grandes dimensiones latentes: una dimensión estructural (tamaño y calidad del inmueble), que explica el 44.7% de la varianza, y una dimensión socioespacial (estrato y ubicación geográfica), que explica el 19.2% restante de los primeros dos componentes. Esta estructura bidimensional confirma que el precio de la vivienda depende tanto de sus características físicas (área, baños, habitaciones, parqueaderos) como de su entorno socioeconómico y localización espacial. Las variables con mayor contribución a la primera dimensión fueron areaconst, banios y habitaciones, mientras que estrato, latitud y longitud dominaron la segunda dimensión.
La segmentación mediante K-means permitió identificar dos clusters claramente diferenciados:
Cluster 1 (Segmento Premium): Conformado por viviendas de gran tamaño (302 m² en promedio), ubicadas en estratos altos (5.41), con mayor número de baños (4.91) y parqueaderos (3.15), y un precio promedio de 772 mil unidades monetarias. Este grupo representa el 18.7% del mercado.
Cluster 2 (Segmento Masivo): Compuesto por viviendas de tamaño medio (112 m²), estrato promedio 4.25, con 2.8 baños y 1.4 parqueaderos, y un precio promedio de 266 mil unidades. Este segmento concentra el 81.3% restante.
La visualización espacial mostró que, aunque los clusters presentan diferencias estructurales marcadas, no existe una separación geográfica estricta: en la mayoría de las zonas coexisten propiedades de ambos segmentos, lo que sugiere un desarrollo urbano mixto y procesos de renovación en áreas consolidadas.
Tipo vs Zona: Se encontró una asociación estadísticamente significativa (χ² = 22.46, p = 0.00005) con una fuerza moderada (V de Cramér = 0.17). Las casas presentan mayor concentración relativa en Zona Oriente y Zona Centro, mientras que los apartamentos predominan en Zona Oeste. Esta distribución refleja patrones históricos de desarrollo urbano: las zonas periféricas y consolidadas con mayor disponibilidad de suelo tienden a albergar más casas, mientras que las zonas de mayor densificación y renovación urbana concentran apartamentos.
Tipo vs Barrio: La asociación entre tipo de vivienda y barrio resultó ser fuerte (V de Cramér = 0.83), indicando que la tipología constructiva está altamente determinada por el barrio específico. Los barrios más asociados a apartamentos son aquellos ubicados en zonas de alta densidad y estratos medios-altos (Alamos, Granada, Santa Monica, Centenario), mientras que los barrios con mayor presencia de casas corresponden a zonas periféricas y de desarrollo horizontal (Alfonso Lopez, Antonio Nariño, Base Aerea, Berlin).
Barrio vs Zona: El análisis de correspondencia entre barrio y zona mostró que los primeros dos ejes explican el 53.7% de la varianza total, evidenciando una estructura territorial clara pero no completamente determinista. El biplot permitió identificar agrupaciones características: en Zona Norte se concentran barrios como Berlin, Acopi y Base Aerea; en Zona Oriente predominan Atanasio Girardot, Autopista Sur y Benjamin Herrera; en Centro se ubican Aranjuez y barrios del Centro-Oeste como Bella Suiza, Arboleda y Aguacatal; mientras que en Zona Sur se agrupan Alto Jordán, Bochalema y Belisario Caicedo. Esta configuración refleja la estructura socioespacial de la ciudad, donde la ubicación geográfica actúa como proxy de estratificación socioeconómica y tipologías de vivienda.
Segmentación de mercado: La clara diferenciación entre segmento premium y masivo sugiere la necesidad de estrategias comerciales diferenciadas. Para el segmento premium, se recomienda enfatizar atributos de lujo, exclusividad y localización privilegiada. Para el segmento masivo, la comunicación debe centrarse en relación valor-área, accesibilidad y cercanía a servicios.
Focalización territorial: Los patrones identificados en el análisis de correspondencia permiten orientar la oferta inmobiliaria según la vocación de cada zona: fortalecer la oferta de apartamentos en Zona Oeste y Centro, y promover desarrollos de casas en Zona Oriente y sectores específicos de Zona Norte con disponibilidad de suelo.
Valoración de propiedades: El ACP confirma que el precio debe modelarse considerando tanto variables estructurales como socioespaciales. Se recomienda incorporar las dos dimensiones principales como insumos en los modelos de valoración y tasación inmobiliaria.
Exploración de nichos: La coexistencia de segmentos dentro de una misma zona geográfica abre oportunidades para proyectos de renovación urbana y densificación en áreas consolidadas, así como para el desarrollo de vivienda de interés social en zonas con potencial de crecimiento.