Introducción

El mercado inmobiliario en Cali, Colombia, es un sector dinámico y en constante evolución, influenciado por diversos factores económicos, sociales y demográficos. Como una de las ciudades más importantes del país, Cali presenta una amplia oferta de propiedades residenciales que varían en términos de ubicación, tipo de vivienda, precio y características. Este mercado es de particular interés para empresas inmobiliarias que buscan maximizar sus inversiones y ofrecer productos adecuados a las necesidades de los consumidores.

Entender las complejidades del mercado inmobiliario urbano en Cali es esencial para tomar decisiones estratégicas informadas. Las herramientas de análisis estadístico juegan un papel crucial en este proceso al permitir una comprensión profunda de los datos disponibles. Entre estas herramientas, el Análisis de Componentes Principales (PCA), el Análisis de Conglomerados y el Análisis de Correspondencia destacan por su capacidad para revelar patrones, relaciones y segmentaciones en el mercado inmobiliario.

El uso de estas herramientas de análisis estadístico proporciona ventajas competitivas significativas en el mercado inmobiliario. El PCA facilita la identificación de factores clave que afectan los precios y la oferta, mientras que el Análisis de Conglomerados permite una segmentación precisa del mercado. Por su parte, el Análisis de Correspondencia ayuda a desentrañar las relaciones complejas entre diferentes variables categóricas.

En conjunto, estos métodos permiten a las empresas inmobiliarias optimizar sus decisiones de compra, venta y valoración de propiedades. Al aprovechar estas técnicas, las empresas pueden diseñar estrategias más informadas y efectivas, adaptándose mejor a las tendencias del mercado y maximizando sus beneficios en un entorno competitivo y en constante cambio.

Datos y preparación

Para la exploración del mercado inmobiliario de la ciudad se uso el conjunto de datos vivienda , que contiene 8319 registros validos de inmuebles con sus respectivas características. La carga y preparación de los datos se realizo de la siguiente forma:

library(paqueteMODELOS)
data(vivienda)
df=vivienda
df = df[-8320:-8322,] ## Limpiar registros con todos los datos faltantes

# Sistematizacion de los barrios
limpiar_barrios <- function(nombres) {
  nombres <- tolower(trimws(iconv(nombres, from = "UTF-8", to = "ASCII//TRANSLIT")))
  nombres <- gsub("[_ ]", "", nombres)
  return(nombres)
}
df$barrio <- limpiar_barrios(df$barrio)

######imputacion
library(mice)
md.pattern(df, rotate.names = TRUE)

##      id zona estrato preciom areaconst banios habitaciones tipo barrio longitud
## 4808  1    1       1       1         1      1            1    1      1        1
## 1909  1    1       1       1         1      1            1    1      1        1
## 876   1    1       1       1         1      1            1    1      1        1
## 726   1    1       1       1         1      1            1    1      1        1
##       0    0       0       0         0      0            0    0      0        0
##      latitud parqueaderos piso     
## 4808       1            1    1    0
## 1909       1            1    0    1
## 876        1            0    1    1
## 726        1            0    0    2
##            0         1602 2635 4237

Los problemas con los valores faltantes en las variables que reflejan el número de piso y el número de parqueaderos del inmueble fueron tratados con un modelo de imputación de la librería mice.

Descripcion de los datos - Análisis exploratorio

El conjunto de datos vivienda utilizado en este análisis contiene al menos diez variables importantes para entender la oferta inmobiliaria en la ciudad. Entre las variables numéricas, tenemos el piso, donde se distingue entre número de pisos que tenga el inmueble cuando se trata de una casa o el número de piso en que esta ubicado en el caso de los apartamentos. El precio en millones es una de las variables mas importantes para entender la oferta, junto con el área construida total en metros cuadrados. Finalmente, el conjunto de datos contiene otras variables numéricas que describen la composición de los inmuebles como el numero de baños, habitaciones y parqueaderos.

La tendencia observada en la variable de área construida indica que la mayor parte de las viviendas son pequeñas en comparación con todo el rango de la variable, con un mínimo de 30, una mediana de 123 y un máximo de 1745 metros cuadrados. El precio muestra un comportamiento similar con un promedio para todo Cali de 433.9 millones de pesos por inmueble con un rango desde los 58 hasta los 1999 millones de pesos.

Las variables categóricas presentes en el conjunto de datos son cuatro, la zona en la que esta ubicado el inmueble, el estrato asociado a ese inmueble, el tipo (casa o apartamento) y finalmente el barrio en el que esta ubicado. Este ultimo presenta una variedad bastante grande por lo cual será excluido de los análisis posteriores.

Las métricas de interés para el conjunto de datos se resumen en la siguiente tabla.

variable mean median sd min max n mode count unique
piso 3.6631806707537 3 2.55213096726766 1 12 8319 NA NA NA
preciom 433.904435629282 330 328.665024558678 58 1999 8319 NA NA NA
areaconst 174.934938093521 123 142.964126013327 30 1745 8319 NA NA NA
parqueaderos 1.75622069960332 1 1.08552386230697 1 10 8319 NA NA NA
banios 3.11131145570381 3 1.42821016454391 0 10 8319 NA NA NA
habitaciones 3.60536122130064 3 1.45953683154172 0 10 8319 NA NA NA
zona NA NA NA NA NA NA Zona Sur 8319 5
estrato NA NA NA NA NA NA 5 8319 4
tipo NA NA NA NA NA NA Apartamento 8319 2

El comportamiento observado en las gráficas confirma las tendencias identificadas en las variables, describiendo así la vivienda promedio como un apartamento de estrato 5, ubicado en la zona sur de la ciudad, en un tercer piso. Este apartamento cuenta con un área construida de 123 metros cuadrados, distribuidos en 3 habitaciones, 3 baños y 1 parqueadero.

Composición de la oferta inmobiliaria

Análisis de componentes principales

Resumir las variables numéricas en componentes principales y mostrarlas en un plano permite entender cuál es el aporte de cada una en la variación total. En el caso de el conjunto de datos analizados, los dos primeros componentes explican cerca del 72.9% de la variación total contenida en las variables numéricas.

El gráfico generado para los dos primeros componentes principales muestra que el precio es una de las mayores fuentes de variación en los datos, indicando una oferta de precios diversa en el mercado inmobiliario de la ciudad. Después del precio, el área construida y el número de baños también contribuyen significativamente a la variación total. La variable piso es especialmente relevante en el segundo componente, capturando variaciones que no pueden ser explicadas principalmente por las otras variables mencionadas, como el precio y el área construida, que destacan más en el primer componente.

Las variables parqueaderos y habitaciones parecen tener una menor contribución relativa. Sin embargo, la escala de contribución en este análisis es bastante estrecha (entre 14 y 18), lo que indica que incluso estas variables, que aparentemente aportan menos, están capturando información relevante sobre la variación en los datos.El numero de habitaciones parece aportar equitativamente en ambos componentes, lo cual podria indicar que es un buen punto de comparación para entender esas dos fuentes de variacion identificadas.

Impacto en la toma de decisiones Estos resultados destacan claramente las variables numéricas más relevantes para comprender la oferta inmobiliaria. Al momento de adquirir una propiedad, los compradores potenciales se enfrentan a una amplia variedad de opciones con diferentes características. En particular, la relación entre el área construida y el número de baños parece ser un factor clave en la decisión de compra. Comprender qué configuraciones de área construida y número de baños son más atractivas para los clientes podría ofrecer una ventaja competitiva en este mercado. Adicionalmente el precio sigue siendo la variable mas importante y ante la gran variación que existe puede llegar a ser complejo identificar el punto exacto que se maximizan los beneficios, por lo cual es mejor apoyarse en otras estrategias como la segmentación (clusterización) o el análisis conjunto con las variables numéricas y categóricas.

Segmentación del mercado (Clustering / Conglomerados)

El agrupamiento de datos en base a la similaridad de los registros nos permite descubrir potenciales grupos o en este caso particular, nichos de mercado, para posteriormente separarlos y estudiar de forma independiente que tipo de característica tiene este grupo o nicho de mercado y cómo podríamos incursionar en el mismo.

Para identificar los grupos vamos a usar la aproximación k-means para hacer un clustering no jerárquico. El numero optimo de clusters fue estimado en 2, usando la librería NBclust de R (Anexo 2). La presencia de dos grupos en el conjunto de datos indica que hay dos mercados potenciales que dominan toda la oferta de la ciudad.

library(tidyverse)
library(dplyr)
library(cluster)
df_pca = df[, c('piso','preciom', 'areaconst','parqueaderos', 'banios','habitaciones')]
df_pca=as.data.frame(scale(df_pca))
set.seed(123)  #
kmeans_result <- kmeans(df_pca, centers = 2, nstart = 25)
cluster_assigments <- kmeans_result$cluster
assigned_cluster <- df_pca %>% mutate(cluster = as.factor(cluster_assigments))


fviz_cluster(kmeans_result, data = df_pca, 
             geom = "point", main = "Clusters definidos para el conjunto de datos",
             ellipse.type = "convex", 
             ggtheme = theme_minimal())

Las variables dentro del conjunto de datos indican de forma general que la separación que se está dando esta relacionada con las variables que más reportaban variación en el análisis de componente principales, por lo que la mayor diferencia entre grupos se encuentre en variables como el precio, el área construida, el número de baños y de parqueaderos.

Las graficas muestran que el cluster uno incluye viviendas con precios y areas construidas menores, lo cual por supuesto tambien se traduce en un número de parqueaderos y baños menor para el cluster uno. Los inmuebles del cluster dos agrupan a las viviendas mas costosas y grandes, usualemnte con mayor numero de baños y parqueaderos, incluso habitaciones.

Resumen - Grupo 1

variable mean median sd min max n mode count unique
piso 3.9453717754173 3 2.649773303334 1 12 5931 NA NA NA
preciom 290.211094250548 265 144.958077157572 58 1500 5931 NA NA NA
areaconst 111.561861406171 94 58.3606655341901 30 624 5931 NA NA NA
parqueaderos 1.3367054459619 1 0.500690791679384 1 4 5931 NA NA NA
banios 2.45253751475299 2 0.856813709005518 0 5 5931 NA NA NA
habitaciones 3.0912156466026 3 0.900969342627972 0 9 5931 NA NA NA
zona NA NA NA NA NA NA Zona Sur 5931 5
estrato NA NA NA NA NA NA 5 5931 4
tipo NA NA NA NA NA NA Apartamento 5931 2

En este grupo, predominan los apartamentos de estrato 5, que se caracterizan por tener precios más bajos y un área construida menor en comparación con el segundo grupo. El número de baños, parqueaderos, y habitaciones es, en promedio, más reducido que en las viviendas del grupo dos, como se mencionó anteriormente. Este grupo, que incluye la mayoría de las viviendas en el conjunto de datos (5931), principalmente apartamentos, podría ser relevante para estudiar el mercado de apartamentos y casas pequeñas a precios asequibles, probablemente dirigido a un público objetivo de personas solteras o parejas sin hijos que no requieren mucho espacio.

Resumen - Grupo 2

variable mean median sd min max n mode count unique
piso 2.96231155778894 2 2.13658145804325 1 12 2388 NA NA NA
preciom 790.791038525963 700 381.436190109638 150 1999 2388 NA NA NA
areaconst 332.332642378559 300 167.326868185252 50 1745 2388 NA NA NA
parqueaderos 2.79815745393635 2 1.40002871069928 1 10 2388 NA NA NA
banios 4.74748743718593 5 1.23602111144767 0 10 2388 NA NA NA
habitaciones 4.8823283082077 4 1.76593638543083 0 10 2388 NA NA NA
zona NA NA NA NA NA NA Zona Sur 2388 5
estrato NA NA NA NA NA NA 6 2388 4
tipo NA NA NA NA NA NA Casa 2388 2

En el grupo dos, las casas son el tipo de inmueble más común, y el estrato predominante es el 6. Tanto el precio como el área construida promedio son significativamente más altos en comparación con el primer grupo (más del doble), y la composición de las viviendas es coherente con esta diferencia, con un mayor número promedio de baños, parqueaderos y habitaciones. Este grupo de viviendas está orientado a un segmento de clientes con mayor poder adquisitivo, que además buscan y necesitan más espacio. La distribución del área construida entre baños, parqueaderos y habitaciones es mucho más variable en comparación con el grupo uno, por lo que es necesario identificar qué tipo de configuración es la más atractiva para los compradores.

Análisis de correspondencia

El gráfico muestra la relación entre las categorías de las variables zona, estrato, y tipo de vivienda. En el análisis de correspondencias múltiples, las categorías que están más cercanas en el gráfico tienden a estar asociadas, mientras que las que están más alejadas muestran menor asociación.

Relación entre Zonas y Estratos:

Las Zonas Sur y Norte están relativamente cercanas a los estratos 4 y 5. Esto sugiere que es común encontrar inmuebles en estas zonas que tengan dicho estrato. La Zona Centro y la Zona Oriente están más relacionadas con las viviendas de estrato 3, lo que indica que estas áreas son más representativas de este estrato. La Zona Oeste está más cercana al estrato 6, lo que sugiere que las viviendas de estrato 6 son más comunes en esta zona en comparación con las otras zonas.

Relación entre Zonas y Tipos de Vivienda:

Los Apartamentos están más cercanos a las Zonas Sur y Oeste, lo que indica una tendencia a encontrar más apartamentos en estas zonas. Por otro lado, las Casas están más relacionadas con las Zonas Norte, Centro, y Oriente, lo que sugiere que en estas zonas este tipo de vivienda es mas comun que en otras zonas.

Aunque hay una tendencia a asociar tipos de vivienda con ciertas zonas, como las casas con las zonas Norte, Centro, y Oriente, y los apartamentos con las zonas Sur y Oeste, estas relaciones no son extremadamente fuertes debido a la cercanía de todas las categorías en el gráfico. Esto indica que, aunque hay una cierta preferencia, no es una diferenciación estricta.Ademas, existe cierto desbalance entre el numero de viviendas disponibles por cada zona, lo cual le da mas peso a aquellos con un mayor numero de viviendas en oferta. Las tendencias observadas para el conjunto de datos global, se mantienen incluso cuando se usan los clusters para hacer el analisis de correspondencia, indicando que las varaibles categoricas y sus asociaciones son las mismas entre clusters

Conclusiones

El análisis realizado sobre el conjunto de datos para explorar las características de la oferta inmobiliaria en Cali se centró en identificar las variables más importantes en función de su variación, ya que esto se relaciona directamente con las opciones disponibles para los clientes al escoger su vivienda. Las variables clave en las que la empresa debería enfocarse son el precio del inmueble, el área construida y su relación óptima con el número de baños y parqueaderos.

Además, se identificaron dos grupos importantes dentro de la oferta. El primero está compuesto principalmente por apartamentos o casas pequeñas de bajo precio, mientras que el segundo incluye casas o apartamentos más grandes con valores significativamente más altos. Estos dos grupos están dirigidos a diferentes segmentos de la población, por lo que la empresa debe decidir, en función de su clientela, si es conveniente estudiar un grupo en particular o cubrir los vacíos que existen en la oferta de la ciudad según la demanda conocida por sus clientes.

Por último, la relación entre estrato, zonas y tipo de vivienda parece mantenerse constante incluso en los grupos segmentados, lo cual es coherente con lo esperado: las zonas más residenciales tienden a estar asociadas a estratos más altos y a viviendas del tipo apartamento. Es importante explorar el impacto del desbalance observado entre las diferentes zonas, ya que el conjunto de datos de oferta utilizado en este análisis contiene una gran cantidad de registros de la zona sur, lo que podría estar afectando la interpretación de algunos resultados. Este desbalance, por sí solo, podría ser un indicador de que el mercado inmobiliario en una zona particular está saturado o, por el contrario, poco desarrollado.

Anexos

Imputación con mice

#df_imputacion = df[, c('zona','piso','estrato','preciom', 'areaconst','parqueaderos', 'banios','habitaciones','tipo','barrio')]
#df_imputacion$zona <- as.factor(df_imputacion$zona)
#df_imputacion$zona <- as.numeric(df_imputacion$zona)
#df_imputacion$tipo <- as.factor(df_imputacion$tipo)
#df_imputacion$tipo <- as.numeric(df_imputacion$tipo)
#df_imputacion$barrio <- as.factor(df_imputacion$barrio)
#df_imputacion$barrio <- as.numeric(df_imputacion$barrio)
#df_imputacion$piso <- as.numeric(df_imputacion$piso)
#Modelo de imputación 
#Imputados <- mice(df_imputacion, method = 'pmm', m = 20, maxit = 50, seed = 500)
#df_imputacion <- complete(Imputados)

Estimación del número optimo de clusters usando múltiples indicadores

######=== Estimar el número optimo de clusters
#library(NbClust)
#set.seed(123)
#nbclust_result <- NbClust(data = df_pca, 
#                          distance = "euclidean", 
#                          min.nc = 2, 
#                          max.nc = 10, 
#                          method = "kmeans")
#nbclust_result$Best.nc
#nbclust_result$All.index