Introducción

El mercado inmobiliario en Cali ha experimentado diversos cambios en los últimos años, reflejando tanto oportunidades como desafíos para los actores del sector. En 2022, las ventas en el sector alcanzaron los 6700 mil millones de pesos, impulsadas por un crecimiento continuo en áreas clave de la ciudad. Sin embargo, en 2023, aunque el mercado mostró una leve contracción con ventas de 6100 mil millones de pesos, se mantuvo una actividad robusta, lo que destaca la resiliencia del sector ante las fluctuaciones económicas locales y globales.

Este informe tiene como objetivo proporcionar un análisis estadístico integral del mercado inmobiliario en Cali, abordando aspectos como precios de viviendas, costos por metro cuadrado, distribución de estratos y tipos de propiedades. Para ello, se han aplicado diversas técnicas de análisis de datos que permiten identificar tendencias y patrones clave, facilitando la toma de decisiones estratégicas por parte de las inmobiliarias. Se aplica aprte de los análisis descriptivos,un Análisis de Componentes Principales (PCA) que permite identificar las variables que tienen un mayor impacto en la diferenciación de los inmuebles; un Análisis de Correspondencias Múltiples (MCA) que permite explorar la relación entre los diferentes tipos de vivienda y su distribución en las distintas zonas de la ciudad y un Análisis de Conglomerados (Clustering) empleado para segmentar el mercado inmobiliario, agrupando las propiedades en función de sus características compartidas

A partir de estos análisis, las inmobiliarias podrán tomar decisiones estratégicas fundamentadas en datos para definir su nicho de mercado, optimizar sus estrategias de marketing, establecer precios de venta competitivos y ofrecer servicios personalizados a sus clientes. La integración de estas herramientas analíticas permitirá a la empresa maximizar sus oportunidades de inversión y mejorar su posicionamiento en el mercado inmobiliario de Cali.

Análisis descriptivo

Tratamiento de datos antes del análisis

Durante el proceso de limpieza de la base de datos, se implementaron varias medidas para asegurar la integridad y calidad de los datos. En primer lugar, se identificaron los valores faltantes en las diferentes variables (la base de datos contenía variables de tipo ordinal, nominal, de razón y de intervalo) calculando el porcentaje de datos perdidos, en el siguiente gráfico de barras, se puede visualizar que las dos variables con mayores datos perdidos son Parqueadero (Varible de razón) con 19.3% y Piso con 31,7%. A su vez, se procedió a eliminar filas con datos incompletos que contenían exclusivamente valores NA en todos sus campos, esto ayudó a reducir el ruido en los datos y a concentrar el análisis en registros con información relevante.

Posteriormente, se aplicaron técnicas de imputación para rellenar los valores faltantes. En el caso de la variable parqueadero, los valores fueron imputados con 0, bajo la suposición de que la falta de información indicaba la ausencia de un parqueadero, es posible que la pregunta relacionada con esta variable no haya sido suficientemente clara para los usuarios, lo que resultó en una alta tasa de datos perdidos. Por otro lado, para la variable piso (Variable de razón), se utilizó la mediana según el tipo de vivienda para imputar los valores faltantes. Respecto a los valores atípicos, no se eliminaron ya que proporcionan información relevante para los análisis presentados a continuación, pero si se trataron con cuidado para el cálculo de indicadores con el fin de no sesgaran los resultados.

Frecuencia de los tipos de vivienda por zona

Los apartamentos parecen ser más comunes en todas las zonas (Variable nominal) especialmente en la zona Sur y Norte, lo que sugiere una tendencia hacia la vida en apartamentos, posiblemente por razones de costo, conveniencia o disponibilidad de servicios en estas áreas. La zona Sur destaca con la mayor cantidad de viviendas, tanto de apartamentos como casas, hay 2,787 apartamentos y 1,939 casas, esto indica una alta densidad de desarrollos inmobiliarios en esta zona probablemente debido a su expansión reciente y su atractivo para nuevos residentes. La zona Norte también presenta un número considerable de viviendas, con 1,198 apartamentos y 722 casas por lo que esta es otra área de gran demanda inmobiliaria. Las zonas Centro y Oriente muestran una menor cantidad de viviendas en comparación con las zonas Sur y Norte. En el Centro, hay 100 apartamentos y 24 casas, mientras que en Oriente hay 289 casas y 62 apartamentos, lo anterior podría deberse a limitaciones de espacio o a un enfoque en otro tipo de desarrollos en estas áreas, como comerciales o institucionales.

Frecuencia de los tipos de vivienda por zona

Frecuencia de los tipos de vivienda por zona

Barrios más frecuentes por estrato y distribución de Precios de Viviendas por Zona

En particular, se observa que los barrios (Variable nominal) con más viviendas pertenecen a los estratos 4, 5 y 6, que representan las zonas de mayor poder adquisitivo. Barrios como Valle del Lili y Ciudad Jardín destacan significativamente en estratos 4 y 6; barrios como Salomia y Meléndez están representados en el estrato 3. No se reportaron viviendas en estratos 1 y 2 o no estratificadas.

Las zonas Sur y Norte tienen una mayor dispersión en los precios con varias propiedades que alcanzan valores significativamente altos, este fenómeno se puede dar debido a la variedad de tamaños de dichas viviendas, por lo que si un posible comprador desea conseguir viviendas de gran tamaño, allí sería un buen lugar. Por otro lado, las zonas Centro y Oriente presentan una distribución más concentrada y con precios más bajos, lo que indica que se podrían sugerir a compradores con menos poder adquisitivo.

Distribución del Costo por Metro Cuadrado por Zona

La siguiente gráfica del costo por metro cuadrado por zona (Variable de intervalo) y la tabla correspondiente que omite los valores atípicos muestra que las zonas Norte, Oeste y Sur presentan una mayor variabilidad en el costo por metro cuadrado, con varios valores que se consideran outliers, especialmente en la Zona Oeste, donde los costos pueden llegar hasta los 8 millones de pesos por metro cuadrado, esto indica que estas zonas incluyen propiedades de mayor valor que pueden ser atractivas para clientes que buscan exclusividad y acabados costoso. Por otro lado, la tabla presenta el costo promedio por metro cuadrado para cada zona, excluyendo los valores atípicos, lo que ofrece una visión más representativa del mercado general en cada área. Se observa que la Zona Oeste tiene el costo promedio más alto (3.61 millones/m²), lo que la posiciona como una de las zonas más caras de la ciudad. La Zona Oriente, en contraste, tiene el costo promedio más bajo (1.37 millones/m²), lo que podría indicar una oportunidad para atraer a compradores que buscan propiedades más accesibles.

Relación entre precio y área construida

Los apartamentos tienden a concentrarse en áreas construidas más pequeñas (generalmente por debajo de los 500 m²) y en precios más bajos (mayoría por debajo de los 1000 millones de pesos) por lo que los apartamentos son una opción más económica, ideal para clientes que buscan viviendas de menor tamaño o que tienen un presupuesto limitado. Las casas muestran una mayor dispersión tanto en el área construida como en el precio. Esto indica que las casas varían significativamente en tamaño y valor, con algunas propiedades de gran tamaño que superan los 1500 m² y tienen precios que pueden superar los 2000 millones de pesos. Estas propiedades probablemente están ubicadas en zonas más exclusivas o son de mayor lujo. Existe una correlación positiva, aunque no estricta, entre el área construida y el precio. Sin embargo, es evidente que el precio no solo depende del tamaño, sino también de otros factores como la ubicación, el estrato, y las características adicionales de la vivienda (e.g., acabados, amenities).

Ubicación geografica por precios

El mapa de calor sobre el mapa geográfico de Cali, Colombia, muestra la distribución del precio por metro cuadrado de las propiedades en distintas zonas de la ciudad. Las áreas con mayor intensidad de color rojo representan los precios más altos, concentrándose principalmente en el centro del mapa. Estas zonas de alto valor se encuentran alrededor de puntos clave como centros comerciales (e.g., Chipichape, Unicentro) y otras áreas comerciales importantes, lo que sugiere una alta demanda inmobiliaria en estas ubicaciones. Por el contrario, las áreas con menor intensidad de color (amarillo) indican zonas con precios más bajos, lo que puede reflejar barrios residenciales más accesibles o áreas emergentes con potencial de crecimiento.

Análisis de las otras variables

Número de habitaciones y baños por tipo de vivienda

En la siguiente figura, se puede evidenciar que la mayoría de los apartamentos tienen 3 habitaciones, lo cual podría ser indicativo de un estándar en el diseño de estos inmuebles. En el caso de las casas, aunque también predominan las de 3 habitaciones, hay una mayor diversidad en el número de habitaciones, con casas que llegan a tener hasta 10 habitaciones. Este patrón sugiere que las casas tienden a ofrecer más flexibilidad en cuanto a espacio, lo cual podría ser un factor decisivo para familias más grandes o para quienes buscan mayor amplitud en su hogar. Además, se observa que tanto en apartamentos como en casas, la mayoría de las propiedades tienen 2 baños. Sin embargo, las casas muestran una mayor dispersión, con algunas propiedades que ofrecen hasta 10 baños. En contraste, los apartamentos, aunque muestran una variabilidad menor, aún ofrecen un rango de opciones que podría satisfacer diferentes necesidades, limitadas por el espacio disponible.

Número de pisos y parqueaderos por tipo de vivienda

La mayoría de los apartamentos se concentran en un solo piso, lo cual es coherente con su naturaleza de ser unidades dentro de un edificio de varios niveles. Por otro lado, las casas muestran una distribución más diversa con la presencia significativa de viviendas de 2 o más pisos. Respecto al parqueadero, los apartamentos tienen uno o ningún parqueadero, lo cual es típico en proyectos de vivienda vertical en áreas urbanas donde el parquedero es una adquisición adicional, en contraste, las casas muestran una mayor variabilidad, con varias propiedades ofreciendo hasta 2 o más parqueaderos.

Análisis de componentes principales (PCA)

En la presente sección vamos a realizar un Análisis de componentes principales (PCA). El gráfico de sedimentación que se muestra a continuación muestra la varianza explicada por cada componente principal, en este caso, el primer componente principal (PC1) explica el 46.6% de la varianza, seguido del segundo componente (PC2) con un 18.1% y el tercero con 12.1%. Después del tercer componente, la varianza explicada disminuye significativamente, lo que indica que los tres primeros componentes capturan aproximadamente el 76.8% de la información total, por lo que podríamos reducir la dimensionalidad de los datos a tres componentes sin perder demasiada información.

En apoyo al anterior gráfico, el gráfico de contribución de variables en el PCA nos permite identificar qué variables tienen un mayor peso en la construcción de los componentes principales. Se observa que precio, parqueaderos, baños y área construida tienen una fuerte influencia en el primer componente principal (PC1), lo que sugiere que este eje está dominado por características estructurales y económicas de las viviendas. Por otro lado, latitud y longitud tienen un mayor peso en el segundo componente (PC2), lo que indica que este eje captura principalmente la variabilidad geográfica de los datos.

Análisis de conglomerados

Respecto al análisis de conglomerados, en la primera gráfica que presenta el método del codo, se observa una disminución rápida de la suma de cuadrados intra-cluster hasta aproximadamente k = 4, donde la reducción comienza a ser menos pronunciada, lo que indica que este es un punto adecuado para definir los clusters. Por otro lado, también se aplicó el método de la silueta el cuál sugiere k = 2 como la mejor opción, ya que el ancho promedio de la silueta es máximo en ese punto, lo que indica una mayor cohesión y separación de los clusters. Sin embargo, dado que los datos pueden presentar complejidad estructural, se opta por k = 4 basado en el método del codo, complementado por la interpretación del método de la silueta.

El segundo gráfico el cuál ayuda a visualizar cómo las dimensiones principales del conjunto de datos capturan la estructura de los clusters, muestra la distribución de las observaciones en el espacio de los dos primeros componentes principales, con cada color y forma representando un cluster. Se observa que los clusters tienen cierta separación, lo que indica que la agrupación es efectiva. Sin embargo, hay cierta superposición entre los clusters, así que algunas variables pueden no estar completamente diferenciadas en estos ejes principales.

El último gráfico representa la distribución geográfica de los clusters en función de la latitud y la longitud. Se observa que los clusters están espacialmente diferenciados, lo que sugiere que la ubicación geográfica es un factor relevante en la segmentación de los datos, esto indica que las características de las viviendas pueden estar fuertemente influenciadas por la ubicación. Si bien hay cierta dispersión dentro de cada cluster, la estructura general indica que el modelo de clustering ha capturado patrones espaciales significativos.

Análisis de correspondencias

Al aplicar un análisis de correspondencias, el primer gráfico que se presenta a continuación muestra la contribución de las variables en el análisis de correspondencias. Se observa que las zonas geográficas (Oriente, Centro, Norte, Sur, Oeste) y el tipo de propiedad (Casa, Apartamento) están representadas en los dos primeros ejes principales. La escala de colores indica la contribución relativa de cada categoría, donde las zonas Oeste y Oriente tienen una mayor contribución en la primera dimensión (Dim1), mientras que la Zona Sur y el número 5 están más influenciados por la segunda dimensión (Dim2). El segundo gráfico muestra la calidad de representación de cada individuo en el análisis de correspondencias, utilizando el coseno cuadrado (Cos2) como métrica de calidad. Los colores indican qué individuos están mejor representados en los dos primeros componentes, donde valores más altos (rojo) indican una mejor representación.

Conclusiones

El análisis realizado sugiere que la empresa inmobiliaria podría capitalizar en las oportunidades de negocio presentes en la zona Sur y Norte, donde se observa un alto número de viviendas de tipo apartamento, este puede tener un mercado con una demanda significativa, especialmente para desarrollos de vivienda que se ajusten a compradores que buscan accesibilidad y funcionalidad. Además, la zona Oeste muestra un mercado robusto, lo que podría ser ventajoso para la promoción de propiedades de lujo, dado que tiene un mayor costo por metro cuadrado; en contraste, las zonas Centro y Oriente, aunque tienen menos viviendas y el costo por metro cuadrado es bajo, podrían representar nichos de mercado atractivos para desarrollos inmobiliarios específicos o inversiones a largo plazo.

El Análisis de Componentes Principales (PCA) ha permitido reducir la dimensionalidad del conjunto de datos, mostrando que factores como el precio, el número de parqueaderos, baños y el área construida son las principales características que diferencian los tipos de viviendas; además, la información espacial (latitud y longitud) ha demostrado ser un eje importante en la segmentación del mercado. Estos hallazgos indican que las decisiones de precio y diseño de las viviendas deben considerar tanto los atributos estructurales como la ubicación, ya que estos elementos son clave en la diferenciación de las propiedades.

Por otro lado, el Análisis de Correspondencias Múltiples (MCA) concluye que las zonas geográficas y los tipos de vivienda están fuertemente relacionados, lo que implica que ciertas tipologías de inmuebles predominan en áreas específicas. Por ejemplo, los apartamentos son más comunes en la zona Sur y Norte, mientras que las casas tienen una mayor representación en la zona Centro y Oriente. Dicho hallazgo permite a la empresa ajustar su oferta y estrategias de marketing para atraer a un público más amplio o satisfacer necesidades específicas. En barrios como Valle del Lili y Ciudad Jardín, las inmobiliarias podrían enfocar sus esfuerzos en comercializar propiedades de lujo, resaltando las comodidades y la exclusividad de la zona. En cambio, en áreas como Salomia y Meléndez, la estrategia podría centrarse en destacar la accesibilidad y las opciones de financiamiento, lo que podría ser más atractivo para compradores con un poder adquisitivo medio.

Desde el punto de vista del Análisis de Clustering, se han identificado cuatro grupos principales de propiedades con características similares, lo que permite segmentar mejor la oferta de vivienda. Se observa que hay clusters con precios elevados y mayor área construida, lo que refuerza la idea de que existe un mercado diferenciado entre propiedades de lujo y opciones más accesibles; asimismo, la distribución geográfica de los clusters confirma que la ubicación es un factor determinante en la clasificación de las propiedades, por lo que la inmobiliaria debería desarrollar estrategias diferenciadas de marketing y fijación de precios para cada segmento de clientes.

Finalmente, la variabilidad observada en los precios de las viviendas, especialmente entre casas y apartamentos ofrece una oportunidad para que la inmobiliaria desarrolle estrategias de precios competitivas. La empresa podría utilizar esta información para justificar precios basados en las características únicas de las propiedades, como la ubicación o el tamaño del área construida, así mismo, al identificar una demanda significativa por áreas más grandes y precios elevados, las inmobilairias podría considerar desarrollar propiedades que maximicen el uso del espacio, ofreciendo una combinación de lujo y funcionalidad. La creación de herramientas efectivas de recolección de información es crucial para garantizar la integridad y la utilidad de los datos recopilados. Una mala recolección puede resultar en la pérdida de información valiosa, lo que a su vez puede llevar a análisis incompletos o sesgados, afectando las decisiones estratégicas de la empresa. Por lo tanto, es fundamental diseñar formularios claros y procesos de recopilación bien estructurados para asegurar que los análisis sean precisos y útiles en la toma de decisiones de negocio.