Análisis del mercado inmobiliario en Cali

1. Introducción

En el dinámico entorno del mercado inmobiliario de Cali, Colombia, la comprensión detallada de las tendencias y patrones actuales es fundamental para las agencias de bienes raíces que buscan optimizar sus estrategias y servicios. La presente introducción da paso al análisis realizado por la empresa B&C (Bines y Casas), una destacada agencia inmobiliaria con una década de experiencia en la ciudad, liderada por Sandra Milena y apoyada por un equipo de ocho agentes de bienes raíces. Este informe se enfoca en desentrañar las múltiples facetas del mercado inmobiliario de Cali, abordando el crecimiento del sector, influenciado por factores como el aumento poblacional, la inversión extranjera y el surgimiento de nuevos desarrollos inmobiliarios.

En los años recientes, Cali ha experimentado un notable incremento en la actividad inmobiliaria, reflejado en las cifras de ventas que ascendieron a $6700 millones en 2022 y $6100 mil millones en 2023. Ante este escenario, B&C ha recopilado una valiosa base de datos que contempla información crítica sobre precios, ubicaciones, características y transacciones de propiedades en la ciudad. El análisis de estos datos no solo proporcionará a B&C una visión clara del estado actual del mercado, sino que también permitirá identificar oportunidades y establecer estrategias para su aprovechamiento óptimo.

El informe que se desarrollará abordará aspectos cruciales como los precios de las viviendas en diferentes zonas, los tipos de propiedades más demandados y las características más valoradas en el mercado de Cali. Esta información será la piedra angular para que B&C defina su nicho de mercado, formule estrategias de marketing efectivas, ajuste sus precios de venta y ofrezca servicios personalizados que respondan a las necesidades de sus clientes.

A través de este análisis descriptivo, B&C busca no solo comprender las dinámicas actuales del mercado, sino también proyectar tendencias futuras, facilitando la toma de decisiones informadas que contribuyan al éxito y al crecimiento sostenido de la empresa en el competitivo entorno inmobiliario de Cali.

2. Objetivos

Objetivo General:

Realizar un análisis exploratorio de los datos recopilados sobre el mercado inmobiliario en Cali para descubrir patrones, tendencias y relaciones entre las variables de la base de datos.

Objetivos Específicos:

  • Caracterizar las propiedades inmobiliarias en Cali según la zona (sur, norte, oriente, occidente), identificando patrones de distribución y preferencias de localización en el mercado.

  • Analizar la relación entre el estrato socioeconómico y el precio por metro cuadrado de las propiedades para determinar cómo el estrato influye en los precios del mercado inmobiliario de Cali.

  • Investigar la correlación entre el área construida de las propiedades y su precio, para entender cómo el tamaño impacta en el valor del mercado.

  • Examinar la influencia de la disponibilidad de parqueadero en el precio de las propiedades, identificando si esta característica añade un valor significativo a las viviendas en Cali.

3. Métodos

Para llevar a cabo el análisis exploratorio de datos (EDA) del mercado inmobiliario en Cali utilizando R, se seguirá una metodología estructurada en varias etapas clave dentro del proceso de ciencia de datos. A continuación, se detallan estas etapas junto con las librerías de R sugeridas para cada paso:

Definición de Objetivos:

Clarificar los objetivos del análisis, centrados en el entendimiento del mercado inmobiliario de Cali mediante las variables proporcionadas.

Recolección de Datos:

Aunque los datos ya están recopilados, es crucial verificar que la fuente sea confiable y que los datos estén completos y listos para el análisis.

Limpieza y Preprocesamiento de Datos:

Utilizar tidyverse para manipulación y limpieza de datos. Funciones de dplyr y tidyr pueden ayudar a filtrar, seleccionar, y transformar los datos adecuadamente.

Análisis Exploratorio de Datos:

Utilizar ggplot2 del tidyverse para la visualización de datos y descubrir patrones o anomalías en los datos.

dplyr también se utilizará para agrupar, resumir y explorar las relaciones entre las variables.

corrplot o GGally pueden ser útiles para examinar las correlaciones entre variables numéricas.

leaflet o ggmap para visualizaciones geográficas, facilitando la exploración de datos en función de la ubicación (latitud y longitud).

Modelamiento y Análisis Estadístico:

Aunque el enfoque es exploratorio, se pueden aplicar técnicas estadísticas básicas para entender mejor las relaciones entre variables. Por ejemplo, stats para modelos lineales o pruebas estadísticas básicas.

Interpretación de Resultados:

Interpretar los hallazgos del EDA, relacionando los resultados con los objetivos específicos del análisis.

Se debe prestar atención a cualquier insight que pueda informar decisiones estratégicas para B&C.

Comunicación de Resultados:

Utilizar rmarkdown o knitr para crear informes dinámicos que incluyan tanto el código como las visualizaciones y hallazgos del análisis.

4. Resultados

library(dplyr)
library(ggplot2)
library(paqueteMETODOS)
data(vivienda_faltantes)
head(vivienda_faltantes)
## # A tibble: 6 × 13
##      id zona        piso estrato preciom areaconst parquea banios habitac tipo  
##   <dbl> <chr>      <dbl>   <dbl>   <dbl>     <dbl>   <dbl>  <dbl>   <dbl> <chr> 
## 1  8312 Zona Oeste     4       6    1300       318       2      4       2 Apart…
## 2  8311 Zona Oeste     1       6     480       300       1      4       4 Casa  
## 3  8307 Zona Oeste    NA       5    1200       800       4      7       5 Casa  
## 4  8296 Zona Sur       2       3     220       150       1      2       4 Casa  
## 5  8297 Zona Oeste    NA       5     330       112       2      4       3 Casa  
## 6  8298 Zona Sur      NA       5    1350       390       8     10      10 Casa  
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

Caracterizar las propiedades inmobiliarias en Cali según la zona:

library(dplyr)
library(ggplot2)

vivienda_faltantes %>% 
  group_by(zona) %>% 
  summarise(count = dplyr::n()) %>%  # Especificando explícitamente que use n() de dplyr
  ggplot(aes(x = zona, y = count)) +
  geom_bar(stat = "identity") +
  theme_minimal() +
  labs(x = "Zona", y = "Cantidad de Propiedades", title = "Distribución de Propiedades por Zona")

library(dplyr)

# Generar la tabla de frecuencias, especificando explícitamente dplyr::n()
tabla_frecuencias <- vivienda_faltantes %>%
  group_by(zona) %>%
  summarise(frecuencia = dplyr::n()) %>%
  mutate(frecuencia_relativa = frecuencia / sum(frecuencia))

# Mostrar la tabla de frecuencias con frecuencias relativas
print(tabla_frecuencias)
## # A tibble: 6 × 3
##   zona         frecuencia frecuencia_relativa
##   <chr>             <int>               <dbl>
## 1 Zona Centro         124            0.0149  
## 2 Zona Norte         1922            0.231   
## 3 Zona Oeste         1204            0.145   
## 4 Zona Oriente        351            0.0421  
## 5 Zona Sur           4726            0.567   
## 6 <NA>                  3            0.000360

Analizar la relación entre el estrato y el precio por metro cuadrado:

vivienda_faltantes %>%
  ggplot(aes(x = estrato, y = preciom)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(x = "Estrato", y = "Precio por Metro Cuadrado", title = "Relación entre Estrato y Precio por Metro")
## Warning: Removed 3 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).

Investigar la correlación entre el área construida y su precio:

vivienda_faltantes %>%
  ggplot(aes(x = areaconst, y = preciom)) +
  geom_point() +
  geom_smooth(method = "lm") +
  labs(x = "Área Construida", y = "Precio", title = "Correlación entre Área Construida y Precio")
## Warning: Removed 3 rows containing non-finite outside the scale range
## (`stat_smooth()`).
## Warning: Removed 3 rows containing missing values or values outside the scale range
## (`geom_point()`).

# Calcular el coeficiente de correlación de Pearson entre área construida y precio por metro cuadrado
correlacion <- cor(vivienda_faltantes$areaconst, vivienda_faltantes$preciom, use = "complete.obs")

# Mostrar el valor de la correlación
print(correlacion)
## [1] 0.6872452

Examinar la influencia de la disponibilidad de parqueadero en el precio:

vivienda_faltantes %>%
  ggplot(aes(x = parquea, y = preciom)) +
  geom_boxplot() +
  labs(x = "Número de Parqueaderos", y = "Precio", title = "Influencia del Parqueadero en el Precio")
## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?
## Warning: Removed 1606 rows containing missing values or values outside the scale range
## (`stat_boxplot()`).

library(dplyr)

vivienda_faltantes %>%
  group_by(parquea) %>%
  summarise(
    Promedio_Precio = mean(preciom, na.rm = TRUE),
    Mediana_Precio = median(preciom, na.rm = TRUE),
    Min_Precio = min(preciom, na.rm = TRUE),
    Max_Precio = max(preciom, na.rm = TRUE),
    Q1_Precio = quantile(preciom, 0.25, na.rm = TRUE),
    Q3_Precio = quantile(preciom, 0.75, na.rm = TRUE)
  )
## # A tibble: 11 × 7
##    parquea Promedio_Precio Mediana_Precio Min_Precio Max_Precio Q1_Precio
##      <dbl>           <dbl>          <dbl>      <dbl>      <dbl>     <dbl>
##  1       1            269.            250          1       1800      185 
##  2       2            515.            450          1       1900      350 
##  3       3            854.            800          1       1940      550 
##  4       4            974.            900          1       1950      722.
##  5       5           1069.           1100          1       1999      698.
##  6       6           1178.           1200          1       1900      800 
##  7       7           1111.           1100          1       1800      818.
##  8       8           1394.           1500          1       1900     1100 
##  9       9           1078.           1110          1       1700      638.
## 10      10           1130            1175          1       1800      800 
## 11      NA            287.            179          1       1801      136.
## # ℹ 1 more variable: Q3_Precio <dbl>

5. Discusión

Caracterizar las propiedades inmobiliarias en Cali según la zona:

Predominio de la Zona Sur: La Zona Sur tiene la mayor cantidad de propiedades listadas, con 4,726 propiedades, lo que representa el 56.7% de la base de datos. Esto indica que la Zona Sur es la más activa en el mercado inmobiliario de Cali, sugiriendo una alta demanda o disponibilidad en esa área. Este dominio podría ser un indicador de preferencia por parte de los compradores o de un mayor desarrollo inmobiliario en esta zona.

Zona Norte como Segundo Mercado Principal: La Zona Norte también tiene una presencia significativa con 1,922 propiedades, que constituyen el 23.1% del total. Esto la coloca como la segunda zona más importante en términos de cantidad de propiedades disponibles, señalando otra área de interés para actividades inmobiliarias en la ciudad.

Menor Actividad en Zonas Centro y Oriente: La Zona Centro y la Zona Oriente tienen una menor cantidad de propiedades listadas, 124 (1.49%) y 351 (4.21%) respectivamente, lo que podría indicar áreas menos saturadas o con menor actividad inmobiliaria comparada con las zonas Sur y Norte.

Zona Oeste en una Posición Intermedia: Con 1,204 propiedades, representando el 14.5% del total, la Zona Oeste se sitúa en una posición intermedia en términos de actividad inmobiliaria, siendo más activa que las Zonas Centro y Oriente, pero menos que las Zonas Norte y Sur.

Presencia de Datos No Especificados: Hay 3 propiedades sin zona asignada, lo que representa un porcentaje muy pequeño (0.036%) del total. Esto podría indicar que hay un número insignificante de registros en la base de datos que requieren revisión o completitud de información.

Analizar la relación entre el estrato y el precio por metro cuadrado:

Se observa un incremento en el precio del metro cuadrado en la medida que aumenta el estrato

Investigar la correlación entre el área construida y su precio:

un coeficiente de 0.6872452 sugiere una correlación positiva moderada a fuerte entre el área construida de las propiedades y su precio por metro cuadrado. Esto significa que, en general, a medida que el área construida de una propiedad aumenta, su precio por metro cuadrado también tiende a aumentar. Sin embargo, aunque la relación es significativa, no es perfecta, indicando que otros factores además del área construida pueden influir en el precio por metro cuadrado de las propiedades.

Examinar la influencia de la disponibilidad de parqueadero en el precio:

Parqueaderos y precios

  • Hay una tendencia general que indica que, a medida que aumenta el número de parqueaderos, el promedio y la mediana del precio por metro cuadrado también tienden a aumentar. Esto sugiere que las propiedades con más parqueaderos tienden a tener un precio por metro cuadrado mayor, lo cual podría reflejar una mayor demanda o un mayor valor percibido de estas propiedades.

Detalles por Número de Parqueaderos:

  • 1 Parqueadero: El precio promedio por metro cuadrado es de 269, con una mediana de 250, lo que indica una distribución relativamente equilibrada de los precios, aunque con algunos valores extremos, como el máximo de 1800.
  • 2 Parqueaderos: Aquí el precio promedio aumenta a 515, con una mediana de 450. Nuevamente, hay valores extremos (máximo de 1900).

A medida que se incrementa el número de parqueaderos, los precios promedio y medianos aumentan, destacando una posible correlación positiva entre la cantidad de parqueaderos y el valor de la propiedad.

  • 8 Parqueaderos: Se observa un precio promedio de 1394 y una mediana de 1500, uno de los valores más altos en la tabla, lo que podría indicar una mayor valoración para propiedades con una gran cantidad de parqueaderos.

Valores Mínimos y Máximos:

El precio mínimo en todas las categorías es 1, lo cual podría ser un error de datos o representar propiedades con precios atípicamente bajos.

Los precios máximos varían, mostrando que hay propiedades de alto valor en cada categoría de número de parqueaderos.

Valores de Cuartiles (Q1 y Q3):

Los cuartiles muestran la distribución de los datos. Por ejemplo, en propiedades con 2 parqueaderos, el 25% de las propiedades tienen un precio por metro cuadrado de 350 o menos, y el 75% tiene un precio de 350 o más hasta 1900.

Datos Faltantes (NA):

También se incluyen propiedades sin información sobre parqueaderos (NA), con un precio promedio más bajo (287), lo que podría sugerir que la ausencia de información sobre parqueaderos se asocia con precios más bajos o propiedades diferentes.

6. Conclusiones

  • Estos resultados ofrecen una vista clara de cómo se distribuye el mercado inmobiliario en Cali, con un fuerte enfoque en las Zonas Sur y Norte, lo que podría ser crucial para la toma de decisiones estratégicas en la empresa B&C, desde el desarrollo de nuevas propiedades hasta la orientación de campañas de marketing y ventas en áreas con mayor o menor actividad inmobiliaria.

  • Esta información es valiosa para entender la dinámica del mercado inmobiliario en Cali y puede ser utilizada por la empresa B&C para tomar decisiones informadas sobre precios, valoraciones de propiedades y estrategias de inversión.

7. Anexos

Guia “Caso : Análisis del mercado inmobiliario en Cali” de la asignatura “Métodos y Simulación estadística” de la Maestría en ciencia de datos de la Universidad Javeriana Sede Cali