El presente informe ofrece un análisis del mercado inmobiliario en Cali, Colombia, basado en una base de datos que contiene 8,330 registros y 13 variables. La base proporciona información detallada sobre características clave de las viviendas, incluyendo el precio, ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos.
Este análisis busca responder a preguntas cruciales acerca de la variación de precios, la predominancia de tipos de viviendas y las características específicas de la oferta inmobiliaria en distintas zonas y estratos de la ciudad. La metodología aplicada está orientada a descubrir tendencias y patrones significativos en los datos, con el objetivo de apoyar a la empresa B&C (Bines y Casas) en la toma de decisiones estratégicas.
El informe concluirá con hallazgos y recomendaciones que permitirán a los directivos de B&C optimizar sus estrategias comerciales, definir su nicho de mercado y mejorar la oferta de servicios personalizados.
Realizar un análisis del mercado inmobiliario en Cali mediante técnicas avanzadas de análisis de datos, incluyendo Análisis de Componentes Principales (PCA), Análisis de Conglomerados, Análisis de Correspondencia y Visualización de Resultados. El objetivo es identificar características clave que influyen en la variación de precios y oferta del mercado, entender las dinámicas de las ofertas en diferentes zonas y estratos socioeconómicos, y presentar los hallazgos de manera clara y efectiva para apoyar la toma de decisiones estratégicas de la empresa B&C (Bines y Casas).
Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas en diferentes partes de la ciudad y en distintos estratos socioeconómicos.
Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio) para identificar patrones de comportamiento en la oferta del mercado inmobiliario.
Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
Para este caso de estudio se utilizó una base da datos compuesta por 8.330 datos y 13 variables, que proporcionan información acerca del mercado inmobiliario en Cali, describiendo caracteristicas de las viviendas como el precio, la ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos, tal como se muestra a continuación:
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Una vez se obtuvieron los datos, se procedió con el cargue, diagnostico, y depuración de los mismos, obteniendo finalmente la siguiente base de datos:
Nota: Durante el preprocesamiento de datos, se ajustaron los tipos de datos y se manejaron los valores faltantes. Primero, se convirtió la columna piso de tipo carácter a numérico y la variable estrato de numérico a categórico. Además, todas las variables de tipo carácter se transformaron en factores. Para tratar los valores faltantes, se realizó imputación implementando dos funciones: una para reemplazar los valores NA en variables categóricas por la moda y otra para reemplazar los valores NA en variables numéricas por la mediana. Se aplicaron estas funciones a las variables correspondientes, garantizando la integridad de los datos antes del análisis.
## num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## Factor w/ 4 levels "3","4","5","6": 1 1 1 2 3 3 2 3 3 3 ...
## zona estrato tipo
## 0 0 0
## parqueaderos areaconst banios habitaciones preciom piso
## 0 0 0 0 0 0
## id zona piso estrato preciom
## Min. : 1 Zona Centro : 124 Min. : 1.000 3:1453 Min. : 58.0
## 1st Qu.:2080 Zona Norte :1920 1st Qu.: 2.000 4:2129 1st Qu.: 220.0
## Median :4160 Zona Oeste :1198 Median : 3.000 5:2753 Median : 330.0
## Mean :4160 Zona Oriente: 351 Mean : 3.527 6:1987 Mean : 433.9
## 3rd Qu.:6240 Zona Sur :4729 3rd Qu.: 4.000 3rd Qu.: 540.0
## Max. :8319 Max. :12.000 Max. :1999.0
## NA's :3
## areaconst parqueaderos banios habitaciones
## Min. : 30.0 Min. : 1.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 123.0 Median : 2.000 Median : 3.000 Median : 3.000
## Mean : 174.9 Mean : 1.867 Mean : 3.111 Mean : 3.605
## 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000 3rd Qu.: 4.000
## Max. :1745.0 Max. :10.000 Max. :10.000 Max. :10.000
##
## tipo barrio longitud latitud
## Apartamento:5103 valle del lili:1008 Min. :-76.59 Min. :3.333
## Casa :3219 ciudad jardín : 516 1st Qu.:-76.54 1st Qu.:3.381
## pance : 409 Median :-76.53 Median :3.416
## la flora : 366 Mean :-76.53 Mean :3.418
## santa teresita: 262 3rd Qu.:-76.52 3rd Qu.:3.452
## (Other) :5758 Max. :-76.46 Max. :3.498
## NA's : 3 NA's :3 NA's :3
Nota: En los adjuntos se podrá encontrar el detalle del resultado obtenido por el diagnostico de la base de datos sin depurar y depurada.
Luego de cargar, diagnosticar y depurar los datos, se procedió con la apliucación de los diferentes métodos estadisticos utilizados para dar cumplimiento a los objetivos planteados. Este proceso inició con la formulación del caso de estudio y culminó con la presentación de recursos graficos y conclusiones que permiten comunicar a la empresa de manera clara y efectiva los hallazgos. Todo esto se llevó a cabo mediante una detallada discusión de los resultados obtenidos durante el análisis.
Para comprender la dinámica del mercado de bienes raíces en Cali y cumplir con los objetivos del proyecto, es crucial analizar las variables relacionadas con la ubicación, el costo y la forma de las viviendas. Se han seleccionado 3 variables categóricas para segmentar las gráficas y análisis a realizar:
Adicionalmente se tuvo en consideración el comportamiento de las siguientes características de una vivienda:
Una vez se tuvo claro con que variables se contaban y cuál era el objetivo del proyecto, se aplicarón los metodos estadisticos correspondientes que pretenden encontrar la forma de reducir la dimensionalidad de los datos mediante Análisis de Componentes Principales (PCA) para identificar características clave en la variación de precios y oferta del mercado, agrupar propiedades en segmentos homogéneos con Análisis de Conglomerados (Clustering) para entender dinámicas y patrones de oferta en diferentes zonas y estratos, examinar asociaciones entre variables categóricas con Análisis de Correspondencia para identificar patrones en la oferta inmobiliaria, y finalmente comunicar los hallazgos a través de la visualización de resultados.
Con el objetivo de reducir la dimensionalidad de los datos y entender la estructura subyacente de las variables, se realizó un Análisis de Componentes Principales (PCA). Primero, se construyó una matriz de datos a partir de las variables numéricas seleccionadas, luego, se escaló esta matriz para asegurar que todas las variables contribuyeran de manera equitativa. Se determinó el número óptimo de componentes principales mediante una gráfica que muestra el porcentaje de varianza explicado por cada componente. Finalmente, se visualizó la contribución de las variables a los componentes principales en un gráfico, destacando las variables que más aportan a cada componente. La visualización resultante muestra cómo se distribuyen las variables en el espacio de los componentes principales y los resultados obtenidos son los que se muestran a continuación:
Nota: Dentro de las variables selecionadas no fue incluida la variable de precio al estarse considerando como variable independiente (ya que el objetivo es analizar la influencia de las demás variables sobre la variación de precios y oferta del mercado) ni tampoco el ID y las coordenadas, al no considerarse relevantes dentro del estudio.
## # A tibble: 6 × 5
## piso areaconst parqueaderos banios habitaciones
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 70 1 3 6
## 2 3 120 1 2 3
## 3 3 220 2 2 4
## 4 2 280 3 5 3
## 5 1 90 1 2 3
## 6 1 87 1 3 3
El Análisis de Componentes Principales (PCA) realizado previamente permitio identificar las principales dimensiones que explican la variabilidad de los precios y oferta del mercado inmobiliario, mostrando lo siguiente:
1- Gráfica del porcentaje de varianza explicada: Muestra que las dos dimensiones iniciales capturan el 70.8% de la variabilidad en el conjunto de datos, lo que indica que los componentes formados en estas 2 dimensiones son cruciales para comprender la estructura subyacente del precio.
2- El gráfico de contribución de las variables: Revela que ciertas características, como el área construida, el número de baños y el número de pisos, tienen una mayor influencia en la variación observada, mientras que otras variables tienen un impacto menor. Adicionalmente el grafico muestra queel primer componente podría estar integrado por el área construida y el número de baños, mientras que el segundo componente por el número de pisos.
Estos hallazgos sugieren que la variabilidad de precios y oferta en el mercado inmobiliario puede ser explicada principalmente por las características clave mencionadas previamente, lo que facilita la identificación de patrones y relaciones importantes para la toma de decisiones estratégicas en el análisis del mercado.
Con el objetivo de identificar segmentos homogéneos en el mercado inmobiliario, se realizó un análisis de conglomerados. Primero, se prepararon los datos seleccionando variables relevantes y convirtiendo las categóricas en variables dummy. Los datos fueron estandarizados y se calculó la distancia euclidiana para realizar el clustering jerárquico. Se determinó el número óptimo de clústeres utilizando el método del codo, con el valor óptimo identificado a partir de la gráfica. Se visualizó el dendrograma para observar la estructura de los clústeres con una muestra de tamaño 20 para poder ejemplificar facilmente como se veria la estructura y jerarquia de los clusteres, esto debido a que se poseen muchos datos. Finalmente se evaluó la calidad del clustering mediante el coeficiente de Silhouette, proporcionando una medida de cohesión y separación de los clústeres formados. La visualización y análisis resultante se presentan a continuación:
Nota: Dentro de las variables selecionadas no fueron incluidas las variables de estrato y zona, al considerarse variables independientes, ya que se pretende entender en diferentes partes de la ciudad (variable zona) y en diferentes estratos (variable estrato) la dinámica de las oferta de viviendas, ni tampoco se incluyeron las variables ID y de coordenadas al no considerarse relevantes dentro del estudio.
## tibble [8,322 × 6] (S3: tbl_df/tbl/data.frame)
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo_Casa : int [1:8322] 1 1 1 1 0 0 0 0 1 1 ...
## Coeficiente de Silhouette promedio con k = 9 : 0.3935963
El análisis de conglomerados realizado previamente nos muestra lo siguiente:
1- Número óptimo de clústeres: Mediante el método del codo se encontro que el número óptimo es de k=9 clusteres. Esto sugiere que las propiedades están razonablemente bien agrupadas en nueve segmentos.
3- Coeficiente de Silhouette promedio: Muestra que un número de clusteres de k=9 proporcionan una calidad moderada en la agrupación de las propiedades residenciales.
2- Dendrograma: Muestra cómo se agrupan las propiedades, destacando la existencia de los 9 grupos identificados con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.
Estos hallazgos facilitan la identificación de patrones de mercado y permiten una mejor adaptación de las estrategias comerciales a las necesidades de cada segmento identificado.
Para abordar el análisis de correspondencia, se calculó la tabla de contingencia que muestra la relación entre las zonas y los tipos de vivienda. Se realizó una prueba de chi-cuadrado para determinar si existía una asociación significativa entre estas variables. A continuación, se llevó a cabo el análisis de correspondencia para explorar las relaciones entre las variables categóricas, y finalmente la representación gráfica del grado de representatividad de los ejes principales del análisis de correspondencia se visualizó mediante un gráfico de screeplot, que muestra el porcentaje de varianza explicado por cada eje. La visualización y análisis resultante se presentan a continuación:
##
## Apartamento Casa
## Zona Centro 24 100
## Zona Norte 1198 722
## Zona Oeste 1029 169
## Zona Oriente 62 289
## Zona Sur 2790 1939
##
## Pearson's Chi-squared test
##
## data: tabla_contingencia
## X-squared = 690.79, df = 4, p-value < 2.2e-16
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.08300733 100 100
El análisis de correspondencia muestra un valor del estadístico chi-cuadrado significativo (X-squared = 690.79, p < 2.2e-16), lo que indica una fuerte asociación entre las variables categóricas (tipo de vivienda y zona). Sin embargo, el primer eje del análisis de correspondencia explica el 100% de la varianza, lo que sugiere que gran parte de la variabilidad en los datos puede estar concentrada en una sola dimensión. Esto implica que los patrones de comportamiento en el mercado inmobiliario están fuertemente influenciados por una combinación particular de estas variables, lo que facilita la identificación de las relaciones clave en la oferta de viviendas.
Como se menciono previamente y se puede corrroborar con el siguiente gráfico, los hallazgos encontrados sugieren que la variabilidad de precios y oferta en el mercado inmobiliario puede ser explicada principalmente por 2 componentes, los cuales tienen en cuenta caracteristicas de la vivienda tales como el área construida, el número de baños y el número de pisos. Adicionalmente el grafico muestra queel primer componente podría estar integrado por el área construida y el número de baños, mientras que el segundo componente por el número de pisos.
Como se mencionó anteriormente, un número de clusters de k = 9 ofrece una calidad moderada en la agrupación de las propiedades residenciales, lo que sugiere que podrían existir 9 segmentos homogéneos con características similares. Con esto en mente, y con el objetivo de comprender mejor las dinámicas de las ofertas específicas, a continuación, se presentan gráficas que describen las características de las viviendas segmentadas por zona y estrato. Lo anterior a través de boxplots que muestran la distribución de cada una de las variables númericas en cada cluster para cada tipo de vivienda, diferenciando por zonas y estratos. Estos boxplots permiten observar cómo varían las caracteristicas de las viviendas en función de los clusters identificados y revelan las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.
Como se mencionó previamente, la distribución de apartamentos y casas varía considerablemente entre las diferentes zonas, mostrando que ciertas áreas tienen una oferta predominante de un tipo específico de vivienda. El siguiente gráfico muestra la ubicación geográfica de las propiedades, diferenciadas por el tipo de vivienda, utilizando los datos de latitud y longitud. Cada tipo de vivienda está representado por un color específico en el mapa interactivo, lo que permite observar patrones espaciales y concentraciones de tipos de vivienda en diferentes áreas de la ciudad. Este enfoque visual ayuda a identificar zonas con una oferta predominante de ciertos tipos de propiedades, y facilita la comprensión de cómo la oferta inmobiliaria se distribuye a lo largo de la ciudad.