El presente informe ofrece un análisis del mercado inmobiliario en Cali, Colombia, basado en una base de datos que contiene 8,330 registros y 13 variables. La base proporciona información detallada sobre características clave de las viviendas, incluyendo el precio, ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos.
Este análisis busca responder a preguntas cruciales acerca de la variación de precios, la predominancia de tipos de viviendas y las características específicas de la oferta inmobiliaria en distintas zonas y estratos de la ciudad. La metodología aplicada está orientada a descubrir tendencias y patrones significativos en los datos, con el objetivo de apoyar a la empresa B&C (Bines y Casas) en la toma de decisiones estratégicas.
El informe concluirá con hallazgos y recomendaciones que permitirán a los directivos de B&C optimizar sus estrategias comerciales, definir su nicho de mercado y mejorar la oferta de servicios personalizados.
Realizar un análisis del mercado inmobiliario en Cali mediante técnicas avanzadas de análisis de datos, incluyendo Análisis de Componentes Principales (PCA), Análisis de Conglomerados, Análisis de Correspondencia y Visualización de Resultados. El objetivo es identificar características clave que influyen en la variación de precios y oferta del mercado, entender las dinámicas de las ofertas en diferentes zonas y estratos socioeconómicos, y presentar los hallazgos de manera clara y efectiva para apoyar la toma de decisiones estratégicas de la empresa B&C (Bines y Casas).
Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas en diferentes partes de la ciudad y en distintos estratos socioeconómicos.
Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio) para identificar patrones de comportamiento en la oferta del mercado inmobiliario.
Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
Para este caso de estudio se utilizó una base da datos compuesta por 8.330 datos y 13 variables, que proporcionan información acerca del mercado inmobiliario en Cali, describiendo caracteristicas de las viviendas como el precio, la ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos, tal como se muestra a continuación:
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Una vez se obtuvieron los datos, se procedió con el cargue, diagnostico, y depuración de los mismos, obteniendo finalmente la siguiente base de datos:
## num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## Factor w/ 4 levels "3","4","5","6": 1 1 1 2 3 3 2 3 3 3 ...
## zona estrato tipo
## 0 0 0
## parqueaderos areaconst banios habitaciones preciom piso
## 0 0 0 0 0 0
## id zona piso estrato preciom
## Min. : 1 Zona Centro : 124 Min. : 1.000 3:1453 Min. : 58.0
## 1st Qu.:2080 Zona Norte :1920 1st Qu.: 2.000 4:2129 1st Qu.: 220.0
## Median :4160 Zona Oeste :1198 Median : 3.000 5:2753 Median : 330.0
## Mean :4160 Zona Oriente: 351 Mean : 3.527 6:1987 Mean : 433.9
## 3rd Qu.:6240 Zona Sur :4729 3rd Qu.: 4.000 3rd Qu.: 540.0
## Max. :8319 Max. :12.000 Max. :1999.0
## NA's :3
## areaconst parqueaderos banios habitaciones
## Min. : 30.0 Min. : 1.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 123.0 Median : 2.000 Median : 3.000 Median : 3.000
## Mean : 174.9 Mean : 1.867 Mean : 3.111 Mean : 3.605
## 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000 3rd Qu.: 4.000
## Max. :1745.0 Max. :10.000 Max. :10.000 Max. :10.000
##
## tipo barrio longitud latitud
## Apartamento:5103 valle del lili:1008 Min. :-76.59 Min. :3.333
## Casa :3219 ciudad jardín : 516 1st Qu.:-76.54 1st Qu.:3.381
## pance : 409 Median :-76.53 Median :3.416
## la flora : 366 Mean :-76.53 Mean :3.418
## santa teresita: 262 3rd Qu.:-76.52 3rd Qu.:3.452
## (Other) :5758 Max. :-76.46 Max. :3.498
## NA's : 3 NA's :3 NA's :3
Nota: En los adjuntos se podrá encontrar el detalle del resultado obtenido por el diagnostico de la base de datos sin depurar y depurada.
Luego de cargar, diagnosticar y depurar los datos, se procedió con la apliucación de los diferentes métodos estadisticos utilizados para dar cumplimiento a los objetivos planteados. Este proceso inició con la formulación del caso de estudio y culminó con la presentación de recursos graficos y conclusiones que permiten comunicar a la empresa de manera clara y efectiva los hallazgos. Todo esto se llevó a cabo mediante una detallada discusión de los resultados obtenidos durante el análisis.
Para comprender la dinámica del mercado de bienes raíces en Cali y cumplir con los objetivos del proyecto, es crucial analizar las variables relacionadas con la ubicación, el costo y la forma de las viviendas. Se han seleccionado 3 variables categóricas para segmentar las gráficas y análisis a realizar:
Adicionalmente se tuvo en consideración el comportamiento de las siguientes características de una vivienda:
Una vez se tuvo claro con que variables se contaban y cuál era el objetivo del proyecto, se aplicarón los metodos estadisticos correspondientes que pretenden encontrar la forma de reducir la dimensionalidad de los datos mediante Análisis de Componentes Principales (PCA) para identificar características clave en la variación de precios y oferta del mercado, agrupar propiedades en segmentos homogéneos con Análisis de Conglomerados (Clustering) para entender dinámicas y patrones de oferta en diferentes zonas y estratos, examinar asociaciones entre variables categóricas con Análisis de Correspondencia para identificar patrones en la oferta inmobiliaria, y finalmente comunicar los hallazgos a través de la visualización de resultados.
Con el objetivo de reducir la dimensionalidad de los datos y entender la estructura subyacente de las variables, se realizó un Análisis de Componentes Principales (PCA). Primero, se construyó una matriz de datos a partir de las variables numéricas, excluyendo identificadores y variables no relevantes como el precio y coordenadas. Luego, se escaló esta matriz para asegurar que todas las variables contribuyeran de manera equitativa. Se determinó el número óptimo de componentes principales mediante una gráfica que muestra el porcentaje de varianza explicado por cada componente. Finalmente, se visualizó la contribución de las variables a los componentes principales en un gráfico, destacando las variables que más aportan a cada componente. La visualización resultante muestra cómo se distribuyen las variables en el espacio de los componentes principales y los resultados obtenidos son lso que se muestran a continuación:
## # A tibble: 6 × 5
## piso areaconst parqueaderos banios habitaciones
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3 70 1 3 6
## 2 3 120 1 2 3
## 3 3 220 2 2 4
## 4 2 280 3 5 3
## 5 1 90 1 2 3
## 6 1 87 1 3 3
El Análisis de Componentes Principales (PCA) realizado previamente ha permitido identificar las principales dimensiones que explican la variabilidad en los datos de las propiedades residenciales, mostrando lo siguiente:
1- Gráfica del porcentaje de varianza explicada: Muestra que los primeros componentes principales capturan la mayor parte de la variabilidad en el conjunto de datos, lo que indica que estos componentes son cruciales para comprender la estructura subyacente.
2- El gráfico de contribución de las variables: Revela que ciertas características, como el área construida y el número de habitaciones, tienen una mayor influencia en la variación observada, mientras que otras variables tienen un impacto menor.
Estos hallazgos sugieren que la variabilidad en el mercado inmobiliario puede ser explicada principalmente por las características clave mencionadas previamente, lo que facilita la identificación de patrones y relaciones importantes para la toma de decisiones estratégicas en el análisis del mercado.
Con el objetivo de identificar segmentos homogéneos en el mercado inmobiliario, se realizó un análisis de conglomerados. Primero, se prepararon los datos seleccionando variables relevantes y convirtiendo las categóricas en variables dummy. Los datos fueron estandarizados y se calculó la distancia euclidiana para realizar el clustering jerárquico. Se determinó el número óptimo de clústeres utilizando el método del codo, con el valor óptimo identificado a partir de la gráfica. Se visualizó el dendrograma para observar la estructura de los clústeres y se evaluó la calidad del clustering mediante el coeficiente de Silhouette, proporcionando una medida de cohesión y separación de los clústeres formados. La visualización y análisis resultante se presentan a continuación:
## tibble [8,322 × 12] (S3: tbl_df/tbl/data.frame)
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos : num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones : num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ estrato_4 : int [1:8322] 0 0 0 1 0 0 1 0 0 0 ...
## $ estrato_5 : int [1:8322] 0 0 0 0 1 1 0 1 1 1 ...
## $ estrato_6 : int [1:8322] 0 0 0 0 0 0 0 0 0 0 ...
## $ tipo_Casa : int [1:8322] 1 1 1 1 0 0 0 0 1 1 ...
## $ zona_Zona Norte : int [1:8322] 0 0 0 0 1 1 1 1 1 1 ...
## $ zona_Zona Oeste : int [1:8322] 0 0 0 0 0 0 0 0 0 0 ...
## $ zona_Zona Oriente: int [1:8322] 1 1 1 0 0 0 0 0 0 0 ...
## $ zona_Zona Sur : int [1:8322] 0 0 0 1 0 0 0 0 0 0 ...
## Coeficiente de Silhouette promedio con k = 8 : 0.2859876
c El análisis de conglomerados realizado previamente premiten concluir lo siguiente:
1- Número óptimo de clústeres: Mediante el método del codo y el coeficiente de Silhouette se encontro que el número seleccionado (k=8) proporciona una segmentación clara y útil para comprender la estructura del mercado.
3- Coeficiente de Silhouette promedio: Visualiza cómo se agrupan las propiedades, destacando la existencia de grupos con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.
2- Dendrograma: Visualiza cómo se agrupan las propiedades, destacando la existencia de grupos con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.
Estos hallazgos facilitan la identificación de patrones de mercado y permiten una mejor adaptación de las estrategias comerciales a las necesidades de cada segmento identificado.
Para abordar el análisis de correspondencia, se calculó la tabla de contingencia que muestra la relación entre las zonas y los tipos de vivienda. Se realizó una prueba de chi-cuadrado para determinar si existía una asociación significativa entre estas variables, confirmando la presencia de asociaciones significativas. A continuación, se llevó a cabo el análisis de correspondencia para explorar las relaciones entre las variables categóricas. La representación gráfica del grado de representatividad de los ejes principales del análisis de correspondencia se visualizó mediante un gráfico de screeplot, que muestra el porcentaje de varianza explicado por cada eje. La visualización y análisis resultante se presentan a continuación:
##
## Apartamento Casa
## Zona Centro 24 100
## Zona Norte 1198 722
## Zona Oeste 1029 169
## Zona Oriente 62 289
## Zona Sur 2790 1939
##
## Pearson's Chi-squared test
##
## data: tabla_contingencia
## X-squared = 690.79, df = 4, p-value < 2.2e-16
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.08300733 100 100
El análisis de correspondencia ha revelado que los tipos de vivienda están significativamente asociados con las zonas en el mercado inmobiliario. La distribución de apartamentos y casas varía considerablemente entre las diferentes zonas, mostrando que ciertas áreas tienen una oferta predominante de un tipo específico de vivienda. Esta información permite concluir que la oferta inmobiliaria en Cali no es uniforme y está influenciada por la ubicación, lo que puede guiar decisiones estratégicas en el sector, como la planificación de desarrollos o ajustes en la oferta de acuerdo con la demanda local.