1 Introducción

El presente informe ofrece un análisis del mercado inmobiliario en Cali, Colombia, basado en una base de datos que contiene 8,330 registros y 13 variables. La base proporciona información detallada sobre características clave de las viviendas, incluyendo el precio, ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos.

Este análisis busca responder a preguntas cruciales acerca de la variación de precios, la predominancia de tipos de viviendas y las características específicas de la oferta inmobiliaria en distintas zonas y estratos de la ciudad. La metodología aplicada está orientada a descubrir tendencias y patrones significativos en los datos, con el objetivo de apoyar a la empresa B&C (Bines y Casas) en la toma de decisiones estratégicas.

El informe concluirá con hallazgos y recomendaciones que permitirán a los directivos de B&C optimizar sus estrategias comerciales, definir su nicho de mercado y mejorar la oferta de servicios personalizados.

2 Objetivos

2.1 Objetivo General:

Realizar un análisis del mercado inmobiliario en Cali mediante técnicas avanzadas de análisis de datos, incluyendo Análisis de Componentes Principales (PCA), Análisis de Conglomerados, Análisis de Correspondencia y Visualización de Resultados. El objetivo es identificar características clave que influyen en la variación de precios y oferta del mercado, entender las dinámicas de las ofertas en diferentes zonas y estratos socioeconómicos, y presentar los hallazgos de manera clara y efectiva para apoyar la toma de decisiones estratégicas de la empresa B&C (Bines y Casas).

2.2 Objetivos Específicos:

  1. Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

  2. Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas en diferentes partes de la ciudad y en distintos estratos socioeconómicos.

  3. Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio) para identificar patrones de comportamiento en la oferta del mercado inmobiliario.

  4. Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

3 Métodos

3.1 Metodologia utilizada

Para este caso de estudio se utilizó una base da datos compuesta por 8.330 datos y 13 variables, que proporcionan información acerca del mercado inmobiliario en Cali, describiendo caracteristicas de las viviendas como el precio, la ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos, tal como se muestra a continuación:

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Una vez se obtuvieron los datos, se procedió con el cargue, diagnostico, y depuración de los mismos, obteniendo finalmente la siguiente base de datos:

##  num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  Factor w/ 4 levels "3","4","5","6": 1 1 1 2 3 3 2 3 3 3 ...
##    zona estrato    tipo 
##       0       0       0
## parqueaderos    areaconst       banios habitaciones      preciom         piso 
##            0            0            0            0            0            0
##        id                 zona           piso        estrato     preciom      
##  Min.   :   1   Zona Centro : 124   Min.   : 1.000   3:1453   Min.   :  58.0  
##  1st Qu.:2080   Zona Norte  :1920   1st Qu.: 2.000   4:2129   1st Qu.: 220.0  
##  Median :4160   Zona Oeste  :1198   Median : 3.000   5:2753   Median : 330.0  
##  Mean   :4160   Zona Oriente: 351   Mean   : 3.527   6:1987   Mean   : 433.9  
##  3rd Qu.:6240   Zona Sur    :4729   3rd Qu.: 4.000            3rd Qu.: 540.0  
##  Max.   :8319                       Max.   :12.000            Max.   :1999.0  
##  NA's   :3                                                                    
##    areaconst       parqueaderos        banios        habitaciones   
##  Min.   :  30.0   Min.   : 1.000   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 123.0   Median : 2.000   Median : 3.000   Median : 3.000  
##  Mean   : 174.9   Mean   : 1.867   Mean   : 3.111   Mean   : 3.605  
##  3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000   3rd Qu.: 4.000  
##  Max.   :1745.0   Max.   :10.000   Max.   :10.000   Max.   :10.000  
##                                                                     
##           tipo                 barrio        longitud         latitud     
##  Apartamento:5103   valle del lili:1008   Min.   :-76.59   Min.   :3.333  
##  Casa       :3219   ciudad jardín : 516   1st Qu.:-76.54   1st Qu.:3.381  
##                     pance         : 409   Median :-76.53   Median :3.416  
##                     la flora      : 366   Mean   :-76.53   Mean   :3.418  
##                     santa teresita: 262   3rd Qu.:-76.52   3rd Qu.:3.452  
##                     (Other)       :5758   Max.   :-76.46   Max.   :3.498  
##                     NA's          :   3   NA's   :3        NA's   :3

Nota: En los adjuntos se podrá encontrar el detalle del resultado obtenido por el diagnostico de la base de datos sin depurar y depurada.

Luego de cargar, diagnosticar y depurar los datos, se procedió con la apliucación de los diferentes métodos estadisticos utilizados para dar cumplimiento a los objetivos planteados. Este proceso inició con la formulación del caso de estudio y culminó con la presentación de recursos graficos y conclusiones que permiten comunicar a la empresa de manera clara y efectiva los hallazgos. Todo esto se llevó a cabo mediante una detallada discusión de los resultados obtenidos durante el análisis.

3.2 Formulación del caso de estudio

Para comprender la dinámica del mercado de bienes raíces en Cali y cumplir con los objetivos del proyecto, es crucial analizar las variables relacionadas con la ubicación, el costo y la forma de las viviendas. Se han seleccionado 3 variables categóricas para segmentar las gráficas y análisis a realizar:

  1. Zona
  2. Estrato
  3. Tipo de vivienda

Adicionalmente se tuvo en consideración el comportamiento de las siguientes características de una vivienda:

  1. Precio
  2. Número de viviendas vendidas
  3. Área construida
  4. Número de pisos
  5. Número de habitaciones
  6. Número de baños
  7. Número de parqueaderos

Una vez se tuvo claro con que variables se contaban y cuál era el objetivo del proyecto, se aplicarón los metodos estadisticos correspondientes que pretenden encontrar la forma de reducir la dimensionalidad de los datos mediante Análisis de Componentes Principales (PCA) para identificar características clave en la variación de precios y oferta del mercado, agrupar propiedades en segmentos homogéneos con Análisis de Conglomerados (Clustering) para entender dinámicas y patrones de oferta en diferentes zonas y estratos, examinar asociaciones entre variables categóricas con Análisis de Correspondencia para identificar patrones en la oferta inmobiliaria, y finalmente comunicar los hallazgos a través de la visualización de resultados.

4 Discusión

4.1 Reducción de la dimensionalidad del conjunto de datos y visualización de la estructura de las variables en componentes principales

4.1.1 Análisis realizado:

Con el objetivo de reducir la dimensionalidad de los datos y entender la estructura subyacente de las variables, se realizó un Análisis de Componentes Principales (PCA). Primero, se construyó una matriz de datos a partir de las variables numéricas, excluyendo identificadores y variables no relevantes como el precio y coordenadas. Luego, se escaló esta matriz para asegurar que todas las variables contribuyeran de manera equitativa. Se determinó el número óptimo de componentes principales mediante una gráfica que muestra el porcentaje de varianza explicado por cada componente. Finalmente, se visualizó la contribución de las variables a los componentes principales en un gráfico, destacando las variables que más aportan a cada componente. La visualización resultante muestra cómo se distribuyen las variables en el espacio de los componentes principales y los resultados obtenidos son lso que se muestran a continuación:

## # A tibble: 6 × 5
##    piso areaconst parqueaderos banios habitaciones
##   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1     3        70            1      3            6
## 2     3       120            1      2            3
## 3     3       220            2      2            4
## 4     2       280            3      5            3
## 5     1        90            1      2            3
## 6     1        87            1      3            3

4.1.2 Conclusión:

El Análisis de Componentes Principales (PCA) realizado previamente ha permitido identificar las principales dimensiones que explican la variabilidad en los datos de las propiedades residenciales, mostrando lo siguiente:

1- Gráfica del porcentaje de varianza explicada: Muestra que los primeros componentes principales capturan la mayor parte de la variabilidad en el conjunto de datos, lo que indica que estos componentes son cruciales para comprender la estructura subyacente.

2- El gráfico de contribución de las variables: Revela que ciertas características, como el área construida y el número de habitaciones, tienen una mayor influencia en la variación observada, mientras que otras variables tienen un impacto menor.

Estos hallazgos sugieren que la variabilidad en el mercado inmobiliario puede ser explicada principalmente por las características clave mencionadas previamente, lo que facilita la identificación de patrones y relaciones importantes para la toma de decisiones estratégicas en el análisis del mercado.

4.2 Agrupación de las propiedades residenciales en segmentos homogéneos con características similares

4.2.1 Análisis realizado:

Con el objetivo de identificar segmentos homogéneos en el mercado inmobiliario, se realizó un análisis de conglomerados. Primero, se prepararon los datos seleccionando variables relevantes y convirtiendo las categóricas en variables dummy. Los datos fueron estandarizados y se calculó la distancia euclidiana para realizar el clustering jerárquico. Se determinó el número óptimo de clústeres utilizando el método del codo, con el valor óptimo identificado a partir de la gráfica. Se visualizó el dendrograma para observar la estructura de los clústeres y se evaluó la calidad del clustering mediante el coeficiente de Silhouette, proporcionando una medida de cohesión y separación de los clústeres formados. La visualización y análisis resultante se presentan a continuación:

## tibble [8,322 × 12] (S3: tbl_df/tbl/data.frame)
##  $ areaconst        : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos     : num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios           : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones     : num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ estrato_4        : int [1:8322] 0 0 0 1 0 0 1 0 0 0 ...
##  $ estrato_5        : int [1:8322] 0 0 0 0 1 1 0 1 1 1 ...
##  $ estrato_6        : int [1:8322] 0 0 0 0 0 0 0 0 0 0 ...
##  $ tipo_Casa        : int [1:8322] 1 1 1 1 0 0 0 0 1 1 ...
##  $ zona_Zona Norte  : int [1:8322] 0 0 0 0 1 1 1 1 1 1 ...
##  $ zona_Zona Oeste  : int [1:8322] 0 0 0 0 0 0 0 0 0 0 ...
##  $ zona_Zona Oriente: int [1:8322] 1 1 1 0 0 0 0 0 0 0 ...
##  $ zona_Zona Sur    : int [1:8322] 0 0 0 1 0 0 0 0 0 0 ...

## Coeficiente de Silhouette promedio con k = 8 :  0.2859876

4.2.2 Conclusión:

c El análisis de conglomerados realizado previamente premiten concluir lo siguiente:

1- Número óptimo de clústeres: Mediante el método del codo y el coeficiente de Silhouette se encontro que el número seleccionado (k=8) proporciona una segmentación clara y útil para comprender la estructura del mercado.

3- Coeficiente de Silhouette promedio: Visualiza cómo se agrupan las propiedades, destacando la existencia de grupos con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.

2- Dendrograma: Visualiza cómo se agrupan las propiedades, destacando la existencia de grupos con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.

Estos hallazgos facilitan la identificación de patrones de mercado y permiten una mejor adaptación de las estrategias comerciales a las necesidades de cada segmento identificado.

4.3 Agrupación de las propiedades residenciales en segmentos homogéneos con características similares

4.3.1 Análisis de Correspondencia:

Para abordar el análisis de correspondencia, se calculó la tabla de contingencia que muestra la relación entre las zonas y los tipos de vivienda. Se realizó una prueba de chi-cuadrado para determinar si existía una asociación significativa entre estas variables, confirmando la presencia de asociaciones significativas. A continuación, se llevó a cabo el análisis de correspondencia para explorar las relaciones entre las variables categóricas. La representación gráfica del grado de representatividad de los ejes principales del análisis de correspondencia se visualizó mediante un gráfico de screeplot, que muestra el porcentaje de varianza explicado por cada eje. La visualización y análisis resultante se presentan a continuación:

##               
##                Apartamento Casa
##   Zona Centro           24  100
##   Zona Norte          1198  722
##   Zona Oeste          1029  169
##   Zona Oriente          62  289
##   Zona Sur            2790 1939
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_contingencia
## X-squared = 690.79, df = 4, p-value < 2.2e-16
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.08300733                    100                               100

4.3.2 Conclusión:

El análisis de correspondencia ha revelado que los tipos de vivienda están significativamente asociados con las zonas en el mercado inmobiliario. La distribución de apartamentos y casas varía considerablemente entre las diferentes zonas, mostrando que ciertas áreas tienen una oferta predominante de un tipo específico de vivienda. Esta información permite concluir que la oferta inmobiliaria en Cali no es uniforme y está influenciada por la ubicación, lo que puede guiar decisiones estratégicas en el sector, como la planificación de desarrollos o ajustes en la oferta de acuerdo con la demanda local.