1 Introducción

El presente informe ofrece un análisis del mercado inmobiliario en Cali, Colombia, basado en una base de datos que contiene 8,330 registros y 13 variables. La base proporciona información detallada sobre características clave de las viviendas, incluyendo el precio, ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos.

Este análisis busca responder a preguntas cruciales acerca de la variación de precios, la predominancia de tipos de viviendas y las características específicas de la oferta inmobiliaria en distintas zonas y estratos de la ciudad. La metodología aplicada está orientada a descubrir tendencias y patrones significativos en los datos, con el objetivo de apoyar a la empresa B&C (Bines y Casas) en la toma de decisiones estratégicas.

El informe concluirá con hallazgos y recomendaciones que permitirán a los directivos de B&C optimizar sus estrategias comerciales, definir su nicho de mercado y mejorar la oferta de servicios personalizados.

2 Objetivos

2.1 Objetivo General:

Realizar un análisis del mercado inmobiliario en Cali mediante técnicas avanzadas de análisis de datos, incluyendo Análisis de Componentes Principales (PCA), Análisis de Conglomerados, Análisis de Correspondencia y Visualización de Resultados. El objetivo es identificar características clave que influyen en la variación de precios y oferta del mercado, entender las dinámicas de las ofertas en diferentes zonas y estratos socioeconómicos, y presentar los hallazgos de manera clara y efectiva para apoyar la toma de decisiones estratégicas de la empresa B&C (Bines y Casas).

2.2 Objetivos Específicos:

  1. Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

  2. Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas en diferentes partes de la ciudad y en distintos estratos socioeconómicos.

  3. Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio) para identificar patrones de comportamiento en la oferta del mercado inmobiliario.

  4. Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

3 Métodos

3.1 Metodologia utilizada

Para este caso de estudio se utilizó una base da datos compuesta por 8.330 datos y 13 variables, que proporcionan información acerca del mercado inmobiliario en Cali, describiendo caracteristicas de las viviendas como el precio, la ubicación, estrato, tipo de vivienda, área construida, número de pisos, habitaciones, baños y parqueaderos, tal como se muestra a continuación:

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Una vez se obtuvieron los datos, se procedió con el cargue, diagnostico, y depuración de los mismos, obteniendo finalmente la siguiente base de datos:

Nota: Durante el preprocesamiento de datos, se ajustaron los tipos de datos y se manejaron los valores faltantes. Primero, se convirtió la columna piso de tipo carácter a numérico y la variable estrato de numérico a categórico. Además, todas las variables de tipo carácter se transformaron en factores. Para tratar los valores faltantes, se realizó imputación implementando dos funciones: una para reemplazar los valores NA en variables categóricas por la moda y otra para reemplazar los valores NA en variables numéricas por la mediana. Se aplicaron estas funciones a las variables correspondientes, garantizando la integridad de los datos antes del análisis.

##  num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  Factor w/ 4 levels "3","4","5","6": 1 1 1 2 3 3 2 3 3 3 ...
##    zona estrato    tipo 
##       0       0       0
## parqueaderos    areaconst       banios habitaciones      preciom         piso 
##            0            0            0            0            0            0
##        id                 zona           piso        estrato     preciom      
##  Min.   :   1   Zona Centro : 124   Min.   : 1.000   3:1453   Min.   :  58.0  
##  1st Qu.:2080   Zona Norte  :1920   1st Qu.: 2.000   4:2129   1st Qu.: 220.0  
##  Median :4160   Zona Oeste  :1198   Median : 3.000   5:2753   Median : 330.0  
##  Mean   :4160   Zona Oriente: 351   Mean   : 3.527   6:1987   Mean   : 433.9  
##  3rd Qu.:6240   Zona Sur    :4729   3rd Qu.: 4.000            3rd Qu.: 540.0  
##  Max.   :8319                       Max.   :12.000            Max.   :1999.0  
##  NA's   :3                                                                    
##    areaconst       parqueaderos        banios        habitaciones   
##  Min.   :  30.0   Min.   : 1.000   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 123.0   Median : 2.000   Median : 3.000   Median : 3.000  
##  Mean   : 174.9   Mean   : 1.867   Mean   : 3.111   Mean   : 3.605  
##  3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000   3rd Qu.: 4.000  
##  Max.   :1745.0   Max.   :10.000   Max.   :10.000   Max.   :10.000  
##                                                                     
##           tipo                 barrio        longitud         latitud     
##  Apartamento:5103   valle del lili:1008   Min.   :-76.59   Min.   :3.333  
##  Casa       :3219   ciudad jardín : 516   1st Qu.:-76.54   1st Qu.:3.381  
##                     pance         : 409   Median :-76.53   Median :3.416  
##                     la flora      : 366   Mean   :-76.53   Mean   :3.418  
##                     santa teresita: 262   3rd Qu.:-76.52   3rd Qu.:3.452  
##                     (Other)       :5758   Max.   :-76.46   Max.   :3.498  
##                     NA's          :   3   NA's   :3        NA's   :3

Nota: En los adjuntos se podrá encontrar el detalle del resultado obtenido por el diagnostico de la base de datos sin depurar y depurada.

Luego de cargar, diagnosticar y depurar los datos, se procedió con la apliucación de los diferentes métodos estadisticos utilizados para dar cumplimiento a los objetivos planteados. Este proceso inició con la formulación del caso de estudio y culminó con la presentación de recursos graficos y conclusiones que permiten comunicar a la empresa de manera clara y efectiva los hallazgos. Todo esto se llevó a cabo mediante una detallada discusión de los resultados obtenidos durante el análisis.

3.2 Formulación del caso de estudio

Para comprender la dinámica del mercado de bienes raíces en Cali y cumplir con los objetivos del proyecto, es crucial analizar las variables relacionadas con la ubicación, el costo y la forma de las viviendas. Se han seleccionado 3 variables categóricas para segmentar las gráficas y análisis a realizar:

  1. Zona
  2. Estrato
  3. Tipo de vivienda

Adicionalmente se tuvo en consideración el comportamiento de las siguientes características de una vivienda:

  1. Precio
  2. Número de viviendas vendidas
  3. Área construida
  4. Número de pisos
  5. Número de habitaciones
  6. Número de baños
  7. Número de parqueaderos

Una vez se tuvo claro con que variables se contaban y cuál era el objetivo del proyecto, se aplicarón los metodos estadisticos correspondientes que pretenden encontrar la forma de reducir la dimensionalidad de los datos mediante Análisis de Componentes Principales (PCA) para identificar características clave en la variación de precios y oferta del mercado, agrupar propiedades en segmentos homogéneos con Análisis de Conglomerados (Clustering) para entender dinámicas y patrones de oferta en diferentes zonas y estratos, examinar asociaciones entre variables categóricas con Análisis de Correspondencia para identificar patrones en la oferta inmobiliaria, y finalmente comunicar los hallazgos a través de la visualización de resultados.

4 Discusión

4.1 Reducción de la dimensionalidad del conjunto de datos y visualización de la estructura de las variables en componentes principales

4.1.1 Análisis realizado:

Con el objetivo de reducir la dimensionalidad de los datos y entender la estructura subyacente de las variables, se realizó un Análisis de Componentes Principales (PCA). Primero, se construyó una matriz de datos a partir de las variables numéricas seleccionadas, luego, se escaló esta matriz para asegurar que todas las variables contribuyeran de manera equitativa. Se determinó el número óptimo de componentes principales mediante una gráfica que muestra el porcentaje de varianza explicado por cada componente. Finalmente, se visualizó la contribución de las variables a los componentes principales en un gráfico, destacando las variables que más aportan a cada componente. La visualización resultante muestra cómo se distribuyen las variables en el espacio de los componentes principales y los resultados obtenidos son los que se muestran a continuación:

Nota: Dentro de las variables selecionadas no fue incluida la variable de precio al estarse considerando como variable independiente (ya que el objetivo es analizar la influencia de las demás variables sobre la variación de precios y oferta del mercado) ni tampoco el ID y las coordenadas, al no considerarse relevantes dentro del estudio.

## # A tibble: 6 × 5
##    piso areaconst parqueaderos banios habitaciones
##   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1     3        70            1      3            6
## 2     3       120            1      2            3
## 3     3       220            2      2            4
## 4     2       280            3      5            3
## 5     1        90            1      2            3
## 6     1        87            1      3            3

4.1.2 Conclusión:

El Análisis de Componentes Principales (PCA) realizado previamente permitio identificar las principales dimensiones que explican la variabilidad de los precios y oferta del mercado inmobiliario, mostrando lo siguiente:

1- Gráfica del porcentaje de varianza explicada: Muestra que las dos dimensiones iniciales capturan el 70.8% de la variabilidad en el conjunto de datos, lo que indica que los componentes formados en estas 2 dimensiones son cruciales para comprender la estructura subyacente del precio.

2- El gráfico de contribución de las variables: Revela que ciertas características, como el área construida, el número de baños y el número de pisos, tienen una mayor influencia en la variación observada, mientras que otras variables tienen un impacto menor. Adicionalmente el grafico muestra queel primer componente podría estar integrado por el área construida y el número de baños, mientras que el segundo componente por el número de pisos.

Estos hallazgos sugieren que la variabilidad de precios y oferta en el mercado inmobiliario puede ser explicada principalmente por las características clave mencionadas previamente, lo que facilita la identificación de patrones y relaciones importantes para la toma de decisiones estratégicas en el análisis del mercado.

4.2 Agrupación de las propiedades residenciales en segmentos homogéneos con características similares

4.2.1 Análisis realizado:

Con el objetivo de identificar segmentos homogéneos en el mercado inmobiliario, se realizó un análisis de conglomerados. Primero, se prepararon los datos seleccionando variables relevantes y convirtiendo las categóricas en variables dummy. Los datos fueron estandarizados y se calculó la distancia euclidiana para realizar el clustering jerárquico. Se determinó el número óptimo de clústeres utilizando el método del codo, con el valor óptimo identificado a partir de la gráfica. Se visualizó el dendrograma para observar la estructura de los clústeres con una muestra de tamaño 20 para poder ejemplificar facilmente como se veria la estructura y jerarquia de los clusteres, esto debido a que se poseen muchos datos. Finalmente se evaluó la calidad del clustering mediante el coeficiente de Silhouette, proporcionando una medida de cohesión y separación de los clústeres formados. La visualización y análisis resultante se presentan a continuación:

Nota: Dentro de las variables selecionadas no fueron incluidas las variables de estrato y zona, al considerarse variables independientes, ya que se pretende entender en diferentes partes de la ciudad (variable zona) y en diferentes estratos (variable estrato) la dinámica de las oferta de viviendas, ni tampoco se incluyeron las variables ID y de coordenadas al no considerarse relevantes dentro del estudio.

## tibble [8,322 × 6] (S3: tbl_df/tbl/data.frame)
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo_Casa   : int [1:8322] 1 1 1 1 0 0 0 0 1 1 ...

## Coeficiente de Silhouette promedio con k = 9 :  0.3935963

4.2.2 Conclusión:

El análisis de conglomerados realizado previamente nos muestra lo siguiente:

1- Número óptimo de clústeres: Mediante el método del codo se encontro que el número óptimo es de k=9 clusteres. Esto sugiere que las propiedades están razonablemente bien agrupadas en nueve segmentos.

3- Coeficiente de Silhouette promedio: Muestra que un número de clusteres de k=9 proporcionan una calidad moderada en la agrupación de las propiedades residenciales.

2- Dendrograma: Muestra cómo se agrupan las propiedades, destacando la existencia de los 9 grupos identificados con características comunes que pueden ser utilizados para dirigir estrategias específicas en la oferta inmobiliaria.

Estos hallazgos facilitan la identificación de patrones de mercado y permiten una mejor adaptación de las estrategias comerciales a las necesidades de cada segmento identificado.

4.3 Relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario

4.3.1 Análisis realizado:

Para abordar el análisis de correspondencia, se calculó la tabla de contingencia que muestra la relación entre las zonas y los tipos de vivienda. Se realizó una prueba de chi-cuadrado para determinar si existía una asociación significativa entre estas variables. A continuación, se llevó a cabo el análisis de correspondencia para explorar las relaciones entre las variables categóricas, y finalmente la representación gráfica del grado de representatividad de los ejes principales del análisis de correspondencia se visualizó mediante un gráfico de screeplot, que muestra el porcentaje de varianza explicado por cada eje. La visualización y análisis resultante se presentan a continuación:

##               
##                Apartamento Casa
##   Zona Centro           24  100
##   Zona Norte          1198  722
##   Zona Oeste          1029  169
##   Zona Oriente          62  289
##   Zona Sur            2790 1939
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_contingencia
## X-squared = 690.79, df = 4, p-value < 2.2e-16
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.08300733                    100                               100

4.3.2 Conclusión:

El análisis de correspondencia muestra un valor del estadístico chi-cuadrado significativo (X-squared = 690.79, p < 2.2e-16), lo que indica una fuerte asociación entre las variables categóricas (tipo de vivienda y zona). Sin embargo, el primer eje del análisis de correspondencia explica el 100% de la varianza, lo que sugiere que gran parte de la variabilidad en los datos puede estar concentrada en una sola dimensión. Esto implica que los patrones de comportamiento en el mercado inmobiliario están fuertemente influenciados por una combinación particular de estas variables, lo que facilita la identificación de las relaciones clave en la oferta de viviendas.

4.4 Visualización de resultados y conclusiones

4.4.1 Estructura de las variables en componentes principales estructura de las variables en componentes principales

Como se menciono previamente y se puede corrroborar con el siguiente gráfico, los hallazgos encontrados sugieren que la variabilidad de precios y oferta en el mercado inmobiliario puede ser explicada principalmente por 2 componentes, los cuales tienen en cuenta caracteristicas de la vivienda tales como el área construida, el número de baños y el número de pisos. Adicionalmente el grafico muestra queel primer componente podría estar integrado por el área construida y el número de baños, mientras que el segundo componente por el número de pisos.

4.4.2 Dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos, según el agrupamiento de las propiedades residenciales en segmentos homogéneos.

Como se mencionó anteriormente, un número de clusters de k = 9 ofrece una calidad moderada en la agrupación de las propiedades residenciales, lo que sugiere que podrían existir 9 segmentos homogéneos con características similares. Con esto en mente, y con el objetivo de comprender mejor las dinámicas de las ofertas específicas, a continuación, se presentan gráficas que describen las características de las viviendas segmentadas por zona y estrato. Lo anterior a través de boxplots que muestran la distribución de cada una de las variables númericas en cada cluster para cada tipo de vivienda, diferenciando por zonas y estratos. Estos boxplots permiten observar cómo varían las caracteristicas de las viviendas en función de los clusters identificados y revelan las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

4.4.3 Relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.

Como se mencionó previamente, la distribución de apartamentos y casas varía considerablemente entre las diferentes zonas, mostrando que ciertas áreas tienen una oferta predominante de un tipo específico de vivienda. El siguiente gráfico muestra la ubicación geográfica de las propiedades, diferenciadas por el tipo de vivienda, utilizando los datos de latitud y longitud. Cada tipo de vivienda está representado por un color específico en el mapa interactivo, lo que permite observar patrones espaciales y concentraciones de tipos de vivienda en diferentes áreas de la ciudad. Este enfoque visual ayuda a identificar zonas con una oferta predominante de ciertos tipos de propiedades, y facilita la comprensión de cómo la oferta inmobiliaria se distribuye a lo largo de la ciudad.

4.5 Anexos

  1. Diagnostico de base de datos sin depurar ver aquí.
  2. Diagnostico de base de datos depurada ver aquí.