1. Introducción

La dinámica del sector inmobiliario de la ciudad de Cali plantea retos económico y sociales acordes con las tendencias del negocio. La comprensión del comportamiento del mercado implica adquirir una ventaja competitiva capaz de prever tendencias y movimientos de interés. Por esta razón, en el siguiente informe exploratorio de datos se presenta a la compañía B&C el comportamiento del sector inmobiliario relacionado con la caracterización de 8330 viviendas asociadas con 13 variables. Una vez evaluada la base de datos, se evidenció la existencia de valores nulos pertenecientes, en su mayoría a dos variables: parqueaderos y número de pisos de las viviendas; estas dos variables suman 4247 valores nulos, 51% del total. Sin embargo, no se tomó la decisión de prescindir de ellas ya que, y una vez establecidas las correlaciones, se consideraron significantes para la comprensión del modelo de comportamiento. Se tomó la decisión de eliminar los valores nulos, reduciéndose la base de datos a la mitad. Esta acción se sustentó en la importancia de tener una caracterización más pequeña de la original sin perder significancia, preservando la cohesión de los datos. No se decidió imputar datos ya que por las características de la información se corría el riesgo de generar sesgos importantes. Se prescindieron tres variables que no presentaron interés para la comprensión descriptiva. Las variables elegidas fueron id, longitud y latitud. Estas dos últimas pueden evaluarse a partir de la zona y el barrio de la vivienda de manera más clara y con un sentido más amplio que el geográfico. Finalmente, puede verse como la relación del precio de las viviendas depende de características específicas del área construida, el sector de ubicación (más específicamente el barrio) y el estrato, además de observar que el mercado de ventas se inclina más las viviendas tipo apartamento que a casas.

2. Objetivos General

Ofrecer información la compañía B&C a través del análisis descriptivo y exploratorio de 4051 observaciones representadas en 10 variables de estudio con el propósito de establecer herramientas para la toma de decisiones frente a la inversión de recursos en el sector inmobiliario de la ciudad de Cali.

2.1 Objetivos Específicos

• Evaluar el comportamiento de la variable precio de viviendas a partir de un sistema de correlaciones con el fin de identificar tendencias dentro del mercado inmobiliario de la ciudad de Cali.

• Proporcionar análisis estadísticos de tipo descriptivo a la compañía B&C para tomar decisiones frente a la inversión de recursos necesarios para competir en el mercado de ventas y alquiler de propiedades en la ciudad de Cali.

3. Métodos

El informe presentado a la compañía B&C se sustentó en el uso de herramientas estadísticas relacionadas con el software R dentro del entorno de visualización Studio, además del lenguaje Markdown para el procesamiento de texto y códigos. A través de esto, pudo analizarse y explicarse las relaciones causales de las variables para el costo de las viviendas, además de permitir la interpretación de los datos de acuerdo con los problemas surgidos dentro de la caracterización de la información en observaciones descriptivas. Estas herramientas permitieron efectuar la exposición de los problemas por medio de la organización y coherencia entre ideas, conceptos y argumentos para la decesión del actuar de la compañía inmobiliaria. Se hizo uso de métodos de clasificación, depuración y correlación a partir de librerías de desarrollo del software R.

4. Resultados

Los resultados del presente informe se sustentaron en procesos de exploración y descripción de datos pertenecientes a una caracterización tomada de https://pixabay.com/photos/city-church-architecture-cali-704322/. De una base original de 8330 registros relacionados con 13 variables, se efectuó la depuración de información sustentada en la eliminación de valores nulos. La caracterización final quedó compuesta de 4812 registros y 10 variables de estudio. Ya depurada la base de datos, se pasó a efectuar un proceso descriptivo orientado a la revisión de los indicadores de posición, distribución y dispersión generales. Se identificaron 3 variables categóricas y 7 numéricas las cuales fueron evaluadas a través de una matriz de correlaciones. En cuanto a las variables categóricas, la zona que predomina es el Sur de la ciudad, mientras el barrio con mayores registros es Valle del Lili, y los apartamentos son el tipo de vivienda con mayor preponderancia. El menor precio de venta de una vivienda fue de 58 millones, mientras la más cara estuvo en 1999 millones de pesos. Se detectó una vivienda de 12 pisos lo que puede asociarse con un mal registro o un edificio, sin embargo, es poco probable. Con lo que respecta a la relación de la variable precio con la zona de ubicación de la vivienda, puede evidenciarse que la zona Oeste presenta el promedio de precios más alto, seguido de la zona Sur, Norte, Centro y Oriente. Un aspecto relevante para considerar tiene que ver con la relación que existe entre el área construida y el precio de las viviendas. Contrario a lo que puede pensarse, la mayor área construida pertenece a las viviendas ubicadas en el sector de menores precios, esto es, la zona Oriente con un promedio de 199 metros cuadrados (el sector Sur, por ejemplo, presenta un promedio de 173 metros cuadrados de área construida)

Esta tabla representa las variables originales de la base de datos.

##  [1] "id"        "zona"      "piso"      "estrato"   "preciom"   "areaconst"
##  [7] "parquea"   "banios"    "habitac"   "tipo"      "barrio"    "longitud" 
## [13] "latitud"
##  [1] "zona"      "piso"      "estrato"   "preciom"   "areaconst" "parquea"  
##  [7] "banios"    "habitac"   "tipo"      "barrio"

Se establece una comparación entre la base de datos original y la base final. Se observa la eliminación de las variables id, longitud y latitud.

En esta tabla puede verse la estructura definitiva de los indicadores de medidas de tendencia central, dispersión y posición.

La siguiente tabla relaciona el porcentaje equivalente a los estratos socioeconómicos. El estrato 5 con un 38.6% es el de mayor frecuencia, seguido por el estrato 6, el 4 y por último el 3.

## 
##    3    4    5    6 
##  434 1213 1860 1305
## 
##          3          4          5          6 
## 0.09019119 0.25207814 0.38653367 0.27119701

Este gráfico representa la distribución de estratos de acuerdo con la caracterización. El estrato 5 sobresale de los demás indicando su representatividad dentro del marco de ventas. La distribución del gráfico plantea la posibiliad de que los datos se enfocaron a los sectores con mayor poder adquisitivo de la ciudad.

El comportamiento de la variable zona muestra el movimiento de las ventas en los sectores de la ciudad, siendo la zona Sur la de mayor significancia. El 63% de las ventas se consumaron en esta parte de Cali.

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##           36          887          756           97         3036
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##  0.007481297  0.184330840  0.157107232  0.020157938  0.630922693

El gráfico de la variable piso muestra que la mayoría de las viviendas caracterizadas contaban con 2 pisos o niveles.

## 
##    1    2    3    4    5    6    7    8    9   10   11   12 
##  663 1219  926  532  451  233  186  188  141  114   79   80
## 
##          1          2          3          4          5          6          7 
## 0.13778055 0.25332502 0.19243558 0.11055694 0.09372402 0.04842062 0.03865337 
##          8          9         10         11         12 
## 0.03906899 0.02930175 0.02369077 0.01641729 0.01662510

En cuanto a la variable precio, se observa una tendencia normal en la distribución de los datos. Se ve que el grueso de las ventas osciló entre 200 y 500 millones de pesos.

El grueso de los datos de la variable área construida se relaciona con valores entre 50 y 130 metros cuadrados.

La mayoría de las viviendas caracterizadas contaron con 1 y 2 parqueaderos, constituyendo el 84% de los registros.

## 
##    1    2    3    4    5    6    7    8    9   10 
## 2283 1789  345  270   46   48   15   10    2    4
## 
##            1            2            3            4            5            6 
## 0.4744389027 0.3717788861 0.0716957606 0.0561097257 0.0095594347 0.0099750623 
##            7            8            9           10 
## 0.0031172070 0.0020781380 0.0004156276 0.0008312552

En este gráfico se observa como la mayoría de las viviendas vendidas contaron con 2 y 3 baños, constituyendo el 61% de los registros. Una hecho particular se indica en la presencia de 7 viviendas sin baño lo cual constituye, sin lugar a duda, un error en la digitación de la información.

## 
##    0    1    2    3    4    5    6    7    8    9   10 
##    7  134 1664 1256  909  560  188   62   22    9    1
## 
##            0            1            2            3            4            5 
## 0.0014546966 0.0278470490 0.3458021613 0.2610141313 0.1889027431 0.1163757273 
##            6            7            8            9           10 
## 0.0390689942 0.0128844555 0.0045719036 0.0018703242 0.0002078138

Para la variable habitaciones, la mayoría de las viviendas de la base de datos contaron 3 y 4 habitaciones lo que constituye el 73% del total de habitaciones. Un aspecto para considera tiene que ver con el hecho de 17 viviendas no contaron con habitaciones, valor asociado con un error en la digitación.

## 
##    0    1    2    3    4    5    6    7    8    9   10 
##   17   35  477 2461 1092  372  163   81   45   44   25
## 
##           0           1           2           3           4           5 
## 0.003532835 0.007273483 0.099127182 0.511429759 0.226932668 0.077306733 
##           6           7           8           9          10 
## 0.033873649 0.016832918 0.009351621 0.009143807 0.005195345

El tipo de vivienda más vendida fue apartamento con el 65.6% de los registros.

## 
## Apartamento APARTAMENTO        apto        casa        Casa        CASA 
##        3159          24           3           5        1617           4
## 
##  Apartamento  APARTAMENTO         apto         casa         Casa         CASA 
## 0.6564837905 0.0049875312 0.0006234414 0.0010390690 0.3360349127 0.0008312552

Se estableció una relación entre la variable estrato y zona

##               
##                   3    4    5    6
##   Zona Centro    33    3    0    0
##   Zona Norte    141  184  483   79
##   Zona Oeste     19   51  181  505
##   Zona Oriente   94    2    1    0
##   Zona Sur      147  973 1195  721

Puede observarse como el barrio con mayor frecuencia es Valle de Lili, el tipo de vivienda más vendida fue de tipo apartamento, y el la zona Sur fue la que presentó mayores registros.

## [1] "valle del lili"
## [1] "Apartamento"
## [1] "Zona Sur"

Puede observarse a relación de la variable zona con las variables precio y área. La zona con precios más altos corresponde al Oeste de la ciudad, mientras los más bajos precios corresponden a la zona Oriente. Por otra parte, la variable área construida parece no estar muy relacionada con el precio de las viviendas ya que la zona con menores precios cuenta con las viviendas con más área construida.

5. Discusión

La mayoría de las observaciones que componen la base de datos corresponden a sectores con medios y altos ingresos. Este hecho puede evidenciarse en los datos existentes por estrato. En el estrato 6 se tomaron 1305 registros, para el estrato 5 se relacionaron 1860, para el estrato 4 se tomaron 1213, y para el 3 un total de 434. La enorme brecha entre el estrato con más registros con respecto al menor es muy considerable. Este hecho puede llevar a los directivos de B&C a pasar por alto una parte del mercado inmobiliario significativa. La ciudad de Cali se caracteriza por tener una fuerza laboral amplia lo que representa un crecimiento de población orientado a sectores urbanos de renta básica y media. Otros aspecto para considerar tiene que ver con el costo de las viviendas en el sector Oeste de la ciudad. De acuerdo con esto, sólo el 16% de las ventas se realizaron en esa parte, sin embargo, constituyeron el promedio más alto de precios, 686 millones de pesos.

6. Conclusiones

A través del análisis exploratorio y descriptivo de los datos de la caracterización, puede observarse las tendencias del mercado inmobiliario de la ciudad de Cali. Por esta razón, los directivos de B&C pudieron observar la relación que existe entre los sectores con el precio de las viviendas, además de detectar fuentes potenciales para el negocio. La fala de datos frente a sectores de amplio crecimiento y con poder adquisitivo emergente plantea una serie de retos que deben ser abordados con el fin de llegar a más población a través de la comprensión de las necesidades de vivienda. A partir de la descripción del comportamiento de los datos, los directivos de B&C podrán evaluar el tipo de esfuerzo de acuerdo con las características sectoriales. Podrán evaluar qué lugares son más propensos para las ventas y cuales para el arrendamiento. La importancia de continuar en sectores altamente competidos y con elevados precios, o expandir el negocio a sectores emergentes y con alta población.

7. Anexos

7.1. Librerías usadas.

library(learnr) library(devtools) library(paqueteMET) library(dbplyr) library(ggplot2) library(ggthemes) library(DataExplorer) library(mice) library(naniar) library(tibble) library(nortest) library(psych) library(corrplot) library(lattice) library(reticulate) library(sqldf) library(vembedr) library(fdth) library(modeest) library(dplyr)

7.2. Códigos.

Depuración de la base de datos:

df_1 = vivienda_faltantes[, -1] df_1 = df_1[, -11] df_1 = df_1[, -11] colnames(df_1)

f_1 = na.omit(df_1) head(df_1)

+++++++++++++++++++++++++++++++

Indicadores

psych::describe(df_2) mfv(df_1\(barrio) mfv(df_1\)tipo) mfv(df_1$zona)

++++++++++++++++++++++++++++++

Tablas en porcentajes

table(df_1\(estrato) my_table = table(df_1\)estrato) prop.table(my_table)

++++++++++++++++++++++++++++++

Gráficas

barplot(table(df_1$tipo), main = ‘Tipos de Vivienda’, xlab = ‘Tipos’, ylab = ‘Número de Viviendas’, col= ‘purple’)

++++++++++++++++++++++++++++++

Agrupación de datos y frecuencias

grupos = aggregate(cbind(df_1\(preciom, df_1\)areaconst) ~ df_1$zona, data = df_1, FUN = mean) colnames(grupos) = c(‘Zona’, ‘Precio’, ‘Area’) grupos

+++++++++++++++++++++++++++++

Correlaciones

df_1 = Filter(is.numeric, df) cor(Filter(is.numeric, df)) df_1 = cor(df_1, method = ‘pearson’) round(df_1, digits = 2) corrplot(df_1) corrplot(df_1, method = ‘shade’, shade.col = NA, tl.col = ‘black’, tl.srt = 45)

corrplot(df_1, method = ‘shade’, shade.col = NA, tl.col = ‘black’, tl.srt = 45, addCoef.col = ‘black’, addcolorlabel = ‘no’, order = ‘hclust’, type = ‘upper’, diag = F, addshade = ‘all’)