1. Introducción

Cali es la tercera ciudad más poblada de Colombia y una de las más estables económicamente, tiene un gran potencial de crecimiento lo que la hace atractiva para residir en ella, lo que se refleja en su alta demanda en el mercado inmobiliario.

En este proyecto, usando R, se realiza un análisis estadístico descriptivo del comportamiento del mercado inmobiliario de acuerdo a la información recogida por la empresa B&C, esto con el propósito de que sea útil para la toma de decisiones comerciales.

2. Objetivos

3. Métodos

Los datos son obtenidos de la librería paqueteMETODOS de R y, analizados a través de la misma herramienta haciendo uso de diferentes paquetes que permiten realizar un análisis estadístico descriptivo, de acuerdo a la siguiente metodología.

3.1. Cargue de datos

data(vivienda_faltantes)
head(vivienda_faltantes)
ByC <- vivienda_faltantes
ByC
## # A tibble: 8,330 × 13
##       id zona        piso estrato preciom areaconst parquea banios habitac tipo 
##    <dbl> <chr>      <dbl>   <dbl>   <dbl>     <dbl>   <dbl>  <dbl>   <dbl> <chr>
##  1  8312 Zona Oeste     4       6    1300       318       2      4       2 Apar…
##  2  8311 Zona Oeste     1       6     480       300       1      4       4 Casa 
##  3  8307 Zona Oeste    NA       5    1200       800       4      7       5 Casa 
##  4  8296 Zona Sur       2       3     220       150       1      2       4 Casa 
##  5  8297 Zona Oeste    NA       5     330       112       2      4       3 Casa 
##  6  8298 Zona Sur      NA       5    1350       390       8     10      10 Casa 
##  7  8299 Zona Sur       2       6     305       125       2      3       3 Apar…
##  8  8300 Zona Oeste    NA       5     480       280       4      4       4 Apar…
##  9  8286 Zona Sur      NA       5     275        74       1      2       3 Apar…
## 10  8287 Zona Sur       2       5     285       120       2      4       3 Apar…
## # ℹ 8,320 more rows
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

3.2. Identificación de datos faltantes por variable

faltantes <- colSums(is.na(ByC)) %>% as.data.frame() 
faltantes
##              .
## id           3
## zona         3
## piso      2641
## estrato      3
## preciom      2
## areaconst    3
## parquea   1606
## banios       3
## habitac      3
## tipo         3
## barrio       3
## longitud     3
## latitud      3
library(naniar)
gg_miss_var(ByC)

VIM::aggr(ByC, cex.axis =1, cex.lab=1)

3.3. Imputación y estandarización de datos

  • Imputar por cero. Los datos faltantes de la variable “parquea” sugiere que esos inmuebles no tienen parqueaderos.
ByC$parquea[is.na(ByC$parquea)] <- 0
  • Imputar por la moda. La variable “piso” es cualitativa de escala ordinal, por lo que los datos faltantes se reemplazan por la moda.
moda_piso <- Mode(ByC$piso, na.rm = TRUE)
ByC$piso[is.na(ByC$piso)] <- moda_piso
  • Eliminar registros con datos faltantes.
ByC <- na.omit(ByC)
  • Estandarizar variable “tipo” ya que realmente consta de dos opciones.
ByC$tipo <- ifelse(ByC$tipo=="Casa","CASA",ifelse(ByC$tipo=="casa","CASA",ByC$tipo))
ByC$tipo <- ifelse(ByC$tipo=="apto","APARTAMENTO",ifelse(ByC$tipo=="Apartamento","APARTAMENTO",ByC$tipo))
table(ByC$tipo)
## 
## APARTAMENTO        CASA 
##        5106        3221
  • Ajustar las variables “longitud” y “latitud” de acuerdo a las coordenadas válidas.
ByC$longitud <- ifelse(ByC$longitud<=-90,ByC$longitud/1000,ByC$longitud)
ByC$latitud <- ifelse(ByC$latitud>=270,ByC$latitud/1000,ByC$latitud)
  • Definir las varibles “estrato”, “piso”, “parquea”, “banios” y, “habitac” como cualitativas de escala ordinal.
ByC$estrato <- as.character(ByC$estrato) 
ByC$piso <- as.character(ByC$piso) 
ByC$parquea <- as.character(ByC$parquea) 
ByC$banios <- as.character(ByC$banios) 
ByC$habitac <- as.character(ByC$habitac) 
  • Crear variable “preciom2” equivalente al precio de venta por metro cuadrado.
ByC$preciom2 <- ByC$preciom/ByC$areaconst
  • Verificar que después de la imputación no se cuenta con datos faltantes.
faltantes <- colSums(is.na(ByC)) %>% as.data.frame() 
faltantes
##           .
## id        0
## zona      0
## piso      0
## estrato   0
## preciom   0
## areaconst 0
## parquea   0
## banios    0
## habitac   0
## tipo      0
## barrio    0
## longitud  0
## latitud   0
## preciom2  0
ByC
## # A tibble: 8,327 × 14
##       id zona       piso  estrato preciom areaconst parquea banios habitac tipo 
##    <dbl> <chr>      <chr> <chr>     <dbl>     <dbl> <chr>   <chr>  <chr>   <chr>
##  1  8312 Zona Oeste 4     6          1300       318 2       4      2       APAR…
##  2  8311 Zona Oeste 1     6           480       300 1       4      4       CASA 
##  3  8307 Zona Oeste 2     5          1200       800 4       7      5       CASA 
##  4  8296 Zona Sur   2     3           220       150 1       2      4       CASA 
##  5  8297 Zona Oeste 2     5           330       112 2       4      3       CASA 
##  6  8298 Zona Sur   2     5          1350       390 8       10     10      CASA 
##  7  8299 Zona Sur   2     6           305       125 2       3      3       APAR…
##  8  8300 Zona Oeste 2     5           480       280 4       4      4       APAR…
##  9  8286 Zona Sur   2     5           275        74 1       2      3       APAR…
## 10  8287 Zona Sur   2     5           285       120 2       4      3       APAR…
## # ℹ 8,317 more rows
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>,
## #   preciom2 <dbl>

4. Resultados

4.1. Análisis de precios de venta de las viviendas en Cali

De acuerdo a la distribución geográfica de los precios de venta de las viviendas en Cali, se observa que los precios más altos están en el oeste y sur de la ciudad.

Analizando las medidas de tendencia central y dispersión de los precios de las viviendas por estrato socioeconómico, se tiene que los precios más altos corresponden al estrato 6 con un promedio de 801M COP, frente a un promedio de 210M COP en estrato 3, equivalente a un 26%, es decir que, en promedio una vivienda en estrato 3 cuesta la cuarta parte de una en estrato 6.

estrato n Min. Q1 Median Q3 Max. Mean Sd
3 1453 58 120 160 270 1600 210 134
4 2131 78 165 235 335 1800 275 158
5 2751 89 270 350 470 1999 410 224
6 1992 128 515 700 990 1950 801 380

Según el diagrama de cajas y alambres el 50% de los precios de venta de las viviendas de estrato 6 se encuentran entre dentro 515M COP y 990M COP, con la mayor desviación estándar de 380M COP. Mientras que para los estratos 3, 4 y 5, las desviaciones estándar son de 134M, 158M y 224M, respectivamente, lo que indica una menor dispersión de los datos. Para todos los estratos socioeconómicos el precio de venta de las casas es más alto que el de los apartamentos.

Continuando con el análisis de medidas de tendencia central y dispersión de los precios de las viviendas por zona, se confirma lo que se evidencia en el mapa anterior, esto es, los precios de venta son superiores en las zonas oeste y sur, con precios promedio de 679M COP y 427M COP, respectivamente, presentando las mayores dispersiones en precios con desviaciones estándar de 393M y 323M.

zona n Min. Q1 Median Q3 Max. Mean Sd
Zona Centro 124 100 186 297 364 1100 310 162
Zona Norte 1922 65 160 300 430 1940 346 241
Zona Oeste 1204 85 394 580 900 1999 679 393
Zona Oriente 351 58 145 210 290 1350 229 122
Zona Sur 4726 75 222 320 520 1900 427 323

En la zona oriente el 50% de las viviendas tienen precios entre 145M COP y 290M COP, con una baja dispersión representada por una desviación estándar de 122M. Al igual que en los estratos, en todas las zonas el precio promedio de venta de casas es superior que el de los apartamentos.

A pesar de que en promedio el precio de venta de las casas es superior al de los apartamentos, el precio promedio por metro cuadrado de los apartamentos es superior que el de las casas en cualquier estrato socioeconómico y zona.

## `summarise()` has grouped output by 'estrato'. You can override using the
## `.groups` argument.
PRECIO POR METRO CUADRADO POR ESTRATO/TIPO
estrato tipo Mean Sd
3 APARTAMENTO 2.0 0.5
3 CASA 1.6 0.7
4 APARTAMENTO 2.7 0.5
4 CASA 2.0 0.8
5 APARTAMENTO 3.1 0.8
5 CASA 2.1 0.8
6 APARTAMENTO 4.0 1.0
6 CASA 2.9 1.1
## `summarise()` has grouped output by 'zona'. You can override using the
## `.groups` argument.
PRECIO POR METRO CUADRADO POR ZONA/TIPO
zona tipo Mean Sd
Zona Centro APARTAMENTO 1.9 0.6
Zona Centro CASA 1.7 0.8
Zona Norte APARTAMENTO 2.8 0.9
Zona Norte CASA 1.8 0.7
Zona Oeste APARTAMENTO 3.9 1.1
Zona Oeste CASA 2.4 1.2
Zona Oriente APARTAMENTO 1.7 0.8
Zona Oriente CASA 1.4 0.6
Zona Sur APARTAMENTO 3.0 0.8
Zona Sur CASA 2.3 1.0

4.2. Análisis de tipo de vivienda ofertadas

En general, el tipo de vivienda más ofertado es apartamento con un 61,3% frente a un 38,7% de casa.

## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

El mayor número de inmuebles ofertados están en la zona sur.

4.3. Características más relevantes de las viviendas en Cali

Las variables piso, parquea, banios y, habitac no son determinantes al momento de definir el precio de una vivienda en Cali.

5. Conclusiones

Los precios de venta de las viviendas en Cali se comportan de acuerdo a los estratos socioeconómicos, esto es, entre más alto es el estrato mayor es el precio.

En Cali se ofertan más apartamentos que casas, sin embargo, las casas son más costosas, con la particularidad de que el valor del metro cuadrado es más costoso en los apartamentos.

La mayoría de inmuebles ofertados están ubicados en el segundo piso y cuentan con uno o dos parqueaderos y en su mayoría con dos baños y tres habitaciones.

6. Anexos

Se anexa el archivo RMD en la plataforma.