La dinámica del sector inmobiliario de la ciudad de Cali plantea retos económico y sociales acordes con las tendencias del negocio. La comprensión del comportamiento del mercado implica adquirir una ventaja competitiva capaz de prever tendencias y movimientos de interés. Por esta razón, en el siguiente informe exploratorio de datos se presenta a la compañía B&C el comportamiento del sector inmobiliario relacionado con la caracterización de 8330 viviendas asociadas con 13 variables. Una vez evaluada la base de datos, se evidenció la existencia de valores nulos pertenecientes, en su mayoría a dos variables: parqueaderos y número de pisos de las viviendas; estas dos variables suman 4247 valores nulos, 51% del total. Sin embargo, no se tomó la decisión de prescindir de ellas ya que, y una vez establecidas las correlaciones, se consideraron significantes para la comprensión del modelo de comportamiento. Se tomó la decisión de eliminar los valores nulos, reduciéndose la base de datos a la mitad. Esta acción se sustentó en la importancia de tener una caracterización más pequeña de la original sin perder significancia, preservando la cohesión de los datos. No se decidió imputar datos ya que por las características de la información se corría el riesgo de generar sesgos importantes. Se prescindieron tres variables que no presentaron interés para la comprensión descriptiva. Las variables elegidas fueron id, longitud y latitud. Estas dos últimas pueden evaluarse a partir de la zona y el barrio de la vivienda de manera más clara y con un sentido más amplio que el geográfico. Finalmente, puede verse como la relación del precio de las viviendas depende de características específicas del área construida, el sector de ubicación (más específicamente el barrio) y el estrato, además de observar que el mercado de ventas se inclina más las viviendas tipo apartamento que a casas.
Ofrecer información la compañía B&C a través del análisis descriptivo y exploratorio de 4051 observaciones representadas en 10 variables de estudio con el propósito de establecer herramientas para la toma de decisiones frente a la inversión de recursos en el sector inmobiliario de la ciudad de Cali.
• Evaluar el comportamiento de la variable precio de viviendas a partir de un sistema de correlaciones con el fin de identificar tendencias dentro del mercado inmobiliario de la ciudad de Cali.
• Proporcionar análisis estadísticos de tipo descriptivo a la compañía B&C para tomar decisiones frente a la inversión de recursos necesarios para competir en el mercado de ventas y alquiler de propiedades en la ciudad de Cali.
El informe presentado a la compañía B&C se sustentó en el uso de herramientas estadísticas relacionadas con el software R dentro del entorno de visualización Studio, además del lenguaje Markdown para el procesamiento de texto y códigos. A través de esto, pudo analizarse y explicarse las relaciones causales de las variables para el costo de las viviendas, además de permitir la interpretación de los datos de acuerdo con los problemas surgidos dentro de la caracterización de la información en observaciones descriptivas. Estas herramientas permitieron efectuar la exposición de los problemas por medio de la organización y coherencia entre ideas, conceptos y argumentos para la decesión del actuar de la compañía inmobiliaria. Se hizo uso de métodos de clasificación, depuración y correlación a partir de librerías de desarrollo del software R.
Los resultados del presente informe se sustentaron en procesos de exploración y descripción de datos pertenecientes a una caracterización tomada de https://pixabay.com/photos/city-church-architecture-cali-704322/. De una base original de 8330 registros relacionados con 13 variables, se efectuó la depuración de información sustentada en la eliminación de valores nulos. La caracterización final quedó compuesta de 4812 registros y 10 variables de estudio. Ya depurada la base de datos, se pasó a efectuar un proceso descriptivo orientado a la revisión de los indicadores de posición, distribución y dispersión generales. Se identificaron 3 variables categóricas y 7 numéricas las cuales fueron evaluadas a través de una matriz de correlaciones. En cuanto a las variables categóricas, la zona que predomina es el Sur de la ciudad, mientras el barrio con mayores registros es Valle del Lili, y los apartamentos son el tipo de vivienda con mayor preponderancia. El menor precio de venta de una vivienda fue de 58 millones, mientras la más cara estuvo en 1999 millones de pesos. Se detectó una vivienda de 12 pisos lo que puede asociarse con un mal registro o un edificio, sin embargo, es poco probable. Con lo que respecta a la relación de la variable precio con la zona de ubicación de la vivienda, puede evidenciarse que la zona Oeste presenta el promedio de precios más alto, seguido de la zona Sur, Norte, Centro y Oriente. Un aspecto relevante para considerar tiene que ver con la relación que existe entre el área construida y el precio de las viviendas. Contrario a lo que puede pensarse, la mayor área construida pertenece a las viviendas ubicadas en el sector de menores precios, esto es, la zona Oriente con un promedio de 199 metros cuadrados (el sector Sur, por ejemplo, presenta un promedio de 173 metros cuadrados de área construida)
Esta tabla representa las variables originales de la base de datos.
## [1] "id" "zona" "piso" "estrato" "preciom" "areaconst"
## [7] "parquea" "banios" "habitac" "tipo" "barrio" "longitud"
## [13] "latitud"
## [1] "zona" "piso" "estrato" "preciom" "areaconst" "parquea"
## [7] "banios" "habitac" "tipo" "barrio"
Se establece una comparación entre la base de datos original y la base final. Se observa la eliminación de las variables id, longitud y latitud.
En esta tabla puede verse la estructura definitiva de los indicadores de medidas de tendencia central, dispersión y posición.La siguiente tabla relaciona el porcentaje equivalente a los estratos socioeconómicos. El estrato 5 con un 38.6% es el de mayor frecuencia, seguido por el estrato 6, el 4 y por último el 3.
##
## 3 4 5 6
## 434 1213 1860 1305
##
## 3 4 5 6
## 0.09019119 0.25207814 0.38653367 0.27119701
Este gráfico representa la distribución de estratos de acuerdo con la caracterización. El estrato 5 sobresale de los demás indicando su representatividad dentro del marco de ventas. La distribución del gráfico plantea la posibiliad de que los datos se enfocaron a los sectores con mayor poder adquisitivo de la ciudad.
El comportamiento de la variable zona muestra el movimiento de las
ventas en los sectores de la ciudad, siendo la zona Sur la de mayor
significancia. El 63% de las ventas se consumaron en esta parte de
Cali.
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 36 887 756 97 3036
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 0.007481297 0.184330840 0.157107232 0.020157938 0.630922693
El gráfico de la variable piso muestra que la mayoría de las viviendas
caracterizadas contaban con 2 pisos o niveles.
##
## 1 2 3 4 5 6 7 8 9 10 11 12
## 663 1219 926 532 451 233 186 188 141 114 79 80
##
## 1 2 3 4 5 6 7
## 0.13778055 0.25332502 0.19243558 0.11055694 0.09372402 0.04842062 0.03865337
## 8 9 10 11 12
## 0.03906899 0.02930175 0.02369077 0.01641729 0.01662510
En cuanto a la variable precio, se observa una tendencia normal en la
distribución de los datos. Se ve que el grueso de las ventas osciló
entre 200 y 500 millones de pesos.
El grueso de los datos de la variable área construida se relaciona con
valores entre 50 y 130 metros cuadrados.
La mayoría de las viviendas caracterizadas contaron con 1 y 2
parqueaderos, constituyendo el 84% de los registros.
##
## 1 2 3 4 5 6 7 8 9 10
## 2283 1789 345 270 46 48 15 10 2 4
##
## 1 2 3 4 5 6
## 0.4744389027 0.3717788861 0.0716957606 0.0561097257 0.0095594347 0.0099750623
## 7 8 9 10
## 0.0031172070 0.0020781380 0.0004156276 0.0008312552
En este gráfico se observa como la mayoría de las viviendas vendidas
contaron con 2 y 3 baños, constituyendo el 61% de los registros. Una
hecho particular se indica en la presencia de 7 viviendas sin baño lo
cual constituye, sin lugar a duda, un error en la digitación de la
información.
##
## 0 1 2 3 4 5 6 7 8 9 10
## 7 134 1664 1256 909 560 188 62 22 9 1
##
## 0 1 2 3 4 5
## 0.0014546966 0.0278470490 0.3458021613 0.2610141313 0.1889027431 0.1163757273
## 6 7 8 9 10
## 0.0390689942 0.0128844555 0.0045719036 0.0018703242 0.0002078138
Para la variable habitaciones, la mayoría de las viviendas de la base de
datos contaron 3 y 4 habitaciones lo que constituye el 73% del total de
habitaciones. Un aspecto para considera tiene que ver con el hecho de 17
viviendas no contaron con habitaciones, valor asociado con un error en
la digitación.
##
## 0 1 2 3 4 5 6 7 8 9 10
## 17 35 477 2461 1092 372 163 81 45 44 25
##
## 0 1 2 3 4 5
## 0.003532835 0.007273483 0.099127182 0.511429759 0.226932668 0.077306733
## 6 7 8 9 10
## 0.033873649 0.016832918 0.009351621 0.009143807 0.005195345
El tipo de vivienda más vendida fue apartamento con el 65.6% de los
registros.
##
## Apartamento APARTAMENTO apto casa Casa CASA
## 3159 24 3 5 1617 4
##
## Apartamento APARTAMENTO apto casa Casa CASA
## 0.6564837905 0.0049875312 0.0006234414 0.0010390690 0.3360349127 0.0008312552
Se estableció una relación entre la variable estrato y zona
##
## 3 4 5 6
## Zona Centro 33 3 0 0
## Zona Norte 141 184 483 79
## Zona Oeste 19 51 181 505
## Zona Oriente 94 2 1 0
## Zona Sur 147 973 1195 721
Puede observarse como el barrio con mayor frecuencia es Valle de Lili, el tipo de vivienda más vendida fue de tipo apartamento, y el la zona Sur fue la que presentó mayores registros.
## [1] "valle del lili"
## [1] "Apartamento"
## [1] "Zona Sur"
Puede observarse a relación de la variable zona con las variables precio y área. La zona con precios más altos corresponde al Oeste de la ciudad, mientras los más bajos precios corresponden a la zona Oriente. Por otra parte, la variable área construida parece no estar muy relacionada con el precio de las viviendas ya que la zona con menores precios cuenta con las viviendas con más área construida.
La mayoría de las observaciones que componen la base de datos corresponden a sectores con medios y altos ingresos. Este hecho puede evidenciarse en los datos existentes por estrato. En el estrato 6 se tomaron 1305 registros, para el estrato 5 se relacionaron 1860, para el estrato 4 se tomaron 1213, y para el 3 un total de 434. La enorme brecha entre el estrato con más registros con respecto al menor es muy considerable. Este hecho puede llevar a los directivos de B&C a pasar por alto una parte del mercado inmobiliario significativa. La ciudad de Cali se caracteriza por tener una fuerza laboral amplia lo que representa un crecimiento de población orientado a sectores urbanos de renta básica y media. Otros aspecto para considerar tiene que ver con el costo de las viviendas en el sector Oeste de la ciudad. De acuerdo con esto, sólo el 16% de las ventas se realizaron en esa parte, sin embargo, constituyeron el promedio más alto de precios, 686 millones de pesos.
A través del análisis exploratorio y descriptivo de los datos de la caracterización, puede observarse las tendencias del mercado inmobiliario de la ciudad de Cali. Por esta razón, los directivos de B&C pudieron observar la relación que existe entre los sectores con el precio de las viviendas, además de detectar fuentes potenciales para el negocio. La fala de datos frente a sectores de amplio crecimiento y con poder adquisitivo emergente plantea una serie de retos que deben ser abordados con el fin de llegar a más población a través de la comprensión de las necesidades de vivienda. A partir de la descripción del comportamiento de los datos, los directivos de B&C podrán evaluar el tipo de esfuerzo de acuerdo con las características sectoriales. Podrán evaluar qué lugares son más propensos para las ventas y cuales para el arrendamiento. La importancia de continuar en sectores altamente competidos y con elevados precios, o expandir el negocio a sectores emergentes y con alta población.
library(learnr) library(devtools) library(paqueteMET) library(dbplyr) library(ggplot2) library(ggthemes) library(DataExplorer) library(mice) library(naniar) library(tibble) library(nortest) library(psych) library(corrplot) library(lattice) library(reticulate) library(sqldf) library(vembedr) library(fdth) library(modeest) library(dplyr)
Depuración de la base de datos:
df_1 = vivienda_faltantes[, -1] df_1 = df_1[, -11] df_1 = df_1[, -11] colnames(df_1)
f_1 = na.omit(df_1) head(df_1)
+++++++++++++++++++++++++++++++
Indicadores
psych::describe(df_2) mfv(df_1\(barrio) mfv(df_1\)tipo) mfv(df_1$zona)
++++++++++++++++++++++++++++++
Tablas en porcentajes
table(df_1\(estrato) my_table = table(df_1\)estrato) prop.table(my_table)
++++++++++++++++++++++++++++++
Gráficas
barplot(table(df_1$tipo), main = ‘Tipos de Vivienda’, xlab = ‘Tipos’, ylab = ‘Número de Viviendas’, col= ‘purple’)
++++++++++++++++++++++++++++++
Agrupación de datos y frecuencias
grupos = aggregate(cbind(df_1\(preciom, df_1\)areaconst) ~ df_1$zona, data = df_1, FUN = mean) colnames(grupos) = c(‘Zona’, ‘Precio’, ‘Area’) grupos
+++++++++++++++++++++++++++++
Correlaciones
df_1 = Filter(is.numeric, df) cor(Filter(is.numeric, df)) df_1 = cor(df_1, method = ‘pearson’) round(df_1, digits = 2) corrplot(df_1) corrplot(df_1, method = ‘shade’, shade.col = NA, tl.col = ‘black’, tl.srt = 45)
corrplot(df_1, method = ‘shade’, shade.col = NA, tl.col = ‘black’, tl.srt = 45, addCoef.col = ‘black’, addcolorlabel = ‘no’, order = ‘hclust’, type = ‘upper’, diag = F, addshade = ‘all’)