Introducción
El mercado de Bienes Raíces ha crecido significativamente en los últimos años en la ciudad de Cali. Para el año 2022 las ventas de inmuebles alcanzaron los $6.700 millones de pesos y para el año 2023 las ventas fueron de $6.100 millones. Buscando aprovechar este crecimiento, se pretende, a partir de un conjunto de datos de los inmuebles en venta en la ciudad, brindar información basada en la estadística que sirva como base para la toma de decisiones estratégicas que orienten a Bienes y Casas (B&C) para aprovechar este crecimiento del sector.
El informe estadístico proporcionará información sobre:
Metodología
Para llegar a los resultados e este análisis descriptivo se siguieron los siguientes pasos:
Resumen de Resultados
Como se puede ver en la gráfica, la zona con mejores precios es la zona Oeste, seguida por la Sur y la norte. En cuanto al tipo de inmueble, las casas presentan mejores promedios que los apartamentos en todas las zonas, y en general, los tipos y zonas mejores clasificados en cuanto al valor, son, en este orden: Casas en el Oeste, Apartamentos en el Oeste, Casas en el Sur, Casas en el Norte.
Los apartamentos son el tipo de inmueble con mayor cantidad de ofertas en la ciudad de Cali superando en cantidad a las casas en la zona Norte, Oeste y Sur. En las zonas Centro y Oriente, hay más casas ofertadas, en una proporción aproximada de 6 a 1.
## Apartamentos Casas
## Cantidad 3704 3166
Aunque hay más apartamentos que casas, las casas presentan mayores valores en su precio, lo que las hace más atractivas. Las zonas organizadas por su promedio de venta son: la Oeste, la Sur, la Norte, la Centro y la Oriente.
Sugerencias a modo de Conclusiones
El conjunto de datos tiene muchas irregularidades. Esto, no solo alarga el proceso de procesamiento de la información, sino que también siembre una duda sobre los resultados obtenidos. Para una siguiente opotunidad, se sugiere conseguir datos de las ventas efectivas realizadas en la ciudad de Cali, de donde se pueden sacar datos concretos de precios de venta y características de las viviendas, como su ubicación y otros datos que están probablemente ya verificados o con mejor calidad.
Por otro lado, se sugiere que en el proceso de entendimiento y procesamiento de los datos, esté vinculado alguien de la empresa, pues esto haría que las decisiones que se tomaran sobre los datos pudieran tener más sentido desde el punto de vista estratégico y de conocimiento de negocio.
También, es positivo para el análisis que se conozcan detalles sobre la operación de la empresa, tales como volumen de ventas, cantidad de agentes inmobiliarios, utilidades anteriores, y si hay metas ya planteadas para los periodos futuros. Esto facilitaría el trabajo conjunto y aumentaría las probabilidades de éxito del proyecto. importante hacerlo.
Se presenta a continuación todo el proceso de análisis que se llevó a cabo para la Inmobiliaria B&C.
Para los próximos años, se espera que el mercado inmobiliario en la Ciudad de Cali siga subiendo como en años anteriores, brindando oportunidades para los actores que logren identificar las características más relevantes de su comportamiento. Para aprovechar esta oportunidad, se entrega el presente informe a la junta directiva de la agencia inmobiliaria B&C. En este informe se explica de manera general el proceso de ordenamiento y limpieza de datos, y se presenta un análisis descriptivo de los datos resultantes. Para esto, después de importar el conjunto de datos, y de realizar su limpieza, fusionando, eliminando, normalizando, estandarizando o imputando datos, según fuese necesario, se realizó un análisis de los datos para presentarlos en distintos gráficos y tablas que permitirán entender mejor las características del conjunto.
Posteriormente, se presentarán los resultados de dicho análisis y se realizará una discusión sobre los descubrimientos y dificultades encontradas en los datos, para finalmente, entregar las conclusiones de todo el ejercicio. Como anexo, se podrá ver todo el codigo ejecutado en todas las partes del proceso.
A continuación, se presentan los objetivos que se buscaron con la realización de este estudio.
La inmobiliaria B&C desea tomar decisiones importantes sobre su negocio, tales como definir un nicho de mercado, desarrollar la estrategia de marketing, establecer precios de ventas y ofrecer servicios personalizados a sus clientes. Para poder lograr esto, el presente proyecto ha definido los siguientes objetivos:
Luego de importar los paquetes requeridos y de cargar la librería y los datos con los que vamos a trabajar, se dio una primera mirada al conjunto de datos.
Podemos observar que hay variables como id, zona, piso, estrato, preciom, areaconst, parquea, banios, habitac, tipo, barrio, latitud y longitud. Cada línea proporciona información sobre un inmueble en particular. Ahora veamos cuantos datos faltantes hay en el dataset.
Eliminemos los registros con datos faltantes en la columna id, y volvamos a revisar los datos faltantes del conjunto de datos.
La columna id no aporta información valiosa al estudio, así que la eliminaremos. De igual forma, las variables longitud y latitud no se hacen relevantes para este estudio, dado que se trata de inmuebles en una sola ciudad y que además se tiene la variable del barrio y de la zona en el conjunto de datos. Tampoco se va a hacer una visualización de la distribución de las casas en un mapa, aunque para un análisis de otro tipo, esto si podría ser relevante. Estas también se eliminarán del conjunto.
Vemos que ahora en las únicas variables en las que faltan datos son piso y parquea. Veamos qué características tienen esas variables, primero lo hacemos para piso
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 2.000 3.000 3.772 5.000 12.000 2638
##
## 1 2 3 4 5 6 7 8 9 10 11 12
## 861 1450 1097 607 568 245 207 211 146 130 84 83
Podemos observar algunas cosas importantes. Lo primero es que hay 2638 registros sin dato en la columna piso. Lo segundo, que el menor valor es 1 y el mayor es 12, con un buen número de registros con valores altos. Por el nombre de la variable no sabemos si el valor corresponde al número del piso en el que queda el inmueble en un edificio, o el número de pisos que tiene el inmueble. Si fuera lo segundo, querría decir que hay inmuebles que tienen 12 pisos, lo que tendría sentido si fueran edificios. Si fuera lo primero, significa que hay inmuebles en el doceavo piso de un edificio, al igual que en el décimo, el noveno, y así sucesivamente, Lo que tiene mucho más sentido, dado lo extremadamente raro que sería que una casa o un apartamento tuviera 12 pisos. Para tratar de entender a que se refiere, vamos a ver primero a que tipo de inmueble corresponden los registros que tienen un número alto.
pisona <- subset(df, is.na(df$piso)) #subset pisona contains the records without value in column piso
table(pisona$tipo)##
## Apartamento APARTAMENTO apto casa Casa CASA
## 1354 25 4 7 1243 5
Pero antes, vemos que los registros corresponden tanto a casas como a apartamentos, y que hay diferencia en la escritura de los valores que corresponden a un mismo tipo de inmueble. También vemos que no hay edificios, luego no tendría sentido la segunda hipótesis de que la variable piso se refiere al número de pisos del inmueble. Se trata por lo tanto del piso en el que se ubica el inmueble. A continuación, voy a homogenizar los nombres de los tipos de inmueble en Apartamento y Casa solamente. En el caso de los valores apto, tendré que reemplazarlos por Apartamento.
##
## apartamento apto casa
## 5093 13 3221
df$tipo <- ifelse(df$tipo == "apto", "Apartamento", ifelse(df$tipo == "apartamento", "Apartamento", ifelse(df$tipo == "casa", "Casa", df$tipo)))
table(df$tipo)##
## Apartamento Casa
## 5106 3221
Ahora veamos nuevamente a que tipo de inmueble corresponden los registros sin piso:
pisona <- subset(df, is.na(df$piso)) #subset pisona contains the records without value in column piso
table(pisona$tipo)##
## Apartamento Casa
## 1383 1255
Se puede observar que hay suficientes registros sin valor en la variable piso (+30%). Esto puede tener sentido para las casas, por su naturaleza, pues ellas no “están” en ningún piso, al menos diferente al 1ro, pero eso no se menciona de esta manera. Lo común es que un apartamento si tenga un piso en donde esté ubicado dentro de un edificio, aunque existen apartamentos en casas que se subdividen, los cuales están por lo general en el primer piso (piso = 1) Ahora veamos la cantidad de registros con piso según su tipo:
withpiso <- subset(df, !is.na(df$piso)) #subset withpiso contains the records with value in column piso
table(withpiso$tipo)##
## Apartamento Casa
## 3723 1966
Como era de esperarse, esta cantidad está cerca al 70%. Ahora veamos como se cruza el Tipo con la los valores en la columna piso.
##
## Apartamento Casa
## 1 431 430
## 2 512 938
## 3 573 524
## 4 545 62
## 5 564 4
## 6 243 2
## 7 203 4
## 8 211 0
## 9 146 0
## 10 128 2
## 11 84 0
## 12 83 0
Ahora, retomando el análisis sobre el significado de la variable piso, si fuera el piso en el que se encuentra, tendría sentido para los Apartamentos, pero no para las casas. Si fuera la cantidad de pisos, tendría sentido para las Casas de 1, 2 y hasta 3 pisos, pues, aunque posible, existe muy poca probabilidad de casas de 10, 7, 6 y 5 pisos, e inclusive las de 4 pisos son muy escasas. Me atrevería entonces a decir que para los registros de tipo Apartamento, el valor entre 1 y 12 tiene sentido. Para los de tipo Casa, los valores altos, mayores o iguales a 4 no tienen sentido o son muy poco probables.
En estos casos entonces lo que haremos es modificar o completar la variable piso con el valor 1, para todas las casa con piso > 3 y dejaremos los de valor igual o menor que 3 como están, pues existe mayor probabilidad de que si existan. En cuanto a los Apartamentos sin valor en piso, los eliminaremos del conjunto de datos. En cuanto a los números altos de la variable piso en los registros de tipo Apartamento, no tenemos razón para dudar de ellos, luego los dejaremos como están.
Veamos como queda el dataset en estas dos variables después de hacer el cambio:
df$piso <- ifelse((df$piso > 3 | is.na(df$piso)) & df$tipo == "Casa", 1, df$piso)
df <- filter(df,!is.na(df$piso))
missing_data <- colSums(is.na(df)) %>%
as.data.frame()
missing_dataAhora, analicemos los valores de la variable parquea, que ofrece los valores de la cantidad de parqueaderos de un inmueble. Esta es la otra variable que tiene valores en NA.
## , , = Apartamento
##
##
## 3 4 5 6
## 1 204 701 759 85
## 2 7 102 495 595
## 3 2 3 19 148
## 4 0 2 13 45
## 5 0 0 0 3
## 6 0 0 0 2
## 7 0 0 1 0
## 8 0 0 0 0
## 9 0 0 0 0
## 10 0 0 0 0
##
## , , = Casa
##
##
## 3 4 5 6
## 1 277 317 235 28
## 2 79 198 390 225
## 3 17 47 106 98
## 4 10 21 84 181
## 5 1 4 27 32
## 6 3 4 13 46
## 7 0 2 4 11
## 8 0 0 3 14
## 9 0 1 1 2
## 10 1 1 0 4
Según esto, hay varios inmuebles que tienen desde 5 hasta 10 parqueaderos, valores que nos hacen dudar de su veracidad. Para ciertos tipos casas, es más posible que tengan muchos “lugares donde parquear” aunque técnicamente no sean parqueaderos cubiertos. Yo desconfiaría de los valores mayores de 4 inclusive para las casas. Vemos en las tablas que para los apartamentos, solo hay 6 que tienen valores mayores a 4. Se van a eliminar. En cuanto a las casas, hay muchos más registros con valores altos (parquea > 4). Para eliminar los valores atípicos, vamos a asignarles el valor de 4 a dichos registros. En cuanto a los que no tienen dato, vamos a asumir que no tienen parqueadero, por lo tanto les pondremos el valor de cero.
df$parquea <- ifelse(df$parquea > 4, 4, df$parquea)
df$parquea <- ifelse(is.na(df$parquea), 0, df$parquea)
table(df$parquea,df$estrato,df$tipo )## , , = Apartamento
##
##
## 3 4 5 6
## 0 228 248 42 19
## 1 204 701 759 85
## 2 7 102 495 595
## 3 2 3 19 148
## 4 0 2 14 50
##
## , , = Casa
##
##
## 3 4 5 6
## 0 426 132 121 55
## 1 277 317 235 28
## 2 79 198 390 225
## 3 17 47 106 98
## 4 15 33 132 290
## [1] 0
Ahora veamos si el conjunto tiene datos faltantes.
Se puede verificar que ya no tiene datos faltantes en las variables.
Habiendo eliminado del dataset todos los registros con datos vacíos, ahora vamos a analizar las otras variables del conjunto. Visualizaremos en gráficos de cajas y bigotes la distribución de las variables numéricas.
numeric_columns <- names(df)[sapply(df, is.numeric)]
no_columns <- c("piso","estrato","parquea")
numeric_columns <- setdiff(numeric_columns, no_columns)
lapply(numeric_columns, function(variable) {
ggplot(df, aes_string(x = variable)) +
geom_boxplot() +
labs(title = paste0("Boxplot para la columna: ", variable))
})## [[1]]
##
## [[2]]
##
## [[3]]
##
## [[4]]
Podemos ver que las variables preciom y areaconst tienen una gran cantidad de valores atípicos, y también que según los datos, hay inmuebles con 8, 9 y 10 baños, así como también con 0 habitaciones o con hasta 10 habitaciones. En cuanto a las variables longitud y latitud, se recuerda que estas fueron eliminadas del conjunto de datos, pues al parecer había errores en los datos, pues su distribución, al ser los datos de inmuebles en una misma ciudad, deberían ser muy similares y no con diferencias tan grandes entre sus valores.
Vamos entonces a revisar si los valores de estas variables para esos registros son coherentes, por ejemplo, las casas con muchos baños o muchas habitaciones deberían ser las casas con un área construida mayor y también con más altos precios.
Antes de profundizar en el análisis, eliminaremos los registros con datos no lógicos, como areaconst = 0, habitac = 0 o baños = 0.
df <- filter(df, df$banios != 0)
df <- filter(df, df$habitac != 0)
df <- filter(df, df$areaconst != 0)numeric_columns <- names(df)[sapply(df, is.numeric)]
exclude_columns <- c("piso","estrato","parquea") #,"longitud", "latitud")
numeric_columns <- setdiff(numeric_columns, exclude_columns)
cov_matrix <- cov(df[, numeric_columns])
atipicos <- mahalanobis(df[, numeric_columns], center = TRUE, cov = cov_matrix)
length(atipicos)## [1] 6875
Veamos la relación entre las variables preciom, banios, areaconst y habitac. Se espera que entre más área construida, el valor sea más alto, o que entre más habitaciones existan, hayan más baños, y de igual manera, que entre más habitaciones y baños, más área construida tenga, al igual que mayor sea el precio. Comportamientos diferentes a estos, si bien pueden ser posibles en la práctica, son poco probables y alteran la homogeneidad de los datos. Para este estudio, si son pocos estos valores atípicos, se eliminarán.
Se representarán gráficamente las distancias de Mahalanobis, que es una medida de la distancia entre un punto y una distribución multivariante. Es una medida útil para detectar valores atípicos en un conjunto de datos multidimensional. La distancia es una medida de la distancia en unidades de desviaciones estándar, por lo tanto, un valor alto de la distancia indica que el punto esta lejos de la distribución multivariante. Típicamente, los puntos con una distancia mayor a 3 se consideran atípicos. La distancia Mahalanobis no se afecta por la escala de las variables y es sensible a la correlación entre las variables.
#ggplot(df, aes_string(x = "preciom", y = "areaconst", color = "atipicos")) +
# geom_point() +
# scale_color_continuous(low = "white", high = "blue") +
# labs(x = "Precio", y = "Área construida", color = "Distancia de Mahalanobis")
ggplot(df, aes_string(x = 'preciom', y = 'areaconst', color = 'atipicos')) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Precio", y = "Area construida", color = "Distancia de Mahalanobis")En el gráfico anterior se pueden ver algunos datos que no son lógicos pues se asume una relación directamente proporcional entre el precio y el área construida de una casa. Por ejemplo, hay un registro de 1750 metros cuadrados construidos con un valor de 250 millones. Se esperaría que para un área tan grande, el precio estuviera entre los más altos y por el contrario está entre los más bajos. También se ve el caso contrario, en el que el precio es muy alto para tan poca área construida. Aunque no se están teniendo en cuenta otras variables, como por ejemplo el estrato o el barrio, siempre hay una relación directa entre el tamaño y el valor que debe considerarse. En un estudio más detallado se podrían tener en cuenta los cruces entre estas cuatro variables mencionadas, o inclusive también con la cantidad de baños y de habitaciones.
ggplot(df, aes_string(x = "banios", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Baños", y = "Área construida", color = "Distancia de Mahalanobis")Se observa que hay unos registros con mucha área construida y pocos baños, como es el caso del registro que indica 1750 metros construidos y 3 baños. Se elminará este registro.
Veamos la relación entre la cantidad de habitaciones y la cantidad de baños. Se espera que entre más habitaciones, más baños haya en el inmueble.
ggplot(df, aes_string(x = "habitac", y = "banios", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Baños", color = "Distancia de Mahalanobis")ggplot(df, aes_string(x = "habitac", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Area", color = "Distancia de Mahalanobis")Aparece un caso donde hay 3 habitaciones y 10 baños. También, en el gráfico anterior, inmuebles con 10 baños y menos de 400 metros de área construida. Estos se eliminarán.
##
## 1 2 3 4 5 6 7 8 9 10
## 1 20 98 225 20 5 1 2 0 0 0
## 2 18 503 1509 163 56 23 10 5 1 0
## 3 4 78 889 460 105 55 34 24 14 3
## 4 0 15 379 510 188 78 36 38 12 10
## 5 0 3 138 312 176 68 42 34 22 11
## 6 1 0 14 90 82 57 25 18 9 7
## 7 0 0 2 6 42 24 14 6 7 4
## 8 0 0 0 2 3 9 8 9 9 6
## 9 0 0 0 0 1 0 1 4 7 2
## 10 0 0 0 0 0 0 0 0 1 3
De igual manera, se observa una aparente disparidad entre la cantidad de baños y el área construida. Aunque es posible que haya pocos baños en una casa grande, esto es poco probable. Tal vez una mayor relación la tienen las variables que representan las cantidades de baños y de habitaciones, pues las habitaciones dan una idea de la cantidad de personas que viven o usan la casa, lo cual muestra la necesidad de más o menos baños.
En un gráfico anterior se ve también que hay casas de 0 metros construidos con varias habitaciones, lo cual no es posible. Estos registros se eliminarán. Y también hay registros de inmuebles en el conjunto con muchos más baños que habitaciones, en una proporción de 2 a 1 e inclusive de 3 a 1. Eliminaremos estos registros problemáticos dado que no es mucha la cantidad de ellos.
Se revisaron los valores de las variables barrio y zona. Se notó que los nombres de las zonas están todos bien escritos, pero que en los nombres de los barrios hay algunos registros que se refieren al mismo barrio pero que están escritos de manera diferente, como por ejemplo: “alfonso lopez” y “alfonzo López”. También se nota que hay muchos barrios donde solo hay un inmueble a la venta. Con tan baja representatividad, no es posible hacer inferencias en cuanto a la situación de los inmuebles en los barrios. Habría que usar la zona que al ser solo 5, tienen más inmuebles en ellas.
Corregimos los nombres de algunos de los barrios para ver sus efectos en el dataset, sin embargo, se nota que sigue habiendo muchos barrios con tan solo un inmueble y que además son alrededor de 350 y algunos están posiblemente mal referenciados, como el que dice “cali” o el que hace referencia al nombre de un edificio. También se ve que están referenciadas las zonas en los barrios. En definitiva, esta variable requeriría de mucha limpieza e investigación para ser depurada, y teniendo también errores en la longitud y latitud, no se puede imputar a partir de los datos existentes.
## [1] "Zona Oeste" "Zona Sur" "Zona Norte" "Zona Centro" "Zona Oriente"
df$barrio <- tolower(df$barrio)
barrios = unique(df$barrio, decreasing = TRUE)
#table(df$barrio, sort = TRUE)
#barrios
df$barrio <- ifelse(df$barrio == "alf√©rez real", "alferez real", ifelse(df$barrio == "alfonso lópez", "alfonso lopez", ifelse(df$barrio == "base a√©rea", "base aerea", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "la arboleda", "arboleda", ifelse(df$barrio == "los alcázares", "los alcazares", ifelse(df$barrio == "la rivera i", "la riverita", ifelse(df$barrio == "laflora", "la flora", ifelse(df$barrio == "la rivera ii", "la riverita", ifelse(df$barrio == "la rivera", "la riverita", ifelse(df$barrio == "ciudadela paso ancho", "ciudadela pasoancho", ifelse(df$barrio == "caney especial", "caney", ifelse(df$barrio == "el ingenio i", "ingenio", ifelse(df$barrio == "el ingenio ii", "ingenio", ifelse(df$barrio == "el ingenio", "ingenio", ifelse(df$barrio == "el ingenio iii", "el ingenio", ifelse(df$barrio == "jamundi alfaguara", "alfaguara", ifelse(df$barrio == "cali canto viii", "calicanto", ifelse(df$barrio == "cali canto", "calicanto", ifelse(df$barrio == "chiminangos 1 etapa", "chiminangos", ifelse(df$barrio == "chiminangos 2 etapa", "chiminangos", ifelse(df$barrio == "cristóbal colón", "cristobal colón", ifelse(df$barrio == "marroquin iii", "marroquin", ifelse(df$barrio == "el ingenio 3", "el ingenio", df$barrio))))))))))))))))))))))))))
table(df$barrio)##
## 20 de julio 3 de julio
## 3 1
## acopi agua blanca
## 75 1
## aguablanca aguacatal
## 2 76
## alameda alameda del río
## 13 1
## alamos alborada
## 7 1
## alfaguara alferez real
## 1 4
## alfonso lopez alfonso lópez i
## 21 1
## alto jordán altos de guadalupe
## 1 4
## altos de menga antonio nariño
## 3 2
## aranjuez arboleda
## 15 9
## arboleda campestre candelaria arboledas
## 1 31
## atanasio girardot autopista sur
## 9 1
## barranquilla barrio 7de agosto
## 5 1
## barrio eucarístico barrio obrero
## 1 1
## barrio tranquilo y base aerea
## 1 2
## belalcazar belisario caicedo
## 4 2
## bella suiza bella suiza alta
## 17 2
## bellavista benjamín herrera
## 28 8
## berlin bloques del limonar
## 1 1
## bochalema bosques del limonar
## 12 21
## boyacá bretaña
## 1 14
## brisas de guadalupe brisas de los
## 1 61
## brisas del guabito brisas del limonar
## 1 1
## buenos aires caldas
## 6 1
## cali calibella
## 13 1
## calicanto calicanto viii
## 9 1
## calima calimio norte
## 6 5
## calipso cambulos
## 9 3
## camino real caney
## 31 69
## cañasgordas cañaveralejo
## 7 11
## cañaverales cañaverales los samanes
## 20 1
## capri cascajal
## 47 1
## ceibas centenario
## 1 10
## centro cerro cristales
## 3 19
## cerros de guadalupe champagnat
## 1 14
## chapinero chiminangos
## 7 12
## chipichape ciudad 2000
## 23 91
## ciudad antejardin ciudad bochalema
## 1 44
## ciudad capri ciudad cordoba
## 12 20
## ciudad córdoba ciudad córdoba reservado
## 14 1
## ciudad country ciudad del campo
## 1 1
## ciudad jardin ciudad jardín
## 14 471
## ciudad jardin pance ciudad los álamos
## 1 22
## ciudad modelo ciudad pacifica
## 7 1
## ciudad real ciudad talanga
## 3 1
## ciudad universitaria ciudadela comfandi
## 1 17
## ciudadela del río ciudadela pasoancho
## 1 22
## colinas del bosque colinas del sur
## 1 5
## colon colseguros
## 1 39
## colseguros andes compartir
## 5 1
## cristales cristobal colón
## 53 15
## cuarto de legua departamental
## 37 26
## ed benjamin herrera el bosque
## 1 49
## el caney el castillo
## 188 6
## el cedro el diamante
## 8 2
## el dorado el gran limonar
## 5 7
## el guabal el guabito
## 18 1
## el ingenio el jardín
## 18 13
## el lido el limonar
## 52 120
## el nacional el paraíso
## 1 3
## el peñon el prado
## 40 1
## el refugio el rodeo
## 99 1
## el sena el trébol
## 1 5
## el troncal el vallado
## 16 1
## eucarístico evaristo garcía
## 2 1
## farrallones de pance fenalco kennedy
## 1 1
## fepicol flora industrial
## 1 9
## floralia fonaviemcali
## 5 1
## francisco eladio ramirez fuentes de la
## 1 1
## gran limonar granada
## 24 13
## guadalupe guayaquil
## 19 15
## hacienda alferez real ingenio
## 1 210
## ingenio i ingenio ii
## 1 1
## jamundi jorge eliecer gaitán
## 4 1
## jorge isaacs juanamb√∫
## 1 35
## juanambu junin
## 1 18
## junín la alborada
## 6 2
## la alianza la base
## 4 15
## la buitrera la campiña
## 3 11
## la cascada la ceibas
## 6 1
## la esmeralda la flora
## 1 316
## la floresta la fortaleza
## 18 4
## la gran colombia la hacienda
## 1 148
## la independencia la libertad
## 12 2
## la merced la morada
## 23 1
## la nueva base la playa
## 8 1
## la portada al la primavera
## 1 1
## la reforma la riverita
## 1 15
## la riviera la selva
## 1 10
## la villa del las acacias
## 1 12
## las américas las camelias
## 2 1
## las ceibas las delicias
## 21 3
## las granjas las quintas de
## 9 1
## las vegas las vegas de
## 1 1
## libertadores los alcazares
## 3 12
## los andes los cambulos
## 21 22
## los cámbulos los cristales
## 5 123
## los cristales club los farallones
## 1 4
## los guaduales los guayacanes
## 20 2
## los jockeys los libertadores
## 1 4
## los parques barranquilla lourdes
## 3 2
## mamellan manzanares
## 1 5
## marroquín iii mayapan las vegas
## 1 41
## melendez menga
## 59 18
## metropolitano del norte miradol del aguacatal
## 14 1
## miraflores morichal de comfandi
## 26 3
## multicentro municipal
## 23 3
## napoles nápoles
## 1 26
## normandia normandía
## 3 106
## norte norte la flora
## 1 1
## nueva base nueva floresta
## 1 15
## nueva tequendama oasis de comfandi
## 70 4
## occidente pacara
## 1 14
## pacará palmas del ingenio
## 4 1
## pampa linda pampalinda
## 22 10
## panamericano pance
## 9 357
## parcelaciones pance parque residencial el
## 55 1
## paseo de los paso del comercio
## 2 5
## pasoancho poblado campestre
## 4 2
## ponce popular
## 1 6
## portada de comfandi portales de comfandi
## 2 1
## porvenir prados de oriente
## 3 6
## prados del limonar prados del norte
## 21 104
## prados del sur primavera
## 2 2
## primero de mayo primitivo crespo
## 32 3
## puente del comercio puente palma
## 6 1
## quintas de don quintas de salomia
## 64 4
## rafael uribe uribe rep√∫blica de israel
## 1 1
## rincón de salomia riveras del valle
## 1 1
## rozo la torre saavedra galindo
## 1 3
## salomia samanes
## 35 1
## samanes de guadalupe sameco
## 1 1
## san antonio san bosco
## 21 7
## san carlos san cayetano
## 4 9
## san fernando san fernando nuevo
## 47 9
## san fernando viejo san joaquin
## 14 3
## san joaquín san juan bosco
## 16 7
## san judas san judas tadeo
## 1 2
## san luis san luís
## 2 1
## san nicolas san nicolás
## 1 1
## san pedro san vicente
## 1 47
## santa anita santa anita sur
## 44 1
## santa bárbara santa elena
## 3 9
## santa fe santa helena de
## 8 1
## santa isabel santa monica
## 55 47
## santa mónica santa monica norte
## 3 1
## santa monica popular santa mónica popular
## 1 6
## santa monica residencial santa mónica residencial
## 5 32
## santa rita santa teresita
## 40 173
## santafe santander
## 1 1
## santo domingo sector cañaveralejo guadalupe
## 6 1
## seminario sierras de normandía
## 24 1
## siete de agosto simón bolivar
## 8 1
## tejares cristales tejares de san
## 4 13
## templete tequendama
## 4 40
## tequendema terrón colorado
## 1 1
## torres de comfandi unión de vivienda
## 41 3
## urbanización barranquilla urbanización boyacá
## 3 1
## urbanización colseguros urbanizacion el saman
## 3 1
## urbanización la flora urbanización la merced
## 59 4
## urbanización la nueva urbanización las cascadas
## 4 1
## urbanizacion lili urbanización nueva granada
## 2 3
## urbanización río lili urbanización san joaquin
## 5 4
## urbanización tequendama valle de lili
## 5 1
## valle del lili valle grande
## 817 1
## versalles villa colombia
## 57 6
## villa de veracruz villa del lago
## 4 10
## villa del prado villa del sol
## 50 21
## villa del sur villas de veracruz
## 2 9
## vipasa zona centro
## 30 1
## zona norte zona norte los
## 28 1
## zona oeste zona oriente
## 24 17
## zona sur
## 71
Veo que a pesar de que se han estandarizado algunos nombres, estos y otros siguen teniendo pocos inmuebles. Aunque en un análisis más profundo o diferente el barrio podría ser necesario, para esta ocasión, usaremos para cualquier análisis la variable zona con la siguiente distribución. El barrio se eliminará del dataset.
Tal como hemos visto en el análisis, algunas de las variables no se utilizarán como parte del estudio. Estas variables son:
Las razones que se tuvieron en cuenta para su eliminación son:
También se eliminaron algunos registros con datos no lógicos, como los que tiene valores en cero para las variables área construida, habitaciones o baños, o casas de más 4 pisos, tal como se explicó durante el análisis.
Empecemos por ver los datos estadísticos de las variables
Se puede observar, entre otras cosas, lo siguiente:
Esta es la cantidad de inmuebles que hay por zona:
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 112 1481 868 329 4080
La zona con mayor cantidad de inmuebles es la zona sur, seguida por la zona norte, la oeste, la oriente y por último la centro. Veamos ahora la combinación de la zona y el tipo de inmueble.
##
## Apartamento Casa
## Zona Centro 15 97
## Zona Norte 781 700
## Zona Oeste 704 164
## Zona Oriente 46 283
## Zona Sur 2158 1922
En las dos zonas donde más inmuebles hay (Sur y Norte), la cantidad de apartamentos es ligeramente mayor que la de las casas. En la zona Oeste es mucho mayor para apartamentos, y en las zonas centro y Oriente hay más casas que apartamentos. Veamos los promedios y la mediana de la variable precio para cada combinación de tipo y zona:
meds <- aggregate ( df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c( round(as.numeric(mean(x)),2), round(as.numeric(median(x)),1), round(as.numeric(length(x)),0)))
meds <- data.frame(as.matrix(meds))
colnames(meds) <- c("Tipo","Zona","Media_Precio","Mediana_Precio","Cantidad")
meds$Media_Precio <- as.numeric(meds$Media_Precio)
meds$Mediana_Precio <- as.numeric(meds$Mediana_Precio)
meds$Cantidad <- as.numeric(meds$Cantidad)
medsggplot(meds, aes(x = Tipo, y = Cantidad, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Cantidad") +
theme(text = element_text(size = 10),
plot.margin = unit(c(0.5,0.5,0.5,0.5), "cm")) +
facet_wrap(~Zona ) +
geom_text(aes(label = Cantidad), size = 3, vjust = 0.2)means <- aggregate (df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c(round(as.numeric(mean(x)),2)))
means <- data.frame(as.matrix(means))
#means
colnames(means) <- c("Tipo","Zona","Media_Precio")
ggplot(means, aes(x = Tipo, y = Media_Precio, fill = Tipo, width = 0.7)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Media Precio") +
theme(text = element_text(size = 10),
plot.margin = unit(c(0.5,0.5,0.5,0.5), "cm")) +
facet_wrap(~Zona ) +
geom_text(aes(label = Media_Precio),size = 3, vjust = 1)medians <- aggregate (df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c(round(as.numeric(median(x)),0)))
medians <- data.frame(as.matrix(medians))
#medians
colnames(medians) <- c("Tipo","Zona","Mediana_Precio")
ggplot(medians, aes(x = Tipo, y = Mediana_Precio, fill = Tipo, width = 0.7)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Mediana Precio") +
theme(text = element_text(size = 10),
plot.margin = unit(c(0.5,0.5,0.5,0.5), "cm")) +
facet_wrap(~Zona ) +
geom_text(aes(label = Mediana_Precio),size = 3, vjust = 1)Se puede ver en el primer gráfico que la cantidad de Casas y Apartamentos en la Zona Sur supera a todas las demás Zonas, seguida por la Zona Norte, la Zona Oeste, la Oriente y por último la Centro.
En cuanto al precio de venta, los gráficos que muestran la media y la mediana muestran que los inmuebles con el mayor precio están en la Zona Oeste, lo que, siendo una Zona con poca oferta, la hace muy atractiva, pues no hay tanta competencia y la posibilidad de mejores comisiones es más alta. Bajo este mismo criterio, le seguiría la Zona Norte y la Zona Sur. También las Casas en la Zona Centro. La Zona Oriente no parece ser muy atractiva porque hay pocos inmuebles y es poco su valor.
El tipo de vivienda más ofertada en Cali son los apartamentos.
##
## Apartamento Casa
## 3704 3166
types <- aggregate (df$preciom ~ df$tipo, data = df, FUN = function(x) c(round(as.numeric(length(x)),0)))
types <- data.frame(as.matrix(types))
colnames(types) <- c("Tipo","Cantidad")
ggplot(types, aes(x = Tipo, y = Cantidad, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Cantidad") +
geom_text(aes(label = Cantidad), vjust = -0.5) +
coord_polar()De acuerdo a los gráficos anteriores en donde se muestra la cantidad de viviendas segmentado por zona y tipo, y el precio promedio también segmentado por zona y tipo, los 5 con mayor cantidad serían los siguientes:
En cuanto al precio de venta, estos son los 5 primeros promedios:
Si se tiene en cuenta la Mediana, el orden sería el mismo de los promedios.
Las viviendas en venta en Cali se encuentran distribuidas en toda la ciudad, siendo la de mayor cantidad la Zona Sur. Esto no ha de sorprender, pues es una de las zonas más grandes y de mayor movimiento en la ciudad para vivir por los atractivos que tiene, tales como variedad de opciones en vivienda (Edificios, conjuntos residenciales, condominios campestres, etc.), multiplicidad de opciones de lugares de comercio, existencia de parques, clubes, cercanía a zona de colegios y universidades, entre muchas otras ventajas.
Si bien el tipo de vivienda que más se oferta son los apartamentos, son las casas las que mejor promedio de precio tienen. Esto es lógico, porque normalmente son más grandes, luego es natural que sean más caras, sin embargo, en todas las zonas las casas tienen un promedio de precio más alto, y como las inmobiliarias ganan por comisión por el precio de venta, esto se hace muy relevante a la hora de escoger la estrategia y el nicho al que se le ofrecerán los inmuebles.
##
## Apartamento Casa
## 3 440 793
## 4 1051 711
## 5 1318 972
## 6 895 690
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 3 99 445 43 320 326
## 4 11 297 71 7 1376
## 5 1 620 213 2 1454
## 6 1 119 541 0 924
Si analizamos la distribución del estrato por tipo y por zona, vemos que en el estrato 3, que es el más bajo, hay mayor cantidad de casas frente a la oferta de apartamentos, en una relación casi de 2:1 para las casas. Este fenómeno no se repite en ningún otro estrato, siendo la cantidad de apartamentos mayor a la de casas.
estratos <- aggregate (df$preciom ~ df$estrato, data = df, FUN = function(x) c(round(as.numeric(length(x)),0)))
estratos <- data.frame(as.matrix(estratos))
colnames(estratos) <- c("Estrato","Cantidad")
ggplot(estratos, aes(x = Estrato, y = Cantidad, fill = Estrato)) +
geom_bar(stat = "identity", show.legend = FALSE) +
labs(x = "Tipo", y = "Cantidad") +
theme(text = element_text(size = 10),
plot.margin = unit(c(0.5,0.5,0.5,0.5), "cm")) +
geom_text(aes(label = Cantidad), size = 3, vjust = -0.5) El Estrato 5 es el estrato con mayor cantidad de inmuebles a la venta, seguido por el 4, el 6 y el 3. En la Zona Sur, donde hay mayor cantidad de inmuebles, en el estrato en que más inmuebles hay es el 5, seguido del 4, después el 6 y cerrando el 3. Esto es coherente con la distribución de la ciudad en dicha zona.
A partir del análisis descriptivo del conjunto de datos, se presentan los siguientes resultados del estudio, con el objetivo de brindar información relevante y suficiente para que la Junta Directiva de la Inmobiliaria B&C pueda decidir su nicho de mercado, desarrollar estrategias de marketing, establecer precios de venta y ofrecer servicios personalizados a sus clientes.
La Zona Oeste presenta un mejor promedio de precios tanto para las casas como para los apartamentos, constituyéndose en una zona de mucho interés, dado que las inmobiliarias ganan por comisión, y entre mayor sea el valor de la propiedad, más dinero se ganará. La siguen la zona sur y la zona norte. El caso de la zona centro es particular, pues hay pocas casas, pero su promedio de precio no es el más bajito.
Los apartamentos son el tipo de inmueble con mayor cantidad de ofertas en la ciudad de Cali superando en cantidad a las casas en la zona Norte, Oeste y Sur. En las zonas Centro y Oriente, hay más casas ofertadas, en una proporción aproximada de 6 a 1.
Aunque hay más apartamentos que casas, las casas presentan mayores valores en su precio, lo que las hace más atractivas. Las zonas con más alto promedio de venta son la Oeste, la Sur, a Norte, la Centro y la Oriente. Nótese que la Centro tiene pocas ofertas, pero sus casas tienen mejor promedio que las de la zona Oriente.
El estrato 5 es el estrato con mayor cantidad de oferta de venta de inmuebles. Si bien, esto no es en si información contundente, si es una muestra de que las casas que más se comercializan son las de valores medio-altos, y esto puede dar un indicio de la clase de compradores que se deben buscar.
Los objetivos planteados en esta investigación, que buscan ofrecer información relevante a la Inmobiliaria B&C para que tome decisiones estratégicas para su futuro se ven empeñados por la pobre calidad del conjunto de datos entregado. No solo el proceso de depuración, limpieza y normalización o estandarización de los datos se hace muy largo, sino que también se queda corto porque no es suficiente la información de la oferta de inmuebles en la ciudad, sino también información sobre las ventas, pues en aras de tomar decisiones estratégicas sobre nichos de mercado no es suficiente saber que hay muchos inmuebles en una zona especifica siendo ofertados, sino que sería más conveniente saber, por ejemplo, los datos reales de los precios de venta de las viviendas, o el tiempo que toma vender una casa o un apartamento en las zonas de la ciudad.
Desde el punto de vista estratégico, y para establecer servicios personalizados a sus clientes, hay mucha diferencia entre la cantidad de ofertas sean muy alta, a que la cantidad de ventas sea alta. Lo uno no lleva necesariamente a lo otros. De hecho, la cantidad de bienes ofertados en una zona, puedes ser una muestra de la dificultad que hay en venderlos, y por eso se “acumulan” sin venderse en el listado de ofertas.
De igual manera, hay variables en el conjunto de datos que pueden ser relevantes para ciertos objetivos y que tienen relación con los inmuebles que se ofertan, pero que pueden estar faltando para los bienes que efectivamente se venden. Esta dificultad de encontrar esos datos en la fuente de donde se extrajeron los datos, indica que tal vez sea mucho mejor buscar datos en otras fuentes más relevantes, por ejemplo, en vez de buscar los datos de las ofertas en internet, buscar los datos de las ventas efectivas en las notarías o en las oficinas de catastro o inclusive de la DIAN, pues estos “lugares” son los que reciben ese tipo de información, y si el objetivo es definir un plan estratégico para orientar a la compañía, es mucho mejor enfocarse en las ventas que SI se logran, que en las ofertas que no lo hacen.
Se pudo ver que el conjunto de datos tiene muchas irregularidades, datos atípicos, valores nulos o que claramente parecen erróneos. Esto causa mucha dificultad en su procesamiento, pero sobre todo mina la confianza en el conjunto de datos. Si bien no hay como corroborar los datos de las variables en las que no sabemos a ciencia cierta si hay datos erróneos, la cantidad que si podemos determinar como erróneos es tan alta que nos hace desconfiar del conjunto. Por ejemplo, se puede constatar que hay errores en los valores de las variables latitud y longitud, pero no podemos saber si hay errores en la variable precio o área construida, salvo unos muy contados registros que pueden ser eliminados.
Lo anterior hace sospechar de los valores presentes en otras variables a las que no se les pueda comprobar que tienen valores equivocados no puedan ser confiables. De todos modos, al eliminar los registros con datos claramente erróneos, se está disminuyendo la probabilidad de error en los análisis y conclusiones.
Es muy importante trabajar con los datos de la mejor calidad posible, incluso si hay que sacrificar y disminuir la cantidad de datos presentes con los que se puede trabajar.
Para mantener la calidad de los datos, es necesario llevar a cabo una revisión de los mismos y una eliminación de los datos con valores claramente equivocados, como áreas iguales a 0, o viviendas sin habitaciones o baños.
Al ser los datos recogidos de publicaciones en internet, no se pueden corroborar ni mejorar sustancialmente, salvo en cuestiones contadas, como por ejemplo cruzando las coordenadas con el barrio. Sin embargo, el desorden de estas dos variables no indica que ese análisis sea importante hacerlo.
Todo este documento y código esta disponible Aquí
La empresa B&C (Bienes y Casas) es una agencia de bienes raíces que opera en la ciudad de Cali, Colombia. La empresa fue fundada por Sandra Milena hace 10 años y actualmente cuenta con ocho agentes de bienes raíces.
El mercado de bienes raíces en Cali ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios. En 2022, las ventas del sector en Cali llegaron a $6700 millones y en 2023 a $6100 mil millones. Se espera que este sector continue creciendo durante los próximos años, permitiendo un desarrollo dinámico en la economía regional.
La empresa B&C ha recogido información sobre viviendas que incluye información sobre el precio, la ubicación, las características y la venta de viviendas en Cali. Esta base de datos puede ser utilizada para realizar un informe estadístico que sería de gran interés para la empresa.
El informe estadístico podría proporcionar información sobre los siguientes temas:
Esta información sería útil para la empresa B&C para tomar decisiones sobre su negocio, tales como:
La empresa solicita un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos.
El informe debe incluir los siguientes elementos:
El informe debe ser redactado en un lenguaje claro y conciso, y debe estar dirigido a los directivos de la empresa B&C.
Solicitud de entrega del informe Se debe entregar enlace de la plataforma RPubs que contenga el documento final, utilizando el formato Markdown.
El informe debe estar organizado en un único documento que contenga la introducción, los objetivos, los métodos, los resultados, la discusión y las conclusiones. Cada sección del informe debe estar numerada y debe tener un encabezado descriptivo.
Entregable Enlace del informe en RPubs, copiado en Actividad1 del curso en Bs
Descripción
Estos datos han sido extraídos mediante webscraping. El dataset contiene características de viviendas de Cali.
¿Cómo se usa?: Solo hay que escribir “vivienda_faltantes” sin las comillas.
Registros: Conjunto con 8322 registros y 13 variables
Variables/Columnas
id: Identificador único de la vivienda
zona: Zona de la ciudad (Una de cinco: Norte, Sur, Oriente, Oeste y Centro)
piso: Piso en la que está ubicada la vivienda
estrato: Estrato donde esta la vivienda
preciom: Precio en millones de pesos
areaconst: Área construida en metros cuadrados
parqueaderos: Número de parqueaderos
banios: Número de baños
habitaciones: Número de habitaciones
tipo: Tipo de vivienda
barrio: Barrio
longitud: Coordenada de longitud
latitud: Coordenada de latitud