setwd(““) Consigna:
La empresa B&C (Bienes y Casas) es una agencia de bienes raíces que opera en la ciudad de Cali, Colombia. La empresa fue fundada por Sandra Milena hace 10 años y actualmente cuenta con ocho agentes de bienes raíces.
El mercado de bienes raíces en Cali ha crecido significativamente en los últimos años, impulsado por el crecimiento de la población, la inversión extranjera directa y el desarrollo de nuevos proyectos inmobiliarios. En 2022, las ventas del sector en Cali llegaron a $6700 millones y en 2023 a $6100 mil millones. Se espera que este sector continue creciendo durante los próximos años, permitiendo un desarrollo dinámico en la economía regional.
La empresa B&C ha recogido información sobre viviendas que incluye información sobre el precio, la ubicación, las características y la venta de viviendas en Cali. Esta base de datos puede ser utilizada para realizar un informe estadístico que sería de gran interés para la empresa.
El informe estadístico podría proporcionar información sobre los siguientes temas:
Esta información sería útil para la empresa B&C para tomar decisiones sobre su negocio, tales como:
La empresa solicita un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos.
El informe debe incluir los siguientes elementos:
El informe debe ser redactado en un lenguaje claro y conciso, y debe estar dirigido a los directivos de la empresa B&C.
Solicitud de entrega del informe Se debe entregar enlace de la plataforma RPubs que contenga el documento final, utilizando el formato Markdown.
El informe debe estar organizado en un único documento que contenga la introducción, los objetivos, los métodos, los resultados, la discusión y las conclusiones. Cada sección del informe debe estar numerada y debe tener un encabezado descriptivo.
Entregable Enlace del informe en RPubs, copiado en Actividad1 del curso en Bs
Para los próximos años, se espera que el mercado inmobiliario en la Ciudad de Cali siga subiendo como en años anteriores, brindando oportunidades para los actores que logren identificar las características más relevantes de su comportamiento. Para aprovechar esta oportunidad, se entrega el presente informe a la junta directiva de la agencia inmobiliaria B&C. En este informe se explica de manera general el proceso de ordenamiento y limpieza de datos, y se presenta un análisis descriptivo de los datos resultantes. Para esto, después de importar el conjunto de datos, y de realizar su limpieza, fusionando, eliminando, normalizando, estandarizando o imputando datos, según fuese necesario, se realizó un análisis de los datos para presentarlos en distintos gráficos y tablas que permitirán entender mejor las características del conjunto.
Posteriormente, se presentarán los resultados de dicho análisis y se realizará una discusión sobre los descubrimientos y dificultades encontradas en los datos, para finalmente, entregar las conclusiones de todo el ejercicio. Como anexo, se podrá ver todo el codigo ejecutado en todas las partes del proceso.
A continuación, se presentan los objetivos que se buscaron con la realización de este estudio.
La inmobiliaria B&C desea tomar decisiones importantes sobre su negocio, tales como definir un nicho de mercado, desarrollar la estrategia de marketing, establecer precios de ventas y ofrecer servicios personalizados a sus clientes. Para poder lograr esto, el presente proyecto ha definido los siguientes objetivos:
Para comenzar, empezaremos importando el paquete requerido y cargando la librería y los datos con los que vamos a trabajar, de la siguiente manera:
data("vivienda_faltantes") # load data 'Vivienda_faltantes' from paqueteMETODOS
set.seed(689) # Fix the seed for random numbers
df <- vivienda_faltantes
df
## # A tibble: 8,330 × 13
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 8312 Zona Oeste 4 6 1300 318 2 4 2 Apar…
## 2 8311 Zona Oeste 1 6 480 300 1 4 4 Casa
## 3 8307 Zona Oeste NA 5 1200 800 4 7 5 Casa
## 4 8296 Zona Sur 2 3 220 150 1 2 4 Casa
## 5 8297 Zona Oeste NA 5 330 112 2 4 3 Casa
## 6 8298 Zona Sur NA 5 1350 390 8 10 10 Casa
## 7 8299 Zona Sur 2 6 305 125 2 3 3 Apar…
## 8 8300 Zona Oeste NA 5 480 280 4 4 4 Apar…
## 9 8286 Zona Sur NA 5 275 74 1 2 3 Apar…
## 10 8287 Zona Sur 2 5 285 120 2 4 3 Apar…
## # ℹ 8,320 more rows
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
Podemos observar que hay variables como id, zona, piso, estrato, preciom, areaconst, parquea, banios, habitac, tipo y 3 variables más. Cada línea proporciona información sobre un inmueble en particular. Ahora veamos cuantos datos faltantes hay en el dataset.
missing_data <- colSums(is.na(df)) %>%
as.data.frame()
missing_data
## .
## id 3
## zona 3
## piso 2641
## estrato 3
## preciom 2
## areaconst 3
## parquea 1606
## banios 3
## habitac 3
## tipo 3
## barrio 3
## longitud 3
## latitud 3
mdf <- filter(df,is.na(df$id)) %>%
as.data.frame()
mdf
## id zona piso estrato preciom areaconst parquea banios habitac tipo barrio
## 1 NA <NA> NA NA NA NA NA NA NA <NA> <NA>
## 2 NA <NA> NA NA NA NA NA NA NA <NA> <NA>
## 3 NA <NA> NA NA 330 NA NA NA NA <NA> <NA>
## longitud latitud
## 1 NA NA
## 2 NA NA
## 3 NA NA
Eliminemos los registros con datos faltantes en la columna id, y volvamos a revisar los datos faltantes del conjunto de datos.
df <- filter(df,!is.na(df$id))
df
## # A tibble: 8,327 × 13
## id zona piso estrato preciom areaconst parquea banios habitac tipo
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr>
## 1 8312 Zona Oeste 4 6 1300 318 2 4 2 Apar…
## 2 8311 Zona Oeste 1 6 480 300 1 4 4 Casa
## 3 8307 Zona Oeste NA 5 1200 800 4 7 5 Casa
## 4 8296 Zona Sur 2 3 220 150 1 2 4 Casa
## 5 8297 Zona Oeste NA 5 330 112 2 4 3 Casa
## 6 8298 Zona Sur NA 5 1350 390 8 10 10 Casa
## 7 8299 Zona Sur 2 6 305 125 2 3 3 Apar…
## 8 8300 Zona Oeste NA 5 480 280 4 4 4 Apar…
## 9 8286 Zona Sur NA 5 275 74 1 2 3 Apar…
## 10 8287 Zona Sur 2 5 285 120 2 4 3 Apar…
## # ℹ 8,317 more rows
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
missing_data <- colSums(is.na(df)) %>%
as.data.frame()
missing_data
## .
## id 0
## zona 0
## piso 2638
## estrato 0
## preciom 0
## areaconst 0
## parquea 1603
## banios 0
## habitac 0
## tipo 0
## barrio 0
## longitud 0
## latitud 0
La columna id no aporta información valiosa al estudio, así que la eliminaremos. De igual forma, las variables longitud y latitud no se hacen relevantes para este estudio, dado que se trata de inmuebles en una sola ciudad y que además se tiene la variable del barrio y de la zona en el conjunto de datos. Tampoco se va a hacer una visualización de la distribución de las casas en un mapa, aunque para un análisis de otro tipo, esto si podría ser relevante. Estas también se eliminarán del conjunto.
df$latitud <- NULL
df$longitud <- NULL
df$id <- NULL
df
## # A tibble: 8,327 × 10
## zona piso estrato preciom areaconst parquea banios habitac tipo barrio
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr>
## 1 Zona Oes… 4 6 1300 318 2 4 2 Apar… arbol…
## 2 Zona Oes… 1 6 480 300 1 4 4 Casa norma…
## 3 Zona Oes… NA 5 1200 800 4 7 5 Casa miraf…
## 4 Zona Sur 2 3 220 150 1 2 4 Casa el gu…
## 5 Zona Oes… NA 5 330 112 2 4 3 Casa bella…
## 6 Zona Sur NA 5 1350 390 8 10 10 Casa bella…
## 7 Zona Sur 2 6 305 125 2 3 3 Apar… bella…
## 8 Zona Oes… NA 5 480 280 4 4 4 Apar… bella…
## 9 Zona Sur NA 5 275 74 1 2 3 Apar… valle…
## 10 Zona Sur 2 5 285 120 2 4 3 Apar… bella…
## # ℹ 8,317 more rows
Vemos que ahora en las únicas variables en las que faltan datos son piso y parquea. Veamos qué características tienen esas variables, primero lo hacemos para piso
summary(df$piso)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 2.000 3.000 3.772 5.000 12.000 2638
#str(df$piso)
table(df$piso)
##
## 1 2 3 4 5 6 7 8 9 10 11 12
## 861 1450 1097 607 568 245 207 211 146 130 84 83
Podemos observar algunas cosas importantes. Lo primero es que hay 2638 registros sin dato en la columna piso. Lo segundo, que el menor valor es 1 y el mayor es 12, con un buen número de registros con valores altos. Por el nombre de la variable no sabemos si el valor corresponde al número del piso en el que queda el inmueble en un edificio, o el número de pisos que tiene el inmueble. Si fuera lo segundo, querría decir que hay inmuebles que tienen 12 pisos, lo que tendría sentido si fueran edificios. Si fuera lo primero, significa que hay inmuebles en el doceavo piso de un edificio, al igual que en el décimo, el noveno, y así sucesivamente, Lo que tiene mucho más sentido, dado lo extremadamente raro que sería que una casa o un apartamento tuviera 12 pisos. Para tratar de entender a que se refiere, vamos a ver primero a que tipo de inmueble corresponden los registros que tienen un número alto.
pisona <- subset(df, is.na(df$piso)) #subset pisona contains the records without value in column piso
table(pisona$tipo)
##
## Apartamento APARTAMENTO apto casa Casa CASA
## 1354 25 4 7 1243 5
Vemos que los registros corresponden tanto a casas como a apartamentos, y que hay diferencia en la escritura de los valores que corresponden a un mismo tipo de inmueble. También vemos que no hay edificios, luego no tendría sentido la segunda hipótesis de que la variable piso se refiere al número de pisos del inmueble. Se trata por lo tanto del piso en el que se ubica el inmueble. A continuación, voy a homogenizar los nombres de los tipos de inmueble en Apartamento y Casa solamente. En el caso de los valores apto, tendré que reemplazarlos por Apartamento.
df$tipo <- tolower(df$tipo)
table(df$tipo)
##
## apartamento apto casa
## 5093 13 3221
df$tipo <- ifelse(df$tipo == "apto", "Apartamento", ifelse(df$tipo == "apartamento", "Apartamento", ifelse(df$tipo == "casa", "Casa", df$tipo)))
table(df$tipo)
##
## Apartamento Casa
## 5106 3221
Ahora veamos nuevamente a que tipo de inmueble corresponden los registros sin piso:
pisona <- subset(df, is.na(df$piso)) #subset pisona contains the records without value in column piso
table(pisona$tipo)
##
## Apartamento Casa
## 1383 1255
Se puede observar que hay suficientes registros sin valor en la variable piso (+30%). Esto puede tener sentido para las casas, por su naturaleza, pues ellas no “están” en ningún piso, al menos diferente al 1ro, pero eso no se menciona de esta manera. Lo común es que un apartamento si tenga un piso en donde esté ubicado dentro de un edificio, aunque existen apartamentos en casas que se subdividen, los cuales están por lo general en el primer piso (piso = 1) Ahora veamos la cantidad de registros con piso según su tipo:
withpiso <- subset(df, !is.na(df$piso)) #subset withpiso contains the records with value in column piso
table(withpiso$tipo)
##
## Apartamento Casa
## 3723 1966
Como era de esperarse, esta cantidad está cerca al 70%. Ahora veamos como se cruza el Tipo con la los valores en la columna piso.
table(df$piso,df$tipo)
##
## Apartamento Casa
## 1 431 430
## 2 512 938
## 3 573 524
## 4 545 62
## 5 564 4
## 6 243 2
## 7 203 4
## 8 211 0
## 9 146 0
## 10 128 2
## 11 84 0
## 12 83 0
Ahora, retomando el análisis sobre el significado de la variable piso, si fuera el piso en el que se encuentra, tendría sentido para los Apartamentos, pero no para las casas. Si fuera la cantidad de pisos, tendría sentido para las Casas de 1, 2 y hasta 3 pisos, pues, aunque posible, existe muy poca probabilidad de casas de 10, 7, 6 y 5 pisos, e inclusive las de 4 pisos son muy escasas. Me atrevería entonces a decir que para los registros de tipo Apartamento, el valor entre 1 y 12 tiene sentido. Para los de tipo Casa, los valores altos, mayores o iguales a 4 no tienen sentido o son muy poco probables.
En estos casos entonces lo que haremos es modificar o completar la variable piso con el valor 1, para todas las casa con piso > 3 y dejaremos los de valor igual o menor que 3 como están, pues existe mayor probabilidad de que si existan. En cuanto a los Apartamentos sin valor en piso, los eliminaremos del conjunto de datos. En cuanto a los números altos de la variable piso en los registros de tipo Apartamento, no tenemos razón para dudar de ellos, luego los dejaremos como están.
Veamos como queda el dataset en estas dos variables después de hacer el cambio:
df$piso <- ifelse((df$piso > 3 | is.na(df$piso)) & df$tipo == "Casa", 1, df$piso)
df <- filter(df,!is.na(df$piso))
missing_data <- colSums(is.na(df)) %>%
as.data.frame()
missing_data
## .
## zona 0
## piso 0
## estrato 0
## preciom 0
## areaconst 0
## parquea 1271
## banios 0
## habitac 0
## tipo 0
## barrio 0
Ahora, analicemos los valores de la variable parquea, que ofrece los valores de la cantidad de parqueaderos de un inmueble. Esta es la otra variable que tiene valores en NA.
table(df$parquea,df$estrato,df$tipo )
## , , = Apartamento
##
##
## 3 4 5 6
## 1 204 701 759 85
## 2 7 102 495 595
## 3 2 3 19 148
## 4 0 2 13 45
## 5 0 0 0 3
## 6 0 0 0 2
## 7 0 0 1 0
## 8 0 0 0 0
## 9 0 0 0 0
## 10 0 0 0 0
##
## , , = Casa
##
##
## 3 4 5 6
## 1 277 317 235 28
## 2 79 198 390 225
## 3 17 47 106 98
## 4 10 21 84 181
## 5 1 4 27 32
## 6 3 4 13 46
## 7 0 2 4 11
## 8 0 0 3 14
## 9 0 1 1 2
## 10 1 1 0 4
Según esto, hay varios inmuebles que tienen desde 5 hasta 10 parqueaderos, valores que nos hacen dudar de su veracidad. Para ciertos tipos casas, es más posible que tengan muchos “lugares donde parquear” aunque técnicamente no sean parqueaderos cubiertos. Yo desconfiaría de los valores mayores de 4 inclusive para las casas. Vemos en las tablas que para los apartamentos, solo hay 6 que tienen valores mayores a 4. Se van a eliminar. En cuanto a las casas, hay muchos más registros con valores altos (parquea > 4). Para eliminar los valores atípicos, vamos a asignarles el valor de 4 a dichos registros. En cuanto a los que no tienen dato, vamos a asumir que no tienen parqueadero, por lo tanto les pondremos el valor de cero.
df$parquea <- ifelse(df$parquea > 4, 4, df$parquea)
df$parquea <- ifelse(is.na(df$parquea), 0, df$parquea)
table(df$parquea,df$estrato,df$tipo )
## , , = Apartamento
##
##
## 3 4 5 6
## 0 228 248 42 19
## 1 204 701 759 85
## 2 7 102 495 595
## 3 2 3 19 148
## 4 0 2 14 50
##
## , , = Casa
##
##
## 3 4 5 6
## 0 426 132 121 55
## 1 277 317 235 28
## 2 79 198 390 225
## 3 17 47 106 98
## 4 15 33 132 290
sum(is.na(df$parquea))
## [1] 0
Habiendo eliminado del dataset todos los registros con datos vacíos, ahora vamos a analizar las otras variables del conjunto. Visualizaremos en gráficos de cajas y bigotes la distribución de las variables numéricas.
numeric_columns <- names(df)[sapply(df, is.numeric)]
no_columns <- c("piso","estrato","parquea") #,"longitud", "latitud")
numeric_columns <- setdiff(numeric_columns, no_columns)
lapply(numeric_columns, function(variable) {
ggplot(df, aes_string(x = variable)) +
geom_boxplot() +
labs(title = paste0("Boxplot para la columna: ", variable))
})
## [[1]]
##
## [[2]]
##
## [[3]]
##
## [[4]]
Podemos ver que las variables preciom y areaconst tienen una gran cantidad de valores atípicos, y también que según los datos, hay inmuebles con 8, 9 y 10 baños, así como también con 0 habitaciones o con hasta 10 habitaciones. En cuanto a las variables longitud y latitud, parece que hubiera errores en los datos, pues su distribución, al ser los datos de inmuebles en una misma ciudad, deberían ser muy similares y no con diferencias tan grandes entre sus valores.
Vamos entonces a revisar si los valores de estas variables para esos registros son coherentes, por ejemplo, las casas con muchos baños o muchas habitaciones deberían ser las casas con un área construida mayor y también con más altos precios.
Antes de profundizar en el análisis, eliminaremos los registros con datos no lógicos, como areaconst = 0, habitac = 0 o baños = 0.
df <- filter(df, df$banios != 0)
df <- filter(df, df$habitac != 0)
df <- filter(df, df$areaconst != 0)
numeric_columns <- names(df)[sapply(df, is.numeric)]
exclude_columns <- c("piso","estrato","parquea") #,"longitud", "latitud")
numeric_columns <- setdiff(numeric_columns, exclude_columns)
cov_matrix <- cov(df[, numeric_columns])
atipicos <- mahalanobis(df[, numeric_columns], center = TRUE, cov = cov_matrix)
length(atipicos)
## [1] 6875
Veamos la relación entre las variables preciom, banios, areaconst y habitac. Se espera que entre más área construida, el valor sea mas alto, o que entre más habitaciones existan, hayan más baños, y de igual manera, que entre más habitaciones y baños, mas área construida tenga, al igual que mayor sea el precio. Comportamientos diferentes a estos, si bien pueden ser posibles en la práctica, son poco probables y alteran la homogeneidad de los datos. Para este estudio, si son pocos estos valores atípicos, se eliminarán.
Se representarán gráficamente las distancias de Mahalanobis, que es una medida de la distancia entre un punto y una distribución multivariante. Es una medida útil para detectar valores atípicos en un conjunto de datos multidimensional.La distancia es una medida de la distancia en unidades de desviaciones estándar, por lo tanto, un valor alto de la distancia indica que el punto esta lejos de la distribución multivariante. Típicamente, los puntos con una distancia mayor a 3 se consideran atípicos. La distancia Mahalanobis no se afecta por la escala de las variables y es sensible a la correlación entre las variables.
#ggplot(df, aes_string(x = "preciom", y = "areaconst", color = "atipicos")) +
# geom_point() +
# scale_color_continuous(low = "white", high = "blue") +
# labs(x = "Precio", y = "Área construida", color = "Distancia de Mahalanobis")
ggplot(df, aes_string(x = 'preciom', y = 'areaconst', color = 'atipicos')) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Precio", y = "Area construida", color = "Distancia de Mahalanobis")
En el gráfico anterior se pueden ver algunos datos que no son lógicos pues se asume una relación directamente proporcional entre el precio y el área construida de una casa. Por ejemplo, hay un registro de 1750 metros cuadrados construidos con un valor de 250 millones. Se esperaría que para un área tan grande, el precio estuviera entre los más altos y por el contrario está entre los más bajos. También se ve el caso contrario, en el que el precio es muy alto para tan poca área construida. Aunque no se están teniendo en cuenta otras variables, como por ejemplo el estrato o el barrio, siempre hay una relación directa entre el tamaño y el valor que debe considerarse. En un estudio más detallado se podrían tener en cuenta los cruces entre estas cuatro variables mencionadas, o inclusive también con la cantidad de baños y de habitaciones.
ggplot(df, aes_string(x = "banios", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Baños", y = "Área construida", color = "Distancia de Mahalanobis")
Se observa que hay unos registros con mucha área construida y pocos baños, como es el caso del registro que indica 1750 metros construidos y 3 baños. Se elminará este registro.
df <- filter(df, df$areaconst != 1750)
Veamos la relación entre la cantidad de habitaciones y la cantidad de baños. Se espera que entre mas habitaciones, mas baños haya en el inmueble.
ggplot(df, aes_string(x = "habitac", y = "banios", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Baños", color = "Distancia de Mahalanobis")
ggplot(df, aes_string(x = "habitac", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Area", color = "Distancia de Mahalanobis")
Aparece un caso donde hay 3 habitaciones y 10 baños. También, en el gráfico anterior, inmuebles con 10 baños y menos de 400 metros de área construida. Estos se eliminarán.
df <- filter(df, !(df$banios == 10 & df$areaconst <= 400))
table(df$banios,df$habitac)
##
## 1 2 3 4 5 6 7 8 9 10
## 1 20 98 225 20 5 1 2 0 0 0
## 2 18 503 1509 163 56 23 10 5 1 0
## 3 4 78 889 460 105 55 34 24 14 3
## 4 0 15 379 510 188 78 36 38 12 10
## 5 0 3 138 312 176 68 42 34 22 11
## 6 1 0 14 90 82 57 25 18 9 7
## 7 0 0 2 6 42 24 14 6 7 4
## 8 0 0 0 2 3 9 8 9 9 6
## 9 0 0 0 0 1 0 1 4 7 2
## 10 0 0 0 0 0 0 0 0 1 3
De igual manera, se observa una aparente disparidad entre la cantidad de baños y el área construida. Aunque es posible que haya pocos baños en una casa grande, esto es poco probable. Tal vez una mayor relación la tienen las variables que representan las cantidades de baños y de habitaciones, pues las habitaciones dan una idea de la cantidad de personas que viven o usan la casa, lo cual muestra la necesidad de más o menos baños.
En el segundo gráfico se ve que hay casas de 0 metros construidos con varias habitaciones, lo cual no es posible. Estos registros se eliminarán. Y también hay registros de inmuebles en el conjunto con muchos más baños que habitaciones, en una proporción de 2 a 1 e inclusive de 3 a 1. Eliminaremos estos registros problemáticos dado que no es mucha la cantidad de ellos.
Se revisaron los valores de las variables barrio y zona. Se notó que los nombres de las zonas están todos bien escritos, pero que en los nombres de los barrios hay algunos registros que se refieren al mismo barrio pero que están escritos de manera diferente, como por ejemplo: “alfonso lopez” y “alfonzo López”. También se nota que hay muchos barrios donde solo hay un inmueble a la venta. Con tan baja representatividad, no es posible hacer inferencias en cuanto a la situación de los inmuebles en los barrios. Habría que usar la zona que al ser solo 5, tienen más inmuebles en ellas.
Corregimos los nombres de algunos de los barrios para ver sus efectos en el dataset, sin embargo, se nota que sigue habiendo muchos barrios con tan solo un inmueble y que además son alrededor de 350 y algunos están posiblemente mal referenciados, como el que dice “cali” o el que hace referencia al nombre de un edificio. También se ve que están referenciadas las zonas en los barrios. En definitiva, esta variable requeriría de mucha limpieza e investigación para ser depurada, y teniendo también errores en la longitud y latitud, no se puede imputar a partir de los datos existentes.
unique(df$zona)
## [1] "Zona Oeste" "Zona Sur" "Zona Norte" "Zona Centro" "Zona Oriente"
df$barrio <- tolower(df$barrio)
barrios = unique(df$barrio, decreasing = TRUE)
#table(df$barrio, sort = TRUE)
#barrios
df$barrio <- ifelse(df$barrio == "alf√©rez real", "alferez real", ifelse(df$barrio == "alfonso lópez", "alfonso lopez", ifelse(df$barrio == "base a√©rea", "base aerea", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "mel√©ndez", "melendez", ifelse(df$barrio == "la arboleda", "arboleda", ifelse(df$barrio == "los alcázares", "los alcazares", ifelse(df$barrio == "la rivera i", "la riverita", ifelse(df$barrio == "laflora", "la flora", ifelse(df$barrio == "la rivera ii", "la riverita", ifelse(df$barrio == "la rivera", "la riverita", ifelse(df$barrio == "ciudadela paso ancho", "ciudadela pasoancho", ifelse(df$barrio == "caney especial", "caney", ifelse(df$barrio == "el ingenio i", "ingenio", ifelse(df$barrio == "el ingenio ii", "ingenio", ifelse(df$barrio == "el ingenio", "ingenio", ifelse(df$barrio == "el ingenio iii", "el ingenio", ifelse(df$barrio == "jamundi alfaguara", "alfaguara", ifelse(df$barrio == "cali canto viii", "calicanto", ifelse(df$barrio == "cali canto", "calicanto", ifelse(df$barrio == "chiminangos 1 etapa", "chiminangos", ifelse(df$barrio == "chiminangos 2 etapa", "chiminangos", ifelse(df$barrio == "cristóbal colón", "cristobal colón", ifelse(df$barrio == "marroquin iii", "marroquin", ifelse(df$barrio == "el ingenio 3", "el ingenio", df$barrio))))))))))))))))))))))))))
table(df$barrio)
##
## 20 de julio 3 de julio
## 3 1
## acopi agua blanca
## 75 1
## aguablanca aguacatal
## 2 76
## alameda alameda del río
## 13 1
## alamos alborada
## 7 1
## alfaguara alferez real
## 1 4
## alfonso lopez alfonso lópez i
## 21 1
## alto jordán altos de guadalupe
## 1 4
## altos de menga antonio nariño
## 3 2
## aranjuez arboleda
## 15 9
## arboleda campestre candelaria arboledas
## 1 31
## atanasio girardot autopista sur
## 9 1
## barranquilla barrio 7de agosto
## 5 1
## barrio eucarístico barrio obrero
## 1 1
## barrio tranquilo y base aerea
## 1 2
## belalcazar belisario caicedo
## 4 2
## bella suiza bella suiza alta
## 17 2
## bellavista benjamín herrera
## 28 8
## berlin bloques del limonar
## 1 1
## bochalema bosques del limonar
## 12 21
## boyacá bretaña
## 1 14
## brisas de guadalupe brisas de los
## 1 61
## brisas del guabito brisas del limonar
## 1 1
## buenos aires caldas
## 6 1
## cali calibella
## 13 1
## calicanto calicanto viii
## 9 1
## calima calimio norte
## 6 5
## calipso cambulos
## 9 3
## camino real caney
## 31 69
## cañasgordas cañaveralejo
## 7 11
## cañaverales cañaverales los samanes
## 20 1
## capri cascajal
## 47 1
## ceibas centenario
## 1 10
## centro cerro cristales
## 3 19
## cerros de guadalupe champagnat
## 1 14
## chapinero chiminangos
## 7 12
## chipichape ciudad 2000
## 23 91
## ciudad antejardin ciudad bochalema
## 1 44
## ciudad capri ciudad cordoba
## 12 20
## ciudad córdoba ciudad córdoba reservado
## 14 1
## ciudad country ciudad del campo
## 1 1
## ciudad jardin ciudad jardín
## 14 471
## ciudad jardin pance ciudad los álamos
## 1 22
## ciudad modelo ciudad pacifica
## 7 1
## ciudad real ciudad talanga
## 3 1
## ciudad universitaria ciudadela comfandi
## 1 17
## ciudadela del río ciudadela pasoancho
## 1 22
## colinas del bosque colinas del sur
## 1 5
## colon colseguros
## 1 39
## colseguros andes compartir
## 5 1
## cristales cristobal colón
## 53 15
## cuarto de legua departamental
## 37 26
## ed benjamin herrera el bosque
## 1 49
## el caney el castillo
## 188 6
## el cedro el diamante
## 8 2
## el dorado el gran limonar
## 5 7
## el guabal el guabito
## 18 1
## el ingenio el jardín
## 18 13
## el lido el limonar
## 52 120
## el nacional el paraíso
## 1 3
## el peñon el prado
## 40 1
## el refugio el rodeo
## 99 1
## el sena el trébol
## 1 5
## el troncal el vallado
## 16 1
## eucarístico evaristo garcía
## 2 1
## farrallones de pance fenalco kennedy
## 1 1
## fepicol flora industrial
## 1 9
## floralia fonaviemcali
## 5 1
## francisco eladio ramirez fuentes de la
## 1 1
## gran limonar granada
## 24 13
## guadalupe guayaquil
## 19 15
## hacienda alferez real ingenio
## 1 210
## ingenio i ingenio ii
## 1 1
## jamundi jorge eliecer gaitán
## 4 1
## jorge isaacs juanamb√∫
## 1 35
## juanambu junin
## 1 18
## junín la alborada
## 6 2
## la alianza la base
## 4 15
## la buitrera la campiña
## 3 11
## la cascada la ceibas
## 6 1
## la esmeralda la flora
## 1 316
## la floresta la fortaleza
## 18 4
## la gran colombia la hacienda
## 1 148
## la independencia la libertad
## 12 2
## la merced la morada
## 23 1
## la nueva base la playa
## 8 1
## la portada al la primavera
## 1 1
## la reforma la riverita
## 1 15
## la riviera la selva
## 1 10
## la villa del las acacias
## 1 12
## las américas las camelias
## 2 1
## las ceibas las delicias
## 21 3
## las granjas las quintas de
## 9 1
## las vegas las vegas de
## 1 1
## libertadores los alcazares
## 3 12
## los andes los cambulos
## 21 22
## los cámbulos los cristales
## 5 123
## los cristales club los farallones
## 1 4
## los guaduales los guayacanes
## 20 2
## los jockeys los libertadores
## 1 4
## los parques barranquilla lourdes
## 3 2
## mamellan manzanares
## 1 5
## marroquín iii mayapan las vegas
## 1 41
## melendez menga
## 59 18
## metropolitano del norte miradol del aguacatal
## 14 1
## miraflores morichal de comfandi
## 26 3
## multicentro municipal
## 23 3
## napoles nápoles
## 1 26
## normandia normandía
## 3 106
## norte norte la flora
## 1 1
## nueva base nueva floresta
## 1 15
## nueva tequendama oasis de comfandi
## 70 4
## occidente pacara
## 1 14
## pacará palmas del ingenio
## 4 1
## pampa linda pampalinda
## 22 10
## panamericano pance
## 9 357
## parcelaciones pance parque residencial el
## 55 1
## paseo de los paso del comercio
## 2 5
## pasoancho poblado campestre
## 4 2
## ponce popular
## 1 6
## portada de comfandi portales de comfandi
## 2 1
## porvenir prados de oriente
## 3 6
## prados del limonar prados del norte
## 21 104
## prados del sur primavera
## 2 2
## primero de mayo primitivo crespo
## 32 3
## puente del comercio puente palma
## 6 1
## quintas de don quintas de salomia
## 64 4
## rafael uribe uribe rep√∫blica de israel
## 1 1
## rincón de salomia riveras del valle
## 1 1
## rozo la torre saavedra galindo
## 1 3
## salomia samanes
## 35 1
## samanes de guadalupe sameco
## 1 1
## san antonio san bosco
## 21 7
## san carlos san cayetano
## 4 9
## san fernando san fernando nuevo
## 47 9
## san fernando viejo san joaquin
## 14 3
## san joaquín san juan bosco
## 16 7
## san judas san judas tadeo
## 1 2
## san luis san luís
## 2 1
## san nicolas san nicolás
## 1 1
## san pedro san vicente
## 1 47
## santa anita santa anita sur
## 44 1
## santa bárbara santa elena
## 3 9
## santa fe santa helena de
## 8 1
## santa isabel santa monica
## 55 47
## santa mónica santa monica norte
## 3 1
## santa monica popular santa mónica popular
## 1 6
## santa monica residencial santa mónica residencial
## 5 32
## santa rita santa teresita
## 40 173
## santafe santander
## 1 1
## santo domingo sector cañaveralejo guadalupe
## 6 1
## seminario sierras de normandía
## 24 1
## siete de agosto simón bolivar
## 8 1
## tejares cristales tejares de san
## 4 13
## templete tequendama
## 4 40
## tequendema terrón colorado
## 1 1
## torres de comfandi unión de vivienda
## 41 3
## urbanización barranquilla urbanización boyacá
## 3 1
## urbanización colseguros urbanizacion el saman
## 3 1
## urbanización la flora urbanización la merced
## 59 4
## urbanización la nueva urbanización las cascadas
## 4 1
## urbanizacion lili urbanización nueva granada
## 2 3
## urbanización río lili urbanización san joaquin
## 5 4
## urbanización tequendama valle de lili
## 5 1
## valle del lili valle grande
## 817 1
## versalles villa colombia
## 57 6
## villa de veracruz villa del lago
## 4 10
## villa del prado villa del sol
## 50 21
## villa del sur villas de veracruz
## 2 9
## vipasa zona centro
## 30 1
## zona norte zona norte los
## 28 1
## zona oeste zona oriente
## 24 17
## zona sur
## 71
Veo que a pesar de que se han estandarizado algunos nombres, estos y otros siguen teniendo pocos inmuebles. Aunque en un análisis más profundo o diferente el barrio podría ser necesario, para esta ocasión, usaremos para cualquier análisis la variable zona con la siguiente distribución. El barrio se eliminará del dataset.
df$barrio <- NULL
Tal como hemos visto en el análisis, algunas de las variables no se utilizarán como parte del estudio. Estas variables son: - id - latitud - longitud - barrio Las razones que se tuvieron en cuenta para su eliminación son: - Información improcedente para un análisis estadístico, como en el caso del id. - Información con muchos errores, valores atípicos o con distribuciones muy particulares que dan señal de estar equivocadas, como por ejemplo los valores en la latitud y la longitud. - Datos con muy poca representatividad en variables que segmentan los valores, como es el caso de la variable barrio, en donde había muchos barrios con solo un inmueble. - Variables completas que no aportan al objetivo del estudio (Definir su nicho, desarrollar estrategias de marketing, etc.) tal como se presenta en la descripcion del trabajo.
Empecemos por ver los datos estadísticos de las variables
describe(df)
## vars n mean sd median trimmed mad min max range skew
## zona* 1 6870 3.99 1.32 5 4.13 0.00 1 5 4 -0.72
## piso 2 6870 3.24 2.60 2 2.76 1.48 1 12 11 1.45
## estrato 3 6870 4.62 1.03 5 4.64 1.48 3 6 3 -0.17
## preciom 4 6870 441.57 331.43 340 381.35 207.56 58 1999 1941 1.86
## areaconst 5 6870 185.14 149.86 133 158.92 93.40 30 1745 1715 2.60
## parquea 6 6870 1.48 1.09 1 1.38 1.48 0 4 4 0.66
## banios 7 6870 3.22 1.44 3 3.09 1.48 1 10 9 0.89
## habitac 8 6870 3.76 1.49 3 3.55 1.48 1 10 9 1.66
## tipo* 9 6870 1.46 0.50 1 1.45 0.00 1 2 1 0.16
## kurtosis se
## zona* -1.19 0.02
## piso 1.56 0.03
## estrato -1.11 0.01
## preciom 3.67 4.00
## areaconst 12.01 1.81
## parquea 0.02 0.01
## banios 0.78 0.02
## habitac 3.28 0.02
## tipo* -1.98 0.01
Se puede observar lo siguientes:
Esta es la cantidad de inmuebles que hay por zona:
table(df$zona)
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 112 1481 868 329 4080
La zona con mayor cantidad de inmuebles es la zona sur, seguida por la zona norte, la oeste, la oriente y por último la centro. Veamos ahora la combinación de la zona y el tipo de inmueble.
table(df$zona,df$tipo)
##
## Apartamento Casa
## Zona Centro 15 97
## Zona Norte 781 700
## Zona Oeste 704 164
## Zona Oriente 46 283
## Zona Sur 2158 1922
En las dos zonas donde más inmuebles hay (Sur y Norte), la cantidad de apartamentos es ligeramente mayor que la de las casas. En la zona Oeste es mucho mayor para apartamentos, y en las zonas centro y Oriente hay más casas que apartamentos. Veamos los promedios y la mediana de la variable precio para cada tipo:
meds <- aggregate ( df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c( round(as.numeric(mean(x)),2), round(as.numeric(median(x)),1), round(as.numeric(length(x)),0)))
meds <- data.frame(as.matrix(meds))
colnames(meds) <- c("Tipo","Zona","Media_Precio","Mediana_Precio","Cantidad")
meds$Media_Precio <- as.numeric(meds$Media_Precio)
meds$Mediana_Precio <- as.numeric(meds$Mediana_Precio)
meds$Cantidad <- as.numeric(meds$Cantidad)
meds
## Tipo Zona Media_Precio Mediana_Precio Cantidad
## 1 Apartamento Zona Centro 144.87 130 15
## 2 Casa Zona Centro 337.46 300 97
## 3 Apartamento Zona Norte 284.63 250 781
## 4 Casa Zona Norte 442.00 390 700
## 5 Apartamento Zona Oeste 661.57 560 704
## 6 Casa Zona Oeste 737.80 680 164
## 7 Apartamento Zona Oriente 127.70 114 46
## 8 Casa Zona Oriente 241.92 235 283
## 9 Apartamento Zona Sur 291.99 245 2158
## 10 Casa Zona Sur 611.76 480 1922
ggplot(meds, aes(x = Tipo, y = Cantidad, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Cantidad") +
facet_wrap(~Zona ) +
geom_text(aes(label = Cantidad), vjust = 0.2)
means <- aggregate (df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c(round(as.numeric(mean(x)),2)))
means <- data.frame(as.matrix(means))
#means
colnames(means) <- c("Tipo","Zona","Media_Precio")
ggplot(means, aes(x = Tipo, y = Media_Precio, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Media Precio") +
facet_wrap(~Zona ) +
geom_text(aes(label = Media_Precio), vjust = 0.2)
medians <- aggregate (df$preciom ~ df$tipo + df$zona, data = df, FUN = function(x) c(round(as.numeric(median(x)),0)))
medians <- data.frame(as.matrix(medians))
#medians
colnames(medians) <- c("Tipo","Zona","Mediana_Precio")
ggplot(medians, aes(x = Tipo, y = Mediana_Precio, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Mediana Precio") +
facet_wrap(~Zona ) +
geom_text(aes(label = Mediana_Precio), vjust = 0.2)
Se puede ver en el primer gráfico que la cantidad de Casas y Apartamentos en la Zona Sur supera a todas las demás Zonas, seguida por la Zona Norte, la Zona Oeste, la Oriente y por último la Centro.
En cuanto al precio de venta, los gráficos que muestran la media y la mediana muestran que los inmuebles con el mayor precio están en la Zona Oeste, lo que, siendo una Zona con poca oferta, la hace muy atractiva, pues no hay tanta competencia y la posibilidad de mejores comisiones es más alta. Bajo este mismo criterio, le seguiría la Zona Norte y la Zona Sur. También las Casas en la Zona Centro. La Zona Oriente no parece ser muy atractiva porque hay pocos inmuebles y es poco su valor.
El tipo de vivienda más ofertada en Cali son los apartamentos.
table(df$tipo)
##
## Apartamento Casa
## 3704 3166
types <- aggregate (df$preciom ~ df$tipo, data = df, FUN = function(x) c(round(as.numeric(length(x)),0)))
types <- data.frame(as.matrix(types))
colnames(types) <- c("Tipo","Cantidad")
ggplot(types, aes(x = Tipo, y = Cantidad, fill = Tipo)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Cantidad") +
geom_text(aes(label = Cantidad), vjust = -0.5) +
coord_polar()
De acuerdo a los gráficos anteriores en donde se muestra la cantidad de viviendas segmentado por zona y tipo, y el precio promedio también segmentado por zona y tipo, los 5 con mayor cantidad serían los siguientes:
En cuanto al precio de venta, estos son los 5 primeros promedios:
Si se tiene en cuenta la Mediana, el orden sería el mismo de los promedios.
Las viviendas en venta en Cali se encuentran distribuidas en toda la ciudad, siendo la de mayor cantidad la Zona Sur. Esto no ha de sorprender, pues es una de las zonas mas grandes y de mayor movimiento en la ciudad para vivir por los atractivos que tiene, tales como variedad de opciones en vivienda (Edificios, conjuntos residenciales, condominios campestres, etc.), multiplicidad de opciones de lugares de comercio, existencia de parques, clubes, cercanía a zona de colegios y universidades, entre muchas otras ventajas.
Si bien el tipo de vivienda que más se oferta son los apartamentos, son las casas las que mejor promedio de precio tienen. Esto es lógico, porque normalmente son más grandes, luego es natural que sean más caras, sin embargo, en todas las zonas las casas tienen un promedio de precio más alto, y como las inmobiliarias ganan por comisión por el precio de venta, esto se hace muy relevante a la hora de escoger la estrategia y el nicho al que se le ofrecerán los inmuebles.
table(df$estrato,df$tipo)
##
## Apartamento Casa
## 3 440 793
## 4 1051 711
## 5 1318 972
## 6 895 690
table(df$estrato,df$zona)
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 3 99 445 43 320 326
## 4 11 297 71 7 1376
## 5 1 620 213 2 1454
## 6 1 119 541 0 924
Si analizamos la distribución del estrato por tipo y por zona, vemos que en el estrato 3, que es el más bajo, hay mayor cantidad de casas frente a la oferta de apartamentos, en una relación casi de 2:1 para las casas. Este fenómeno no se repite en ningún otro estrato, siendo la cantidad de apartamentos mayor a la de casas.
estratos <- aggregate (df$preciom ~ df$estrato, data = df, FUN = function(x) c(round(as.numeric(length(x)),0)))
estratos <- data.frame(as.matrix(estratos))
colnames(estratos) <- c("Estrato","Cantidad")
ggplot(estratos, aes(x = Estrato, y = Cantidad, fill = Estrato)) +
geom_bar(stat = "identity", show.legend = TRUE) +
labs(x = "Tipo", y = "Cantidad") +
geom_text(aes(label = Cantidad), vjust = -0.5)
El Estrato 5 es el estrato con mayor cantidad de inmuebles a la venta, seguido por el 4, el 6 y el 3. En la Zona Sur, donde hay mayor cantidad de inmuebles, en el estrato en que mas inmuebles hay es el 5, seguido del 4, después el 6 y cerrando el 3. Esto es coherente con la distribución de la ciudad en dicha zona.
x=1
El informe estadístico podría proporcionar información sobre los siguientes temas:
Precio de las viviendas en diferentes zonas de Cali. Tipo de viviendas más ofertadas en Cali. Características más relevantes de la oferta de vivienda en Cali.
Esta información sería útil para la empresa B&C para tomar decisiones sobre su negocio, tales como:
Definir su nicho de mercado. Desarrollar estrategias de marketing. Establecer precios de venta. Ofrecer servicios personalizados a sus clientes.
La empresa solicita un análisis descriptivo de los datos, para identificar las tendencias y patrones en los datos.
El informe debe incluir los siguientes elementos:
Introducción Objetivos Métodos Resultados Discusión Conclusiones Anexos
El informe debe ser redactado en un lenguaje claro y conciso, y debe estar dirigido a los directivos de la empresa B&C.
Solicitud de entrega del informe Se debe entregar enlace de la plataforma RPuls que contenga el documento final, utilizando el formato Markdown.
El informe debe estar organizado en un único documento que contenga la introducción, los objetivos, los métodos, los resultados, la discusión y las conclusiones. Cada sección del informe debe estar numerada y debe tener un encabezado descriptivo.
Entregable Enlace del informe en RPubs, copiado en Actividad1 del curso en Bs —
A partir del análisis descriptivo del conjunto de datos, se presentan los siguientes resultados del estudio, con el objetivo de brindar información relevante y suficiente para que la Junta Directiva de la Inmobiliaria B&C pueda decidir su nicho de mercado, desarrollar estrategias de marketing, establecer precios de venta y ofrecer servicios personalizados a sus clientes.
La Zona Oeste presenta un mejor promedio de precios tanto para las casas como para los apartamentos, constituyéndose en una zona de mucho interés, dado que las inmobiliarias ganan por comisión, y entre mayor sea el valor de la propiedad, más dinero se ganará. La siguen la zona sur y la zona norte. El caso de la zona centro es particular, pues hay pocas casas, pero su promedio de precio no es el más bajito.
Los apartamentos son el tipo de inmueble con mayor cantidad de ofertas en la ciudad de Cali superando en cantidad a las casas en la zona Norte, Oeste y Sur. En las zonas Centro y Oriente, hay más casas ofertadas, en una proporción aproximada de 6 a 1.
Aunque hay mas apartamentos que casas, las casas presentan mayores valores en su precio, lo que las hace más atractivas. Las zonas con más alto promedio de venta son la Oeste, la Sur, a Norte, la Centro y la Oriente. Nótese que la Centro tiene pocas ofertas, pero sus casas tienen mejor promedio que las de la zona Oriente.
El estrato 5 es el estrato con mayor cantidad de oferta de venta de inmuebles. Si bien, esto no es en si información contundente, si es una muestra de que las casas que más se comercializan son las de valores medio-altos, y esto puede dar un indicio de la clase de compradores que se deben buscar.
Se pudo ver que el conjunto de datos tiene muchas irregularidades, datos atípicos, valores nulos o que claramente parecen erróneos. Esto causa mucha dificultad en su procesamiento, pero sobre todo mina la confianza en el conjunto de datos. Si bien no hay como corroborar los datos de las variables en las que no sabemos a ciencia cierta si hay datos erróneos, la cantidad que si podemos determinar como erróneos es tan alta que nos hace desconfiar del conjunto. Por ejemplo, se puede constatar que hay errores en los valores de las variables latitud y longitud, pero no podemos saber si hay errores en la variable precio o área construida, salvo unos muy contados registros que pueden ser eliminados.
Lo anterior hace sospechar de los valores presentes en otras variables a las que no se les pueda comprobar que tienen valores equivocados no puedan ser confiables. De todos modos, al eliminar los registros con datos claramente erróneos, se está disminuyendo la probabilidad de error en los análisis y conclusiones.
Es muy importante trabajar con los datos de la mejor calidad posible, incluso si hay que sacrificar y disminuir la cantidad de datos presentes con los que se puede trabajar.
Para mantener la calidad de los datos, es necesario llevar a cabo una revisión de los mismos y una eliminación de los datos con valores claramente equivocados, como áreas iguales a 0, o viviendas sin habitaciones o baños.
Al ser los datos recogidos de publicaciones en internet, no se pueden corroborar ni mejorar sustancialmente, salvo en cuestiones contadas, como por ejemplo cruzando las coordenadas con el barrio. Sin embargo, el desorden de estas dos variables no indica que ese análisis sea importante hacerlo.