Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socio-económicos.
Análisis de Correspondencia: Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.
Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
El informe final debe incluir análisis detallados de los resultados obtenidos, las conclusiones clave y las recomendaciones específicas para guiar las decisiones estratégicas de la empresa inmobiliaria. Se espera que este análisis de datos proporcione ventajas competitivas en el mercado, optimizando la inversión y maximizando los beneficios en un entorno altamente competitivo y en constante cambio.
#devtools::install_github("dgonxalex80/paqueteMODELOS", force = TRUE)
#devtools::install_github("centromagis/paqueteMODELOS", force = TRUE)
#library(paqueteMODELOS)
data(vivienda)
str(vivienda)## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=
## .. cols(
## .. id = col_double(),
## .. zona = col_character(),
## .. piso = col_character(),
## .. estrato = col_double(),
## .. preciom = col_double(),
## .. areaconst = col_double(),
## .. parqueaderos = col_double(),
## .. banios = col_double(),
## .. habitaciones = col_double(),
## .. tipo = col_character(),
## .. barrio = col_character(),
## .. longitud = col_double(),
## .. latitud = col_double()
## .. )
## - attr(*, "problems")=<externalptr>
A continuación se mencionan las variables que se utilizarán en el ejercicio.
Zona: Registra la zona donde esta ubicada el inmueble esta puede ser: Zona Centro,Zona Norte,Zona Oeste,Zona Oriente,Zona Sur
Piso: Registra el piso ene l cual se ubica la vivienda
Estrato: Variable con escala de medición ordinal,los estrato de las viviendas son 3,4,5,6
Preciom: Precio de la vivienda
areaconstu: Area Construida
parqueaderos: Numero de parqueaderos de la vivienda
banios: Número de baños de la propiedad
Habitaciones: Número de habitaciones que posee la vivienda
Tipo: Tipo de la vivienda, casa o apartamento
Nota: Se eliminaron variables que no contribuyen en el ejercicio ni aportan información relevante para el modelo, tales como: Id, Latitud y Longitud
#vivienda
viviendas <- subset(vivienda, !is.na(id))
#vivienda
viviendas$latitud <- NULL
viviendas$longitud <- NULL
viviendas$id <- NULL
#vivienda
summary(viviendas)## zona piso estrato preciom
## Length:8319 Length:8319 Min. :3.000 Min. : 58.0
## Class :character Class :character 1st Qu.:4.000 1st Qu.: 220.0
## Mode :character Mode :character Median :5.000 Median : 330.0
## Mean :4.634 Mean : 433.9
## 3rd Qu.:5.000 3rd Qu.: 540.0
## Max. :6.000 Max. :1999.0
##
## areaconst parqueaderos banios habitaciones
## Min. : 30.0 Min. : 1.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 123.0 Median : 2.000 Median : 3.000 Median : 3.000
## Mean : 174.9 Mean : 1.835 Mean : 3.111 Mean : 3.605
## 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000 3rd Qu.: 4.000
## Max. :1745.0 Max. :10.000 Max. :10.000 Max. :10.000
## NA's :1602
## tipo barrio
## Length:8319 Length:8319
## Class :character Class :character
## Mode :character Mode :character
##
##
##
##
Se observan datos faltantes en las variables piso y parqueadero. Para verlo gráficamente, se usa el siguiente código:
missing <- colSums(is.na(viviendas)) %>%
as.data.frame()
#missing
VIM::aggr(viviendas, cex.axis = 0.5, cex.lab= 0.8) ## zona estrato preciom areaconst banios habitaciones tipo barrio
## 4808 1 1 1 1 1 1 1 1
## 1909 1 1 1 1 1 1 1 1
## 876 1 1 1 1 1 1 1 1
## 726 1 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0 0
## parqueaderos piso
## 4808 1 1 0
## 1909 1 0 1
## 876 0 1 1
## 726 0 0 2
## 1602 2635 4237
Se ven dos variables con una buena cantidad de datos faltantes, piso (2635) y parqueaderos (1602). Analicemos dichas variables. Empecemos por piso:
## Descriptive Statistics
## viviendas$piso
## N: 8319
##
## piso
## ----------------- ---------
## Mean 3.77
## Std.Dev 2.61
## Min 1.00
## Q1 2.00
## Median 3.00
## Q3 5.00
## Max 12.00
## MAD 1.48
## IQR 3.00
## CV 0.69
## Skewness 1.28
## SE.Skewness 0.03
## Kurtosis 1.05
## N.Valid 5684.00
## Pct.Valid 68.33
##
## 1 2 3 4 5 6 7 8 9 10 11 12
## 860 1450 1097 607 567 245 204 211 146 130 84 83
Podemos observar algunas cosas importantes. Como vimos hay 2635 registros sin dato en la columna piso. Lo segundo, que el menor valor es 1 y el mayor es 12, con un buen número de registros con valores altos. Por el nombre de la variable no sabemos si el valor corresponde al número del piso en el que queda el inmueble en un edificio, o el número de pisos que tiene el inmueble. Si fuera lo segundo, querría decir que hay inmuebles que tienen 12 pisos, lo que tendría sentido si fueran edificios. Si fuera lo primero, significa que hay inmuebles en el doceavo piso de un edificio, al igual que en el décimo, el noveno, y así sucesivamente, Lo que tiene mucho más sentido, dado lo extremadamente raro que sería que una casa o un apartamento tuviera 12 pisos. Para tratar de entender a que se refiere, vamos a ver primero a que tipo de inmueble corresponden los registros que tienen un número alto.
pisoNna <- subset(viviendas, !is.na(viviendas$piso)) #subset pisoNna contains the records with value in column piso
table(pisoNna$tipo)##
## Apartamento Casa
## 3719 1965
Existen 3719 Apartamentos con valor en la variable piso, y 1965 Casas con igual condición. Podemos ver también que no hay inmuebles de tipo edificio.
pisona <- subset(viviendas, is.na(viviendas$piso)) #subset pisoNna contains the records with value in column piso
table(pisona$tipo)##
## Apartamento Casa
## 1381 1254
Existe una proporción bastante similar entre Casas y Apartamentos sin piso. Podemos ver también que no hay inmuebles de tipo edificio, lo que no apoya el caso mencionado de que la variable se refiere al piso en el que se encuentra el inmueble en un edificio, además de que no hay casas en edificios, sino apartamentos. Ahora veamos como se cruza el Tipo con los valores de la columna Piso.
##
## Apartamento Casa
## 1 430 430
## 2 512 938
## 3 573 524
## 4 545 62
## 5 564 3
## 6 243 2
## 7 200 4
## 8 211 0
## 9 146 0
## 10 128 2
## 11 84 0
## 12 83 0
Ahora, retomando el análisis sobre el significado de la variable piso, si fuera el piso en el que se encuentra, tendría sentido para los Apartamentos, pero no para las casas. Si fuera la cantidad de pisos, tendría sentido para las Casas de 1, 2 y hasta 3 pisos, pues, aunque posible, existe muy poca probabilidad de casas de 10, 7, 6 y 5 pisos, e inclusive las de 4 pisos son muy escasas. Me atrevería entonces a decir que para los registros de tipo Apartamento, el valor entre 1 y 12 tiene sentido. Para los de tipo Casa, los valores altos, mayores o iguales a 4 no tienen sentido o son muy poco probables. Veamos la moda para cada tipo:
mode_by_type <- viviendas %>%
group_by(tipo) %>%
summarise(
moda_piso = mfv(viviendas$piso, na_rm = TRUE)
)
mode_by_type## # A tibble: 2 × 2
## tipo moda_piso
## <chr> <int>
## 1 Apartamento 2
## 2 Casa 2
Para ambos tipos el valor más común es 2 pisos.
Dado que las casas de más de 3 pisos son muy raras, en estos casos entonces lo que haremos es modificar o completar la variable piso con el valor 2, para todas las casa con piso > 3 y dejaremos los de valor igual o menor que 3 como están, pues existe mayor probabilidad de que si existan. En cuanto a los Apartamentos sin valor en piso, los eliminaremos del conjunto de datos. En cuanto a los números altos de la variable piso en los registros de tipo Apartamento, no tenemos razón para dudar de ellos, luego los dejaremos como están.
Veamos como queda el dataset en estas dos variables después de hacer el cambio:
viviendas$piso <- ifelse((viviendas$piso > 3 | is.na(viviendas$piso)) & viviendas$tipo == "Casa", 2, viviendas$piso)
viviendas <- filter(viviendas,!is.na(viviendas$piso))
missing_data <- colSums(is.na(viviendas)) %>%
as.data.frame()
missing_data## .
## zona 0
## piso 0
## estrato 0
## preciom 0
## areaconst 0
## parqueaderos 1270
## banios 0
## habitaciones 0
## tipo 0
## barrio 0
Ahora, analicemos los valores de la variable parqueadero, que ofrece los valores de la cantidad de parqueaderos de un inmueble. Esta es la otra variable que tiene valores en NA. Miremos la moda para los parqueaderos
## [1] 1
## , , = Apartamento
##
##
## 3 4 5 6
## 1 204 701 758 85
## 2 7 102 495 594
## 3 2 3 19 147
## 4 0 2 13 44
## 5 0 0 0 3
## 6 0 0 0 2
## 7 0 0 1 0
## 8 0 0 0 0
## 9 0 0 0 0
## 10 0 0 0 0
##
## , , = Casa
##
##
## 3 4 5 6
## 1 277 317 235 28
## 2 79 197 390 225
## 3 17 47 106 98
## 4 10 21 84 181
## 5 1 4 27 32
## 6 3 4 13 46
## 7 0 2 4 11
## 8 0 0 3 14
## 9 0 1 1 2
## 10 1 1 0 4
Según esto, hay varios inmuebles que tienen desde 5 hasta 10 parqueaderos, valores que nos hacen dudar de su veracidad. Para ciertos tipos casas, es más posible que tengan muchos “lugares donde parquear” aunque técnicamente no sean parqueaderos cubiertos. Yo desconfiaría de los valores mayores de 4 inclusive para las casas. Vemos en las tablas que para los apartamentos, solo hay 6 que tienen valores mayores a 4. Se van a eliminar. En cuanto a las casas, hay muchos más registros con valores altos (parqueaderos > 4). Para eliminar los valores atípicos, vamos a asignarles el valor de 4 a dichos registros. En cuanto a los que no tienen dato, vamos a imputarlos con la moda que es 1.
viviendas$parqueaderos <- ifelse(viviendas$parqueaderos > 4, 4, viviendas$parqueaderos)
viviendas$parqueaderos <- ifelse(is.na(viviendas$parqueaderos), 1, viviendas$parqueaderos)
table(viviendas$parqueaderos,viviendas$estrato,viviendas$tipo )## , , = Apartamento
##
##
## 3 4 5 6
## 1 432 949 800 104
## 2 7 102 495 594
## 3 2 3 19 147
## 4 0 2 14 49
##
## , , = Casa
##
##
## 3 4 5 6
## 1 703 448 356 83
## 2 79 197 390 225
## 3 17 47 106 98
## 4 15 33 132 290
## [1] 0
Ahora volvamos a ver si el conjunto tiene datos faltantes.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo
## 6938 1 1 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0 0 0
## barrio
## 6938 1 0
## 0 0
Se puede verificar que ya no tiene datos faltantes en las variables. Veamos cómo quedaron las variables con un summary del dataset.
## zona piso estrato preciom
## Length:6938 Min. : 1.000 Min. :3.000 Min. : 58.0
## Class :character 1st Qu.: 2.000 1st Qu.:4.000 1st Qu.: 225.0
## Mode :character Median : 2.000 Median :5.000 Median : 340.0
## Mean : 3.425 Mean :4.611 Mean : 442.2
## 3rd Qu.: 4.000 3rd Qu.:5.000 3rd Qu.: 550.0
## Max. :12.000 Max. :6.000 Max. :1999.0
## areaconst parqueaderos banios habitaciones
## Min. : 30.0 Min. :1.000 Min. : 0.000 Min. : 0.000
## 1st Qu.: 84.0 1st Qu.:1.000 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 133.5 Median :1.000 Median : 3.000 Median : 3.000
## Mean : 186.2 Mean :1.659 Mean : 3.209 Mean : 3.734
## 3rd Qu.: 245.0 3rd Qu.:2.000 3rd Qu.: 4.000 3rd Qu.: 4.000
## Max. :1745.0 Max. :4.000 Max. :10.000 Max. :10.000
## tipo barrio
## Length:6938 Length:6938
## Class :character Class :character
## Mode :character Mode :character
##
##
##
Ahora vamos a analizar las otras variables del conjunto. Visualizaremos en gráficos de cajas y bigotes la distribución de las variables numéricas.
numeric_columns <- names(viviendas)[sapply(viviendas, is.numeric)]
no_columns <- c("piso","estrato","parqueaderos")
numeric_columns <- setdiff(numeric_columns, no_columns)
lapply(numeric_columns, function(variable) {
ggplot(viviendas, aes_string(x = variable)) +
geom_boxplot() +
labs(title = paste0("Boxplot para la columna: ", variable))
})## [[1]]
##
## [[2]]
##
## [[3]]
##
## [[4]]
Podemos ver que las variables preciom y areaconst tienen una gran cantidad de valores atípicos, y también que según los datos, hay inmuebles con 8, 9 y 10 baños, así como también con 0 habitaciones o con hasta 10 habitaciones.
Vamos entonces a revisar si los valores de estas variables para esos registros son coherentes, por ejemplo, las casas con muchos baños o muchas habitaciones deberían ser las casas con un área construida mayor y también con más altos precios.
Antes de profundizar en el análisis, eliminaremos los registros con datos no lógicos, como areaconst = 0, habitac = 0 o baños = 0.
viviendas <- filter(viviendas, viviendas$banios != 0)
viviendas <- filter(viviendas, viviendas$habitaciones != 0)
viviendas <- filter(viviendas, viviendas$areaconst != 0)numeric_columns <- names(viviendas)[sapply(viviendas, is.numeric)]
exclude_columns <- c("piso","estrato","parqueaderos")
numeric_columns <- setdiff(numeric_columns, exclude_columns)
cov_matrix <- cov(viviendas[, numeric_columns])
atipicos <- mahalanobis(viviendas[, numeric_columns], center = TRUE, cov = cov_matrix)
length(atipicos)## [1] 6869
Veamos la relación entre las variables preciom, banios, areaconst y habitaciones. Se espera que entre más área construida, el valor sea más alto, o que entre más habitaciones existan, hayan más baños, y de igual manera, que entre más habitaciones y baños, más área construida tenga, al igual que mayor sea el precio. Comportamientos diferentes a estos, si bien pueden ser posibles en la práctica, son poco probables y alteran la homogeneidad de los datos. Para este estudio, si son pocos estos valores atípicos, se eliminarán.
Se representarán gráficamente las distancias de Mahalanobis, que es una medida de la distancia entre un punto y una distribución multivariante. Es una medida útil para detectar valores atípicos en un conjunto de datos multidimensional. La distancia es una medida de la distancia en unidades de desviaciones estándar, por lo tanto, un valor alto de la distancia indica que el punto esta lejos de la distribución multivariante. Típicamente, los puntos con una distancia mayor a 3 se consideran atípicos. La distancia Mahalanobis no se afecta por la escala de las variables y es sensible a la correlación entre las variables.
#ggplot(viviendas, aes_string(x = "preciom", y = "areaconst", color = "atipicos")) +
# geom_point() +
# scale_color_continuous(low = "white", high = "blue") +
# labs(x = "Precio", y = "Área construida", color = "Distancia de Mahalanobis")
ggplot(viviendas, aes_string(x = 'preciom', y = 'areaconst', color = 'atipicos')) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Precio", y = "Area construida", color = "Distancia de Mahalanobis")En el gráfico anterior se pueden ver algunos datos que no son lógicos pues se asume una relación directamente proporcional entre el precio y el área construida de una casa. Por ejemplo, hay un registro de ~1750 metros cuadrados construidos con un valor de 250 millones. Se esperaría que para un área tan grande, el precio estuviera entre los más altos y por el contrario está entre los más bajos. También se ve el caso contrario, en el que el precio es muy alto para tan poca área construida. Aunque no se están teniendo en cuenta otras variables, como por ejemplo el estrato o el barrio, siempre hay una relación directa entre el tamaño y el valor que debe considerarse. En un estudio más detallado se podrían tener en cuenta los cruces entre estas cuatro variables mencionadas, o inclusive también con la cantidad de baños y de habitaciones.
ggplot(viviendas, aes_string(x = "banios", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Baños", y = "Área construida", color = "Distancia de Mahalanobis")Se observa que hay unos registros con mucha área construida y pocos baños, como es el caso del registro que indica ~1750 metros construidos y 3 baños. También hay otros cercanos con 1600 metros construidos y 4 y 6 baños respectivamente, o uno de ~1400 metros con 1 baño. Se eliminarán estos registro.
viviendas <- filter(viviendas, viviendas$areaconst <= 1200)
atipicos <- mahalanobis(viviendas[, numeric_columns], center = TRUE, cov = cov_matrix)
length(atipicos)## [1] 6861
Veamos la relación entre la cantidad de habitaciones y la cantidad de baños. Se espera que entre más habitaciones, más baños haya en el inmueble.
atipicos <- mahalanobis(viviendas[, numeric_columns], center = TRUE, cov = cov_matrix)
ggplot(viviendas, aes_string(x = "habitaciones", y = "banios", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Baños", color = "Distancia de Mahalanobis")ggplot(viviendas, aes_string(x = "habitaciones", y = "areaconst", color = "atipicos")) +
geom_point() +
scale_color_continuous(low = "white", high = "blue") +
labs(x = "Habitaciones", y = "Area", color = "Distancia de Mahalanobis")Aparece un caso donde hay 3 habitaciones y 10 baños, y otro de 1 habitación y 6 baños. También, en el gráfico anterior, inmuebles con 10 baños y menos de 400 metros de área construida. Estos se eliminarán.
viviendas <- filter(viviendas, !(viviendas$banios == 10 & viviendas$areaconst <= 400))
viviendas <- filter(viviendas, !(viviendas$banios == 6 & viviendas$habitaciones <= 1))##
## 1 2 3 4 5 6 7 8 9 10
## 1 20 97 225 19 5 1 2 0 0 0
## 2 18 503 1509 163 56 23 10 5 1 0
## 3 4 77 888 460 105 55 34 24 14 3
## 4 0 15 378 509 187 78 36 38 12 9
## 5 0 3 135 312 175 68 42 34 22 11
## 6 0 0 13 90 82 56 25 18 9 7
## 7 0 0 2 6 42 24 14 6 7 4
## 8 0 0 0 2 3 9 8 9 9 6
## 9 0 0 0 0 1 0 1 4 7 2
## 10 0 0 0 0 0 0 0 0 1 3
De igual manera, se observa una aparente disparidad entre la cantidad de baños y el área construida. Aunque es posible que haya pocos baños en una casa grande, esto es poco probable. Tal vez una mayor relación la tienen las variables que representan las cantidades de baños y de habitaciones, pues las habitaciones dan una idea de la cantidad de personas que viven o usan la casa, lo cual muestra la necesidad de más o menos baños.
En un gráfico anterior se ve también que hay casas de 0 metros construidos con varias habitaciones, lo cual no es posible. Estos registros se eliminarán. Y también hay registros de inmuebles en el conjunto con muchos más baños que habitaciones, en una proporción de 2 a 1 e inclusive de 3 a 1. Eliminaremos estos registros problemáticos dado que no es mucha la cantidad de ellos.
Se revisaron los valores de las variables barrio y zona. Se notó que los nombres de las zonas están todos bien escritos, pero que en los nombres de los barrios hay algunos registros que se refieren al mismo barrio pero que están escritos de manera diferente, como por ejemplo: “alfonso lopez” y “alfonzo López”. También se nota que hay muchos barrios donde solo hay un inmueble a la venta. Con tan baja representatividad, no es posible hacer inferencias en cuanto a la situación de los inmuebles en los barrios. Habría que usar la zona que al ser solo 5, tienen más inmuebles en ellas.
Corregimos los nombres de algunos de los barrios para ver sus efectos en el dataset, sin embargo, se nota que sigue habiendo muchos barrios con tan solo un inmueble y que además son alrededor de 350 y algunos están posiblemente mal referenciados, como el que dice “cali” o el que hace referencia al nombre de un edificio. También se ve que están referenciadas las zonas en los barrios. En definitiva, esta variable requeriría de mucha limpieza e investigación para ser depurada, y teniendo también errores en la longitud y latitud, no se puede imputar a partir de los datos existentes.
## [1] "Zona Oriente" "Zona Sur" "Zona Norte" "Zona Oeste" "Zona Centro"
viviendas$barrio <- tolower(viviendas$barrio)
barrios = unique(viviendas$barrio, decreasing = TRUE)
#table(viviendas$barrio, sort = TRUE)
#barrios
viviendas$barrio <- ifelse(viviendas$barrio == "alf√©rez real", "alferez real", ifelse(viviendas$barrio == "alfonso lópez", "alfonso lopez", ifelse(viviendas$barrio == "base a√©rea", "base aerea", ifelse(viviendas$barrio == "mel√©ndez", "melendez", ifelse(viviendas$barrio == "mel√©ndez", "melendez", ifelse(viviendas$barrio == "mel√©ndez", "melendez", ifelse(viviendas$barrio == "la arboleda", "arboleda", ifelse(viviendas$barrio == "los alcázares", "los alcazares", ifelse(viviendas$barrio == "la rivera i", "la riverita", ifelse(viviendas$barrio == "laflora", "la flora", ifelse(viviendas$barrio == "la rivera ii", "la riverita", ifelse(viviendas$barrio == "la rivera", "la riverita", ifelse(viviendas$barrio == "ciudadela paso ancho", "ciudadela pasoancho", ifelse(viviendas$barrio == "caney especial", "caney", ifelse(viviendas$barrio == "el ingenio i", "ingenio", ifelse(viviendas$barrio == "el ingenio ii", "ingenio", ifelse(viviendas$barrio == "el ingenio", "ingenio", ifelse(viviendas$barrio == "el ingenio iii", "el ingenio", ifelse(viviendas$barrio == "jamundi alfaguara", "alfaguara", ifelse(viviendas$barrio == "cali canto viii", "calicanto", ifelse(viviendas$barrio == "cali canto", "calicanto", ifelse(viviendas$barrio == "chiminangos 1 etapa", "chiminangos", ifelse(viviendas$barrio == "chiminangos 2 etapa", "chiminangos", ifelse(viviendas$barrio == "cristóbal colón", "cristobal colón", ifelse(viviendas$barrio == "marroquin iii", "marroquin", ifelse(viviendas$barrio == "el ingenio 3", "el ingenio", viviendas$barrio))))))))))))))))))))))))))
table(viviendas$barrio)##
## 20 de julio 3 de julio
## 3 1
## acopi agua blanca
## 75 1
## aguablanca aguacatal
## 2 75
## alameda alameda del río
## 13 1
## alamos alborada
## 7 1
## alfaguara alferez real
## 1 4
## alfonso lopez alfonso lópez i
## 21 1
## alto jordán altos de guadalupe
## 1 4
## altos de menga antonio nariño
## 3 2
## aranjuez arboleda
## 15 9
## arboleda campestre candelaria arboledas
## 1 31
## atanasio girardot autopista sur
## 8 1
## barranquilla barrio 7de agosto
## 5 1
## barrio eucarístico barrio obrero
## 1 1
## barrio tranquilo y base aerea
## 1 2
## belalcazar belisario caicedo
## 4 2
## bella suiza bella suiza alta
## 17 2
## bellavista benjamín herrera
## 28 8
## berlin bloques del limonar
## 1 1
## bochalema bosques del limonar
## 12 21
## boyacá bretaña
## 1 14
## brisas de guadalupe brisas de los
## 1 61
## brisas del guabito brisas del limonar
## 1 1
## buenos aires caldas
## 6 1
## cali calibella
## 13 1
## calicanto calicanto viii
## 9 1
## calima calimio norte
## 6 5
## calipso cambulos
## 9 3
## camino real caney
## 31 69
## cañasgordas cañaveralejo
## 7 11
## cañaverales cañaverales los samanes
## 20 1
## capri cascajal
## 47 1
## ceibas centenario
## 1 10
## centro cerro cristales
## 3 19
## cerros de guadalupe champagnat
## 1 14
## chapinero chiminangos
## 7 12
## chipichape ciudad 2000
## 23 91
## ciudad antejardin ciudad bochalema
## 1 44
## ciudad capri ciudad cordoba
## 12 20
## ciudad córdoba ciudad córdoba reservado
## 14 1
## ciudad country ciudad del campo
## 1 1
## ciudad jardin ciudad jardín
## 14 470
## ciudad jardin pance ciudad los álamos
## 1 22
## ciudad modelo ciudad pacifica
## 7 1
## ciudad real ciudad talanga
## 3 1
## ciudad universitaria ciudadela comfandi
## 1 17
## ciudadela del río ciudadela pasoancho
## 1 22
## colinas del bosque colinas del sur
## 1 5
## colon colseguros
## 1 39
## colseguros andes compartir
## 5 1
## cristales cristobal colón
## 53 15
## cuarto de legua departamental
## 37 26
## ed benjamin herrera el bosque
## 1 49
## el caney el castillo
## 188 6
## el cedro el diamante
## 8 2
## el dorado el gran limonar
## 5 7
## el guabal el guabito
## 18 1
## el ingenio el jardín
## 18 13
## el lido el limonar
## 52 120
## el nacional el paraíso
## 1 3
## el peñon el prado
## 40 1
## el refugio el rodeo
## 99 1
## el sena el trébol
## 1 5
## el troncal el vallado
## 15 1
## eucarístico evaristo garcía
## 2 1
## farrallones de pance fenalco kennedy
## 1 1
## fepicol flora industrial
## 1 9
## floralia fonaviemcali
## 5 1
## francisco eladio ramirez fuentes de la
## 1 1
## gran limonar granada
## 24 12
## guadalupe guayaquil
## 19 15
## hacienda alferez real ingenio
## 1 210
## ingenio i ingenio ii
## 1 1
## jamundi jorge eliecer gaitán
## 4 1
## jorge isaacs juanamb√∫
## 1 35
## juanambu junin
## 1 18
## junín la alborada
## 6 2
## la alianza la base
## 4 15
## la buitrera la campiña
## 3 11
## la cascada la ceibas
## 6 1
## la esmeralda la flora
## 1 315
## la floresta la fortaleza
## 18 4
## la gran colombia la hacienda
## 1 148
## la independencia la libertad
## 12 2
## la merced la morada
## 23 1
## la nueva base la playa
## 8 1
## la portada al la primavera
## 1 1
## la reforma la riverita
## 1 15
## la riviera la selva
## 1 10
## la villa del las acacias
## 1 12
## las américas las camelias
## 2 1
## las ceibas las delicias
## 21 3
## las granjas las quintas de
## 9 1
## las vegas las vegas de
## 1 1
## libertadores los alcazares
## 3 12
## los andes los cambulos
## 21 22
## los cámbulos los cristales
## 5 123
## los cristales club los farallones
## 1 4
## los guaduales los guayacanes
## 20 2
## los jockeys los libertadores
## 1 3
## los parques barranquilla lourdes
## 3 2
## mamellan manzanares
## 1 5
## marroquín iii mayapan las vegas
## 1 41
## melendez menga
## 59 18
## metropolitano del norte miradol del aguacatal
## 14 1
## miraflores morichal de comfandi
## 26 3
## multicentro municipal
## 23 3
## napoles nápoles
## 1 26
## normandia normandía
## 3 104
## norte norte la flora
## 1 1
## nueva base nueva floresta
## 1 15
## nueva tequendama oasis de comfandi
## 70 4
## occidente pacara
## 1 14
## pacará palmas del ingenio
## 4 1
## pampa linda pampalinda
## 22 10
## panamericano pance
## 9 354
## parcelaciones pance parque residencial el
## 54 1
## paseo de los paso del comercio
## 2 5
## pasoancho poblado campestre
## 4 2
## ponce popular
## 1 6
## portada de comfandi portales de comfandi
## 2 1
## porvenir prados de oriente
## 3 6
## prados del limonar prados del norte
## 21 104
## prados del sur primavera
## 2 2
## primero de mayo primitivo crespo
## 32 3
## puente del comercio puente palma
## 6 1
## quintas de don quintas de salomia
## 64 4
## rafael uribe uribe rep√∫blica de israel
## 1 1
## rincón de salomia riveras del valle
## 1 1
## rozo la torre saavedra galindo
## 1 3
## salomia samanes
## 35 1
## samanes de guadalupe sameco
## 1 1
## san antonio san bosco
## 21 7
## san carlos san cayetano
## 4 9
## san fernando san fernando nuevo
## 47 9
## san fernando viejo san joaquin
## 14 3
## san joaquín san juan bosco
## 16 7
## san judas san judas tadeo
## 1 2
## san luis san luís
## 2 1
## san nicolas san nicolás
## 1 1
## san pedro san vicente
## 1 47
## santa anita santa anita sur
## 44 1
## santa bárbara santa elena
## 3 9
## santa fe santa helena de
## 8 1
## santa isabel santa monica
## 55 47
## santa mónica santa monica norte
## 3 1
## santa monica popular santa mónica popular
## 1 6
## santa monica residencial santa mónica residencial
## 5 32
## santa rita santa teresita
## 39 173
## santafe santander
## 1 1
## santo domingo sector cañaveralejo guadalupe
## 6 1
## seminario sierras de normandía
## 24 1
## siete de agosto simón bolivar
## 8 1
## tejares cristales tejares de san
## 4 13
## templete tequendama
## 4 40
## tequendema terrón colorado
## 1 1
## torres de comfandi unión de vivienda
## 41 3
## urbanización barranquilla urbanización boyacá
## 3 1
## urbanización colseguros urbanizacion el saman
## 3 1
## urbanización la flora urbanización la merced
## 59 4
## urbanización la nueva urbanización las cascadas
## 4 1
## urbanizacion lili urbanización nueva granada
## 2 3
## urbanización río lili urbanización san joaquin
## 5 4
## urbanización tequendama valle de lili
## 5 1
## valle del lili valle grande
## 817 1
## versalles villa colombia
## 57 6
## villa de veracruz villa del lago
## 4 10
## villa del prado villa del sol
## 49 21
## villa del sur villas de veracruz
## 2 9
## vipasa zona centro
## 30 1
## zona norte zona norte los
## 28 1
## zona oeste zona oriente
## 24 17
## zona sur
## 71
Veo que a pesar de que se han estandarizado algunos nombres, estos y otros siguen teniendo pocos inmuebles. Aunque en un análisis más profundo o diferente el barrio podría ser necesario, para esta ocasión, usaremos para cualquier análisis la variable zona con la siguiente distribución. El barrio se eliminará del dataset.
Tal como hemos visto en el análisis, algunas de las variables no se utilizarán como parte del estudio. Estas variables son:
Las razones que se tuvieron en cuenta para su eliminación son:
También se eliminaron algunos registros con datos no lógicos, como los que tiene valores en cero para las variables área construida, habitaciones o baños, o casas de más 4 pisos, tal como se explicó durante el análisis.
Veamos la distribución de inmuebles por zona
boxplot(viviendas$preciom~ viviendas$zona, data = viviendas, col = c("lightgray", "lightblue", "lightyellow","lightgreen","brown" ), ylab = "Precio", xlab = "Zona")
Se puede ver que los precios más altos se encuentran en las zonas con
más valores atípicos (Norte, Oeste y Sur).
boxplot(viviendas$preciom ~ viviendas$estrato, data = viviendas, col = c("lightgray", "lightblue", "lightyellow","lightgreen"), ylab = "Precio", xlab = "Estrato")No hay inmuebles de estratos 1 y 2. Las viviendas más costosas están en relación al estrato en el que están, lo que es esperable. Los estratos 3, 4 y 5 tienen una gran cantidad de valores atípicos, siendo el estrato 6 el de mayor rango y menos outliers.
Observamos la cantidad de datos por tipo de vivienda
## >>> suggestions
## PieChart(tipo, hole=0) # traditional pie chart
## PieChart(tipo, labels="%") # display %'s on the chart
## PieChart(tipo) # bar chart
## Plot(tipo) # bubble plot
## Plot(tipo, labels="count") # lollipop plot
##
## --- tipo ---
##
## Apartamento Casa Total
## Frequencies: 3700 3155 6855
## Proportions: 0.540 0.460 1.000
##
## Chi-squared test of null hypothesis of equal probabilities
## Chisq = 43.330, df = 1, p-value = 0.000
Y ahora vemos la cantidad de datos por zona
## >>> suggestions
## PieChart(zona, hole=0) # traditional pie chart
## PieChart(zona, labels="%") # display %'s on the chart
## PieChart(zona) # bar chart
## Plot(zona) # bubble plot
## Plot(zona, labels="count") # lollipop plot
##
## --- zona ---
##
## zona Count Prop
## ---------------------------
## Zona Centro 112 0.016
## Zona Norte 1478 0.216
## Zona Oeste 864 0.126
## Zona Oriente 327 0.048
## Zona Sur 4074 0.594
## ---------------------------
## Total 6855 1.000
##
## Chi-squared test of null hypothesis of equal probabilities
## Chisq = 7476.093, df = 4, p-value = 0.000
Y por estrato:
## >>> suggestions
## PieChart(estrato, hole=0) # traditional pie chart
## PieChart(estrato, labels="%") # display %'s on the chart
## PieChart(estrato) # bar chart
## Plot(estrato) # bubble plot
## Plot(estrato, labels="count") # lollipop plot
##
## --- estrato ---
##
## 3 4 5 6 Total
## Frequencies: 1229 1760 2289 1577 6855
## Proportions: 0.179 0.257 0.334 0.230 1.000
##
## Chi-squared test of null hypothesis of equal probabilities
## Chisq = 342.369, df = 3, p-value = 0.000
Ahora crearemos dos datasets uno para las variables numéricas y otro para las categóricas.
df_categorico <- data.frame(piso = viviendas$piso, zona = viviendas$zona, estrato = viviendas$estrato, tipo = viviendas$tipo, preciom = viviendas$preciom)
#df_categorico
df_numerico <- data.frame(preciom = viviendas$preciom, areaconst = viviendas$areaconst, parqueaderos = viviendas$parqueaderos, banios = viviendas$banios, habitaciones = viviendas$habitaciones)
#df_numericoPara el análisis de componentes principales comenzamos por estandarizar las variables a la misma escala:
df_estandarizado <- scale(df_numerico)
df_estandarizado <- as.data.frame(df_estandarizado)
summary(df_estandarizado)## preciom areaconst parqueaderos banios
## Min. :-1.1600 Min. :-1.0738 Min. :-0.7329 Min. :-1.5441
## 1st Qu.:-0.6535 1st Qu.:-0.6961 1st Qu.:-0.7329 1st Qu.:-0.8485
## Median :-0.3048 Median :-0.3605 Median :-0.7329 Median :-0.1530
## Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.3321 3rd Qu.: 0.3948 3rd Qu.: 0.3762 3rd Qu.: 0.5425
## Max. : 4.7267 Max. : 7.1082 Max. : 2.5942 Max. : 4.7157
## habitaciones
## Min. :-1.8510
## 1st Qu.:-0.5105
## Median :-0.5105
## Mean : 0.0000
## 3rd Qu.: 0.1598
## Max. : 4.1813
En esta tabla de correlaciones, podemos observar lo siguiente:
Aplicamos el PCA para los datos con la escala estandarizada:
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.8001 0.9534 0.60937 0.54367 0.42870
## Proportion of Variance 0.6481 0.1818 0.07427 0.05912 0.03676
## Cumulative Proportion 0.6481 0.8299 0.90413 0.96324 1.00000
#fviz_pca_biplot(pca, repel = TRUE, col.var = "#AA99FF") #Se comentó porque el resultado no es entendible.En la gráfica se ve que el componente 1 representa el 64.8% de la variación, seguido del segundo con 18.2%, y entre los dos explicarían el 83% de la varianza.
Se observa que en el componente 1 (PC1) las variables banios, areaconst
y preciom tienen un mayor peso en ese orden.
Se observa que en el componente 2 (PC2) las variables habitaciones y parqueaderos tienen un mayor peso, siendo habitaciones la que más incidencia tiene en el PC2.
## Dim.1 Dim.2
## preciom 22.43416 13.529557
## areaconst 23.72177 1.080214
## parqueaderos 17.49359 25.359530
## banios 24.16256 1.918873
## habitaciones 12.18793 58.111826
Ahora se genera el siguiente gráfico para mostrar la influencia de las variables en un plano.
## [1] 64.81 18.18 7.43 5.91 3.68
## [1] 64.81 82.99 90.41 96.32 100.00
Conclusiones
Esta análisis se realiza sobre los datos numéricos del punto anterior. Mediante el agrupamiento en base a la similaridad de los registros podemos descubrir grupos potenciales que pueden indicar nichos de mercado, que pueden ser estudiados de manera independiente. Para esto se usará k-means haciendo un clustering no jerárquico.
set.seed(689)
df_pca = df_estandarizado[, c('preciom', 'areaconst','parqueaderos', 'banios','habitaciones')]
fviz_nbclust(df_pca, kmeans, method = "silhouette") +
labs(subtitle = "Método Silhouette")df_pca=as.data.frame(scale(df_pca))
set.seed(689)
kmeans_result <- kmeans(df_pca, centers = 2, nstart = 25)
cluster_assigments <- kmeans_result$cluster
assigned_cluster <- df_pca %>% mutate(cluster = as.factor(cluster_assigments))silhouette_res = c()
for(i in 2:6){
dist_ev <- dist(df_pca, method = 'euclidean')
hc_ev <- hclust(dist_ev, method = 'complete')
cluster_ev <- cutree(hc_ev, k = i)
# Calcular el coeficiente de Silhouette
sil <- silhouette(cluster_ev, dist(df_pca))
sil_avg <- mean(sil[,3])
silhouette_res = c(silhouette_res, sil_avg)
}## K silhouette_value
## 1 2 0.4973640
## 2 3 0.4872188
## 3 4 0.4692839
## 4 5 0.4496303
## 5 6 0.3316810
# kable(sil_df, "html") %>%
# kable_styling("striped", full_width = FALSE) %>%
# row_spec(0, bold = TRUE)Estos resultados indican una mejor agrupación cuando se eligen 2 conglomerados (k = 2) con un valor de 0.4973, siendo este el más alto.
fviz_cluster(kmeans_result, data = df_pca,
geom = "point", main = "Clusters encontrados en el conjunto de datos",
ellipse.type = "convex",
ggtheme = theme_minimal())viv <- dist(df_pca, method = 'euclidean')
# Cluster jerarquico con el método complete
df_viv <- hclust(viv, method = 'complete')
cluster_f <- cutree(df_viv, k=2)
assigned_cluster_final <- df_pca %>% mutate(cluster = as.factor(cluster_f))
ggplot(assigned_cluster_final, aes(x = areaconst, y = preciom, color = cluster)) +
geom_point(size = 2, alpha = 0.5) +
geom_text(aes(label = cluster), vjust = -.8) +
theme_classic()Si hacemos el dendograma vemos lo siguiente:
plot(df_viv, cex = 0.6, main = "Dendograma de viviendas", las=1,
ylab = "Distancia euclidiana", xlab = "Grupos")
rect.hclust(df_viv, k = 2, border = 2:5)En el dendograma no se puede observar realmente nada, así que podemos realizar un conteo de los registros de cada cluster.
## cluster_f
## 1 2
## 6135 720
fviz_cluster(list(data = df_pca, cluster = cluster_f),
geom = "point",
ellipse.type = "convex",
ggtheme = theme_minimal())Conclusiones
Este análisis se realizara usando el dataframe categórico creado anteriormente. La variables son: Piso, zona, estrato y tipo.
##
## 3 4 5 6
## Zona Centro 99 11 1 1
## Zona Norte 444 296 619 119
## Zona Oeste 43 70 213 538
## Zona Oriente 318 7 2 0
## Zona Sur 325 1376 1454 919
##
## Pearson's Chi-squared test
##
## data: tabla_chi
## X-squared = 341.86, df = 33, p-value < 0.00000000000000022
# Realizar el análisis de correspondencia con FactoMineR
#resultado_ca_tz <- CA(tabla_contingencia_tz, graph=TRUE)
#valores_prop_tz <-resultado_ca_tz$eig
#valores_prop_tz
#viz_ca_biplot(resultado_ca_tz)Este resultado indica que se rechaza la hipótesis de independencia de variables (porque el valor p es casi cero). Ahora vamos a realizar un análisis de correspondencia en donde se estiman las coordenadas para cada uno de los niveles de las variables. Veamos:
Según esto, se puede ver que el estrato 6 está en la zona oeste, el 4 y 5 en la zona sur y el 3 en la zona centro y oriente. También que no hay una diferencia significativa en la zona norte
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.34543799 73.69564 73.69564
## dim 2 0.10979467 23.42356 97.11920
## dim 3 0.01350335 2.88080 100.00000
fviz_screeplot(results, addlabels = TRUE, ylim = c(0, 80))+ggtitle("")+
ylab("Porcentaje de varianza explicado") + xlab("Ejes")Se puede ver que el primer componente tiene el 73.7% del total de la varianza, y que el segundo explica el 23.4% de la varianza. Si se suman estos dos componentes, explicarían el 97.1% de la varianza total de los datos.
generar_colores_aleatorios <- function(n) {
hsv(h = runif(n), s = 0.9, v = 0.9)
}
# Asignar colores aleatorios a las zonas
colores_aleatorios <- generar_colores_aleatorios(length(unique(df_categorico$zona)))
ggplot(df_categorico, aes(x = zona, y = preciom, fill = zona)) +
geom_boxplot() +
scale_fill_manual(values = colores_aleatorios) + # Asigna colores aleatorios
labs(title = "Distribucion Precio por Zona") +
theme_minimal() # Personaliza el tema del gráficoConclusiones del Análisis de Componentes Principales
Componente Principal 1 (73.7%):
Componente Principal 2 (23.4%):
Zonas Geográficas:
Estratos Socioeconómicos:
Si bien, es posible hacer una limpieza del conjunto de datos, este tenia bastantes datos incorrectos, atípicos y faltantes. Se recomienda tener más cuidado con la fuente y generación de los datos.
La Zona Oeste presenta un mejor promedio de precios tanto para las casas como para los apartamentos, constituyéndose en una zona de mucho interés, dado que las inmobiliarias ganan por comisión, y entre mayor sea el valor de la propiedad, más dinero se ganará. La siguen la zona sur y la zona norte. El caso de la zona centro es particular, pues hay pocas casas, pero su promedio de precio no es el más bajito.
Los apartamentos son el tipo de inmueble con mayor cantidad de ofertas en la ciudad de Cali superando en cantidad a las casas en la zona Norte, Oeste y Sur. En las zonas Centro y Oriente, hay más casas ofertadas, en una proporción aproximada de 6 a 1.
Aunque hay más apartamentos que casas, las casas presentan mayores valores en su precio, lo que las hace más atractivas. Las zonas con más alto promedio de venta son la Oeste, la Sur, a Norte, la Centro y la Oriente. Nótese que la Centro tiene pocas ofertas, pero sus casas tienen mejor promedio que las de la zona Oriente.
El estrato 5 es el estrato con mayor cantidad de oferta de venta de inmuebles. Si bien, esto no es en si información contundente, si es una muestra de que las casas que más se comercializan son las de valores medio-altos, y esto puede dar un indicio de la clase de compradores que se deben buscar.