En este informe se analizará el mercado de viviendas urbanas para ayudar a la empresa a tomar mejores decisiones. Se usarán varias técnicas estadísticas para entender mejor el mercado, identificar patrones, y hacer recomendaciones que podrían ayudar a optimizar las inversiones y aumentar los beneficios.
Primero, se percibe que habían algunos datos faltantes en nuestro conjunto de datos. En lugar de eliminarlos, se decide completarlos usando un método que predice los valores más probables. Luego, se estandarizan todas las variables para que cada una tenga el mismo peso en los análisis.
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Se previsualizan los datos y se observa que existe datos nulos, se toma la decisión de imputar estos valores con la media.
# Seleccionar las variables numéricas relevantes para el análisis
vivienda_numerico <- vivienda[, c("estrato", "preciom", "areaconst", "parqueaderos", "banios", "habitaciones")]
# Imputar valores faltantes utilizando el método mice (pmm: predictive mean matching)
vivienda_imputada <- mice(vivienda_numerico, method = 'pmm', m = 1, maxit = 5, seed = 123, printFlag = FALSE)
# Completar los datos imputados
vivienda_completa <- complete(vivienda_imputada)
# Estandarizar las variables
viviendaZ <- scale(vivienda_completa)
# Realizar Análisis de Componentes Principales
res.pca <- prcomp(viviendaZ, scale. = TRUE)
# Resumen de los componentes principales
summary(res.pca)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6
## Standard deviation 1.870 1.1002 0.71201 0.59836 0.48909 0.43313
## Proportion of Variance 0.583 0.2017 0.08449 0.05967 0.03987 0.03127
## Cumulative Proportion 0.583 0.7847 0.86919 0.92887 0.96873 1.00000
# Visualizar la varianza explicada por los componentes
fviz_eig(res.pca, addlabels = TRUE, ylim = c(0, 80))
# Visualización de las variables en el plano de los componentes principales
fviz_pca_var(res.pca,
col.var = "contrib", # Color por contribución a los CP
gradient.cols = c("#FF7F00", "#034D94"),
repel = TRUE) # Evitar que los textos se superpongan
Se hace un Análisis de Componentes Principales (ACP) para reducir la cantidad de variables y entender cuáles son las más importantes. Se descubre que dos factores principales explican 78.47% de la variabilidad en el mercado. Este 78.47% mencionado corresponde a la suma del porcentaje de varianza de los dos primeros componentes principales (PC1 y PC2).
Los factores más importantes según la g´rafica Variable - PCA son habitaciones, areaconst, y preciom. Estas variables tienen las contribuciones más significativas y están más alineadas con los ejes de los componentes principales, lo que indica que tienen un fuerte impacto en la variabilidad de los datos. Las otras variables (banios, parqueaderos, y estrato) también son importantes, pero su influencia es un poco menor.
agrupamos las propiedades en cuatro grupos principales (clusters) que tienen características similares.
# Calcular la matriz de distancias
dist_vivienda <- dist(viviendaZ, method = "euclidean")
# Realizar un clustering jerárquico
hc_vivienda <- hclust(dist_vivienda, method = "ward.D2")
# Mejorar la visualización del dendrograma
# Reducción del tamaño de etiquetas, uso de colores, y eliminación de etiquetas si es necesario
dend <- as.dendrogram(hc_vivienda)
dend <- color_branches(dend, k = 4) # Colorear ramas por clusters
dend <- set(dend, "labels_cex", 0.5) # Reducir el tamaño de las etiquetas
# Crear el dendrograma
plot(dend, main = "Dendograma de Propiedades", ylab = "Distancia Euclidiana", xlab = "Propiedades")
Se identifican cuatro grupos de propiedades que se diferencian claramente entre sí. El primer grupo incluye propiedades grandes y caras, mientras que el último grupo incluye propiedades más pequeñas y económicas.
Esto sugiere que hay diferentes tipos de mercados dentro de la ciudad, desde propiedades de lujo hasta opciones más accesibles.
Por último, se analiza la relación entre la ubicación (zona) y el estrato socioeconómico de las propiedades.
# Convertir las variables categóricas en factores
vivienda$estrato <- as.factor(vivienda$estrato)
vivienda$zona <- as.factor(vivienda$zona)
# Crear una tabla cruzada entre zona y estrato
tabla <- table(vivienda$zona, vivienda$estrato)
# Realizar el análisis de correspondencia
resultados_ac <- CA(tabla, graph = FALSE)
# Visualización del gráfico de scree plot para los componentes
fviz_screeplot(resultados_ac, addlabels = TRUE, ylim = c(0, 80))
# Visualización de las coordenadas en el plano factorial
fviz_ca_biplot(resultados_ac, repel = TRUE)
Se puede observar lo seguiente a partir de las gráficas:
Las dos primeras dimensiones (1 y 2) contienen casi toda la información que se necesita (97.7%). Esto quiere decir que es posible centrarnos en estas dos dimensiones para entender los datos sin tener una gran preocupación por la tercera.
Zonas más Exclusivas: La Zona Oeste se asocia claramente con el Estrato 6, lo que sugiere que es una de las zonas más exclusivas de la ciudad.
Zonas Moderadamente Exclusivas: La Zona Norte y la Zona Sur están asociadas con los Estratos 4 y 5, que son de nivel socioeconómico medio-alto.
Zonas más Accesibles: La Zona Oriente y la Zona Centro están más relacionadas con el Estrato 3, lo que indica que son zonas más accesibles económicamente.
Hay una clara relación entre dónde se encuentra una propiedad y el nivel socioeconómico de sus residentes.
El precio, el número de habitaciones y el tamaño son los factores clave en el mercado inmobiliario urbano.
Los diferentes grupos de propiedades requieren estrategias de venta y marketing específicas.
La ubicación y el estrato socioeconómico están estrechamente relacionados y deben tenerse en cuenta al tomar decisiones estratégicas.
Enfocarse en Precio, habitaciones y Tamaño: Resaltar estas propiedades en la presentación y promoción.
Segmentar el Marketing: Crear campañas de marketing específicas para cada grupo de propiedades.
Decisiones Basadas en Estrato: Tener en cuenta la relación entre la zona y el estrato socioeconómico al planificar nuevos desarrollos.
Este análisis proporciona una buena base para que la empresa tome decisiones estratégicas más informadas, optimizando sus inversiones y maximizando los beneficios.