Introduccion

El objetivo de este informe es realizar un análisis holístico sobre el mercado inmobilario para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado.

Variables

id → Identificador del inmueble en el dataset.

zona → Sector o región general donde está ubicado el inmueble.

piso → Número de piso en el que se encuentra la propiedad (para apartamentos) en el caso de las casas se toma como la cantidad de pisos que posee.

estrato → Clasificación socioeconómica oficial del inmueble.

preciom → Precio del inmueble expresado en millones de pesos.

areaconst → Área construida del inmueble en metros cuadrados.

parqueaderos → Número de parqueaderos.

banios → Número de baños disponibles en el inmueble.

habitaciones → Número de habitaciones o cuartos.

tipo → Tipo de inmueble (Apartamento - casa).

barrio → Nombre del barrio.

longitud → Coordenada geográfica de longitud donde está el inmueble.

latitud → Coordenada geográfica de latitud donde está el inmueble.

Análisis

Análisis de Componentes Principales

Es una tecnica estadistica para simplificar la dimensionalidad (atributos o variables) de la base de datos, con el objeivo de capturar la mayor variabilidad de los datos y poder dectetar patrones en estos.

Grafica dimensiones

fviz_eig(pca_model, addlabels = TRUE)

En la grafica de dimensiones, podemos observar que el modelo nos arroja 5, pero las 2 primeras son las que explican el 74.5% de la variacion de los datos para el mercado mobiliario, pero lo que nos interesa es revisar cuales son las variables que explican el 74.5% del mercado inmobiliario:

Grafica dimension 1

fviz_contrib(pca_model, choice = "var", axes = 1, top = 10)

Podemos observar que la primera dimension (Atributos estructurales), esta compuesta por:

  • El area construida
  • Numero de baños
  • Numero de habitaciones
  • Numero de parqueaderos

Estas variables son claves en la caracterización de los inmuebles, debido a que determinan su capacidad de uso, nivel de confort y funcionalidad. Estas representan los principales ejes de diferenciación entre las propiedades del mercado, que repercuten en la toma de decisiones en la valoracion y compra.

Grafica dimension 2

fviz_contrib(pca_model, choice = "var", axes = 2, top = 10)

Esta segunda dimension, solo la variable piso (Ubicacion vertical) aporta a la variabilidad de los datos, En este caso para los apartamentos es el numero de piso en el cual esta ubicado dentro de la estructura vertical y las casas es el numero planta que tiene. Esta variable constituye el factor predominante en la segunda dimensión, indicando que la ubicación vertical de la propiedad es el principal criterio diferenciador en este eje del análisis, posiblemente asociado a aspectos como vista, luminosidad, ruido ambiental y accesibilidad.

Grafico de dsitribucion de dimensiones por tipo de inmueble

fviz_pca_biplot(pca_model,
  repel = TRUE,
  habillage = pca_data$tipo,
  col.var = "#034D69",
  gradient.cols = c("#FF7F80", "#034D20"))

La gráfica presenta un diagrama de dispersión que muestra la relación DIM 1 (Atributos estructurales), DIM 2(Ubicacion vertical)entre el tipo de inmueble (Casa o Apatamento).

Se observa una tendencia a apreciar la compra de apartamentos dependiendo de la ubicacion vertical de este, en este caso entre los pisos 3 a 6, es una buena medida de inversion para un partamento en la ciudad.

Mientras tanto para las casas, los atributos estructurales son mas importantes que la cantidad de pisos que posea el inmueble, el numero de parqueaderos, el area construida, numero de habitaciones y baños, porque estos elementos determinan de forma directa la utilidad y funcionalidad del inmueble para el comprador o arrendatario.

Análisis de Conglomerados

Los clusteres, son un metodo para evalauar y examinar informacion, con el objetivo de organizar individuos homogeneos entre si en grupos, que a su vez son diferentes entre si (grupos).

Grafico de cluster

# Utilizamos la longitud y la latitud para realizar el mapa y ver la discriminacion
ggplot(pca1, aes(x = longitud, y = latitud, color = as.factor(cluster))) +
  geom_point(size = 3) +
  scale_color_manual(values = c("red", "blue", "green")) +
  labs(color = "Cluster") +
  theme_minimal()

En el grafico, observamos que mediante las dos dimenesiones creadas con aterioridad atributos estructurales y ubicacion vertical, se han creado 3 cluster, y ahora veremos cuales son las caracteristicas que los dividen:

Grafico caracterizacion cluster por precio

Cluster 1: Presenta precios significativamente más bajos frente al resto de los otros grupos, con muchos valores atípicos (outliers). Esto indica que este grupo tiene propiedades más económicas y heterogéneas, posiblemente con variaciones en tamaño, ubicación o estado de conservación.

Cluster 2: Agrupa propiedades de rango medio de precio. Los valores atípicos son menos frecuentes que en el cluster 1, lo que indica un mercado más homogéneo.

Cluster 3: Representa el segmento de mayor precio, con valores concentrados. Esto indica que un grupo de inmuebles de alta gama, probablemente ubicados en zonas exclusivas y con características premium.

Grafico caracterizacion cluster por parqueaderos

boxplot(pca1$parqueaderos ~ pca1$cluster, main = "Parqueaderos")

Clúster 1: Propiedades con un menor numero de parqueaderos, concentrándose entre 1 y 2 espacios, con pocos valores atípicos, sugiere que se trata de viviendas más compactas o ubicadas en zonas donde el parqueo no es un atributo prioritario.

Clúster 2: Muestra la mayor variabilidad en el número de parqueaderos, con un rango que oscila entre 1 y 8, e incluso algunos casos extremos que alcanzan 10. Esto indica un segmento heterogéneo, probablemente con mezcla de viviendas de gama media y alta.

Clúster 3: Esto sugiere un segmento más homogéneo, posiblemente asociado a propiedades de mayor tamaño y nivel socioeconómico medio-alto.

Grafico caracterizacion cluster por habitaciones

boxplot(pca1$habitaciones ~ pca1$cluster, main = "habitaciones")

Clúster 1: Propiedades con la menor cantidad de habitaciones, concentrándose principalmente entre 0 y 2 habitaciones. Esto sugiere que corresponde a viviendas compactas, como estudios o apartamentos pequeños, típicos de zonas urbanas donde el espacio es limitado o destinado a solteros o parejas sin hijos.

Clúster 2: Exhibe una amplia variabilidad en el número de habitaciones, con un rango que abarca desde 2 hasta 10. Esta diversidad indica un segmento heterogéneo, posiblemente compuesto por una mezcla de viviendas de gama media (2-4 habitaciones) y propiedades más grandes o de lujo (6-10 habitaciones), reflejando distintos perfiles de hogares y niveles socioeconómicos.

Clúster 3: Presenta un enfoque intermedio, con una concentración predominante en 4 a 6 habitaciones. Este patrón denota un segmento más homogéneo, asociado probablemente a familias o propiedades unifamiliares de tamaño medio-grande, con necesidades de espacio más definidas y un nivel adquisitivo medio-alto.

Grafico caracterizacion cluster por pisos

boxplot(pca1$piso ~ pca1$cluster, main = "Piso")

Clúster 1: Propiedades en pisos bajos (2-5). Presenta una variabilidad alta, esto sugiere que las viviendas son accesibles, para una poblacion mas jove

Clúster 2: Presenta una concentracion entre 2 y 3 pisos, pero con una alta variabilidad por sus valores atipicos, asociados a aptos en pisos mas altos y casas de mas de 3 plantas, atrayendo a jovenes y famialias pequeñas.

Clúster 3: Se concentran en pisos bajos como 1 - 3 pisos, y con una muy baja variabilidad, lo que repercuta a casas de maximo 3 pisos y aptos que esten ubicados en pisos inferiores, Orientados para personas de mayor edad, que restrigen de una u otra manera su moviiilidad, ganado comodida.

Grafico caracterizacion cluster por baños

boxplot(pca1$banios ~ pca1$cluster, main = "Baños")

Clúster 1: Propiedades con la menor dotación de baños, concentrándose en 2 a 3 baños. Este patrón sugiere viviendas pequeñas como apartaestudios o apartamentos pequeños, típicos de zonas urbanas densas donde el espacio es reducido o donde se desea tener mayor capacidad de ganancia, por espacio.

Clúster 2: Muestra una distribución can bastante variabilidad, con la mayoría de propiedades teniendo entre 4 a 6 baños. Representa viviendas familiares estándar (apartamentos de 2-3 habitaciones o casas pequeñas), donde se busca funcionalidad para hogares nucleares. La presencia ocasional de viviendas con valores mas altos como 8 o hasta 10 podría indicar propiedades ligeramente más grandes dentro de este segmento.

Clúster 3: Presenta la menorr variabilidad, concentradon las viviendas con 5 a 6 baños, que sugiere propiedades con una area de construccion grande y para famalias numerosas

Análisis de Correspondencia

Es una tecnica que permite analizar datos categoricos (tipo de datos que se agrupa en categorias por orden o sin orden) entendiendo su relacion, en este caso, como se relaciona el estrato con el ti´po de inmuble, entre otros.

Grafico analisis de correspondencia

# Graficamos
fviz_mca_var(acm_model, 
             repel = TRUE, 
             ggtheme = theme_minimal())

En este grafico podemos observar, como las variables categoricas se agrupan, para responder lo siguiente:

1. A la derecha se agrupan Zona Oriente, Zona Centro y Estrato 3, lo que sugiere que en la muestra estas zonas están asociadas con ese estrato.

A la izquierda, aparecen Estrato 6, Zona Oeste y el nivel socioeconómico Alto.

2. En la parte superior, Casa se ubica cerca de la categoría Alto (+5 baños), mientras que Apartamento se posiciona más hacia abajo (0 a 2), en la zona de Estrato 4, Estrato 5 y Zona norte.

Esto indica que el tipo de inmueble también contribuye a diferenciar perfiles socioespaciales.

3. En la parte inferior, podemos observar que la zona sur esta asociado a la categoria medio (3 a 4 baños), ademas ubicado en el estrato 5.

Asociaciones notables

Zona Oriente y Zona Centro parecen asociarse con estratos medios-bajos (Estrato 3 y Bajo (0 a 2 baños)).

Casas tienden a relacionarse con estratos más altos, mientras que Apartamentos con estratos medios y ciertas zonas (Sur, Norte).