” Antes de comenzar con los analisis establecidos para mi base de datos, se realizo una limpieza de datos, principalmente para trabajar con variables numericas.”
1 paso. se recomienda analizar mediante este grafico, que variables influyen mas en el precio, como se agrupan y cuales estan correlacionadas
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Debido al alto número de observaciones, la visualización de individuos genera sobreposición. Por ello, el análisis se centra en la contribución de las variables, lo que permite una interpretación más clara de la estructura del mercado.
El análisis de individuos evidencia una fuerte concentración de viviendas con características promedio, junto con un número reducido de propiedades atípicas que se diferencian significativamente del resto del mercado. La mayor dispersión sobre el primer componente sugiere que los atributos estructurales del inmueble son el principal determinante de la heterogeneidad observada. En conjunto, el mercado inmobiliario muestra una estructura continua más que segmentada.
El biplot muestra la relación simultánea entre las variables del mercado inmobiliario y la distribución de las viviendas según su ubicación geográfica. Los dos primeros componentes principales explican aproximadamente 63.3% de la variabilidad total (Dim1 = 45.2% y Dim2 = 18.1%), lo que indica una buena representación de la estructura de los datos en dos dimensiones. . . . . Vamos a buscar el numero optimo de clusters, empleando el metodo del codo,
El numero optimo se encuentra donde la curva deja de caer fuertemente, para este caso vemos que entre 3 y 5 sucede. en el siguiente grafico nos permitira validar el metodo del codo. usando silhouette
Cluster 1
-Viviendas grandes -Más baños -Más parqueaderos -Mayor precio (Segmento Alto)
Cluster 2
Cluster 3
-Menor área -Menos habitaciones -Menor precio
(Vivienda asequible)
El análisis de conglomerados permitió identificar segmentos diferenciados dentro del mercado inmobiliario. Los resultados evidencian la existencia de grupos de viviendas con características homogéneas, que varían principalmente en función del tamaño, atributos estructurales y nivel de precios. Esta segmentación sugiere una organización del mercado en categorías como vivienda de alta gama, mercado medio y vivienda asequible, proporcionando una mejor comprensión de las dinámicas de oferta en distintos sectores socioeconómicos.
El número óptimo de conglomerados fue determinado mediante el método del codo y validado con el coeficiente de silueta.
## cluster id estrato preciom areaconst parqueaderos banios
## 1 1 5826.394 5.383109 483.0000 164.3363 1.858017 3.410853
## 2 2 5285.531 5.427280 976.0863 397.0729 3.393591 5.170090
## 3 3 2928.703 4.147917 255.0807 108.4510 1.194818 2.366350
## habitaciones longitud latitud cluster
## 1 3.421869 -76.53992 3.410911 1
## 2 4.976171 -76.53581 3.407335 2
## 3 3.217776 -76.52086 3.421393 3
El análisis permitió identificar tres segmentos claramente diferenciados dentro del mercado inmobiliario, los cuales presentan variaciones significativas en términos de precio, tamaño y características estructurales.
Esta segmentación evidencia que el mercado no es homogéneo, sino que está organizado en niveles asociados al poder adquisitivo y a la calidad de los inmuebles
Cluster 2 - Corresponde al grupo de los valores mas altos en casi todas las variables.
Precio promedio: ~976 Área construida: ~397 m² Baños: ~5 Habitaciones: ~5 Parqueaderos: ~3 Estrato: alto
Este conglomerado corresponde a propiedades de alta gama dirigidas a segmentos socioeconómicos altos, caracterizadas por amplios espacios y mayores niveles de confort
Cluster 1 - corresponde a niveles medio de vivienda
Área construida: ~483 m² Baños: ~3 Habitaciones: ~3 Parqueaderos: ~1
Representa el segmento más equilibrado del mercado, orientado a hogares con ingresos medios que buscan una relación adecuada entre espacio y precio.
Cluster 3 - Vivienda Asequible
Precio más bajo: ~255 Área menor: ~108 m² Menos baños Menos parqueaderos
Este grupo refleja el segmento de vivienda asequible, posiblemente asociado a compradores con menor capacidad adquisitiva o a propiedades con especificaciones más básicas
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 1.0000000 0.6772009 0.6772009
## dim 2 0.7110099 0.4814965 1.1586974
## dim 3 0.6602040 0.4470907 1.6057881
## dim 4 0.6508372 0.4407475 2.0465357
## dim 5 0.6231832 0.4220202 2.4685559
## dim 6 0.4442429 0.3008417 2.7693976
## dim 7 0.3333333 0.2257336 2.9951313
## dim 8 0.3333333 0.2257336 3.2208649
## dim 9 0.3333333 0.2257336 3.4465985
## dim 10 0.3333333 0.2257336 3.6723322
El gráfico muestra el porcentaje de inercia (varianza explicada) por cada dimensión del Análisis de Correspondencia Múltiple (ACM).
Veo aproximadamente:
Dim 1 ≈ 0.7% Dim 2 ≈ 0.5% Dim 3 ≈ 0.4% Dim 4 ≈ 0.4% Dim 5 ≈ 0.4%
Luego cae a ≈ 0.3% y 0.2% Importante: En ACM los porcentajes SIEMPRE son bajos cuando hay muchas categorías (como en tu caso con muchos barrios).
Una de las principales razones de porque los porcentajes son tan bajos corresponde a los siguiente factores.
Tienes MUCHAS categorías en barrio. En ACM la inercia se distribuye entre todas las modalidades. Mientras más categorías, menor porcentaje por dimensión.
Para tener una interpretaccion econimica se considera Interpretación económica que la Dimension 1 probablemente está capturando:
Diferencias estructurales fuertes del mercado (por ejemplo, zonas consolidadas vs zonas emergentes) O separación clara entre tipos de vivienda
Dimensión 2 podría estar capturando:
Segmentación intermedia Submercados específicos dentro de zonas
Por lo tanto:
El gráfico de sedimentación (scree plot) muestra que la primera dimensión explica aproximadamente el 0.7% de la inercia total, mientras que la segunda explica cerca del 0.5%. Aunque los porcentajes individuales son bajos, esto es característico del Análisis de Correspondencia Múltiple cuando se incluyen múltiples categorías, como ocurre con la variable barrio.
Se observa una caída pronunciada después de las primeras dimensiones y una estabilización a partir de la sexta dimensión, lo que sugiere que las dos primeras dimensiones capturan la mayor parte de la estructura asociativa relevante del mercado inmobiliario. Por tanto, el análisis e interpretación se realizará sobre el plano factorial bidimensional (Dimensión 1 y Dimensión 2 . . . . . . . . .
Para realizar un Analisis de Correspondencia, Usaremos directamente la prueba Chi-cuadrado + residuos estandarizados.
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## Apartamento 24 1198 1029 62 2787
## Casa 100 722 169 289 1939
##
## Pearson's Chi-squared test
##
## data: tabla_tz
## X-squared = 690.93, df = 4, p-value < 2.2e-16
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## Apartamento -9.66 1.12 18.89 -17.15 -5.01
## Casa 9.66 -1.12 -18.89 17.15 5.01
Se realizó una prueba Chi-cuadrado para evaluar la asociación entre el tipo de vivienda y la zona. Los residuos estandarizados muestran que los apartamentos presentan una concentración significativa en determinadas zonas, mientras que las casas predominan en otras, evidenciando una segmentación espacial del mercado inmobiliario.