Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
La normalización transforma los datos numéricos para que tengan una media de 0 y una desviación estándar de 1. Esto se hace con la función scale().
## Datos normalizados (primeras filas):
## id estrato preciom areaconst parqueaderos banios
## [1,] -1.4055339 -1.9279348 -0.6532909 -0.7712458 -0.7424551 -0.1850976
## [2,] -1.3960663 -1.9279348 -0.4443626 -0.4242642 -0.7424551 -0.9096316
## [3,] -1.3181741 -1.9279348 -0.3548218 0.2696991 0.1465058 -0.9096316
## [4,] 0.6794826 -0.8746661 -0.2055873 0.6860770 1.0354668 1.2639704
## [5,] -1.3775615 0.1786025 -0.6234440 -0.6324532 -0.7424551 -0.9096316
## [6,] -1.1572254 0.1786025 -0.6831378 -0.6532721 -0.7424551 -0.1850976
## habitaciones longitud latitud
## [1,] 1.7511897 1.1475799 0.4390398
## [2,] -0.4477275 1.1055602 0.4360038
## [3,] 0.2852449 0.9228659 0.4820123
## [4,] -0.4477275 -0.5770548 0.4665982
## [5,] -0.4477275 1.0367454 1.0250060
## [6,] -0.4477275 0.8236019 -1.0582217
Se usa PCA para reducir la dimensionalidad de los datos, eliminando redundancias entre variables correlacionadas y conservando la mayor parte de la información. Esto facilita la visualización, mejora el rendimiento de modelos y permite identificar patrones ocultos en los datos de forma más eficiente.
permite simplificar la complejidad de los datos, resumiendo la información de múltiples variables en estas dos dimensiones clave.Esto permite simplificar la complejidad de los datos, resumiendo la información de múltiples variables en estas dos dimensiones clave.
##
## Resumen PCA:
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.9628 1.3725 1.0095 0.9673 0.69386 0.59741 0.49420
## Proportion of Variance 0.4281 0.2093 0.1132 0.1040 0.05349 0.03966 0.02714
## Cumulative Proportion 0.4281 0.6374 0.7506 0.8546 0.90804 0.94770 0.97483
## PC8 PC9
## Standard deviation 0.43328 0.19689
## Proportion of Variance 0.02086 0.00431
## Cumulative Proportion 0.99569 1.00000
El Componente 1 está fuertemente relacionado con características de la vivienda como el área de construcción, el número de habitaciones, los baños y el precio. El Componente 2 se asocia principalmente con la latitud, el estrato y el ID, indicando que estos factores geográficos y de clasificación influyen en la segunda mayor dimensión de variación de los datos.
El análisis de K-means sugiere que tres clústeres son óptimos para agrupar las viviendas. El método del codo muestra que la varianza dentro de los clústeres disminuye significativamente hasta k=3 y luego se aplana. El índice de silueta confirma esta elección, mostrando que los clústeres 1 y 2 están bien definidos, aunque el clúster 3 es menos coherente, con un índice de silueta más bajo. Los centroides de los clústeres revelan que cada grupo tiene un perfil de vivienda distinto, lo que facilita la segmentación de la muestra en base a características clave como precio, área de construcción y latitud.
El análisis de K-means determina que 3 clústeres es la mejor segmentación para los datos de vivienda. Esto se basa en:
Método del Codo: La curva de la suma de cuadrados totales dentro del grupo (“Total Within Sum of Square”) se aplana notablemente después de 3, lo que sugiere que añadir más clústeres no mejora significativamente la cohesión de los grupos.
Índice de Silueta: Los clústeres 1 y 2 muestran índices de silueta promedio relativamente altos (0.23 y 0.27), indicando que sus puntos están bien agrupados. Sin embargo, el clúster 3 tiene un índice bajo (0.09) y puntos con valores negativos, sugiriendo que es menos coherente.
Características de los Clústeres: Los centroides revelan que cada clúster tiene un perfil distinto:
Clúster 1: Viviendas con precio y areaconst bajos, pero en una ubicación geográfica específica (valores altos de latitud y longitud).
Clúster 3: Viviendas de mayor tamaño y equipamiento (valores más altos de areaconst, parqueaderos y banios).
Clúster 2: Muestra características intermedias entre los otros dos clústeres.
El análisis de correspondencias múltiples (MCA) revela las asociaciones entre el tipo de vivienda, la zona y el barrio. La proximidad de los puntos en el gráfico indica que “Apartamento” está fuertemente correlacionado con barrios de la Zona Sur y la Zona Oeste, como el ingenio, santa isabel y prados del norte. Por otro lado, la categoría “Casa” se asocia con barrios específicos como chapinero y la independencia. Este análisis permite identificar patrones de ubicación y tipo de vivienda dentro del conjunto de datos.
El análisis de correspondencias múltiples (MCA) en el gráfico “MCA: Relación entre tipo de vivienda, zona y barrio” revela una relación clara entre estas variables. La cercanía de los puntos en el gráfico indica una fuerte asociación entre ellos.
Asociación de Zonas y Barrios: Se observa que “Apartamento” está fuertemente asociado con barrios de la “Zona Sur” y la “Zona Oeste” como prados del norte, granada, valle del lili, el ingenio y santa isabel. Por otro lado, la etiqueta “Casa” parece estar más relacionada con la independencia y chapinero, aunque también con gran limonar.
Agrupaciones en el Gráfico: El gráfico muestra que la mayoría de los barrios y zonas se concentran en una región, mientras que otros como la independencia y chapinero (etiquetados con los números 18, 23 y 30) se encuentran más aislados, sugiriendo que son distintos en la forma en que se relacionan con las otras categorías. La primera dimensión (Dim1) explica el 6% de la varianza, y la segunda (Dim2) el 5%, lo cual es relativamente bajo, indicando que las relaciones entre estas variables son complejas y no se resumen completamente en estas dos dimensiones.
El dendrograma categórico corrobora los hallazgos del MCA, mostrando cómo las viviendas se agrupan en tres conglomerados principales en función de su tipo, zona y barrio. Las agrupaciones en forma de árbol demuestran que las viviendas con características similares (por ejemplo, “Apartamento” en la “Zona Norte” y “Zona Sur”) tienden a estar más cerca entre sí, formando clústeres cohesivos. Esto valida las segmentaciones observadas en los análisis anteriores, ilustrando visualmente la estructura jerárquica de los datos categóricos.
El dendrograma categórico visualiza la agrupación jerárquica de las viviendas basándose en su tipo, zona y barrio.
Formación de Clústeres: El dendrograma agrupa claramente las viviendas en tres conglomerados principales, delimitados por los recuadros de color. La altura del eje Y (“Height”) indica el nivel de disimilitud entre los conglomerados, siendo los cortes más bajos los que agrupan los elementos más similares.
Características de los Clústeres:
Clúster de la izquierda (rojo): Predominan los Apartamentos de la Zona Norte y la Zona Sur, incluyendo barrios como prados del norte y valle del lili.
Clúster del centro (verde): Incluye una mezcla de Apartamentos y Casas de la Zona Oeste y Zona Sur, con barrios como gran limonar y la hacienda.
Clúster de la derecha (azul): Este grupo parece tener una mezcla similar de Casas y Apartamentos de las Zona Sur y Zona Oeste, con barrios como el ingenio y el limonar.
Esto sugiere que la segmentación de las viviendas no solo se basa en el tipo de propiedad, sino también en la ubicación geográfica (zona y barrio).
##
## Centroides de los clusters:
## id estrato preciom areaconst parqueaderos banios
## Cluster 1 -0.9648757 -0.6482114 -0.5835558 -0.4259324 -0.5008214 -0.5267827
## Cluster 2 0.7454255 0.2966855 -0.1602730 -0.2689081 -0.1518144 -0.1440760
## Cluster 3 0.4497868 0.7032964 1.4730758 1.3737758 1.2922631 1.3285751
## habitaciones longitud latitud
## Cluster 1 -0.1913369 0.8802627 0.2263835
## Cluster 2 -0.2479259 -0.6829351 -0.1198270
## Cluster 3 0.8669776 -0.4046866 -0.2137600
## cluster size ave.sil.width
## 1 1 2693 0.23
## 2 2 2667 0.27
## 3 3 1357 0.09
## Índice de silueta promedio: 0.2195648
El análisis de correspondencia muestra una relación entre el tipo de vivienda (Apartamento o Casa) y la zona (Norte, Sur, Oeste, Oriente). La tabla de contingencia indica que hay una distribución desigual.
El análisis de correspondencia, evaluando tipo de vivienda vs. zona, muestra que los datos se distribuyen de forma desigual. La tabla indica una mayor concentración de Apartamentos en la Zona Sur (2787) y Zona Norte (1198), mientras que las Casas también se concentran en la Zona Sur (1939) y Zona Norte (722). Sin embargo, el análisis señala que “no es posible graficar el biplot” debido a que “solo hay una dimensión útil”, lo que implica que las asociaciones entre estas variables no son complejas y se pueden resumir en una única dimensión.
La matriz de correlación y el gráfico de pares de variables (ggpairs) revelan la relación entre las variables numéricas. Un corrplot visualiza la intensidad y dirección de estas correlaciones. El gráfico ggpairs muestra la distribución de cada variable, su correlación con otras, y un gráfico de dispersión, que permite identificar patrones entre pares de variables, como la relación entre el área de construcción y el precio.
La matriz de correlación visualiza las relaciones lineales entre las variables numéricas. Se observa una fuerte correlación positiva entre preciom, areaconst, parqueaderos, banios y habitaciones, lo que sugiere que estas variables aumentan o disminuyen juntas. Por ejemplo, a mayor área de construcción, mayor es el precio. Por otro lado, existe una correlación negativa entre estas variables y longitud y latitud, indicando que la ubicación geográfica tiene una relación inversa con las características de la vivienda.
El gráfico de pares de variables confirma las correlaciones observadas. Las gráficas de dispersión muestran las relaciones entre las variables, destacando la correlación positiva entre preciom, areaconst, banios y habitaciones. Se observa que estas correlaciones son fuertes tanto para Apartamentos como para Casas. Por ejemplo, el coeficiente de correlación entre preciom y areaconst es de 0.642, siendo similar para ambos tipos de vivienda (Apartamento: 0.65; Casa: 0.601).
-Los boxplots identifican la mediana, los cuartiles y la presencia de valores atípicos para cada variable.
Los boxplots resumen la distribución de las variables. El gráfico muestra que el id tiene el rango más amplio, mientras que variables como estrato, preciom y areaconst tienen una dispersión notable, con la presencia de valores atípicos (outliers) que se extienden significativamente por encima del bigote superior. Variables como parqueaderos, banios, habitaciones, longitud y latitud tienen una menor dispersión y menos valores atípicos.
-Los histogramas muestran la forma de la distribución, revelando si los datos están sesgados.
Los histogramas muestran la forma de la distribución de cada variable. preciom, areaconst, parqueaderos, banios y habitaciones tienen distribuciones sesgadas a la derecha, con la mayoría de los valores concentrados en los rangos más bajos. Esto es esperado para variables de precios y características, donde las viviendas con valores bajos son más comunes que las de valores altos. Las distribuciones de longitud y latitud parecen más irregulares, lo que puede reflejar la geografía de la zona.
El heatmap de las variables normalizadas permite visualizar la variabilidad de los datos en una escala común. Las filas representan observaciones y las columnas representan variables. Los clústeres visuales de colores similares en las columnas de preciom, areaconst, parqueaderos, banios y habitaciones confirman las altas correlaciones observadas. Esto muestra que las viviendas con características similares tienden a agruparse, lo que valida la existencia de los clústeres identificados en el análisis anterior.
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## Apartamento 24 1198 1029 62 2787
## Casa 100 722 169 289 1939
## No es posible graficar el biplot: solo hay una dimensión útil o la tabla es demasiado pequeña.
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.08305442 100 100
##
## Resumen estadístico por cluster:
## # A tibble: 3 × 28
## cluster id_media estrato_media preciom_media areaconst_media
## <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Cluster 1 2171. 4.22 273. 120.
## 2 Cluster 2 6145. 5.11 415. 142.
## 3 Cluster 3 5458. 5.50 962. 379.
## # ℹ 23 more variables: parqueaderos_media <dbl>, banios_media <dbl>,
## # habitaciones_media <dbl>, longitud_media <dbl>, latitud_media <dbl>,
## # id_mediana <dbl>, estrato_mediana <dbl>, preciom_mediana <dbl>,
## # areaconst_mediana <dbl>, parqueaderos_mediana <dbl>, banios_mediana <dbl>,
## # habitaciones_mediana <dbl>, longitud_mediana <dbl>, latitud_mediana <dbl>,
## # id_sd <dbl>, estrato_sd <dbl>, preciom_sd <dbl>, areaconst_sd <dbl>,
## # parqueaderos_sd <dbl>, banios_sd <dbl>, habitaciones_sd <dbl>, …