La dinámica del mercado inmobiliario urbano se caracteriza por su complejidad y constante transformación, influenciada por factores económicos, sociales, espaciales y estructurales. Para una empresa inmobiliaria que busca mantenerse competitiva, no basta con conocer el precio individual de cada vivienda; es necesario comprender patrones globales, identificar segmentos de mercado diferenciados y reconocer cómo se relacionan las características físicas de las propiedades con su localización y su nivel socioeconómico. En este contexto, el análisis estadístico multivariado se convierte en una herramienta clave para transformar una base de datos extensa en conocimiento útil para la toma de decisiones estratégicas.
En la presente actividad se trabajará con una base de datos real de viviendas urbanas, que incluye información sobre ubicación (zona, barrio, coordenadas), características físicas (área construida, número de habitaciones, baños, parqueaderos), condición socioeconómica (estrato) y variables de valor (precio por metro cuadrado). A partir de estas variables, se propone realizar un análisis integral que combine varias técnicas de la estadística multivariada: Análisis de Componentes Principales (ACP) para reducir la dimensionalidad e identificar las combinaciones de variables que explican la mayor parte de la variación; Análisis de Conglomerados para segmentar las propiedades en grupos homogéneos; y Análisis de Correspondencia (simple y/o múltiple) para estudiar la relación entre las variables categóricas como tipo de vivienda, zona y barrio.
El objetivo de este taller no es únicamente aplicar mecánicamente dichas técnicas, sino interpretar sus resultados en el contexto del mercado inmobiliario urbano y traducirlos en hallazgos y recomendaciones para la empresa. De esta manera, el estudiante podrá integrar conocimientos de estadística, ciencia de datos y análisis de negocio, desarrollando la capacidad de pasar de los datos a conclusiones accionables: caracterizar segmentos de mercado, reconocer patrones espaciales en la oferta, y proponer estrategias para optimizar la compra, venta y valoración de propiedades en un entorno competitivo y cambiante.
| Variable | Tipo | Descripcion |
|---|---|---|
| id | Numérica (ID) | Identificador único de cada vivienda. |
| zona | Categórica (texto) | Zona de la ciudad donde se ubica la vivienda (Oriente, Sur, etc.). |
| piso | Categórica (texto) | Número de piso de la vivienda dentro del edificio/conjunto. |
| estrato | Categórica (ordinal) | Estrato socioeconómico de la vivienda. |
| preciom | Numérica (continua) | Precio de la vivienda en millones de pesos. |
| areaconst | Numérica (continua) | Área construida de la vivienda (m²). |
| parqueaderos | Numérica (discreta) | Número de parqueaderos asociados a la vivienda. |
| banios | Numérica (discreta) | Número de baños de la vivienda. |
| habitaciones | Numérica (discreta) | Número de habitaciones de la vivienda. |
| tipo | Categórica (texto) | Tipo de inmueble (Casa, Apartamento, etc.). |
| barrio | Categórica (texto) | Nombre del barrio donde se ubica la vivienda. |
| longitud | Numérica (continua) | Coordenada de longitud geográfica de la vivienda. |
| latitud | Numérica (continua) | Coordenada de latitud geográfica de la vivienda. |
La base de datos como vimos anteriormente cuenta con 13 variables. En el presente trabajo por recomendaciones y sugerencias se omitiran 3 variables en especifico: “Barrio”, “Longitud” y “Latitud”. Se puede observar que en los datos que los precios mínimos de la vivienda se encuentran entre 58 y 1999 millones de pesos, no se ve anormalidad en estos valores dado que no hay valores negativos. El área construida resulta interesante por su valor máximo 1745 m^2 dado que indica un valor muy bajo por metro cuadrado en la ciudad. Respecto a los parqueaderos se presenta un mínimo de 1 parqueadero aunque hay una gran presencia de NA´s siendo 1605 un valor bastante elevado considerando que son alrededor de 8300 datos. Respecto a los baños y habitaciones se debe analizar las definiciones que se tengan de vivienda urbana dado que se ven datos de 0´s en estas variables lo que resulta extraño.
| preciom | areaconst | parqueaderos | banios | habitaciones | |
|---|---|---|---|---|---|
| Mínimo | 58.00 | 30.00 | 1.00 | 0.00 | 0.00 |
| Q1 (25%) | 220.00 | 80.00 | 1.00 | 2.00 | 3.00 |
| Mediana | 330.00 | 123.00 | 2.00 | 3.00 | 3.00 |
| Media | 433.89 | 174.93 | 1.84 | 3.11 | 3.61 |
| Q3 (75%) | 540.00 | 229.00 | 2.00 | 4.00 | 4.00 |
| Máximo | 1999.00 | 1745.00 | 10.00 | 10.00 | 10.00 |
| NA´s | 2.00 | 3.00 | 1605.00 | 3.00 | 3.00 |
Para el tratamiento de los datos faltantes en la variable parqueadero se plantean 3 posibles escenarios para la imputación de los datos faltantes: 1. Imputación de valores faltantes con 0: Se debería de evidenciar que son hogares con área pequeña o estrato bajo. 2. Mediana o moda: Conserva la centralidad. 3. MICE: Imputación múltiple por ecuaciones encadenadas al usar otras variables para predecir los valores plausibles.
A continuación se presenta una tabla con el estrato de la casa o apartamento y la cantidad de NA´s que presenta en cada caso junto a su proporción de NA´s:
## # A tibble: 9 × 5
## tipo estrato na_parq n prop_na
## <chr> <dbl> <chr> <int> <dbl>
## 1 Apartamento 3 NA 343 1
## 2 Apartamento 4 NA 357 1
## 3 Apartamento 5 NA 107 1
## 4 Apartamento 6 NA 62 1
## 5 Casa 3 NA 426 1
## 6 Casa 4 NA 131 1
## 7 Casa 5 NA 121 1
## 8 Casa 6 NA 55 1
## 9 <NA> NA NA 3 1
Se evidencia que hay un patrón de NA sistemático por ausencia de recolección inmobiliaria dado que se tienen valores muy altos en los datos faltantes (100% NA) en los parqueaderos para todas las combinaciones de “tipo” y “estrato” con suficientes observaciones. Se evidencia que no es MCAR ya que afecta a grupos específicos; apunta a MNAR donde se sugiere que no se registran los ceros o el diseño de la base de datos donde solo se toman los valores mayores estrictos a 0. Por lo anterior, se decide tomar estos datos faltantes como 0.
Otro dato relevante que se considera eliminar es los datos donde el baño y habitaciones son 0 dado que por definición “La Ley 820 de 2003 y decretos relacionados exigen que incluya al menos áreas habitables (habitaciones) y sanitarias (baño), además de cumplir normas NSR-10 y estándares urbanísticos”. Indicando que dichos datos se deben eliminar dado que el mismo enunciado indica que se trata de una vivienda urbana.
De igual manera se eliminan los valores NA´s que se tienen en las otras variables cuantitativas.
A continuación se realiza la selección de variables cuantitativas continuas para asegurar que el algoritmo funciona correctamente, dado que debemos guiarnos por las matrices de covarianza y correlación que requieren de dicha cualidad. Siendo así, se emplean los datos como el precio y area como tambien con el fin de ver su comportamiento en el modelo de las habitaciones, baños y parqueaderos.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5
## Standard deviation 1.7809 0.9590 0.63780 0.56041 0.43338
## Proportion of Variance 0.6343 0.1839 0.08136 0.06281 0.03756
## Cumulative Proportion 0.6343 0.8183 0.89962 0.96244 1.00000
Se puede observar por los resultados de la desviacion estandar que la direccion de maxima variabilidad se encuentra en la componente PC1 seguido por PC2 con valores de 1,781 y 0,959 respectivamente. La proporción de varianza muestra tambien que PC1 y PC2 resumen mas del 80% de los datos.
## PC1 PC2 PC3 PC4 PC5
## preciom 0.4761658 0.3543909 -0.41048710 -0.2326894 -0.65194264
## areaconst 0.4862270 -0.1095505 -0.48809717 0.6023929 0.38789928
## parqueaderos 0.4053187 0.5358226 0.68102525 0.2856900 0.05653937
## banios 0.4968315 -0.1371800 0.06263705 -0.6952623 0.49701814
## habitaciones 0.3545766 -0.7459769 0.35432004 0.1340521 -0.41747001
Al analizar PC1, PC2, PC3, PC4 y PC5. Se observa que PC1 mide las viviendas con todos los valores mas altos. Es decir, las viviendas “premium”. Por otro lado, PC2 muestra la diferencia entre casas grandes o con muchas habitaciones refleja un bajo PC2 mientras que un apartamento con precio alto y más parqueaderos refleja un alto PC2. PC3 con sus valores de 0,68 en parqueaderos y -0,49 area construida contrasta los inmuebles con garaje vs espacios grandes.
A continuacion, se muestra el Biplot con los dos primeros componentes.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
El biplot muestra flechas muy proximas y con angulos reducidos entre si para las variables de area construida, banos, parqueaderos y precio se encuentran fuertemente asociadas. Esto refleja que las viviendas mas grandes suelen tener mas baños, mas parqueaderos e igualmente precios superiores. Además, el vector de habitaciones presenta una recta perpendicular a las anteriormente mencionadas lo que sugiere que las habitaciones no estan tan de la mano con el porque una vivienda cuesta más o menos.
Ahora, pasamos a revisar el comportamiento que tenga por zona o estrato el plano del PCA
Los anteriores gráficos sugieren que no hay clusteres completamente separados. Es decir, los estratos se solapan demasiado, lo que sugiere que sin a pesar de que los componentes capturan cierta diferencia socioeconomica, las caracteristicas fisicas de las casas no distinguen perfectamente de los estratos. Por otro lado, se observa mayor solapamiento cuando se trata de las zonas ya que no se distinguen manchas de color separadas por zonas exceptuando un poco los extremos. Esto muestra que el PCA no revela patrones espaciales fuertes por zona. Las propiedades parecen estar mas relacionadas con otros factores.
Para esta parte del anallisis se emplean las mismas variables numericas anteriores y veremos como se distribuyen las variables categoricas en los cluster.
## clusters
## 1 2 3
## 3995 2698 1550
El número optimo de clusteres mediante el metodo del codo aplicado en la gráfica anterior sugiere que evaluando k entre 1 y 10 se puede ver una disminución pronunciada hasta k=3 en la cual la pendiente de la curva se vuelve más suave, indicamndo un rendimiento decreciente conforme se aumenta el numero de clusteres. Por lo cual se opta por seleccionar k=3 como el número adecuado de clusteres, al ofrecer un equilibrio entre la parsimonia del modelo y la capacidad explicativa de la variabilidad de los datos.
Una vez realizado el k-means con 3 clusteres en el plano PCA se observan
los clusteres que aunque existen zonas de solapamiento entre los cluster
rojo y azul, especialmente cerca. El cluster verde aparece mas compacto
y concentrado hacia valores bajos de PC1 y cercanos a cero en PC2, lo
que sugiere un grupo mas homogeneo de observaciones. Esto puede sugerir
que un sector este relacionado a viviendas pequeñas y relativamente
baratas o viviendas mas grandes y costosas o viviendas de tamaño y
precio intermedio. Esto lo iremos revisando a continuación.
##
## 3 4 5 6
## 1 399 449 843 831
## 2 1020 1611 1682 462
## 3 13 46 203 684
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 1 54 502 453 159 1354
## 2 64 1276 467 182 2786
## 3 3 110 268 4 561
##
## Apartamento Casa
## 1 875 1647
## 2 3930 845
## 3 269 677
Las anteriores tablas muestran el comportamiento de los clusteres donde se observa que el cluster 2 para el numero de habitaciones agrupa la mayor parte de viviendas tipicas, el cluster 1 un grupo de tamaño medio y el 3 agrupa muchas viviendas grandes. Respecto a las zonas de la ciudad los clusteres se distribuyen de la siguiente manera los tres clusteres se encuentran en su mayoria en la Zona Sur y la Zona Norte con el cluster 3 se observa algo más de Zona Oeste y Sur dentrode su pequeño tamaño. Respecto al tipo de vivienda es mejor dar una conclusión general de los clusteres. El cluster 1 presenta viviendas de tamaño medio, con parte y parte de apartamentos y casas ubicadas en general en la zona Sur y norte. El cluster 2: Se encuentra agrupado gran parte de los apartamentos con 3 a 5 habitaciones, muy concentrados de igual manera en la zona Sur y Norte. El cluster 3: Un grupo pequeño de viviendas, en su mayoria con casas grandes de 5 a 6 habitaciones distribuidas en la zona Oeste y Sur de la ciudad.
Para esta seccion se presta atencion en las variables categoricas tipo y zona. A continuacion, se presenta la correspondencia entre zona y tipo
## [1] 5 2
##
## Apartamento Casa
## Zona Centro 24 97
## Zona Norte 1188 700
## Zona Oeste 1024 164
## Zona Oriente 61 284
## Zona Sur 2777 1924
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## -0.85762801 0.02813094 0.50651246 -0.90189746 -0.05103603
## [,1]
## Apartamento 0.2283421
## Casa -0.3656068
El Análisis de Correspondencias aplicado a la tabla de contingencia entre zona geográfica y tipo de vivienda produjo una única dimensión estructural, debido a la naturaleza 5×2 de la matriz analizada. Esta dimensión representa el contraste fundamental entre vivienda tipo Apartamento y vivienda tipo Casa.
Los resultados muestran que las Zonas Centro y Oriente presentan una fuerte asociación relativa con viviendas tipo Casa, evidenciando un perfil residencial predominantemente horizontal o tradicional. Por su parte, la Zona Oeste se asocia de manera clara con vivienda tipo Apartamento, lo que sugiere una mayor verticalización o desarrollo inmobiliario en altura en dicha área.
Las Zonas Norte y Sur presentan perfiles cercanos al promedio general de la ciudad, por lo que no influyen de manera determinante en la estructura del eje principal.
En términos de contribución a la inercia, las zonas que explican mayor variabilidad en la dimensión analizada son Oriente y Centro, seguidas por Oeste en el extremo opuesto. Esto indica que el patrón espacial de la ciudad se organiza principalmente en torno al contraste entre sectores con predominancia de vivienda unifamiliar y sectores con mayor presencia de vivienda en altura.
En conclusión, la estructura inmobiliaria urbana presenta un patrón unidimensional claramente definido por el tipo de vivienda predominante en cada zona, sin evidenciar una segmentación más compleja en el espacio analizado.