La dinámica del mercado inmobiliario urbano se caracteriza por su complejidad y constante transformación, influenciada por factores económicos, sociales, espaciales y estructurales. Para una empresa inmobiliaria que busca mantenerse competitiva, no basta con conocer el precio individual de cada vivienda; es necesario comprender patrones globales, identificar segmentos de mercado diferenciados y reconocer cómo se relacionan las características físicas de las propiedades con su localización y su nivel socioeconómico. En este contexto, el análisis estadístico multivariado se convierte en una herramienta clave para transformar una base de datos extensa en conocimiento útil para la toma de decisiones estratégicas.

En la presente actividad se trabajará con una base de datos real de viviendas urbanas, que incluye información sobre ubicación (zona, barrio, coordenadas), características físicas (área construida, número de habitaciones, baños, parqueaderos), condición socioeconómica (estrato) y variables de valor (precio por metro cuadrado). A partir de estas variables, se propone realizar un análisis integral que combine varias técnicas de la estadística multivariada: Análisis de Componentes Principales (ACP) para reducir la dimensionalidad e identificar las combinaciones de variables que explican la mayor parte de la variación; Análisis de Conglomerados para segmentar las propiedades en grupos homogéneos; y Análisis de Correspondencia (simple y/o múltiple) para estudiar la relación entre las variables categóricas como tipo de vivienda, zona y barrio.

El objetivo de este taller no es únicamente aplicar mecánicamente dichas técnicas, sino interpretar sus resultados en el contexto del mercado inmobiliario urbano y traducirlos en hallazgos y recomendaciones para la empresa. De esta manera, el estudiante podrá integrar conocimientos de estadística, ciencia de datos y análisis de negocio, desarrollando la capacidad de pasar de los datos a conclusiones accionables: caracterizar segmentos de mercado, reconocer patrones espaciales en la oferta, y proponer estrategias para optimizar la compra, venta y valoración de propiedades en un entorno competitivo y cambiante.

Diccionario de variables del conjunto de datos de vivienda
Variable Tipo Descripcion
id Numérica (ID) Identificador único de cada vivienda.
zona Categórica (texto) Zona de la ciudad donde se ubica la vivienda (Oriente, Sur, etc.).
piso Categórica (texto) Número de piso de la vivienda dentro del edificio/conjunto.
estrato Categórica (ordinal) Estrato socioeconómico de la vivienda.
preciom Numérica (continua) Precio de la vivienda en millones de pesos.
areaconst Numérica (continua) Área construida de la vivienda (m²).
parqueaderos Numérica (discreta) Número de parqueaderos asociados a la vivienda.
banios Numérica (discreta) Número de baños de la vivienda.
habitaciones Numérica (discreta) Número de habitaciones de la vivienda.
tipo Categórica (texto) Tipo de inmueble (Casa, Apartamento, etc.).
barrio Categórica (texto) Nombre del barrio donde se ubica la vivienda.
longitud Numérica (continua) Coordenada de longitud geográfica de la vivienda.
latitud Numérica (continua) Coordenada de latitud geográfica de la vivienda.

Exploración inicial de los datos

La base de datos como vimos anteriormente cuenta con 13 variables. En el presente trabajo por recomendaciones y sugerencias se omitiran 3 variables en especifico: “Barrio”, “Longitud” y “Latitud”. Se puede observar que en los datos que los precios mínimos de la vivienda se encuentran entre 58 y 1999 millones de pesos, no se ve anormalidad en estos valores dado que no hay valores negativos. El área construida resulta interesante por su valor máximo 1745 m^2 dado que indica un valor muy bajo por metro cuadrado en la ciudad. Respecto a los parqueaderos se presenta un mínimo de 1 parqueadero aunque hay una gran presencia de NA´s siendo 1605 un valor bastante elevado considerando que son alrededor de 8300 datos. Respecto a los baños y habitaciones se debe analizar las definiciones que se tengan de vivienda urbana dado que se ven datos de 0´s en estas variables lo que resulta extraño.

Resumen numérico de las variables cuantitativas de vivienda
preciom areaconst parqueaderos banios habitaciones
Mínimo 58.00 30.00 1.00 0.00 0.00
Q1 (25%) 220.00 80.00 1.00 2.00 3.00
Mediana 330.00 123.00 2.00 3.00 3.00
Media 433.89 174.93 1.84 3.11 3.61
Q3 (75%) 540.00 229.00 2.00 4.00 4.00
Máximo 1999.00 1745.00 10.00 10.00 10.00
NA´s 2.00 3.00 1605.00 3.00 3.00

Preparacion de los datos para analisis multivariado

Tratamiento de datos faltantes

Para el tratamiento de los datos faltantes en la variable parqueadero se plantean 3 posibles escenarios para la imputación de los datos faltantes: 1. Imputación de valores faltantes con 0: Se debería de evidenciar que son hogares con área pequeña o estrato bajo. 2. Mediana o moda: Conserva la centralidad. 3. MICE: Imputación múltiple por ecuaciones encadenadas al usar otras variables para predecir los valores plausibles.

A continuación se presenta una tabla con el estrato de la casa o apartamento y la cantidad de NA´s que presenta en cada caso junto a su proporción de NA´s:

## # A tibble: 9 × 5
##   tipo        estrato na_parq     n prop_na
##   <chr>         <dbl> <chr>   <int>   <dbl>
## 1 Apartamento       3 NA        343       1
## 2 Apartamento       4 NA        357       1
## 3 Apartamento       5 NA        107       1
## 4 Apartamento       6 NA         62       1
## 5 Casa              3 NA        426       1
## 6 Casa              4 NA        131       1
## 7 Casa              5 NA        121       1
## 8 Casa              6 NA         55       1
## 9 <NA>             NA NA          3       1

Se evidencia que hay un patrón de NA sistemático por ausencia de recolección inmobiliaria dado que se tienen valores muy altos en los datos faltantes (100% NA) en los parqueaderos para todas las combinaciones de “tipo” y “estrato” con suficientes observaciones. Se evidencia que no es MCAR ya que afecta a grupos específicos; apunta a MNAR donde se sugiere que no se registran los ceros o el diseño de la base de datos donde solo se toman los valores mayores estrictos a 0. Por lo anterior, se decide tomar estos datos faltantes como 0.

Otro dato relevante que se considera eliminar es los datos donde el baño y habitaciones son 0 dado que por definición “La Ley 820 de 2003 y decretos relacionados exigen que incluya al menos áreas habitables (habitaciones) y sanitarias (baño), además de cumplir normas NSR-10 y estándares urbanísticos”. Indicando que dichos datos se deben eliminar dado que el mismo enunciado indica que se trata de una vivienda urbana.

De igual manera se eliminan los valores NA´s que se tienen en las otras variables cuantitativas.

Analisis de Componentes principales (PCA)

Seleccionar solo variables numericas para PCA

A continuación se realiza la selección de variables cuantitativas continuas para asegurar que el algoritmo funciona correctamente, dado que debemos guiarnos por las matrices de covarianza y correlación que requieren de dicha cualidad. Siendo así, se emplean los datos como el precio y area como tambien con el fin de ver su comportamiento en el modelo de las habitaciones, baños y parqueaderos.

## Importance of components:
##                           PC1    PC2     PC3     PC4     PC5
## Standard deviation     1.7809 0.9590 0.63780 0.56041 0.43338
## Proportion of Variance 0.6343 0.1839 0.08136 0.06281 0.03756
## Cumulative Proportion  0.6343 0.8183 0.89962 0.96244 1.00000

Se puede observar por los resultados de la desviacion estandar que la direccion de maxima variabilidad se encuentra en la componente PC1 seguido por PC2 con valores de 1,781 y 0,959 respectivamente. La proporción de varianza muestra tambien que PC1 y PC2 resumen mas del 80% de los datos.

Cargas de los componentes

##                    PC1        PC2         PC3        PC4         PC5
## preciom      0.4761658  0.3543909 -0.41048710 -0.2326894 -0.65194264
## areaconst    0.4862270 -0.1095505 -0.48809717  0.6023929  0.38789928
## parqueaderos 0.4053187  0.5358226  0.68102525  0.2856900  0.05653937
## banios       0.4968315 -0.1371800  0.06263705 -0.6952623  0.49701814
## habitaciones 0.3545766 -0.7459769  0.35432004  0.1340521 -0.41747001

Al analizar PC1, PC2, PC3, PC4 y PC5. Se observa que PC1 mide las viviendas con todos los valores mas altos. Es decir, las viviendas “premium”. Por otro lado, PC2 muestra la diferencia entre casas grandes o con muchas habitaciones refleja un bajo PC2 mientras que un apartamento con precio alto y más parqueaderos refleja un alto PC2. PC3 con sus valores de 0,68 en parqueaderos y -0,49 area construida contrasta los inmuebles con garaje vs espacios grandes.

A continuacion, se muestra el Biplot con los dos primeros componentes.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
##   Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

El biplot muestra flechas muy proximas y con angulos reducidos entre si para las variables de area construida, banos, parqueaderos y precio se encuentran fuertemente asociadas. Esto refleja que las viviendas mas grandes suelen tener mas baños, mas parqueaderos e igualmente precios superiores. Además, el vector de habitaciones presenta una recta perpendicular a las anteriormente mencionadas lo que sugiere que las habitaciones no estan tan de la mano con el porque una vivienda cuesta más o menos.

Ahora, pasamos a revisar el comportamiento que tenga por zona o estrato el plano del PCA

Los anteriores gráficos sugieren que no hay clusteres completamente separados. Es decir, los estratos se solapan demasiado, lo que sugiere que sin a pesar de que los componentes capturan cierta diferencia socioeconomica, las caracteristicas fisicas de las casas no distinguen perfectamente de los estratos. Por otro lado, se observa mayor solapamiento cuando se trata de las zonas ya que no se distinguen manchas de color separadas por zonas exceptuando un poco los extremos. Esto muestra que el PCA no revela patrones espaciales fuertes por zona. Las propiedades parecen estar mas relacionadas con otros factores.

Analisis de conglomerados (Clustering)

Para esta parte del anallisis se emplean las mismas variables numericas anteriores y veremos como se distribuyen las variables categoricas en los cluster.

## clusters
##    1    2    3 
## 3995 2698 1550

El número optimo de clusteres mediante el metodo del codo aplicado en la gráfica anterior sugiere que evaluando k entre 1 y 10 se puede ver una disminución pronunciada hasta k=3 en la cual la pendiente de la curva se vuelve más suave, indicamndo un rendimiento decreciente conforme se aumenta el numero de clusteres. Por lo cual se opta por seleccionar k=3 como el número adecuado de clusteres, al ofrecer un equilibrio entre la parsimonia del modelo y la capacidad explicativa de la variabilidad de los datos.

Una vez realizado el k-means con 3 clusteres en el plano PCA se observan los clusteres que aunque existen zonas de solapamiento entre los cluster rojo y azul, especialmente cerca. El cluster verde aparece mas compacto y concentrado hacia valores bajos de PC1 y cercanos a cero en PC2, lo que sugiere un grupo mas homogeneo de observaciones. Esto puede sugerir que un sector este relacionado a viviendas pequeñas y relativamente baratas o viviendas mas grandes y costosas o viviendas de tamaño y precio intermedio. Esto lo iremos revisando a continuación.

##    
##        3    4    5    6
##   1  399  449  843  831
##   2 1020 1611 1682  462
##   3   13   46  203  684
##    
##     Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
##   1          54        502        453          159     1354
##   2          64       1276        467          182     2786
##   3           3        110        268            4      561
##    
##     Apartamento Casa
##   1         875 1647
##   2        3930  845
##   3         269  677

Las anteriores tablas muestran el comportamiento de los clusteres donde se observa que el cluster 2 para el numero de habitaciones agrupa la mayor parte de viviendas tipicas, el cluster 1 un grupo de tamaño medio y el 3 agrupa muchas viviendas grandes. Respecto a las zonas de la ciudad los clusteres se distribuyen de la siguiente manera los tres clusteres se encuentran en su mayoria en la Zona Sur y la Zona Norte con el cluster 3 se observa algo más de Zona Oeste y Sur dentrode su pequeño tamaño. Respecto al tipo de vivienda es mejor dar una conclusión general de los clusteres. El cluster 1 presenta viviendas de tamaño medio, con parte y parte de apartamentos y casas ubicadas en general en la zona Sur y norte. El cluster 2: Se encuentra agrupado gran parte de los apartamentos con 3 a 5 habitaciones, muy concentrados de igual manera en la zona Sur y Norte. El cluster 3: Un grupo pequeño de viviendas, en su mayoria con casas grandes de 5 a 6 habitaciones distribuidas en la zona Oeste y Sur de la ciudad.

Analisis de correspondencia

Para esta seccion se presta atencion en las variables categoricas tipo y zona. A continuacion, se presenta la correspondencia entre zona y tipo

## [1] 5 2
##               
##                Apartamento Casa
##   Zona Centro           24   97
##   Zona Norte          1188  700
##   Zona Oeste          1024  164
##   Zona Oriente          61  284
##   Zona Sur            2777 1924
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##  -0.85762801   0.02813094   0.50651246  -0.90189746  -0.05103603
##                   [,1]
## Apartamento  0.2283421
## Casa        -0.3656068

El Análisis de Correspondencias aplicado a la tabla de contingencia entre zona geográfica y tipo de vivienda produjo una única dimensión estructural, debido a la naturaleza 5×2 de la matriz analizada. Esta dimensión representa el contraste fundamental entre vivienda tipo Apartamento y vivienda tipo Casa.

Los resultados muestran que las Zonas Centro y Oriente presentan una fuerte asociación relativa con viviendas tipo Casa, evidenciando un perfil residencial predominantemente horizontal o tradicional. Por su parte, la Zona Oeste se asocia de manera clara con vivienda tipo Apartamento, lo que sugiere una mayor verticalización o desarrollo inmobiliario en altura en dicha área.

Las Zonas Norte y Sur presentan perfiles cercanos al promedio general de la ciudad, por lo que no influyen de manera determinante en la estructura del eje principal.

En términos de contribución a la inercia, las zonas que explican mayor variabilidad en la dimensión analizada son Oriente y Centro, seguidas por Oeste en el extremo opuesto. Esto indica que el patrón espacial de la ciudad se organiza principalmente en torno al contraste entre sectores con predominancia de vivienda unifamiliar y sectores con mayor presencia de vivienda en altura.

En conclusión, la estructura inmobiliaria urbana presenta un patrón unidimensional claramente definido por el tipo de vivienda predominante en cada zona, sin evidenciar una segmentación más compleja en el espacio analizado.