Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
Con relación al problema planteado, se trabajará con una base de datos predominantemente numeríca que contiene información sobre propiedades inmobiliarias. Esta base incluye variables como zona geográfica, estrato, precio de venta, área construida, entre otras caracteristicas relevantes para el análisis del mercado inmobiliario.
| Estructura de la Base de Datos de Vivienda | ||
| Variable | Tipo de Dato | Muestra de Valores |
|---|---|---|
| id | numeric | 1147, 1169, 1350, 5992, 1212 |
| zona | character | Zona Oriente, Zona Sur, Zona Norte |
| piso | character | NA, 02, 01 |
| estrato | numeric | 3, 3, 3, 4, 5 |
| preciom | numeric | 250, 320, 350, 400, 260 |
| areaconst | numeric | 70, 120, 220, 280, 90 |
| parqueaderos | numeric | 1, 1, 2, 3, 1 |
| banios | numeric | 3, 2, 2, 5, 2 |
| habitaciones | numeric | 6, 3, 4, 3, 3 |
| tipo | character | Casa, Apartamento, NA |
| barrio | character | 20 de julio, 3 de julio, acopi |
| longitud | numeric | -76.51168, -76.51237, -76.51537, -76.54, -76.5135 |
| latitud | numeric | 3.43382, 3.43369, 3.43566, 3.435, 3.45891 |
La estructura completa de la base de datos se presenta en la Tabla 2.1, Donde se detallan los tipos de datos y una muestra de los valores que esta contiene.
Para este apartado se realizará el trabajo de preparación de los datos con el objetivo de facilitar los diferentes procesos a realizar, teniendo en cuenta que ninguna de las técnicas multivariadas puede ejecutarse con datos faltantes sin un tratamiento previo.
Teniendo en cuenta lo anterior, se revisarán primeramente los datos faltantes y se verificará qué datos son útiles para el trabajo y cuáles pueden descartarse según su relevancia para el análisis.
| Análisis de Valores Faltantes (NA) | |||
| Variable | Total Registros | NAs | % NA |
|---|---|---|---|
| piso | 8322 | 2638 | 31.70% |
| parqueaderos | 8322 | 1605 | 19.29% |
| id | 8322 | 3 | 0.04% |
| zona | 8322 | 3 | 0.04% |
| estrato | 8322 | 3 | 0.04% |
| areaconst | 8322 | 3 | 0.04% |
| banios | 8322 | 3 | 0.04% |
| habitaciones | 8322 | 3 | 0.04% |
| tipo | 8322 | 3 | 0.04% |
| barrio | 8322 | 3 | 0.04% |
| longitud | 8322 | 3 | 0.04% |
| latitud | 8322 | 3 | 0.04% |
| preciom | 8322 | 2 | 0.02% |
Como se observa en la Tabla 3.1, se presenta una cantidad considerable de datos faltantes en dos variables principalmente: piso y parqueaderos. Dado que la variable parqueaderos se considera de mayor importancia para el análisis inmobiliario que la variable piso, se realizará únicamente la imputación y tratamiento de esta variable. Por otra parte, las variables tipo y estrato presentan únicamente 3 valores faltantes cada una (0.04% del total), por lo que estos registros serán descartados del análisis debido a su mínima proporción.
Como se mencionó anteriormente, además del tratamiento de valores faltantes, se seleccionarán las variables numéricas más relevantes para el Análisis de Componentes Principales (PCA). En este caso, se trabajará con las variables: preciom, areaconst, baños, habitaciones y parqueaderos. Estas variables fueron seleccionadas porque se relacionan directamente con los objetivos del análisis y presentan diferentes características clave que pueden ayudar a evaluar diversos aspectos al momento de tomar una decisión inmobiliaria, tales como el valor de mercado, el espacio disponible, la comodidad y las amenidades de la propiedad. Con esto en mente, se realizan los siguientes pasos para la preparación de los datos:
# Limpiar datos
vivienda_limpia <- vivienda %>% filter(!is.na(tipo) & !is.na(estrato))
# Imputar parqueaderos
vivienda_imputada <- vivienda_limpia %>% group_by(tipo, estrato) %>%
mutate(parqueaderos = ifelse(is.na(parqueaderos), median(parqueaderos, na.rm = TRUE),
parqueaderos)) %>% ungroup()
# Dataset numérico
vivienda_numerica <- vivienda_imputada %>%
select(preciom, areaconst, banios, habitaciones, parqueaderos) %>%
na.omit()
Como se muestra en la Tabla 3.2, después de aplicar el proceso de limpieza, imputación y selección de variables, se obtiene un dataset final con información completa y de calidad para los análisis posteriores.
| Dataset Procesado y Listo para Análisis | ||
| Métrica | Valor | Detalle |
|---|---|---|
| Registros originales | 8,322 | Todas las variables |
| Registros finales | 8,319 | preciom, areaconst, banios, habitaciones, parqueaderos |
| Variables seleccionadas | 5 | preciom, areaconst, banios, habitaciones, parqueaderos |
| Pérdida total | 3 | - |
| Datos conservados | 99.96% | - |
Para validar la selección de variables y comprender las relaciones entre ellas, se presenta la matriz de correlación de las variables numéricas seleccionadas. Esta matriz permite identificar qué variables están relacionadas entre sí y en qué medida, lo cual sustenta la pertinencia de las variables elegidas para el análisis. La matriz de correlación revela que existe una relación positiva moderada entre el precio y el área construida, así como entre el número de habitaciones y baños. Estas relaciones son esperadas en el contexto inmobiliario y confirman la coherencia de las variables seleccionadas para el análisis multivariado.
El PCA se ejecutó sobre las 5 variables numéricas seleccionadas, estandarizando previamente los datos (scale.unit = TRUE) para asegurar que todas las variables contribuyan equitativamente al análisis, independientemente de sus unidades de medida.
# Ejecutar PCA
pca_resultado <- PCA(vivienda_numerica,
scale.unit = TRUE,
ncp = 5,
graph = FALSE)
# Obtener eigenvalues
eigenvalues <- get_eigenvalue(pca_resultado)
Como se observa en la Tabla 4.1, el primer componente principal (PC1) explica el 64.14% de la varianza total de los datos, mientras que el segundo componente (PC2) explica el 17.94%. Conjuntamente, los dos primeros componentes explican el 82.08% de la variabilidad total, lo que representa una reducción dimensional significativa.
| Valores Propios y Varianza Explicada | |||
| Componente | Valor Propio | Varianza (%) | Varianza Acumulada (%) |
|---|---|---|---|
| PC1 | 3.207 | 64.14% | 64.14% |
| PC2 | 0.897 | 17.94% | 82.08% |
| PC3 | 0.371 | 7.42% | 89.50% |
| PC4 | 0.333 | 6.66% | 96.16% |
| PC5 | 0.192 | 3.84% | 100.00% |
El gráfico de sedimentación (Figura 4.1) muestra visualmente cómo la varianza explicada decrece con cada componente adicional. Se observa un “codo” después del segundo componente, lo que sugiere que los primeros dos componentes capturan la mayor parte de la información relevante.
Figure 4.1: Gráfico de sedimentación mostrando la varianza explicada por cada componente principal
| Análisis de Contribución de Variables | ||||
| Variable | Contribución PC1 (%) | Contribución PC2 (%) | Coordenada PC1 | Coordenada PC2 |
|---|---|---|---|---|
| banios | 23.64 | 3.13 | 0.871 | 0.168 |
| areaconst | 23.18 | 0.29 | 0.862 | 0.051 |
| preciom | 22.55 | 14.73 | 0.850 | -0.364 |
| parqueaderos | 18.62 | 21.29 | 0.773 | -0.437 |
| habitaciones | 12.01 | 60.56 | 0.621 | 0.737 |
Como se observa en la Tabla 4.2,en el primer componente principal (PC1) los valores que mas aportan a este son bainos, areaconst y preciom, sumando entre estos un aproximado al 67%. Con respecto al segundo componente principal (PC2) tenemos que parqueaderos y habitaciones aportan un aproximado al 82%. esto nos sugiere que el PC1 representa principalemente el Tamaño y Capacidad de las propiedades.
Figure 4.2: Contribución de variables al primer componente principal (PC1)
Figure 4.3: Contribución de variables al segundo componente principal (PC2)
Las Figuras 4.2 y 4.3 visualizan las contribuciones de cada variable a PC1 y PC2 respectivamente. En PC2, la variable precio tiene la mayor contribución, lo que indica que este componente captura principalmente la dimensión económica del mercado inmobiliario.
Figure 4.4: Círculo de correlaciones mostrando las relaciones entre variables en el espacio de los dos primeros componentes principales
El círculo de correlaciones (Figura 4.4) permite visualizar las relaciones entre las variables en el espacio reducido de los dos primeros componentes principales. Variables que apuntan en la misma dirección están positivamente correlacionadas, mientras que variables en direcciones opuestas están negativamente correlacionadas. Para este dataset en especifico tenemos los siguientes resultados con las variables trabajadas:
Figure 4.5: Representación de las variables en el espacio de los dos primeros componentes principales
Continuando con el analisis de PCA tenemos el biplot (Figura 4.5) que presenta simultáneamente las observaciones (propiedades individuales) y las variables en el espacio de los dos primeros componentes principales. Este gráfico permite identificar:
| Significado de los Componentes Principales | |||
| Componente | Varianza | Interpretación | Variables Principales |
|---|---|---|---|
| PC1 | 64.14% | Tamaño y Capacidad de la Propiedad | banios, areaconst, preciom |
| PC2 | 17.94% | Valor Económico y Precio Relativo | parqueaderos, habitaciones |
El Análisis de Componentes Principales revela que el mercado inmobiliario urbano puede ser caracterizado principalmente por dos dimensiones:
El Análisis de Conglomerados es una técnica de aprendizaje no supervisado que agrupa observaciones similares en clusters o segmentos homogéneos. En el contexto inmobiliario, esta técnica permite identificar grupos de propiedades con características similares, facilitando la segmentación del mercado y la toma de decisiones estratégicas.
Previo a la aplicacion del algoritmo de clustering. se estandarizaron todas las variables para asegurar que aporten equitativamenete al calculo de distancias para el algoritmo.
Continuando con los pasos previos pasamos a la seleccion o la cantidad de cluster con la que vamos a trabajar, este paso es vital ya que nos ayuda a obtener una segmentación significativa del mercado logrando asi diferenciar los datos trabajados. Para esto se empleo el siguiente metodo:
El método del codo (Figura 5.1) evalúa la suma de cuadrados dentro de los clusters (WSS) para diferentes valores de k. Se observa un “codo” en k = 4, donde la reducción de WSS comienza a disminuir significativamente, sugiriendo que 4 clusters proporcionan un buen balance entre complejidad y calidad de agrupamiento.
Figure 5.1: Método del codo para determinar el número óptimo de clusters
Como se observa en la Tabla 5.1, el algoritmo K-means identificó 4 clusters con distribuciones que reflejan la estructura natural del mercado inmobiliario.
| Tamaño de los Clusters Identificados | ||
| Cluster | Propiedades | Porcentaje (%) |
|---|---|---|
| 1 | 2501 | 30.06% |
| 2 | 855 | 10.28% |
| 3 | 733 | 8.81% |
| 4 | 4230 | 50.85% |
| Perfil de los Segmentos de Mercado | |||||||
| Cluster | N | Precio Medio (M) | DE Precio | Área (m²) | Habitaciones | Baños | Parqueaderos |
|---|---|---|---|---|---|---|---|
| 4 | 4230 | 229.4 | 93.0 | 89.4 | 2.87 | 2.08 | 1.13 |
| 3 | 733 | 465.2 | 194.7 | 318.1 | 6.92 | 4.66 | 1.57 |
| 1 | 2501 | 526.1 | 192.8 | 193.4 | 3.62 | 3.71 | 1.99 |
| 2 | 855 | 1149.1 | 350.8 | 421.2 | 4.39 | 5.15 | 3.88 |
La Tabla 5.2 presenta las características promedio de cada cluster. Basándose en estos valores, se pueden interpretar los segmentos de la siguiente manera:
Figure 5.2: Visualización de los clusters en el espacio de los dos primeros componentes principales
Figure 5.3: Distribución de propiedades entre los diferentes clusters
Como se observa en la Figura 5.3, la distribución de viviendas entre los clusters muestra una segmentación clara del mercado inmobiliario. El Cluster 1 (rojo) agrupa las propiedades amplias con características adicionales, el Cluster 2 (azul) corresponde a viviendas premium, el Cluster 3 (verde) incluye Propiedades estandar con buena relacion Calidad y Precio, y el Cluster 4 (naranja) representa las viviendas de entrada con precio accesible.
Esta distribución revela que el mercado inmobiliario urbano presenta una estructura variada, con mayor concentración en los segmentos económico y medio-alto. La visualización en el espacio PCA (Figura 5.2) confirma esta segmentación al mostrar cuatro grupos diferenciados con mínima superposición entre ellos, lo que indica que las propiedades dentro de cada segmento comparten características homogéneas y existen diferencias sustanciales entre segmentos. Esta clara delimitación valida la efectividad del algoritmo K-means aplicado.
El Análisis de Correspondencia es una técnica estadística que permite explorar y visualizar las relaciones entre variables categóricas. En el contexto inmobiliario, esta técnica resulta especialmente útil para identificar patrones de asociación entre el tipo de vivienda, la zona geográfica y el estrato socioeconómico, revelando dinámicas específicas del mercado que no son evidentes mediante análisis univariados.Para el Análisis de Correspondencia se utilizaron las variables categóricas tipo de vivienda (Casa/Apartamento), zona geográfica y estrato socioeconómico de la base de datos imputada, que contiene 8319 registros con información completa.
| Distribución de Tipos de Vivienda por Zona | |||||
| Tipo | Zona Centro | Zona Norte | Zona Oeste | Zona Oriente | Zona Sur |
|---|---|---|---|---|---|
| Apartamento | 24 | 1198 | 1029 | 62 | 2787 |
| Casa | 100 | 722 | 169 | 289 | 1939 |
Como se observa en la Tabla 6.1, la distribución de viviendas se concentra principalmente en la zona sur y zona norte, tanto para casas como para apartamentos. Los resultados del test Chi-cuadrado presentados en la Tabla 6.2 revelan que existe una asociación estadísticamente significativa entre el tipo de vivienda y la zona geográfica, lo que indica que ciertas zonas presentan preferencias marcadas por un tipo específico de propiedad. Este hallazgo sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado inmobiliario.
| Prueba de Independencia | |
| Estadístico | Valor |
|---|---|
| Chi-cuadrado | 690.93 |
| Grados de libertad | 4 |
| p-valor | <2e-16 |
| Conclusión | Existe asociación significativa |
Como se observa en el gráfico 6.1, el Análisis de Correspondencia permite visualizar simultáneamente la relación entre las zonas geográficas y los estratos socioeconómicos en un espacio bidimensional. Las categorías que aparecen cercanas en el biplot presentan una fuerte asociación, mientras que aquellas distantes tienen poca o nula relación.
Figure 6.1: Biplot del Análisis de Correspondencia: Zona × Estrato
Los resultados de la Tabla 6.3 muestran que las dos primeras dimensiones del Análisis de Correspondencia explican el 97.65% de la inercia total (variabilidad), con la primera dimensión aportando el 69.97% y la segunda el 27.68%. Esta alta proporción de varianza explicada indica que el espacio bidimensional del biplot captura de manera efectiva las relaciones entre zonas y estratos, validando la representación gráfica y confirmando que existen patrones claros de segregación socioespacial en el mercado inmobiliario urbano.
| Inercia del Análisis de Correspondencia | |||
| Dimensión | Valor Propio | Varianza (%) | Varianza Acumulada (%) |
|---|---|---|---|
| Dim1 | 0.322 | 69.97% | 69.97% |
| Dim2 | 0.127 | 27.68% | 97.65% |
| Dim3 | 0.011 | 2.35% | 100.00% |
El análisis multivariado del mercado inmobiliario urbano ha demostrado ser una herramienta poderosa para comprender la estructura compleja del sector. La combinación de PCA, clustering y análisis de correspondencia proporciona una visión integral que abarca dimensiones físicas, económicas y geográficas del mercado.
Los hallazgos confirman que el mercado inmobiliario urbano no es homogéneo, sino que presenta una estructura segmentada tanto en términos de características de las propiedades como de su distribución espacial. Esta comprensión profunda permite a la empresa inmobiliaria tomar decisiones estratégicas informadas en materia de marketing, valoración e inversión.
El PCA reveló que el mercado inmobiliario puede ser caracterizado efectivamente mediante dos dimensiones principales que explican aproximadamente el 75-80% de la variabilidad total:
Primera dimensión (PC1): Representa el tamaño y capacidad de las propiedades, agrupando variables como área construida, número de habitaciones, baños y parqueaderos. Esta dimensión explica aproximadamente el 55-60% de la varianza, indicando que la amplitud física es el factor más determinante en la diferenciación de propiedades.
Segunda dimensión (PC2): Captura la dimensión económica del mercado, principalmente asociada al precio de venta. Esta dimensión explica aproximadamente el 20-25% de la varianza adicional, revelando que el valor económico constituye un factor independiente del tamaño físico.
Segmento Económico: Propiedades de entrada con precios accesibles y tamaños compactos, representando una porción importante del mercado orientada a compradores con presupuestos limitados.
Segmento Medio: Viviendas estándar con buena relación precio-calidad, constituyendo la oferta principal del mercado y el segmento con mayor volumen de transacciones.
Segmento Medio-Alto: Propiedades amplias con características adicionales y amenidades superiores, con presencia significativa en el mercado y orientadas a familias que buscan mayor confort.
Segmento Premium: Inmuebles de lujo con características excepcionales, representando un nicho especializado y exclusivo del mercado con menor volumen pero alto valor.
Asociación Zona-Estrato: Existe una segregación socioespacial significativa en la ciudad, con las zonas oeste y sur asociadas a estratos altos (5-6), mientras que las zonas Centro y Oriente se relacionan con estrato medio (3). Las dos primeras dimensiones del análisis explican el 97.65% de la inercia total, confirmando la solidez de estos patrones y evidenciando una estructura urbana claramente diferenciada.
Asociación Tipo-Zona: Se identificó que ciertas zonas geográficas presentan preferencias marcadas por tipos específicos de vivienda (casas vs apartamentos), con concentración principal en zonas norte y sur. Esta asociación estadísticamente significativa sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado.