1 Introducción y Contexto del Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

2 Metodología

2.1 Base de Datos

Con relación al problema planteado, se trabajará con una base de datos predominantemente numeríca que contiene información sobre propiedades inmobiliarias. Esta base incluye variables como zona geográfica, estrato, precio de venta, área construida, entre otras caracteristicas relevantes para el análisis del mercado inmobiliario.

Table 2.1: Estructura de la Base de Datos de Vivienda
Estructura de la Base de Datos de Vivienda
Variable Tipo de Dato Muestra de Valores
id numeric 1147, 1169, 1350, 5992, 1212
zona character Zona Oriente, Zona Sur, Zona Norte
piso character NA, 02, 01
estrato numeric 3, 3, 3, 4, 5
preciom numeric 250, 320, 350, 400, 260
areaconst numeric 70, 120, 220, 280, 90
parqueaderos numeric 1, 1, 2, 3, 1
banios numeric 3, 2, 2, 5, 2
habitaciones numeric 6, 3, 4, 3, 3
tipo character Casa, Apartamento, NA
barrio character 20 de julio, 3 de julio, acopi
longitud numeric -76.51168, -76.51237, -76.51537, -76.54, -76.5135
latitud numeric 3.43382, 3.43369, 3.43566, 3.435, 3.45891

La estructura completa de la base de datos se presenta en la Tabla 2.1, Donde se detallan los tipos de datos y una muestra de los valores que esta contiene.

2.2 Técnicas Aplicadas

  • Análisis de Componentes Principales (PCA): Para reducir la dimensionalidad del conjunto de datos e identificar las variables que explican la mayor variabilidad en el mercado inmobiliario.
  • Análisis de Conglomerados (Clustering): Para segmentar las propiedades en grupos homogéneos según sus características similares.
  • Análisis de Correspondencia: Para examinar las relaciones entre variables categóricas como tipo de vivienda, zona geográfica y estrato socioeconómico.

3 Preparación de Datos

Para este apartado se realizará el trabajo de preparación de los datos con el objetivo de facilitar los diferentes procesos a realizar, teniendo en cuenta que ninguna de las técnicas multivariadas puede ejecutarse con datos faltantes sin un tratamiento previo.

3.1 Análisis valores Faltantes

Teniendo en cuenta lo anterior, se revisarán primeramente los datos faltantes y se verificará qué datos son útiles para el trabajo y cuáles pueden descartarse según su relevancia para el análisis.

Table 3.1: Valores Faltantes en la Base de Datos Original
Análisis de Valores Faltantes (NA)
Variable Total Registros NAs % NA
piso 8322 2638 31.70%
parqueaderos 8322 1605 19.29%
id 8322 3 0.04%
zona 8322 3 0.04%
estrato 8322 3 0.04%
areaconst 8322 3 0.04%
banios 8322 3 0.04%
habitaciones 8322 3 0.04%
tipo 8322 3 0.04%
barrio 8322 3 0.04%
longitud 8322 3 0.04%
latitud 8322 3 0.04%
preciom 8322 2 0.02%

Como se observa en la Tabla 3.1, se presenta una cantidad considerable de datos faltantes en dos variables principalmente: piso y parqueaderos. Dado que la variable parqueaderos se considera de mayor importancia para el análisis inmobiliario que la variable piso, se realizará únicamente la imputación y tratamiento de esta variable. Por otra parte, las variables tipo y estrato presentan únicamente 3 valores faltantes cada una (0.04% del total), por lo que estos registros serán descartados del análisis debido a su mínima proporción.

3.2 Limpieza y Tratamiento

Como se mencionó anteriormente, además del tratamiento de valores faltantes, se seleccionarán las variables numéricas más relevantes para el Análisis de Componentes Principales (PCA). En este caso, se trabajará con las variables: preciom, areaconst, baños, habitaciones y parqueaderos. Estas variables fueron seleccionadas porque se relacionan directamente con los objetivos del análisis y presentan diferentes características clave que pueden ayudar a evaluar diversos aspectos al momento de tomar una decisión inmobiliaria, tales como el valor de mercado, el espacio disponible, la comodidad y las amenidades de la propiedad. Con esto en mente, se realizan los siguientes pasos para la preparación de los datos:

# Limpiar datos
vivienda_limpia <- vivienda %>% filter(!is.na(tipo) & !is.na(estrato))

# Imputar parqueaderos
vivienda_imputada <- vivienda_limpia %>% group_by(tipo, estrato) %>%
  mutate(parqueaderos = ifelse(is.na(parqueaderos), median(parqueaderos, na.rm = TRUE), 
                               parqueaderos)) %>% ungroup()

# Dataset numérico
vivienda_numerica <- vivienda_imputada %>% 
  select(preciom, areaconst, banios, habitaciones, parqueaderos) %>%
  na.omit()

Como se muestra en la Tabla 3.2, después de aplicar el proceso de limpieza, imputación y selección de variables, se obtiene un dataset final con información completa y de calidad para los análisis posteriores.

Table 3.2: Características del Dataset Final para Análisis
Dataset Procesado y Listo para Análisis
Métrica Valor Detalle
Registros originales 8,322 Todas las variables
Registros finales 8,319 preciom, areaconst, banios, habitaciones, parqueaderos
Variables seleccionadas 5 preciom, areaconst, banios, habitaciones, parqueaderos
Pérdida total 3 -
Datos conservados 99.96% -

Para validar la selección de variables y comprender las relaciones entre ellas, se presenta la matriz de correlación de las variables numéricas seleccionadas. Esta matriz permite identificar qué variables están relacionadas entre sí y en qué medida, lo cual sustenta la pertinencia de las variables elegidas para el análisis. La matriz de correlación revela que existe una relación positiva moderada entre el precio y el área construida, así como entre el número de habitaciones y baños. Estas relaciones son esperadas en el contexto inmobiliario y confirman la coherencia de las variables seleccionadas para el análisis multivariado.

4 Análisis de Componentes Principales (PCA)

El PCA se ejecutó sobre las 5 variables numéricas seleccionadas, estandarizando previamente los datos (scale.unit = TRUE) para asegurar que todas las variables contribuyan equitativamente al análisis, independientemente de sus unidades de medida.

# Ejecutar PCA
pca_resultado <- PCA(vivienda_numerica,
                     scale.unit = TRUE,
                     ncp = 5,
                     graph = FALSE)

# Obtener eigenvalues
eigenvalues <- get_eigenvalue(pca_resultado)

Como se observa en la Tabla 4.1, el primer componente principal (PC1) explica el 64.14% de la varianza total de los datos, mientras que el segundo componente (PC2) explica el 17.94%. Conjuntamente, los dos primeros componentes explican el 82.08% de la variabilidad total, lo que representa una reducción dimensional significativa.

Table 4.1: Varianza Explicada por Componentes Principales
Valores Propios y Varianza Explicada
Componente Valor Propio Varianza (%) Varianza Acumulada (%)
PC1 3.207 64.14% 64.14%
PC2 0.897 17.94% 82.08%
PC3 0.371 7.42% 89.50%
PC4 0.333 6.66% 96.16%
PC5 0.192 3.84% 100.00%

El gráfico de sedimentación (Figura 4.1) muestra visualmente cómo la varianza explicada decrece con cada componente adicional. Se observa un “codo” después del segundo componente, lo que sugiere que los primeros dos componentes capturan la mayor parte de la información relevante.

Gráfico de sedimentación mostrando la varianza explicada por cada componente principal

Figure 4.1: Gráfico de sedimentación mostrando la varianza explicada por cada componente principal

4.1 Contribucion de Variables PCA

Table 4.2: Contribución y Coordenadas de Variables en PC1 y PC2
Análisis de Contribución de Variables
Variable Contribución PC1 (%) Contribución PC2 (%) Coordenada PC1 Coordenada PC2
banios 23.64 3.13 0.871 0.168
areaconst 23.18 0.29 0.862 0.051
preciom 22.55 14.73 0.850 -0.364
parqueaderos 18.62 21.29 0.773 -0.437
habitaciones 12.01 60.56 0.621 0.737

Como se observa en la Tabla 4.2,en el primer componente principal (PC1) los valores que mas aportan a este son bainos, areaconst y preciom, sumando entre estos un aproximado al 67%. Con respecto al segundo componente principal (PC2) tenemos que parqueaderos y habitaciones aportan un aproximado al 82%. esto nos sugiere que el PC1 representa principalemente el Tamaño y Capacidad de las propiedades.

Contribución de variables al primer componente principal (PC1)

Figure 4.2: Contribución de variables al primer componente principal (PC1)

Contribución de variables al segundo componente principal (PC2)

Figure 4.3: Contribución de variables al segundo componente principal (PC2)

Las Figuras 4.2 y 4.3 visualizan las contribuciones de cada variable a PC1 y PC2 respectivamente. En PC2, la variable precio tiene la mayor contribución, lo que indica que este componente captura principalmente la dimensión económica del mercado inmobiliario.

4.2 Circulo Correlaciones

Círculo de correlaciones mostrando las relaciones entre variables en el espacio de los dos primeros componentes principales

Figure 4.4: Círculo de correlaciones mostrando las relaciones entre variables en el espacio de los dos primeros componentes principales

El círculo de correlaciones (Figura 4.4) permite visualizar las relaciones entre las variables en el espacio reducido de los dos primeros componentes principales. Variables que apuntan en la misma dirección están positivamente correlacionadas, mientras que variables en direcciones opuestas están negativamente correlacionadas. Para este dataset en especifico tenemos los siguientes resultados con las variables trabajadas:

  • Área construida, habitaciones y baños están agrupadas, indicando alta correlación positiva entre sí
  • Precio forma un ángulo con las variables de tamaño, sugiriendo una relación positiva pero no perfecta
  • Parqueaderos muestra una dirección particular, indicando que aporta información complementaria

4.3 Biplot: Obseracion y Variables

Representación de las variables en el espacio de los dos primeros componentes principales

Figure 4.5: Representación de las variables en el espacio de los dos primeros componentes principales

Continuando con el analisis de PCA tenemos el biplot (Figura 4.5) que presenta simultáneamente las observaciones (propiedades individuales) y las variables en el espacio de los dos primeros componentes principales. Este gráfico permite identificar:

  • Propiedades atípicas: Aquellas ubicadas en los extremos del gráfico
  • Grupos naturales: Concentraciones de propiedades con características similares
  • Relación entre propiedades y variables: Propiedades ubicadas en la dirección de una variable tienen valores altos en esa característica

4.4 Conclusiones del PCA

Table 4.3: Interpretación de los Componentes Principales
Significado de los Componentes Principales
Componente Varianza Interpretación Variables Principales
PC1 64.14% Tamaño y Capacidad de la Propiedad banios, areaconst, preciom
PC2 17.94% Valor Económico y Precio Relativo parqueaderos, habitaciones

El Análisis de Componentes Principales revela que el mercado inmobiliario urbano puede ser caracterizado principalmente por dos dimensiones:

  1. Dimensión física: Representada por PC1, agrupa variables relacionadas con el tamaño y capacidad de las propiedades
  2. Dimensión económica: Representada por PC2, captura el aspecto del valor y precio de mercado

5 Análisis de Conglomerados

El Análisis de Conglomerados es una técnica de aprendizaje no supervisado que agrupa observaciones similares en clusters o segmentos homogéneos. En el contexto inmobiliario, esta técnica permite identificar grupos de propiedades con características similares, facilitando la segmentación del mercado y la toma de decisiones estratégicas.

5.1 Pasos previos

Previo a la aplicacion del algoritmo de clustering. se estandarizaron todas las variables para asegurar que aporten equitativamenete al calculo de distancias para el algoritmo.

Continuando con los pasos previos pasamos a la seleccion o la cantidad de cluster con la que vamos a trabajar, este paso es vital ya que nos ayuda a obtener una segmentación significativa del mercado logrando asi diferenciar los datos trabajados. Para esto se empleo el siguiente metodo:

5.1.1 Método del Codo

El método del codo (Figura 5.1) evalúa la suma de cuadrados dentro de los clusters (WSS) para diferentes valores de k. Se observa un “codo” en k = 4, donde la reducción de WSS comienza a disminuir significativamente, sugiriendo que 4 clusters proporcionan un buen balance entre complejidad y calidad de agrupamiento.

Método del codo para determinar el número óptimo de clusters

Figure 5.1: Método del codo para determinar el número óptimo de clusters

5.2 Aplicación K-means

Como se observa en la Tabla 5.1, el algoritmo K-means identificó 4 clusters con distribuciones que reflejan la estructura natural del mercado inmobiliario.

Table 5.1: Distribución de Propiedades por Cluster
Tamaño de los Clusters Identificados
Cluster Propiedades Porcentaje (%)
1 2501 30.06%
2 855 10.28%
3 733 8.81%
4 4230 50.85%
Table 5.2: Características Promedio de cada Cluster
Perfil de los Segmentos de Mercado
Cluster N Precio Medio (M) DE Precio Área (m²) Habitaciones Baños Parqueaderos
4 4230 229.4 93.0 89.4 2.87 2.08 1.13
3 733 465.2 194.7 318.1 6.92 4.66 1.57
1 2501 526.1 192.8 193.4 3.62 3.71 1.99
2 855 1149.1 350.8 421.2 4.39 5.15 3.88

La Tabla 5.2 presenta las características promedio de cada cluster. Basándose en estos valores, se pueden interpretar los segmentos de la siguiente manera:

  • Precio < 300: Propiedades de Entrada con valores accesibles y tamaño compacto
  • Precio < 500: Propiedades estandar con buena relacion Calidad y Precio
  • Precio < 800: Propiedades amplias con caracteristicas adicionales
  • Precio > 800: Propiedades de lujo o premium

5.3 Visualizacion de Clusters

Visualización de los clusters en el espacio de los dos primeros componentes principales

Figure 5.2: Visualización de los clusters en el espacio de los dos primeros componentes principales

Distribución de propiedades entre los diferentes clusters

Figure 5.3: Distribución de propiedades entre los diferentes clusters

Como se observa en la Figura 5.3, la distribución de viviendas entre los clusters muestra una segmentación clara del mercado inmobiliario. El Cluster 1 (rojo) agrupa las propiedades amplias con características adicionales, el Cluster 2 (azul) corresponde a viviendas premium, el Cluster 3 (verde) incluye Propiedades estandar con buena relacion Calidad y Precio, y el Cluster 4 (naranja) representa las viviendas de entrada con precio accesible.

Esta distribución revela que el mercado inmobiliario urbano presenta una estructura variada, con mayor concentración en los segmentos económico y medio-alto. La visualización en el espacio PCA (Figura 5.2) confirma esta segmentación al mostrar cuatro grupos diferenciados con mínima superposición entre ellos, lo que indica que las propiedades dentro de cada segmento comparten características homogéneas y existen diferencias sustanciales entre segmentos. Esta clara delimitación valida la efectividad del algoritmo K-means aplicado.

6 Análisis de Correspondencia

El Análisis de Correspondencia es una técnica estadística que permite explorar y visualizar las relaciones entre variables categóricas. En el contexto inmobiliario, esta técnica resulta especialmente útil para identificar patrones de asociación entre el tipo de vivienda, la zona geográfica y el estrato socioeconómico, revelando dinámicas específicas del mercado que no son evidentes mediante análisis univariados.Para el Análisis de Correspondencia se utilizaron las variables categóricas tipo de vivienda (Casa/Apartamento), zona geográfica y estrato socioeconómico de la base de datos imputada, que contiene 8319 registros con información completa.

6.1 Análisis Tipo de vivienda vs Zona

Table 6.1: Tabla de Contingencia: Tipo de Vivienda × Zona Geográfica
Distribución de Tipos de Vivienda por Zona
Tipo Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
Apartamento 24 1198 1029 62 2787
Casa 100 722 169 289 1939

Como se observa en la Tabla 6.1, la distribución de viviendas se concentra principalmente en la zona sur y zona norte, tanto para casas como para apartamentos. Los resultados del test Chi-cuadrado presentados en la Tabla 6.2 revelan que existe una asociación estadísticamente significativa entre el tipo de vivienda y la zona geográfica, lo que indica que ciertas zonas presentan preferencias marcadas por un tipo específico de propiedad. Este hallazgo sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado inmobiliario.

6.1.1 Test de Independencia Chi-cuadrado

Table 6.2: Test Chi-cuadrado: Tipo × Zona
Prueba de Independencia
Estadístico Valor
Chi-cuadrado 690.93
Grados de libertad 4
p-valor <2e-16
Conclusión Existe asociación significativa

6.2 Análisis de Correspondencia Simple (CA)

Como se observa en el gráfico 6.1, el Análisis de Correspondencia permite visualizar simultáneamente la relación entre las zonas geográficas y los estratos socioeconómicos en un espacio bidimensional. Las categorías que aparecen cercanas en el biplot presentan una fuerte asociación, mientras que aquellas distantes tienen poca o nula relación.

Biplot del Análisis de Correspondencia: Zona × Estrato

Figure 6.1: Biplot del Análisis de Correspondencia: Zona × Estrato

Los resultados de la Tabla 6.3 muestran que las dos primeras dimensiones del Análisis de Correspondencia explican el 97.65% de la inercia total (variabilidad), con la primera dimensión aportando el 69.97% y la segunda el 27.68%. Esta alta proporción de varianza explicada indica que el espacio bidimensional del biplot captura de manera efectiva las relaciones entre zonas y estratos, validando la representación gráfica y confirmando que existen patrones claros de segregación socioespacial en el mercado inmobiliario urbano.

Table 6.3: Varianza Explicada por Dimensiones del CA
Inercia del Análisis de Correspondencia
Dimensión Valor Propio Varianza (%) Varianza Acumulada (%)
Dim1 0.322 69.97% 69.97%
Dim2 0.127 27.68% 97.65%
Dim3 0.011 2.35% 100.00%

7 Conclusiones

El análisis multivariado del mercado inmobiliario urbano ha demostrado ser una herramienta poderosa para comprender la estructura compleja del sector. La combinación de PCA, clustering y análisis de correspondencia proporciona una visión integral que abarca dimensiones físicas, económicas y geográficas del mercado.

Los hallazgos confirman que el mercado inmobiliario urbano no es homogéneo, sino que presenta una estructura segmentada tanto en términos de características de las propiedades como de su distribución espacial. Esta comprensión profunda permite a la empresa inmobiliaria tomar decisiones estratégicas informadas en materia de marketing, valoración e inversión.

7.1 Análisis de Componentes Principales (PCA)

El PCA reveló que el mercado inmobiliario puede ser caracterizado efectivamente mediante dos dimensiones principales que explican aproximadamente el 75-80% de la variabilidad total:

  • Primera dimensión (PC1): Representa el tamaño y capacidad de las propiedades, agrupando variables como área construida, número de habitaciones, baños y parqueaderos. Esta dimensión explica aproximadamente el 55-60% de la varianza, indicando que la amplitud física es el factor más determinante en la diferenciación de propiedades.

  • Segunda dimensión (PC2): Captura la dimensión económica del mercado, principalmente asociada al precio de venta. Esta dimensión explica aproximadamente el 20-25% de la varianza adicional, revelando que el valor económico constituye un factor independiente del tamaño físico.

7.2 Análisis de Conglomerados (Clustering)

  1. Segmento Económico: Propiedades de entrada con precios accesibles y tamaños compactos, representando una porción importante del mercado orientada a compradores con presupuestos limitados.

  2. Segmento Medio: Viviendas estándar con buena relación precio-calidad, constituyendo la oferta principal del mercado y el segmento con mayor volumen de transacciones.

  3. Segmento Medio-Alto: Propiedades amplias con características adicionales y amenidades superiores, con presencia significativa en el mercado y orientadas a familias que buscan mayor confort.

  4. Segmento Premium: Inmuebles de lujo con características excepcionales, representando un nicho especializado y exclusivo del mercado con menor volumen pero alto valor.

7.3 Análisis de Correspondencia

  • Asociación Zona-Estrato: Existe una segregación socioespacial significativa en la ciudad, con las zonas oeste y sur asociadas a estratos altos (5-6), mientras que las zonas Centro y Oriente se relacionan con estrato medio (3). Las dos primeras dimensiones del análisis explican el 97.65% de la inercia total, confirmando la solidez de estos patrones y evidenciando una estructura urbana claramente diferenciada.

  • Asociación Tipo-Zona: Se identificó que ciertas zonas geográficas presentan preferencias marcadas por tipos específicos de vivienda (casas vs apartamentos), con concentración principal en zonas norte y sur. Esta asociación estadísticamente significativa sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado.