1 Introducción y Contexto del Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

2 Metodología

2.1 Base de Datos

Con relación al problema planteado, se trabajará con una base de datos predominantemente numeríca que contiene información sobre propiedades inmobiliarias. Esta base incluye variables como zona geográfica, estrato, precio de venta, área construida, entre otras caracteristicas relevantes para el análisis del mercado inmobiliario.

Table 2.1: Estructura de la Base de Datos de Vivienda
Variable	Tipo de Dato	Muestra de Valores
Estructura de la Base de Datos de Vivienda
id	numeric	1147, 1169, 1350, 5992, 1212
zona	character	Zona Oriente, Zona Sur, Zona Norte
piso	character	NA, 02, 01
estrato	numeric	3, 3, 3, 4, 5
preciom	numeric	250, 320, 350, 400, 260
areaconst	numeric	70, 120, 220, 280, 90
parqueaderos	numeric	1, 1, 2, 3, 1
banios	numeric	3, 2, 2, 5, 2
habitaciones	numeric	6, 3, 4, 3, 3
tipo	character	Casa, Apartamento, NA
barrio	character	20 de julio, 3 de julio, acopi
longitud	numeric	-76.51168, -76.51237, -76.51537, -76.54, -76.5135
latitud	numeric	3.43382, 3.43369, 3.43566, 3.435, 3.45891

La estructura completa de la base de datos se presenta en la Tabla 2.1, Donde se detallan los tipos de datos y una muestra de los valores que esta contiene.

2.2 Técnicas Aplicadas

Análisis de Componentes Principales (PCA): Para reducir la dimensionalidad del conjunto de datos e identificar las variables que explican la mayor variabilidad en el mercado inmobiliario.
Análisis de Conglomerados (Clustering): Para segmentar las propiedades en grupos homogéneos según sus características similares.
Análisis de Correspondencia: Para examinar las relaciones entre variables categóricas como tipo de vivienda, zona geográfica y estrato socioeconómico.

3 Preparación de Datos

Para este apartado se realizará el trabajo de preparación de los datos con el objetivo de facilitar los diferentes procesos a realizar, teniendo en cuenta que ninguna de las técnicas multivariadas puede ejecutarse con datos faltantes sin un tratamiento previo.

3.1 Análisis valores Faltantes

Teniendo en cuenta lo anterior, se revisarán primeramente los datos faltantes y se verificará qué datos son útiles para el trabajo y cuáles pueden descartarse según su relevancia para el análisis.

Table 3.1: Valores Faltantes en la Base de Datos Original
Variable	Total Registros	NAs	% NA
Análisis de Valores Faltantes (NA)
piso	8322	2638	31.70%
parqueaderos	8322	1605	19.29%
id	8322	3	0.04%
zona	8322	3	0.04%
estrato	8322	3	0.04%
areaconst	8322	3	0.04%
banios	8322	3	0.04%
habitaciones	8322	3	0.04%
tipo	8322	3	0.04%
barrio	8322	3	0.04%
longitud	8322	3	0.04%
latitud	8322	3	0.04%
preciom	8322	2	0.02%

Como se observa en la Tabla 3.1, se presenta una cantidad considerable de datos faltantes en dos variables principalmente: piso y parqueaderos. Dado que la variable parqueaderos se considera de mayor importancia para el análisis inmobiliario que la variable piso, se realizará únicamente la imputación y tratamiento de esta variable. Por otra parte, las variables tipo y estrato presentan únicamente 3 valores faltantes cada una (0.04% del total), por lo que estos registros serán descartados del análisis debido a su mínima proporción.

3.2 Limpieza y Tratamiento

Como se mencionó anteriormente, además del tratamiento de valores faltantes, se seleccionarán las variables numéricas más relevantes para el Análisis de Componentes Principales (PCA). En este caso, se trabajará con las variables: preciom, areaconst, baños, habitaciones y parqueaderos. Estas variables fueron seleccionadas porque se relacionan directamente con los objetivos del análisis y presentan diferentes características clave que pueden ayudar a evaluar diversos aspectos al momento de tomar una decisión inmobiliaria, tales como el valor de mercado, el espacio disponible, la comodidad y las amenidades de la propiedad. Con esto en mente, se realizan los siguientes pasos para la preparación de los datos:

# Limpiar datos
vivienda_limpia <- vivienda %>% filter(!is.na(tipo) & !is.na(estrato))

# Imputar parqueaderos
vivienda_imputada <- vivienda_limpia %>% group_by(tipo, estrato) %>%
  mutate(parqueaderos = ifelse(is.na(parqueaderos), median(parqueaderos, na.rm = TRUE), 
                               parqueaderos)) %>% ungroup()

# Dataset numérico
vivienda_numerica <- vivienda_imputada %>% 
  select(preciom, areaconst, banios, habitaciones, parqueaderos) %>%
  na.omit()

Como se muestra en la Tabla 3.2, después de aplicar el proceso de limpieza, imputación y selección de variables, se obtiene un dataset final con información completa y de calidad para los análisis posteriores.

Table 3.2: Características del Dataset Final para Análisis
Métrica	Valor	Detalle
Dataset Procesado y Listo para Análisis
Registros originales	8,322	Todas las variables
Registros finales	8,319	preciom, areaconst, banios, habitaciones, parqueaderos
Variables seleccionadas	5	preciom, areaconst, banios, habitaciones, parqueaderos
Pérdida total	3	-
Datos conservados	99.96%	-

Para validar la selección de variables y comprender las relaciones entre ellas, se presenta la matriz de correlación de las variables numéricas seleccionadas. Esta matriz permite identificar qué variables están relacionadas entre sí y en qué medida, lo cual sustenta la pertinencia de las variables elegidas para el análisis. La matriz de correlación revela que existe una relación positiva moderada entre el precio y el área construida, así como entre el número de habitaciones y baños. Estas relaciones son esperadas en el contexto inmobiliario y confirman la coherencia de las variables seleccionadas para el análisis multivariado.

4 Análisis de Componentes Principales (PCA)

El PCA se ejecutó sobre las 5 variables numéricas seleccionadas, estandarizando previamente los datos (scale.unit = TRUE) para asegurar que todas las variables contribuyan equitativamente al análisis, independientemente de sus unidades de medida.

# Ejecutar PCA
pca_resultado <- PCA(vivienda_numerica,
                     scale.unit = TRUE,
                     ncp = 5,
                     graph = FALSE)

# Obtener eigenvalues
eigenvalues <- get_eigenvalue(pca_resultado)

Como se observa en la Tabla 4.1, el primer componente principal (PC1) explica el 64.14% de la varianza total de los datos, mientras que el segundo componente (PC2) explica el 17.94%. Conjuntamente, los dos primeros componentes explican el 82.08% de la variabilidad total, lo que representa una reducción dimensional significativa.

Table 4.1: Varianza Explicada por Componentes Principales
Componente	Valor Propio	Varianza (%)	Varianza Acumulada (%)
Valores Propios y Varianza Explicada
PC1	3.207	64.14%	64.14%
PC2	0.897	17.94%	82.08%
PC3	0.371	7.42%	89.50%
PC4	0.333	6.66%	96.16%
PC5	0.192	3.84%	100.00%

El gráfico de sedimentación (Figura 4.1) muestra visualmente cómo la varianza explicada decrece con cada componente adicional. Se observa un “codo” después del segundo componente, lo que sugiere que los primeros dos componentes capturan la mayor parte de la información relevante.

Figure 4.1: Gráfico de sedimentación mostrando la varianza explicada por cada componente principal

4.1 Contribucion de Variables PCA

Table 4.2: Contribución y Coordenadas de Variables en PC1 y PC2
Variable	Contribución PC1 (%)	Contribución PC2 (%)	Coordenada PC1	Coordenada PC2
Análisis de Contribución de Variables
banios	23.64	3.13	0.871	0.168
areaconst	23.18	0.29	0.862	0.051
preciom	22.55	14.73	0.850	-0.364
parqueaderos	18.62	21.29	0.773	-0.437
habitaciones	12.01	60.56	0.621	0.737

Como se observa en la Tabla 4.2,en el primer componente principal (PC1) los valores que mas aportan a este son bainos, areaconst y preciom, sumando entre estos un aproximado al 67%. Con respecto al segundo componente principal (PC2) tenemos que parqueaderos y habitaciones aportan un aproximado al 82%. esto nos sugiere que el PC1 representa principalemente el Tamaño y Capacidad de las propiedades.

Figure 4.2: Contribución de variables al primer componente principal (PC1)

Figure 4.3: Contribución de variables al segundo componente principal (PC2)

Las Figuras 4.2 y 4.3 visualizan las contribuciones de cada variable a PC1 y PC2 respectivamente. En PC2, la variable precio tiene la mayor contribución, lo que indica que este componente captura principalmente la dimensión económica del mercado inmobiliario.

4.2 Circulo Correlaciones

Figure 4.4: Círculo de correlaciones mostrando las relaciones entre variables en el espacio de los dos primeros componentes principales

El círculo de correlaciones (Figura 4.4) permite visualizar las relaciones entre las variables en el espacio reducido de los dos primeros componentes principales. Variables que apuntan en la misma dirección están positivamente correlacionadas, mientras que variables en direcciones opuestas están negativamente correlacionadas. Para este dataset en especifico tenemos los siguientes resultados con las variables trabajadas:

Área construida, habitaciones y baños están agrupadas, indicando alta correlación positiva entre sí
Precio forma un ángulo con las variables de tamaño, sugiriendo una relación positiva pero no perfecta
Parqueaderos muestra una dirección particular, indicando que aporta información complementaria

4.3 Biplot: Obseracion y Variables

Figure 4.5: Representación de las variables en el espacio de los dos primeros componentes principales

Continuando con el analisis de PCA tenemos el biplot (Figura 4.5) que presenta simultáneamente las observaciones (propiedades individuales) y las variables en el espacio de los dos primeros componentes principales. Este gráfico permite identificar:

Propiedades atípicas: Aquellas ubicadas en los extremos del gráfico
Grupos naturales: Concentraciones de propiedades con características similares
Relación entre propiedades y variables: Propiedades ubicadas en la dirección de una variable tienen valores altos en esa característica

4.4 Conclusiones del PCA

Table 4.3: Interpretación de los Componentes Principales
Componente	Varianza	Interpretación	Variables Principales
Significado de los Componentes Principales
PC1	64.14%	Tamaño y Capacidad de la Propiedad	banios, areaconst, preciom
PC2	17.94%	Valor Económico y Precio Relativo	parqueaderos, habitaciones

El Análisis de Componentes Principales revela que el mercado inmobiliario urbano puede ser caracterizado principalmente por dos dimensiones:

Dimensión física: Representada por PC1, agrupa variables relacionadas con el tamaño y capacidad de las propiedades
Dimensión económica: Representada por PC2, captura el aspecto del valor y precio de mercado

5 Análisis de Conglomerados

El Análisis de Conglomerados es una técnica de aprendizaje no supervisado que agrupa observaciones similares en clusters o segmentos homogéneos. En el contexto inmobiliario, esta técnica permite identificar grupos de propiedades con características similares, facilitando la segmentación del mercado y la toma de decisiones estratégicas.

5.1 Pasos previos

Previo a la aplicacion del algoritmo de clustering. se estandarizaron todas las variables para asegurar que aporten equitativamenete al calculo de distancias para el algoritmo.

Continuando con los pasos previos pasamos a la seleccion o la cantidad de cluster con la que vamos a trabajar, este paso es vital ya que nos ayuda a obtener una segmentación significativa del mercado logrando asi diferenciar los datos trabajados. Para esto se empleo el siguiente metodo:

5.1.1 Método del Codo

El método del codo (Figura 5.1) evalúa la suma de cuadrados dentro de los clusters (WSS) para diferentes valores de k. Se observa un “codo” en k = 4, donde la reducción de WSS comienza a disminuir significativamente, sugiriendo que 4 clusters proporcionan un buen balance entre complejidad y calidad de agrupamiento.

Figure 5.1: Método del codo para determinar el número óptimo de clusters

5.2 Aplicación K-means

Como se observa en la Tabla 5.1, el algoritmo K-means identificó 4 clusters con distribuciones que reflejan la estructura natural del mercado inmobiliario.

Table 5.1: Distribución de Propiedades por Cluster
Cluster	Propiedades	Porcentaje (%)
Tamaño de los Clusters Identificados
1	2501	30.06%
2	855	10.28%
3	733	8.81%
4	4230	50.85%

Table 5.2: Características Promedio de cada Cluster
Cluster	N	Precio Medio (M)	DE Precio	Área (m²)	Habitaciones	Baños	Parqueaderos
Perfil de los Segmentos de Mercado
4	4230	229.4	93.0	89.4	2.87	2.08	1.13
3	733	465.2	194.7	318.1	6.92	4.66	1.57
1	2501	526.1	192.8	193.4	3.62	3.71	1.99
2	855	1149.1	350.8	421.2	4.39	5.15	3.88

La Tabla 5.2 presenta las características promedio de cada cluster. Basándose en estos valores, se pueden interpretar los segmentos de la siguiente manera:

Precio < 300: Propiedades de Entrada con valores accesibles y tamaño compacto
Precio < 500: Propiedades estandar con buena relacion Calidad y Precio
Precio < 800: Propiedades amplias con caracteristicas adicionales
Precio > 800: Propiedades de lujo o premium

5.3 Visualizacion de Clusters

Figure 5.2: Visualización de los clusters en el espacio de los dos primeros componentes principales

Figure 5.3: Distribución de propiedades entre los diferentes clusters

Como se observa en la Figura 5.3, la distribución de viviendas entre los clusters muestra una segmentación clara del mercado inmobiliario. El Cluster 1 (rojo) agrupa las propiedades amplias con características adicionales, el Cluster 2 (azul) corresponde a viviendas premium, el Cluster 3 (verde) incluye Propiedades estandar con buena relacion Calidad y Precio, y el Cluster 4 (naranja) representa las viviendas de entrada con precio accesible.

Esta distribución revela que el mercado inmobiliario urbano presenta una estructura variada, con mayor concentración en los segmentos económico y medio-alto. La visualización en el espacio PCA (Figura 5.2) confirma esta segmentación al mostrar cuatro grupos diferenciados con mínima superposición entre ellos, lo que indica que las propiedades dentro de cada segmento comparten características homogéneas y existen diferencias sustanciales entre segmentos. Esta clara delimitación valida la efectividad del algoritmo K-means aplicado.

6 Análisis de Correspondencia

El Análisis de Correspondencia es una técnica estadística que permite explorar y visualizar las relaciones entre variables categóricas. En el contexto inmobiliario, esta técnica resulta especialmente útil para identificar patrones de asociación entre el tipo de vivienda, la zona geográfica y el estrato socioeconómico, revelando dinámicas específicas del mercado que no son evidentes mediante análisis univariados.Para el Análisis de Correspondencia se utilizaron las variables categóricas tipo de vivienda (Casa/Apartamento), zona geográfica y estrato socioeconómico de la base de datos imputada, que contiene 8319 registros con información completa.

6.1 Análisis Tipo de vivienda vs Zona

Table 6.1: Tabla de Contingencia: Tipo de Vivienda × Zona Geográfica
Tipo	Zona Centro	Zona Norte	Zona Oeste	Zona Oriente	Zona Sur
Distribución de Tipos de Vivienda por Zona
Apartamento	24	1198	1029	62	2787
Casa	100	722	169	289	1939

Como se observa en la Tabla 6.1, la distribución de viviendas se concentra principalmente en la zona sur y zona norte, tanto para casas como para apartamentos. Los resultados del test Chi-cuadrado presentados en la Tabla 6.2 revelan que existe una asociación estadísticamente significativa entre el tipo de vivienda y la zona geográfica, lo que indica que ciertas zonas presentan preferencias marcadas por un tipo específico de propiedad. Este hallazgo sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado inmobiliario.

6.1.1 Test de Independencia Chi-cuadrado

Table 6.2: Test Chi-cuadrado: Tipo × Zona
Estadístico	Valor
Prueba de Independencia
Chi-cuadrado	690.93
Grados de libertad	4
p-valor	<2e-16
Conclusión	Existe asociación significativa

6.2 Análisis de Correspondencia Simple (CA)

Como se observa en el gráfico 6.1, el Análisis de Correspondencia permite visualizar simultáneamente la relación entre las zonas geográficas y los estratos socioeconómicos en un espacio bidimensional. Las categorías que aparecen cercanas en el biplot presentan una fuerte asociación, mientras que aquellas distantes tienen poca o nula relación.

Figure 6.1: Biplot del Análisis de Correspondencia: Zona × Estrato

Los resultados de la Tabla 6.3 muestran que las dos primeras dimensiones del Análisis de Correspondencia explican el 97.65% de la inercia total (variabilidad), con la primera dimensión aportando el 69.97% y la segunda el 27.68%. Esta alta proporción de varianza explicada indica que el espacio bidimensional del biplot captura de manera efectiva las relaciones entre zonas y estratos, validando la representación gráfica y confirmando que existen patrones claros de segregación socioespacial en el mercado inmobiliario urbano.

Table 6.3: Varianza Explicada por Dimensiones del CA
Dimensión	Valor Propio	Varianza (%)	Varianza Acumulada (%)
Inercia del Análisis de Correspondencia
Dim1	0.322	69.97%	69.97%
Dim2	0.127	27.68%	97.65%
Dim3	0.011	2.35%	100.00%

7 Conclusiones

El análisis multivariado del mercado inmobiliario urbano ha demostrado ser una herramienta poderosa para comprender la estructura compleja del sector. La combinación de PCA, clustering y análisis de correspondencia proporciona una visión integral que abarca dimensiones físicas, económicas y geográficas del mercado.

Los hallazgos confirman que el mercado inmobiliario urbano no es homogéneo, sino que presenta una estructura segmentada tanto en términos de características de las propiedades como de su distribución espacial. Esta comprensión profunda permite a la empresa inmobiliaria tomar decisiones estratégicas informadas en materia de marketing, valoración e inversión.

7.1 Análisis de Componentes Principales (PCA)

El PCA reveló que el mercado inmobiliario puede ser caracterizado efectivamente mediante dos dimensiones principales que explican aproximadamente el 75-80% de la variabilidad total:

Primera dimensión (PC1): Representa el tamaño y capacidad de las propiedades, agrupando variables como área construida, número de habitaciones, baños y parqueaderos. Esta dimensión explica aproximadamente el 55-60% de la varianza, indicando que la amplitud física es el factor más determinante en la diferenciación de propiedades.
Segunda dimensión (PC2): Captura la dimensión económica del mercado, principalmente asociada al precio de venta. Esta dimensión explica aproximadamente el 20-25% de la varianza adicional, revelando que el valor económico constituye un factor independiente del tamaño físico.

7.2 Análisis de Conglomerados (Clustering)

Segmento Económico: Propiedades de entrada con precios accesibles y tamaños compactos, representando una porción importante del mercado orientada a compradores con presupuestos limitados.
Segmento Medio: Viviendas estándar con buena relación precio-calidad, constituyendo la oferta principal del mercado y el segmento con mayor volumen de transacciones.
Segmento Medio-Alto: Propiedades amplias con características adicionales y amenidades superiores, con presencia significativa en el mercado y orientadas a familias que buscan mayor confort.
Segmento Premium: Inmuebles de lujo con características excepcionales, representando un nicho especializado y exclusivo del mercado con menor volumen pero alto valor.

7.3 Análisis de Correspondencia

Asociación Zona-Estrato: Existe una segregación socioespacial significativa en la ciudad, con las zonas oeste y sur asociadas a estratos altos (5-6), mientras que las zonas Centro y Oriente se relacionan con estrato medio (3). Las dos primeras dimensiones del análisis explican el 97.65% de la inercia total, confirmando la solidez de estos patrones y evidenciando una estructura urbana claramente diferenciada.
Asociación Tipo-Zona: Se identificó que ciertas zonas geográficas presentan preferencias marcadas por tipos específicos de vivienda (casas vs apartamentos), con concentración principal en zonas norte y sur. Esta asociación estadísticamente significativa sugiere que las estrategias de comercialización deben adaptarse según las características zonales del mercado.

Evaluacion de la oferta Inmobiliaria Urbana

Juan Pablo Trochez

2026-02-15