1 PROBLEMA, DESCRIPCIÓN Y OBJETIVOS

1.1 Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

1.2 Descripción

El siguiente informe presenta un análisis multivariado del mercado inmobiliario urbano a partir de una base de datos real de viviendas ofertadas en la ciudad. Mediante la aplicación de técnicas como Análisis de Componentes Principales, Análisis de Conglomerados y Análisis de Correspondencias, se busca identificar patrones estructurales, segmentaciones relevantes y relaciones entre variables que permitan generar recomendaciones estratégicas para la toma de decisiones en el sector inmobiliario.

1.3 Objetivo general

Realizar un análisis multivariado del mercado inmobiliario urbano para identificar patrones, segmentaciones y relaciones relevantes que apoyen la toma de decisiones estratégicas.

1.4 Objetivos específicos

Reducir la dimensionalidad del conjunto de datos mediante Análisis de Componentes Principales.
Identificar grupos homogéneos de propiedades a través de Análisis de Conglomerados.
Analizar la relación entre variables categóricas mediante Análisis de Correspondencias.
Generar recomendaciones estratégicas basadas en los resultados obtenidos.

2 BASE DE DATOS Y PREPARACIÓN

2.1 Carga de datos

La base de datos utilizada corresponde a información real de viviendas urbanas obtenida mediante técnicas de web scraping. Contiene información estructural, socioeconómica y geográfica de 8.322 propiedades. Se procede a cargar la base de datos vivienda, contenida en el paquete paqueteMODELOS. Posteriormente, se verifica su estructura, dimensiones y primeras observaciones para comprender su composición inicial.

Con el fin de comprender la naturaleza de la información contenida en la base de datos, se presenta una clasificación de las variables según su tipo y naturaleza (numérica o categórica), lo cual permitirá seleccionar adecuadamente las técnicas multivariadas a aplicar.

Clasificación de variables según su naturaleza
	Variable	Tipo_R	Clasificacion
id	id	numeric	Numérica
zona	zona	character	Categórica
piso	piso	character	Categórica
estrato	estrato	numeric	Numérica
preciom	preciom	numeric	Numérica
areaconst	areaconst	numeric	Numérica
parqueaderos	parqueaderos	numeric	Numérica
banios	banios	numeric	Numérica
habitaciones	habitaciones	numeric	Numérica
tipo	tipo	character	Categórica
barrio	barrio	character	Categórica
longitud	longitud	numeric	Numérica
latitud	latitud	numeric	Numérica

2.2 EDA

La base de datos contiene 8322 registros.

Resumen estadístico de variables numéricas
Variable	Media	SD	Min	Max
id	4160.00	2401.63	1.00	8319.00
estrato	4.63	1.03	3.00	6.00
preciom	433.89	328.65	58.00	1999.00
areaconst	174.93	142.96	30.00	1745.00
parqueaderos	1.84	1.12	1.00	10.00
banios	3.11	1.43	0.00	10.00
habitaciones	3.61	1.46	0.00	10.00
longitud	-76.53	0.02	-76.59	-76.46
latitud	3.42	0.04	3.33	3.50

Se realiza una exploración descriptiva inicial con el fin de comprender la distribución de las variables, detectar posibles patrones preliminares y evaluar la pertinencia de aplicar técnicas multivariadas.

La distribución del precio presenta asimetría positiva, lo que indica la existencia de propiedades de alto valor que generan una cola hacia la derecha. Esto evidencia la heterogeneidad del mercado inmobiliario urbano.

Se observa una relación positiva entre el área construida y el precio, lo cual sugiere que el tamaño físico de la vivienda es un determinante importante en la valoración del mercado.

La matriz de correlación evidencia asociaciones relevantes entre área construida, número de habitaciones y número de baños. Estas relaciones indican redundancia informativa entre variables estructurales, lo cual justifica la aplicación del Análisis de Componentes Principales para reducir dimensionalidad.

Outliers

-Los diagramas de caja evidencian la presencia de valores extremos en variables como precio y área construida, lo cual es consistente con la heterogeneidad natural del mercado inmobiliario.

Varbiables categóricas

Importante: Aunque las variables categóricas no deben ser analizadas para PCA pues se van a trabajar solo las numéricas, se va a dar un breve contexto de ellas.

Se realiza una revisión descriptiva de las variables categóricas con el fin de identificar la distribución de frecuencias y posibles concentraciones en determinadas categorías.

Distribución de viviendas por zona
Var1	Freq
Zona Centro	124
Zona Norte	1920
Zona Oeste	1198
Zona Oriente	351
Zona Sur	4726

Distribución por tipo de vivienda
Var1	Freq
Apartamento	5100
Casa	3219

Distribución por estrato socioeconómico
Var1	Freq
3	1453
4	2129
5	2750
6	1987

La distribución por zona evidencia concentración de oferta en determinados sectores de la ciudad.
En cuanto al tipo de vivienda, se observa predominancia de [casas/apartamentos], lo cual sugiere la orientación estructural del mercado.
La variable estrato muestra presencia significativa en niveles medios y altos, lo cual puede influir en la segmentación posterior.

2.3 Limpieza e imputación de datos

Con el fin de preparar la base de datos para la aplicación de técnicas multivariadas, se realizaron ajustes mínimos siguiendo los lineamientos metodológicos establecidos en clase.

Es importante destacar que no se efectuaron procesos de depuración avanzada ni agrupaciones previas, dado que el objetivo del ejercicio es analizar la estructura original del mercado inmobiliario.

Importante: No se realizaron agrupaciones previas por zona, barrio o estrato, ya que dichas transformaciones modificarían la estructura individual de los registros. Las técnicas multivariadas aplicadas (PCA, Clustering y Análisis de Correspondencias) requieren trabajar sobre observaciones individuales para identificar patrones estructurales y segmentaciones naturales en el mercado. Agrupar los datos podría eliminar variabilidad relevante y afectar la interpretación de los resultado

2.3.1 Imputación de parqueaderos con 0

## [1] 1605

Antes de la imputación, la variable parqueaderos presenta 1605 valores faltantes.

## [1] 0

Después de la imputación, la variable parqueaderos presenta 0 valores faltantes.

-Se imputaron los valores faltantes en la variable parqueaderos con el valor 0, bajo el supuesto de que la ausencia de registro corresponde a propiedades que no disponen de parqueadero.

-Esta decisión permite conservar la totalidad de las observaciones sin introducir distorsiones significativas en el análisis, dado que el número de parqueaderos es una variable estructural discreta cuya ausencia puede interpretarse como inexistencia del atributo.

2.3.2 Eliminación de variables categóricas para PCA

La base de datos incluye las variables piso y barrio, ambas de naturaleza categórica.

Variables iniciales del conjunto de datos
Variables
id
zona
piso
estrato
preciom
areaconst
parqueaderos
banios
habitaciones
tipo
barrio
longitud
latitud

Inicialmente la base contenía 13 variables.

Variables presentes en la base de datos después de la depuración
Variables
id
zona
estrato
preciom
areaconst
parqueaderos
banios
habitaciones
tipo
longitud
latitud

Después de la eliminación, el conjunto de datos contiene 11 variables.

-Las variables piso y barrio fueron eliminadas del análisis debido a su naturaleza categórica con alta cardinalidad y bajo aporte estructural para las técnicas multivariadas propuestas.

-En particular, la variable barrio presenta un elevado número de categorías, lo cual dificulta su inclusión en análisis de reducción de dimensionalidad y segmentación sin generar dispersión excesiva.

-Asimismo, la variable piso contiene valores faltantes y no representa un determinante estructural clave en comparación con variables como área construida, precio o estrato.

2.3.3 Tratamiento outliers

Aunque en el análisis exploratorio se identificaron valores extremos en variables como precio y área construida, no se realizó su eliminación ni tratamiento, ya que estos corresponden a propiedades de alto valor que representan segmentos reales del mercado inmobiliario.

Dado que el estudio tiene un enfoque exploratorio y estructural, la eliminación de estos valores podría distorsionar la variabilidad natural del mercado y afectar la identificación de patrones y segmentaciones relevantes. Por ello, se decidió conservar la información original sin aplicar ajustes adicionales.

No se realizó tratamiento de outliers en baños debido a que, en el mercado inmobiliario, valores altos pueden corresponder a inmuebles de gran tamaño o usos especiales (lujo, multifamiliares, arriendo por habitaciones). Dado el enfoque exploratorio del estudio, se priorizó conservar la heterogeneidad del mercado y evitar eliminar segmentos reales. Sin embargo, se visualizaron los extremos mediante boxplots para documentar su presencia.

Se identificaron valores estructuralmente inconsistentes en las variables habitaciones (registros con valor cero). Dado que una vivienda no puede presentar cero habitaciones, dichos valores fueron tratados como datos faltantes y posteriormente imputados mediante la mediana, garantizando estabilidad estadística sin afectar la estructura multivariada del análisis.

La comparación gráfica evidencia la eliminación de valores estructuralmente inconsistentes (cero habitaciones). Posterior a la imputación con mediana, la distribución mantiene su forma general y dispersión natural, sin afectar la estructura del mercado, garantizando coherencia estadística para los análisis multivariados posteriores.

3 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

Antes de aplicar el PCA, vamos a realizar los pasos 3.1, 3.2, 3.3 y 3.4 para poder obtener resultados válidos, interpretar bien los componentes, mezclar correectamente las variables y no introducir sesgos.

3.1 Seleccionar variables numéricas relevantes

PCA no se aplica a variables categóricas, solo numéricas para que el modello no tenga falla o genere resultados incorrectos:

Valores faltantes por variable (antes de depuración)
	Variable	Valores_Faltantes
estrato	estrato	3
preciom	preciom	2
areaconst	areaconst	3
parqueaderos	parqueaderos	0
banios	banios	3
habitaciones	habitaciones	0

3.2 Eliminar registros con valores faltantes en las variables

Para avanzar con el análisis de componentes principales, se va a verificar que no queden valores faltantes en variables numéricas clave, debido a que el PCA no puede trabajar con valores faltantes:

Verificación de valores faltantes en variables numéricas
	Variable	Valores_Faltantes
estrato	estrato	3
preciom	preciom	2
areaconst	areaconst	3
parqueaderos	parqueaderos	0
banios	banios	3
habitaciones	habitaciones	0

Como se puede evidenciar quedan valores faltantes, por esta razón se eliminarán los registros incompletos en variables numéricas clave para garantizar la correcta estimación de la matriz de correlaciones requerida en el PCA. Dado que la proporción de datos faltantes es mínima, esta decisión no afecta la representatividad del análisis.

Valores faltantes por variable después de la depuración
	Variable	Valores_Faltantes
estrato	estrato	0
preciom	preciom	0
areaconst	areaconst	0
parqueaderos	parqueaderos	0
banios	banios	0
habitaciones	habitaciones	0

Para el PCA se eliminaron 3 registros correspondientes a observaciones que presentaban al menos un valor faltante en las variables numéricas clave, conservando 8319 observaciones completas para el análisis.

3.3 Confirmar que todas las variables sean numéricas

Tipo de dato de las variables incluidas en el PCA
	Variable	Tipo
estrato	estrato	numeric
preciom	preciom	numeric
areaconst	areaconst	numeric
parqueaderos	parqueaderos	numeric
banios	banios	numeric
habitaciones	habitaciones	numeric

En la anterior tabla podemos ver que todas las variables son numéricas.

3.4 Estandarización de las variables

Antes de aplicar el Análisis de Componentes Principales, es necesario estandarizar las variables debido a que se encuentran en diferentes escalas de medición. Por ejemplo, el precio se mide en cientos o miles, mientras que el número de habitaciones o baños toma valores pequeños.

Si no se realiza estandarización, las variables con mayor magnitud dominarían el cálculo de los componentes principales. Por esta razón, el PCA se aplicará sobre variables escaladas.

Desviación estándar y varianza explicada por componente (PCA)
	Componente	Desviacion_Estandar	Varianza_Explicada	Varianza_Acumulada
PC1	PC1	1.849	57.00	57.00
PC2	PC2	1.128	21.22	78.22
PC3	PC3	0.676	7.61	85.84
PC4	PC4	0.646	6.96	92.80
PC5	PC5	0.493	4.04	96.84
PC6	PC6	0.435	3.16	100.00

3.5 Aplicación del PCA (Metodología)

Una vez verificadas las condiciones necesarias (ausencia de valores faltantes, selección de variables numéricas y estandarización), se procede a aplicar el Análisis de Componentes Principales (PCA) sobre las variables estructurales y socioeconómicas del mercado inmobiliario.

El objetivo es identificar las dimensiones principales que explican la mayor parte de la variabilidad en los datos.

Desviación estándar y varianza explicada por componente
	Componente	Desviacion_Estandar	Varianza_Explicada	Varianza_Acumulada
PC1	PC1	1.849	0.570	0.570
PC2	PC2	1.128	0.212	0.782
PC3	PC3	0.676	0.076	0.858
PC4	PC4	0.646	0.070	0.928
PC5	PC5	0.493	0.040	0.968
PC6	PC6	0.435	0.032	1.000

El primer componente principal (PC1) explica el 56.9% de la varianza total del conjunto de datos, mientras que el segundo componente (PC2) explica el 21.0%. De manera acumulada, los dos primeros componentes concentran el 77.9% de la variabilidad total, lo que indica que la estructura del mercado inmobiliario puede representarse adecuadamente mediante dos dimensiones principales.

Cargas (loadings) de las variables en cada componente principal
	PC1	PC2	PC3	PC4	PC5	PC6
estrato	0.329	-0.585	0.518	0.169	0.480	-0.149
preciom	0.478	-0.185	0.041	-0.373	-0.237	0.735
areaconst	0.444	0.248	-0.143	-0.661	0.237	-0.477
parqueaderos	0.408	-0.265	-0.768	0.407	0.062	-0.062
banios	0.466	0.180	0.324	0.312	-0.662	-0.331
habitaciones	0.288	0.677	0.124	0.363	0.464	0.310

Las cargas del PCA muestran que el primer componente (PC1) está fuertemente asociado con variables como precio, área construida, número de baños y parqueaderos, lo que sugiere que representa una dimensión estructural relacionada con el tamaño y nivel del inmueble.

El segundo componente (PC2) presenta mayor influencia del número de habitaciones y del estrato, indicando una dimensión complementaria vinculada a la configuración interna y características socioeconómicas de las viviendas.

El biplot permite visualizar simultáneamente la relación entre las variables y la distribución de las observaciones en el espacio definido por los dos primeros componentes principales. Se observa que variables como área construida, precio y número de baños presentan vectores orientados en direcciones similares, lo que confirma su asociación positiva y su fuerte contribución al primer componente. Esto refuerza la interpretación de PC1 como una dimensión estructural vinculada al tamaño y nivel del inmueble. Por su parte, la dispersión de las observaciones evidencia la heterogeneidad del mercado, mostrando diferencias claras entre propiedades de menor escala y aquellas de mayor valor y características estructurales superiores.

El gráfico de contribución al primer componente muestra que variables como precio, área construida y número de baños son las que más aportan a la explicación de la varianza total. Esto confirma que el primer componente representa principalmente una dimensión estructural asociada al tamaño y nivel general del inmueble.

En el segundo componente, las variables con mayor contribución son habitaciones y estrato, lo cual sugiere que esta dimensión captura diferencias en la configuración interna de la vivienda y su posicionamiento socioeconómico dentro del mercado.

El análisis de cos² permite identificar qué tan bien están representadas las variables en el plano formado por los dos primeros componentes. Las variables con valores más altos de cos² están adecuadamente explicadas por estas dimensiones, lo que confirma que PC1 y PC2 resumen de manera eficiente la estructura del mercado inmobiliariO.

3.6 Resultados finales del PCA

En conjunto, el PCA evidencia que el mercado inmobiliario urbano puede resumirse en dos dimensiones principales: una dimensión estructural asociada al tamaño y valor del inmueble, y una dimensión complementaria relacionada con la configuración interna y características socioeconómicas. La alta varianza acumulada en los dos primeros componentes confirma que estos sintetizan adecuadamente la información original del conjunto de datos.

4 ANÁLISIS DE CONGLOMERADOS (CLUSTERING)

El análisis de conglomerados es una técnica de aprendizaje no supervisado cuyo objetivo es agrupar observaciones similares en conjuntos homogéneos llamados clústeres. A diferencia de los modelos supervisados, no existen etiquetas previas; el algoritmo identifica patrones de similitud a partir de las características de los datos.

En este estudio, cada vivienda representa un objeto descrito por variables estructurales y socioeconómicas previamente transformadas mediante PCA. La medida de distancia utilizada es la distancia euclidiana, adecuada para variables estandarizadas.

4.1 Metodología

Se aplicará el algoritmo K-Means debido a su eficiencia y facilidad de interpretación, especialmente en conjuntos de datos de tamaño considerable.

Para comenzar, se utilizarán los dos primeros componentes (porque explican 77.9%)

Primeras observaciones en el espacio de los dos primeros componentes principales
PC1	PC2
-0.830	2.067
-1.506	0.561
-0.621	0.980
1.062	0.177
-1.048	-0.595
-0.760	-0.462
-1.214	-0.283
0.028	-0.153
0.813	0.941
1.263	-0.471

Después se seleccionarán el número de clústers con los siguientes dos métodos:

Método del codo
Índice de silueta

Método del codo

El gráfico del método del codo evidencia una disminución pronunciada en la suma de cuadrados intra-grupo entre k = 1 y k = 3, lo que indica que la incorporación de los primeros tres clústeres genera una mejora sustancial en la homogeneidad interna de los grupos. A partir de k = 3, la pendiente de la curva se estabiliza y las reducciones adicionales en la variabilidad son marginales, reflejando rendimientos decrecientes. En consecuencia, tres conglomerados constituyen una solución adecuada, ya que equilibran capacidad explicativa y parsimonia, evitando sobresegmentación sin perder estructura relevante del mercado.

Índice de silueta

El gráfico del índice de silueta muestra que el valor promedio alcanza su máximo alrededor de k = 2 y k = 3, con valores cercanos a 0.47, lo que indica una buena separación y cohesión interna de los clústeres en esas configuraciones. A partir de k ≥ 4, el índice comienza a disminuir progresivamente, lo que sugiere que agregar más grupos reduce la calidad de la segmentación al generar mayor solapamiento entre conglomerados.

En consecuencia, desde un criterio puramente estadístico, 2 o 3 clústeres representan la solución óptima, siendo k = 3 una alternativa adecuada si se busca mayor nivel de segmentación sin perder calidad en la separación.

4.2 Selección del número de clusters

Visualizar clusters:

El análisis de conglomerados mediante K-Means evidencia una segmentación clara del mercado inmobiliario en tres grupos diferenciados en el espacio definido por los dos primeros componentes principales. La separación se produce principalmente a lo largo del Componente Principal 1, asociado a variables estructurales como precio, área construida, baños y parqueaderos, lo que indica que el tamaño y el valor del inmueble constituyen el principal eje de diferenciación. Se identifican un segmento económico con menores características estructurales, un segmento intermedio con valores moderados y mayor dispersión, y un segmento alto o premium con mayores niveles de precio y tamaño. En conjunto, el resultado confirma que el mercado no es homogéneo, sino que presenta una estructura segmentada claramente definida por atributos físicos y económicos de las viviendas.

4.3 Perfil de clusters

Perfil promedio de variables estructurales por conglomerado
cluster	estrato	preciom	areaconst	parqueaderos	banios	habitaciones
1	5.72	847.43	292.42	2.78	4.49	3.91
2	4.33	262.79	102.55	1.00	2.30	2.99
3	3.92	449.15	303.77	1.24	4.42	6.37

El análisis de perfiles evidencia diferencias claras entre los conglomerados identificados. Un primer grupo concentra viviendas de menor área construida, menor precio promedio y menor número de baños y parqueaderos, representando el segmento económico del mercado. Un segundo grupo presenta valores intermedios en estas variables, configurando un segmento medio. Finalmente, el tercer conglomerado agrupa propiedades de mayor tamaño, mayor precio y mejores características estructurales, correspondientes al segmento premium.

Esta segmentación confirma la existencia de estratos diferenciados dentro del mercado inmobiliario urbano.

4.4 Resultados finales

El análisis de conglomerados permitió identificar una estructura segmentada en el mercado inmobiliario urbano. El índice de silueta indicó que dos clústeres proporcionan la mejor separación estadística; sin embargo, con fines estratégicos, se optó por una solución de tres conglomerados, ya que ofrece una segmentación más detallada del mercado.

La visualización en el espacio definido por los dos primeros componentes principales muestra una separación clara entre los grupos, principalmente a lo largo del eje asociado al tamaño y valor del inmueble (PC1). Esto confirma que la dimensión estructural identificada en el PCA es el principal criterio de segmentación del mercado.

En conjunto, los resultados evidencian que el mercado inmobiliario no es homogéneo, sino que se organiza en segmentos diferenciados por características físicas y socioeconómicas. Esta clasificación proporciona una base sólida para diseñar estrategias de comercialización, posicionamiento y toma de decisiones basadas en evidencia cuantitativa.

5 ANÁLISIS DE CORRESPONDENCIA MÚLTIPLE (ACM)

El Análisis de Correspondencia Múltiple (ACM) es una técnica estadística utilizada para explorar relaciones entre múltiples variables categóricas. A diferencia del PCA, que trabaja con variables cuantitativas, el ACM permite representar asociaciones entre categorías en un espacio de baja dimensión utilizando la distancia chi-cuadrado.

En este estudio se analizan las variables tipo de vivienda, zona y barrio, con el objetivo de identificar patrones de concentración de la oferta inmobiliaria y posibles asociaciones territoriales dentro del mercado urbano.

5.1 Metodología

En este estudio se analiza la relación entre las variables categóricas tipo de vivienda, zona y barrio mediante el Análisis de Correspondencia Múltiple (ACM). Esta técnica permite explorar asociaciones entre múltiples variables cualitativas a partir de la descomposición de la matriz de frecuencias relativas, utilizando la distancia chi-cuadrado como medida de similitud entre categorías.

El objetivo es representar las categorías en un espacio de baja dimensión que facilite la identificación de patrones territoriales y comportamientos diferenciados en la oferta inmobiliaria. La inercia total indica la proporción de variabilidad explicada por las dimensiones retenidas, permitiendo evaluar la calidad de la representación bidimensional y la existencia de asociaciones significativas entre las variables analizadas.

Importante como anteriormente se había eliminado las variables categóricas barrio y piso para aplicar PCA, se vuelve a cargar el DataSet original en el código para continar con ACM y se vuelven a eliminar registros con NA antes de hacer el ACM

Inercia explicada por las primeras dimensiones (ACM sin NA)
	Autovalor	Porcentaje_Inercia	Porcentaje_Acumulado
dim 1	0.711	0.485	0.485
dim 2	0.660	0.450	0.935
dim 3	0.651	0.444	1.379
dim 4	0.623	0.425	1.804
dim 5	0.444	0.303	2.106

La Dimensión 1 concentra la mayor proporción de la variabilidad asociativa entre las categorías analizadas, representando la principal estructura de relación entre tipo de vivienda, zona y barrio. Aunque el porcentaje de inercia por dimensión es bajo —situación esperada en el ACM debido a la alta cantidad de categorías—, las primeras dimensiones permiten identificar patrones generales de asociación territorial. Por esta razón, se presentan únicamente las dimensiones iniciales, ya que las posteriores aportan información marginal reducida.

Gráfico de inercia

La Dimensión 1 presenta el mayor porcentaje de inercia explicada, aunque su valor es cercano al de la Dimensión 2 y 3. Esto indica que la estructura asociativa entre tipo de vivienda, zona y barrio no se concentra en una sola dimensión, sino que se distribuye en varias componentes. El bajo porcentaje individual de inercia es esperado en el Análisis de Correspondencia Múltiple cuando se trabaja con un gran número de categorías, como ocurre con la variable barrio. En conjunto, las primeras dimensiones permiten identificar patrones generales de asociación territorial, aunque la variabilidad total se reparte en múltiples direcciones.

El biplot del Análisis de Correspondencia Múltiple evidencia asociaciones entre las categorías de tipo de vivienda, zona y barrio en el plano definido por las dos primeras dimensiones. Se observa una diferenciación espacial clara entre zonas urbanas, destacándose, por ejemplo, la separación de Zona Oriente y Zona Centro respecto a Zona Oeste. Asimismo, la categoría Casa se posiciona hacia valores positivos de la Dimensión 1, mientras que Apartamento se ubica más cerca del origen, lo que sugiere patrones diferenciados en la distribución territorial de la tipología de vivienda. La proximidad entre algunos barrios y determinadas zonas indica especialización espacial de la oferta inmobiliaria. En conjunto, el gráfico confirma la existencia de segmentación territorial estructurada dentro del mercado inmobiliario urbano.

La Dimensión 1 está principalmente explicada por las categorías de Zona Oeste y Zona Oriente, junto con el tipo de vivienda Casa. Esto indica que el eje principal del ACM representa una diferenciación territorial fuerte entre zonas de la ciudad y su relación con el tipo de inmueble ofertado. En términos generales, esta dimensión captura la estructura espacial dominante del mercado inmobiliario, mostrando que la ubicación geográfica es el factor más influyente en la asociación entre categorías.

5.2 Resultados finales

El Análisis de Correspondencia Múltiple permitió identificar asociaciones entre tipo de vivienda, zona y barrio, evidenciando que la oferta inmobiliaria presenta una segmentación territorial clara.

La Dimensión 1 concentra la principal estructura de asociación y está fuertemente influenciada por las zonas urbanas, lo que indica que la ubicación es el factor más determinante en la diferenciación del mercado. La Dimensión 2 complementa esta estructura, capturando variaciones adicionales entre sectores específicos.

Los resultados muestran que el tipo de vivienda no se distribuye de manera homogénea en la ciudad, sino que se asocia con determinadas zonas y barrios, evidenciando patrones de concentración y especialización territorial.

En conjunto, el ACM confirma que el mercado inmobiliario urbano presenta una estructura espacial definida, donde la localización geográfica organiza la oferta de vivienda.

6 VISUALIZACIÓN DE RESULTADOS Y HALLAZGOS CLAVE

Los resultados obtenidos a partir del Análisis de Componentes Principales (PCA), el Análisis de Conglomerados y el Análisis de Correspondencia Múltiple (ACM) fueron presentados mediante gráficos factoriales, diagramas de contribución, scree plots y representaciones de clústeres, permitiendo comunicar de manera clara y estructurada los patrones identificados en el mercado inmobiliario.

Las visualizaciones facilitaron la identificación de:

Factores principales que explican la variabilidad del mercado.
Segmentos homogéneos de propiedades con características similares.
Asociaciones territoriales entre tipo de vivienda, zona y barrio.
Diferenciaciones espaciales en la oferta inmobiliaria.

El uso de representaciones gráficas permitió sintetizar grandes volúmenes de información en estructuras interpretables, facilitando la comprensión estratégica para la dirección de la empresa.

7 CONCLUSIONES Y RECOMENDACIONES

El análisis multivariado realizado mediante Análisis de Componentes Principales (PCA), Análisis de Conglomerados y Análisis de Correspondencia Múltiple (ACM) permitió identificar la estructura latente del mercado inmobiliario urbano, evidenciando que la localización geográfica constituye el principal eje de diferenciación y segmentación de la oferta. El PCA reveló que variables estructurales como área construida, precio y características físicas concentran la mayor variabilidad del sistema, mientras que el análisis de conglomerados confirmó la existencia de grupos homogéneos de propiedades con perfiles claramente diferenciados. Por su parte, el ACM evidenció asociaciones territoriales entre tipo de vivienda, zona y barrio, demostrando que la distribución de inmuebles no es aleatoria, sino espacialmente estructurada. En conjunto, los resultados confirman la presencia de segmentación territorial y especialización de mercado, proporcionando evidencia empírica que sustenta decisiones estratégicas basadas en patrones cuantificables. Este enfoque analítico fortalece la capacidad de la empresa para optimizar procesos de valoración, segmentación comercial e inversión, reduciendo incertidumbre y generando ventajas competitivas en un entorno dinámico y altamente competitivo.

8 LIMITACIONES DE ESTUDIO

Aunque el análisis multivariado nos ayudó a detectar patrones interesantes dentro del mercado inmobiliario urbano, también es importante ser claros con algunas limitaciones del estudio.

Para empezar, el enfoque que se utilizó es más bien exploratorio y descriptivo. Es decir, sirve para observar y organizar la información, pero no permite afirmar que una variable cause directamente cambios en otra. Además, tanto el Análisis de Componentes Principales como el Análisis de Conglomerados parten de ciertos supuestos —como la linealidad y el uso de distancia euclidiana— que no siempre reflejan toda la complejidad del mercado, especialmente cuando existen relaciones no lineales que estos métodos no capturan del todo.

En el caso del Análisis de Correspondencia Múltiple, los porcentajes de inercia en las primeras dimensiones fueron relativamente bajos. Esto no es algo fuera de lo esperado, sobre todo si consideramos que la variable barrio tiene muchas categorías distintas. En la práctica, esto significa que parte de la variabilidad queda repartida en dimensiones adicionales que no se ven en el típico gráfico bidimensional.

Por otro lado, algunas decisiones técnicas, como la imputación en la variable habitaciones, pueden tener un impacto leve en la configuración final de los componentes principales. De todos modos, se aplicó un criterio lo más sólido posible para reducir cualquier sesgo.

En definitiva, los resultados deben leerse como una aproximación que ayuda a entender la estructura y el comportamiento general del mercado, pero no como un modelo predictivo cerrado o definitivo.

9 ANEXOS

9.1 Anexo 1: Documento completo en formato HTML descargable

El documento completo puede descargarse en formato HTML desde el siguiente enlace:

Descargar versión HTML del informe

Informe Actividad 1 Modelos multivariados

Catherin Salazar Pupiales

2025-08-14