El mercado inmobiliario urbano constituye un sistema complejo y altamente dinámico, en el cual interactúan múltiples factores económicos, sociales y espaciales que influyen de manera conjunta en la oferta, la demanda y la valoración de las propiedades residenciales. En contextos urbanos, la toma de decisiones estratégicas por parte de empresas inmobiliarias requiere una comprensión integral de estas interacciones, superando los análisis univariados tradicionales y adoptando enfoques multivariados que permitan identificar patrones latentes, estructuras subyacentes y segmentos homogéneos dentro del mercado (Johnson y Wichern, 2007).
En este sentido, el análisis multivariado se consolida como un conjunto de herramientas fundamentales para el estudio simultáneo de múltiples variables, facilitando la reducción de la dimensionalidad, la identificación de relaciones relevantes y la segmentación de observaciones con características similares. Técnicas como el análisis de componentes principales y el análisis de conglomerados han demostrado ser especialmente útiles en el ámbito inmobiliario, al permitir sintetizar grandes volúmenes de información y traducirlos en conocimiento accionable para la toma de decisiones gerenciales (Hair et al., 2019).
De manera complementaria, el análisis exploratorio de datos cumple un papel previo y transversal dentro del proceso analítico, al permitir comprender la estructura básica de la información, detectar valores atípicos, evaluar patrones de distribución y apoyar decisiones metodológicas posteriores. Esta etapa resulta clave para garantizar la validez de los análisis multivariados subsiguientes, pero no constituye en sí misma una técnica multivariante, sino una fase preparatoria orientada a la comprensión y depuración de los datos (Tukey, 1977).
Adicionalmente, el uso de métodos específicos para el análisis de variables categóricas, como el análisis de correspondencias, permite profundizar en la comprensión de las asociaciones estructurales entre tipologías de vivienda, zonas geográficas y otras características cualitativas del entorno urbano. Esta técnica facilita la identificación de ejes latentes que organizan las relaciones entre categorías, aportando una lectura relacional complementaria a los enfoques basados exclusivamente en variables numéricas y fortaleciendo la interpretación integral del mercado inmobiliario (Greenacre, 2017; Jolliffe y Cadima, 2016).
La integración coherente de estas técnicas —análisis exploratorio de datos, análisis de componentes principales, análisis de conglomerados y análisis de correspondencias— acompañada de una adecuada visualización de resultados, favorece una interpretación clara y rigurosa de los hallazgos, alineada con las necesidades estratégicas de las organizaciones en entornos competitivos y en constante transformación.
Bajo este marco, el presente informe tiene como propósito realizar un análisis multivariado integral de una base de datos de viviendas urbanas, con el fin de identificar patrones, relaciones y segmentaciones relevantes que apoyen la toma de decisiones estratégicas en una empresa inmobiliaria. A través de un enfoque metodológico estructurado y reproducible, se busca generar conclusiones y recomendaciones basadas en evidencia, orientadas a optimizar la compra, venta y valoración de propiedades en el mercado urbano.
El análisis exploratorio de datos es una etapa clave en estudios multivariados, ya que permite comprender la estructura, calidad y comportamiento general de la información antes de aplicar técnicas estadísticas más avanzadas. En el mercado inmobiliario urbano, esta fase resulta especialmente relevante debido a la diversidad de las propiedades y a la coexistencia de variables numéricas y categóricas, así como a la posible presencia de valores faltantes y atípicos (Tukey, 1977).
En esta sección se examina la base de datos de viviendas urbanas mediante procedimientos de exploración, limpieza e imputación de datos, con el objetivo de garantizar que los análisis posteriores se realicen sobre un conjunto de datos consistente y adecuado para la toma de decisiones (Little y Rubin, 2019).
En términos generales, la base de datos analizada está compuesta por un conjunto de variables que describen las viviendas desde distintas dimensiones. En primer lugar, incluye variables estructurales y físicas, tales como el tipo de vivienda, el área construida, el número de habitaciones y baños, así como características asociadas a la antigüedad y condiciones del inmueble. En segundo lugar, se consideran variables económicas, relacionadas con el precio de venta o arriendo y otros atributos que inciden directamente en la valoración de las propiedades. Adicionalmente, la base incorpora variables espaciales, representadas por la zona urbana y las coordenadas geográficas de latitud y longitud, que permiten contextualizar cada vivienda dentro del territorio urbano. Finalmente, se incluyen variables categóricas descriptivas del entorno y del perfil del inmueble, las cuales resultan clave para el análisis de asociaciones y segmentaciones posteriores.
El objetivo del análisis exploratorio de datos es comprender la estructura y las características principales de las variables que componen la base de datos de viviendas urbanas, evaluando su calidad y comportamiento antes de la aplicación de técnicas estadísticas multivariadas. En particular, se busca analizar tanto variables numéricas asociadas a características físicas y económicas de las propiedades, como variables categóricas relacionadas con el tipo de vivienda y su localización, con el fin de identificar patrones generales y posibles limitaciones de los datos (Tukey, 1977).
De manera específica, el análisis exploratorio tiene como objetivos: (i) examinar la distribución, variabilidad y escala de las variables numéricas; (ii) describir la frecuencia y composición de las variables categóricas; (iii) identificar valores atípicos, inconsistencias y posibles errores de registro; y (iv) analizar la presencia y el patrón de valores faltantes en las variables, definiendo estrategias de limpieza e imputación que permitan obtener un conjunto de datos consistente y adecuado para los análisis posteriores (Little y Rubin, 2019).
La base de datos analizada corresponde a un conjunto de 8.319 registros, donde cada observación representa una vivienda urbana localizada en la ciudad de Cali (Colombia). Cada registro está descrito mediante un conjunto de variables numéricas y categóricas que capturan características físicas del inmueble, atributos económicos, información de localización y variables descriptivas del entorno urbano. Esta estructura da lugar a una matriz de datos de dimensiones 8.319 × 13, la cual constituye la base para los análisis exploratorios y multivariados desarrollados en el presente estudio.
Este paso resume las variables disponibles (tipo de dato, faltantes y diversidad de valores) para orientar la limpieza e imputación antes de cualquier análisis más avanzado (Hair et al., 2019).Este diagnóstico tiene un carácter estrictamente exploratorio y no implica decisiones definitivas de imputación o exclusión de variables, las cuales se evaluarán de manera condicionada en función de los análisis multivariados posteriores.
| variable | clase | n_faltantes | pct_faltantes | n_unicos |
|---|---|---|---|---|
| piso | character | 2638 | 31.70 | 12 |
| parqueaderos | numeric | 1605 | 19.29 | 10 |
| areaconst | numeric | 3 | 0.04 | 652 |
| banios | numeric | 3 | 0.04 | 11 |
| barrio | character | 3 | 0.04 | 436 |
| estrato | numeric | 3 | 0.04 | 4 |
| habitaciones | numeric | 3 | 0.04 | 11 |
| id | numeric | 3 | 0.04 | 8319 |
| latitud | numeric | 3 | 0.04 | 3679 |
| longitud | numeric | 3 | 0.04 | 2928 |
| tipo | character | 3 | 0.04 | 2 |
| zona | character | 3 | 0.04 | 5 |
| preciom | numeric | 2 | 0.02 | 539 |
La Tabla 2.1 evidencia que la base de datos combina variables numéricas y categóricas relevantes para el análisis del mercado inmobiliario urbano. Se observa una mayor proporción de valores faltantes en variables como piso y parqueaderos, lo cual no necesariamente refleja ausencia de información, sino que puede corresponder en muchos casos a situaciones de no aplicabilidad según la tipología del inmueble. Por ejemplo, determinadas viviendas no requieren el registro de piso o no disponen de parqueadero, por lo que estos valores deben interpretarse con cautela y diferenciarse conceptualmente de valores efectivamente perdidos.
En contraste, la mayoría de las variables presenta porcentajes de valores faltantes bajos, lo que sugiere una adecuada calidad general de los datos. Adicionalmente, el número de valores únicos por variable permite anticipar el tipo de análisis a aplicar, diferenciando variables discretas, continuas y categóricas, y orientando las decisiones posteriores de limpieza, imputación o tratamiento específico en los análisis univariados y multivariados subsiguientes (Hair et al., 2019; Little y Rubin, 2019).
En esta etapa se corrigen inconsistencias semánticas y se tratan valores faltantes únicamente cuando representan errores evidentes de registro o cuando la ausencia de información responde a criterios claros de no aplicabilidad, en coherencia con el diagnóstico presentado en la sección anterior. El objetivo del proceso de limpieza es mejorar la calidad y consistencia del conjunto de datos sin introducir supuestos innecesarios que alteren la información original ni afectar la estructura subyacente de los datos (Little y Rubin, 2019).
En particular, se presta especial atención a variables como piso y parqueaderos, las cuales presentan una proporción elevada de valores faltantes. En el caso de la variable piso, dichos valores no corresponden a información perdida, sino a una condición estructural del mercado: las viviendas tipo casa no se encuentran ubicadas en un piso dentro de un edificio, por lo que esta variable no aplica para dichas observaciones. En consecuencia, los valores faltantes asociados a viviendas tipo casa se recodifican explícitamente como no aplica, incrementando el número de registros sin valor numérico en esta variable, pero mejorando la coherencia semántica del conjunto de datos.
De manera análoga, en la variable parqueaderos, la ausencia de valor no implica un error de registro, sino que en muchos casos indica que la propiedad no dispone de parqueadero. Por esta razón, estos valores se conservan sin imputación en esta etapa, evitando introducir supuestos artificiales sobre la disponibilidad de este atributo y preservando la información real del mercado inmobiliario analizado.
| variable | faltantes_antes | faltantes_despues | diferencia | interpretacion |
|---|---|---|---|---|
| piso | 2638 | 4603 | 1965 | Aumento esperado: NO APLICA para viviendas tipo Casa (se recodifica a NA). |
| areaconst | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| banios | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| barrio | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| estrato | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| habitaciones | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| latitud | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| longitud | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| parqueaderos | 1605 | 1605 | 0 | NA se interpreta como AUSENCIA de parqueadero (no se imputa en limpieza). |
| preciom | 2 | 2 | 0 | Sin cambios en limpieza (se conserva). |
| tipo | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
| zona | 3 | 3 | 0 | Sin cambios en limpieza (se conserva). |
La Tabla 2.2 resume la comparación de valores faltantes antes y después del proceso de limpieza, evidenciando que los cambios se concentran exclusivamente en la variable piso, como resultado de la aplicación de criterios de no aplicabilidad previamente definidos. En el resto de las variables no se observan modificaciones, lo que confirma que el proceso de limpieza se limita a correcciones puntuales de tipo semántico y a la depuración de inconsistencias, sin eliminar observaciones ni aplicar imputaciones en esta fase. Este enfoque garantiza que los análisis exploratorios y multivariados posteriores se realicen sobre un conjunto de datos consistente y conceptualmente bien definido.
En esta etapa se realiza un análisis univariado de las variables relevantes de la base de datos, con el fin de examinar su distribución, tendencia central, dispersión y posibles valores atípicos. Este análisis permite identificar comportamientos típicos, asimetrías y problemas potenciales en los datos antes de avanzar hacia el análisis de relaciones entre variables y técnicas multivariadas más complejas (Hair et al., 2019).
En esta sección se examina el comportamiento individual de las principales variables numéricas asociadas a las características físicas y económicas de las viviendas, con el objetivo de identificar patrones de distribución, asimetrías y posibles valores atípicos. Este análisis permite evaluar la idoneidad de las variables para etapas posteriores del análisis multivariado y anticipar la necesidad de transformaciones o tratamientos adicionales.
Los histogramas evidencian comportamientos heterogéneos entre las variables analizadas. En particular, el precio y el área construida presentan distribuciones asimétricas con colas derechas pronunciadas, lo que es consistente con la presencia de viviendas de alto valor y gran tamaño que coexisten con una mayoría de inmuebles de menor escala. Por su parte, variables discretas como el número de habitaciones, baños y parqueaderos muestran concentraciones claras en valores bajos, reflejando tipologías predominantes de vivienda urbana. Estos patrones sugieren la conveniencia de considerar transformaciones y métodos robustos en análisis posteriores.
Cabe señalar que algunas variables originalmente disponibles en la base de datos fueron excluidas del análisis univariado numérico por razones metodológicas. En particular, la variable id corresponde a un identificador único y no contiene información analítica relevante, por lo que su inclusión podría inducir interpretaciones erróneas. Asimismo, la variable estrato, aunque codificada numéricamente, representa una escala ordinal y no una magnitud cuantitativa continua, por lo que su análisis se aborda en el contexto de variables categóricas.
Por su parte, las variables latitud y longitud, si bien son numéricas, no se interpretan en este estudio como variables cuantitativas en sentido estadístico, sino como coordenadas geográficas utilizadas exclusivamente con fines de visualización y análisis espacial. En consecuencia, su análisis univariado no resulta informativo en esta etapa, y su valor analítico se desarrolla posteriormente mediante representaciones cartográficas que permiten contextualizar espacialmente los resultados del análisis multivariado.
En esta sección se describen las variables categóricas y ordinales que caracterizan el tipo de vivienda y su localización. Se reportan frecuencias y porcentajes para identificar categorías predominantes y posibles desbalances, lo cual es clave antes de aplicar técnicas multivariadas como conglomerados y análisis de correspondencias (Hair et al., 2019).
Las gráficas de barras evidencian una estructura no balanceada en varias de las variables categóricas y ordinales analizadas. En el caso del estrato, se observa una mayor concentración en niveles medios y altos, lo que sugiere que la base de datos representa principalmente segmentos socioeconómicos específicos del mercado urbano y no una distribución homogénea de la ciudad. Respecto al tipo de vivienda, predomina claramente la categoría Apartamento, lo cual es consistente con la dinámica inmobiliaria urbana y anticipa una posible segmentación marcada por tipología constructiva. En cuanto a la zona, se identifican diferencias significativas en la concentración de inmuebles, destacándose algunas zonas con una oferta considerablemente mayor, lo que refleja patrones espaciales relevantes que deberán ser considerados en los análisis multivariados posteriores, particularmente en técnicas de conglomerados y análisis de correspondencias (Hair et al., 2019).
El gráfico del Top 10 de barrios muestra una alta concentración de registros en un número reducido de barrios, evidenciando una distribución espacial desigual de la oferta inmobiliaria. Este comportamiento indica que ciertos barrios concentran gran parte del mercado analizado, mientras que otros presentan una participación marginal. Esta concentración sugiere la existencia de submercados claramente diferenciados y justifica la necesidad de aplicar técnicas multivariadas que permitan identificar patrones latentes y perfiles homogéneos de viviendas, evitando conclusiones sesgadas derivadas de la sobrerrepresentación de determinadas localizaciones.
En esta etapa se analizan las relaciones entre pares de variables con el fin de identificar asociaciones, tendencias y posibles dependencias no observables en el análisis univariado. Este análisis permite anticipar estructuras relevantes del mercado inmobiliario antes de aplicar técnicas multivariadas formales (Hair et al., 2019).
Se examinan las relaciones entre variables cuantitativas asociadas a características físicas y económicas de las viviendas, con el fin de identificar patrones de asociación, posibles efectos no lineales y comportamientos atípicos en el precio.
Los diagramas de dispersión muestran una asociación positiva clara entre el precio y el área construida, lo cual sugiere que el tamaño del inmueble es una de las variables con mayor asociación observada con el valor de mercado en esta etapa exploratoria. Variables como habitaciones, baños y parqueaderos presentan relaciones positivas más débiles y no estrictamente lineales, lo que indica posibles efectos marginales decrecientes y la influencia de otros factores estructurales. La presencia de dispersión creciente y valores extremos evidencia heterogeneidad en el mercado, lo que justifica la aplicación posterior de técnicas de reducción de dimensionalidad y segmentación.
Se analizan las diferencias en la distribución del precio según categorías relevantes, con el fin de identificar heterogeneidad sistemática entre segmentos del mercado inmobiliario.
Los boxplots evidencian diferencias sustanciales en la distribución del precio entre categorías, particularmente según tipo de vivienda, zona y estrato socioeconómico. Se observa que los apartamentos y los estratos más altos presentan medianas de precio superiores, así como una mayor dispersión, lo que refleja la segmentación natural del mercado urbano.
Estas diferencias indican que las variables categóricas contienen información estructural relevante y respaldan su inclusión en análisis multivariados posteriores, especialmente en técnicas de conglomerados y análisis de correspondencias.
En esta etapa se identifican valores atípicos en las variables numéricas relevantes, con el fin de evaluar su magnitud, frecuencia y posible impacto en los análisis posteriores. La detección de valores extremos permite distinguir entre observaciones válidas del mercado y posibles anomalías que podrían distorsionar los resultados estadísticos y multivariados (Hair et al., 2019).
Los boxplots evidencian la presencia de valores extremos principalmente en las variables precio y área construida, caracterizadas por una fuerte asimetría a la derecha y una dispersión creciente a medida que aumentan sus valores. Este comportamiento es consistente con la dinámica del mercado inmobiliario urbano, donde coexisten viviendas estándar con inmuebles de características excepcionales que alcanzan precios y tamaños significativamente superiores al promedio.
En el caso de variables discretas como habitaciones, baños y parqueaderos, los valores identificados como extremos corresponden a categorías poco frecuentes pero plausibles desde el punto de vista constructivo y funcional. Dado el carácter discreto y acotado de estas variables, la presencia de observaciones extremas no necesariamente indica anomalías, sino una baja frecuencia relativa dentro de la muestra.
Dado que los valores extremos observados reflejan condiciones reales del mercado y no errores evidentes de registro, no se eliminan ni se imputan en esta etapa del análisis. En su lugar, se opta por conservar estas observaciones, reconociendo que contienen información relevante sobre la heterogeneidad del mercado inmobiliario.
Dado que estos valores reflejan condiciones reales del mercado y no errores evidentes de registro, no se eliminan ni se imputan en esta etapa. La decisión de conservarlos responde al carácter exploratorio del análisis, en el cual se busca preservar la heterogeneidad del mercado. La imputación o tratamiento específico de valores extremos solo se consideraría en etapas confirmatorias o predictivas, dependiendo del método estadístico aplicado.
En esta etapa se aplican transformaciones a variables numéricas seleccionadas con el objetivo de reducir asimetrías pronunciadas y moderar la influencia de valores extremos, mejorando la estabilidad estadística de los datos. Estas transformaciones preparan las variables para su uso en técnicas multivariadas sensibles a la escala y a la distribución, como el análisis de componentes principales y los métodos de segmentación, sin alterar la estructura sustantiva del fenómeno analizado (Hair et al., 2019).
Los histogramas muestran que las distribuciones originales de precio y área construida presentan una asimetría positiva marcada, con una alta concentración de observaciones en rangos bajos y una cola larga hacia valores elevados, consistente con la heterogeneidad propia del mercado inmobiliario urbano.
La aplicación de la transformación logarítmica reduce de forma evidente dicha asimetría, produciendo distribuciones más equilibradas y cercanas a la simetría, especialmente en el caso del precio, donde se observa una mejora clara en la concentración central de los valores. Este ajuste atenúa la influencia de inmuebles de alto valor o gran tamaño sin eliminar observaciones relevantes del mercado.
Las variables discretas habitaciones, baños y parqueaderos no se transforman, dado que presentan escalas acotadas y distribuciones dominadas por pocos valores enteros, cuya interpretación directa es esencial en el contexto inmobiliario. En conjunto, el esquema de transformación adoptado favorece la comparabilidad entre variables continuas y garantiza condiciones más adecuadas para los análisis posteriores de reducción de dimensionalidad y segmentación.
Antes de aplicar técnicas multivariadas basadas en matrices de correlación o covarianza, se evalúan supuestos prácticos asociados a las variables numéricas transformadas. En particular, se examinan la comparabilidad de escala, la forma de las distribuciones y la naturaleza de las relaciones bivariadas, con el fin de verificar la idoneidad de los datos para análisis exploratorios multivariados sin exigir normalidad estricta (Hair et al., 2019).
Los gráficos muestran relaciones monótonas y aproximadamente lineales entre las variables numéricas transformadas, sin evidencia de curvaturas extremas ni concentraciones puntuales que dominen la estructura de los datos. Las distribuciones suavizadas evidencian una reducción clara de la asimetría tras la transformación logarítmica, especialmente en precio y área construida, lo que contribuye a una mayor estabilidad de las medidas de asociación.
No se observa colinealidad perfecta ni relaciones funcionales estrictas entre las variables analizadas, condición necesaria para la aplicación posterior de técnicas como el análisis de componentes principales. En consecuencia, los datos cumplen los supuestos prácticos requeridos para análisis multivariados exploratorios, particularmente aquellos basados en estandarización y matrices de correlación, sin necesidad de recurrir a pruebas formales de normalidad que no son exigidas en este contexto (Hair et al., 2019).
En esta sección se sintetizan las principales decisiones metodológicas adoptadas durante el análisis exploratorio de datos, integrando los resultados de la revisión estructural, limpieza, análisis univariado, bivariado, detección de valores atípicos, transformaciones y verificación de supuestos estadísticos. El objetivo es dejar explícito el tratamiento final de cada variable y justificar su inclusión, exclusión o transformación, garantizando un insumo consistente y metodológicamente adecuado para los análisis multivariados posteriores (Hair et al., 2019).
| Variable | Tipo | Decisión | Justificación |
|---|---|---|---|
| preciom | Numérica continua | Transformar (log) | Alta asimetría positiva y presencia de valores extremos; la transformación logarítmica estabiliza la varianza y mejora la interpretabilidad en análisis basados en correlación. |
| areaconst | Numérica continua | Transformar (log) | Distribución fuertemente asimétrica; la transformación logarítmica reduce la influencia de valores extremos sin pérdida de información estructural. |
| habitaciones, baños, parqueaderos | Numéricas discretas | Conservar sin transformación | Variables de escala acotada y significado directo; su transformación no aporta ventajas analíticas en esta etapa. |
| estrato | Ordinal | Tratar como ordinal | Representa un orden socioeconómico natural, pero no una escala métrica; se evita tratarlo como cuantitativo continuo. |
| tipo, zona | Categóricas | Conservar | Variables clave para segmentación y análisis de heterogeneidad del mercado. |
| barrio | Categórica (alta cardinalidad) | Uso descriptivo (Top 10) | Alta dispersión de categorías; se limita su uso a análisis descriptivo y visual para evitar ruido en técnicas multivariadas. |
| latitud, longitud | Espaciales | Excluir del análisis multivariado | Variables no utilizadas en esta etapa por requerir enfoques geoespaciales específicos. |
| id | Identificador | Excluir del análisis | Variable sin contenido analítico; se excluye por definición. |
Tratamiento de valores faltantes: En esta etapa exploratoria no se realizan imputaciones de valores faltantes, dado que su tratamiento depende del método multivariado específico a aplicar (ACP, conglomerados o análisis de correspondencias). La imputación se evaluará de forma condicionada en etapas posteriores, considerando la naturaleza de cada variable y los supuestos del método estadístico correspondiente.
La anterior Tabla sintetiza de manera estructurada las decisiones adoptadas sobre cada variable, evidenciando un criterio metodológico consistente basado en la naturaleza estadística y semántica de la información. Las variables numéricas continuas asociadas al precio y al área construida se conservan tras aplicar transformaciones logarítmicas, lo que permite reducir asimetrías, estabilizar la varianza y facilitar su uso en técnicas multivariadas basadas en correlación. Las variables discretas relacionadas con características físicas se mantienen en su escala original, preservando su interpretación directa en el contexto inmobiliario.
No se observan violaciones evidentes a los supuestos prácticos requeridos para análisis multivariados exploratorios, especialmente aquellos basados en estandarización y matrices de correlación. En consecuencia, las variables transformadas resultan adecuadas para la aplicación posterior de técnicas como el análisis de componentes principales, sin requerir pruebas formales de normalidad que resultarían innecesarias en este contexto exploratorio.
El análisis de componentes principales (ACP) es una técnica multivariada orientada a reducir la dimensionalidad de un conjunto de variables numéricas, sintetizando la información en un número menor de componentes que preservan la mayor parte de la variabilidad. En este estudio se aplica el ACP como paso previo a técnicas de segmentación y caracterización, utilizando variables continuas transformadas cuando es necesario para mejorar estabilidad e interpretabilidad (Jolliffe y Cadima, 2016; Hair et al., 2019).
El ACP permite identificar una estructura latente que resume la variabilidad conjunta de las variables numéricas, evitando redundancia y facilitando la visualización e interpretación del mercado inmobiliario urbano. En esta etapa, el propósito es exploratorio y no predictivo (Jolliffe y Cadima, 2016; Hair et al., 2019).
La selección de variables para el análisis de componentes principales se realizó con base en criterios estadísticos y conceptuales, buscando garantizar coherencia metodológica, interpretabilidad y estabilidad del análisis. Dado que el ACP es una técnica orientada a sintetizar la variabilidad conjunta de variables numéricas continuas, no todas las variables disponibles en la base de datos resultan adecuadas para este procedimiento.
En primer lugar, se consideraron únicamente variables numéricas con significado cuantitativo continuo, asociadas directamente a las características físicas y económicas de las viviendas. Bajo este criterio, se seleccionaron el precio del inmueble y el área construida, dado que ambas variables presentan una variabilidad sustantiva, reflejan dimensiones estructurales del mercado inmobiliario y mostraron una asociación clara en el análisis exploratorio y bivariado previo.
En segundo lugar, estas variables exhibieron asimetrías pronunciadas y presencia de valores extremos en su escala original, lo que motivó la aplicación de transformaciones logarítmicas para estabilizar la varianza y mejorar la comparabilidad entre observaciones. El uso de variables transformadas resulta especialmente adecuado en un ACP basado en la matriz de correlaciones, donde se busca evitar que la escala o la dispersión dominen artificialmente la estructura de los componentes (Hair et al., 2019).
Por el contrario, variables numéricas discretas como número de habitaciones, baños y parqueaderos no se incluyeron en el ACP, dado que presentan escalas acotadas, distribuciones concentradas en pocos valores enteros y un significado más tipológico que dimensional. Su inclusión podría introducir ruido y afectar la interpretación de los componentes sin aportar una ganancia sustantiva en términos de síntesis de la variabilidad.
Asimismo, la variable estrato, aunque codificada numéricamente, representa una escala ordinal y no una magnitud continua, por lo que no resulta apropiado tratarla como variable métrica dentro del ACP. Finalmente, variables como latitud y longitud se excluyen de esta etapa, ya que su interpretación analítica es fundamentalmente espacial y se aborda de manera específica en la sección de visualización territorial de resultados.
En consecuencia, el análisis de componentes principales se construye a partir de un conjunto reducido de variables continuas transformadas que capturan la dimensión económica–estructural dominante del mercado inmobiliario urbano, garantizando una reducción de dimensionalidad parsimoniosa, interpretable y coherente con los objetivos exploratorios del estudio.
La estandarización de los datos constituye un paso fundamental previo al análisis de componentes principales, dado que esta técnica se basa en la comparación de la variabilidad conjunta de las variables incluidas. Cuando las variables presentan escalas o rangos de variación distintos, aquellas con mayor dispersión pueden dominar artificialmente la estructura de los componentes, distorsionando la interpretación de los resultados.
En el presente estudio, aunque las variables seleccionadas (precio y área construida) fueron previamente transformadas mediante logaritmos para reducir asimetrías y moderar la influencia de valores extremos, sus escalas aún no son directamente comparables en términos de varianza. Por esta razón, se aplica un proceso de estandarización que transforma cada variable a una escala común, con media cero y desviación estándar igual a uno.
Esta estandarización garantiza que ambas variables contribuyan de manera equilibrada al análisis de componentes principales, permitiendo que la estructura de los componentes refleje relaciones reales entre las variables y no diferencias puramente métricas. De no realizarse este ajuste, la variable con mayor variabilidad residual podría definir de forma desproporcionada los ejes principales, reduciendo la validez interpretativa del análisis.
Desde el punto de vista operativo, la estandarización se incorpora directamente en el cálculo del modelo mediante la opción scale. = TRUE, por lo que no se requiere una transformación explícita previa de los datos. Este procedimiento es consistente con las buenas prácticas del análisis multivariado exploratorio y resulta especialmente apropiado cuando el ACP se basa en la matriz de correlaciones (Hair et al., 2019).
El análisis de componentes principales se fundamenta en la descomposición de la matriz de correlación de las variables numéricas incluidas en el estudio. En este caso, dicha matriz se construye a partir de las variables precio y área construida previamente transformadas mediante logaritmos y posteriormente estandarizadas, lo que garantiza condiciones adecuadas de comparabilidad y estabilidad para el análisis.
La transformación logarítmica aplicada en la etapa anterior tuvo como objetivo reducir la asimetría positiva y moderar la influencia de valores extremos presentes en la escala original de ambas variables. Esta transformación no busca igualar escalas, sino mejorar la forma de las distribuciones y la interpretación de las relaciones lineales. Posteriormente, la estandarización asegura que las variables transformadas contribuyan de manera equilibrada al análisis, evitando que diferencias en varianza residual dominen la estructura de los componentes principales.
La matriz de correlación resume la intensidad y dirección de las relaciones lineales entre las variables consideradas y constituye el insumo central para evaluar la pertinencia del ACP como técnica de reducción de dimensionalidad. En particular, la presencia de correlaciones distintas de cero y de magnitud moderada o alta indica la existencia de información redundante susceptible de ser sintetizada en un espacio de menor dimensión (Jolliffe y Cadima, 2016; Hair et al., 2019).
En este estudio, la matriz de correlación evidencia una asociación lineal positiva y alta entre el precio y el área construida (r = 0.798). Este resultado confirma que ambas variables comparten una porción sustantiva de información y que su variabilidad conjunta puede resumirse de manera eficiente mediante un número reducido de componentes. En consecuencia, el análisis de componentes principales resulta pertinente como herramienta de síntesis, al permitir condensar esta información redundante en un eje dominante asociado al tamaño–valor del inmueble, manteniendo interpretabilidad y coherencia con el comportamiento observado en el análisis exploratorio previo.
| areaconst_log | preciom_log | |
|---|---|---|
| areaconst_log | 1.000 | 0.798 |
| preciom_log | 0.798 | 1.000 |
La matriz de correlación evidencia una asociación lineal positiva y alta entre el precio y el área construida (r = 0.798), lo que confirma la presencia de información redundante entre ambas variables. En este contexto, el ACP resulta pertinente como herramienta de síntesis, ya que permite resumir la variabilidad conjunta en un eje dominante asociado al tamaño–valor del inmueble, manteniendo interpretabilidad y preparando el análisis para las etapas multivariadas posteriores (Jolliffe y Cadima, 2016; Hair et al., 2019).
El análisis de componentes principales se fundamenta en la descomposición de la matriz de correlación de las variables numéricas previamente transformadas y estandarizadas. Este procedimiento permite expresar la variabilidad conjunta del sistema en un conjunto reducido de ejes ortogonales, denominados componentes principales.
A partir de esta descomposición se obtienen dos elementos clave: los autovalores y los autovectores. Los autovalores indican cuánta varianza total del sistema es capturada por cada componente principal, mientras que los autovectores definen las combinaciones lineales de las variables originales que dan lugar a dichos componentes. En términos prácticos, los autovalores permiten evaluar la importancia relativa de cada componente, y los autovectores facilitan su interpretación sustantiva en el contexto del fenómeno analizado.
| Componente | Autovalor | Varianza_Explicada | Varianza_Acumulada |
|---|---|---|---|
| CP1 | 1.798 | 0.899 | 0.899 |
| CP2 | 0.202 | 0.101 | 1.000 |
La Tabla 3.2 presenta los autovalores y la proporción de varianza explicada por cada componente principal. Los resultados muestran que la primera componente principal (CP1) concentra una proporción muy elevada de la varianza total del sistema (89.9 %), mientras que la segunda componente (CP2) aporta únicamente una fracción complementaria (10.1 %). Esta distribución refleja una estructura fuertemente unidimensional, donde la mayor parte de la información relevante puede resumirse en un solo eje.
Este resultado es coherente con la elevada correlación observada entre el precio y el área construida en la etapa previa del análisis, y sugiere la existencia de un eje latente dominante asociado al tamaño–valor del inmueble. En este contexto, la CP1 puede interpretarse como una dimensión sintética que integra simultáneamente las características económicas y físicas de las viviendas, mientras que la CP2 recoge variabilidad residual de menor relevancia analítica.
Los autovalores obtenidos constituyen así la base cuantitativa para la decisión posterior sobre el número de componentes principales a conservar, permitiendo balancear la reducción de dimensionalidad con la preservación de la información sustantiva del mercado inmobiliario urbano (Jolliffe y Cadima, 2016; Hair et al., 2019).
La decisión sobre el número de componentes principales a conservar constituye una etapa clave del análisis de componentes principales, ya que define el equilibrio entre la reducción de la dimensionalidad y la preservación de la información relevante contenida en los datos. Conservar demasiadas componentes limita la capacidad de síntesis del método, mientras que conservar muy pocas puede implicar pérdida de información sustantiva. Por esta razón, esta decisión se apoya tanto en criterios cuantitativos como en herramientas gráficas, privilegiando la interpretabilidad y la parsimonia del modelo (Jolliffe y Cadima, 2016; Hair et al., 2019).
En este estudio se emplean dos criterios complementarios. En primer lugar, el criterio de Kaiser, que recomienda conservar únicamente aquellas componentes cuyo autovalor sea superior a uno, bajo el argumento de que dichas componentes explican al menos tanta variabilidad como una variable original estandarizada. En segundo lugar, se utiliza el gráfico de sedimentación (scree plot), que permite identificar visualmente el punto a partir del cual la ganancia marginal de varianza explicada por componentes adicionales se vuelve reducida.
El gráfico de sedimentación muestra una caída abrupta del autovalor después de la primera componente principal, seguida de una pendiente claramente más suave. De acuerdo con el criterio de Kaiser, únicamente la primera componente principal (CP1) presenta un autovalor superior a uno, concentrando aproximadamente el 90 % de la varianza total del sistema.
La segunda componente, aunque aporta información adicional, explica una fracción marginal de la variabilidad y no introduce una dimensión sustantivamente distinta del fenómeno analizado. En consecuencia, se justifica la conservación de una única componente principal, logrando una reducción efectiva de la dimensionalidad sin pérdida significativa de información relevante.
Esta decisión resulta coherente con los resultados obtenidos en las etapas previas del análisis, en particular con la elevada correlación observada entre el precio y el área construida, y se alinea con el objetivo exploratorio del presente estudio, orientado a identificar estructuras latentes simples, interpretables y útiles para el análisis posterior del mercado inmobiliario urbano.
Las cargas factoriales (loadings) representan los coeficientes de las combinaciones lineales que definen cada componente principal y cuantifican la contribución de cada variable original a dichas componentes. En un análisis exploratorio, las cargas permiten interpretar el significado sustantivo de los componentes, indicando qué variables son más relevantes y en qué dirección influyen sobre cada eje latente del sistema (Jolliffe y Cadima, 2016; Hair et al., 2019).
Dado que en la sección anterior se decidió conservar una única componente principal, el análisis de cargas se centra exclusivamente en la primera componente principal (CP1), la cual resume la mayor parte de la variabilidad conjunta de las variables numéricas transformadas del mercado inmobiliario urbano.
| PC1 | PC2 | |
|---|---|---|
| areaconst_log | 0.707 | 0.707 |
| preciom_log | 0.707 | -0.707 |
La Tabla 3.3 muestra que tanto el área construida (areaconst_log) como el precio (preciom_log) presentan cargas positivas y de magnitud similar sobre la CP1 (0.707 en ambos casos). Este resultado indica que ambas variables contribuyen de manera equilibrada a la definición de la componente y que se mueven en la misma dirección dentro del espacio reducido.
Desde el punto de vista sustantivo, este patrón confirma que la CP1 captura un eje latente dominante asociado al tamaño–valor del inmueble, en el cual viviendas con mayor área construida tienden a presentar precios más elevados. La similitud en las cargas sugiere que ninguna de las dos variables domina de forma aislada la estructura del componente, sino que ambas aportan información complementaria sobre una misma dimensión subyacente del mercado.
En consecuencia, la CP1 puede interpretarse como una medida sintética del nivel económico–estructural de la vivienda, coherente con los resultados del análisis exploratorio, la elevada correlación observada entre las variables y el carácter unidimensional identificado en las etapas previas del análisis. Esta interpretación refuerza la validez del ACP como herramienta de reducción y síntesis de información para el estudio del mercado inmobiliario urbano.
El biplot del análisis de componentes principales permite representar, en un mismo plano, tanto las variables originales como las observaciones individuales, facilitando una lectura conjunta de la estructura del sistema. En este estudio, el biplot se utiliza con fines exclusivamente exploratorios, como herramienta de apoyo para interpretar gráficamente la dimensión latente identificada por el ACP.
En el gráfico se observa que los vectores asociados al precio y al área construida apuntan en direcciones muy similares y forman un ángulo reducido entre sí. Esta alineación visual confirma que ambas variables están fuertemente asociadas y contribuyen de manera conjunta a la definición de la primera componente principal (CP1), tal como se evidenció previamente en la matriz de correlación y en el análisis de cargas.
La proyección de las observaciones sobre el eje de la CP1 permite identificar una diferenciación gradual entre viviendas de menor y mayor tamaño–valor. Las observaciones ubicadas hacia los valores positivos del eje principal corresponden a inmuebles con mayores áreas construidas y precios más elevados, mientras que aquellas cercanas al origen o en valores negativos representan viviendas de menor escala económica y estructural.
Es importante destacar que la dispersión de los puntos a lo largo de la CP1 refleja la heterogeneidad del mercado inmobiliario urbano, mostrando la coexistencia de distintos perfiles de vivienda dentro del mismo sistema. En contraste, la segunda componente principal no introduce una diferenciación sustantiva adicional, lo cual es coherente con la decisión de conservar una única dimensión en el análisis.
En conjunto, el biplot refuerza visualmente la interpretación del ACP como una herramienta eficaz para sintetizar la variabilidad conjunta del mercado inmobiliario en un eje dominante claro e interpretable. Esta representación gráfica proporciona una visión integrada de las relaciones entre precio, área construida y las observaciones individuales, y prepara el terreno para análisis posteriores orientados a la segmentación del mercado, como el análisis de conglomerados.
La evaluación de la calidad de la reducción de dimensionalidad permite determinar si el análisis de componentes principales logra sintetizar la información original de manera eficiente, sin pérdida relevante de interpretabilidad. En el presente estudio, esta evaluación se basa en tres elementos fundamentales: la proporción de varianza explicada, la coherencia entre las variables originales y la estabilidad conceptual de la componente retenida.
Los resultados muestran que la primera componente principal (CP1) concentra cerca del 90 % de la variabilidad total del sistema, lo que indica que la información contenida en las variables originales puede resumirse adecuadamente en una única dimensión. Este nivel de síntesis es elevado y consistente con la fuerte correlación observada entre el precio y el área construida, lo que confirma la existencia de una estructura subyacente simple y bien definida.
Adicionalmente, la interpretación de la CP1 como un eje tamaño–valor del inmueble resulta clara, estable y coherente con la lógica del mercado inmobiliario urbano. La componente integra simultáneamente características físicas y económicas de las viviendas, sin introducir ambigüedades interpretativas ni depender de efectos residuales de baja relevancia analítica.
Desde una perspectiva metodológica, la reducción de dos variables correlacionadas a una sola dimensión no implica pérdida sustantiva de información, dado que la segunda componente explica una fracción marginal de la variabilidad y no introduce una dimensión estructuralmente distinta del fenómeno analizado. Esta parsimonia mejora la robustez del análisis y evita la incorporación de ruido innecesario en etapas posteriores.
En conjunto, el análisis de componentes principales cumple de manera adecuada su objetivo exploratorio de reducción de dimensionalidad, proporcionando una representación compacta, interpretable y consistente de la variabilidad conjunta del sistema. Esta síntesis constituye un insumo válido y confiable para análisis multivariados posteriores, en particular aquellos orientados a la segmentación y caracterización del mercado inmobiliario urbano.
Los resultados del análisis de componentes principales tienen un uso eminentemente descriptivo y estratégico, no predictivo ni causal. La componente principal identificada no se emplea para anticipar precios futuros ni para explicar relaciones de dependencia, sino para ordenar, simplificar y estructurar la información del mercado inmobiliario de manera interpretable y accionable.
La primera componente principal (CP1) representa una dimensión sintética del nivel económico–estructural de la vivienda, integrando de forma conjunta el precio y el área construida. En términos prácticos, esta componente permite ubicar cada vivienda sobre un continuo que va desde inmuebles de menor tamaño y menor valor hasta propiedades de mayor escala y precio más elevado.
Desde la perspectiva de la toma de decisiones empresariales, esta dimensión puede utilizarse como una variable resumen para múltiples propósitos estratégicos. En el ámbito comercial, la CP1 facilita la segmentación del portafolio inmobiliario, permitiendo identificar grupos de viviendas con características económicas similares y diseñar estrategias diferenciadas de comercialización, precios y comunicación. Para áreas de análisis y planeación, la componente principal permite comparar propiedades y zonas de manera homogénea, reduciendo la complejidad del análisis sin sacrificar información relevante.
Para analistas y tomadores de decisión, el principal valor del ACP radica en que reduce el problema antes de aplicar técnicas más complejas. Al trabajar sobre una dimensión latente robusta y bien interpretada, se mejora la estabilidad de procesos posteriores como el análisis de conglomerados, evitando redundancias informativas y facilitando la identificación de perfiles homogéneos de vivienda.
Es importante subrayar que la componente principal no debe interpretarse como una variable explicativa ni predictiva, sino como una herramienta de síntesis estructural. Su utilidad reside en organizar la información del mercado, revelar patrones globales y servir como insumo metodológico para análisis multivariados posteriores orientados a la caracterización y segmentación del mercado inmobiliario urbano.
En síntesis, el análisis de componentes principales desarrollado en este estudio proporciona una base sólida, clara y estratégicamente útil para comprender la estructura económica del mercado inmobiliario, apoyar decisiones informadas y conectar el análisis exploratorio con técnicas avanzadas de segmentación que se abordan en las etapas siguientes del informe.
El análisis de conglomerados busca identificar grupos de observaciones similares entre sí y diferentes de otros grupos, con base en múltiples variables consideradas simultáneamente. A diferencia de enfoques supervisados, aquí no se pretende predecir una variable objetivo, sino descubrir estructura en los datos y producir una segmentación interpretable (Hair et al., 2019). En el contexto del mercado inmobiliario urbano, el clustering permite sintetizar la heterogeneidad del conjunto de viviendas en perfiles comparables, útiles para análisis descriptivo y toma de decisiones estratégicas de segmentación, portafolio y focalización territorial.
En este estudio, el análisis se apoya metodológicamente en los resultados previos del análisis exploratorio y del Análisis de Componentes Principales (ACP), que sugirió un eje dominante asociado al patrón tamaño–valor del inmueble. Por tanto, el clustering se plantea como un paso para convertir esa estructura en segmentos (grupos) concretos y comunicables, manteniendo coherencia estadística y sustantiva (Jolliffe y Cadima, 2016; Hair et al., 2019).
El objetivo del análisis de conglomerados es agrupar viviendas en segmentos homogéneos, de forma que las viviendas dentro de un mismo grupo sean, en promedio, más parecidas entre sí que frente a viviendas de otros grupos. Desde un enfoque exploratorio, el propósito no es inferencial ni predictivo: el clustering se utiliza para construir una tipología descriptiva del mercado que ayude a entender cómo se organiza la oferta inmobiliaria analizada (Hair et al., 2019).
En términos prácticos, este estudio busca obtener segmentos interpretables asociados al eje tamaño–valor identificado previamente: un grupo de viviendas con perfil económico-estructural relativamente menor y otro con perfil relativamente mayor. La utilidad del resultado no es “adivinar” precios futuros, sino ordenar y resumir la heterogeneidad del mercado en categorías accionables para comparación, comunicación y decisiones de segmentación.
La selección de variables es crítica porque determina qué “criterio de similitud” usará el algoritmo para formar grupos. Incluir variables irrelevantes, redundantes o con escalas incompatibles puede inducir conglomerados artificiales o difíciles de interpretar (Hair et al., 2019). En este estudio, la selección se fundamenta en dos principios técnicos y uno sustantivo.
Primero, se priorizan variables que capturen dimensiones estructurales del mercado y que, según el análisis exploratorio, presentan asimetrías o colas que justifican transformaciones para estabilizar la variabilidad. Segundo, se mantiene coherencia con el ACP: si el análisis previo mostró un eje dominante tamaño–valor, conviene que las variables del clustering representen ese eje para que la segmentación refleje la estructura principal y no ruido periférico (Jolliffe y Cadima, 2016; Hair et al., 2019). Tercero, desde la interpretación de negocio, se privilegian variables que permitan nombrar los grupos de manera clara y comunicable.
Bajo estos criterios, el clustering se realiza sobre variables numéricas continuas transformadas mediante logaritmos cuando corresponde (por ejemplo, precio y área construida), dado que estas variables sintetizan el patrón tamaño–valor. Las variables categóricas y espaciales se reservan para la etapa de interpretación y validación sustantiva de los segmentos, evitando que la cardinalidad o codificación distorsione las distancias usadas por el algoritmo.
La estandarización es necesaria porque los algoritmos de clustering basados en distancia (como k-means) son sensibles a la escala de las variables: una variable con mayor dispersión puede dominar el cálculo de distancias y “mandar” en la formación de grupos, aun si no es la más relevante sustantivamente (Hair et al., 2019). Por ello, incluso si las variables fueron transformadas (por ejemplo, con logaritmos), sus escalas pueden seguir siendo diferentes y deben hacerse comparables.
En este estudio, las variables seleccionadas para el clustering se estandarizan para que cada una tenga contribución equilibrada en el proceso de agrupamiento. En términos interpretativos, esto garantiza que los segmentos reflejen diferencias reales en el perfil tamaño–valor, y no un artefacto de unidades o magnitudes.
En conjunto, la preparación del clustering consiste en: seleccionar variables numéricas que representen el patrón estructural dominante. Transformar cuando es necesario para reducir asimetrías extremas. Estandarizar para evitar dominancia por escala. Con esto, los datos quedan listos para que el algoritmo identifique segmentos que sean estadísticamente consistentes y sustantivamente interpretables (Hair et al., 2019; Jolliffe y Cadima, 2016).
La elección del algoritmo debe ser coherente con el objetivo exploratorio, la naturaleza de las variables y la necesidad de interpretabilidad. En este estudio se privilegia k-means porque es eficiente, ampliamente usado en segmentación y produce grupos definidos por centroides que facilitan la comunicación de resultados (Hair et al., 2019). Dado que las variables se estandarizan, el uso de distancia euclidiana resulta adecuado para capturar proximidades en el espacio transformado.
Como apoyo conceptual, pueden considerarse métodos jerárquicos para exploración inicial o contraste, pero el resultado principal se reporta con k-means por su claridad práctica. En términos interpretativos, esto permite describir el mercado con perfiles promedio claros y comparables, en lugar de estructuras difíciles de explicar a stakeholders no técnicos.
Determinar el número de conglomerados es un paso central porque afecta simultáneamente la calidad estadística del agrupamiento y su utilidad práctica. En análisis exploratorios se recomienda combinar criterios gráficos y métricas internas de validación, evitando depender de un único indicador (Hair et al., 2019). En este estudio se utilizan dos criterios complementarios: método del codo e índice de silueta.
El método del codo evalúa la suma de cuadrados intra-conglomerado (variabilidad interna) para distintos valores de k. Técnicamente, se busca el punto donde aumentar k deja de producir una reducción sustancial de la variabilidad interna, indicando rendimientos decrecientes y un equilibrio entre parsimonia e información capturada (Hair et al., 2019).
El gráfico muestra una reducción marcada al pasar de k = 1 a k = 2, seguida de mejoras marginales para valores mayores. Esto sugiere que dos conglomerados capturan la estructura dominante del conjunto sin introducir subdivisiones difíciles de justificar. En lenguaje simple: dividir en más grupos empieza a “partir el mismo pastel” sin que aparezca un sabor nuevo claramente distinto.
| cluster | area_promedio_log | precio_promedio_log | n |
|---|---|---|---|
| 1 | 4.442 | 5.390 | 4672 |
| 2 | 5.539 | 6.417 | 3647 |
Es importante señalar que las variables utilizadas para la caracterización promedio de los conglomerados se encuentran expresadas en escala logarítmica. En este contexto, las diferencias observadas entre conglomerados no deben interpretarse como diferencias lineales absolutas, sino como diferencias proporcionales en el nivel de tamaño y valor de las viviendas.
En términos sustantivos, esto implica que el conglomerado con mayor valor promedio en la escala logarítmica representa viviendas significativamente más grandes y de mayor valor económico en términos relativos, y no simplemente incrementos marginales. Esta interpretación es consistente con el enfoque exploratorio del análisis y con la identificación previa de un eje latente tamaño–valor mediante el análisis de componentes principales (Jolliffe y Cadima, 2016; Hair et al., 2019).
El índice de silueta mide simultáneamente cohesión y separación. Valores cercanos a 1 indican que las observaciones están bien asignadas a su grupo y lejos de otros grupos; valores cercanos a 0 indican solapamiento; valores negativos sugieren asignación problemática (Hair et al., 2019). Este criterio complementa al método del codo porque no solo mira reducción de variabilidad, sino calidad de separación entre grupos.
El índice de silueta promedio alcanza su valor más alto en k = 2, lo que respalda que esta solución ofrece el mejor balance entre grupos compactos y bien separados. Interpretativamente, esto sugiere que el mercado analizado presenta dos perfiles principales distinguibles con claridad, coherentes con la estructura tamaño–valor identificada previamente.
Definido k = 2, se ejecuta k-means sobre las variables numéricas transformadas y estandarizadas. Técnicamente, k-means asigna cada vivienda al centroide más cercano minimizando la variabilidad intra-conglomerado, produciendo segmentos definidos por promedios (centroides) en el espacio de variables (Hair et al., 2019). Para mejorar estabilidad, se fija semilla y se utilizan múltiples inicializaciones, reduciendo dependencia de una sola partición inicial.
| areaconst_log | preciom_log | cluster |
|---|---|---|
| -0.723 | -0.672 | 1 |
| 0.926 | 0.861 | 2 |
Los centroides estandarizados resumen el “perfil promedio” de cada conglomerado. En términos interpretativos, esto permite describir los segmentos como dos grupos con niveles distintos del eje tamaño–valor: uno con valores relativamente menores y otro con valores relativamente mayores, facilitando la caracterización posterior con variables originales y lectura de negocio.
Una vez asignadas las viviendas a conglomerados, la etapa clave es la caracterización sustantiva: traducir una partición geométrica del espacio multivariado en perfiles entendibles para el dominio inmobiliario. Para ello, se comparan promedios y distribuciones de variables originales entre grupos, y se complementa con lecturas contextuales (Hair et al., 2019).
| cluster | area_promedio_log | precio_promedio_log | n |
|---|---|---|---|
| 1 | 4.442 | 5.390 | 4672 |
| 2 | 5.539 | 6.417 | 3647 |
Los resultados muestran dos conglomerados diferenciados. En el primero predominan viviendas asociadas a niveles relativamente menores del patrón tamaño–valor, mientras que el segundo agrupa viviendas de mayor área y mayor nivel económico. Este hallazgo no debe interpretarse como predicción, sino como una tipología descriptiva: el mercado se organiza alrededor de dos perfiles estructurales principales, útiles para segmentación y comunicación de portafolio.
La calidad del clustering se evalúa mediante consistencia entre criterios internos y coherencia sustantiva. En este estudio, la selección de k = 2 está respaldada por la convergencia entre método del codo e índice de silueta, lo cual fortalece la validez interna del agrupamiento (Hair et al., 2019). Adicionalmente, la interpretación de los conglomerados resulta coherente con el eje tamaño–valor identificado por el ACP, lo que refuerza continuidad metodológica (Jolliffe y Cadima, 2016).La convergencia entre distintos criterios de evaluación constituye una condición necesaria para considerar una solución de clustering como estadísticamente estable y sustantivamente interpretable (Kaufman y Rousseeuw, 2005; Hair et al., 2019).
En términos simples, los grupos no son una “invención del algoritmo”: aparecen porque los datos contienen una estructura dominante que separa viviendas en dos perfiles principales. Esta parsimonia facilita la interpretación, evita sobresegmentación y prepara el terreno para decisiones estratégicas basadas en segmentos claros.
Los resultados del clustering tienen un carácter descriptivo y estratégico: sirven para entender y comunicar la estructura del mercado, no para predecir resultados individuales ni establecer causalidad (Hair et al., 2019). Su valor está en convertir una base grande de viviendas en segmentos comparables, permitiendo decisiones de segmentación, posicionamiento y lectura territorial cuando se complementa con variables espaciales.
En este estudio, la segmentación en dos conglomerados permite: comparar portafolios por perfil (viviendas de menor vs mayor tamaño–valor). Diseñar estrategias diferenciadas de marketing y producto según el segmento. Priorizar análisis territorial posteriores usando latitud y longitud para visualizar dónde se concentra cada perfil. Establecer criterios de focalización comercial y evaluación competitiva a partir de una tipología clara y trazable. La interpretación recomendada es directa: cada conglomerado representa un perfil estructural del mercado; el porcentaje de viviendas en cada grupo y su caracterización resumen la composición del mercado en la muestra.
El análisis de correspondencias (AC) es una técnica multivariada orientada al estudio de la asociación entre variables categóricas a partir de una tabla de contingencia. Su lógica se basa en comparar las frecuencias observadas con las esperadas bajo independencia y representar las categorías en un espacio reducido, donde las distancias reflejan la intensidad y el sentido de la asociación estructural (Greenacre, 2017).
En el contexto del mercado inmobiliario urbano, el AC resulta especialmente adecuado para analizar la relación entre tipología de vivienda y zona urbana, permitiendo identificar patrones de localización y diferenciación espacial que no son evidentes mediante análisis univariados o exclusivamente numéricos.
El objetivo de esta etapa es identificar, sintetizar y visualizar la estructura asociativa entre el tipo de vivienda y la zona urbana, evaluando qué combinaciones de categorías presentan desviaciones relevantes respecto al comportamiento esperado bajo independencia.
A través del análisis de correspondencias se busca obtener una lectura estructural del mercado inmobiliario, que permita interpretar la relación tipología–zona como un eje de diferenciación espacial con utilidad estratégica para la segmentación territorial, el diseño de portafolios inmobiliarios y el análisis de la oferta urbana.
Con base en el análisis exploratorio previo y en la coherencia conceptual del estudio, el análisis de correspondencias se construye a partir de dos variables categóricas: tipo de vivienda (Casa, Apartamento) y zona urbana (Zona Centro, Zona Norte, Zona Sur, Zona Oriente y Zona Oeste).
Estas variables presentan un significado sustantivo claro en el contexto del mercado inmobiliario y permiten capturar patrones de localización y diferenciación espacial. No se realizó una recodificación adicional de categorías, dado que la frecuencia observada en cada combinación es suficiente para garantizar estabilidad interpretativa en el análisis (Greenacre, 2017).
El insumo central del análisis de correspondencias es la tabla de contingencia, que resume las frecuencias conjuntas de las categorías de tipo de vivienda y zona urbana. Esta tabla permite evaluar la estructura de co-ocurrencia entre ambas variables y constituye la base para el cálculo de la inercia y de las dimensiones del modelo.
Las desviaciones entre las frecuencias observadas y las esperadas bajo independencia indican la existencia de asociaciones estructurales, que serán sintetizadas posteriormente en un espacio reducido (Greenacre, 2017).
| Zona Centro | Zona Norte | Zona Oeste | Zona Oriente | Zona Sur | |
|---|---|---|---|---|---|
| Apartamento | 24 | 1198 | 1029 | 62 | 2787 |
| Casa | 100 | 722 | 169 | 289 | 1939 |
El modelo de análisis de correspondencias se ajusta sobre la tabla de contingencia mediante la descomposición de la inercia total, que mide la desviación global respecto a la independencia entre las variables categóricas.
El ajuste del modelo permite identificar cuántas dimensiones son necesarias para representar adecuadamente la estructura asociativa del sistema. Dimensiones con mayor inercia explicada concentran la información más relevante sobre la relación tipo–zona.
| eigenvalue | variance.percent | cumulative.variance.percent | |
|---|---|---|---|
| Dim.1 | 0.083 | 100 | 100 |
La decisión sobre el número de dimensiones a conservar se basa en la proporción de inercia explicada por cada dimensión. En el análisis de correspondencias, esta decisión es fundamental, ya que define el espacio en el cual se interpretará la relación entre las categorías.
En este estudio, los resultados muestran que la Dimensión 1 explica el 100 % de la inercia total, lo que implica que la relación entre tipo de vivienda y zona urbana es estrictamente unidimensional. Este resultado se debe a que la tabla de contingencia presenta rango uno, condición bajo la cual solo es posible extraer una dimensión informativa.
Desde una perspectiva interpretativa, este comportamiento indica que no existe una segunda dimensión estructural relevante que aporte información adicional. En consecuencia, toda la interpretación del análisis de correspondencias se realiza sobre la Dimensión 1, que sintetiza completamente la asociación tipo–zona.
Para interpretar el mapa de correspondencias se analizan dos elementos clave:
(i) la contribución, que indica qué categorías definen en mayor medida la dimensión, y
(ii) la calidad de representación (cos²), que mide qué tan bien una categoría es representada sobre dicha dimensión.
Las categorías con mayores contribuciones son las que estructuran el eje principal, mientras que valores elevados de cos² indican una representación confiable sobre la Dimensión 1 (Greenacre, 2017).
| categoria_tipo | mat | |
|---|---|---|
| 2 | Casa | 61.31 |
| 1 | Apartamento | 38.69 |
| categoria_zona | V1 | |
|---|---|---|
| 3 | Zona Oeste | 44.19 |
| 4 | Zona Oriente | 40.79 |
| 1 | Zona Centro | 13.31 |
| 5 | Zona Sur | 1.57 |
| 2 | Zona Norte | 0.14 |
El mapa de correspondencias permite visualizar simultáneamente las categorías de tipo de vivienda y zona urbana en un espacio reducido. En este estudio, dado que solo existe una dimensión informativa, el mapa se interpreta como una proyección unidimensional a lo largo del eje principal.
Las categorías alejadas del origen representan perfiles más distintivos respecto al comportamiento promedio, mientras que las cercanas al origen reflejan asociaciones más débiles o promedio dentro del sistema.
Dado que la relación se resume completamente en una única dimensión, la interpretación del mapa se realiza exclusivamente sobre la posición relativa de las categorías a lo largo del eje principal.
En este eje se observa un contraste claro entre las categorías Casa y Apartamento, que ocupan posiciones opuestas, indicando una diferenciación estructural por tipología de vivienda. Desde la perspectiva espacial, las zonas Centro y Oriente se asocian al mismo extremo del eje que la categoría Casa, sugiriendo una afinidad estructural entre estas zonas y dicha tipología.
Por el contrario, la Zona Oeste se posiciona en el extremo opuesto, más próxima a la categoría Apartamento, mientras que las zonas Norte y Sur, al ubicarse cercanas al origen, reflejan un comportamiento más promedio y una menor capacidad de diferenciación dentro de la relación tipo–zona.
| categoria_tipo | cos2 | |
|---|---|---|
| Casa | Casa | 1 |
| Apartamento | Apartamento | 1 |
| categoria_zona | cos2 | |
|---|---|---|
| Zona Centro | Zona Centro | 1 |
| Zona Sur | Zona Sur | 1 |
| Zona Norte | Zona Norte | 1 |
| Zona Oriente | Zona Oriente | 1 |
| Zona Oeste | Zona Oeste | 1 |
El análisis de correspondencias permitió identificar una estructura asociativa clara entre el tipo de vivienda y la zona urbana, revelando que dicha relación se organiza de manera estrictamente unidimensional.
El eje principal sintetiza un contraste estructural entre tipologías de vivienda y zonas específicas, aportando una lectura relacional del mercado inmobiliario urbano que complementa los resultados obtenidos mediante análisis numéricos y de segmentación.
La calidad del análisis de correspondencias se evalúa a partir de la inercia explicada, el número de dimensiones retenidas y la calidad de representación de las categorías.
En este estudio, la totalidad de la inercia se concentra en una sola dimensión y las categorías presentan valores elevados de cos², lo que indica una representación parsimoniosa, coherente y estadísticamente consistente de la estructura asociativa tipo–zona.
Desde una perspectiva estratégica, el análisis de correspondencias permite comprender cómo se articulan las tipologías de vivienda y las zonas urbanas, identificando asociaciones estructurales relevantes para la toma de decisiones.
Los resultados pueden utilizarse para apoyar decisiones de segmentación territorial, definición de portafolios inmobiliarios y focalización de la oferta, permitiendo identificar zonas donde ciertas tipologías presentan una diferenciación más marcada y otras donde el mercado muestra comportamientos más homogéneos.
En conjunto, el análisis de correspondencias aporta una lectura relacional complementaria al análisis de componentes principales y al análisis de conglomerados, fortaleciendo la comprensión integral del mercado inmobiliario urbano y respaldando decisiones estratégicas basadas en evidencia.
En esta sección se integran los resultados del análisis multivariado mediante una visualización espacial construida a partir de las coordenadas de latitud y longitud disponibles en la base de datos. El objetivo no es realizar un nuevo análisis estadístico, sino proyectar sobre el territorio urbano la estructura asociativa previamente identificada entre el tipo de vivienda y la zona, facilitando su interpretación desde una perspectiva territorial (Greenacre, 2017; Hair et al., 2019).
Dado que el análisis de correspondencias evidenció una estructura completamente unidimensional, la interpretación espacial se realiza sobre la Dimensión 1, entendida como el eje estructural que organiza la relación tipo–zona. En este contexto, la visualización permite responder preguntas clave para la toma de decisiones, tales como: ¿en qué sectores de la ciudad se concentran perfiles más asociados a determinadas tipologías?, ¿qué zonas reflejan comportamientos más diferenciados frente al promedio del mercado?, y ¿dónde predominan perfiles más balanceados? (Greenacre, 2017).
Para representar la estructura del análisis de correspondencias en el espacio urbano, se construye un índice por vivienda que sintetiza su posición sobre la Dimensión 1. Este índice se obtiene asignando a cada observación la coordenada correspondiente a su categoría de tipo de vivienda (filas) y a su categoría de zona (columnas), combinándolas mediante un promedio simple, práctica habitual en análisis exploratorios de proyección espacial de resultados categóricos (Greenacre, 2017).
Adicionalmente, se define una medida de especialización, calculada como el valor absoluto del índice, que indica qué tan distintivo es el perfil de la vivienda frente al comportamiento promedio del mercado. Valores cercanos a cero representan perfiles más promedio, mientras que valores más alejados indican asociaciones estructurales más marcadas (Hair et al., 2019).
En términos prácticos, este índice permite traducir el resultado del análisis de correspondencias en una medida interpretable a nivel de inmueble, apta para análisis territoriales y estratégicos.
El siguiente mapa presenta la proyección espacial del índice derivado del análisis de correspondencias sobre el territorio urbano. El color de cada punto representa la posición sobre la Dimensión 1 (perfil estructural dominante), mientras que el tamaño del punto refleja el nivel de especialización, es decir, la distancia respecto al comportamiento promedio del mercado (Greenacre, 2017).
De este modo, la visualización permite identificar simultáneamente la dirección del perfil tipológico asociado a cada vivienda y la intensidad de su diferenciación, revelando patrones espaciales que no son evidentes en el análisis puramente categórico (Hair et al., 2019).
Este mapa constituye una herramienta clave para reconocer zonas donde se concentran perfiles estructurales similares, así como áreas con mayor heterogeneidad interna en términos de tipología de vivienda.
Con el fin de facilitar una lectura ejecutiva, se construye un mapa de síntesis a nivel de zona urbana, calculando el promedio del índice AC (Dimensión 1) y el nivel medio de especialización por zona. Este tipo de agregación permite comparar directamente territorios, destacando aquellos que presentan perfiles estructurales más definidos frente a zonas con comportamientos más cercanos al promedio del sistema (Greenacre, 2017).
Este mapa está orientado a apoyar la toma de decisiones estratégicas, particularmente en procesos de segmentación territorial, diseño de portafolio inmobiliario y focalización de oferta diferenciada (Hair et al., 2019).
La visualización espacial confirma que la estructura identificada por el análisis de correspondencias no solo organiza la relación tipo–zona en términos categóricos, sino que también presenta una distribución territorial coherente. Los puntos con valores más extremos del índice se agrupan en sectores específicos de la ciudad, indicando zonas donde la diferenciación por tipología es más marcada (Greenacre, 2017).
El mapa de síntesis por zona refuerza esta lectura, mostrando que algunas zonas concentran perfiles estructurales claramente asociados a determinadas tipologías de vivienda, mientras que otras reflejan comportamientos más cercanos al promedio del sistema. Esta diferenciación espacial es consistente con la lógica del análisis de correspondencias, donde las categorías con mayor contribución definen el eje estructural, y aquellas cercanas al origen representan asociaciones menos específicas (Greenacre, 2017; Hair et al., 2019).
Desde una perspectiva aplicada, estos resultados permiten traducir hallazgos estadísticos en criterios territoriales, facilitando la identificación de zonas con mayor potencial de especialización tipológica y aquellas donde predomina un mercado más mixto o balanceado.
Las zonas con mayor diferenciación estructural según el análisis de correspondencias (mayor distancia al origen en la Dimensión 1) son: Zona Oriente, Zona Centro, Zona Oeste. Esto indica que en dichas zonas la relación tipo–zona presenta un patrón más específico y menos promedio, por lo que su lectura es clave para segmentación territorial. En particular, la zona con mayor magnitud del índice es Zona Oriente, ubicada en el lado positivo del eje (asociado al perfil de ‘Casa’), con un promedio de Dimensión 1 igual a 0.577.
En contraste, las zonas con comportamiento más cercano al promedio del sistema (valores más próximos a cero) son: Zona Norte, Zona Sur, Zona Oeste. En estas zonas la diferenciación por tipología tiende a ser menos marcada, lo que sugiere un mercado más mixto o balanceado en términos de tipo de vivienda.
Al observar la especialización media (|Dimensión 1|), las zonas con perfiles más “marcados” en promedio son: Zona Oriente, Zona Centro, Zona Oeste. Este resultado sugiere que, incluso si dos zonas comparten el mismo lado del eje, algunas concentran viviendas con señales estructurales más intensas (más lejos del comportamiento promedio), lo que puede orientar decisiones de focalización comercial y diseño de portafolio.
Nota interpretativa: el mapa no recalcula el análisis de correspondencias con variables geográficas; únicamente proyecta en el territorio urbano la estructura asociativa identificada entre tipo y zona, facilitando una lectura espacial accionable (Greenacre, 2017; Hair et al., 2019).
La siguiente tabla sintetiza los principales hallazgos del análisis multivariado realizado sobre el mercado inmobiliario urbano, así como sus implicaciones prácticas para la toma de decisiones estratégicas. Esta sección constituye el cierre integrador del informe y traduce los resultados técnicos a un lenguaje comprensible y accionable para distintos tipos de stakeholders.
| Eje del análisis | Conclusión principal | Implicaciones y recomendaciones estratégicas |
|---|---|---|
| Estructura del mercado | El mercado inmobiliario urbano presenta una estructura latente clara y coherente, dominada por un eje tamaño–valor del inmueble, consistente a lo largo del análisis exploratorio, el ACP, el análisis de correspondencias y el clustering. | Utilizar este eje como marco estructural común para interpretar el mercado, evitando análisis fragmentados por variable individual y facilitando una visión integrada del portafolio inmobiliario. |
| Análisis exploratorio de datos | La base de datos combina variables numéricas, categóricas y espaciales con buena calidad general. Parte de los valores faltantes corresponden a condiciones de no aplicabilidad y no a errores de registro. | Diferenciar explícitamente entre “valor perdido” y “no aplica” mejora la coherencia semántica de los datos y evita imputaciones innecesarias que puedan distorsionar los análisis posteriores. |
| Análisis de componentes principales (ACP) | El ACP logra una reducción efectiva de dimensionalidad, concentrando cerca del 90 % de la variabilidad en una única componente principal asociada al tamaño–valor del inmueble. | La Componente Principal 1 puede utilizarse como indicador sintético para ordenar viviendas, comparar submercados y servir como insumo para segmentación y análisis posteriores, sin fines predictivos. |
| Interpretación del ACP | El precio y el área construida contribuyen de forma similar y positiva al eje dominante, confirmando que ambas variables describen una misma dimensión estructural del mercado. | Justifica el uso de indicadores compuestos en lugar de múltiples métricas redundantes, simplificando reportes y facilitando la comunicación de resultados a niveles ejecutivos. |
| Análisis de correspondencias | La relación entre tipo de vivienda y zona urbana es esencialmente unidimensional, con asociaciones estructurales claras entre ciertas tipologías y zonas específicas. | Utilizar el análisis de correspondencias como herramienta de lectura relacional complementaria al ACP, útil para comprender la articulación entre tipologías y localización. |
| Visualización espacial | La proyección espacial del eje del análisis de correspondencias revela patrones territoriales coherentes, con zonas que concentran perfiles más diferenciados y otras con comportamientos más promedio. | Apoyar decisiones de segmentación territorial, focalización comercial y diseño de portafolios inmobiliarios mediante mapas claros y fácilmente interpretables. |
| Análisis de conglomerados | El clustering identifica dos segmentos principales del mercado, coherentes con el eje tamaño–valor y validados mediante criterios internos como el método del codo y el índice de silueta. | Utilizar los conglomerados como tipologías descriptivas de mercado para análisis comparativo, diseño de productos y estrategias comerciales, evitando interpretaciones predictivas individuales. |
| Integración metodológica | Las técnicas multivariadas utilizadas se refuerzan mutuamente, ofreciendo una lectura estructural consistente del mercado inmobiliario urbano. | Adoptar este enfoque integrado en estudios futuros, priorizando coherencia metodológica y trazabilidad analítica frente a la complejidad técnica innecesaria. |
| Alcance del estudio | El análisis tiene un carácter exploratorio, descriptivo y estratégico, sin pretensión de inferencia causal ni predicción. | Evitar interpretaciones del tipo “qué va a pasar”; el valor del estudio reside en ordenar, simplificar y hacer legible la complejidad del mercado. |
| Valor para la toma de decisiones | Los resultados permiten transformar una base de datos compleja en ejes, segmentos y mapas interpretables, alineados con decisiones reales del negocio inmobiliario. | Apoyar decisiones de segmentación de oferta, definición de portafolios, análisis competitivo y priorización territorial basadas en evidencia estructural. |
En conjunto, este estudio demuestra que el uso riguroso y articulado de técnicas multivariadas permite comprender la estructura interna del mercado inmobiliario urbano, reducir la complejidad analítica y generar insumos claros para la toma de decisiones estratégicas. El valor del análisis no reside en la predicción, sino en su capacidad para organizar la información, revelar patrones estructurales y apoyar decisiones informadas y accionables.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate data analysis (8th ed.). Boston: Cengage.
Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Upper Saddle River: Pearson.
Tukey, J. W. (1977). Exploratory data analysis. Reading: Addison-Wesley.
Little, R. J. A., & Rubin, D. B. (2019). Statistical analysis with missing data (3rd ed.). Hoboken: Wiley.
Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A, 374(2065).
Kaufman, L., & Rousseeuw, P. J. (2005). Finding groups in data: An introduction to cluster analysis. Hoboken: Wiley.
Greenacre, M. (2017). Correspondence analysis in practice (3rd ed.). Boca Raton: Chapman & Hall/CRC.
Lebart, L., Morineau, A., & Piron, M. (2000). Statistical exploration of multidimensional data. Berlin: Springer.
Husson, F., Lê, S., & Pagès, J. (2017). Exploratory multivariate analysis by example using R. Boca Raton: Chapman & Hall/CRC.
Cleveland, W. S. (1993). Visualizing data. Summit: Hobart Press.
Few, S. (2013). Information dashboard design (2nd ed.). Burlingame: Analytics Press.