1 Introducción

El presente trabajo tiene como objetivo realizar un análisis no supervisado de segmentación de propiedades residenciales en la ciudad de Cali. Para tal fin, se aplican dos enfoques principales de segmentación: Análisis de Componentes Principales (PCA) y Análisis de Conglomerados (Clustering).

Adicionalmente, para estudiar las relaciones entre las variables categóricas, como tipo de vivienda y zona, se emplea un Análisis de Correspondencias (CA), con el fin de identificar patrones y comportamientos en el mercado residencial de Cali.

Este análisis permitirá comprender mejor la dinámica de precios, características de las propiedades y distribución espacial de la vivienda en la ciudad, proporcionando información valiosa para los agentes inmobiliarios de finca raíz.

2 Datos

La base de datos denominada vivienda (enlace) resume información del mercado inmobiliario en la ciudad de Cali, incluyendo viviendas y apartamentos.

Cuenta con 8,322 observaciones y 13 variables, que se describen a continuación:

id: identificador único de la propiedad.

zona: sector de la ciudad donde se encuentra la propiedad.

piso: ubicación de la propiedad dentro del edificio (número de piso).

preciom: precio de la propiedad en millones de pesos.

areaconst: área construida en metros cuadrados.

parqueaderos: número de parqueaderos asociados a la propiedad.

banios: número de baños.

habitaciones: número de habitaciones.

tipo: tipo de propiedad (Casa o Apartamento).

barrio: barrio donde se ubica la propiedad.

longitud y latitud: coordenadas geográficas de la propiedad.

3 Preparación y exploración de los datos

3.1 Valores faltantes y duplicados

Valores faltantes:

Se detectaron 3 observaciones con ID nulo, las cuales presentaban poca o ninguna información en las demás columnas, por lo que fueron eliminadas.
Otras variables, como piso y parqueaderos, presentan valores faltantes correspondientes al 31,67% y 19,25% del total de registros, respectivamente. Estos serán tratados posteriormente según el análisis que se realice para cada variable.

Duplicados: No se encontraron registros duplicados tras la eliminación de los IDs nulos, lo que garantiza la integridad de los datos para análisis posteriores.

3.2 Analisis Descriptivo

3.2.1 Variables cuantitativas

Tabla 1: Resumen variables numéricas
variable media sd min max
preciom 433.90 328.67 58 1999
areaconst 174.93 142.96 30 1745
parqueaderos 1.84 1.12 1 10
banios 3.11 1.43 0 10
habitaciones 3.61 1.46 0 10

Tabla 1 presenta el resumen de las variables cuantitativas del dataset vivienda. Se observa que el precio promedio de las viviendas en la ciudad de Cali para el año de estudio es de 433 millones, y el área construida promedio es de aproximadamente 174 m². Algunos valores llaman la atención, como casas o apartamentos con 0 baños o 0 habitaciones, o un valor máximo de 10 parqueaderos, lo que dificulta determinar si son valores propios de la distribución normal de las viviendas residenciales, o si corresponden a inmuebles comerciales. Cabe destacar que la variable tipo solo distingue entre “casa” o “apartamento”.

3.2.2 Variables cualitativas

Tabla 2: Resumen de variables cualitativas
Variable Moda Frecuencia Porcentaje
estrato 5 2750 33.06
tipo Apartamento 5100 61.31
zona Zona Sur 4726 56.81
barrio valle del lili 1008 12.12
piso 02 1450 25.51

Tabla 2 presenta un resumen de las variables cualitativas del dataset vivienda. Se observa que la categoría más frecuente para el tipo de inmueble es apartamento, con 61.31% de las observaciones. El barrio más común es Valle del Lili, con 12.12% de las viviendas. Además, un 33.06% de las observaciones corresponden a inmuebles de estrato 5. Para la variable piso, el más frecuente es el piso 2, representando 25.5% de los registros.

Los Anexos A1 y A2 presentan la distribución de las variables. En ellos se observa que las variables cuantitativas no siguen una distribución normal, sino que son sesgadas y presentan colas largas. Por su parte, las variables categóricas muestran que piso y barrio presentan varias categorías, la mayoría de los inmuebles son apartamentos y se encuentran en la zona sur de la ciudad de Cali. Cabe destacar que esta base solo incluye inmuebles de estrato 3 al 6.

3.2.3 Valores atipicos

En los anexos A3 y A4 se presentan los boxplots de las variables cuantitativas. Como estrategia de limpieza de los datos, se propone lo siguiente:

Para la depuracion de la base de datos se emplearon múltiples criterios orientados a identificar observaciones atípicas que pudieran distorsionar el análisis posterior. Estos criterios combinaron herramientas estadísticas con reglas fundamentadas en la coherencia de mercado.

En particular, se aplicaron los siguientes criterios:

  1. Eliminación de registros estructuralmente inválidos, tales como viviendas con cero baños o cero habitaciones.

  2. Incoherencias entre características físicas y precio, por ejemplo:

  3. Número elevado de parqueaderos (≥ 6) con precios inferiores a 500 millones.

  4. Más de 6 habitaciones con precios inferiores a 500 millones.

  5. Más de 6 baños con precios inferiores a 500 millones.

  6. Criterios basados en precio por metro cuadrado, tales como valores extremadamente bajos o combinaciones poco plausibles entre estrato y precio por m² (por ejemplo, estratos medios-bajos con precios por m² excesivamente altos).

  7. Aplicación del algoritmo Isolation Forest, como método automático de detección de outliers multivariados.

Adicionalmente, se exploraron métodos tradicionales como los diagramas de caja (boxplots) univariados. Sin embargo, estos resultaron limitados para el objetivo del estudio, ya que identifican valores extremos únicamente desde una perspectiva estadística individual y no consideran la coherencia conjunta entre variables ni el contexto del mercado inmobiliario.

Si bien algunas de las observaciones identificadas podrían corresponder a casos reales, se consideró que determinadas combinaciones de características resultaban poco plausibles dentro del comportamiento general del mercado. Además, la presencia de estos valores extremos podría afectar significativamente análisis multivariados posteriores, como el Análisis de Componentes Principales.

El algoritmo Isolation Forest, por su parte, mostró ciertas debilidades en este contexto, al clasificar como atípicos numerosos inmuebles de estratos altos con precios elevados que, aunque estadísticamente extremos, pueden ser coherentes dentro del mercado real.

En consecuencia, se optó por aplicar criterios propios reconociendo su carácter parcialmente subjetivo pero alineados con una interpretación razonable del mercado inmobiliario. Para una depuración completamente exhaustiva sería recomendable realizar una revisión caso por caso; no obstante, dicho procedimiento resulta dispendioso y excede el alcancé del presente trabajo.

Del total inicial de 8.319 observaciones, se eliminaron 263 (3.16%) tras aplicar criterios de coherencia estructural y reglas de detección de atipicidad. La proporción eliminada es reducida, lo que sugiere una depuración conservadora orientada a minimizar distorsiones sin alterar significativamente la estructura general del mercado inmobiliario en la ciudad de Cali.

3.2.4 Valores faltantes

Piso: La variable piso presenta un porcentaje considerable de valores faltantes (aproximadamente entre 27% y 38% según el tipo de inmueble ya sea casa o apartamento). Aunque se observa una mayor proporción de datos faltantes en viviendas tipo casa, la diferencia no es suficientemente notoria como para atribuir el patrón exclusivamente a una característica estructural. No obstante, el nivel general de ausencia de información es elevado del 38%, lo que podría afectar la estabilidad de los análisis posteriores.

Dado que la variable no es central para el objetivo del estudio y su imputación podría introducir sesgos adicionales, se opta por excluirla del conjunto de variables para estudios posteriores.

Parqueaderos: Al analizar la variable parqueaderos, se observó que la base de datos no registra valores iguales a cero, lo cual resulta metodológicamente problemático, dado que en el contexto del mercado inmobiliario colombiano es razonable asumir que existen viviendas sin parqueadero. (Aunque la base ya esta sesgada para estratos 3,4,5,6) La mayoría de los valores faltantes (NA) se concentran en los estratos 3 y 4, mientras que su frecuencia disminuye en los estratos superiores.

Este patrón sugiere que los valores faltantes no se distribuyen de manera completamente aleatoria, sino que podrían estar asociados al nivel socioeconómico del inmueble. Si bien el cero es conceptualmente plausible en la población y esperado , no es posible distinguir en los datos si un NA corresponde efectivamente a la ausencia de parqueadero (Problema de identificación) o a un valor no reportado.

En particular, al revisar los inmuebles de estrato 6 con valores faltantes, se encontró que presentan promedios de área construida (277 m²) y precio (769 millones) elevados, lo que indica que la ausencia de información no está necesariamente vinculada a viviendas de menor calidad.Por lo que imputar cero a estas viviendas seria problematico (Suponiendo que NA es igual a cero parqueaderos)

Dado que no es posible identificar con certeza el mecanismo de generación de los datos faltantes ni imputar ceros de manera estadísticamente consistente dado que no hay ceros en los valores presentes, la inclusión de esta variable podría introducir sesgos en los análisis posteriores. Por esta razón, se opta por excluir la variable parqueaderos.

En el anexo A5 se presenta la estructura de los valores faltantes.

3.2.5 Correlaciones entre variables

Las correlaciones entre las variables numéricas originales muestran relaciones fuertes entre varias de ellas. Por ejemplo:

  • Precio y área construida presentan una correlación de Spearman de 0.84, indicando que a mayor área construida, el precio tiende a ser mayor.

  • Precio y número de baños tienen una correlación de 0.79, lo que también refleja una relación positiva fuerte.

  • Área construida y baños se correlacionan en 0.79, mientras que área construida y habitaciones muestran una correlación de 0.67.

  • La correlación entre precio y número de habitaciones es menor, con 0.46, pero sigue siendo una relación importante.

Esto tiene sentido economico en el mercado de inmuebles en cali.

Se utiliza correlación de Spearman debido a la naturaleza discreta de algunas variables (como baños y habitaciones), lo que hace que esta medida sea más robusta frente a valores atípicos y distribuciones no normales. Las correlaciónes se presentan en el anexo A6.

4 Analisis de Componentes Principales (PCA)

El Análisis de Componentes Principales (PCA) se realizó con el objetivo de reducir la dimensionalidad del dataset y explorar posibles relaciones entre las variables cuantitativas. Las variables activas incluidas fueron precio, área construida, baños y habitaciones, descartando parqueaderos debido a problemas de imputación y el riesgo de sesgo. Como variable cuantitativa suplementaria se incluyó precio por metro cuadrado, al ser una medida derivada de las variables activas, y como variables cualitativas suplementarias se consideraron zona, tipo de inmueble y estrato. Las variables suplementarias no participan en la construcción del PCA, pero permiten visualizar relaciones y patrones importantes en el espacio reducido

La Ilustración 1 presenta el círculo de correlación del PCA. La Dimensión 1 explica la mayor parte de la varianza (71.3%), mientras que la Dimensión 2 captura el 16.7%. Se observa una fuerte correlación positiva entre el precio total dominando la constribución, el área construida y el número de baños, siendo estas las variables con mayor carga en la Dimensión 1. Por el contrario, la variable habitaciones muestra una trayectoria que se aleja del eje horizontal, sugiriendo que su variabilidad no depende exclusivamente del tamaño del inmueble. Finalmente, la variable suplementaria (precio por m²) se proyecta de forma casi ortogonal a la Dimensión 1, lo que indica que el valor unitario del metro cuadrado se comporta de manera diferente al tamaño y al precio total de la propiedad, vinculándose más estrechamente con la Dimensión 2. Sugiriendo quizas inmuebles más pequeños pero con un metro cuadrado más elevado.

La Ilustración 2 evidencia una segmentación clara del mercado inmobiliario en Cali, guardando coherencia con la configuración socioeconómica de la ciudad. En la Dimensión 1, se agrupan los inmuebles de Estrato 6 y la Zona Oeste, los cuales, al contrastarse con la Ilustración 1, destacan por sus altos precios totales y grandes áreas. Por su parte, las Casas se ubican en el cuadrante superior derecho, correlacionándose con un mayor número de habitaciones.

Un hallazgo relevante es la ubicación de los Apartamentos en el cuadrante inferior izquierdo, que con su cercanía al vector de precio_m2 (visto en la Ilustración 1) sugiere que, aunque poseen áreas menores,aunque con un precio mt2 mayor, posiblemente por acabados modernos o ubicación. Finalmente, el Estrato 3, el Estrato 4 y la Zona Oriente se sitúan en el extremo izquierdo, representando el segmento de oferta más económica y de menor metraje, lo cual valida la capacidad del modelo para reflejar la realidad del territorio.

Por otra parte, la Zona Centro muestra una relación inversa con el precio por metro cuadrado. Mientras tanto, las zonas Sur, Norte y el Estrato 5 se sitúan en el origen, consolidándose como el perfil promedio o punto de referencia del mercado inmobiliario analizado

La Ilustración 3 presenta la varianza explicada por cada componente principal. Se observa una caída drástica después del segundo componente(Codo), lo que confirma que las Dimensiones 1 y 2 son suficientes para capturar la estructura de los datos (sumando un 88% de la varianza total). Por lo tanto, el uso de dos dimensiones es estadísticamente óptimo para este PCA para este caso , ya que añadir una tercera dimensión no aportaría información significativamente relevante.

En el anexo A6 se presenta un resumen detallado del análisis de componentes principales (PCA) realizado sobre la base vivienda.

Eigenvalues y varianza explicada: La Dimensión 1 explica 71.3% de la varianza, mientras que la Dimensión 2 explica 16.7%. Lo que indica que los dos primeros ejes capturan la mayor parte de la información de los datos.

Variables activas: Los cos2 muestran que las variables precio, área construida y baños tienen una fuerte relación con Dimensión 1 y una relación mucho menor con Dimensión 2. La variable habitaciones tiene un cos2 más bajo, indicando que su representación en los ejes principales es menor.

Variable suplementaria continua (precio_m2): No presenta una buena relación con Dimensión 1 (cos2 muy bajo). Se observa una relación moderada con Dimensión 2, lo que indica que algo de su información es capturada por esta dimension.

Variables suplementarias cualitativas: Se observan las categorías proyectadas a través del estadístico v.test, que indica qué tan significativamente cada categoría se asocia con la dimension:

Estrato 6 tiene un v.test alto y positivo en Dimensión 1, indicando que está fuertemente asociada a ese eje.

Estrato 3 presenta un v.test negativo en Dimensión 1, indicando una relación inversa con ese eje.

Otras categorías tienen v.test cercanos a cero, ubicándose cerca del centroide de los datos, lo que indica que no contribuyen fuertemente a la definición de los ejes principales.(Estrato 5, Zona centro y Zona sur). Aunque la dimensión 2 si refleja mayor parte de su información.

5 Análisis de Conglomerados

Para la segmentación del mercado inmobiliario en Cali, se emplearán dos técnicas complementarias de aprendizaje no supervisado: en primer lugar, el algoritmo de K-means, y en segundo lugar, el Clustering Jerárquico para identificar la estructura y niveles de agrupación de los datos. Para la correcta ejecución de los algoritmos las variables fueron estandarizadas y se utilizaron las mismas variables utilizadas en el analisis de PCA, es decir precio del inmueble, habitaciones, baños y area construida.

5.1 K-means

El algoritmo K-means parte del principio de minimizar la suma de cuadrados intra-cluster (\(WSS\) o \(W(C_k)\)). Para determinar el número óptimo de grupos, nos apoyaremos en la gráfica de codo, la cual permite visualizar la reducción en la \(WSS\) a medida que aumenta el número de clústeres, identificando el punto donde marginalmente la ganancia deja de ser significativa.

\[ W(C_k) = \frac{1}{|C_k|} \sum_{i, i' \in C_k} \sum_{j=1}^{p} (x_{ij} - x_{i'j})^2 \]

La Ilustración 4 muestra la evolución de la suma de cuadrados intra-cluster (\(WSS\)) en función del número de clústeres (\(k\)). Se observa que, tras alcanzar los 3 grupos, la ganancia marginal en redución del (\(WSS\)) se reduce. Este método visual indica que k=3 es el número óptimo de grupos para segmentar.

Ilustración 5. Ubicación de las viviendas en la ciudad de Cali agrupadas en clusters

La Ilustración 5 muestra la distribución de los inmuebles en Cali según los clusters. El Cluster 1 (azul) se concentra en las zonas Centro, Norte y Oriente, mientras que los Clusters 2 y 3 predominan en Occidente y Sur, aunque no existe una separación completamente nítida entre ellos.

Tabla 3. Características promedio por segmento de vivienda (Clusters)
cluster Cantidad_Inmuebles Precio_Promedio Area_Construida_Prom Habitaciones_Prom Banios_Prom
1 4680 249.62 92.14 2.90 2.20
2 821 1082.25 466.50 5.31 5.53
3 2555 567.79 221.10 4.13 3.96

Estos resultados se reflejan en la Tabla 3, donde se observa que:

El cluster 1 es el más predominante, con la mayor cantidad de inmuebles, precios más bajos, áreas construidas menores y menor número de habitaciones y baños.

El cluster 2 representa el segmento de inmuebles lujosos y menos poblado, con precios muy elevados, áreas construidas amplias y un mayor número de habitaciones y baños.

El cluster 3 corresponde a un segmento intermedio entre los Clusters 1 y 2 en términos de precio, tamaño y características del inmueble.

No obstante no se evidencia una segmentación tan marcada geograficamente los inmuebles, sobre todo para el cluster 2 y 3.

5.2 Hierarchical Clustering

Para la segmentación de inmuebles de la ciudad de Cali, se utilizó el algoritmo de clustering jerárquico con la configuración de Ward, buscando minimizar la varianza interna dentro de los clusters y maximizar la separación entre grupos.

En el anexo A8 se presentan las gráficas de agregaciones y del coeficiente de silhouette, utilizadas para determinar el número óptimo de agrupaciones mediante clustering jerárquico. Aunque ambos indicadores sugieren que el valor óptimo corresponde a 2 agrupaciones, se decidió utilizar 3 con el fin de preservar la diferenciación entre los inmuebles, evitando agrupar juntos, por ejemplo, propiedades costosas y de nivel medio, y así obtener una interpretación más clara y significativa de los grupos.

La Ilustración 6 muestra el dendrograma obtenido mediante clustering jerárquico aplicado a la base de datos de inmuebles, en el cual se establece un punto de corte que permite identificar tres segmentos claramente diferenciados

Ilustración 7. Ubicación de las viviendas en la ciudad de Cali agrupadas en clusters

Tabla 4. Caracterización de Clusters - Método Jerárquico (Ward)
cluster_jerarquico Cantidad Precio_Prom Area_Prom Habitaciones_Prom Banios_Prom
1 2035 495.77 221.49 4.24 3.92
2 4790 260.50 95.26 2.89 2.22
3 1231 1016.05 383.53 4.85 5.16

La Ilustración 7 y la Tabla 4 muestran nuevamente la separación de los inmuebles en la ciudad de Cali, esta vez mediante clustering jerárquico como método no supervisado de agregación. En este análisis, el Cluster 2 agrupa la mayor cantidad de inmuebles, caracterizados por precios más bajos, áreas construidas reducidas y un menor número de habitaciones y baños. El Cluster 3 corresponde a los inmuebles más lujosos, con precios elevados, amplias áreas construidas y un alto número de habitaciones y baños. El Cluster 1 se sitúa como intermedio entre ambos extremos. Cabe destacar que este método tiende a asignar un mayor número de observaciones al cluster más lujoso en comparación con k-means, lo que disminuye el promedio de habitaciones y genera 1.231 observaciones frente a las 821 obtenidas con k-means.”

6 Análisis de Correspondencia

Para el Análisis de Correspondencias multiples se parte del mismo dataset vivienda. Se seleccionan unicamente las variables categoricas, excluyendo la variable barrio, dado que su alto número de categorías podría generar una tabla de contingencia muy amplia, con múltiples celdas vacías o frecuencias muy bajas, lo que dificultaría el analisis de correspondencias, x tanto, el estudio se realiza utilizando las variables tipo de vivienda, estrato y zona.

La Ilustración 8 presenta el gráfico del Análisis de Correspondencias Múltiples (MCA) aplicado a las variables categóricas del dataset vivienda. Se observa que la Dimensión 1 (eje horizontal) explica el 20,5% de la inercia total, capturando la mayor proporción de variabilidad en las asociaciones entre las categorías.

En el extremo derecho del eje horizontal se ubican principalmente Zona Oriente, Zona Centro y el estrato 3, lo que sugiere una asociación entre estas categorías. En contraste, en el lado izquierdo se localizan Zona Oeste, Zona Sur y los estratos 5 y 6, los cuales tradicionalmente se asocian con sectores de mayor valorización.

La Dimensión 2 (eje vertical), que explica el 17% de la varianza total. En la parte superior se ubican Zona Oeste y estrato 6, mientras que en la parte inferior se encuentran principalmente los estratos 4 y 5 junto con Zona Sur.

Respecto al tipo de inmueble, se observa que la categoría Apartamento se posiciona hacia el lado izquierdo del gráfico, relativamente próxima a Zona Oeste y a los estratos 5 y 6, lo que sugiere una mayor presencia o asociación de proyectos de apartamentos en sectores de mayor precio de los inmuebles. Por su parte, la categoría Casa se ubica más hacia el centro-derecha del plano factorial, cercana a Zona Norte y a estratos intermedios, lo que indicaría una mayor representación de viviendas tipo casa en esta zona.

En el anexo A9 se detalla los autovalores (eigenvalues) y el porcentaje de varianza explicada por cada dimensión, junto con un análisis de la contribución de las variables originales a la construcción del espacio de dimensiones.

7 Conclusiones

Las tres técnicas empleadas Análisis de Componentes Principales (PCA), análisis de conglomerados mediante K-means y clustering jerárquico, y análisis correspondencia nos permiten concluir que el mercado inmobiliario en Cali presenta una segmentación estructural que puede ser resumida.

Esta separacion está determinada principalmente por el tamaño del inmueble, el número de habitaciones y baños, así como por variables como el estrato y la zona de ubicación. Se evidencia una diferencia particularmente marcada entre los inmuebles ubicados en la zona oeste, asociados predominantemente al estrato 6 y caracterizados por mayores áreas, más servicios y precios elevados, y aquellos situados en la zona oriente, mayoritariamente de estrato 3, con menores dimensiones y valores de mercado significativamente inferiores. Esta oposición configura un eje estructural que organiza buena parte de la dinámica inmobiliaria de la ciudad.

El análisis de clustering, tanto mediante K-means como a través del método jerárquico (Ward), identifica al menos tres agrupaciones principales:

Un segmento de alto lujo, concentrado en la zona oeste y estrato 6, con grandes áreas construidas, mayor número de habitaciones y baños, y precios elevados.

Un segmento intermedio, ubicado principalmente en zonas sur y norte, asociado sobre todo a estratos 5 y, en menor medida, 4, con características físicas y valores de mercado intermedios.

Un segmento popular, concentrado en la zona oriente y estrato 3, que además representa la mayor proporción de inmuebles dentro del conjunto analizado.

En cuanto al tipo de vivienda, se observa que los apartamentos, pese a presentar menores áreas construidas en promedio, registran mayores precios por metro cuadrado. Esto sugiere que constituyen una estrategia comercial eficiente en sectores de ingresos medios y medio-altos. En contraste, en la zona oriente y en sectores más populares, las casas desempeñan un papel preponderante y más tradicional.

No obstante, pese a esta segmentación estructural, el análisis espacial mediante la superposición de los grupos de clustering sobre el mapa urbano evidencia que pueden coexistir inmuebles de alto valor con inmuebles intermedios e incluso populares dentro de un mismo entorno geográfico. Esta configuración es consistente con el patrón de ciudad fragmentada característico del contexto colombiano, donde la segregación socioeconomica no siempre implica una separación territorial.

Asimismo, parte de esta dinamica puede explicarse por procesos históricos de transición: sectores tradicionales o centrales que anteriormente concentraban familias de altos ingresos pueden conservar inmuebles amplios y de alto valor, los cuales, aunque originalmente residenciales, hoy presentan usos mixtos habitacionales y comerciales. Lo que introduce heterogeneidad al analisis.

8 Anexos

8.0.1 A1. Histograma de variables númericas

El Anexo 1 ilustra los histogramas de las variables areaconstruida, preciom, habitaciones, baños y parqueaderos. Se observa que las distribuciones de estas variables no siguen una forma normal, mostrando sesgos y colas largas.

8.0.2 A2. Histograma variables categoricas

El Anexo 2 presenta la distribución de las variables categóricas: barrio, estrato, piso, tipo de inmueble y zona. Se observa que piso y barrio cuentan con varias categorías. La mayoría de los inmuebles se encuentran en la zona sur, y el estrato abarca del 3 al 6, por lo que esta base no incluye inmuebles de estratos 1 y 2.

8.0.3 A3. Boxplots de variables númericas.

El Anexo A3 ilustra los boxplots tradicionales de las variables numéricas del dataset vivienda. Se observa que existe una gran cantidad de valores que no encajan dentro de los rangos clásicos del boxplot. No obstante, la medcouple de las variables indica un sesgo positivo: 0.33 para preciom y 0.462 para areaconst. Esto evidencia que los boxplots tradicionales no reflejan adecuadamente la asimetría de los datos. Los histogramas de las demás variables muestran un patrón similar, por lo que los boxplots pueden tender a subestimar o sobreestimar la presencia de valores atípicos en estos casos.

8.0.4 A4. Boxplot ajustado por asimetria

Anexo 4. Se presentan los boxplots ajustados para las variables numéricas. Como era de esperarse, algunos valores se encuentran fuera de los rangos típicos. Para no perder información valiosa, se revisarán detalladamente estos casos.

Para la estrategia de identificación de valores atípicos:

  1. Se construirá una nueva variable precio por metro cuadrado.

  2. Se eliminarán inmuebles con cero habitaciones o sin baños, asumiendo que todos los registros corresponden a viviendas.

  3. Se revisarán los casos donde las variables parqueaderos, habitaciones y baños sean inconsistentes con el precio, el área o el estrato, con el fin de mantener solo observaciones realistas.

8.0.5 A5. Estructura de los valores ausentes

El Anexo A5 presenta la estructura de valores faltantes del conjunto de datos, destacando particularmente las variables piso y parqueaderos. Se evidencia que el 0.81% de las observaciones contiene valores ausentes de manera simultánea en ambas variables, lo que indica una baja incidencia de faltantes conjuntos.

8.0.6 A6. Mapa de calor de correlación de Spearman

8.0.7 A7. Resumen de PCA

## [1] "LC_COLLATE=es_ES.UTF-8;LC_CTYPE=es_ES.UTF-8;LC_MONETARY=es_ES.UTF-8;LC_NUMERIC=C;LC_TIME=es_ES.UTF-8"
## 
## Call:
## PCA(X = df_pca, scale.unit = TRUE, quanti.sup = 5, quali.sup = 6:8,  
##      graph = FALSE) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4
## Variance               2.850   0.667   0.303   0.179
## % of var.             71.259  16.673   7.587   4.481
## Cumulative % of var.  71.259  87.932  95.519 100.000
## 
## Individuals (the 10 first)
##                  Dist    Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3
## 1            |  2.183 |  0.169  0.000  0.006 |  1.975  0.073  0.819 | -0.387
## 2            |  1.029 | -0.973  0.004  0.894 | -0.087  0.000  0.007 |  0.288
## 3            |  0.975 | -0.196  0.000  0.041 |  0.436  0.004  0.200 |  0.822
## 4            |  1.636 |  0.906  0.004  0.307 | -0.365  0.002  0.050 | -0.403
## 5            |  1.192 | -1.176  0.006  0.973 |  0.039  0.000  0.001 |  0.142
## 6            |  0.948 | -0.834  0.003  0.774 |  0.066  0.000  0.005 | -0.371
## 7            |  1.398 | -1.380  0.008  0.974 |  0.135  0.000  0.009 | -0.048
## 8            |  0.591 | -0.189  0.000  0.102 |  0.548  0.006  0.859 | -0.099
## 9            |  2.118 |  0.961  0.004  0.206 |  1.788  0.059  0.713 | -0.486
## 10           |  1.874 |  1.084  0.005  0.334 | -1.089  0.022  0.338 |  1.062
##                 ctr   cos2  
## 1             0.006  0.031 |
## 2             0.003  0.079 |
## 3             0.028  0.711 |
## 4             0.007  0.061 |
## 5             0.001  0.014 |
## 6             0.006  0.154 |
## 7             0.000  0.001 |
## 8             0.000  0.028 |
## 9             0.010  0.053 |
## 10            0.046  0.321 |
## 
## Variables
##                 Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## preciom      |  0.830 24.191  0.690 | -0.488 35.753  0.238 | -0.024  0.191
## areaconst    |  0.897 28.212  0.804 | -0.070  0.744  0.005 |  0.394 51.159
## banios       |  0.901 28.464  0.811 | -0.013  0.026  0.000 | -0.384 48.557
## habitaciones |  0.738 19.133  0.545 |  0.651 63.478  0.423 |  0.017  0.093
##                cos2  
## preciom       0.001 |
## areaconst     0.155 |
## banios        0.147 |
## habitaciones  0.000 |
## 
## Supplementary continuous variable
##                 Dim.1   cos2    Dim.2   cos2    Dim.3   cos2  
## precio_m2    | -0.026  0.001 | -0.572  0.327 | -0.448  0.201 |
## 
## Supplementary categories (the 10 first)
##                   Dist     Dim.1    cos2  v.test     Dim.2    cos2  v.test  
## estrato_3    |   1.038 |  -0.827   0.635 -19.246 |   0.570   0.302  27.439 |
## estrato_4    |   0.698 |  -0.661   0.899 -20.706 |   0.207   0.088  13.367 |
## estrato_5    |   0.094 |  -0.002   0.000  -0.078 |   0.074   0.607   5.756 |
## estrato_6    |   1.433 |   1.239   0.748  37.562 |  -0.692   0.233 -43.336 |
## Zona Centro  |   0.768 |  -0.074   0.009  -0.452 |   0.690   0.807   8.714 |
## Zona Norte   |   0.388 |  -0.343   0.781  -9.961 |   0.144   0.139   8.685 |
## Zona Oeste   |   0.845 |   0.529   0.392  11.633 |  -0.627   0.552 -28.535 |
## Zona Oriente |   1.019 |  -0.377   0.137  -3.788 |   0.876   0.739  18.192 |
## Zona Sur     |   0.067 |   0.027   0.164   1.672 |   0.033   0.253   4.284 |
## Apartamento  |   0.729 |  -0.700   0.923 -48.514 |  -0.185   0.065 -26.544 |
##                Dim.3    cos2  v.test  
## estrato_3      0.253   0.059  18.028 |
## estrato_4      0.029   0.002   2.760 |
## estrato_5     -0.022   0.055  -2.566 |
## estrato_6     -0.166   0.013 -15.382 |
## Zona Centro    0.315   0.168   5.889 |
## Zona Norte     0.105   0.073   9.360 |
## Zona Oeste    -0.128   0.023  -8.611 |
## Zona Oriente   0.350   0.118  10.768 |
## Zona Sur      -0.038   0.320  -7.145 |
## Apartamento   -0.070   0.009 -14.878 |

8.0.8 A8. Figura de agregaciones y coeficiente de Silhouette.

{#anexoA8}

8.0.9 A9. Resumen Analisís de correspondencia

## 
## Call:
## MCA(X = df_mca, ncp = 5, graph = FALSE) 
## 
## 
## Eigenvalues
##                        Dim.1   Dim.2   Dim.3   Dim.4   Dim.5   Dim.6   Dim.7
## Variance               0.546   0.453   0.381   0.334   0.329   0.275   0.202
## % of var.             20.490  16.987  14.297  12.512  12.343  10.294   7.567
## Cumulative % of var.  20.490  37.477  51.774  64.286  76.629  86.923  94.490
##                        Dim.8
## Variance               0.147
## % of var.              5.510
## Cumulative % of var. 100.000
## 
## Individuals (the 10 first)
##                 Dim.1    ctr   cos2    Dim.2    ctr   cos2    Dim.3    ctr
## 1            |  2.550  0.148  0.559 |  1.159  0.037  0.115 |  0.689  0.015
## 2            |  2.550  0.148  0.559 |  1.159  0.037  0.115 |  0.689  0.015
## 3            |  2.550  0.148  0.559 |  1.159  0.037  0.115 |  0.689  0.015
## 4            |  0.119  0.000  0.008 | -0.748  0.015  0.315 |  0.882  0.025
## 5            |  0.016  0.000  0.000 | -0.275  0.002  0.038 | -1.301  0.055
## 6            |  0.016  0.000  0.000 | -0.275  0.002  0.038 | -1.301  0.055
## 7            |  0.014  0.000  0.000 | -0.494  0.007  0.107 | -0.573  0.011
## 8            |  0.016  0.000  0.000 | -0.275  0.002  0.038 | -1.301  0.055
## 9            |  0.448  0.005  0.086 | -0.362  0.004  0.056 | -0.849  0.023
## 10           |  0.448  0.005  0.086 | -0.362  0.004  0.056 | -0.849  0.023
##                cos2  
## 1             0.041 |
## 2             0.041 |
## 3             0.041 |
## 4             0.439 |
## 5             0.860 |
## 6             0.860 |
## 7             0.144 |
## 8             0.860 |
## 9             0.308 |
## 10            0.308 |
## 
## Categories (the 10 first)
##                  Dim.1     ctr    cos2  v.test     Dim.2     ctr    cos2
## Zona Centro  |   2.818   6.315   0.105  29.067 |   1.129   1.223   0.017
## Zona Norte   |   0.538   4.069   0.087  26.421 |  -0.161   0.440   0.008
## Zona Oeste   |  -1.136  11.506   0.221 -42.184 |   1.705  31.267   0.498
## Zona Oriente |   3.279  22.639   0.384  55.642 |   1.714   7.460   0.105
## Zona Sur     |  -0.187   1.230   0.048 -19.570 |  -0.497  10.452   0.335
## 3            |   1.771  30.786   0.601  69.600 |   0.737   6.430   0.104
## 4            |  -0.151   0.359   0.008  -7.993 |  -0.902  15.409   0.282
## 5            |  -0.148   0.451   0.011  -9.474 |  -0.459   5.219   0.107
## 6            |  -0.800   9.566   0.208 -40.909 |   1.093  21.563   0.388
## Apartamento  |  -0.355   4.847   0.214 -41.554 |   0.066   0.199   0.007
##               v.test     Dim.3     ctr    cos2  v.test  
## Zona Centro   11.649 |   1.458   2.424   0.028  15.041 |
## Zona Norte    -7.912 |  -1.369  37.747   0.561 -67.215 |
## Zona Oeste    63.315 |  -0.130   0.217   0.003  -4.839 |
## Zona Oriente  29.083 |   0.976   2.872   0.034  16.555 |
## Zona Sur     -51.943 |   0.489  12.043   0.325  51.153 |
## 3             28.961 |  -0.226   0.719   0.010  -8.885 |
## 4            -47.661 |   0.618   8.605   0.133  32.674 |
## 5            -29.342 |  -0.731  15.698   0.271 -46.683 |
## 6             55.924 |   0.501   5.389   0.082  25.648 |
## Apartamento    7.665 |  -0.310   5.296   0.163 -36.280 |
## 
## Categorical variables (eta2)
##                Dim.1 Dim.2 Dim.3  
## zona         | 0.750 0.691 0.633 |
## estrato      | 0.675 0.661 0.348 |
## tipo         | 0.214 0.007 0.163 |