Modelos Estadísticos

Pontifica Universidad Javeriana Cali

Maestria en Ciencia de Datos

Estudiante: Edwin Silva Salas

Actividad: I

Fecha: 2024-09-15


Evaluación de la oferta inmobiliaria urbana

Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

📋 Tabla de Contenidos

  1. Extracción de la base de datos
  2. Conocimiento de los datos
  3. Análisis de Componentes Principales (PCA)
  4. Análisis de Conglomerados
  5. Análisis de Correspondencias

1. Extracción de la base de datos

Base de datos y variables

# devtools::install_github("centromagis/paqueteMODELOS", force = TRUE)
library(paqueteMODELOS)
data("vivienda")

2. Conocimiento de los datos

Identificar el tipo de cada atributo

Tipos de Datos de las Variables
Variable Tipo
id numeric
zona character
piso character
estrato numeric
preciom numeric
areaconst numeric
parqueaderos numeric
banios numeric
habitaciones numeric
tipo character
barrio character
longitud numeric
latitud numeric

Análisis de Valores Faltantes (Missing Values)

Resumen de Valores Faltantes
Variable Cantidad Faltante % Faltante
piso 2638 31.70
parqueaderos 1605 19.29
id 3 0.04
zona 3 0.04
estrato 3 0.04
areaconst 3 0.04
banios 3 0.04
habitaciones 3 0.04
tipo 3 0.04
barrio 3 0.04
longitud 3 0.04
latitud 3 0.04
preciom 2 0.02

Variable piso: Con un 31.7% de datos faltantes se estima que es una cantidad superior al maximo permitdo para este caso, por lo que se eliminará el atributo piso del análisis, ya que la cantidad de datos faltantes es significativa y podría afectar la calidad del análisis. Además, el atributo piso puede no ser relevante para todas las propiedades (por ejemplo, casas), lo que hace que su imputación sea menos precisa y potencialmente sesgada.

Variable parqueadero: Es probable que muchos inmuebles no tengan parqueadero (el faltante es informativo) y una recomendación buena seria imputar con 0 (sin parqueadero), es más realista que usar la media con un 19.29% de datos faltantes, loc cual se considera una cantidad significativa, por lo tanto parqueadero = 0, se podria considerar que algunas viviendas no tienen parqueadero, y el cero (0) podria ser una buena representación.

Imputación de Valores Faltantes

Visualización de Missing Values - Después de Imputación

✓ No se encontraron valores faltantes en el dataset después de la imputación.

Boxplots (Detección de Valores Atípicos)

Revisaremos cada una de las variables numericas para identificar posibles valores atípicos.

areaconst :

Presenta algunos valores atípicos, lo cual es común en datos inmobiliarios debido a la variabilidad en el tamaño de las propiedades. Sin embargo, estos valores atípicos pueden ser legítimos (por ejemplo, propiedades muy grandes) y no necesariamente deben ser imputados sin un análisis más profundo.

Top 10 Propiedades con Mayor Área Construida
Área Const. (m²) Precio (M) Zona Estrato Habitaciones Baños Parqueaderos
1745 255 Zona Oriente 3 2 3 2
1600 1600 Zona Sur 6 6 6 3
1586 1800 Zona Sur 6 5 4 10
1500 1650 Zona Sur 6 3 5 4
1500 1500 Zona Sur 6 3 5 5
1440 370 Zona Norte 3 10 4 1
1365 200 Zona Oriente 3 4 1 0
1250 1500 Zona Sur 6 3 5 5
1200 1450 Zona Sur 5 6 6 2
1200 1200 Zona Oeste 5 10 6 0

banios :

Se puede visualizar en esta variable que los valores atipicos de 10 baños, pueden ser legítimos dado que revisando sus valores en la cantidad de habitaciones coinciden con la cantidad de baños, en su mayoria, es dicir, inmuebes de 10 baños con 10 habitaciones, lo que podriamos seria imputar algunos valores atipicos de baños acontandolos a la cantidad de habitaciones existentes, pero teniendo en cuenta que algunas propiedades prestan servicios publicos de baños, se dejaria de la forma en que estan asignados los valores.

Top 10 Propiedades con Mayor Número de Baños
Baños Área Const. (m²) Precio (M) Zona Estrato Habitaciones Parqueaderos
10 390 1350 Zona Sur 5 10 8
10 366 470 Zona Sur 3 10 0
10 600 1300 Zona Sur 3 10 0
10 200 630 Zona Sur 4 10 2
10 187 175 Zona Oriente 3 3 0
10 500 750 Zona Sur 4 9 3
10 900 1000 Zona Sur 5 10 5
10 265 1400 Zona Norte 5 10 0
10 452 680 Zona Norte 6 10 1
9 910 1600 Zona Sur 6 7 4

habitaciones :

Se observa que la variable habitaciones presenta algunos valores atípicos, como propiedades con 10 habitaciones. Sin embargo, estos valores pueden ser legítimos, especialmente en el caso de propiedades grandes o residencias multifamiliares. Es importante considerar el contexto del mercado inmobiliario y la posibilidad de que existan propiedades con un número elevado de habitaciones antes de decidir imputar o eliminar estos valores atípicos. Revisando y comparando su valor con la cantidad de baños se puede visualizar una cantidad no mucho menor y congruente a la cantidad de habitaciones, por lo que esta variable tiene atipicos admisibles.

Top 10 Propiedades con Mayor Número de Habitaciones
Habitaciones Área Const. (m²) Precio (M) Zona Estrato Baños Parqueaderos
10 750 610 Zona Centro 4 8 0
10 340 350 Zona Centro 3 4 1
10 179 280 Zona Oriente 3 5 1
10 390 1350 Zona Sur 5 10 8
10 237 290 Zona Centro 3 6 0
10 366 470 Zona Sur 3 10 0
10 400 1000 Zona Centro 6 5 0
10 350 650 Zona Sur 4 4 2
10 1000 1000 Zona Sur 4 7 0
10 500 500 Zona Sur 4 7 0

parqueaderos :

Se observa que la variable parqueaderos presenta algunos valores atípicos, como propiedades con 10 parqueaderos. Sin embargo, estos valores pueden ser legítimos, especialmente en el caso de propiedades grandes o residencias multifamiliares. Es importante considerar el contexto del mercado inmobiliario y la posibilidad de que existan propiedades con un número elevado de parqueaderos antes de decidir imputar o eliminar estos valores atípicos. Revisando y comparando su valor con la cantidad de habitaciones se puede visualizar algunas incongruencias que podriamos disminuyendo un poco la cantidad de parqueaderos, por lo que esta variable tiene algunos atipicos ajustables.

Top 10 Propiedades con Mayor Número de Parqueaderos
Parqueaderos Área Const. (m²) Precio (M) Zona Estrato Habitaciones Baños
10 1586 1800 Zona Sur 6 5 4
10 450 1800 Zona Sur 6 5 7
10 450 1150 Zona Sur 4 8 8
10 280 950 Zona Sur 5 0 0
10 350 350 Zona Norte 3 4 2
10 360 1200 Zona Sur 6 4 6
10 330 1600 Zona Sur 6 3 5
10 50 190 Zona Sur 4 4 2
9 140 390 Zona Sur 4 5 5
9 367 1700 Zona Sur 6 5 7

preciom :

Se observa que la variable preciom presenta algunos valores atípicos, como propiedades con precios extremadamente altos. Sin embargo, estos valores pueden ser legítimos, especialmente en el caso de propiedades grandes o ubicadas en zonas exclusivas. Es importante considerar el contexto del mercado inmobiliario y la posibilidad de que existan propiedades con precios elevados antes de decidir imputar o eliminar estos valores atípicos.

Visualizando el precio de algunas propiedades se alcanza a percibir algunos atipicos de habitaciones (10 por ejemplo) presente en estos valores, por lo que confirma aun mas que un valor supuestamente atipico tiene una naturaleza legitima confirmando la cantidad de otro atributo, en este caso la cantidad de habitaciones, ameritando un valor extremadamente atipico en el precio.

Top 10 Propiedades con Mayor Precio
Precio (M) Área Const. (m²) Zona Estrato Habitaciones Baños Parqueaderos
1999 800 Zona Oeste 5 5 7 5
1950 400 Zona Oeste 6 3 5 4
1950 450 Zona Oeste 6 4 5 4
1950 400 Zona Oeste 6 3 5 4
1940 734 Zona Norte 5 10 8 3
1900 320 Zona Sur 6 8 5 6
1900 450 Zona Sur 6 4 4 6
1900 335 Zona Sur 6 4 5 4
1900 850 Zona Sur 6 6 7 8
1900 450 Zona Sur 6 4 6 8

Limpieza de Datos e Imputación de Valores Atípicos

En ese sentido, y con el fin de realizar algunos ajustes en el dataset, e imputar valores atípicos se deben examinar en conjunto los valores que no podrían darse según y dada la naturaleza de los inmuebles.

Combinaciones Anómalas en Contexto Inmobiliario Real
Tipo de Anomalía Ejemplo Específico Razón Severidad
Precio muy bajo vs Área grande Precio < 150M con área > 300m² Subvaluación extrema o error de registro Alta
Precio muy alto vs Área pequeña Precio > 1000M con área < 80m² Sobrevaluación sin justificación espacial Alta
Estrato alto con pocos recursos Estrato 5-6 con 1-2 habitaciones, 1 baño, 0 parqueaderos Estratos altos requieren espacios y amenidades mínimas Media
Estrato bajo con lujos excesivos Estrato 1-2 con 8+ habitaciones, 6+ baños, 5+ parqueaderos Estratos bajos no pueden sostener infraestructura tan amplia Media
Habitaciones << Baños 10 habitaciones con 2 baños Proporción baños/habitaciones ilógica (mínimo 1 baño cada 3-4 hab) Alta
Baños > Habitaciones + 2 3 habitaciones con 6+ baños Exceso de baños sin justificación (máx 1-2 baños más que habitaciones) Media
Parqueaderos >> Habitaciones 3 habitaciones con 8+ parqueaderos No tiene sentido 8 parqueaderos para 3 habitaciones (uso residencial) Media
Área pequeña con muchos espacios Área < 60m² con 6+ habitaciones Imposible físicamente distribuir tantos espacios en área tan reducida Alta
Precio/m² inconsistente con estrato Estrato 6 con Precio/m² < 3M o Estrato 2 con Precio/m² > 8M El precio por m² debe ser coherente con el estrato socioeconómico Alta
Lujo sin espacio Área < 100m² con 8+ habitaciones + 6+ baños Distribución espacial imposible o poco práctica Alta
Resumen de Anomalías Detectadas
Tipo de Anomalía Cantidad % del Total
1. Precio bajo vs Área grande 0 0.00
2. Precio alto vs Área pequeña 0 0.00
3. Estrato alto con pocos recursos 10 0.12
4. Estrato bajo con lujos excesivos 0 0.00
5. Habitaciones >> Baños 1 0.01
6. Baños excesivos 53 0.64
7. Parqueaderos excesivos 2 0.02
8. Área pequeña con muchos espacios 0 0.00
9. Precio/m² inconsistente 591 7.10
10. Lujo sin espacio 1 0.01

1. Para solucionar el caso de valores atipicos Precio/m² inconsistente

La variable a Modificar recomendada seria la variable preciom (Precio), dado que es más confiable ajustar el precio que modificar el estrato, ya que:

  • El estrato es una clasificación socioeconómica fija del sector
  • El área construida es una medida física verificable
  • El precio puede tener errores de registro o captura

Método de Imputación: Imputar con la media (mean) m² del estrato correspondiente, no de toda la data.

2. Para solucionar el caso de valores atipicos Baños excesivos

La variable a Modificar recomendada seria la variable banios (Baños), dado que es más confiable ajustar el número de baños que modificar el número de habitaciones, ya que:

  • El número de habitaciones es una característica estructural del inmueble
  • El número de baños puede variar más fácilmente sin afectar la estructura básica

Método de Imputación: Establecer un máximo razonable basado en las habitaciones, por ejemplo, no más de 2 baños adicionales a las habitaciones (máx = habitaciones + 2).

Se decide imputar los dos casos expuestos inicialmente, dado que son los casos con mayor cantidad de registros afectados, y se consideran los más graves en términos de impacto en el análisis y la interpretación de los datos.

Resumen de Cambios en Precio
Casos_imputados Precio_min_original Precio_max_original Precio_min_nuevo Precio_max_nuevo
591 128 1900 330 1612.5
Resumen de Imputaciones Realizadas
Variable Registros Modificados % del Dataset Método de Imputación
Precio (preciom) 591 7.10 Media precio/m² por estrato (con límites percentiles 5-95)
Baños (banios) 53 0.64 Máximo habitaciones + 2

3. Análisis de Componentes Principales (PCA)

Este Análisis de Componentes Principales permite reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables para identificar características clave que influyen en la variación de precios y oferta del mercado inmobiliario.

Preparación de datos

Utilizamos el dataset vivienda_PCA que contiene las variables numéricas relevantes para el análisis: preciom, areaconst, parqueaderos, banios, habitaciones y estrato.

Estandarización de variables

Estandarizamos vivienda_PCA para que todos los valores queden en escalas comparables (media=0, desviación estándar=1), evitando que las variables con mayores magnitudes dominen el análisis. Los valores negativos se encuentran por debajo de la media y los positivos por encima, permitiendo comparar la influencia relativa de cada variable.

Primeras 10 observaciones de variables estandarizadas para PCA (media=0, sd=1)
preciom areaconst parqueaderos banios habitaciones estrato
-0.563 -0.734 -0.387 -0.071 1.641 -1.588
-0.381 -0.384 -0.387 -0.778 -0.415 -1.588
-0.303 0.315 0.417 -0.778 0.270 -1.588
-0.172 0.735 1.222 1.343 -0.415 -0.616
-0.537 -0.594 -0.387 -0.778 -0.415 0.356
-0.589 -0.615 -0.387 -0.071 -0.415 0.356
-0.642 -0.860 0.417 -0.778 -0.415 -0.616
-0.407 -0.265 0.417 -0.071 0.270 0.356
-0.381 -0.174 0.417 0.636 1.641 0.356
0.818 1.435 0.417 -0.071 -0.415 0.356

Aplicación del PCA

Aplicamos PCA sobre los datos ya estandarizados (vivienda_PCA_std) utilizando la función PCA del paquete FactoMineR. Como los datos ya están estandarizados, usamos scale.unit = FALSE. Se obtiene la tabla de varianza explicada por cada componente principal, que muestra el valor propio (eigenvalue), el porcentaje de varianza explicada por cada componente y la varianza acumulada.

Varianza Explicada por Componente Principal
Componente Valor Propio % Varianza % Acumulado
comp 1 Dim.1 3.43 57.14 57.14
comp 2 Dim.2 1.26 21.07 78.21
comp 3 Dim.3 0.46 7.69 85.89
comp 4 Dim.4 0.46 7.60 93.49
comp 5 Dim.5 0.22 3.73 97.22
comp 6 Dim.6 0.17 2.78 100.00

¿Qué nos dice esta tabla? Muestra cuánta información captura cada componente. Los primeros 2-3 componentes suelen capturar la mayor parte de la variabilidad (idealmente >70%). Si Dim.1 y Dim.2 suman más del 70%, significa que podemos resumir las 6 variables originales en solo 2 dimensiones sin perder mucha información.

Visualización de la varianza explicada

Interpretación del gráfico: La línea roja indica el porcentaje acumulado. Los componentes a la izquierda de donde la línea se “aplana” son los más importantes. Normalmente, los primeros 2-3 componentes capturan la mayor parte de la información, y los demás son menos relevantes (ruido).

Biplot - Relación entre variables y observaciones

¿Qué muestra el Biplot? Cada punto amarillo es una propiedad, y las flechas azules son las variables. Las flechas que apuntan en la misma dirección están correlacionadas (ej: precio y área suelen ir juntos). Las propiedades ubicadas cerca de una flecha tienen valores altos en esa variable.

Contribución de variables a los componentes principales

¿Qué significan estos gráficos? Muestran qué variables son más importantes para cada componente. La línea roja punteada es el promedio (16.67% = 100%/6 variables). Las variables por encima de esta línea contribuyen más que el promedio a ese componente.

Círculo de correlaciones

Interpretación del círculo: Variables cercanas entre sí están correlacionadas positivamente. Variables opuestas (180°) tienen correlación negativa. Mientras más larga la flecha, más importante es esa variable en el plano PC1-PC2. Variables perpendiculares (90°) no están correlacionadas.

Interpretación de componentes principales

Coordenadas de Variables en Todos los Componentes Principales
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
preciom 0.887 -0.217 0.062 -0.256 -0.033
areaconst 0.820 0.260 -0.107 -0.446 0.066
parqueaderos 0.751 -0.286 -0.530 0.269 0.027
banios 0.862 0.224 0.195 0.209 -0.344
habitaciones 0.530 0.766 0.093 0.237 0.247
estrato 0.617 -0.656 0.344 0.139 0.196

¿Qué son las coordenadas? Indican la posición de cada variable en cada componente. Valores altos (positivos o negativos) significan que esa variable tiene mucha influencia en ese componente.

Correlación entre Variables y Todos los Componentes Principales
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
preciom 0.887 -0.217 0.062 -0.256 -0.033
areaconst 0.820 0.260 -0.107 -0.446 0.066
parqueaderos 0.751 -0.286 -0.530 0.269 0.027
banios 0.862 0.224 0.195 0.209 -0.344
habitaciones 0.530 0.766 0.093 0.237 0.247
estrato 0.617 -0.656 0.344 0.139 0.196

¿Qué es la correlación? Muestra qué tan relacionada está cada variable con cada componente. Valores cercanos a 1 o -1 indican fuerte relación. Valores cercanos a 0 indican poca relación.

Contribución (%) de Variables a Todos los Componentes
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
preciom 22.93 3.74 0.84 14.38 0.48
areaconst 19.62 5.34 2.46 43.69 1.93
parqueaderos 16.47 6.47 60.87 15.82 0.32
banios 21.69 3.98 8.26 9.57 52.92
habitaciones 8.18 46.47 1.89 12.29 27.20
estrato 11.11 34.00 25.68 4.24 17.15

¿Qué es la contribución? Es el porcentaje que cada variable aporta a cada componente. La suma por columna es 100%. Las variables con mayor % son las que más definen ese componente.

Conclusiones del Análisis PCA

¿Qué logramos con el PCA?

El PCA nos permitió simplificar el análisis de 6 variables a solo 2-3 componentes principales que capturan la mayor parte de la información del mercado inmobiliario.

Beneficios obtenidos:

  1. Reducción de complejidad: En lugar de analizar 6 variables independientes, ahora trabajamos con 2-3 componentes que resumen la información más importante.

  2. Identificación de patrones: Descubrimos qué variables están relacionadas entre sí. El círculo de correlaciones muestra que área construida, baños y parqueaderos están fuertemente correlacionados (ángulos pequeños entre sus vectores), mientras que habitaciones muestra una relación más moderada con estas variables.

  3. Visualización clara: Los gráficos 2D nos permiten ver patrones que serían imposibles de visualizar en 6 dimensiones.

  4. Toma de decisiones más eficiente:

    • Podemos identificar rápidamente grupos de propiedades similares
    • Detectamos qué características son más relevantes para el precio
    • Facilitamos la segmentación del mercado para estrategias comerciales
  5. Optimización del análisis: En lugar de evaluar 6 variables por propiedad, los primeros 2 componentes nos dan una “huella digital” simplificada de cada inmueble, manteniendo entre 70-80% de la información original.

En resumen: El PCA convirtió un problema complejo de 6 dimensiones en un análisis visual de 2 dimensiones, sin perder la esencia de los datos, lo que facilita enormemente la comprensión del mercado y la toma de decisiones estratégicas.

4. Análisis de Conglomerados

Objetivo

Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

Metodología

Se utilizará la técnica de clustering jerárquico con método Ward.D2 para identificar grupos naturales de propiedades con características similares.

¿Por qué Ward.D2?

  • Minimiza la varianza intra-cluster: Agrupa propiedades más homogéneas dentro de cada cluster
  • Clusters balanceados: Produce grupos de tamaños más equilibrados, evitando clusters con muy pocas observaciones
  • Robusto a outliers: Menos sensible a valores extremos que otros métodos como complete linkage
  • Interpretación de negocio: Los grupos resultantes son más útiles para estrategias de marketing y comercialización

Objetivos del análisis:

  1. Identificar segmentos de mercado bien definidos
  2. Comprender mejor las diferencias entre zonas de la ciudad
  3. Detectar patrones en estratos socioeconómicos
  4. Facilitar estrategias de comercialización diferenciadas

Preparación de Datos

Estadísticas Descriptivas

Utilizamos el dataset vivienda_CONG que contiene las variables: preciom, areaconst, habitaciones, banios, parqueaderos y estrato.

Estadísticas Descriptivas de Variables para Clustering
Variable Media Desv. Estándar Mínimo Máximo
preciom preciom 466.09 383.56 58 1999
areaconst areaconst 174.93 142.94 30 1745
habitaciones habitaciones 3.61 1.46 0 10
banios banios 3.10 1.41 0 10
parqueaderos parqueaderos 1.48 1.24 0 10
estrato estrato 4.63 1.03 3 6

Estandarización de Variables

Estandarizamos vivienda_CONG para que las diferencias en los rangos de las variables no afecten los cálculos de distancias. Aplicamos la transformación Z-score:

\[z = \frac{x - \mu}{\sigma}\]

Primeras 10 Propiedades con Variables Estandarizadas para Clustering
preciom areaconst habitaciones banios parqueaderos estrato
P1 -0.563 -0.734 1.641 -0.071 -0.387 -1.588
P2 -0.381 -0.384 -0.415 -0.778 -0.387 -1.588
P3 -0.303 0.315 0.270 -0.778 0.417 -1.588
P4 -0.172 0.735 -0.415 1.343 1.222 -0.616
P5 -0.537 -0.594 -0.415 -0.778 -0.387 0.356
P6 -0.589 -0.615 -0.415 -0.071 -0.387 0.356
P7 -0.642 -0.860 -0.415 -0.778 0.417 -0.616
P8 -0.407 -0.265 0.270 -0.071 0.417 0.356
P9 -0.381 -0.174 1.641 0.636 0.417 0.356
P10 0.818 1.435 -0.415 -0.071 0.417 0.356

Cálculo de Distancias

Matriz de Distancias Euclidianas

Las distancias euclidianas miden la similitud entre propiedades. Distancias pequeñas indican propiedades similares, mientras que distancias grandes indican propiedades muy diferentes.

Fórmula de Distancia Euclidiana:

Para cada par de propiedades \((P_i, P_j)\), la distancia se calcula como:

\[d(P_i, P_j) = \sqrt{\sum_{k=1}^{6}(x_{ik} - x_{jk})^2}\]

Donde: - \(x_{ik}\) = valor de la variable \(k\) para la propiedad \(i\) - \(x_{jk}\) = valor de la variable \(k\) para la propiedad \(j\) - \(k\) = cada una de las 6 variables (preciom, areaconst, habitaciones, banios, parqueaderos, estrato)

Dimensión de la Matriz:

La matriz de distancias tiene dimensión \(n \times n\), donde \(n\) es el número de propiedades (registros) en el dataset, independientemente del número de variables. Cada celda \([i,j]\) representa la distancia euclidiana entre la propiedad \(i\) y la propiedad \(j\).

Matriz de Distancias Euclidianas (muestra de 10x10 propiedades)
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
P1 0.000 2.209 2.048 3.474 2.920 2.832 2.518 2.559 2.296 3.907
P2 2.209 0.000 1.270 3.054 1.961 2.091 1.373 2.326 3.270 3.110
P3 2.048 1.270 0.000 2.598 2.403 2.518 1.706 2.151 2.811 2.694
P4 3.474 3.054 2.598 0.000 3.151 2.744 2.812 2.262 2.681 2.250
P5 2.920 1.961 2.403 3.151 0.000 0.709 1.293 1.320 2.660 2.665
P6 2.832 2.091 2.518 2.744 0.709 0.000 1.468 1.128 2.369 2.614
P7 2.518 1.373 1.706 2.812 1.293 1.468 0.000 1.524 2.776 2.973
P8 2.559 2.326 2.151 2.262 1.320 1.128 1.524 0.000 1.545 2.205
P9 2.296 3.270 2.811 2.681 2.660 2.369 2.776 1.545 0.000 2.959
P10 3.907 3.110 2.694 2.250 2.665 2.614 2.973 2.205 2.959 0.000

Clustering Jerárquico

Construcción del Dendrograma

El dendrograma muestra cómo se van agrupando las propiedades de forma jerárquica, desde las más similares hasta formar grupos más grandes.

Determinación del Número Óptimo de Clusters

Método del Salto Máximo (Elbow Method)

Elegir el número óptimo de clusters es crucial. Utilizaremos el criterio del mayor salto en las alturas del dendrograma. El mayor incremento nos indica el número natural de grupos.

Método de Silhouette

El coeficiente de Silhouette mide qué tan bien se ajusta cada observación a su cluster. Valores cercanos a 1 indican un buen agrupamiento.

Coeficiente de Silhouette Promedio por Número de Clusters
Número de Clusters (k) Silhouette Promedio
2 0.4195
3 0.2271
4 0.2518
5 0.2481
6 0.2510
7 0.2218
8 0.2265

ℹ️ Óptimo estadístico (Silhouette): k = 2 (Silhouette = 0.4195 )
Número de clusters adoptado (criterio de negocio): k = 3 (Silhouette = 0.2271 )

Nota sobre Criterio de Negocio vs Criterio Estadístico:

El coeficiente de Silhouette sugiere k = 2 como óptimo estadístico. Sin embargo, para el análisis de mercado inmobiliario se adopta k = 3 por las siguientes razones:

  • Mayor granularidad: Permite identificar un segmento intermedio del mercado (económico, medio, premium) que con k=2 quedaría oculto.
  • Estrategias de marketing más específicas: Tres segmentos permiten diseñar campañas diferenciadas para cada perfil de comprador.
  • Mejor comprensión del mercado: Captura la estructura natural del mercado inmobiliario que típicamente tiene segmentos bajo, medio y alto.
  • Silhouette aceptable: El coeficiente para k=3 (0.2271) sigue siendo razonable, indicando clusters bien definidos.

Criterio adoptado: Se utiliza k = 3 por criterio de negocio, priorizando la interpretabilidad y utilidad práctica de la segmentación.

Asignación de Clusters

Resumen de Características por Cluster
Cluster Cantidad % Precio (M) Área (m²) Hab. Baños Parq. Estrato
1 3216 38.64 235.88 121.22 3.2 2.3 0.8 3.7
2 3154 37.90 395.87 121.97 3.1 2.9 1.6 5.2
3 1952 23.46 958.84 349.01 5.1 4.8 2.5 5.2

Visualización de Clusters

Gráfico de Dispersión: Precio vs Área Construida

Gráfico de Dispersión: Habitaciones vs Baños

Distribución de Clusters por Estrato

Distribución de Clusters por Zona

Visualización con Componentes Principales

Interpretación de Clusters

Cluster 1

Tamaño: 3216 propiedades (38.6%)

Características Promedio:

  • Precio: $235.88 millones
  • Área Construida: 121.2 m²
  • Habitaciones: 3.2
  • Baños: 2.3
  • Parqueaderos: 0.8
  • Estrato: 3.7

Zonas Principales:

  • Zona Sur: 1813 propiedades
  • Zona Norte: 936 propiedades
  • Zona Oriente: 248 propiedades

Cluster 2

Tamaño: 3154 propiedades (37.9%)

Características Promedio:

  • Precio: $395.87 millones
  • Área Construida: 122 m²
  • Habitaciones: 3.1
  • Baños: 2.9
  • Parqueaderos: 1.6
  • Estrato: 5.2

Zonas Principales:

  • Zona Sur: 1880 propiedades
  • Zona Norte: 639 propiedades
  • Zona Oeste: 628 propiedades

Cluster 3

Tamaño: 1952 propiedades (23.5%)

Características Promedio:

  • Precio: $958.84 millones
  • Área Construida: 349 m²
  • Habitaciones: 5.1
  • Baños: 4.8
  • Parqueaderos: 2.5
  • Estrato: 5.2

Zonas Principales:

  • Zona Sur: 1036 propiedades
  • Zona Oeste: 443 propiedades
  • Zona Norte: 345 propiedades

Conclusiones del Análisis de Conglomerados

Principales Hallazgos:

  1. Segmentación del Mercado: Se identificaron 3 segmentos de propiedades con características homogéneas, adoptando k=3 por criterio de negocio.

  2. Diferenciación por Precio y Características: Los clusters muestran clara diferenciación en términos de precio, tamaño y amenidades.

  3. Patrones Geográficos: Se observan concentraciones de clusters específicos en ciertas zonas de la ciudad.

  4. Relación con Estrato Socioeconómico: Los clusters reflejan la segmentación socioeconómica de la ciudad.

Validación desde Perspectiva de Negocio:

El método Ward.D2 produce clusters más balanceados que otros métodos de linkage, evitando la formación de clusters con muy pocas observaciones (outliers aislados) que no serían útiles para estrategias comerciales. Se verificó que los clusters resultantes cumplan con:

  • Distribución balanceada de observaciones
  • Diferenciación significativa en características clave (precio, área, amenidades)
  • Interpretabilidad clara para aplicaciones de negocio

Aplicaciones Estratégicas:

  • Segmentación de Marketing: Diseñar campañas específicas para cada cluster
  • Estrategia de Precios: Establecer precios competitivos según el cluster
  • Identificación de Oportunidades: Detectar nichos de mercado desatendidos
  • Gestión de Inventario: Optimizar la cartera de propiedades según demanda por cluster
  • Análisis Competitivo: Comparar propiedades dentro del mismo cluster

5. Análisis de Correspondencias Múltiples (MCA)

Objetivo

Examinar simultáneamente las relaciones entre las tres variables categóricas del mercado inmobiliario (tipo de vivienda, zona y barrio) para identificar patrones multivariados de comportamiento de la oferta y descubrir asociaciones complejas entre categorías.

¿Qué es el Análisis de Correspondencias Múltiples?

El Análisis de Correspondencias Múltiples (MCA) es una extensión del Análisis de Correspondencias (CA) que permite analizar más de dos variables categóricas simultáneamente. Permite:

  • Visualizar asociaciones multivariadas entre categorías de múltiples variables en un plano bidimensional
  • Identificar perfiles complejos que consideran combinaciones de características (ej: apartamentos + zona norte + barrio específico)
  • Detectar patrones globales del mercado que no son visibles en análisis bivariados
  • Simplificar estructuras complejas de datos categóricos en visualizaciones interpretables
  • Agrupar observaciones según similitud en sus características categóricas

Diferencias clave: - CA (Correspondencias Simple): Analiza 2 variables categóricas (tablas de contingencia) - MCA (Correspondencias Múltiples): Analiza 3 o más variables categóricas simultáneamente - vs PCA: Mientras PCA trabaja con variables numéricas, MCA trabaja con variables categóricas

Ventaja principal: MCA captura interacciones entre múltiples variables que se perderían en análisis de pares.

Preparación de Datos

Verificación de Datos Faltantes

Primero verificamos la integridad del dataset vivienda_CORR que contiene las variables categóricas.

✓ No se encontraron valores faltantes. Dataset con 8322 observaciones.

Exploración de Variables Categóricas

Resumen de Variables Categóricas para Análisis de Correspondencias
Variable Nº Categorías Nº Observaciones
Tipo 2 8322
Zona 5 8322
Barrio 436 8322

Aplicación del MCA

El MCA se aplica a las tres variables categóricas simultáneamente: tipo, zona, y barrio. Para mantener la interpretabilidad, se trabajará con los barrios más frecuentes.

Dataset para MCA:
- Variables: 3 (tipo, zona, barrio)
- Observaciones: 4094
- Categorías totales: 2 tipos + 5 zonas + 15 barrios = 22

Ejecución del MCA

MCA completado exitosamente
Dimensiones calculadas: 19
Variables activas: 3

Varianza Explicada

## #### Valores Propios y Varianza Explicada
Varianza Explicada por las Primeras 10 Dimensiones del MCA
Valor Propio % Varianza % Acumulado
dim 1 0.70 11.05 11.05
dim 2 0.66 10.47 21.51
dim 3 0.41 6.52 28.04
dim 4 0.36 5.68 33.72
dim 5 0.35 5.49 39.21
dim 6 0.33 5.26 44.47
dim 7 0.33 5.26 49.74
dim 8 0.33 5.26 55.00
dim 9 0.33 5.26 60.26
dim 10 0.33 5.26 65.53

Interpretación:

  • La Dimensión 1 explica 11.05% de la varianza total (inercia)
  • La Dimensión 2 explica 10.47% de la varianza adicional
  • Las primeras dos dimensiones conjuntamente capturan 21.51% de la variación total

✓ El mapa bidimensional proporciona una representación útil de las asociaciones principales.

Mapa de Categorías

El mapa de categorías muestra todas las categorías de las tres variables en un espacio bidimensional. Categorías cercanas indican perfiles similares.

¿Cómo interpretar este mapa?

  • Proximidad entre categorías: Categorías cercanas entre sí tienden a co-ocurrir (ej: si “Apartamento” está cerca de “Norte”, indica que muchos apartamentos están en la zona norte)
  • Distancia del origen (0,0): Categorías alejadas del centro tienen comportamiento más específico/característico
  • Color: Indica la contribución de cada categoría a la formación de las dimensiones (rojo = alta contribución)
  • Agrupaciones: Clusters de categorías sugieren perfiles de mercado diferenciados

Contribución de Variables y Categorías

Contribución de Variables a las Dimensiones

Interpretación: La línea roja horizontal representa la contribución promedio esperada. Variables por encima de esta línea tienen influencia importante en esa dimensión.

Contribución de Categorías Individuales

Insight para el tomador de decisiones: Las categorías con mayor contribución son las que definen los ejes principales de diferenciación del mercado.

Calidad de Representación (Cos2)

Interpretación del Cos²: - Cos² alto (color rojo/naranja): La categoría está bien representada en el plano 2D - Cos² bajo (color azul claro): La categoría requiere dimensiones adicionales para ser completamente explicada - Solo se muestran las 25 categorías con mejor calidad de representación para facilitar la interpretación

Mapa de Individuos (Observaciones)

Interpretación:

  • Cada punto representa una propiedad
  • Las elipses agrupan el 95% de las observaciones de cada tipo
  • Separación clara entre elipses indica que ese tipo tiene perfil distinto en zona/barrio

Biplot: Variables e Individuos

Hallazgos Clave para el Tomador de Decisiones

1. Perfiles de Mercado Multivariados Identificados:

El MCA revela asociaciones complejas que involucran las tres variables simultáneamente. A diferencia del análisis bivariado, podemos identificar perfiles como “Apartamentos en Zona Norte del Barrio X”.

2. Segmentación Estratégica:

Perfil 1 (Dim 1 positivo): - normandía - Zona Oeste - los cristales - santa teresita - aguacatal

Perfil 2 (Dim 1 negativo): - ciudad jardín - el limonar - Casa - pance - el caney

Perfil 3 (Dim 2 positivo): - Zona Centro - la flora - acopi - prados del norte - Zona Norte

Perfil 4 (Dim 2 negativo): - Zona Oriente - la hacienda - el refugio - el ingenio - el caney

3. Aplicaciones Estratégicas:

Para Desarrolladores Inmobiliarios: - Identificación de combinaciones exitosas: Detecta qué combinaciones tipo-zona-barrio son más comunes (puntos densos en el mapa) - Nichos desatendidos: Combinaciones poco representadas pueden ser oportunidades - Benchmarking geográfico: Compara barrios con perfiles similares para replicar estrategias

Para Agentes Inmobiliarios: - Segmentación de portafolio: Agrupa propiedades según perfiles MCA para marketing dirigido - Predicción de demanda: Propiedades en regiones densas del mapa tienen demanda establecida - Expansión estratégica: Identifica zonas/barrios con características similares a las exitosas

Para Inversionistas: - Diversificación inteligente: Invertir en diferentes regiones del mapa MCA = diversificación real - Detección de tendencias: Monitorear movimiento de nuevas propiedades en el espacio MCA - Valoración contextual: Propiedades con perfiles únicos (alejadas del origen) pueden justificar precios premium

4. Ventajas del MCA sobre CA y PCA:

Aspecto MCA CA (Simple) PCA
Variables analizadas 3+ categóricas simultáneas 2 categóricas Múltiples numéricas
Interacciones Captura efectos de 3+ variables Solo pares de variables Relaciones lineales
Perfiles complejos ✓ Sí ✗ No N/A
Tipo de dato Categórico Categórico Numérico
Visualización Mapas 2D multivariados Mapas bivariados Componentes principales

5. Insights Accionables:

  • Marketing: Diseñar campañas específicas para cada cuadrante del mapa MCA
  • Pricing: Propiedades en la misma región del mapa deben tener pricing similar
  • Desarrollo: Proyectos nuevos deben considerar el perfil MCA del barrio objetivo
  • Inventario: Mantener balance de propiedades en diferentes regiones del mapa

Conclusiones del Análisis de Correspondencias Múltiples

A diferencia de análisis univariados o bivariados, el MCA proporciona una comprensión integrada y multidimensional del mercado que permite: - Toma de decisiones basada en perfiles completos (no características aisladas) - Detección de oportunidades en combinaciones específicas de atributos - Segmentación más precisa y accionable del mercado inmobiliario