Modelos EstadísticosPontifica Universidad Javeriana Cali Maestria en Ciencia de Datos Estudiante: Edwin Silva Salas Actividad: I Fecha: 2024-09-15 |
|
Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
# devtools::install_github("centromagis/paqueteMODELOS", force = TRUE)
library(paqueteMODELOS)
data("vivienda")
| Variable | Tipo |
|---|---|
| id | numeric |
| zona | character |
| piso | character |
| estrato | numeric |
| preciom | numeric |
| areaconst | numeric |
| parqueaderos | numeric |
| banios | numeric |
| habitaciones | numeric |
| tipo | character |
| barrio | character |
| longitud | numeric |
| latitud | numeric |
| Variable | Cantidad Faltante | % Faltante |
|---|---|---|
| piso | 2638 | 31.70 |
| parqueaderos | 1605 | 19.29 |
| id | 3 | 0.04 |
| zona | 3 | 0.04 |
| estrato | 3 | 0.04 |
| areaconst | 3 | 0.04 |
| banios | 3 | 0.04 |
| habitaciones | 3 | 0.04 |
| tipo | 3 | 0.04 |
| barrio | 3 | 0.04 |
| longitud | 3 | 0.04 |
| latitud | 3 | 0.04 |
| preciom | 2 | 0.02 |
Variable piso: Con un 31.7% de datos faltantes se estima
que es una cantidad superior al maximo permitdo para este caso, por lo
que se eliminará el atributo piso del análisis, ya que la
cantidad de datos faltantes es significativa y podría afectar la calidad
del análisis. Además, el atributo piso puede no ser
relevante para todas las propiedades (por ejemplo, casas), lo que hace
que su imputación sea menos precisa y potencialmente sesgada.
Variable parqueadero: Es probable que muchos inmuebles
no tengan parqueadero (el faltante es informativo) y una recomendación
buena seria imputar con 0 (sin parqueadero), es más realista que usar la
media con un 19.29% de datos faltantes, loc cual se considera una
cantidad significativa, por lo tanto parqueadero = 0, se
podria considerar que algunas viviendas no tienen parqueadero, y el cero
(0) podria ser una buena representación.
Revisaremos cada una de las variables numericas para identificar posibles valores atípicos.
areaconst :Presenta algunos valores atípicos, lo cual es común en datos inmobiliarios debido a la variabilidad en el tamaño de las propiedades. Sin embargo, estos valores atípicos pueden ser legítimos (por ejemplo, propiedades muy grandes) y no necesariamente deben ser imputados sin un análisis más profundo.
| Área Const. (m²) | Precio (M) | Zona | Estrato | Habitaciones | Baños | Parqueaderos |
|---|---|---|---|---|---|---|
| 1745 | 255 | Zona Oriente | 3 | 2 | 3 | 2 |
| 1600 | 1600 | Zona Sur | 6 | 6 | 6 | 3 |
| 1586 | 1800 | Zona Sur | 6 | 5 | 4 | 10 |
| 1500 | 1650 | Zona Sur | 6 | 3 | 5 | 4 |
| 1500 | 1500 | Zona Sur | 6 | 3 | 5 | 5 |
| 1440 | 370 | Zona Norte | 3 | 10 | 4 | 1 |
| 1365 | 200 | Zona Oriente | 3 | 4 | 1 | 0 |
| 1250 | 1500 | Zona Sur | 6 | 3 | 5 | 5 |
| 1200 | 1450 | Zona Sur | 5 | 6 | 6 | 2 |
| 1200 | 1200 | Zona Oeste | 5 | 10 | 6 | 0 |
banios :Se puede visualizar en esta variable que los valores atipicos de 10 baños, pueden ser legítimos dado que revisando sus valores en la cantidad de habitaciones coinciden con la cantidad de baños, en su mayoria, es dicir, inmuebes de 10 baños con 10 habitaciones, lo que podriamos seria imputar algunos valores atipicos de baños acontandolos a la cantidad de habitaciones existentes, pero teniendo en cuenta que algunas propiedades prestan servicios publicos de baños, se dejaria de la forma en que estan asignados los valores.
| Baños | Área Const. (m²) | Precio (M) | Zona | Estrato | Habitaciones | Parqueaderos |
|---|---|---|---|---|---|---|
| 10 | 390 | 1350 | Zona Sur | 5 | 10 | 8 |
| 10 | 366 | 470 | Zona Sur | 3 | 10 | 0 |
| 10 | 600 | 1300 | Zona Sur | 3 | 10 | 0 |
| 10 | 200 | 630 | Zona Sur | 4 | 10 | 2 |
| 10 | 187 | 175 | Zona Oriente | 3 | 3 | 0 |
| 10 | 500 | 750 | Zona Sur | 4 | 9 | 3 |
| 10 | 900 | 1000 | Zona Sur | 5 | 10 | 5 |
| 10 | 265 | 1400 | Zona Norte | 5 | 10 | 0 |
| 10 | 452 | 680 | Zona Norte | 6 | 10 | 1 |
| 9 | 910 | 1600 | Zona Sur | 6 | 7 | 4 |
habitaciones :Se observa que la variable habitaciones presenta algunos
valores atípicos, como propiedades con 10 habitaciones. Sin embargo,
estos valores pueden ser legítimos, especialmente en el caso de
propiedades grandes o residencias multifamiliares. Es importante
considerar el contexto del mercado inmobiliario y la posibilidad de que
existan propiedades con un número elevado de habitaciones antes de
decidir imputar o eliminar estos valores atípicos. Revisando y
comparando su valor con la cantidad de baños se puede visualizar una
cantidad no mucho menor y congruente a la cantidad de habitaciones, por
lo que esta variable tiene atipicos admisibles.
| Habitaciones | Área Const. (m²) | Precio (M) | Zona | Estrato | Baños | Parqueaderos |
|---|---|---|---|---|---|---|
| 10 | 750 | 610 | Zona Centro | 4 | 8 | 0 |
| 10 | 340 | 350 | Zona Centro | 3 | 4 | 1 |
| 10 | 179 | 280 | Zona Oriente | 3 | 5 | 1 |
| 10 | 390 | 1350 | Zona Sur | 5 | 10 | 8 |
| 10 | 237 | 290 | Zona Centro | 3 | 6 | 0 |
| 10 | 366 | 470 | Zona Sur | 3 | 10 | 0 |
| 10 | 400 | 1000 | Zona Centro | 6 | 5 | 0 |
| 10 | 350 | 650 | Zona Sur | 4 | 4 | 2 |
| 10 | 1000 | 1000 | Zona Sur | 4 | 7 | 0 |
| 10 | 500 | 500 | Zona Sur | 4 | 7 | 0 |
parqueaderos :Se observa que la variable parqueaderos presenta algunos
valores atípicos, como propiedades con 10 parqueaderos. Sin embargo,
estos valores pueden ser legítimos, especialmente en el caso de
propiedades grandes o residencias multifamiliares. Es importante
considerar el contexto del mercado inmobiliario y la posibilidad de que
existan propiedades con un número elevado de parqueaderos antes de
decidir imputar o eliminar estos valores atípicos. Revisando y
comparando su valor con la cantidad de habitaciones se puede visualizar
algunas incongruencias que podriamos disminuyendo un poco la cantidad de
parqueaderos, por lo que esta variable tiene algunos atipicos
ajustables.
| Parqueaderos | Área Const. (m²) | Precio (M) | Zona | Estrato | Habitaciones | Baños |
|---|---|---|---|---|---|---|
| 10 | 1586 | 1800 | Zona Sur | 6 | 5 | 4 |
| 10 | 450 | 1800 | Zona Sur | 6 | 5 | 7 |
| 10 | 450 | 1150 | Zona Sur | 4 | 8 | 8 |
| 10 | 280 | 950 | Zona Sur | 5 | 0 | 0 |
| 10 | 350 | 350 | Zona Norte | 3 | 4 | 2 |
| 10 | 360 | 1200 | Zona Sur | 6 | 4 | 6 |
| 10 | 330 | 1600 | Zona Sur | 6 | 3 | 5 |
| 10 | 50 | 190 | Zona Sur | 4 | 4 | 2 |
| 9 | 140 | 390 | Zona Sur | 4 | 5 | 5 |
| 9 | 367 | 1700 | Zona Sur | 6 | 5 | 7 |
preciom :Se observa que la variable preciom presenta algunos
valores atípicos, como propiedades con precios extremadamente altos. Sin
embargo, estos valores pueden ser legítimos, especialmente en el caso de
propiedades grandes o ubicadas en zonas exclusivas. Es importante
considerar el contexto del mercado inmobiliario y la posibilidad de que
existan propiedades con precios elevados antes de decidir imputar o
eliminar estos valores atípicos.
Visualizando el precio de algunas propiedades se alcanza a percibir
algunos atipicos de habitaciones (10 por ejemplo) presente en estos
valores, por lo que confirma aun mas que un valor supuestamente atipico
tiene una naturaleza legitima confirmando la cantidad de otro atributo,
en este caso la cantidad de habitaciones, ameritando un valor
extremadamente atipico en el precio.
| Precio (M) | Área Const. (m²) | Zona | Estrato | Habitaciones | Baños | Parqueaderos |
|---|---|---|---|---|---|---|
| 1999 | 800 | Zona Oeste | 5 | 5 | 7 | 5 |
| 1950 | 400 | Zona Oeste | 6 | 3 | 5 | 4 |
| 1950 | 450 | Zona Oeste | 6 | 4 | 5 | 4 |
| 1950 | 400 | Zona Oeste | 6 | 3 | 5 | 4 |
| 1940 | 734 | Zona Norte | 5 | 10 | 8 | 3 |
| 1900 | 320 | Zona Sur | 6 | 8 | 5 | 6 |
| 1900 | 450 | Zona Sur | 6 | 4 | 4 | 6 |
| 1900 | 335 | Zona Sur | 6 | 4 | 5 | 4 |
| 1900 | 850 | Zona Sur | 6 | 6 | 7 | 8 |
| 1900 | 450 | Zona Sur | 6 | 4 | 6 | 8 |
En ese sentido, y con el fin de realizar algunos ajustes en el dataset, e imputar valores atípicos se deben examinar en conjunto los valores que no podrían darse según y dada la naturaleza de los inmuebles.
| Tipo de Anomalía | Ejemplo Específico | Razón | Severidad |
|---|---|---|---|
| Precio muy bajo vs Área grande | Precio < 150M con área > 300m² | Subvaluación extrema o error de registro | Alta |
| Precio muy alto vs Área pequeña | Precio > 1000M con área < 80m² | Sobrevaluación sin justificación espacial | Alta |
| Estrato alto con pocos recursos | Estrato 5-6 con 1-2 habitaciones, 1 baño, 0 parqueaderos | Estratos altos requieren espacios y amenidades mínimas | Media |
| Estrato bajo con lujos excesivos | Estrato 1-2 con 8+ habitaciones, 6+ baños, 5+ parqueaderos | Estratos bajos no pueden sostener infraestructura tan amplia | Media |
| Habitaciones << Baños | 10 habitaciones con 2 baños | Proporción baños/habitaciones ilógica (mínimo 1 baño cada 3-4 hab) | Alta |
| Baños > Habitaciones + 2 | 3 habitaciones con 6+ baños | Exceso de baños sin justificación (máx 1-2 baños más que habitaciones) | Media |
| Parqueaderos >> Habitaciones | 3 habitaciones con 8+ parqueaderos | No tiene sentido 8 parqueaderos para 3 habitaciones (uso residencial) | Media |
| Área pequeña con muchos espacios | Área < 60m² con 6+ habitaciones | Imposible físicamente distribuir tantos espacios en área tan reducida | Alta |
| Precio/m² inconsistente con estrato | Estrato 6 con Precio/m² < 3M o Estrato 2 con Precio/m² > 8M | El precio por m² debe ser coherente con el estrato socioeconómico | Alta |
| Lujo sin espacio | Área < 100m² con 8+ habitaciones + 6+ baños | Distribución espacial imposible o poco práctica | Alta |
| Tipo de Anomalía | Cantidad | % del Total |
|---|---|---|
| 1. Precio bajo vs Área grande | 0 | 0.00 |
| 2. Precio alto vs Área pequeña | 0 | 0.00 |
| 3. Estrato alto con pocos recursos | 10 | 0.12 |
| 4. Estrato bajo con lujos excesivos | 0 | 0.00 |
| 5. Habitaciones >> Baños | 1 | 0.01 |
| 6. Baños excesivos | 53 | 0.64 |
| 7. Parqueaderos excesivos | 2 | 0.02 |
| 8. Área pequeña con muchos espacios | 0 | 0.00 |
| 9. Precio/m² inconsistente | 591 | 7.10 |
| 10. Lujo sin espacio | 1 | 0.01 |
La variable a Modificar recomendada seria la variable preciom (Precio), dado que es más confiable ajustar el precio que modificar el estrato, ya que:
Método de Imputación: Imputar con la media (mean) m² del estrato correspondiente, no de toda la data.
La variable a Modificar recomendada seria la variable banios (Baños), dado que es más confiable ajustar el número de baños que modificar el número de habitaciones, ya que:
Método de Imputación: Establecer un máximo razonable basado en las habitaciones, por ejemplo, no más de 2 baños adicionales a las habitaciones (máx = habitaciones + 2).
Se decide imputar los dos casos expuestos inicialmente, dado que son los casos con mayor cantidad de registros afectados, y se consideran los más graves en términos de impacto en el análisis y la interpretación de los datos.
| Casos_imputados | Precio_min_original | Precio_max_original | Precio_min_nuevo | Precio_max_nuevo |
|---|---|---|---|---|
| 591 | 128 | 1900 | 330 | 1612.5 |
| Variable | Registros Modificados | % del Dataset | Método de Imputación |
|---|---|---|---|
| Precio (preciom) | 591 | 7.10 | Media precio/m² por estrato (con límites percentiles 5-95) |
| Baños (banios) | 53 | 0.64 | Máximo habitaciones + 2 |
Este Análisis de Componentes Principales permite reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables para identificar características clave que influyen en la variación de precios y oferta del mercado inmobiliario.
Utilizamos el dataset vivienda_PCA que contiene las
variables numéricas relevantes para el análisis: preciom,
areaconst, parqueaderos, banios,
habitaciones y estrato.
Estandarizamos vivienda_PCA para que todos los valores
queden en escalas comparables (media=0, desviación estándar=1), evitando
que las variables con mayores magnitudes dominen el análisis. Los
valores negativos se encuentran por debajo de la media y los positivos
por encima, permitiendo comparar la influencia relativa de cada
variable.
| preciom | areaconst | parqueaderos | banios | habitaciones | estrato |
|---|---|---|---|---|---|
| -0.563 | -0.734 | -0.387 | -0.071 | 1.641 | -1.588 |
| -0.381 | -0.384 | -0.387 | -0.778 | -0.415 | -1.588 |
| -0.303 | 0.315 | 0.417 | -0.778 | 0.270 | -1.588 |
| -0.172 | 0.735 | 1.222 | 1.343 | -0.415 | -0.616 |
| -0.537 | -0.594 | -0.387 | -0.778 | -0.415 | 0.356 |
| -0.589 | -0.615 | -0.387 | -0.071 | -0.415 | 0.356 |
| -0.642 | -0.860 | 0.417 | -0.778 | -0.415 | -0.616 |
| -0.407 | -0.265 | 0.417 | -0.071 | 0.270 | 0.356 |
| -0.381 | -0.174 | 0.417 | 0.636 | 1.641 | 0.356 |
| 0.818 | 1.435 | 0.417 | -0.071 | -0.415 | 0.356 |
Aplicamos PCA sobre los datos ya estandarizados
(vivienda_PCA_std) utilizando la función PCA
del paquete FactoMineR. Como los datos ya están
estandarizados, usamos scale.unit = FALSE. Se obtiene la
tabla de varianza explicada por cada componente principal, que muestra
el valor propio (eigenvalue), el porcentaje de varianza explicada por
cada componente y la varianza acumulada.
| Componente | Valor Propio | % Varianza | % Acumulado | |
|---|---|---|---|---|
| comp 1 | Dim.1 | 3.43 | 57.14 | 57.14 |
| comp 2 | Dim.2 | 1.26 | 21.07 | 78.21 |
| comp 3 | Dim.3 | 0.46 | 7.69 | 85.89 |
| comp 4 | Dim.4 | 0.46 | 7.60 | 93.49 |
| comp 5 | Dim.5 | 0.22 | 3.73 | 97.22 |
| comp 6 | Dim.6 | 0.17 | 2.78 | 100.00 |
¿Qué nos dice esta tabla? Muestra cuánta información captura cada componente. Los primeros 2-3 componentes suelen capturar la mayor parte de la variabilidad (idealmente >70%). Si Dim.1 y Dim.2 suman más del 70%, significa que podemos resumir las 6 variables originales en solo 2 dimensiones sin perder mucha información.
Interpretación del gráfico: La línea roja indica el porcentaje acumulado. Los componentes a la izquierda de donde la línea se “aplana” son los más importantes. Normalmente, los primeros 2-3 componentes capturan la mayor parte de la información, y los demás son menos relevantes (ruido).
¿Qué muestra el Biplot? Cada punto amarillo es una propiedad, y las flechas azules son las variables. Las flechas que apuntan en la misma dirección están correlacionadas (ej: precio y área suelen ir juntos). Las propiedades ubicadas cerca de una flecha tienen valores altos en esa variable.
¿Qué significan estos gráficos? Muestran qué variables son más importantes para cada componente. La línea roja punteada es el promedio (16.67% = 100%/6 variables). Las variables por encima de esta línea contribuyen más que el promedio a ese componente.
Interpretación del círculo: Variables cercanas entre sí están correlacionadas positivamente. Variables opuestas (180°) tienen correlación negativa. Mientras más larga la flecha, más importante es esa variable en el plano PC1-PC2. Variables perpendiculares (90°) no están correlacionadas.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| preciom | 0.887 | -0.217 | 0.062 | -0.256 | -0.033 |
| areaconst | 0.820 | 0.260 | -0.107 | -0.446 | 0.066 |
| parqueaderos | 0.751 | -0.286 | -0.530 | 0.269 | 0.027 |
| banios | 0.862 | 0.224 | 0.195 | 0.209 | -0.344 |
| habitaciones | 0.530 | 0.766 | 0.093 | 0.237 | 0.247 |
| estrato | 0.617 | -0.656 | 0.344 | 0.139 | 0.196 |
¿Qué son las coordenadas? Indican la posición de cada variable en cada componente. Valores altos (positivos o negativos) significan que esa variable tiene mucha influencia en ese componente.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| preciom | 0.887 | -0.217 | 0.062 | -0.256 | -0.033 |
| areaconst | 0.820 | 0.260 | -0.107 | -0.446 | 0.066 |
| parqueaderos | 0.751 | -0.286 | -0.530 | 0.269 | 0.027 |
| banios | 0.862 | 0.224 | 0.195 | 0.209 | -0.344 |
| habitaciones | 0.530 | 0.766 | 0.093 | 0.237 | 0.247 |
| estrato | 0.617 | -0.656 | 0.344 | 0.139 | 0.196 |
¿Qué es la correlación? Muestra qué tan relacionada está cada variable con cada componente. Valores cercanos a 1 o -1 indican fuerte relación. Valores cercanos a 0 indican poca relación.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| preciom | 22.93 | 3.74 | 0.84 | 14.38 | 0.48 |
| areaconst | 19.62 | 5.34 | 2.46 | 43.69 | 1.93 |
| parqueaderos | 16.47 | 6.47 | 60.87 | 15.82 | 0.32 |
| banios | 21.69 | 3.98 | 8.26 | 9.57 | 52.92 |
| habitaciones | 8.18 | 46.47 | 1.89 | 12.29 | 27.20 |
| estrato | 11.11 | 34.00 | 25.68 | 4.24 | 17.15 |
¿Qué es la contribución? Es el porcentaje que cada variable aporta a cada componente. La suma por columna es 100%. Las variables con mayor % son las que más definen ese componente.
¿Qué logramos con el PCA?
El PCA nos permitió simplificar el análisis de 6 variables a solo 2-3 componentes principales que capturan la mayor parte de la información del mercado inmobiliario.
Beneficios obtenidos:
Reducción de complejidad: En lugar de analizar 6 variables independientes, ahora trabajamos con 2-3 componentes que resumen la información más importante.
Identificación de patrones: Descubrimos qué variables están relacionadas entre sí. El círculo de correlaciones muestra que área construida, baños y parqueaderos están fuertemente correlacionados (ángulos pequeños entre sus vectores), mientras que habitaciones muestra una relación más moderada con estas variables.
Visualización clara: Los gráficos 2D nos permiten ver patrones que serían imposibles de visualizar en 6 dimensiones.
Toma de decisiones más eficiente:
Optimización del análisis: En lugar de evaluar 6 variables por propiedad, los primeros 2 componentes nos dan una “huella digital” simplificada de cada inmueble, manteniendo entre 70-80% de la información original.
En resumen: El PCA convirtió un problema complejo de 6 dimensiones en un análisis visual de 2 dimensiones, sin perder la esencia de los datos, lo que facilita enormemente la comprensión del mercado y la toma de decisiones estratégicas.
Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.
Se utilizará la técnica de clustering jerárquico con método Ward.D2 para identificar grupos naturales de propiedades con características similares.
¿Por qué Ward.D2?
Objetivos del análisis:
Utilizamos el dataset vivienda_CONG que contiene las
variables: preciom, areaconst,
habitaciones, banios,
parqueaderos y estrato.
| Variable | Media | Desv. Estándar | Mínimo | Máximo | |
|---|---|---|---|---|---|
| preciom | preciom | 466.09 | 383.56 | 58 | 1999 |
| areaconst | areaconst | 174.93 | 142.94 | 30 | 1745 |
| habitaciones | habitaciones | 3.61 | 1.46 | 0 | 10 |
| banios | banios | 3.10 | 1.41 | 0 | 10 |
| parqueaderos | parqueaderos | 1.48 | 1.24 | 0 | 10 |
| estrato | estrato | 4.63 | 1.03 | 3 | 6 |
Estandarizamos vivienda_CONG para que las diferencias en
los rangos de las variables no afecten los cálculos de distancias.
Aplicamos la transformación Z-score:
\[z = \frac{x - \mu}{\sigma}\]
| preciom | areaconst | habitaciones | banios | parqueaderos | estrato | |
|---|---|---|---|---|---|---|
| P1 | -0.563 | -0.734 | 1.641 | -0.071 | -0.387 | -1.588 |
| P2 | -0.381 | -0.384 | -0.415 | -0.778 | -0.387 | -1.588 |
| P3 | -0.303 | 0.315 | 0.270 | -0.778 | 0.417 | -1.588 |
| P4 | -0.172 | 0.735 | -0.415 | 1.343 | 1.222 | -0.616 |
| P5 | -0.537 | -0.594 | -0.415 | -0.778 | -0.387 | 0.356 |
| P6 | -0.589 | -0.615 | -0.415 | -0.071 | -0.387 | 0.356 |
| P7 | -0.642 | -0.860 | -0.415 | -0.778 | 0.417 | -0.616 |
| P8 | -0.407 | -0.265 | 0.270 | -0.071 | 0.417 | 0.356 |
| P9 | -0.381 | -0.174 | 1.641 | 0.636 | 0.417 | 0.356 |
| P10 | 0.818 | 1.435 | -0.415 | -0.071 | 0.417 | 0.356 |
Las distancias euclidianas miden la similitud entre propiedades. Distancias pequeñas indican propiedades similares, mientras que distancias grandes indican propiedades muy diferentes.
Fórmula de Distancia Euclidiana:
Para cada par de propiedades \((P_i, P_j)\), la distancia se calcula como:
\[d(P_i, P_j) = \sqrt{\sum_{k=1}^{6}(x_{ik} - x_{jk})^2}\]
Donde: - \(x_{ik}\) = valor de la variable \(k\) para la propiedad \(i\) - \(x_{jk}\) = valor de la variable \(k\) para la propiedad \(j\) - \(k\) = cada una de las 6 variables (preciom, areaconst, habitaciones, banios, parqueaderos, estrato)
Dimensión de la Matriz:
La matriz de distancias tiene dimensión \(n \times n\), donde \(n\) es el número de propiedades (registros) en el dataset, independientemente del número de variables. Cada celda \([i,j]\) representa la distancia euclidiana entre la propiedad \(i\) y la propiedad \(j\).
| P1 | P2 | P3 | P4 | P5 | P6 | P7 | P8 | P9 | P10 | |
|---|---|---|---|---|---|---|---|---|---|---|
| P1 | 0.000 | 2.209 | 2.048 | 3.474 | 2.920 | 2.832 | 2.518 | 2.559 | 2.296 | 3.907 |
| P2 | 2.209 | 0.000 | 1.270 | 3.054 | 1.961 | 2.091 | 1.373 | 2.326 | 3.270 | 3.110 |
| P3 | 2.048 | 1.270 | 0.000 | 2.598 | 2.403 | 2.518 | 1.706 | 2.151 | 2.811 | 2.694 |
| P4 | 3.474 | 3.054 | 2.598 | 0.000 | 3.151 | 2.744 | 2.812 | 2.262 | 2.681 | 2.250 |
| P5 | 2.920 | 1.961 | 2.403 | 3.151 | 0.000 | 0.709 | 1.293 | 1.320 | 2.660 | 2.665 |
| P6 | 2.832 | 2.091 | 2.518 | 2.744 | 0.709 | 0.000 | 1.468 | 1.128 | 2.369 | 2.614 |
| P7 | 2.518 | 1.373 | 1.706 | 2.812 | 1.293 | 1.468 | 0.000 | 1.524 | 2.776 | 2.973 |
| P8 | 2.559 | 2.326 | 2.151 | 2.262 | 1.320 | 1.128 | 1.524 | 0.000 | 1.545 | 2.205 |
| P9 | 2.296 | 3.270 | 2.811 | 2.681 | 2.660 | 2.369 | 2.776 | 1.545 | 0.000 | 2.959 |
| P10 | 3.907 | 3.110 | 2.694 | 2.250 | 2.665 | 2.614 | 2.973 | 2.205 | 2.959 | 0.000 |
El dendrograma muestra cómo se van agrupando las propiedades de forma jerárquica, desde las más similares hasta formar grupos más grandes.
Elegir el número óptimo de clusters es crucial. Utilizaremos el criterio del mayor salto en las alturas del dendrograma. El mayor incremento nos indica el número natural de grupos.
El coeficiente de Silhouette mide qué tan bien se ajusta cada observación a su cluster. Valores cercanos a 1 indican un buen agrupamiento.
| Número de Clusters (k) | Silhouette Promedio |
|---|---|
| 2 | 0.4195 |
| 3 | 0.2271 |
| 4 | 0.2518 |
| 5 | 0.2481 |
| 6 | 0.2510 |
| 7 | 0.2218 |
| 8 | 0.2265 |
Nota sobre Criterio de Negocio vs Criterio Estadístico:
El coeficiente de Silhouette sugiere k = 2 como óptimo estadístico. Sin embargo, para el análisis de mercado inmobiliario se adopta k = 3 por las siguientes razones:
Criterio adoptado: Se utiliza k = 3 por criterio de negocio, priorizando la interpretabilidad y utilidad práctica de la segmentación.
| Cluster | Cantidad | % | Precio (M) | Área (m²) | Hab. | Baños | Parq. | Estrato |
|---|---|---|---|---|---|---|---|---|
| 1 | 3216 | 38.64 | 235.88 | 121.22 | 3.2 | 2.3 | 0.8 | 3.7 |
| 2 | 3154 | 37.90 | 395.87 | 121.97 | 3.1 | 2.9 | 1.6 | 5.2 |
| 3 | 1952 | 23.46 | 958.84 | 349.01 | 5.1 | 4.8 | 2.5 | 5.2 |
Tamaño: 3216 propiedades (38.6%)
Características Promedio:
Zonas Principales:
Tamaño: 3154 propiedades (37.9%)
Características Promedio:
Zonas Principales:
Tamaño: 1952 propiedades (23.5%)
Características Promedio:
Zonas Principales:
Principales Hallazgos:
Segmentación del Mercado: Se identificaron 3 segmentos de propiedades con características homogéneas, adoptando k=3 por criterio de negocio.
Diferenciación por Precio y Características: Los clusters muestran clara diferenciación en términos de precio, tamaño y amenidades.
Patrones Geográficos: Se observan concentraciones de clusters específicos en ciertas zonas de la ciudad.
Relación con Estrato Socioeconómico: Los clusters reflejan la segmentación socioeconómica de la ciudad.
Validación desde Perspectiva de Negocio:
El método Ward.D2 produce clusters más balanceados que otros métodos de linkage, evitando la formación de clusters con muy pocas observaciones (outliers aislados) que no serían útiles para estrategias comerciales. Se verificó que los clusters resultantes cumplan con:
Aplicaciones Estratégicas:
Examinar simultáneamente las relaciones entre las tres variables categóricas del mercado inmobiliario (tipo de vivienda, zona y barrio) para identificar patrones multivariados de comportamiento de la oferta y descubrir asociaciones complejas entre categorías.
El Análisis de Correspondencias Múltiples (MCA) es una extensión del Análisis de Correspondencias (CA) que permite analizar más de dos variables categóricas simultáneamente. Permite:
Diferencias clave: - CA (Correspondencias Simple): Analiza 2 variables categóricas (tablas de contingencia) - MCA (Correspondencias Múltiples): Analiza 3 o más variables categóricas simultáneamente - vs PCA: Mientras PCA trabaja con variables numéricas, MCA trabaja con variables categóricas
Ventaja principal: MCA captura interacciones entre múltiples variables que se perderían en análisis de pares.
Primero verificamos la integridad del dataset
vivienda_CORR que contiene las variables categóricas.
| Variable | Nº Categorías | Nº Observaciones |
|---|---|---|
| Tipo | 2 | 8322 |
| Zona | 5 | 8322 |
| Barrio | 436 | 8322 |
El MCA se aplica a las tres variables categóricas simultáneamente: tipo, zona, y barrio. Para mantener la interpretabilidad, se trabajará con los barrios más frecuentes.
## #### Valores Propios y Varianza Explicada
| Valor Propio | % Varianza | % Acumulado | |
|---|---|---|---|
| dim 1 | 0.70 | 11.05 | 11.05 |
| dim 2 | 0.66 | 10.47 | 21.51 |
| dim 3 | 0.41 | 6.52 | 28.04 |
| dim 4 | 0.36 | 5.68 | 33.72 |
| dim 5 | 0.35 | 5.49 | 39.21 |
| dim 6 | 0.33 | 5.26 | 44.47 |
| dim 7 | 0.33 | 5.26 | 49.74 |
| dim 8 | 0.33 | 5.26 | 55.00 |
| dim 9 | 0.33 | 5.26 | 60.26 |
| dim 10 | 0.33 | 5.26 | 65.53 |
Interpretación:
✓ El mapa bidimensional proporciona una representación útil de las asociaciones principales.
El mapa de categorías muestra todas las categorías de las tres variables en un espacio bidimensional. Categorías cercanas indican perfiles similares.
¿Cómo interpretar este mapa?
Interpretación: La línea roja horizontal representa la contribución promedio esperada. Variables por encima de esta línea tienen influencia importante en esa dimensión.
Insight para el tomador de decisiones: Las categorías con mayor contribución son las que definen los ejes principales de diferenciación del mercado.
Interpretación del Cos²: - Cos² alto (color rojo/naranja): La categoría está bien representada en el plano 2D - Cos² bajo (color azul claro): La categoría requiere dimensiones adicionales para ser completamente explicada - Solo se muestran las 25 categorías con mejor calidad de representación para facilitar la interpretación
Interpretación:
1. Perfiles de Mercado Multivariados Identificados:
El MCA revela asociaciones complejas que involucran las tres variables simultáneamente. A diferencia del análisis bivariado, podemos identificar perfiles como “Apartamentos en Zona Norte del Barrio X”.
2. Segmentación Estratégica:
Perfil 1 (Dim 1 positivo): - normandía - Zona Oeste - los cristales - santa teresita - aguacatal
Perfil 2 (Dim 1 negativo): - ciudad jardín - el limonar - Casa - pance - el caney
Perfil 3 (Dim 2 positivo): - Zona Centro - la flora - acopi - prados del norte - Zona Norte
Perfil 4 (Dim 2 negativo): - Zona Oriente - la hacienda - el refugio - el ingenio - el caney
3. Aplicaciones Estratégicas:
Para Desarrolladores Inmobiliarios: - Identificación de combinaciones exitosas: Detecta qué combinaciones tipo-zona-barrio son más comunes (puntos densos en el mapa) - Nichos desatendidos: Combinaciones poco representadas pueden ser oportunidades - Benchmarking geográfico: Compara barrios con perfiles similares para replicar estrategias
Para Agentes Inmobiliarios: - Segmentación de portafolio: Agrupa propiedades según perfiles MCA para marketing dirigido - Predicción de demanda: Propiedades en regiones densas del mapa tienen demanda establecida - Expansión estratégica: Identifica zonas/barrios con características similares a las exitosas
Para Inversionistas: - Diversificación inteligente: Invertir en diferentes regiones del mapa MCA = diversificación real - Detección de tendencias: Monitorear movimiento de nuevas propiedades en el espacio MCA - Valoración contextual: Propiedades con perfiles únicos (alejadas del origen) pueden justificar precios premium
4. Ventajas del MCA sobre CA y PCA:
| Aspecto | MCA | CA (Simple) | PCA |
|---|---|---|---|
| Variables analizadas | 3+ categóricas simultáneas | 2 categóricas | Múltiples numéricas |
| Interacciones | Captura efectos de 3+ variables | Solo pares de variables | Relaciones lineales |
| Perfiles complejos | ✓ Sí | ✗ No | N/A |
| Tipo de dato | Categórico | Categórico | Numérico |
| Visualización | Mapas 2D multivariados | Mapas bivariados | Componentes principales |
5. Insights Accionables:
A diferencia de análisis univariados o bivariados, el MCA proporciona una comprensión integrada y multidimensional del mercado que permite: - Toma de decisiones basada en perfiles completos (no características aisladas) - Detección de oportunidades en combinaciones específicas de atributos - Segmentación más precisa y accionable del mercado inmobiliario