Modelos Estadísticos para la toma de decisiones
Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.
La base vivienda contiene variables numéricas y categóricas relacionadas con ubicación, características físicas del inmueble (área, habitaciones, baños, parqueaderos) y variables socioeconómicas (estrato), lo que permite aplicar técnicas multivariadas como PCA, clúster y correspondencia.
El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:
Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.
Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.
Análisis de Correspondencia : Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.
Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.
El informe final debe incluir análisis detallados de los resultados obtenidos, las conclusiones clave y las recomendaciones específicas para guiar las decisiones estratégicas de la empresa inmobiliaria. Se espera que este análisis de datos proporcione ventajas competitivas en el mercado, optimizando la inversión y maximizando los beneficios en un entorno altamente competitivo y en constante cambio.
Tabla 1. Previsualización Base de datos
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
Se identifican valores faltantes por variable y se eliminan los registros incompletos para crear la base viviendaSNA. Esto asegura que los análisis posteriores no se vean afectados.
Grafico 1. Varibles Faltantes
Tabla 2. Comparación antes y después Valores Faltantes
| Indicador | Valor |
|---|---|
| Dimensión vivienda | 8322 x 13 |
| Dimensión vivienda Sin NA | 4808 x 13 |
| Filas originales | 8322 |
| Filas sin NA | 4808 |
| Filas eliminadas | 3514 |
Se estandarizan las variables seleccionadas para PCA usando scale(), garantizando que todas queden en la misma escala (media 0 y desviación estándar 1). Esto es necesario porque PCA es sensible a magnitudes diferentes entre variables. Esto se puede confirmar en las tablas 3 y 4.
Tabla 3. Muestra de datos estandarizados (viviendaZ)
## preciom areaconst parqueaderos banios habitaciones
## [1,] -0.1756310 0.7609789 1.0779092 1.3178809 -0.4241459
## [2,] -0.6055839 -0.6129041 -0.7415001 -0.9022913 -0.4241459
## [3,] -0.6670057 -0.6345970 -0.7415001 -0.1622339 -0.4241459
## [4,] -0.7284276 -0.8876807 0.1682046 -0.9022913 -0.4241459
## [5,] -0.4520293 -0.2730489 0.1682046 -0.1622339 0.3272519
## [6,] -0.4213184 -0.1790463 0.1682046 0.5778235 1.8300475
Tabla 4. Resumen descriptivo de variables estandarizadas (viviendaZ)
## preciom areaconst parqueaderos banios
## Min. :-1.2259 Min. :-0.9745 Min. :-0.7415 Min. :-2.3824
## 1st Qu.:-0.6532 1st Qu.:-0.6491 1st Qu.:-0.7415 1st Qu.:-0.9023
## Median :-0.3292 Median :-0.3743 Median : 0.1682 Median :-0.1622
## Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
## 3rd Qu.: 0.3157 3rd Qu.: 0.3633 3rd Qu.: 0.1682 3rd Qu.: 0.5778
## Max. : 4.7350 Max. : 9.5828 Max. : 7.4458 Max. : 5.0182
## habitaciones
## Min. :-2.6783
## 1st Qu.:-0.4241
## Median :-0.4241
## Mean : 0.0000
## 3rd Qu.: 0.3273
## Max. : 4.8356
Grafico 2. Patrón de datos faltantes (viviendaSNA)
El gráfico muestra el patrón de datos faltantes en las variables usadas para el PCA (preciom, areaconst, parqueaderos, banios, habitaciones). En este caso, todas las observaciones aparecen completamente registradas (0 faltantes por variable), lo que confirma que la base viviendaSNA está lista para aplicar PCA sin necesidad de imputación.
Grafico 3. Scree plot PCA (Varianza explicada por componente)
Este gráfico muestra el porcentaje de varianza que explica cada componente principal del PCA. Se observa que PC1)concentra la mayor parte de la variabilidad del conjunto de variables y después la contribución disminuye notablemente. Esto indica que es posible resumir la información del dataset con pocos componentes, ya que los siguientes componentes aportan variación adicional mínima.
Grafico 4. Variables - PCA
El gráfico muestra cómo se relacionan las variables con los dos primeros componentes del PCA. En este caso, Dim1 explica el 66.4% de la variabilidad y concentra el “tamaño/valor” del inmueble: variables como preciom, areaconst, banios y parqueaderos apuntan en la misma dirección, lo que indica que tienden a aumentar juntas (inmuebles más grandes y con más comodidades suelen tener mayor precio). Dim2 explica el 16.5% adicional y aporta una diferenciación secundaria, donde habitaciones se separa respecto a las demás variables, sugiriendo que el número de habitaciones varía parcialmente de forma distinta a área/baños/parqueaderos (inmuebles con más habitaciones no siempre implican proporcionalmente más área o más precio). En conjunto, Dim1 y Dim2 resumen aproximadamente el 82.9% de la información, por lo que este plano representa bien la estructura de las variables.
Se utiliza distancia euclidiana y método jerárquico complete para agrupar inmuebles según similitud en las variables estandarizadas. Luego se asignan 4 clústeres (k=4) para segmentar el mercado en grupos comparables.
Grafico 5. Dendrograma Viviendas
El dendrograma permite visualizar la jerarquía de agrupación. Al trazar rectángulos con k=4, se identifican cuatro grupos de inmuebles similares según las variables estandarizadas. Las uniones a mayor altura reflejan mayores diferencias entre grupos, confirmando una segmentación clara del mercado.
Grafico 6. Cluster (muestra viviendaZ)
La proyección en dos componentes principales muestra la separación (o solapamiento) entre clústeres. Si un clúster aparece concentrado, sugiere homogeneidad interna; si se solapa con otros, indica que hay características compartidas entre grupos. Este gráfico muestra los inmuebles de la muestra en un plano donde se resumen sus características, y cada color representa uno de los 4 grupos. Se ve que el grupo 1 reúne la mayoría de inmuebles y queda más concentrado, mientras que los grupos 2, 3 y 4 aparecen más separados o dispersos en otras zonas. En general, esto indica que la oferta se puede dividir en perfiles diferentes de viviendas, aunque algunos puntos se mezclan un poco entre grupos.
Se construye la tabla zona por estrato para observar cómo se distribuye la oferta inmobiliaria según ubicación y nivel socioeconómico.
Tabla 5. Viviendas Zona x Estrato
| 3 | 4 | 5 | 6 | |
|---|---|---|---|---|
| Zona Centro | 33 | 3 | 0 | 0 |
| Zona Norte | 141 | 184 | 482 | 79 |
| Zona Oeste | 19 | 51 | 181 | 502 |
| Zona Oriente | 94 | 2 | 1 | 0 |
| Zona Sur | 147 | 973 | 1195 | 721 |
Con la prueba Chi-cuadrado se evaluó si zona y estrato son independientes. En este caso, se obtuvo p-valor < 0.001, por lo que se rechaza la independencia. Esto indica que existe una asociación estadísticamente significativa entre la zona y el estrato, justificando aplicar el análisis de correspondencia para explorar visualmente esta relación.
Grafico 7. CA Factor Map
En el mapa factorial del análisis de correspondencia, las categorías cercanas tienden a estar asociadas. Aquí se observa que Centro y Oriente se relacionan principalmente con el estrato 3, mientras que Oeste se asocia con el estrato 6 y Sur con los estratos 4–5. Esto indica que la distribución del estrato varía según la zona.
Grafico 8. Análisis de Correspondencia Casas
En el análisis de correspondencia para casas, la Dim1 (90.9%) concentra casi toda la relación entre zona y estrato. Se observa una asociación clara entre Zona Centro y Zona Oriente con el estrato 3, mientras que Zona Oeste se relaciona más con el estrato 6. Por su parte, Zona Sur aparece más cercana a los estratos 4 y 5, y Zona Norte queda más aislada, lo que sugiere un patrón menos marcado o menor presencia relativa en las combinaciones zona–estrato.
Grafico 9. Análisis de Correspondencia Apartamentos
En el análisis de correspondencia para apartamentos, la Dim1 (69.6%) y la Dim2 (26.3%) explican la mayor parte de la relación entre zona y estrato. Se observa que Zona Centro aparece más cercana al estrato 3, mientras que Zona Sur se relaciona más con el estrato 4 y Zona Norte se ubica relativamente cerca del estrato 5. Por otro lado, Zona Oeste se asocia con el estrato 6, y Zona Oriente se muestra más separada del resto, indicando un patrón particular de oferta para apartamentos en esa zona.
En la base original se identificaron valores faltantes, por lo que se realizó una depuración eliminando los registros incompletos y se construyó la base viviendaSNA con 4808 observaciones, eliminando 3514. Esto permitió trabajar con información consistente y aplicar las técnicas multivariadas sin necesidad de imputación.
Con el PCA se evidenció que es posible resumir gran parte de la información del mercado con pocos componentes, los dos primeros explican aproximadamente 82.9% de la variabilidad (Dim1 = 66.4% y Dim2 = 16.5%). Además, se observó que Dim1 está principalmente asociado al perfil de “tamaño/valor” del inmueble, ya que variables como precio, área construida, baños y parqueaderos se relacionan positivamente y tienden a aumentar juntas, mientras que habitaciones aporta una variación adicional que ayuda a diferenciar algunos casos.
En el análisis de conglomerados, el método jerárquico con distancia euclidiana y enlace complete permitió segmentar la oferta en cuatro grupos (k=4), lo que sugiere la existencia de perfiles diferenciados de inmuebles según sus características cuantitativas estandarizadas. La visualización en el plano de componentes principales mostró que los clústeres ocupan regiones distintas, confirmando que la segmentación es útil para entender el mercado, aunque pueda existir algo de solapamiento entre grupos.
Por otra parte, la prueba Chi-cuadrado confirmó una asociación estadísticamente significativa entre zona y estrato (p-valor < 0.001), y el análisis de correspondencia permitió interpretar visualmente esa relación, en el análisis general se observa una tendencia donde Centro y Oriente se asocian principalmente con estrato 3, Oeste con estrato 6 y Sur con estratos 4–5, evidenciando que la distribución socioeconómica de la oferta cambia según la zona. Al separar por tipo de inmueble, estos patrones se vuelven más específicos: en casas la asociación zona–estrato es muy marcada (con la mayor parte explicada en una dimensión), mientras que en apartamentos la relación se reparte entre dos dimensiones y aparecen asociaciones diferenciadas como Centro–estrato 3, Sur–estrato 4, Norte–estrato 5 y Oeste–estrato 6, con Oriente mostrando un comportamiento más particular.
En conjunto, los resultados aportan una visión integrada del mercado, combinando segmentación por características del inmueble y patrones zona–estrato por tipo de vivienda. Se recomienda usar los 4 clústeres como perfiles de vivienda para ajustar rangos de precio, captación y estrategia comercial según el tipo de inmueble. Además, orientar acciones por zona–estrato: Centro/Oriente (asociados a estrato 3) pueden enfocarse en volumen y rotación, mientras Oeste (asociado a estrato 6) puede trabajarse con estrategia premium. Como los patrones cambian entre casas y apartamentos, es conveniente manejar campañas y criterios de valoración separados por tipo de vivienda. Finalmente, mejorar el registro de datos para reducir faltantes, ya que la depuración eliminó una parte importante de observaciones.