Modelos Estadísticos para la toma de decisiones

Evaluación de la oferta inmobiliaria urbana

Problema

Una empresa inmobiliaria líder en una gran ciudad está buscando comprender en profundidad el mercado de viviendas urbanas para tomar decisiones estratégicas más informadas. La empresa posee una base de datos extensa que contiene información detallada sobre diversas propiedades residenciales disponibles en el mercado. Se requiere realizar un análisis holístico de estos datos para identificar patrones, relaciones y segmentaciones relevantes que permitan mejorar la toma de decisiones en cuanto a la compra, venta y valoración de propiedades.

Base de datos y variables

La base vivienda contiene variables numéricas y categóricas relacionadas con ubicación, características físicas del inmueble (área, habitaciones, baños, parqueaderos) y variables socioeconómicas (estrato), lo que permite aplicar técnicas multivariadas como PCA, clúster y correspondencia.

Retos:

El reto principal consisten en realizar un análisis integral y multidimensional de la base de datos para obtener una comprensión del mercado inmobiliario urbano. Se requiere aplicar diversas técnicas de análisis de datos, incluyendo:

  1. Análisis de Componentes Principales: Reducir la dimensionalidad del conjunto de datos y visualizar la estructura de las variables en componentes principales para identificar características clave que influyen en la variación de precios y oferta del mercado.

  2. Análisis de Conglomerados: Agrupar las propiedades residenciales en segmentos homogéneos con características similares para entender las dinámicas de las ofertas específicas en diferentes partes de la ciudad y en diferentes estratos socioeconómicos.

  3. Análisis de Correspondencia : Examinar la relación entre las variables categóricas (tipo de vivienda, zona y barrio), para identificar patrones de comportamiento de la oferta en mercado inmobiliario.

  4. Visualización de resultados: Presentar gráficos, mapas y otros recursos visuales para comunicar los hallazgos de manera clara y efectiva a la dirección de la empresa.

El informe final debe incluir análisis detallados de los resultados obtenidos, las conclusiones clave y las recomendaciones específicas para guiar las decisiones estratégicas de la empresa inmobiliaria. Se espera que este análisis de datos proporcione ventajas competitivas en el mercado, optimizando la inversión y maximizando los beneficios en un entorno altamente competitivo y en constante cambio.

Analisis de base de datos

Tabla 1. Previsualización Base de datos

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971

Se identifican valores faltantes por variable y se eliminan los registros incompletos para crear la base viviendaSNA. Esto asegura que los análisis posteriores no se vean afectados.

Grafico 1. Varibles Faltantes

Tabla 2. Comparación antes y después Valores Faltantes

Indicador Valor
Dimensión vivienda 8322 x 13
Dimensión vivienda Sin NA 4808 x 13
Filas originales 8322
Filas sin NA 4808
Filas eliminadas 3514

Analisis de componentes principales

Se estandarizan las variables seleccionadas para PCA usando scale(), garantizando que todas queden en la misma escala (media 0 y desviación estándar 1). Esto es necesario porque PCA es sensible a magnitudes diferentes entre variables. Esto se puede confirmar en las tablas 3 y 4.

Tabla 3. Muestra de datos estandarizados (viviendaZ)

##         preciom  areaconst parqueaderos     banios habitaciones
## [1,] -0.1756310  0.7609789    1.0779092  1.3178809   -0.4241459
## [2,] -0.6055839 -0.6129041   -0.7415001 -0.9022913   -0.4241459
## [3,] -0.6670057 -0.6345970   -0.7415001 -0.1622339   -0.4241459
## [4,] -0.7284276 -0.8876807    0.1682046 -0.9022913   -0.4241459
## [5,] -0.4520293 -0.2730489    0.1682046 -0.1622339    0.3272519
## [6,] -0.4213184 -0.1790463    0.1682046  0.5778235    1.8300475

Tabla 4. Resumen descriptivo de variables estandarizadas (viviendaZ)

##     preciom          areaconst        parqueaderos         banios       
##  Min.   :-1.2259   Min.   :-0.9745   Min.   :-0.7415   Min.   :-2.3824  
##  1st Qu.:-0.6532   1st Qu.:-0.6491   1st Qu.:-0.7415   1st Qu.:-0.9023  
##  Median :-0.3292   Median :-0.3743   Median : 0.1682   Median :-0.1622  
##  Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000  
##  3rd Qu.: 0.3157   3rd Qu.: 0.3633   3rd Qu.: 0.1682   3rd Qu.: 0.5778  
##  Max.   : 4.7350   Max.   : 9.5828   Max.   : 7.4458   Max.   : 5.0182  
##   habitaciones    
##  Min.   :-2.6783  
##  1st Qu.:-0.4241  
##  Median :-0.4241  
##  Mean   : 0.0000  
##  3rd Qu.: 0.3273  
##  Max.   : 4.8356

Grafico 2. Patrón de datos faltantes (viviendaSNA)

El gráfico muestra el patrón de datos faltantes en las variables usadas para el PCA (preciom, areaconst, parqueaderos, banios, habitaciones). En este caso, todas las observaciones aparecen completamente registradas (0 faltantes por variable), lo que confirma que la base viviendaSNA está lista para aplicar PCA sin necesidad de imputación.

Grafico 3. Scree plot PCA (Varianza explicada por componente)

Este gráfico muestra el porcentaje de varianza que explica cada componente principal del PCA. Se observa que PC1)concentra la mayor parte de la variabilidad del conjunto de variables y después la contribución disminuye notablemente. Esto indica que es posible resumir la información del dataset con pocos componentes, ya que los siguientes componentes aportan variación adicional mínima.

Grafico 4. Variables - PCA

El gráfico muestra cómo se relacionan las variables con los dos primeros componentes del PCA. En este caso, Dim1 explica el 66.4% de la variabilidad y concentra el “tamaño/valor” del inmueble: variables como preciom, areaconst, banios y parqueaderos apuntan en la misma dirección, lo que indica que tienden a aumentar juntas (inmuebles más grandes y con más comodidades suelen tener mayor precio). Dim2 explica el 16.5% adicional y aporta una diferenciación secundaria, donde habitaciones se separa respecto a las demás variables, sugiriendo que el número de habitaciones varía parcialmente de forma distinta a área/baños/parqueaderos (inmuebles con más habitaciones no siempre implican proporcionalmente más área o más precio). En conjunto, Dim1 y Dim2 resumen aproximadamente el 82.9% de la información, por lo que este plano representa bien la estructura de las variables.

Análisis de conglomerados

Se utiliza distancia euclidiana y método jerárquico complete para agrupar inmuebles según similitud en las variables estandarizadas. Luego se asignan 4 clústeres (k=4) para segmentar el mercado en grupos comparables.

Grafico 5. Dendrograma Viviendas

El dendrograma permite visualizar la jerarquía de agrupación. Al trazar rectángulos con k=4, se identifican cuatro grupos de inmuebles similares según las variables estandarizadas. Las uniones a mayor altura reflejan mayores diferencias entre grupos, confirmando una segmentación clara del mercado.

Grafico 6. Cluster (muestra viviendaZ)

La proyección en dos componentes principales muestra la separación (o solapamiento) entre clústeres. Si un clúster aparece concentrado, sugiere homogeneidad interna; si se solapa con otros, indica que hay características compartidas entre grupos. Este gráfico muestra los inmuebles de la muestra en un plano donde se resumen sus características, y cada color representa uno de los 4 grupos. Se ve que el grupo 1 reúne la mayoría de inmuebles y queda más concentrado, mientras que los grupos 2, 3 y 4 aparecen más separados o dispersos en otras zonas. En general, esto indica que la oferta se puede dividir en perfiles diferentes de viviendas, aunque algunos puntos se mezclan un poco entre grupos.

Analisis de correspondencia

Se construye la tabla zona por estrato para observar cómo se distribuye la oferta inmobiliaria según ubicación y nivel socioeconómico.

Tabla 5. Viviendas Zona x Estrato

3 4 5 6
Zona Centro 33 3 0 0
Zona Norte 141 184 482 79
Zona Oeste 19 51 181 502
Zona Oriente 94 2 1 0
Zona Sur 147 973 1195 721

Con la prueba Chi-cuadrado se evaluó si zona y estrato son independientes. En este caso, se obtuvo p-valor < 0.001, por lo que se rechaza la independencia. Esto indica que existe una asociación estadísticamente significativa entre la zona y el estrato, justificando aplicar el análisis de correspondencia para explorar visualmente esta relación.

Grafico 7. CA Factor Map

En el mapa factorial del análisis de correspondencia, las categorías cercanas tienden a estar asociadas. Aquí se observa que Centro y Oriente se relacionan principalmente con el estrato 3, mientras que Oeste se asocia con el estrato 6 y Sur con los estratos 4–5. Esto indica que la distribución del estrato varía según la zona.

Correspondencia para Casas

Grafico 8. Análisis de Correspondencia Casas

En el análisis de correspondencia para casas, la Dim1 (90.9%) concentra casi toda la relación entre zona y estrato. Se observa una asociación clara entre Zona Centro y Zona Oriente con el estrato 3, mientras que Zona Oeste se relaciona más con el estrato 6. Por su parte, Zona Sur aparece más cercana a los estratos 4 y 5, y Zona Norte queda más aislada, lo que sugiere un patrón menos marcado o menor presencia relativa en las combinaciones zona–estrato.

Correspondencia para Apartamentos

Grafico 9. Análisis de Correspondencia Apartamentos

En el análisis de correspondencia para apartamentos, la Dim1 (69.6%) y la Dim2 (26.3%) explican la mayor parte de la relación entre zona y estrato. Se observa que Zona Centro aparece más cercana al estrato 3, mientras que Zona Sur se relaciona más con el estrato 4 y Zona Norte se ubica relativamente cerca del estrato 5. Por otro lado, Zona Oeste se asocia con el estrato 6, y Zona Oriente se muestra más separada del resto, indicando un patrón particular de oferta para apartamentos en esa zona.

Conclusiones

En la base original se identificaron valores faltantes, por lo que se realizó una depuración eliminando los registros incompletos y se construyó la base viviendaSNA con 4808 observaciones, eliminando 3514. Esto permitió trabajar con información consistente y aplicar las técnicas multivariadas sin necesidad de imputación.

Con el PCA se evidenció que es posible resumir gran parte de la información del mercado con pocos componentes, los dos primeros explican aproximadamente 82.9% de la variabilidad (Dim1 = 66.4% y Dim2 = 16.5%). Además, se observó que Dim1 está principalmente asociado al perfil de “tamaño/valor” del inmueble, ya que variables como precio, área construida, baños y parqueaderos se relacionan positivamente y tienden a aumentar juntas, mientras que habitaciones aporta una variación adicional que ayuda a diferenciar algunos casos.

En el análisis de conglomerados, el método jerárquico con distancia euclidiana y enlace complete permitió segmentar la oferta en cuatro grupos (k=4), lo que sugiere la existencia de perfiles diferenciados de inmuebles según sus características cuantitativas estandarizadas. La visualización en el plano de componentes principales mostró que los clústeres ocupan regiones distintas, confirmando que la segmentación es útil para entender el mercado, aunque pueda existir algo de solapamiento entre grupos.

Por otra parte, la prueba Chi-cuadrado confirmó una asociación estadísticamente significativa entre zona y estrato (p-valor < 0.001), y el análisis de correspondencia permitió interpretar visualmente esa relación, en el análisis general se observa una tendencia donde Centro y Oriente se asocian principalmente con estrato 3, Oeste con estrato 6 y Sur con estratos 4–5, evidenciando que la distribución socioeconómica de la oferta cambia según la zona. Al separar por tipo de inmueble, estos patrones se vuelven más específicos: en casas la asociación zona–estrato es muy marcada (con la mayor parte explicada en una dimensión), mientras que en apartamentos la relación se reparte entre dos dimensiones y aparecen asociaciones diferenciadas como Centro–estrato 3, Sur–estrato 4, Norte–estrato 5 y Oeste–estrato 6, con Oriente mostrando un comportamiento más particular.

En conjunto, los resultados aportan una visión integrada del mercado, combinando segmentación por características del inmueble y patrones zona–estrato por tipo de vivienda. Se recomienda usar los 4 clústeres como perfiles de vivienda para ajustar rangos de precio, captación y estrategia comercial según el tipo de inmueble. Además, orientar acciones por zona–estrato: Centro/Oriente (asociados a estrato 3) pueden enfocarse en volumen y rotación, mientras Oeste (asociado a estrato 6) puede trabajarse con estrategia premium. Como los patrones cambian entre casas y apartamentos, es conveniente manejar campañas y criterios de valoración separados por tipo de vivienda. Finalmente, mejorar el registro de datos para reducir faltantes, ya que la depuración eliminó una parte importante de observaciones.