Actividad 1: Modelos Estadísticos para la toma de decisiones

1. Problema de Negocio

La empresa inmobiliaria busca transformar su base de datos de 8.322 propiedades en información estratégica que facilite la toma de decisiones, ya que actualmente no cuenta con un análisis que permita identificar los factores que determinan el valor de los inmuebles ni la forma en que se segmenta el mercado. El objetivo es analizar qué variables como el área, la ubicación y el estrato influyen en el precio, segmentar las viviendas según características similares para definir estrategias de venta diferenciadas y detectar patrones de oferta que relacionen el tipo de vivienda con las zonas de la ciudad.

2. Entendimiento de los Datos

2.1 Análisis Estadístico Descriptivo

A partir del resumen estadístico de la Tabla 1 y del diccionario de variables mostrado en la Tabla 2, se destacan los siguientes hallazgos en las variables:

  • Precio (preciom): El precio promedio de las viviendas es de 434.68 millones, con una mediana de 330 millones.
  • Área Construida (areaconst): La mediana del área es de 123 \(m^2\) y el promedio de 175.14 \(m^2\). Existe alta dispersión, con inmuebles desde 30 \(m^2\) hasta 1,745 \(m^2\).
  • En promedio, las viviendas cuentan con 3 habitaciones y 3 baños.
  • La mayoría de las viviendas incluye 2 parqueaderos. Esta variable presenta datos faltantes que serán tratados en el proceso de limpieza.
  • Estrato: El mercado se concentra principalmente en los estratos 4 y 5 (mediana = 5), lo que indica una oferta orientada a sectores de ingresos medios-altos y altos.
Tabla 0. Resumen estadístico de variables clave
Variable Media Mediana Min Max
preciom 434.68 330 58 1999
areaconst 175.14 123 30 1745
banios 3.11 3 0 10
habitaciones 3.61 3 0 10
parqueaderos 1.87 2 1 10
estrato 4.64 5 3 6
Tabla 1. Diccionario de Variables - Dataset Viviendas
Variable Tipo Descripción
id Numérico Identificador único de la propiedad
zona Categórico Ubicación macro de la vivienda (Ej: Zona Sur, Norte, etc.)
piso Numérico Número del piso donde se encuentra la propiedad
estrato Categórico Clasificación socioeconómica del predio (1 al 6)
preciom Numérico Precio de venta en millones de pesos
areaconst Numérico Área total construida en metros cuadrados (m2)
parqueaderos Numérico Cantidad de espacios de estacionamiento disponibles
banios Numérico Número de cuartos de baño
habitaciones Numérico Número de alcobas o dormitorios
tipo Categórico Clase de inmueble (Casa o Apartamento)
barrio Categórico Nombre del sector o barrio específico
longitud Numérico Coordenada de longitud para georreferenciación
latitud Numérico Coordenada de latitud para georreferenciación

3. Limpieza y Transformación de Datos

3.1 Depuración

En esta fase inicial, se aplicaron tres filtros críticos para garantizar la integridad de la matriz de datos:

  • Eliminación de Columnas Irrelevantes: Se descartó la columna id, ya que al ser un identificador, no aporta valor predictivo o descriptivo al mercado inmobiliario.

  • Eliminación de Duplicados: Se eliminaron registros idénticos

  • Limpieza de registros nulos: Se eliminaron filas completamente vacías que generaban ruido en el dataset.

3.2 Tratamiento de Valores Faltantes (NAs)

Se realizó un conteo de valores nulos para identificar variables críticas que podrían sesgar los resultados. La distribución de faltantes es la siguiente:

Al observar la Tabla 3, destaca que piso (31.7%) y parqueaderos (19.3%) concentran la gran mayoría de la ausencia de datos. Dado que perder el 31% de la muestra afectaría estadísticamente el dataset y el análisis, se decidió aplicar imputación por mediana para estas variables.

Resumen de Registros Faltantes (Antes de la Imputación)
Variable Datos Faltantes Porcentaje de Nulos
piso piso 2638 31.7%
parqueaderos parqueaderos 1605 19.3%
id id 3 0%
zona zona 3 0%
estrato estrato 3 0%
areaconst areaconst 3 0%
banios banios 3 0%
habitaciones habitaciones 3 0%
tipo tipo 3 0%
barrio barrio 3 0%
longitud longitud 3 0%
latitud latitud 3 0%
preciom preciom 2 0%

3.3 Transformación de Variables y Estandarización

Una vez tratada la ausencia de datos, se procedió a normalizar las variables para asegurar que el algoritmo de clustering no tratara registros idénticos como diferentes debido a errores de formato.

  • Normalización de Texto (Variable Barrio): Los nombres de los barrios presentaban inconsistencias por el uso de mayúsculas, espacios extra y tildes. Se aplicó una conversión a minúsculas, limpieza de espacios con trimws() y eliminación de caracteres especiales mediante iconv().

  • Tipificación de Datos: Se convirtió la variable piso a formato numérico y se definieron como factores las variables zona, tipo, barrio y estrato, asignándoles el tipo de variables categóricas para el análisis descriptivo.

3.4 Análisis de Valores Atípicos (Outliers)

Para evaluar la distribución y detectar posibles anomalías en las variables numéricas, se implementaron diagramas de caja (Boxplots), allí se identificó lo siguiente:

  • (Precio y Área): Se identificaron propiedades con precios superiores a 1,500 millones y áreas que exceden los 800 \(m^2\). Aunque se situan fuera del bloxpot, se decidió conservarlos.

  • Errores de Registro: Finalmente, se eliminaron registros con valores iguales a cero en habitaciones, preciom, areaconst y piso, resultando en un dataset final depurado de 8,197 registros.

4. Análisis Multivariado.

En esta etapa del Análisis Exploratorio de Datos (EDA) Multivariado, el objetivo es comprender cómo interactúan las variables entre sí.

4.1 Análisis de Dependencia (Variables Categóricas)

Para determinar si la ubicación geográfica influye en las características de la vivienda, se aplicó la prueba de Independencia de Chi-cuadrado de Pearson.

  • Zona vs. Tipo de Vivienda: Se obtuvo un estadístico \(X^2 = 690.05\) con un \(p-value < 2.2 \times 10^{-16}\). Al ser menor a 0.05, se rechaza la hipótesis de independencia.
  • Zona vs. Estrato: El resultado (\(X^2 = 3770.6, p < 0.001\)) demuestra dependencia, lo que evidencia la segregación socioeconómica del mercado inmobiliario en la ciudad.

4.2 Visualización de la Segmentación del Mercado

A continuación se realiza una mirada inicial al comportamiento de las variables:

Como se observa en el gráfico anterior, la Zona Oeste es un mercado predominantemente de apartamentos (cerca del 90%), mientras que en la Zona Oriente la oferta de casas es la que domina.

4.3 Análisis de Correlación

Para entender qué factores influyen en el precio de las viviendas, se calculó la matriz de correlación de Pearson. Esta técnica es fundamental antes de realizar un Análisis de Componentes Principales (ACP), ya que permite identificar variables redundantes.

Se identificó que el precio tiene una relación fuerte con el Área construida (0.69) y el número de Baños (0.68).

Por otro lado, el número de habitaciones (0.27) tiene una influencia baja en el precio final.

Figura 2: Matriz de Correlación de Pearson

Figura 2: Matriz de Correlación de Pearson

5. Análisis de Componentes de Principales (ACP)

Para reducir la dimensionalidad de los datos y entender qué factores definen el mercado de viviendas, se aplicó un Análisis de Componentes Principales (ACP) sobre un conjunto de datos de 8,322 inmuebles. Las variables seleccionadas para este análisis fueron: Precio, Área Construida, Baños, Habitaciones y Parqueaderos.

Antes del análisis, los datos fueron estandarizados para evitar que la magnitud del precio (en millones) tuviera influencia en las variables de menor escala.

5.1 Elección del número de componentes principales

Como primer paso, se calculó cuánta información de los datos originales es capturada por los nuevos componentes. La Tabla 1 muestra que el Componente 1 (PC1) explica el 63.4% de la variabilidad, mientras que el Componente 2 (PC2) explica el 17.4%. Asi mismo, como se observa en la Figura 1 al sumar los dos primeros componentes obtenemos un 80.8% de varianza acumulada. Por este motivo, se decide trabajar con estos dos ejes, ya que representan la gran mayoría de la información.

Tabla 1: Resumen de Varianza Explicada por Componentes Principales
Componente % Varianza % Acumulado
PC1 63.39 63.39
PC2 17.38 80.77
PC3 8.84 89.61
PC4 6.63 96.24
PC5 3.76 100.00
Figura 1: Varianza Explicada por Componente (Scree Plot)

Figura 1: Varianza Explicada por Componente (Scree Plot)

En la figura Figura 2, se analiza la relación de los vectores con los componentes, en este caso, los dos primeros componentes explican el 80.8% de la varianza total:

  • El primer componente principal (PC1), está asociado con las variables Precio, Área Construida y Baños. Este componente captura datos económicos y físicos del inmueble.

  • El segundo componente principal (PC2) se asocia al número de habitaciones.

Figura 2: Mapa de Correlación de Variables

Figura 2: Mapa de Correlación de Variables

5.2 Validación con casos reales

Como se observa en la Figura 3, se seleccionaron cuatro inmuebles que representan los valores máximos y mínimos en cada eje:

  • El inmueble ubicado en el lado derecho (punto rojo) corresponde a una propiedad con el mayor Precio y Área Construida. Su posición valida que el PC1 es efectivamente el eje del Valor y Dimensión.

  • El inmueble Ubicado en el lado opuesto (punto azul), representa la oferta de menor costo y menos metros cuadrados.

  • El inmueble situado en la parte baja del plano, se destaca por tener un número inusual de Habitaciones. Su ubicación confirma que el PC2 indica caracteristicas internas de la vivienda.

  • El inmueble del lado derecho (punto morado), es el más grande en área, posee gran cantidad de Parqueaderos y pocas habitaciones.

Figura 3: Validación de Ejes con Casos Reales

Figura 3: Validación de Ejes con Casos Reales

5.3 Análisis de Segmentación (Biplots)

Al cruzar los datos de las viviendas con sus etiquetas (Tipo, Estrato y Zona), obtenemos lo siguiente:

Casas vs. Apartamentos

La Figura 4 indica que los Apartamentos se concentran en la parte superior del gráfico (asociados a parqueaderos y precios por m²), mientras que las Casas muestran una mayor dispersión hacia la derecha, indicando que dominan el mercado de grandes áreas construidas.

Figura 4: Segmentación del Mercado por Tipo de Inmueble

Figura 4: Segmentación del Mercado por Tipo de Inmueble

Estrato Socioeconómico

En la Figura 5, se observa que los Estratos 5 y 6 se desplazan hacia la derecha siguiendo la flecha del Precio. Por el contrario, los Estratos 3 y 4 se agrupan en el centro e izquierda. Podemos observar que el Estrato 3 se sitúa hacia abajo, confirmando que ofrecen más habitaciones por un precio menor.

Figura 5: Distribución por Estrato

Figura 5: Distribución por Estrato

Zonas Geográficas

En la Figura 6, se observa que la Zona Oeste es el sector de mayor lujo, situándose en el cuadrante de precios altos. La Zona Sur es la más heterogénea, la cual abarca apartamentos hasta casas de gran tamaño. Las zonas Norte y Oriente se mantienen en el cuadrante de menor costo.

Figura 6: Mercado por Zona

Figura 6: Mercado por Zona

6. Análisis De Conglomerados

El Análisis de Conglomerados se llevó a cabo utilizando el método de Clustering Jerárquico Aglomerativo:

  • Las variables seleccionadas fueron: precio, área construida, baños, habitaciones y parqueaderos.

  • Estandarización: Se aplicó una transformación Z-score para evitar que las unidades (millones vs. unidades) sesgaran el modelo.

6.1 Análisis de Distancias

El primer paso del algoritmo consiste en calcular qué tan “lejos” está cada vivienda de otra en términos de características. En la Tabla 2, se observa el grado de similitud entre las viviendas. Por ejemplo, la distancia de 0.383 entre V1 y V2 indica que pertenecen a un mismo grupo, mientras que valores superiores a 3.6 en V6 la señalan como una propiedad con características muy diferentes al resto.

Muestra de Matriz de Distancias Euclidianas (V1-V7)
V1 V2 V3 V4 V5 V6 V7
V1 0.000 0.383 1.162 1.482 1.064 3.615 1.860
V2 0.383 0.000 1.192 1.391 0.901 3.662 1.767
V3 1.162 1.192 0.000 0.869 1.205 3.572 1.046
V4 1.482 1.391 0.869 0.000 1.177 3.966 0.986
V5 1.064 0.901 1.205 1.177 0.000 4.404 1.159
V6 3.615 3.662 3.572 3.966 4.404 0.000 4.499
V7 1.860 1.767 1.046 0.986 1.159 4.499 0.000

6.2 Dendrograma

Para elegir el número óptimo de clusters, se utilizó el criterio del mayor salto de nodo a nodo en el árbol jerárquico. La Figura 7 plasma la estructura del mercado inmobiliario. Al observar las distancias verticales, se identificó que el salto más significativo ocurre al dividir la muestra en 3 conglomerados: Azul (Casas ‘económicas’), Amarilla (‘Casas familiares’) y Roja (‘Propiedades de lujo’).

Figura 7: Dendrograma: Identificación de Saltos de Nodo

Figura 7: Dendrograma: Identificación de Saltos de Nodo

El Coeficiente de Silhouette promedio (k=3) fue de 0.3751. Este valor indica una separación moderada entre los grupos.

6.3 Visualización de Resultados

La Figura 8 representa el Mapa de Segmentación (PCA). Esta gráfica muestra cómo el algoritmo “separa” las casas. El eje horizontal (Dim1) explica el 63.4% de la varianza, separando principalmente por precio y área. Se observa que el Cluster 1 se agrupa a la izquierda, mientras que el Cluster 2 y 3 se agrupan hacia la derecha, representando la diversidad de la oferta de ‘clase alta’.

Figura 8: Mapa de Segmentación

Figura 8: Mapa de Segmentación

En la Tabla 3, se observa el Perfilamiento de Segmentos Inmobiliarios:

  • Cluster 1 (Económicos): Representa la base del mercado con un precio promedio de $260M.

  • Cluster 2 (Inmuebles familiares): Propiedades de gran tamaño (364 \(m^2\)) y alta cantidad de habitaciones, con el precio promedio más alto ($968M).

  • Cluster 3 (‘Clase alta’): Propiedades de lujo con mayor número de parqueaderos y baños, con promedios de $502M.

Caracterización de Segmentos (Método Jerárquico)
Cluster Segmento N Precio Area Habit Banios
1 🏠 Económico / Base | 594| 260.77| 100.92| 2.90| 2.21|
2 🏡 Familiar Tradicional | 157| 968.68| 364.21| 4.62| 5.03|
3 🏰 Premium / Lujo | 249| 502.36| 235.72| 4.88| 4.17|

La Figura 9 muestra que al cruzar los clusters con la ubicación, se evidencia que las Zonas Sur y Oeste concentran la mayor parte de los Clusters 2 y 3, mientras que en las Zonas Oriente y Norte se concentran el Cluster 1.

Figura 9: Distribución de Segmentos por Zona Geográfica

Figura 9: Distribución de Segmentos por Zona Geográfica

7. Análisis de Correspondencia

En esta etapa, se identificará la asociación existente entre las variables categóricas Zona (donde se ubica el inmueble) y Estrato (nivel socioeconómico). Para esto, se llevó a cabo lo siguiente:

  • Se construyó una tabla de contingencia cruzando las 5 zonas con los 4 niveles de estrato (3 al 6).

  • Se aplicó la Prueba de Independencia Chi-cuadrado de Pearson con el objetivo de evaluar si existe una relación significativa entre la zona y el nivel de estrato.

7.1 Validación de Dependencia (Test Chi-Cuadrado)

Los resultados arrojaron un estadístico \(X^2\) = 3802.6 y un p-valor < 2.2e-16. Al ser el p-valor significativamente menor al nivel de confianza (5%), se rechaza la hipótesis de independencia. Esto confirma que la ubicación esta relacionada a su estrato socioeconómico, justificando el uso de este análisis para mapear dichas relaciones.

7.2 Mapa de Correspondencias

La Figura 10 indica que la dimensión, la cual representa el 70%, es el eje principal que separa la ciudad según el poder adquisitivo. Por otro lado, la dimensión 2 (27.6%) representa otras diferencias geográficas.

Juntas, las dos dimensiones explican el 97.6% de la varianza total. Esto indica que el análisis es preciso y que casi no hay pérdida de información al resumir los datos en el gráfico bidimensional.

Figura 10: Varianza Explicada por Dimensiones (AC)

Figura 10: Varianza Explicada por Dimensiones (AC)

La Figura 11 permite visualizar el mercado inmobiliario mediante la cercanía de los puntos (Zonas en azul y Estratos en naranja):

  • Clase Alta: (Zona Oeste - Estrato 6): Se evidencia que la Zona Oeste se proyecta como el sector de mayor ‘estatus’ y diferenciación de la ciudad.

  • Clase Media-Alta: (Zona Sur - Estratos 4 y 5): La Zona Sur es el punto más cercano a los estratos 4 y 5, allí se encuentra la clase media y media-alta.

  • Zonas Centro/Oriente - Estrato 3): Las zonas del Centro y el Oriente están fuertemente ligadas al Estrato 3, siendo los sectores donde las familias encuentran las opciones de vivienda más económicas

  • Zona Norte: Se ubica en una posición intermedia, en la cual existen viviendas entre los estratos 4 y 5.

Figura 11: Mapa de Correspondencias: Zona y Estrato

Figura 11: Mapa de Correspondencias: Zona y Estrato

8. Análisis de Resultados y Recomendaciones Estratégicas

8.1 Análisis de Resultados

El análisis estadístico y multivariado permitió identificar patrones en el comportamiento del mercado inmobiliario, los cuales aportan información clave para la toma de decisiones. En primer lugar, el precio de los inmuebles esta principalmente relacionado por el área construida y el número de baños, mientras que el número de habitaciones tiene poca influencia.

El Análisis de Componentes Principales permitió reducir la complejidad de los datos, en el cual se evidenció que el mercado es explicado por 2 dimensiones:

  • Un eje asociado al valor económico y tamaño del inmueble.
  • Un eje relacionado con la distribución interna (número de habitaciones).

Por otro lado, el Análisis de Clustering permitió identificar tres grupos principales:

  1. Segmento económico.
  2. Segmento familiar.
  3. Segmento de propiedades de lujo.

Aunque el coeficiente de Silhouette (0.3751) indica una separación moderada, los grupos presentan características que logran diferenciarlos, lo cual es útil para estrategias de segmentación. Adicionalmente, las pruebas de independencia y el análisis de correspondencias confirmaron que:

  • Existe una fuerte relación entre la zona y el estrato socioeconómico.
  • Las zonas Sur y Oeste tienen estratos altos, mientras que Oriente y Norte concentran la oferta económica.

En conjunto, estos resultados evidencian un mercado estructurado por nivel socioeconómico, ubicación y características físicas del inmueble.

8.2 Recomendaciones para la Empresa Inmobiliaria

A partir de los resultados obtenidos, se proponen las siguientes estratégias:

  1. Segmentación comercial

Es fundamental adaptar las campañas y ofertas teniendo en cuenta las características de cada segmento de clientes identificado

  • Cluster 1: Realizar promociones enfocadas en accesibilidad y financiación.
  • Cluster 2: Destacar espacios amplios y adaptables para familias. Se pueden tener en cuenta atributos como áreas sociales, zonas verdes y cercanía a colegios.
  • Cluster 3: Se recomiendan realizar estrategias ‘premium’ centradas en exclusividad, ubicación y confort.
  1. Inversión

Los resultados muestran que los estratos altos se concentran principalmente en las zonas Sur y Oeste de la ciudad. Es recomendable invertir en proyectos de alto valor en estas áreas. Por otro lado, en las zonas Oriente y Norte se observa una mayor presencia de segmentos económicos. Se sugiere desarrollar proyectos de vivienda asequibles, con precios competitivos y opciones de financiación, para captar la demanda de estos sectores.

  1. Diseño de proyectos

El análisis de componentes principales indica que variables como el área construida y el número de baños tienen un impacto significativo en el precio de los inmuebles. Por lo tanto, al diseñar nuevos proyectos, se recomienda crear viviendas con mayor área y más baños, ya que estos atributos pueden incrementar el atractivo y el valor de los inmuebles.