1 Introducción y Contexto del Problema

La agencia inmobiliaria C&A recibió una solicitud por parte de una empresa internacional para la adquisición de dos viviendas destinadas a sus empleados en la ciudad de Cali. Cada solicitud especifica características particulares en cuanto al tipo de vivienda, zona de ubicación, número de habitaciones, baños y parqueaderos, estrato socioeconómico y un presupuesto preaprobado.

El presente documento tiene como objetivo dar respuesta a dicha solicitud mediante el uso de modelos de regresión lineal múltiple, que permiten estimar el precio de una vivienda en función de sus características físicas y de ubicación. El análisis se desarrolla en tres etapas: verificación y análisis exploratorio de los datos, estimación y validación del modelo, y finalmente la identificación de ofertas potenciales que se ajusten a los requerimientos del cliente.

2 Verificación y Análisis Exploratorio de Datos

2.1 Base 1: Casas Zona Norte

Para atender la primera solicitud se filtró la base de datos vivienda conservando únicamente los registros correspondientes a casas ubicadas en la Zona Norte de Cali. Tras aplicar este filtro se obtuvieron 722 registros, cuyas estadísticas descriptivas se presentan en la Tabla 2.1.

Table 2.1: Estadísticas descriptivas - Casas Zona Norte
Resumen Estadístico - Base 1
Casas Zona Norte de Cali
Variable N válidos Mínimo Q1 (25%) Mediana Media Q3 (75%) Máximo Desv. Est.
preciom 722 89.00 261.25 390.00 445.91 550.00 1,940.00 268.36
areaconst 722 30.00 140.00 240.00 264.85 336.75 1,440.00 167.17
estrato 722 3.00 3.00 4.00 4.20 5.00 6.00 0.98
banios 722 0.00 2.00 3.00 3.56 4.00 10.00 1.52
habitaciones 722 0.00 3.00 4.00 4.51 5.00 10.00 1.83
parqueaderos 435 1.00 1.00 2.00 2.18 3.00 10.00 1.40

La Tabla 2.1 muestra que el precio medio de las casas en la Zona Norte es de 445.9 millones de pesos, con una desviación estándar considerable, lo que anticipa una distribución asimétrica en los precios. El área construida promedio es de 264.9 \(m^{2}\), predominando casas de estrato 4 y 5.

2.1.1 Distribución geográfica

El siguiente mapa presenta la ubicación geográfica de las 722 casas filtradas. Dado que la variable zona es una categoría asignada administrativamente y no se deriva directamente de las coordenadas GPS, es posible observar algunos puntos fuera del área norte de la ciudad. Esto responde a errores de georeferenciación al momento del registro de las propiedades, y no implica un problema en el filtro aplicado.

2.1.2 Distribución del precio y relación con variables clave

La Figura 2.1 presenta la distribución del precio de las casas en la Zona Norte. Se observa una distribución asimétrica positiva (sesgada hacia la derecha), lo que indica que la mayoría de las casas se concentran en rangos de precio moderados, mientras que un número reducido de propiedades presenta precios muy elevados. Este comportamiento es típico en mercados inmobiliarios y justifica la aplicación de una transformación logarítmica sobre el precio en la etapa de modelación.

Distribución del precio - Casas Zona Norte

Figure 2.1: Distribución del precio - Casas Zona Norte

La Figura 2.2 muestra la distribución del precio según el estrato socioeconómico. Se evidencia una tendencia creciente clara: a mayor estrato, mayor precio mediano de la vivienda. Sin embargo, en todos los estratos se presentan valores atípicos superiores, correspondientes a propiedades con características excepcionales como grandes áreas construidas o ubicaciones privilegiadas dentro de cada estrato. Estos valores no se eliminan del análisis dado que son observaciones válidas del mercado.

Distribución del precio por estrato - Casas Zona Norte

Figure 2.2: Distribución del precio por estrato - Casas Zona Norte

2.1.3 Análisis de correlación

La Figura 2.3 presenta la matriz de correlación entre las variables numéricas del modelo. La variable con mayor correlación con el precio es el área construida (r = 0.69), seguida por el estrato (r = 0.53) y los baños (r = 0.51). El número de habitaciones presenta la correlación más baja con el precio (r = 0.37), lo que anticipa que su aporte al modelo podría no ser significativo. Adicionalmente, se observa una correlación moderada entre baños y habitaciones (r = 0.59), lo que indica cierta colinealidad entre estas dos variables que deberá tenerse en cuenta al interpretar el modelo.

Matriz de correlación - Variables numéricas Casas Zona Norte

Figure 2.3: Matriz de correlación - Variables numéricas Casas Zona Norte

3 Planteamiento del modelo y Evaluacion de Supuestos

3.1 Definicion del modelo

Para la estimación del modelo de regresión lineal múltiple se evaluaron dos especificaciones. En primer lugar, un modelo lineal directo sobre el precio (modelo1), y en segundo lugar, un modelo con transformación logarítmica sobre la variable respuesta (modelo2: log(preciom)). La transformación logarítmica se justifica porque el histograma del precio mostró una distribución asimétrica hacia la derecha, característica típica de variables de precio en bienes raíces, y porque el modelo lineal directo presentó problemas de normalidad (Shapiro-Wilk: W = 0.852, p < 0.001) y homocedasticidad en sus residuos. Al aplicar log(preciom), el \(R^{2}\) mejoró de 0.604 a 0.697 y el Shapiro-Wilk mejoró a W = 0.984, por lo que se seleccionó modelo2 como modelo definitivo.

3.1.1 Interpretación de coeficientes

Los resultados se presentan en la 3.1 La interpretación de cada coeficiente corresponde al cambio porcentual en el precio dado un incremento unitario en la variable, manteniendo las demás constantes.

Área construida (\(\beta\) = 0.0011, p < 0.001): Cada metro cuadrado adicional incrementa el precio en aproximadamente 0.11%. Aunque el efecto unitario parece pequeño, es acumulativo: una casa de 300 \(m^{2}\) respecto a una de 200 \(m^{2}\) representa un incremento estimado de alrededor del 11% en el precio. Este resultado es lógico y esperado, siendo el área el principal determinante físico del valor de una vivienda.

Estrato (\(\beta\) = 0.215, p < 0.001): Es la variable con mayor impacto relativo. Cada estrato superior incrementa el precio en 24%. Esto es completamente coherente con el mercado inmobiliario de Cali, donde el estrato no solo refleja la calidad de la vivienda sino también la ubicación, el acceso a servicios y el entorno urbano.

Habitaciones (\(\beta\)= 0.016, p = 0.082): Esta variable no resultó estadísticamente significativa al nivel convencional del 5%. Aunque el signo es positivo y el efecto estimado es de 1.66% por habitación adicional, no existe suficiente evidencia para afirmar que su efecto sea distinto de cero en la población. Esto posiblemente se debe a su alta correlación con baños (r = 0.59), lo que genera redundancia informativa entre ambas variables.

Parqueaderos (\(\beta\) = 0.047, p < 0.001): Cada parqueadero adicional incrementa el precio en 4.82%. Este resultado es lógico en el contexto de Cali, donde el parqueadero es un atributo altamente valorado en zonas residenciales de estrato medio-alto.

Baños (\(\beta\) = 0.046, p < 0.001): Cada baño adicional incrementa el precio en 4.71%. Este resultado es coherente: los baños adicionales son un indicador de mayor tamaño y confort de la vivienda, lo cual se traduce en mayor valor de mercado.

Table 3.1: Coeficientes del modelo log(precio) ~ características de la vivienda
Resultados del Modelo de Regresión - Base 11
Variable dependiente: log(preciom)
Variable β (log-escala) Error Std. Estadístico t p-valor Efecto (%)2 Sig.3
Intercepto 4.4148 0.0742 59.5164 2.01 × 10−209 8,166.1629 ***
Área construida (m²) 0.0011 0.0001 12.8891 2.33 × 10−32 0.1138 ***
Estrato 0.2152 0.0164 13.1135 2.84 × 10−33 24.0171 ***
Habitaciones 0.0165 0.0095 1.7416 8.23 × 10−2 1.6599 .
Parqueaderos 0.0470 0.0098 4.7977 2.22 × 10−6 4.8159 ***
Baños 0.0461 0.0125 3.6832 2.60 × 10−4 4.7148 ***
1 R² = 0.697 | R² ajustado = 0.694 | F = 197.7 (p < 0.001) | n = 435
2 Efecto (%) = (e^β - 1) × 100: cambio porcentual en el precio por unidad adicional
3 Códigos de significancia: *** p<0.001 ** p<0.01 * p<0.05 . p<0.1

3.1.2 Interpretación del \(R^{2}\)

El modelo presenta un \(R^{2}\) = 0.697 y un \(R^{2}\) ajustado = 0.694, lo que indica que las cinco variables incluidas explican el 69.7% de la variabilidad en el logaritmo del precio de las casas en la Zona Norte de Cali. Este nivel de ajuste es considerado moderado-bueno para modelos de precios de vivienda, donde intervienen múltiples factores cualitativos difíciles de cuantificar.

El 30.3% de variabilidad no explicada sugiere que existen factores relevantes que el modelo no captura, tales como el estado de conservación y acabados de la vivienda, la antigüedad de la construcción, la proximidad a colegios, centros comerciales o vías principales, y características específicas del barrio dentro de la zona norte.

3.1.3 ¿Cómo podría mejorarse el modelo?

Para mejorar el ajuste se podrían considerar las siguientes alternativas:

  • Incluir la variable barrio como efecto fijo categórico, capturando diferencias de ubicación más granulares que el estrato.
  • Eliminar habitaciones del modelo dado que no es significativa y está correlacionada con banios, reduciendo la redundancia.
  • Agregar variables de calidad, como antigüedad de la construcción o tipo de acabados, si estuvieran disponibles en los datos.
  • Explorar interacciones, por ejemplo entre área construida y estrato, ya que el efecto del área podría ser distinto según el estrato de la vivienda.
  • Aplicar modelos más flexibles como regresión con efectos mixtos o modelos de machine learning (random forest, gradient boosting) que capturen relaciones no lineales entre las variables.

3.2 Evaluación de Supuestos

Como se mencionó en la sección anterior, tras evaluar los supuestos del modelo lineal directo (modelo1) se identificaron violaciones de normalidad y homocedasticidad en los residuos. Para corregir esto se aplicó una transformación logarítmica sobre la variable respuesta, obteniendo modelo2: log(preciom). A continuación se presentan los resultados de la validación de supuestos para este modelo mejorado.

Gráficos de diagnóstico - modelo2: log(preciom)

Figure 3.1: Gráficos de diagnóstico - modelo2: log(preciom)

La Figura 3.1 presenta los cuatro gráficos de diagnóstico estándar. Los resultados para cada supuesto se discuten a continuación:

Linealidad: El gráfico Residuals vs Fitted muestra que la línea roja es aproximadamente horizontal cerca de cero en los valores bajos y medios, lo que es una señal positiva. Hacia valores ajustados altos se observa mayor dispersión, pero sin una tendencia sistemática clara. Este supuesto se considera parcialmente cumplido.

Normalidad: El QQ-plot muestra una mejora sustancial respecto al modelo1. Los puntos siguen la línea diagonal en la zona central, desviándose únicamente en los extremos, lo que corresponde a valores atípicos puntuales y no a un problema sistemático de la distribución. Esto se confirma formalmente con el test de Shapiro-Wilk presentado en la Tabla 3.2.

Table 3.2: Resultados del test de normalidad de Shapiro-Wilk
Test de Shapiro-Wilk
Comparación modelo1 vs modelo2
Modelo W p-valor Conclusión
modelo1 (precio) 0.8520 < 0.001 Se rechaza normalidad
modelo2 (log precio) 0.9839 < 0.001 Mejora sustancial - W cercano a 1

Como se observa en la Tabla 3.2, el estadístico W mejoró de 0.852 a 0.984, acercándose considerablemente a 1. Aunque el p-valor sigue siendo significativo, esto es esperable con muestras de tamaño n = 435, donde el test es muy sensible a desviaciones mínimas. En la práctica, con un W tan cercano a 1, la normalidad se considera aceptable.

Homocedasticidad: El gráfico Scale-Location muestra que la línea roja presenta una pendiente ascendente, indicando que la varianza de los errores aumenta con los valores ajustados. La transformación logarítmica mejoró este supuesto respecto al modelo1, pero no lo elimina por completo. Esto significa que el modelo predice con mayor error las casas de precio elevado. Para corregir esto formalmente se recomienda el uso de errores estándar robustos mediante el paquete sandwich en R.

Multicolinealidad: La Tabla 3.3 presenta los valores del Factor de Inflación de Varianza (VIF) para cada variable del modelo.

Table 3.3: Diagnóstico de multicolinealidad - VIF
Factor de Inflación de Varianza (VIF)
modelo2: log(preciom)
Variable VIF1 Diagnóstico
areaconst 1.4610 Sin problema
estrato 1.3078 Sin problema
habitaciones 1.7210 Sin problema
parqueaderos 1.2263 Sin problema
banios 1.9674 Sin problema
1 VIF < 5: aceptable | VIF 5-10: problema moderado | VIF > 10: problema grave

Como se observa en la Tabla 3.3, todos los valores VIF son inferiores a 2, muy por debajo del umbral de preocupación de 5. El valor más alto corresponde a banios (VIF = 1.97), lo cual es consistente con la correlación moderada observada entre baños y habitaciones (r = 0.59) en el análisis exploratorio. Sin embargo, esta correlación no genera multicolinealidad problemática en el modelo. El supuesto de no multicolinealidad se considera cumplido.

4 Implementación y Validación de la Oferta

4.1 Vivienda 1 - Casa Zona Norte

Usando el modelo se estimó el precio para los dos estratos solicitados. El escenario de estrato 4 arroja 301.3 millones, viable dentro del presupuesto de 350 millones. El estrato 5 estima 373.7 millones, superando el límite, por lo que la búsqueda se enfoca en estrato 4.

Predicción - Vivienda 1
Presupuesto máximo: 350 millones
Escenario Estimado (M) IC inf. (M) IC sup. (M) Viabilidad
Estrato 4 301.3 180.8 502.3 Viable
Estrato 5 373.7 223.9 623.6 Supera presupuesto
Top 5 Ofertas - Vivienda 1
Barrio Precio real (M) Predicho (M) Área (m²) Estrato Hab. Parq. Baños
la flora 520 345.6 280 4 4 1 3
la merced 330 337.8 260 4 4 1 3
el bosque 485 334.0 250 4 4 1 3
la merced 430 340.3 225 4 4 2 3
la merced 360 321.6 216 4 4 2 2

De las ofertas disponibles en base1 que cumplen las características mínimas, se identificaron 6 propiedades con precio predicho menor a 350 millones. El mapa presenta su ubicación y en azul las 5 con mayor área construida.

5 Modelo 2

5.1 Verificación y Análisis Exploratorio

Para la segunda solicitud se filtraron únicamente apartamentos de la Zona Sur de Cali, obteniendo 2787 registros. La Tabla 5.1 presenta las estadísticas descriptivas.

Table 5.1: Estadísticas descriptivas - Apartamentos Zona Sur
Resumen Estadístico - Base 2
Apartamentos Zona Sur de Cali
Variable N válidos Mínimo Q1 (25%) Mediana Media Q3 (75%) Máximo Desv. Est.
preciom 2787 75.00 175.00 245.00 297.29 335.00 1,750.00 191.55
areaconst 2787 40.00 65.00 85.00 97.47 110.00 932.00 52.57
estrato 2787 3.00 4.00 5.00 4.63 5.00 6.00 0.84
banios 2787 0.00 2.00 2.00 2.49 3.00 8.00 0.93
habitaciones 2787 0.00 3.00 3.00 2.97 3.00 6.00 0.63
parqueaderos 2381 1.00 1.00 1.00 1.41 2.00 10.00 0.67

Al igual que en la base 1, es posible observar algunos puntos fuera de la Zona Sur, lo cual responde a errores de georeferenciación en el registro de las propiedades.

Distribución del precio - Apartamentos Zona Sur

Figure 5.1: Distribución del precio - Apartamentos Zona Sur

Precio por estrato - Apartamentos Zona Sur

Figure 5.2: Precio por estrato - Apartamentos Zona Sur

La Figura 5.1 confirma una distribución asimétrica positiva similar a la base 1, justificando nuevamente el uso de log(preciom). La Figura 5.2 muestra que el precio crece con el estrato, con mayor dispersión en estratos 5 y 6, donde se ubican los apartamentos más exclusivos.

Matriz de correlación - Apartamentos Zona Sur

Figure 5.3: Matriz de correlación - Apartamentos Zona Sur

5.2 Modelo de Regresión - Base 2

Table 5.2: Coeficientes modelo - Apartamentos Zona Sur
Resultados del Modelo de Regresión - Base 2
Variable dependiente: log(preciom)
Variable β (log-escala) Error Std. Estadístico t p-valor Efecto (%) Sig.
Intercepto 3.7841 0.0359 105.4917 0.00 4,299.6148 ***
Área construida (m²) 0.0025 0.0001 20.0743 6.38 × 10−83 0.2492 ***
Estrato 0.2352 0.0071 33.2398 2.85 × 10−199 26.5211 ***
Habitaciones −0.0187 0.0089 −2.0983 3.60 × 10−2 −1.8566 *
Parqueaderos 0.1460 0.0091 16.0703 3.03 × 10−55 15.7144 ***
Baños 0.1256 0.0078 16.1122 1.65 × 10−55 13.3798 ***

5.3 Evaluación de Supuestos - Base 2

Diagnóstico de supuestos - modelo3

Figure 5.4: Diagnóstico de supuestos - modelo3

Los supuestos del modelo3 presentan un comportamiento similar al modelo2. El QQ-plot muestra buena aproximación a la normalidad en la zona central, confirmado por el test de Shapiro-Wilk (W = 0.972, p < 0.001). La homocedasticidad sigue siendo el supuesto más débil, recomendándose errores estándar robustos si se requiere corrección formal. La multicolinealidad no representa un problema, con todos los VIF inferiores a 2 como muestra la Tabla 5.3.

Table 5.3: Diagnóstico de multicolinealidad - Base 2
VIF - modelo3
Apartamentos Zona Sur
Variable VIF Diagnóstico
areaconst 2.0665 Moderado
estrato 1.5452 Sin problema
habitaciones 1.4293 Sin problema
parqueaderos 1.7379 Sin problema
banios 2.5295 Moderado

5.4 Implementación y Validación de la Oferta

El modelo estima un precio de 618.8 millones para estrato 5 y 782.9 millones para estrato 6, ambos dentro del presupuesto de 850 millones. Se identificaron 1 ofertas que cumplen las características solicitadas.

Predicción - Vivienda 2
Presupuesto máximo: 850 millones
Escenario Estimado (M) IC inf. (M) IC sup. (M) Viabilidad
Estrato 5 618.8 396.9 964.9 Viable
Estrato 6 782.9 502.1 1220.8 Viable
Top 5 Ofertas - Vivienda 2
Barrio Precio real (M) Predicho (M) Área (m²) Estrato Hab. Parq. Baños
seminario 670 780.7 300 5 6 3 5