La agencia inmobiliaria C&A recibió una solicitud por parte de una empresa internacional para la adquisición de dos viviendas destinadas a sus empleados en la ciudad de Cali. Cada solicitud especifica características particulares en cuanto al tipo de vivienda, zona de ubicación, número de habitaciones, baños y parqueaderos, estrato socioeconómico y un presupuesto preaprobado.
El presente documento tiene como objetivo dar respuesta a dicha solicitud mediante el uso de modelos de regresión lineal múltiple, que permiten estimar el precio de una vivienda en función de sus características físicas y de ubicación. El análisis se desarrolla en tres etapas: verificación y análisis exploratorio de los datos, estimación y validación del modelo, y finalmente la identificación de ofertas potenciales que se ajusten a los requerimientos del cliente.
Para atender la primera solicitud se filtró la base de datos vivienda conservando únicamente los registros correspondientes a casas ubicadas en la Zona Norte de Cali. Tras aplicar este filtro se obtuvieron 722 registros, cuyas estadísticas descriptivas se presentan en la Tabla 2.1.
| Resumen Estadístico - Base 1 | ||||||||
| Casas Zona Norte de Cali | ||||||||
| Variable | N válidos | Mínimo | Q1 (25%) | Mediana | Media | Q3 (75%) | Máximo | Desv. Est. |
|---|---|---|---|---|---|---|---|---|
| preciom | 722 | 89.00 | 261.25 | 390.00 | 445.91 | 550.00 | 1,940.00 | 268.36 |
| areaconst | 722 | 30.00 | 140.00 | 240.00 | 264.85 | 336.75 | 1,440.00 | 167.17 |
| estrato | 722 | 3.00 | 3.00 | 4.00 | 4.20 | 5.00 | 6.00 | 0.98 |
| banios | 722 | 0.00 | 2.00 | 3.00 | 3.56 | 4.00 | 10.00 | 1.52 |
| habitaciones | 722 | 0.00 | 3.00 | 4.00 | 4.51 | 5.00 | 10.00 | 1.83 |
| parqueaderos | 435 | 1.00 | 1.00 | 2.00 | 2.18 | 3.00 | 10.00 | 1.40 |
La Tabla 2.1 muestra que el precio medio de las casas en la Zona Norte es de 445.9 millones de pesos, con una desviación estándar considerable, lo que anticipa una distribución asimétrica en los precios. El área construida promedio es de 264.9 \(m^{2}\), predominando casas de estrato 4 y 5.
El siguiente mapa presenta la ubicación geográfica de las 722 casas filtradas. Dado que la variable zona es una categoría asignada administrativamente y no se deriva directamente de las coordenadas GPS, es posible observar algunos puntos fuera del área norte de la ciudad. Esto responde a errores de georeferenciación al momento del registro de las propiedades, y no implica un problema en el filtro aplicado.
La Figura 2.1 presenta la distribución del precio de las casas en la Zona Norte. Se observa una distribución asimétrica positiva (sesgada hacia la derecha), lo que indica que la mayoría de las casas se concentran en rangos de precio moderados, mientras que un número reducido de propiedades presenta precios muy elevados. Este comportamiento es típico en mercados inmobiliarios y justifica la aplicación de una transformación logarítmica sobre el precio en la etapa de modelación.
Figure 2.1: Distribución del precio - Casas Zona Norte
La Figura 2.2 muestra la distribución del precio según el estrato socioeconómico. Se evidencia una tendencia creciente clara: a mayor estrato, mayor precio mediano de la vivienda. Sin embargo, en todos los estratos se presentan valores atípicos superiores, correspondientes a propiedades con características excepcionales como grandes áreas construidas o ubicaciones privilegiadas dentro de cada estrato. Estos valores no se eliminan del análisis dado que son observaciones válidas del mercado.
Figure 2.2: Distribución del precio por estrato - Casas Zona Norte
La Figura 2.3 presenta la matriz de correlación entre las variables numéricas del modelo. La variable con mayor correlación con el precio es el área construida (r = 0.69), seguida por el estrato (r = 0.53) y los baños (r = 0.51). El número de habitaciones presenta la correlación más baja con el precio (r = 0.37), lo que anticipa que su aporte al modelo podría no ser significativo. Adicionalmente, se observa una correlación moderada entre baños y habitaciones (r = 0.59), lo que indica cierta colinealidad entre estas dos variables que deberá tenerse en cuenta al interpretar el modelo.
Figure 2.3: Matriz de correlación - Variables numéricas Casas Zona Norte
Para la estimación del modelo de regresión lineal múltiple se evaluaron dos especificaciones. En primer lugar, un modelo lineal directo sobre el precio (modelo1), y en segundo lugar, un modelo con transformación logarítmica sobre la variable respuesta (modelo2: log(preciom)). La transformación logarítmica se justifica porque el histograma del precio mostró una distribución asimétrica hacia la derecha, característica típica de variables de precio en bienes raíces, y porque el modelo lineal directo presentó problemas de normalidad (Shapiro-Wilk: W = 0.852, p < 0.001) y homocedasticidad en sus residuos. Al aplicar log(preciom), el \(R^{2}\) mejoró de 0.604 a 0.697 y el Shapiro-Wilk mejoró a W = 0.984, por lo que se seleccionó modelo2 como modelo definitivo.
Los resultados se presentan en la 3.1 La interpretación de cada coeficiente corresponde al cambio porcentual en el precio dado un incremento unitario en la variable, manteniendo las demás constantes.
Área construida (\(\beta\) = 0.0011, p < 0.001): Cada metro cuadrado adicional incrementa el precio en aproximadamente 0.11%. Aunque el efecto unitario parece pequeño, es acumulativo: una casa de 300 \(m^{2}\) respecto a una de 200 \(m^{2}\) representa un incremento estimado de alrededor del 11% en el precio. Este resultado es lógico y esperado, siendo el área el principal determinante físico del valor de una vivienda.
Estrato (\(\beta\) = 0.215, p < 0.001): Es la variable con mayor impacto relativo. Cada estrato superior incrementa el precio en 24%. Esto es completamente coherente con el mercado inmobiliario de Cali, donde el estrato no solo refleja la calidad de la vivienda sino también la ubicación, el acceso a servicios y el entorno urbano.
Habitaciones (\(\beta\)= 0.016, p = 0.082): Esta variable no resultó estadísticamente significativa al nivel convencional del 5%. Aunque el signo es positivo y el efecto estimado es de 1.66% por habitación adicional, no existe suficiente evidencia para afirmar que su efecto sea distinto de cero en la población. Esto posiblemente se debe a su alta correlación con baños (r = 0.59), lo que genera redundancia informativa entre ambas variables.
Parqueaderos (\(\beta\) = 0.047, p < 0.001): Cada parqueadero adicional incrementa el precio en 4.82%. Este resultado es lógico en el contexto de Cali, donde el parqueadero es un atributo altamente valorado en zonas residenciales de estrato medio-alto.
Baños (\(\beta\) = 0.046, p < 0.001): Cada baño adicional incrementa el precio en 4.71%. Este resultado es coherente: los baños adicionales son un indicador de mayor tamaño y confort de la vivienda, lo cual se traduce en mayor valor de mercado.
| Resultados del Modelo de Regresión - Base 11 | ||||||
| Variable dependiente: log(preciom) | ||||||
| Variable | β (log-escala) | Error Std. | Estadístico t | p-valor | Efecto (%)2 | Sig.3 |
|---|---|---|---|---|---|---|
| Intercepto | 4.4148 | 0.0742 | 59.5164 | 2.01 × 10−209 | 8,166.1629 | *** |
| Área construida (m²) | 0.0011 | 0.0001 | 12.8891 | 2.33 × 10−32 | 0.1138 | *** |
| Estrato | 0.2152 | 0.0164 | 13.1135 | 2.84 × 10−33 | 24.0171 | *** |
| Habitaciones | 0.0165 | 0.0095 | 1.7416 | 8.23 × 10−2 | 1.6599 | . |
| Parqueaderos | 0.0470 | 0.0098 | 4.7977 | 2.22 × 10−6 | 4.8159 | *** |
| Baños | 0.0461 | 0.0125 | 3.6832 | 2.60 × 10−4 | 4.7148 | *** |
| 1 R² = 0.697 | R² ajustado = 0.694 | F = 197.7 (p < 0.001) | n = 435 | ||||||
| 2 Efecto (%) = (e^β - 1) × 100: cambio porcentual en el precio por unidad adicional | ||||||
| 3 Códigos de significancia: *** p<0.001 ** p<0.01 * p<0.05 . p<0.1 | ||||||
El modelo presenta un \(R^{2}\) = 0.697 y un \(R^{2}\) ajustado = 0.694, lo que indica que las cinco variables incluidas explican el 69.7% de la variabilidad en el logaritmo del precio de las casas en la Zona Norte de Cali. Este nivel de ajuste es considerado moderado-bueno para modelos de precios de vivienda, donde intervienen múltiples factores cualitativos difíciles de cuantificar.
El 30.3% de variabilidad no explicada sugiere que existen factores relevantes que el modelo no captura, tales como el estado de conservación y acabados de la vivienda, la antigüedad de la construcción, la proximidad a colegios, centros comerciales o vías principales, y características específicas del barrio dentro de la zona norte.
Para mejorar el ajuste se podrían considerar las siguientes alternativas:
habitaciones del modelo dado que no es significativa y está correlacionada con banios, reduciendo la redundancia.Como se mencionó en la sección anterior, tras evaluar los supuestos del modelo lineal directo (modelo1) se identificaron violaciones de normalidad y homocedasticidad en los residuos. Para corregir esto se aplicó una transformación logarítmica sobre la variable respuesta, obteniendo modelo2: log(preciom). A continuación se presentan los resultados de la validación de supuestos para este modelo mejorado.
Figure 3.1: Gráficos de diagnóstico - modelo2: log(preciom)
La Figura 3.1 presenta los cuatro gráficos de diagnóstico estándar. Los resultados para cada supuesto se discuten a continuación:
Linealidad: El gráfico Residuals vs Fitted muestra que la línea roja es aproximadamente horizontal cerca de cero en los valores bajos y medios, lo que es una señal positiva. Hacia valores ajustados altos se observa mayor dispersión, pero sin una tendencia sistemática clara. Este supuesto se considera parcialmente cumplido.
Normalidad: El QQ-plot muestra una mejora sustancial respecto al modelo1. Los puntos siguen la línea diagonal en la zona central, desviándose únicamente en los extremos, lo que corresponde a valores atípicos puntuales y no a un problema sistemático de la distribución. Esto se confirma formalmente con el test de Shapiro-Wilk presentado en la Tabla 3.2.
| Test de Shapiro-Wilk | |||
| Comparación modelo1 vs modelo2 | |||
| Modelo | W | p-valor | Conclusión |
|---|---|---|---|
| modelo1 (precio) | 0.8520 | < 0.001 | Se rechaza normalidad |
| modelo2 (log precio) | 0.9839 | < 0.001 | Mejora sustancial - W cercano a 1 |
Como se observa en la Tabla 3.2, el estadístico W mejoró de 0.852 a 0.984, acercándose considerablemente a 1. Aunque el p-valor sigue siendo significativo, esto es esperable con muestras de tamaño n = 435, donde el test es muy sensible a desviaciones mínimas. En la práctica, con un W tan cercano a 1, la normalidad se considera aceptable.
Homocedasticidad: El gráfico Scale-Location muestra que la línea roja presenta una pendiente ascendente, indicando que la varianza de los errores aumenta con los valores ajustados. La transformación logarítmica mejoró este supuesto respecto al modelo1, pero no lo elimina por completo. Esto significa que el modelo predice con mayor error las casas de precio elevado. Para corregir esto formalmente se recomienda el uso de errores estándar robustos mediante el paquete sandwich en R.
Multicolinealidad: La Tabla 3.3 presenta los valores del Factor de Inflación de Varianza (VIF) para cada variable del modelo.
| Factor de Inflación de Varianza (VIF) | ||
| modelo2: log(preciom) | ||
| Variable | VIF1 | Diagnóstico |
|---|---|---|
| areaconst | 1.4610 | Sin problema |
| estrato | 1.3078 | Sin problema |
| habitaciones | 1.7210 | Sin problema |
| parqueaderos | 1.2263 | Sin problema |
| banios | 1.9674 | Sin problema |
| 1 VIF < 5: aceptable | VIF 5-10: problema moderado | VIF > 10: problema grave | ||
Como se observa en la Tabla 3.3, todos los valores VIF son inferiores a 2, muy por debajo del umbral de preocupación de 5. El valor más alto corresponde a banios (VIF = 1.97), lo cual es consistente con la correlación moderada observada entre baños y habitaciones (r = 0.59) en el análisis exploratorio. Sin embargo, esta correlación no genera multicolinealidad problemática en el modelo. El supuesto de no multicolinealidad se considera cumplido.
Usando el modelo se estimó el precio para los dos estratos solicitados. El escenario de estrato 4 arroja 301.3 millones, viable dentro del presupuesto de 350 millones. El estrato 5 estima 373.7 millones, superando el límite, por lo que la búsqueda se enfoca en estrato 4.
| Predicción - Vivienda 1 | ||||
| Presupuesto máximo: 350 millones | ||||
| Escenario | Estimado (M) | IC inf. (M) | IC sup. (M) | Viabilidad |
|---|---|---|---|---|
| Estrato 4 | 301.3 | 180.8 | 502.3 | Viable |
| Estrato 5 | 373.7 | 223.9 | 623.6 | Supera presupuesto |
| Top 5 Ofertas - Vivienda 1 | |||||||
| Barrio | Precio real (M) | Predicho (M) | Área (m²) | Estrato | Hab. | Parq. | Baños |
|---|---|---|---|---|---|---|---|
| la flora | 520 | 345.6 | 280 | 4 | 4 | 1 | 3 |
| la merced | 330 | 337.8 | 260 | 4 | 4 | 1 | 3 |
| el bosque | 485 | 334.0 | 250 | 4 | 4 | 1 | 3 |
| la merced | 430 | 340.3 | 225 | 4 | 4 | 2 | 3 |
| la merced | 360 | 321.6 | 216 | 4 | 4 | 2 | 2 |
De las ofertas disponibles en base1 que cumplen las características mínimas, se identificaron 6 propiedades con precio predicho menor a 350 millones. El mapa presenta su ubicación y en azul las 5 con mayor área construida.
Para la segunda solicitud se filtraron únicamente apartamentos de la Zona Sur de Cali, obteniendo 2787 registros. La Tabla 5.1 presenta las estadísticas descriptivas.
| Resumen Estadístico - Base 2 | ||||||||
| Apartamentos Zona Sur de Cali | ||||||||
| Variable | N válidos | Mínimo | Q1 (25%) | Mediana | Media | Q3 (75%) | Máximo | Desv. Est. |
|---|---|---|---|---|---|---|---|---|
| preciom | 2787 | 75.00 | 175.00 | 245.00 | 297.29 | 335.00 | 1,750.00 | 191.55 |
| areaconst | 2787 | 40.00 | 65.00 | 85.00 | 97.47 | 110.00 | 932.00 | 52.57 |
| estrato | 2787 | 3.00 | 4.00 | 5.00 | 4.63 | 5.00 | 6.00 | 0.84 |
| banios | 2787 | 0.00 | 2.00 | 2.00 | 2.49 | 3.00 | 8.00 | 0.93 |
| habitaciones | 2787 | 0.00 | 3.00 | 3.00 | 2.97 | 3.00 | 6.00 | 0.63 |
| parqueaderos | 2381 | 1.00 | 1.00 | 1.00 | 1.41 | 2.00 | 10.00 | 0.67 |
Al igual que en la base 1, es posible observar algunos puntos fuera de la Zona Sur, lo cual responde a errores de georeferenciación en el registro de las propiedades.
Figure 5.1: Distribución del precio - Apartamentos Zona Sur
Figure 5.2: Precio por estrato - Apartamentos Zona Sur
La Figura 5.1 confirma una distribución asimétrica positiva similar a la base 1, justificando nuevamente el uso de log(preciom). La Figura 5.2 muestra que el precio crece con el estrato, con mayor dispersión en estratos 5 y 6, donde se ubican los apartamentos más exclusivos.
Figure 5.3: Matriz de correlación - Apartamentos Zona Sur
| Resultados del Modelo de Regresión - Base 2 | ||||||
| Variable dependiente: log(preciom) | ||||||
| Variable | β (log-escala) | Error Std. | Estadístico t | p-valor | Efecto (%) | Sig. |
|---|---|---|---|---|---|---|
| Intercepto | 3.7841 | 0.0359 | 105.4917 | 0.00 | 4,299.6148 | *** |
| Área construida (m²) | 0.0025 | 0.0001 | 20.0743 | 6.38 × 10−83 | 0.2492 | *** |
| Estrato | 0.2352 | 0.0071 | 33.2398 | 2.85 × 10−199 | 26.5211 | *** |
| Habitaciones | −0.0187 | 0.0089 | −2.0983 | 3.60 × 10−2 | −1.8566 | * |
| Parqueaderos | 0.1460 | 0.0091 | 16.0703 | 3.03 × 10−55 | 15.7144 | *** |
| Baños | 0.1256 | 0.0078 | 16.1122 | 1.65 × 10−55 | 13.3798 | *** |
Figure 5.4: Diagnóstico de supuestos - modelo3
Los supuestos del modelo3 presentan un comportamiento similar al modelo2. El QQ-plot muestra buena aproximación a la normalidad en la zona central, confirmado por el test de Shapiro-Wilk (W = 0.972, p < 0.001). La homocedasticidad sigue siendo el supuesto más débil, recomendándose errores estándar robustos si se requiere corrección formal. La multicolinealidad no representa un problema, con todos los VIF inferiores a 2 como muestra la Tabla 5.3.
| VIF - modelo3 | ||
| Apartamentos Zona Sur | ||
| Variable | VIF | Diagnóstico |
|---|---|---|
| areaconst | 2.0665 | Moderado |
| estrato | 1.5452 | Sin problema |
| habitaciones | 1.4293 | Sin problema |
| parqueaderos | 1.7379 | Sin problema |
| banios | 2.5295 | Moderado |
El modelo estima un precio de 618.8 millones para estrato 5 y 782.9 millones para estrato 6, ambos dentro del presupuesto de 850 millones. Se identificaron 1 ofertas que cumplen las características solicitadas.
| Predicción - Vivienda 2 | ||||
| Presupuesto máximo: 850 millones | ||||
| Escenario | Estimado (M) | IC inf. (M) | IC sup. (M) | Viabilidad |
|---|---|---|---|---|
| Estrato 5 | 618.8 | 396.9 | 964.9 | Viable |
| Estrato 6 | 782.9 | 502.1 | 1220.8 | Viable |
| Top 5 Ofertas - Vivienda 2 | |||||||
| Barrio | Precio real (M) | Predicho (M) | Área (m²) | Estrato | Hab. | Parq. | Baños |
|---|---|---|---|---|---|---|---|
| seminario | 670 | 780.7 | 300 | 5 | 6 | 3 | 5 |