El mercado inmobiliario de Cali atraviesa un periodo de desaceleración, lo que ha generado la necesidad de emplear herramientas estadísticas que permitan tomar decisiones fundamentadas en datos. En este contexto, la agencia C&A recibió la solicitud de una compañía internacional interesada en adquirir dos viviendas con características específicas y montos de crédito preaprobados.
El presente informe aplica técnicas de regresión lineal múltiple para estimar y predecir el precio de las viviendas en función de variables clave como área construida, estrato socioeconómico, número de habitaciones, parqueaderos y baños. Además, se realiza un análisis exploratorio con herramientas interactivas, se validan los supuestos del modelo y se identifican ofertas potenciales que se ajusten a las condiciones de las solicitudes.
Los resultados permitirán a C&A ofrecer recomendaciones fundamentadas y seleccionar opciones viables dentro del mercado caleño, combinando el análisis cuantitativo con la interpretación contextual de la dinámica inmobiliaria.
Se empleó la base vivienda del paquete paqueteMODELOS, la cual contiene información de ofertas inmobiliarias en Cali. La variable respuesta fue el precio de la vivienda (millones de pesos) y como explicativas se consideraron: área construida, estrato, número de habitaciones, parqueaderos y baños; además de zona y tipo para los filtros.
El análisis se desarrolló en cinco etapas:
Preparación y filtros: se construyeron subconjuntos según las condiciones de cada solicitud (casas en zona Norte y apartamentos en zona Sur), verificando registros y ubicaciones en un mapa.
Análisis exploratorio: se evaluaron correlaciones y tendencias con gráficos interactivos en plotly.
Modelación: se estimaron modelos de regresión lineal múltiple, interpretando coeficientes y nivel de ajuste.
Validación: se revisaron los supuestos clásicos de la regresión y se sugirieron posibles mejoras.
Predicción y selección de ofertas: se calcularon los precios de las viviendas solicitadas y se identificaron al menos cinco opciones dentro de los créditos preaprobados, apoyadas en mapas y tablas.
Se consignaron las características de cada solicitud en la Tabla 1, a modo de referencia para los filtros y comparaciones posteriores.
| Característica | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| Área construida (m²) | 200 | 300 |
| Parqueaderos | 1 | 3 |
| Baños | 2 | 3 |
| Habitaciones | 4 | 5 |
| Estrato | 4 o 5 | 5 o 6 |
| Zona | Norte | Sur |
| Crédito preaprobado | 350 millones | 850 millones |
Se filtró la base vivienda para obtener dos subconjuntos: casas ubicadas en la zona Norte (Vivienda 1) y apartamentos localizados en la zona Sur (Vivienda 2). Las Tablas 2 y 3 presentan los tres primeros registros de cada conjunto, lo que permite confirmar la aplicación correcta de los filtros.
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4057 | Zona Norte | 02 | 6 | 750 | 445 | NA | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5098 | Zona Sur | 05 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| 698 | Zona Sur | 02 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| 8199 | Zona Sur | NA | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
Se elaboró un mapa interactivo con las coordenadas (latitud, longitud) de las viviendas seleccionadas en los subconjuntos de casas en zona Norte y apartamentos en zona Sur. Este permitió validar visualmente la localización de los inmuebles en la ciudad.
Figura 1. Mapa de ofertas filtradas (Vivienda 1 y Vivienda 2)
En la Figura 1 se observa la localización de las viviendas filtradas en Cali. Las ofertas de Vivienda 1 (casas en zona Norte) se concentran en la parte superior de la ciudad (en verde), mientras que las de Vivienda 2 (apartamentos en zona Sur) se ubican en la parte inferior (en azul). En general, los registros corresponden a las zonas esperadas; no obstante, algunos puntos aparecen en sectores intermedios, lo que puede deberse a inconsistencias en la clasificación de las zonas o a errores de captura en la georreferenciación.
Para contrastar la coherencia de la variable zona, se utilizó la latitud como criterio de referencia, dado que representa la ubicación norte–sur en el plano geográfico. De este modo, las viviendas con latitudes más altas deberían corresponder a la zona Norte y las de latitudes más bajas a la zona Sur.
| zona | zona_calc | coincide | n |
|---|---|---|---|
| Zona Norte | Zona Norte | TRUE | 634 |
| Zona Norte | Zona Sur | FALSE | 88 |
| Zona Sur | Zona Norte | FALSE | 473 |
| Zona Sur | Zona Sur | TRUE | 2314 |
En la Tabla 4 se observa que, aunque la mayoría de los registros coincide entre la zona declarada y la zona estimada por latitud, existe un número no despreciable de casos con discrepancias. En concreto:
Zona Norte: 634 registros se ubicaron coherentemente en el Norte, pero 88 viviendas aparecen con latitud correspondiente al Sur.
Zona Sur: 2314 registros se ubicaron en el Sur, mientras que 473 viviendas fueron clasificadas como Sur aunque sus coordenadas se encuentran en la parte Norte de la ciudad.
Estas diferencias indican que la variable zona de la base de datos no siempre refleja la ubicación geográfica real de los inmuebles. Esto puede deberse a inconsistencias en la codificación de la variable, a criterios distintos en la definición de los límites de zona o a la ubicación de algunos barrios en áreas intermedias.
Se analizó la relación entre el precio de la vivienda (preciom) y las variables de interés: área construida, estrato, número de baños, número de habitaciones y zona. Para ello se emplearon gráficos interactivos con el paquete plotly, lo que permitió identificar correlaciones y tendencias relevantes.
Figura 2. Relación entre el precio de la vivienda y variables explicativas (área, estrato, baños y habitaciones).
La Figura 2 muestra la relación del precio de la vivienda con las variables de interés. Se observan los siguientes patrones:
Área construida: existe una correlación positiva clara. A medida que aumenta el metraje, el precio de la vivienda también crece, lo que confirma que esta es la variable con mayor poder explicativo sobre el valor de los inmuebles.
Estrato: los precios tienden a ser más altos en estratos superiores (5 y 6), aunque la dispersión dentro de cada grupo indica que no todos los inmuebles de un mismo estrato tienen valores similares.
Número de baños: a mayor cantidad de baños, el precio tiende a incrementarse. Sin embargo, en valores altos (más de 6 baños) la variabilidad es grande, lo que sugiere que el efecto no es lineal.
Número de habitaciones: la tendencia también es positiva, mostrando que viviendas con más habitaciones suelen alcanzar precios más elevados, aunque nuevamente con alta dispersión.
Zona: al estar diferenciadas por color, se aprecia que la ubicación geográfica influye en los niveles de precio, destacándose diferencias entre Norte, Sur y las demás zonas de la ciudad.
En conjunto, los resultados del análisis exploratorio confirman que el precio de la vivienda está fuertemente asociado al área construida, seguido por el estrato, el número de baños y de habitaciones, con la zona como factor de diferenciación adicional. Estos hallazgos respaldan la pertinencia de incluir dichas variables en el modelo de regresión múltiple.
Para complementar el análisis, se estimaron correlaciones entre el precio (preciom) y las variables explicativas. Se reportan los coeficientes de Pearson (asociación lineal) y Spearman (por rangos, apropiado para ordinales), junto con sus valores-p.
| Variable | Pearson_r | Pearson_p | Spearman_rho | Spearman_p |
|---|---|---|---|---|
| Area construida | 0.6874 | 0 | 0.8217 | 0 |
| Estrato | 0.6098 | 0 | 0.7101 | 0 |
| Banos | 0.6691 | 0 | 0.7680 | 0 |
| Habitaciones | 0.2641 | 0 | 0.4266 | 0 |
De acuerdo con la tabla anterior se puede decir que:
Área construida es la variable con mayor asociación con el precio: ρ_Spearman ≈ 0.822 y r_Pearson ≈ 0.687. Confirma una relación positiva fuerte y consistente (lineal y monótona).
Baños también muestra una asociación alta (ρ ≈ 0.768, r ≈ 0.669), sugiriendo que sumar baños incrementa de forma importante el valor esperado.
Estrato presenta correlación moderada–alta (ρ ≈ 0.710, r ≈ 0.610), coherente con mayores precios en estratos superiores.
Habitaciones es la más débil de las cuatro (ρ ≈ 0.427, r ≈ 0.264); aporta, pero con menor intensidad.
Los valores-p ~ 0 indican que todas las correlaciones son estadísticamente significativas.
El precio se relaciona con todas las variables, siendo el área el principal determinante, seguido por baños y estrato; habitaciones aporta de forma secundaria. Estos hallazgos respaldan incluir todas en la regresión lineal múltiple, cuidando luego la posible colinealidad
Con el fin de explicar el comportamiento del precio de la vivienda a partir de características estructurales y socioeconómicas, se estimaron modelos de regresión lineal múltiple. El análisis se realizó en tres niveles: un modelo global con toda la base de datos y dos modelos segmentados, uno para la Base 1 (casas en la zona Norte) y otro para la Base 2 (apartamentos en la zona Sur). Esta estrategia permitió contrastar los resultados generales del mercado inmobiliario caleño con el comportamiento particular de cada solicitud.
| Modelo | Ecuacion |
|---|---|
| Global | Precio = -380.763 + 0.851 * areaconst + 97.911 * estrato + -31.274 * habitaciones + 74.492 * parqueaderos + 61.055 * banios |
| Base 1 - Casas Norte | Precio = -238.171 + 0.677 * areaconst + 80.635 * estrato + 7.645 * habitaciones + 24.006 * parqueaderos + 18.899 * banios |
| Base 2 - Aptos Sur | Precio = -261.625 + 1.285 * areaconst + 60.897 * estrato + -24.837 * habitaciones + 72.915 * parqueaderos + 50.697 * banios |
Las ecuaciones obtenidas permiten observar que el área construida y el estrato son los principales determinantes del precio en los tres modelos, con coeficientes positivos y de magnitud considerable. Los parqueaderos y baños también aportan incrementos al valor de la vivienda, mientras que el número de habitaciones no siempre resulta relevante, llegando incluso a mostrar efectos débiles o negativos cuando se controla por el metraje. Estos resultados son coherentes con la lógica del mercado, en donde el tamaño, la ubicación socioeconómica y las comodidades adicionales inciden directamente en el precio.
| Modelo | Área (coef) | Área (p) | Estrato (coef) | Estrato (p) | Habitaciones (coef) | Habitaciones (p) | Parqueaderos (coef) | Parqueaderos (p) | Baños (coef) | Baños (p) |
|---|---|---|---|---|---|---|---|---|---|---|
| Global | 0.851* | 0 | 97.911* | 0 | -31.274* | 0.0000 | 74.492* | 0e+00 | 61.055* | 0.000 |
| Base1 (Casas Norte) | 0.677* | 0 | 80.635* | 0 | 7.645 | 0.1774 | 24.006* | 1e-04 | 18.899* | 0.012 |
| Base2 (Aptos Sur) | 1.285* | 0 | 60.897* | 0 | -24.837* | 0.0000 | 72.915* | 0e+00 | 50.697* | 0.000 |
Los resultados de los modelos de regresión lineal múltiple confirman que el área construida y el estrato son las variables con mayor peso y significancia estadística en la explicación del precio de la vivienda, lo que es coherente con la lógica del mercado: a mayor metraje y mejor ubicación socioeconómica, mayor es el valor esperado. Asimismo, los parqueaderos y baños resultan relevantes, mostrando incrementos consistentes en el precio conforme aumenta su número, aunque con magnitudes menores. Por el contrario, el efecto de las habitaciones es menos claro: en el modelo de Casas Norte no es estadísticamente significativo, mientras que en los demás escenarios incluso puede ser negativo al controlar por área, lo que sugiere que más cuartos no necesariamente implican mayor valorización si no están acompañados de un mayor metraje o de otras comodidades. En conjunto, el ajuste de los modelos es adecuado y refleja que las características estructurales y socioeconómicas analizadas capturan bien la variabilidad de precios en Cali, aunque persisten factores adicionales no incluidos que podrían mejorar la capacidad predictiva.
| Modelo | R² | R² ajustado | Sigma (RMSE) | AIC | BIC |
|---|---|---|---|---|---|
| Global | 0.721 | 0.720 | 177.153 | 88617.98 | 88665.67 |
| Base1 (Casas Norte) | 0.604 | 0.599 | 155.115 | 5630.86 | 5659.39 |
| Base2 (Aptos Sur) | 0.749 | 0.748 | 98.019 | 28599.54 | 28639.96 |
Los resultados de la Tabla 8 muestran que los modelos presentan un ajuste adecuado, aunque con diferencias entre los segmentos analizados:
Modelo Global (R²=0.721; R² ajustado=0.720): explica alrededor del 72% de la variabilidad en los precios de las viviendas en Cali. Esto indica que las variables incluidas (área, estrato, habitaciones, parqueaderos y baños) capturan gran parte de la dinámica del mercado en su conjunto, aunque aún queda un 28% explicado por otros factores no considerados (ubicación exacta, antigüedad, acabados, etc.).
Modelo Base 1 — Casas en zona Norte (R²=0.604): su capacidad explicativa es menor, explicando cerca del 60% de la variación en precios. Esto es coherente con que, en el segmento de casas, influyen más factores cualitativos como la seguridad del barrio, el estilo arquitectónico o la cercanía a zonas exclusivas, que no fueron contemplados en este modelo.
Modelo Base 2 — Apartamentos en zona Sur (R²=0.749): presenta el mejor ajuste, explicando alrededor del 75% de la variabilidad en los precios. Esto sugiere que en este segmento los precios responden más directamente a variables estructurales y socioeconómicas como metraje, estrato y número de comodidades, lo que hace al modelo más robusto y consistente.
En cuanto al sigma (RMSE), se observa que el error de predicción promedio es más bajo en el modelo de apartamentos (≈98 millones), mientras que en las casas asciende a ≈155 millones. Esto refuerza la idea de que los apartamentos en el sur se ajustan mejor al esquema lineal propuesto.
Finalmente, los criterios AIC y BIC confirman que los modelos segmentados (especialmente el de apartamentos) tienen un mejor balance entre ajuste y complejidad frente al modelo global.
En conclusión, los resultados son lógicos y coherentes con el mercado caleño: el precio está altamente explicado por el área construida, el estrato y las comodidades adicionales (baños y parqueaderos). El ajuste del modelo puede mejorarse incorporando variables de ubicación más detalladas, calidad de acabados, antigüedad de la construcción y efectos espaciales, así como técnicas que consideren posibles relaciones no lineales o interacciones entre variables.
Antes de interpretar definitivamente los modelos, es necesario verificar los supuestos clásicos de la regresión lineal: normalidad de los residuos, homocedasticidad, independencia de errores y ausencia de multicolinealidad. Esta validación asegura que las estimaciones sean confiables y permite sugerir mejoras cuando los supuestos no se cumplen plenamente.
| Modelo | BP_p | DW_stat | DW_p | VIF_max | CookD_max | CookD_thr | CookD_sup |
|---|---|---|---|---|---|---|---|
| Global | 0 | 1.608 | 0.0000 | 2.814 | 0.492 | 0.000596 | 513 |
| Base1 (Casas Norte) | 0 | 1.762 | 0.0055 | 1.967 | 1.082 | 0.009200 | 25 |
| Base2 (Aptos Sur) | 0 | 1.533 | 0.0000 | 2.529 | 6.953 | 0.001680 | 118 |
Los gráficos de diagnóstico y la Tabla 9 permiten evaluar el cumplimiento de los supuestos clásicos de la regresión lineal en los tres modelos (Global, Base1: Casas Norte y Base2: Aptos Sur).
Normalidad de los residuos (QQ-plots): En los tres modelos, las curvas se apartan de la diagonal, especialmente en las colas, lo que indica que los residuos no siguen perfectamente una distribución normal. Sin embargo, en modelos con grandes muestras, esta desviación no invalida la utilidad predictiva, aunque afecta la interpretación estricta de los intervalos de confianza.
Homoscedasticidad (Residuos vs Ajustados y prueba Breusch–Pagan): Los gráficos muestran un patrón de abanico en los residuos, evidenciando heterocedasticidad. Esto se confirma con la prueba de Breusch–Pagan (BP_p = 0 en los tres modelos), que rechaza la hipótesis de homocedasticidad. Implica que el error no es constante y que convendría aplicar transformaciones o modelos robustos como mejora.
Independencia de errores (Durbin–Watson): Los valores de Durbin–Watson (DW ≈ 1.6–1.7) son menores al ideal de 2, lo que sugiere cierta autocorrelación positiva de los residuos. Esto puede deberse a patrones espaciales en los datos de vivienda (por ejemplo, inmuebles cercanos con precios relacionados).
Multicolinealidad (VIF): Los valores máximos de VIF están entre 1.96 y 2.81, muy por debajo del umbral crítico de 10. Esto indica que no existe un problema grave de multicolinealidad entre las variables explicativas; las estimaciones de los coeficientes son estables.
Observaciones influyentes (Cook’s D): En todos los modelos se detectan observaciones con valores de Cook’s D por encima del umbral teórico (CookD_thr). En particular:
Global: 513 observaciones influyentes.
Base1: 25 observaciones.
Base2: 118 observaciones, con un CookD_max muy elevado (6.953).
Esto sugiere que algunos registros individuales ejercen gran influencia en la estimación de los coeficientes, y convendría analizarlos para decidir si se deben excluir o tratar como casos especiales.
En conjunto, los modelos cumplen razonablemente con los supuestos de independencia y multicolinealidad, pero muestran problemas de normalidad, homocedasticidad y presencia de observaciones influyentes. Esto no invalida su uso como herramienta descriptiva y predictiva, pero indica que se podrían mejorar aplicando correcciones robustas, transformaciones de variables o modelos alternativos (ej. regresión robusta o modelos mixtos).
| Solicitud | Modelo | Área (m²) | Estrato | Hab | Parq | Baños | Precio estimado (M) | LI 95% | LS 95% | Crédito (M) | ¿Cumple crédito? |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Vivienda 1 (Casa - Norte) | Base1 (Casas Norte) | 200 | 4 | 4 | 1 | 2 | 312.1 | 6.2 | 618.0 | 350 | TRUE |
| Vivienda 2 (Apto - Sur) | Base2 (Aptos Sur) | 300 | 5 | 5 | 3 | 3 | 675.0 | 481.5 | 868.6 | 850 | TRUE |
Para la Vivienda 1 (Casa en zona Norte), el modelo estima un precio de $312M, con un intervalo de predicción entre $6M y $618M. Aunque el rango es amplio por la variabilidad del mercado, el valor central se encuentra por debajo del crédito preaprobado de $350M, lo que indica que la compra es financieramente viable.
Para la Vivienda 2 (Apartamento en zona Sur), el precio estimado es de $675M, con un intervalo entre $482M y $869M. El valor esperado se ubica claramente dentro del límite de $850M de crédito disponible, lo que confirma la viabilidad de esta segunda opción, aunque en el extremo superior del intervalo podría superarse el crédito en algunos escenarios de mercado.
En síntesis, ambas solicitudes son viables dentro de los montos de crédito preaprobados. La Casa Norte resulta ajustada y cómoda frente a la capacidad de pago, mientras que el Apartamento Sur representa una opción de mayor inversión, con más riesgo de exceder el presupuesto si el precio final se acerca al límite superior.
| Caso | barrio | areaconst | estrato | habitaciones | banios | parqueaderos | preciom |
|---|---|---|---|---|---|---|---|
| Vivienda 1 (Casa - Norte) | calimio norte | 130 | 3 | 1 | 1 | 1 | 89 |
| Vivienda 1 (Casa - Norte) | villa del prado | 62 | 3 | 3 | 1 | NA | 110 |
| Vivienda 1 (Casa - Norte) | villa del prado | 160 | 3 | 3 | 1 | NA | 115 |
| Vivienda 1 (Casa - Norte) | villa del prado | 120 | 3 | 3 | 1 | NA | 117 |
| Vivienda 1 (Casa - Norte) | villa del prado | 115 | 3 | 3 | 1 | NA | 118 |
| Vivienda 2 (Apto - Sur) | melendez | 40 | 3 | 2 | 1 | NA | 75 |
| Vivienda 2 (Apto - Sur) | villa del sur | 60 | 3 | 2 | 1 | NA | 75 |
| Vivienda 2 (Apto - Sur) | zona sur | 48 | 3 | 2 | 1 | NA | 75 |
| Vivienda 2 (Apto - Sur) | aguablanca | 40 | 3 | 2 | 1 | 1 | 78 |
| Vivienda 2 (Apto - Sur) | meléndez | 46 | 4 | 2 | 1 | 1 | 78 |
Para la Vivienda 1 (Casa – Norte), se identificaron cinco opciones con precios entre 89 y 118 millones, todas por debajo del crédito preaprobado de 350 millones. Estas propiedades se ubican principalmente en barrios como Calimio Norte y Villa del Prado, en estrato 3, con áreas entre 62 y 160 m². Aunque las viviendas tienen menor metraje y estrato que lo solicitado (200 m², estrato 4–5), representan alternativas viables dentro del presupuesto, ajustadas a la realidad del mercado de esa zona.
En el caso de la Vivienda 2 (Apartamento – Sur), las ofertas encontradas tienen precios entre 75 y 78 millones, ubicadas en barrios como Meléndez, Villa del Sur, Zona Sur y Aguablanca, en estratos 3 y 4. Estas opciones cumplen holgadamente con el crédito aprobado de 850 millones, pero se sitúan en un rango mucho más bajo que el presupuesto disponible, lo que sugiere que dentro de los datos de la base, las características solicitadas (300 m², estrato 5–6) no encuentran un paralelo exacto. Esto indica que la empresa deberá valorar si ajusta expectativas (mayor área y estrato) o considera estas alternativas de menor valor como oportunidades de inversión.
En conjunto, el mapa (Figura 3) muestra la localización geográfica de las ofertas: las casas de la Zona Norte en color verde y los apartamentos de la Zona Sur en color azul. Esta visualización permite contrastar la disponibilidad real en cada sector, evidenciando la concentración de las opciones dentro de corredores residenciales consolidados.
Determinantes del precio: Los modelos de regresión lineal múltiple evidencian que el área construida y el estrato socioeconómico son los principales determinantes del precio de las viviendas en Cali, seguidos por el número de parqueaderos y baños. El número de habitaciones no resultó consistente como predictor, lo que indica que su efecto está condicionado por el metraje y otras características.
Ajuste de los modelos: El modelo global presentó un ajuste adecuado (R² ≈ 0.72), mientras que los modelos segmentados mostraron variaciones: Casas Norte (R² ≈ 0.60) y Aptos Sur (R² ≈ 0.75). Esto refleja que el comportamiento del mercado inmobiliario caleño no es homogéneo y que el análisis por segmentos permite una mejor comprensión de las dinámicas locales.
Validación de supuestos: La revisión de normalidad, homocedasticidad, independencia y multicolinealidad mostró desviaciones en normalidad y homocedasticidad, comunes en datos inmobiliarios debido a la heterogeneidad del mercado. No obstante, los VIF sugieren ausencia de multicolinealidad y los indicadores de Cook identificaron algunas observaciones influyentes que podrían ajustarse en futuros análisis.
Predicciones: Para ambas solicitudes, el precio estimado se encontró dentro del rango de crédito preaprobado (312M para Vivienda 1 y 675M para Vivienda 2), lo que confirma que las condiciones financieras asignadas son realistas frente al mercado.
Disponibilidad de ofertas: Las opciones encontradas en la base para ambas solicitudes están muy por debajo de los créditos aprobados (≤118M en Norte y ≤78M en Sur). Esto evidencia una brecha entre lo solicitado y lo realmente disponible en la base analizada, lo que limita la correspondencia exacta entre expectativas y oferta.
Ajuste de expectativas: La empresa debe considerar que las características solicitadas (casas de 200 m² en estrato 4–5 y apartamentos de 300 m² en estrato 5–6) son escasas en la base disponible. Se recomienda revisar el mercado real o ampliar el rango de búsqueda, ajustando área, estrato o localización.
Estrategia de inversión: Dado que los créditos aprobados son considerablemente superiores a las ofertas encontradas, una alternativa es considerar inversión en varias propiedades de menor valor, lo cual puede diversificar riesgos y aumentar el retorno futuro.
Depuración de la base de datos: Se identificaron inconsistencias en la variable zona (ej. viviendas Norte clasificadas en Sur y viceversa). Se recomienda una depuración de la información geográfica para futuras decisiones, asegurando que la clasificación corresponda al mapa real de Cali.
Profundizar en modelos alternativos: Si bien la regresión lineal múltiple ofrece resultados interpretables, sería recomendable probar modelos más robustos (ej. Random Forest o XGBoost) para capturar relaciones no lineales y mejorar el ajuste.
Revisión del mercado externo: La base analizada puede no reflejar toda la dinámica de precios en Cali. Se recomienda complementar con fuentes externas de datos (portales inmobiliarios, registros notariales, etc.) para ampliar la representatividad de la información.