En la actualidad, el sector inmobiliario de Cali atraviesa un periodo de transformación caracterizado por una disminución significativa en el volumen de ventas durante el último año. Sin embargo, este escenario coexiste con una dinámica oferta de crédito por parte de instituciones financieras de ahorro y vivienda, que continúan inyectando capital para el desarrollo de proyectos residenciales y comerciales. En este contexto, la precisión en la valoración de los activos inmobiliarios se convierte en un factor determinante para la toma de decisiones estratégicas.
La agencia C&A (Casas y Apartamentos), fundada por María tras más de una década de trayectoria en el mercado local, ha sido seleccionada por una compañía internacional para gestionar la adquisición de dos viviendas destinadas a la reubicación de sus directivos en la ciudad. Este encargo exige no solo el cumplimiento de especificaciones técnicas y habitacionales estrictas, sino también una gestión eficiente de los recursos financieros, considerando créditos preaprobados por $350 y $850 millones de pesos, respectivamente.
En este marco, el presente informe técnico desarrolla un análisis basado en herramientas de ciencia de datos con el fin de transformar la información disponible del mercado inmobiliario de los últimos tres meses en recomendaciones estratégicas y accionables. De esta manera, se busca optimizar el uso de los recursos financieros y garantizar que las alternativas de vivienda seleccionadas respondan adecuadamente a las necesidades de reubicación corporativa.
Segmentar y depurar la información del mercado inmobiliario de acuerdo con los perfiles de búsqueda definidos: casas en la zona norte y apartamentos en la zona sur de la ciudad.
Realizar un análisis exploratorio de datos (EDA) interactivo para identificar las relaciones entre el precio de los inmuebles y variables relevantes como área construida, estrato socioeconómico y número de habitaciones.
Estimar y validar modelos de regresión lineal múltiple para cada solicitud, evaluando la significancia estadística de los coeficientes y el nivel de ajuste del modelo mediante el coeficiente de determinación (\(R^2\)).
Verificar el cumplimiento de los supuestos estadísticos del modelo (normalidad de los residuos, homocedasticidad y ausencia de multicolinealidad) con el fin de garantizar la robustez de las inferencias.
Predecir valores de mercado y seleccionar ofertas potenciales que se ajusten a los límites financieros de $350 millones y $850 millones de pesos, justificando además su localización mediante visualizaciones y mapas interactivos.
data("vivienda")
# 2. Cálculos para el reporte (Estado Inicial)
n_obs_inicial <- nrow(vivienda)
n_vars_inicial <- ncol(vivienda)
# 3. Limpieza de valores nulos en variables de interés para el modelo
vivienda_clean <- vivienda %>%
drop_na(preciom, areaconst, estrato, banios, habitaciones, parqueaderos, zona, tipo, longitud, latitud)
# 4. Cálculos para el reporte (Estado Final)
n_obs_final <- nrow(vivienda_clean)
n_eliminados <- n_obs_inicial - n_obs_final
porc_eliminados <- round((n_eliminados / n_obs_inicial) * 100, 2)Para el desarrollo de los modelos de valoración se utilizaron registros del mercado inmobiliario correspondientes a los últimos tres meses. Como primer paso, se realizó el proceso de ingesta de la información y posteriormente una fase de depuración de datos mediante la técnica de list-wise deletion, con el objetivo de garantizar que los modelos de regresión se entrenen únicamente con observaciones completas en las variables estructurales clave.
Inicialmente, el conjunto de datos vivienda estaba
compuesto por 8322 observaciones y 13
variables. Durante el proceso de control de calidad de la
información se identificaron y eliminaron 1605
registros que presentaban valores faltantes (NA)
en alguna de las variables críticas para el análisis, tales como
precio, área construida, estrato socioeconómico y otras
características estructurales del inmueble.
Esta depuración representa la eliminación del 19.29
% de la muestra original. Como resultado, se obtuvo la base de
datos vivienda_clean, que constituye el
insumo final para la etapa de modelado estadístico y que cuenta con
6717 observaciones completas y consistentes.
## Rows: 6,717
## Columns: 13
## $ id <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona <chr> "Zona Oriente", "Zona Oriente", "Zona Oriente", "Zona Sur…
## $ piso <chr> NA, NA, NA, "02", "01", "01", "01", "01", "02", "02", "02…
## $ estrato <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 4, 5, 6, 4, 5, 5, 4, 5, 3, …
## $ preciom <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 625, 75…
## $ areaconst <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 355, 237, 9…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, 3, 2, 2, 1, 4, 2, 2, 2, 1, …
## $ banios <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 5, 6, 2, 4, 4, 4, 3, 2, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 5, 6, 2, 5, 5, 4, 3, 3, 3, …
## $ tipo <chr> "Casa", "Casa", "Casa", "Casa", "Apartamento", "Apartamen…
## $ barrio <chr> "20 de julio", "20 de julio", "20 de julio", "3 de julio"…
## $ longitud <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…
# Definición simplificada y directa para negocio
diccionario <- data.frame(
Variable = c("zona", "estrato", "preciom", "areaconst",
"parqueaderos", "banios", "habitaciones", "tipo", "barrio",
"longitud", "latitud"),
Descripcion = c("Zona de la ciudad donde se ubica",
"Nivel socioeconómico oficial (3 al 6)",
"Precio de venta ofertado (Millones COP)",
"Área construida total (m²)",
"Cantidad de espacios de estacionamiento",
"Cantidad de baños",
"Cantidad de habitaciones",
"Tipo de inmueble residencial",
"Nombre del barrio de ubicación",
"Coordenada geográfica (Longitud)",
"Coordenada geográfica (Latitud)"),
Clasificacion = c("Cualitativa", "Cualitativa", "Cuantitativa", "Cuantitativa",
"Cuantitativa", "Cuantitativa", "Cuantitativa", "Cualitativa",
"Cualitativa", "Cuantitativa", "Cuantitativa"),
Tipo_Medicion = c("Nominal", "Ordinal", "Continua", "Continua",
"Discreta", "Discreta", "Discreta", "Nominal",
"Nominal", "Continua (Espacial)", "Continua (Espacial)")
)
# Generación de la tabla
diccionario %>%
kbl(caption = "Tabla 1. Diccionario de Datos Inmobiliarios") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"),
full_width = F, position = "center") %>%
row_spec(0, bold = TRUE, color = "white", background = "#2c3e50") %>%
column_spec(1, bold = TRUE)| Variable | Descripcion | Clasificacion | Tipo_Medicion |
|---|---|---|---|
| zona | Zona de la ciudad donde se ubica | Cualitativa | Nominal |
| estrato | Nivel socioeconómico oficial (3 al 6) | Cualitativa | Ordinal |
| preciom | Precio de venta ofertado (Millones COP) | Cuantitativa | Continua |
| areaconst | Área construida total (m²) | Cuantitativa | Continua |
| parqueaderos | Cantidad de espacios de estacionamiento | Cuantitativa | Discreta |
| banios | Cantidad de baños | Cuantitativa | Discreta |
| habitaciones | Cantidad de habitaciones | Cuantitativa | Discreta |
| tipo | Tipo de inmueble residencial | Cualitativa | Nominal |
| barrio | Nombre del barrio de ubicación | Cualitativa | Nominal |
| longitud | Coordenada geográfica (Longitud) | Cuantitativa | Continua (Espacial) |
| latitud | Coordenada geográfica (Latitud) | Cuantitativa | Continua (Espacial) |
# Justificación visual de la segmentación del mercado
ggplot(vivienda_clean, aes(x = areaconst, y = preciom, color = tipo)) +
geom_point(alpha = 0.5, size = 2) +
scale_color_manual(values = c("Apartamento" = "#1f77b4", "Casa" = "#d62728")) +
theme_minimal() +
labs(title = "Comportamiento del Precio vs Área según Tipo de Inmueble",
x = "Área Construida (m²)",
y = "Precio Ofertado (Millones COP)",
color = "Tipo de Inmueble")Como muestra la gráfica, la relación entre precio y área construida varía significativamente según el tipo de inmueble. Las casas presentan una amplia dispersión horizontal, reflejando metrajes considerablemente mayores, mientras que los apartamentos concentran áreas más pequeñas pero alcanzan precios elevados, generando un patrón vertical de valorización.
Esta diferencia estructural evidencia comportamientos de mercado distintos, lo que justifica metodológicamente segmentar el análisis y estimar modelos predictivos independientes para cada tipo de inmueble (Caso 1 y Caso 2).
La primera solicitud gestionada por la agencia C&A corresponde a la búsqueda de una vivienda tipo casa, ubicada exclusivamente en la zona norte de la ciudad, destinada a la reubicación de un directivo internacional y su familia. Para esta operación, la compañía ha dispuesto de un crédito preaprobado con un límite de 350 millones de pesos, lo que establece una restricción financiera clara para el proceso de selección de inmuebles.
Como primer paso del análisis, se procede a segmentar el
conjunto de datos depurado (vivienda_clean), con
el objetivo de identificar únicamente aquellas observaciones que cumplen
con las características estructurales y de localización definidas en la
solicitud.
Este proceso de filtrado permite construir un subconjunto
específico de análisis, compuesto exclusivamente por registros
correspondientes a viviendas tipo casa ubicadas en la zona
norte. A este nuevo conjunto de datos se le denomina
base1, y constituirá el insumo principal
para las etapas posteriores de análisis exploratorio de datos,
modelado estadístico y generación de recomendaciones.
# Creación de la base de datos exclusiva para el Caso 1
base1 <- vivienda_clean %>%
filter(tipo == "Casa", zona == "Zona Norte")
# Comprobación de la consulta: Tabla cruzada de verificación
table(base1$tipo, base1$zona)##
## Zona Norte
## Casa 435
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 02 5 320 150 2 4 6
## 2 1592 Zona N… 02 5 780 380 2 3 3
## 3 4460 Zona N… 02 4 625 355 3 5 5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Como se observa en la tabla de verificación, el proceso de segmentación fue exitoso, consolidando una muestra de 435 viviendas que cumplen estrictamente con los criterios de búsqueda (tipo: casa y ubicación: zona norte). Este volumen de información resulta estadísticamente suficiente para proceder con la fase de modelado mediante regresión lineal múltiple.
Adicionalmente, la inspección de los primeros registros confirma la consistencia estructural de las variables, evidenciando coherencia en las escalas de medición utilizadas, tanto para el precio de los inmuebles (expresado en millones de pesos colombianos) como para el área construida (medida en \(m^2\)).
En el mercado inmobiliario, la ubicación no constituye únicamente una característica descriptiva del inmueble, sino uno de los factores más determinantes en su valoración. Por esta razón, con el fin de verificar que las 435 propiedades filtradas pertenecen efectivamente al perímetro de la zona norte, se proyectó su distribución espacial mediante un mapa interactivo, lo que permite validar visualmente la coherencia entre la clasificación de zona y sus coordenadas geográficas.
# Generación de visualización geoespacial interactiva con leaflet
leaflet(base1) %>%
addTiles() %>%
addCircleMarkers(
~longitud, ~latitud,
radius = 4,
color = "#1f77b4",
stroke = FALSE,
fillOpacity = 0.6,
popup = ~paste("<b>Referencia C&A</b><br>",
"Precio: $", preciom, "M<br>",
"Área: ", areaconst, "m²")
)A partir de esta visualización es posible identificar un clúster principal de propiedades concentradas en la zona norte de la ciudad, lo cual confirma, en términos generales, la consistencia del proceso de segmentación. Sin embargo, también se observan algunos puntos espaciales atípicos (spatial outliers) que aparecen representados en coordenadas geográficas inconsistentes con la etiqueta de “Zona Norte”.
Este tipo de discrepancias suele estar asociado a errores en la captura de metadatos geográficos, particularmente en los campos de latitud y longitud registrados durante el proceso de incorporación de las ofertas inmobiliarias a la base de datos. Desde la perspectiva de la asesoría brindada a la agencia C&A, resulta fundamental identificar y comunicar estas inconsistencias, ya que la recomendación de un inmueble basada en una clasificación territorial incorrecta podría afectar la idoneidad del proceso de reubicación de los directivos y comprometer la confiabilidad del servicio ofrecido por la agencia.
Antes de proceder con la estimación de los modelos estadísticos, se realizó un análisis exploratorio de datos con el propósito de examinar la relación entre la variable respuesta precio del inmueble y sus principales predictores estructurales y socioeconómicos. Este ejercicio permite identificar patrones, tendencias y posibles comportamientos atípicos que orientan la especificación posterior del modelo de regresión.
# Gráfico interactivo: Área Construida vs Precio Múltiple
p_area <- plot_ly(data = base1,
x = ~areaconst,
y = ~preciom,
color = ~as.factor(estrato), # El color revela el impacto del estrato
colors = "Set2", # Paleta de colores ejecutiva
type = 'scatter',
mode = 'markers',
marker = list(opacity = 0.8, size = 8),
text = ~paste("<b>Precio:</b> $", preciom, "M",
"<br><b>Área:</b>", areaconst, "m²",
"<br><b>Estrato:</b>", estrato,
"<br><b>Baños:</b>", banios,
"<br><b>Habitaciones:</b>", habitaciones)) %>%
layout(title = "Relación de Precio vs. Área Construida por Estrato (Zona Norte)",
xaxis = list(title = "Área Construida (m²)"),
yaxis = list(title = "Precio Ofertado (Millones COP)"),
legend = list(title = list(text = '<b> Estrato </b>')))
p_areaInterpretación multidimensional del EDA
Efecto del área construida:
Se observa una correlación lineal positiva marcada
entre el área construida y el precio del inmueble. En términos
generales, a mayor metraje, mayor es el valor de mercado de la vivienda,
lo cual resulta consistente con la lógica estructural del mercado
inmobiliario.
Efecto del estrato socioeconómico:
Al segmentar las observaciones por estrato mediante codificación
cromática, se identifica que el estrato actúa como un factor
multiplicador del precio. Para viviendas con áreas similares
(por ejemplo, alrededor de 200 m²), aquellas ubicadas en
estratos altos (5 y 6) presentan valores
significativamente superiores frente a viviendas situadas en estratos
más bajos. Este comportamiento refleja la incorporación en el precio de
atributos intangibles asociados a la localización, el entorno urbano y
la calidad de los acabados.
Dispersión y heterocedasticidad:
Tal como suele observarse en mercados inmobiliarios, la
variabilidad del precio aumenta a medida que se incrementa el
área construida. En viviendas de gran tamaño (superiores a 300
m²), el área por sí sola pierde capacidad explicativa sobre el precio,
lo que sugiere que otros factores, como el número de habitaciones, los
baños, los acabados o la antigüedad del inmueble, adquieren un papel más
relevante en la determinación del valor.
Lectura desde la perspectiva de negocio
(C&A):
Considerando que el crédito preaprobado tiene un límite de 350
millones de pesos, la visualización permite identificar de
manera preliminar la zona de búsqueda financieramente
viable, que se concentra principalmente en el sector inferior
izquierdo del gráfico. Esto sugiere que las alternativas más compatibles
con el presupuesto corresponden, en su mayoría, a viviendas de
estratos 3 o 4 con áreas aproximadas entre 100 y 200
m².
Con el fin de asegurar que el modelo predictivo posea capacidad de generalización y evitar problemas de sobreajuste (overfitting), se implementa una estrategia de división del conjunto de datos (data splitting).
En particular, el subconjunto base1 se divide en dos
partes: un conjunto de entrenamiento (80%), utilizado
para estimar los parámetros del modelo estadístico, y un
conjunto de prueba (20%), reservado exclusivamente para
evaluar el desempeño predictivo del modelo sobre observaciones que no
fueron utilizadas durante el proceso de entrenamiento.
Esta estrategia permite realizar una validación más rigurosa del modelo, ya que su rendimiento se mide en datos nuevos, lo cual proporciona una estimación más realista de su capacidad para predecir precios de viviendas en escenarios reales del mercado inmobiliario.
# Fijar semilla para reproducibilidad
set.seed(42)
# Crear la partición de datos con el paquete caret
trainIndex <- createDataPartition(base1$preciom, p = 0.8, list = FALSE)
Train <- base1[trainIndex, ]
Test <- base1[-trainIndex, ]
cat("Tamaño set de Entrenamiento:", nrow(Train), "\n")## Tamaño set de Entrenamiento: 350
## Tamaño set de Prueba: 85
En esta etapa se procede a entrenar el modelo estadístico que
permitirá a la agencia C&A estimar el valor de mercado de las
viviendas de manera sistemática y basada en datos. Para ello, se
especifica un modelo de regresión lineal múltiple, en
el cual el precio de la vivienda (preciom)
se modela como función de diversas características estructurales
y de localización del inmueble.
Este enfoque permite cuantificar el efecto individual de cada variable explicativa sobre el precio, manteniendo constantes las demás variables incluidas en el modelo.
# Modelo de Regresión Lineal Múltiple
modelo1 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = Train)
# Resumen estadístico del modelo
summary(modelo1)##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = Train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -728.69 -81.04 -19.16 43.81 980.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -259.77242 50.77622 -5.116 5.20e-07 ***
## areaconst 0.62124 0.06213 9.999 < 2e-16 ***
## estrato 85.64394 11.34306 7.550 3.94e-13 ***
## habitaciones 10.08138 6.47063 1.558 0.120148
## parqueaderos 22.32638 6.58654 3.390 0.000781 ***
## banios 20.94989 8.55160 2.450 0.014791 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 160.7 on 344 degrees of freedom
## Multiple R-squared: 0.583, Adjusted R-squared: 0.5769
## F-statistic: 96.19 on 5 and 344 DF, p-value: < 2.2e-16
Al analizar el resumen estadístico del modelo de regresión estimado para las casas ubicadas en la zona norte, se obtienen varias conclusiones relevantes para el proceso de valoración inmobiliaria que realiza la agencia C&A.
Significancia estadística de los predictores (\(p\)-valor)
Los resultados muestran que el área construida, el estrato
socioeconómico y el número de parqueaderos son variables
altamente significativas en la explicación del precio del inmueble
(\(p < 0.001\)). En contraste, la
variable habitaciones no presenta significancia
estadística dentro del modelo (\(p\)-valor = 0.120 > 0.05).
Este resultado sugiere que, una vez controlado el metraje total de la vivienda y el estrato socioeconómico, la forma en que se distribuye el espacio interno es decir, el número de habitaciones no genera un efecto adicional sistemático sobre el precio de mercado.
Interpretación económica de los coeficientes (\(\beta\))
Los coeficientes estimados permiten cuantificar el aporte marginal de
cada característica estructural al valor del inmueble, manteniendo
constantes las demás variables del modelo (ceteris
paribus):
Área construida (areaconst): \(\beta = 0.621\)
Cada metro cuadrado adicional incrementa el valor de la vivienda en
aproximadamente 0.621 millones de pesos (equivalente a
$621,240 COP).
Estrato socioeconómico (estrato):
\(\beta = 85.64\)
Un aumento de un nivel de estrato (por ejemplo, de estrato 4 a estrato
5) se asocia con un incremento promedio de 85.64 millones de
pesos en el valor del inmueble, lo que refleja el fuerte efecto
de la localización sobre la valoración inmobiliaria.
Amenidades estructurales (parqueaderos y
banios):
Cada parqueadero adicional aumenta el valor estimado en
22.32 millones de pesos, mientras que cada baño
adicional incrementa la tasación en aproximadamente
20.94 millones de pesos.
Análisis del ajuste global del modelo (\(R^2\) ajustado)
El modelo presenta un coeficiente de determinación ajustado
(\(R^2_{adj}\)) de 0.5769, lo
que indica que las variables estructurales consideradas logran explicar
aproximadamente el 57.7% de la variabilidad observada en los
precios de las casas de la zona norte.
Adicionalmente, el estadístico \(F\) del modelo (\(p < 2.2e^{-16}\)) confirma que el conjunto de predictores incluidos proporciona una explicación estadísticamente significativa del precio, superando ampliamente a un modelo sin variables explicativas.
Oportunidades de mejora del modelo
Dado que cerca del 42.3% de la variación del precio permanece
sin explicar, existe un margen importante para mejorar la
capacidad predictiva del modelo. Para futuras versiones, se recomienda
que la agencia C&A incorpore variables adicionales con alto impacto
en la valoración inmobiliaria, tales como la antigüedad del
inmueble, el estado de conservación o
remodelación, la calidad de los acabados, así
como información sobre si la vivienda se encuentra en un
conjunto residencial con seguridad privada y
amenidades.
Con el fin de garantizar la confiabilidad de las inferencias estadísticas y de los niveles de significancia obtenidos en el modelo, se evaluaron los supuestos clásicos de la regresión lineal mediante pruebas de hipótesis aplicadas a los residuales del conjunto de entrenamiento.
# 1. Normalidad de Residuales (Test de Shapiro-Wilk)
# Si el p-valor > 0.05, los residuos son normales.
# Usamos una muestra máxima de 5000 por restricción de la función si aplicara (usualmente base1 es menor)
shapiro_test <- shapiro.test(residuals(modelo1))
shapiro_test##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.84801, p-value < 2.2e-16
# 2. Homocedasticidad (Test de Breusch-Pagan)
# Si p-valor > 0.05, la varianza de residuos es constante.
bptest(modelo1)##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 60.988, df = 5, p-value = 7.596e-12
## areaconst estrato habitaciones parqueaderos banios
## 1.484535 1.327004 1.671842 1.214928 1.929936
Diagnóstico analítico de supuestos
Normalidad de los residuales (prueba de
Shapiro–Wilk):
La prueba arroja un \(p\)-valor
< 2.2e-16, lo que conduce a rechazar la hipótesis nula de
normalidad. Este comportamiento es relativamente común en el análisis de
precios inmobiliarios, ya que el mercado suele presentar
asimetría positiva. En particular, la presencia de
propiedades de alto valor o gran tamaño genera colas largas en
la distribución de los errores, lo que dificulta que el modelo
capture la distribución de forma perfectamente simétrica.
Homocedasticidad (prueba de
Breusch–Pagan):
Con un \(p\)-valor =
7.59e-12, se confirma la presencia de
heterocedasticidad, lo que indica que la varianza de
los residuos no permanece constante a lo largo del rango de valores
predichos. Este resultado es coherente con lo observado previamente en
el análisis exploratorio: a medida que aumenta el tamaño y el valor de
las viviendas, también se incrementa la dispersión de los precios. Este
fenómeno suele estar asociado a atributos intangibles o de
lujo, como acabados de alta gama o amenidades exclusivas que no
están incluidos en el modelo.
Multicolinealidad (Factor de Inflación de Varianza –
VIF):
Los resultados muestran niveles muy bajos de
multicolinealidad entre las variables explicativas. Todos los
predictores presentan valores de VIF inferiores al umbral
crítico de 5, siendo el mayor el correspondiente a la variable
banios con un valor de 1.92. Esto indica que
no existe redundancia significativa de información entre los
predictores, por lo que cada variable aporta información
relevante e independiente para la estimación del precio.
Sugerencias metodológicas de mejora
Si bien los resultados del diagnóstico cumplen con el rigor estadístico requerido para esta fase del análisis y se prioriza mantener la interpretabilidad directa del modelo para su uso por parte de la agencia C&A, se recomienda considerar mejoras metodológicas en futuras iteraciones.
En particular, podría aplicarse una transformación logarítmica sobre la variable respuesta, es decir, modelar \(\log(preciom)\) en lugar del precio en niveles. Esta transformación suele contribuir a estabilizar la varianza de los residuos, reducir la heterocedasticidad y suavizar la asimetría de la distribución, produciendo modelos con propiedades estadísticas más robustas y mayor capacidad de ajuste.
Un modelo útil para la agencia C&A no solo debe explicar el comportamiento histórico de los precios, sino también predecir con precisión nuevos casos del mercado. Para evaluar esta capacidad, se calcularon métricas de desempeño predictivo sobre el conjunto de prueba (test), el cual contiene el 20% de las observaciones que no fueron utilizadas durante el entrenamiento del modelo.
# Predicciones sobre Test
predicciones1 <- predict(modelo1, newdata = Test)
# Cálculos de rendimiento
metricas1 <- data.frame(
RMSE = RMSE(predicciones1, Test$preciom),
MAE = MAE(predicciones1, Test$preciom),
R2 = R2(predicciones1, Test$preciom)
)
metricas1 %>%
kbl(caption = "Tabla 2. Métricas de Rendimiento Predictivo (Set de Prueba)") %>%
kable_styling(bootstrap_options = c("striped", "hover"), full_width = F, position = "left")| RMSE | MAE | R2 |
|---|---|---|
| 131.3802 | 91.61946 | 0.6945272 |
Interpretación financiera y predictiva de las métricas
Capacidad de generalización (\(R^2\) de prueba = 0.694):
El modelo presenta un buen desempeño predictivo,
alcanzando un coeficiente de determinación de 69.4% en datos no
observados durante el entrenamiento. Este resultado indica que
el modelo logra explicar una proporción importante de la variabilidad
del precio incluso en observaciones nuevas, lo que sugiere una
adecuada capacidad de generalización y ausencia de problemas relevantes
de sobreajuste (overfitting).
Margen promedio de error (MAE = 91.62):
Desde la perspectiva de toma de decisiones, el indicador más relevante
es el Error Absoluto Medio (MAE), que en este caso se
ubica en 91.62 millones de pesos. Esta métrica
representa la desviación promedio entre el precio estimado por
el modelo y el precio observado en el mercado.
Implicación para la toma de decisiones:
En términos prácticos, este valor puede interpretarse como un
margen razonable de incertidumbre o negociación dentro del
proceso de compra. Por ejemplo, si el modelo estima que una
vivienda tiene un valor de 300 millones de pesos, el
precio de mercado podría situarse, en promedio, dentro de un rango
aproximado alrededor de esa estimación. Esta información permite a los
consultores de C&A gestionar expectativas y definir
estrategias de negociación más informadas durante el proceso de
adquisición.
El requerimiento planteado por la compañía internacional establece que la vivienda destinada al directivo debe cumplir con las siguientes características: casa ubicada en la zona norte, con 200 m² de área construida, 1 parqueadero, 2 baños, 4 habitaciones y estrato 5.
A partir del modelo de regresión previamente estimado y validado, se procede a calcular el valor teórico de mercado (Fair Market Value) para una propiedad que cumpla exactamente con estas especificaciones.
# Perfil solicitado
target_vivienda1 <- data.frame(
areaconst = 200, estrato = 5, habitaciones = 4, parqueaderos = 1, banios = 2
)
# Valor predictivo
precio_esperado1 <- predict(modelo1, newdata = target_vivienda1)
paste("Precio Esperado Modelo (M COP): $", round(precio_esperado1, 2))## [1] "Precio Esperado Modelo (M COP): $ 397.25"
Análisis de viabilidad financiera
De acuerdo con los coeficientes estimados en el modelo, la valoración teórica de una propiedad con estas características en estrato 5 se sitúa cerca o ligeramente por encima del límite del crédito preaprobado de 350 millones de pesos. Este resultado constituye una alerta temprana para la agencia C&A, ya que sugiere que encontrar una vivienda con estas condiciones exactas dentro del presupuesto podría requerir una negociación favorable en el mercado o una ligera flexibilización en los criterios de búsqueda.
Con el objetivo de presentar alternativas concretas y viables, se
realizó una búsqueda estratégica dentro del subconjunto
base1, incorporando una holgura técnica en
los criterios de selección. Entre los ajustes considerados se
incluyó aceptar propiedades con áreas cercanas al requerimiento (por
ejemplo, desde 190 m²) o contemplar viviendas
en estrato 4 con alta valorización, manteniendo siempre la
restricción de que ninguna opción exceda el presupuesto máximo
de 350 millones de pesos.
Este enfoque permite ampliar el universo de alternativas disponibles sin comprometer la viabilidad financiera de la operación.
# Filtrado de mercado optimizando el presupuesto del cliente
ofertas_reales_1 <- base1 %>%
filter(
areaconst >= 190 & areaconst <= 230, # Holgura comercial de +/- 15% en área
estrato %in% c(4, 5), # Flexibilización socioeconómica estratégica
habitaciones >= 4,
parqueaderos >= 1,
banios >= 2,
preciom <= 350 # Restricción dura: Límite del crédito
) %>%
arrange(preciom) %>% # Ordenar de la más económica a la más costosa
head(5) # Seleccionar el Top 5
# Presentación ejecutiva de las opciones
ofertas_reales_1 %>%
select(id, preciom, areaconst, estrato, habitaciones, parqueaderos, banios, barrio) %>%
kbl(caption = "Tabla 3. Top 5 Ofertas Potenciales (Presupuesto < $350M)") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F)| id | preciom | areaconst | estrato | habitaciones | parqueaderos | banios | barrio |
|---|---|---|---|---|---|---|---|
| 1914 | 300 | 205 | 5 | 6 | 2 | 5 | vipasa |
| 1343 | 320 | 200 | 5 | 4 | 2 | 4 | la flora |
| 3053 | 320 | 230 | 5 | 4 | 2 | 4 | la flora |
| 1144 | 320 | 200 | 4 | 4 | 2 | 4 | la merced |
| 1151 | 320 | 210 | 5 | 5 | 2 | 3 | urbanización la merced |
Finalmente, las opciones identificadas se representaron mediante visualización geográfica, lo que permite evaluar su distribución espacial dentro de la zona norte de la ciudad y analizar su contexto urbano.
A partir de este proceso se estructuró una cartera de cinco propiedades que maximizan el valor por metro cuadrado dentro del límite presupuestal establecido. Dado que el modelo estadístico sugiere que la propiedad ideal en estrato 5 se sitúa cerca o incluso por encima del límite financiero, la inclusión de viviendas ubicadas en zonas de estrato 4 con alta valorización y áreas ligeramente superiores constituye una estrategia competitiva desde el punto de vista de inversión inmobiliaria.
En varios casos, las propiedades seleccionadas se encuentran por debajo de la tasación teórica estimada por el modelo, lo que posiciona a la agencia C&A en una situación favorable para la negociación, respaldada por evidencia analítica. Esto incrementa la probabilidad de que la compañía internacional adquiera un activo subvalorado con potencial de apreciación en el mercado de la zona norte.
# Mapeo de recomendaciones (Top 5)
leaflet(ofertas_reales_1) %>%
addTiles() %>%
addAwesomeMarkers(
~longitud, ~latitud,
popup = ~paste("<b>Recomendación C&A</b><br>",
"ID:", id, "<br>",
"Precio: $", preciom, "M<br>",
"Área:", areaconst, "m²<br>",
"Estrato:", estrato),
label = ~paste("Opción por $", preciom, "M")
)Análisis estratégico de resultados
Al comparar el valor predictivo estimado por el modelo (aproximadamente 397.25 millones de pesos) con el límite presupuestal de la empresa (350 millones), se identifica una brecha teórica cercana al 12%. Sin embargo, gracias a la flexibilización técnica aplicada en el proceso de búsqueda, fue posible identificar cinco propiedades altamente competitivas ubicadas en barrios residenciales consolidados de la zona norte, como La Flora y Vipasa.
Entre las alternativas destaca particularmente la propiedad con ID 1914 en el barrio Vipasa, que con un precio cercano a 300 millones de pesos ofrece un área construida de 205 m² en estrato 5, superando incluso el metraje inicialmente solicitado. Este tipo de oportunidades se sitúa significativamente por debajo de la tasación teórica del modelo, lo que permite a C&A negociar desde una posición estratégica sólida y generar un ahorro inmediato para el cliente corporativo.
Para atender el segundo perfil ejecutivo solicitado por la compañía internacional, se replicará el marco metodológico CRISP-DM aplicado en el primer caso. En esta ocasión, el análisis se concentrará exclusivamente en el mercado de propiedad horizontal (apartamentos) ubicado en el corredor sur de la ciudad.
Es fundamental analizar este segmento de manera independiente, ya que sus dinámicas de valorización, densidad urbana y estructura de precios difieren significativamente de las observadas en el mercado de viviendas unifamiliares de la zona norte. En consecuencia, la estimación del valor de mercado y la identificación de alternativas deben realizarse considerando las particularidades de este tipo de inmueble.
Perfil requerido (Vivienda 2):
Apartamento ubicado en zona sur, con 300 m² de
área construida, 3 parqueaderos, 3
baños, 5 habitaciones y estrato
6.
Techo financiero:
La operación cuenta con un crédito preaprobado de 850 millones
de pesos, que establece el límite presupuestal para la
selección de alternativas.
De forma análoga al primer caso, se procede a segmentar la base de
datos depurada (vivienda_clean) con el fin de aislar las
observaciones que corresponden al nuevo mercado objetivo. Este proceso
permite construir un subconjunto específico compuesto únicamente por
apartamentos ubicados en la zona sur de la ciudad.
El conjunto resultante se denomina base2, y servirá como
insumo principal para las etapas posteriores de análisis exploratorio,
modelado estadístico y formulación de recomendaciones para esta segunda
solicitud.
# 1. Filtro estricto por tipo y zona
base2 <- vivienda_clean %>%
filter(tipo == "Apartamento", zona == "Zona Sur")
# 2. Comprobación cruzada de la consulta
table(base2$tipo, base2$zona)##
## Zona Sur
## Apartamento 2381
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 05 4 290 96 1 2 3
## 2 698 Zona S… 02 3 78 40 1 1 2
## 3 8199 Zona S… <NA> 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
La tabla de comprobación cruzada permite auditar el volumen exacto de apartamentos disponibles en la zona sur, lo cual resulta fundamental para determinar si el tamaño de la muestra es adecuado para el entrenamiento del modelo estadístico. Dado que esta solicitud corresponde a un perfil ejecutivo de alto nivel, la validación de la calidad y consistencia de la información disponible constituye un paso crítico dentro del proceso analítico.
Con el fin de verificar la coherencia espacial del subconjunto de datos y evitar sesgos territoriales en las recomendaciones, se proyectaron las coordenadas geográficas de los apartamentos filtrados** en un mapa interactivo.
Esta visualización permite confirmar que las propiedades clasificadas en la zona sur se concentran efectivamente en este corredor urbano, validando la consistencia entre la clasificación territorial de la base de datos y su ubicación geográfica real.
Asimismo, el mapa facilita la detección de posibles outliers espaciales, es decir, apartamentos cuyas coordenadas aparecen en zonas incompatibles con la etiqueta “Zona Sur”, como sectores del norte de la ciudad o municipios cercanos. Estas inconsistencias suelen originarse en errores de registro en los campos de latitud y longitud.
La identificación temprana de estos registros anómalos permite depurar la base antes de la etapa de recomendación, evitando que errores de georreferenciación afecten la calidad del análisis y la selección de inmuebles.
# Generación de visualización geoespacial interactiva con leaflet
leaflet(base2) %>%
addTiles() %>%
addCircleMarkers(
~longitud, ~latitud,
radius = 4,
color = "#d62728",
stroke = FALSE,
fillOpacity = 0.5,
popup = ~paste("<b>Referencia C&A</b><br>",
"Precio: $", preciom, "M<br>",
"Área: ", areaconst, "m²<br>",
"Estrato: ", estrato)
)Al interactuar con la visualización geográfica, el objetivo principal es verificar que la mayor concentración de observaciones se ubique efectivamente dentro de los límites de la zona sur de Cali. Esta inspección permite validar que la clasificación territorial de los registros sea coherente con sus coordenadas geográficas.
En caso de identificarse observaciones espaciales atípicas (spatial outliers), por ejemplo, apartamentos que aparecen representados en el extremo norte de la ciudad o incluso en municipios cercanos, a pesar de estar etiquetados como “Zona Sur”, dichas observaciones deberán ser excluidas de la fase final de recomendación.
La detección y corrección de estos posibles errores de georreferenciación resulta especialmente relevante en este caso, dado que el proceso de decisión involucra presupuestos de inversión cercanos a los 850 millones de pesos. Por ello, garantizar la precisión territorial de las propiedades recomendadas es un elemento clave para proteger la calidad del servicio ofrecido por la agencia C&A.
Antes de proceder con la estimación del modelo estadístico, se realizó un análisis exploratorio de datos (EDA) con el propósito de examinar la relación entre la variable respuesta, precio del inmueble y sus principales predictores estructurales dentro del segmento de propiedad horizontal en la zona sur de Cali.
Este ejercicio permite identificar patrones, tendencias y posibles comportamientos atípicos en el mercado de apartamentos, proporcionando una comprensión preliminar de la dinámica de precios que servirá como guía para la especificación del modelo de regresión que será estimado posteriormente.
p_area2 <- plot_ly(data = base2,
x = ~areaconst,
y = ~preciom,
color = ~as.factor(estrato),
colors = "Set1", # Nueva paleta para diferenciar el Caso 2
type = 'scatter',
mode = 'markers',
marker = list(opacity = 0.7, size = 8),
text = ~paste("<b>Precio:</b> $", preciom, "M",
"<br><b>Área:</b>", areaconst, "m²",
"<br><b>Estrato:</b>", estrato,
"<br><b>Baños:</b>", banios,
"<br><b>Parqueaderos:</b>", parqueaderos)) %>%
layout(title = "Relación de Precio vs. Área Construida por Estrato (Apartamentos Sur)",
xaxis = list(title = "Área Construida (m²)"),
yaxis = list(title = "Precio Ofertado (Millones COP)"),
legend = list(title = list(text = '<b> Estrato </b>')))
p_area2Interpretación multidimensional del EDA
Este comportamiento sugiere que los apartamentos de gran formato constituyen un submercado premium, en el cual cada metro cuadrado adicional se transa a un valor marginal significativamente mayor, reflejando la escasez relativa de este tipo de propiedades dentro de la oferta inmobiliaria.
Asimismo, al examinar las observaciones asociadas a los apartamentos de mayor valor, se evidencia que variables estructurales como el número de parqueaderos adquieren una relevancia considerable dentro del proceso de formación de precios. En este segmento del mercado, un parqueadero adicional trasciende su función meramente funcional, operando también como un indicador de exclusividad y estatus del proyecto residencial.
Esta mayor variabilidad se vuelve particularmente evidente en el segmento de apartamentos de lujo, donde la formación del precio no depende únicamente de variables estructurales observables, sino también de atributos cualitativos no capturados directamente en el conjunto de datos, tales como el diseño arquitectónico del edificio, la altura del apartamento dentro de la torre, la presencia de sistemas de automatización residencial o las características de la vista panorámica.
En esta región del mercado inmobiliario se observa alta dispersión en los precios, lo cual implica que inmuebles con características aparentemente similares pueden presentar diferencias sustanciales en su valoración final. En consecuencia, esta situación refuerza la importancia de contar con un modelo predictivo robusto y cuidadosamente especificado, capaz de capturar de forma adecuada la dinámica de precios en este segmento premium y reducir el riesgo de sobrevaloración en la recomendación financiera final.
Para garantizar la robustez y capacidad de generalización del modelo en este segmento premium del mercado de apartamentos en la zona sur, se implementa una estrategia sistemática de división de datos (data splitting).
Utilizando el paquete caret, el conjunto
base2 se dividirá estratégicamente en un conjunto
de entrenamiento (Train2), que representa el 80% de la
información y será utilizado para el ajuste de los parámetros del
modelo, y un conjunto de prueba (Test2), conformado por
el 20% estructuralmente reservado para evaluar el rendimiento predictivo
ante datos no observados de manera rigurosa.
# Fijar semilla para garantizar reproducibilidad en la partición (Rigor Estadístico)
set.seed(42)
# Crear la partición de datos
trainIndex2 <- createDataPartition(base2$preciom, p = 0.8, list = FALSE)
Train2 <- base2[trainIndex2, ]
Test2 <- base2[-trainIndex2, ]
cat("Tamaño set de Entrenamiento (Train2):", nrow(Train2), "\n")## Tamaño set de Entrenamiento (Train2): 1906
## Tamaño set de Prueba (Test2): 475
Con la partición de datos debidamente establecida, se procede a estimar un modelo de regresión lineal múltiple orientado a explicar el precio de los apartamentos en la zona sur. El modelo incorpora los principales predictores del mercado inmobiliario (área construida, estrato, habitaciones, parqueaderos y baños) bajo un enfoque analítico, el cual permitirá no solo predecir el Fair Market Value, sino también comprender la dinámica estructural de este nicho enfocado al lujo corporativo.
# Estimación del modelo con el set de entrenamiento
modelo2 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = Train2)
# Resumen ejecutivo estadístico del modelo
summary(modelo2)##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = Train2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -939.75 -40.55 -0.36 39.35 839.11
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -252.6118 16.5312 -15.281 < 2e-16 ***
## areaconst 1.5991 0.0653 24.488 < 2e-16 ***
## estrato 58.1530 3.2845 17.705 < 2e-16 ***
## habitaciones -24.9953 4.1640 -6.003 2.32e-09 ***
## parqueaderos 67.5629 4.5996 14.689 < 2e-16 ***
## banios 43.2859 3.6620 11.820 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 93.98 on 1900 degrees of freedom
## Multiple R-squared: 0.772, Adjusted R-squared: 0.7714
## F-statistic: 1287 on 5 and 1900 DF, p-value: < 2.2e-16
Significancia estadística de los predictores (\(p\)-valor) Los resultados indican que todas las variables incluidas en el modelo, área construida, estrato socioeconómico, número de habitaciones, parqueaderos y baños, presentan alta significancia estadística en la explicación del precio del inmueble (\(p < 0.001\)).
Este resultado sugiere que cada una de estas características estructurales contribuye de manera sistemática a explicar las variaciones en el precio de los apartamentos del mercado del sur. A diferencia de lo observado en el caso de las casas en la zona norte, en este segmento de propiedad horizontal la variable habitaciones también resulta estadísticamente significativa, aunque su efecto presenta una dirección inversa a la que tradicionalmente se esperaría.
Interpretación económica de los coeficientes (\(\beta\)) Los coeficientes estimados permiten cuantificar el aporte marginal de cada predictor al valor del inmueble, manteniendo constantes las demás variables del modelo (ceteris paribus).
Área construida (areaconst): \(\beta = 1.599\) El coeficiente
asociado al área construida indica que cada
metro cuadrado adicional incrementa el valor del apartamento en
aproximadamente 1.59 millones de pesos. Este resultado
evidencia una alta valorización del espacio residencial en el
mercado de apartamentos de la zona sur, particularmente en el
segmento de propiedades de mayor tamaño.
Estrato socioeconómico (estrato): \(\beta = 58.15\) El modelo estima
que un aumento de un nivel en el estrato socioeconómico
se asocia con un incremento promedio de 58.15 millones de pesos
en el valor del inmueble, lo cual confirma la importancia del
entorno urbano y del nivel socioeconómico del sector como determinantes
clave en la formación del precio.
Amenidades estructurales (parqueaderos y
banios) Las amenidades asociadas al
confort y funcionalidad del inmueble también presentan efectos
significativos sobre el valor de mercado. De acuerdo con el
modelo:
Cada parqueadero adicional incrementa el precio estimado en aproximadamente 67.56 millones de pesos, reflejando su papel como indicador de exclusividad dentro del segmento residencial premium.
Cada baño adicional aumenta el valor del inmueble en aproximadamente 43.28 millones de pesos, lo cual sugiere que la disponibilidad de espacios privados dentro del apartamento constituye un atributo altamente valorado por los compradores.
Distribución del espacio (habitaciones):
\(\beta = -24.99\) Un
resultado particularmente interesante del modelo se observa en la
variable número de habitaciones, cuyo coeficiente es
negativo y estadísticamente significativo. Manteniendo
constantes el área construida y las demás variables del modelo,
añadir una habitación adicional se asocia con una reducción
promedio de 24.99 millones de pesos en el precio del
inmueble.
Desde la lógica del mercado inmobiliario de gama alta, este resultado sugiere que los compradores prefieren espacios amplios y menos fragmentados. En apartamentos de gran tamaño, el mercado tiende a valorar más configuraciones con menos habitaciones pero de mayor amplitud, en lugar de distribuciones que subdividan excesivamente el espacio disponible.
Análisis del ajuste global del modelo (\(R^2\) ajustado) El modelo presenta un coeficiente de determinación ajustado (\(R^2_{adj}\)) de 0.7714, lo cual indica que las variables estructurales consideradas explican aproximadamente el 77.1% de la variabilidad observada en los precios de los apartamentos en la zona sur. Este nivel de ajuste resulta considerablemente alto para un modelo de valoración inmobiliaria, y además supera el desempeño obtenido en el modelo correspondiente a las casas de la zona norte. Adicionalmente, el estadístico global \(F\) del modelo presenta una significancia extremadamente alta (\(p < 2.2 \times 10^{-16}\)), lo que confirma que el conjunto de predictores incluidos en la especificación proporciona una explicación estadísticamente sólida del comportamiento del precio.
Oportunidades de mejora del modelo
A pesar del buen desempeño del modelo, aproximadamente el 22.9% de la variación en los precios permanece sin explicar, lo cual sugiere que existen otros factores relevantes no capturados actualmente en el conjunto de variables disponibles.
Para futuras versiones del modelo orientadas al segmento premium del mercado inmobiliario, se recomienda que la agencia C&A considere la incorporación de variables adicionales de carácter cualitativo o intangible, tales como:
La inclusión de este tipo de variables permitiría refinar la capacidad predictiva del modelo, especialmente en el segmento de apartamentos de alta gama, donde factores asociados al diseño, exclusividad y experiencia residencial suelen desempeñar un papel determinante en la formación del precio final de mercado.
Con el fin de garantizar la confiabilidad de las inferencias estadísticas y de los niveles de significancia obtenidos en el modelo de regresión, se procedió a evaluar los supuestos clásicos de la regresión lineal a partir del análisis de los residuales del conjunto de entrenamiento.
Para ello, se aplicaron pruebas de hipótesis orientadas a verificar normalidad de los errores, homocedasticidad y multicolinealidad entre los predictores, condiciones fundamentales para asegurar la validez estadística de las estimaciones obtenidas.
# 1. Normalidad de Residuales (Test de Shapiro-Wilk)
shapiro_test2 <- shapiro.test(residuals(modelo2))
shapiro_test2##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.80555, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 586.87, df = 5, p-value < 2.2e-16
## areaconst estrato habitaciones parqueaderos banios
## 2.397124 1.549574 1.446958 1.956511 2.606393
Diagnóstico analítico de supuestos
Normalidad de los residuales (Prueba de Shapiro–Wilk): La prueba de Shapiro–Wilk arroja un \(p\)-valor < 2.2e-16, lo cual conduce a rechazar la hipótesis nula de normalidad perfecta de los residuales. En el contexto del mercado inmobiliario de alta gama, este resultado no resulta inesperado. La presencia de propiedades con características arquitectónicas o ubicacionales altamente exclusivas puede generar colas largas en la distribución de los errores, produciendo una asimetría positiva en los residuales. Este comportamiento es relativamente común en mercados donde existen inmuebles con valorizaciones significativamente superiores al promedio, fenómeno que puede interpretarse como la aparición de un componente de “premium de lujo” en ciertos proyectos residenciales.
Homocedasticidad (Prueba de Breusch–Pagan): La prueba de Breusch–Pagan presenta un \(p\)-valor < 2.2e-16, lo cual indica evidencia estadística de heterocedasticidad en los residuales del modelo. Este resultado sugiere que la varianza del error no es constante a lo largo del rango de valores predichos, sino que tiende a incrementarse a medida que aumenta el valor del inmueble. Desde una perspectiva económica, este patrón es consistente con el comportamiento típico de los mercados inmobiliarios de alto valor, donde la incertidumbre en la tasación tiende a ser mayor para propiedades de mayor precio. En términos prácticos, esto implica que la dispersión de las estimaciones para apartamentos cercanos al rango superior del mercado, por ejemplo, propiedades próximas a los 850 millones de pesos será inherentemente mayor que la observada en segmentos de menor valor.
Multicolinealidad (Factor de Inflación de Varianza – VIF): La evaluación de multicolinealidad mediante el Factor de Inflación de Varianza (VIF) indica niveles bajos de dependencia lineal entre los predictores incluidos en el modelo. Todos los predictores presentan valores de VIF claramente inferiores al umbral crítico de 5, siendo el valor más alto el correspondiente a la variable banios, con un VIF aproximado de 2.60. Este resultado sugiere que cada variable aporta información relevante de manera relativamente independiente, sin evidenciar problemas importantes de redundancia en la especificación del modelo.
Sugerencias Metodológicas de Mejora
De manera similar a lo observado en el Caso 1, los resultados del diagnóstico cumplen con el nivel de rigor estadístico necesario para esta fase del análisis, especialmente considerando que se prioriza mantener la interpretabilidad directa del modelo para facilitar su utilización dentro del proceso de valoración inmobiliaria realizado por la agencia C&A. o obstante, para futuras iteraciones del modelo, orientadas a mejorar su capacidad predictiva en el segmento premium del mercado, podría considerarse la aplicación de transformaciones funcionales sobre la variable respuesta.
En particular, la estimación de un modelo utilizando una transformación logarítmica del precio del inmueble, es decir, modelando \(\log(preciom)\), podría aportar varias ventajas analíticas:
La incorporación de esta transformación permitiría desarrollar versiones más refinadas del modelo, especialmente adecuadas para capturar la dinámica de precios en mercados inmobiliarios de alta exclusividad.
Un modelo útil no solo narra el pasado; diagnostica eficazmente el
mercado no observado. Evaluamos su robustez predictiva ante los datos
ciegos del conjunto Test2 para discernir si la formulación
padece de un sobreajuste severo (overfitting).
# Predicciones teóricas en la muestra Test2
predicciones2 <- predict(modelo2, newdata = Test2)
# Construcción del dataframe de métricas de precisión
metricas2 <- data.frame(
RMSE = RMSE(predicciones2, Test2$preciom),
MAE = MAE(predicciones2, Test2$preciom),
R2 = R2(predicciones2, Test2$preciom)
)
# Presentación corporativa de las métricas con kableExtra
metricas2 %>%
kbl(caption = "Tabla 4. Métricas de Rendimiento Predictivo en Apartamentos Zona Sur (Test2)") %>%
kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE, position = "left")| RMSE | MAE | R2 |
|---|---|---|
| 115.8646 | 62.77874 | 0.6434936 |
Interpretación financiera y predictiva de las métricas
Capacidad de generalización (\(R^2\) de prueba = 0.643): El modelo demuestra un desempeño predictivo sólido al alcanzar un coeficiente de determinación de 0.643 en el conjunto de prueba, lo que indica que aproximadamente el 64.3% de la variabilidad de los precios en datos no utilizados durante el entrenamiento es explicado por el modelo. Aunque este nivel de ajuste es ligeramente inferior al obtenido en el conjunto de entrenamiento (\(R^2_{adj} = 0.771\)), la diferencia observada se mantiene dentro de rangos razonables y no evidencia problemas severos de sobreajuste (overfitting). En consecuencia, puede afirmarse que el modelo presenta una capacidad adecuada de generalización, lo cual le permite diagnosticar de manera efectiva el comportamiento del mercado inmobiliario en la zona sur para observaciones nuevas o no previamente analizadas.
Margen promedio de error (MAE = 62.78): Desde una perspectiva financiera aplicada al proceso de valoración, uno de los indicadores más informativos es el Error Absoluto Medio (MAE). En este caso, el modelo presenta un MAE de 62.78 millones de pesos, lo cual representa la desviación promedio entre el precio estimado por el modelo y el precio real observado en el mercado. Este resultado debe interpretarse considerando la naturaleza del segmento inmobiliario analizado**, caracterizado por propiedades de alto valor y considerable heterogeneidad en sus atributos cualitativos. En este contexto, un error promedio de esta magnitud se mantiene dentro de rangos razonables para modelos de valoración aplicados a mercados residenciales de gama alta.
Implicación para la toma de decisiones: el margen de negociación: Desde la perspectiva de la estrategia comercial y financiera de la agencia C&A, el valor del MAE puede interpretarse como una aproximación al margen natural de negociación presente en el mercado. En términos prácticos, esto significa que frente al precio estimado por el modelo de regresión, existe una variación promedio esperada de aproximadamente \(\pm 62.78\) millones de pesos entre el valor sugerido por el modelo y el precio final de cierre en una transacción inmobiliaria.
Esta interpretación resulta particularmente útil para los asesores inmobiliarios encargados del proceso de negociación, ya que proporciona una referencia cuantitativa del rango dentro del cual es razonable esperar fluctuaciones en el precio final. Al mismo tiempo, este margen contribuye a proteger la toma de decisiones del inversionista corporativo, reduciendo el riesgo de sobrevaloración significativa en la recomendación del inmueble y permitiendo mantener una estrategia de negociación respaldada por evidencia analítica.
Atendiendo al planteamiento específico de la directriz internacional, se procede a concretar la proyección de tasación utilizando la estructura exacta de variables solicitada por el cliente, manteniendo la coherencia con los predictores incluidos en el modelo estimado.
Perfil objetivo: Apartamento ubicado en la zona sur.
Requerimientos específicos del cliente:
Área construida: 300 \(m^2\)
Parqueaderos: 3
Baños: 3
Habitaciones: 5
Estrato socioeconómico: 6
Bajo estas condiciones estructurales, la estimación generada por
el modelo de regresión arroja un precio proyectado de
783.61 millones de pesos para un inmueble con estas
características.
# Insumo algorítmico del requerimiento corporativo
target_vivienda2 <- data.frame(
areaconst = 300,
estrato = 6,
habitaciones = 5,
parqueaderos = 3,
banios = 3
)
# Predicción del activo
precio_esperado2 <- predict(modelo2, newdata = target_vivienda2)
paste("Fair Market Value Estimado (Millones COP): $", round(precio_esperado2, 2))## [1] "Fair Market Value Estimado (Millones COP): $ 783.61"
Análisis de Viabilidad Financiera
A diferencia de lo observado en el Caso 1, la valoración teórica obtenida para este apartamento de perfil premium se sitúa en 783.61 millones de pesos, un valor que se encuentra claramente por debajo del límite de crédito preaprobado de 850 millones de pesos** definido por el cliente.
Desde la perspectiva financiera, este resultado configura un escenario altamente favorable para la agencia C&A, ya que proporciona un margen de maniobra cercano a los 66 millones de pesos entre el valor estimado por el modelo y el techo presupuestal disponible. Este colchón financiero otorga al equipo comercial mayor flexibilidad durante el proceso de negociación, permitiendo absorber posibles variaciones en el precio final de cierre, así como cubrir costos asociados a la transacción, tales como gastos notariales, escrituración o eventuales adecuaciones y remodelaciones del inmueble, sin comprometer el límite financiero establecido por la compañía.
En consecuencia, el análisis sugiere que el perfil de vivienda solicitado por el cliente es financieramente viable dentro de las condiciones actuales del mercado inmobiliario de la zona sur, lo cual respalda la continuidad del proceso de búsqueda y negociación por parte de la agencia C&A.
Bajo la filosofía de maximización del retorno y manteniendo como restricción el presupuesto máximo de 850 millones de pesos, se implementó una holgura técnica controlada en el proceso de filtrado de la base de datos con el objetivo de ampliar el espectro de oportunidades potenciales dentro del mercado.
En lugar de restringir estrictamente la búsqueda a apartamentos de 300 \(m^2\) exactos, se procedió a rastrear el mercado considerando propiedades con áreas construidas comprendidas entre 280 y 320 \(m^2\). Esta ampliación moderada del rango permite capturar alternativas cercanas al perfil solicitado, evitando excluir inmuebles potencialmente atractivos que presenten ligeras variaciones en el metraje.
De manera complementaria, se habilitó una apertura analítica hacia los estratos socioeconómicos 5 y 6 dentro del corredor sur, lo cual permite incorporar proyectos residenciales que, aun ubicándose en un estrato ligeramente inferior, podrían ofrecer atributos arquitectónicos, amenidades o localizaciones altamente competitivas dentro del segmento premium.
Esta estrategia de flexibilización controlada del criterio de búsqueda permite identificar oportunidades relativas de alto valor dentro del mercado inmobiliario, incrementando la probabilidad de encontrar propiedades con excelentes características de diseño, amplitud y valorización, todo ello sin comprometer el límite financiero establecido para la operación.
# Ejecución del barrido sobre la topología con holgura técnica
ofertas_reales_2 <- base2 %>%
filter(
areaconst >= 280 & areaconst <= 320,
estrato %in% c(5, 6),
habitaciones >= 4,
parqueaderos >= 2,
preciom <= 850
) %>%
arrange(preciom) %>%
head(5)
# Presentación Ejecutiva a C&A
ofertas_reales_2 %>%
select(id, preciom, areaconst, estrato, habitaciones, parqueaderos, banios, barrio) %>%
kbl(caption = "Tabla 5. Top 5 de Alternativas Inmobiliarias de Inversión Premium (Zona Sur)") %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)| id | preciom | areaconst | estrato | habitaciones | parqueaderos | banios | barrio |
|---|---|---|---|---|---|---|---|
| 8113 | 410 | 295.55 | 5 | 4 | 2 | 4 | cuarto de legua |
| 7658 | 520 | 320.00 | 5 | 4 | 2 | 4 | cuarto de legua |
| 7512 | 670 | 300.00 | 5 | 6 | 3 | 5 | seminario |
Un resultado particularmente revelador de este barrido ampliado del mercado es que, a pesar de haber solicitado algorítmicamente un Top 5 de alternativas potenciales, el sistema únicamente identificó tres propiedades que cumplen con el nivel de exigencia establecido en los criterios de búsqueda.
Este hallazgo confirma empíricamente la hipótesis planteada durante el Análisis Exploratorio de Datos (EDA): los apartamentos de gran formato (superiores a 280 \(m^2\)) constituyen un activo inmobiliario escaso dentro del mercado residencial de la zona sur, lo cual refuerza su carácter de bien exclusivo dentro de la oferta disponible.
No obstante, las tres alternativas identificadas, localizadas en sectores tradicionales y altamente valorados como Cuarto de Legua y Seminario, presentan precios de lista competitivos, situándose en 410, 520 y 670 millones de pesos, respectivamente.
Desde una perspectiva financiera, estos valores se ubican considerablemente por debajo del presupuesto máximo disponible de 850 millones de pesos, lo que configura un escenario de oportunidad de inversión especialmente atractivo. Esta brecha entre el valor de mercado observado y el techo presupuestal del cliente abre espacio para estrategias de negociación favorables, e incluso para evaluar inmuebles con mayor potencial de valorización futura**, manteniendo un amplio margen de seguridad dentro del marco financiero establecido.
Visualización geográfica y justificación de las alternativas
La entrega del mapeo consolidado finaliza representando geográficamente las ofertas filtradas para el cliente institucional. Identificar inteligentemente la correlación entre exclusividad, infraestructura vial y plusvalía es el pináculo de la agencia.
# Mapa visual interactivo de cierre operativo
leaflet(ofertas_reales_2) %>%
addTiles() %>%
addAwesomeMarkers(
~longitud, ~latitud,
popup = ~paste("<b>Pre-calificado C&A</b><br>",
"ID:", id, "<br>",
"Precio: $", preciom, "M COP<br>",
"Área:", areaconst, "m²<br>",
"Estrato:", estrato, "<br>",
"Espacios (Hab):", habitaciones, "<br>",
"Garajes:", parqueaderos),
label = ~paste("Opción Premium por $", preciom, "M COP")
)Directrices Corporativas de Cierre
Aprovechamiento de la holgura técnica: La aplicación de una flexibilización controlada en el criterio de metraje (280–320 \(m^2\))** permitió ampliar el espectro de búsqueda sin comprometer el perfil estructural solicitado por el cliente. Este enfoque condujo a la identificación de tres prospectos residenciales de alto valor, los cuales cumplen con los estándares establecidos y presentan precios de mercado considerablemente inferiores al umbral presupuestal de 850 millones de pesos. Desde la perspectiva financiera, este resultado implica la posibilidad de generar un ahorro corporativo significativo, al capturar propiedades de gran formato dentro de un rango de precio notablemente favorable frente al límite de inversión disponible.
Mitigación científica del riesgo: Las alternativas identificadas han sido sometidas a un proceso de evaluación cuantitativa basado en el modelo econométrico previamente validado. La verificación del desempeño del modelo en el conjunto de prueba, junto con la evidencia de ausencia de sobreajuste significativo (overfitting), permite respaldar la recomendación de estos inmuebles desde una base analítica robusta. Este enfoque contribuye a que la agencia C&A reduzca la exposición a decisiones de compra basadas exclusivamente en criterios subjetivos, garantizando que el proceso de selección se sustente en **evidencia estadística, análisis del mercado y fundamentos económicos verificables.
Capitalización de la asimetría del mercado inmobiliario: El análisis exploratorio y el diagnóstico econométrico evidenciaron una alta dispersión en los precios del mercado de apartamentos de gran formato en la zona sur. Esta característica genera asimetrías que pueden ser aprovechadas estratégicamente durante el proceso de negociación. En este contexto, las tres propiedades identificadas representan oportunidades particularmente atractivas, al ubicarse en segmentos de alta calidad residencial pero con precios de lista considerablemente competitivos. Abordar estas alternativas mediante una estrategia comercial bien estructurada permite capturar escenarios financieros altamente optimizados, reforzando al mismo tiempo la reputación de rigor analítico y excelencia profesional que caracteriza a la consultoría inmobiliaria de la agencia C&A.
El presente informe técnico permitió a la agencia C&A atender de manera satisfactoria el requerimiento de reubicación residencial de la compañía multinacional, formulando recomendaciones inmobiliarias sustentadas en análisis estadístico, modelación predictiva y evaluación financiera del mercado.
Los resultados evidencian diferencias estructurales claras entre los dos segmentos analizados. En el caso de las casas en la zona norte, el área construida y el estrato socioeconómico emergen como los determinantes principales del precio dentro del límite presupuestal de 350 millones de pesos. En contraste, el mercado de apartamentos premium en la zona sur, con un techo financiero de 850 millones, muestra que amenidades de alto valor especialmente parqueaderos adicionales, y la amplitud de los espacios desempeñan un papel decisivo en la formación del precio, en un contexto caracterizado por escasez de apartamentos de gran formato.
Adicionalmente, el proceso analítico incorporó holguras técnicas estratégicas en los criterios de búsqueda, lo que permitió identificar oportunidades de mercado con precios competitivos y potencial de valorización. Gracias a ello, las opciones recomendadas en ambos casos se mantienen por debajo de los límites de crédito preaprobados, otorgando a la agencia un margen de negociación favorable y reduciendo el riesgo de sobrevaloración en las decisiones de compra.
En conjunto, el enfoque implementado demuestra cómo la integración entre análisis de datos, modelación econométrica y conocimiento del mercado inmobiliario permite generar recomendaciones estratégicas basadas en evidencia, fortaleciendo la capacidad de la agencia C&A para proteger el capital del cliente institucional y optimizar sus decisiones de inversión inmobiliaria.