1 Introducción

En la actualidad, el sector inmobiliario de Cali atraviesa un periodo de transformación caracterizado por una disminución significativa en el volumen de ventas durante el último año. Sin embargo, este escenario coexiste con una dinámica oferta de crédito por parte de instituciones financieras de ahorro y vivienda, que continúan inyectando capital para el desarrollo de proyectos residenciales y comerciales. En este contexto, la precisión en la valoración de los activos inmobiliarios se convierte en un factor determinante para la toma de decisiones estratégicas.

La agencia C&A (Casas y Apartamentos), fundada por María tras más de una década de trayectoria en el mercado local, ha sido seleccionada por una compañía internacional para gestionar la adquisición de dos viviendas destinadas a la reubicación de sus directivos en la ciudad. Este encargo exige no solo el cumplimiento de especificaciones técnicas y habitacionales estrictas, sino también una gestión eficiente de los recursos financieros, considerando créditos preaprobados por $350 y $850 millones de pesos, respectivamente.

En este marco, el presente informe técnico desarrolla un análisis basado en herramientas de ciencia de datos con el fin de transformar la información disponible del mercado inmobiliario de los últimos tres meses en recomendaciones estratégicas y accionables. De esta manera, se busca optimizar el uso de los recursos financieros y garantizar que las alternativas de vivienda seleccionadas respondan adecuadamente a las necesidades de reubicación corporativa.

2 Objetivos

2.1 Objetivo General

Asesorar a la agencia C&A mediante la implementación de modelos de regresión lineal múltiple que permitan estimar el precio de mercado de los inmuebles y recomendar las opciones de vivienda más adecuadas para una compañía internacional, cumpliendo con las restricciones técnicas y presupuestarias establecidas.

2.2 Objetivos Específicos

Segmentar y depurar la información del mercado inmobiliario de acuerdo con los perfiles de búsqueda definidos: casas en la zona norte y apartamentos en la zona sur de la ciudad.
Realizar un análisis exploratorio de datos (EDA) interactivo para identificar las relaciones entre el precio de los inmuebles y variables relevantes como área construida, estrato socioeconómico y número de habitaciones.
Estimar y validar modelos de regresión lineal múltiple para cada solicitud, evaluando la significancia estadística de los coeficientes y el nivel de ajuste del modelo mediante el coeficiente de determinación ($R^2$).
Verificar el cumplimiento de los supuestos estadísticos del modelo (normalidad de los residuos, homocedasticidad y ausencia de multicolinealidad) con el fin de garantizar la robustez de las inferencias.
Predecir valores de mercado y seleccionar ofertas potenciales que se ajusten a los límites financieros de $350 millones y $850 millones de pesos, justificando además su localización mediante visualizaciones y mapas interactivos.

3 Datos

data("vivienda")

# 2. Cálculos para el reporte (Estado Inicial)
n_obs_inicial <- nrow(vivienda)
n_vars_inicial <- ncol(vivienda)

# 3. Limpieza de valores nulos en variables de interés para el modelo
vivienda_clean <- vivienda %>%
  drop_na(preciom, areaconst, estrato, banios, habitaciones, parqueaderos, zona, tipo, longitud, latitud)

# 4. Cálculos para el reporte (Estado Final)
n_obs_final <- nrow(vivienda_clean)
n_eliminados <- n_obs_inicial - n_obs_final
porc_eliminados <- round((n_eliminados / n_obs_inicial) * 100, 2)

Para el desarrollo de los modelos de valoración se utilizaron registros del mercado inmobiliario correspondientes a los últimos tres meses. Como primer paso, se realizó el proceso de ingesta de la información y posteriormente una fase de depuración de datos mediante la técnica de list-wise deletion, con el objetivo de garantizar que los modelos de regresión se entrenen únicamente con observaciones completas en las variables estructurales clave.

Inicialmente, el conjunto de datos vivienda estaba compuesto por 8322 observaciones y 13 variables. Durante el proceso de control de calidad de la información se identificaron y eliminaron 1605 registros que presentaban valores faltantes (NA) en alguna de las variables críticas para el análisis, tales como precio, área construida, estrato socioeconómico y otras características estructurales del inmueble.

Esta depuración representa la eliminación del 19.29 % de la muestra original. Como resultado, se obtuvo la base de datos vivienda_clean, que constituye el insumo final para la etapa de modelado estadístico y que cuenta con 6717 observaciones completas y consistentes.

# Inspección visual de la estructura de los datos limpios
glimpse(vivienda_clean)

## Rows: 6,717
## Columns: 13
## $ id           <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona         <chr> "Zona Oriente", "Zona Oriente", "Zona Oriente", "Zona Sur…
## $ piso         <chr> NA, NA, NA, "02", "01", "01", "01", "01", "02", "02", "02…
## $ estrato      <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 4, 5, 6, 4, 5, 5, 4, 5, 3, …
## $ preciom      <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 625, 75…
## $ areaconst    <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 355, 237, 9…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, 3, 2, 2, 1, 4, 2, 2, 2, 1, …
## $ banios       <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 5, 6, 2, 4, 4, 4, 3, 2, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 5, 6, 2, 5, 5, 4, 3, 3, 3, …
## $ tipo         <chr> "Casa", "Casa", "Casa", "Casa", "Apartamento", "Apartamen…
## $ barrio       <chr> "20 de julio", "20 de julio", "20 de julio", "3 de julio"…
## $ longitud     <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud      <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…

# Definición simplificada y directa para negocio
diccionario <- data.frame(
  Variable = c("zona", "estrato", "preciom", "areaconst", 
               "parqueaderos", "banios", "habitaciones", "tipo", "barrio", 
               "longitud", "latitud"),
  
  Descripcion = c("Zona de la ciudad donde se ubica", 
                  "Nivel socioeconómico oficial (3 al 6)", 
                  "Precio de venta ofertado (Millones COP)", 
                  "Área construida total (m²)", 
                  "Cantidad de espacios de estacionamiento", 
                  "Cantidad de baños", 
                  "Cantidad de habitaciones", 
                  "Tipo de inmueble residencial", 
                  "Nombre del barrio de ubicación", 
                  "Coordenada geográfica (Longitud)", 
                  "Coordenada geográfica (Latitud)"),
  
  Clasificacion = c("Cualitativa", "Cualitativa", "Cuantitativa", "Cuantitativa", 
                    "Cuantitativa", "Cuantitativa", "Cuantitativa", "Cualitativa", 
                    "Cualitativa", "Cuantitativa", "Cuantitativa"),
  
  Tipo_Medicion = c("Nominal", "Ordinal", "Continua", "Continua", 
                    "Discreta", "Discreta", "Discreta", "Nominal", 
                    "Nominal", "Continua (Espacial)", "Continua (Espacial)")
)

# Generación de la tabla
diccionario %>%
  kbl(caption = "Tabla 1. Diccionario de Datos Inmobiliarios") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed", "responsive"), 
                full_width = F, position = "center") %>%
  row_spec(0, bold = TRUE, color = "white", background = "#2c3e50") %>%
  column_spec(1, bold = TRUE)

Tabla 1. Diccionario de Datos Inmobiliarios
Variable	Descripcion	Clasificacion	Tipo_Medicion
zona	Zona de la ciudad donde se ubica	Cualitativa	Nominal
estrato	Nivel socioeconómico oficial (3 al 6)	Cualitativa	Ordinal
preciom	Precio de venta ofertado (Millones COP)	Cuantitativa	Continua
areaconst	Área construida total (m²)	Cuantitativa	Continua
parqueaderos	Cantidad de espacios de estacionamiento	Cuantitativa	Discreta
banios	Cantidad de baños	Cuantitativa	Discreta
habitaciones	Cantidad de habitaciones	Cuantitativa	Discreta
tipo	Tipo de inmueble residencial	Cualitativa	Nominal
barrio	Nombre del barrio de ubicación	Cualitativa	Nominal
longitud	Coordenada geográfica (Longitud)	Cuantitativa	Continua (Espacial)
latitud	Coordenada geográfica (Latitud)	Cuantitativa	Continua (Espacial)

# Justificación visual de la segmentación del mercado
ggplot(vivienda_clean, aes(x = areaconst, y = preciom, color = tipo)) +
  geom_point(alpha = 0.5, size = 2) +
  scale_color_manual(values = c("Apartamento" = "#1f77b4", "Casa" = "#d62728")) +
  theme_minimal() +
  labs(title = "Comportamiento del Precio vs Área según Tipo de Inmueble",
       x = "Área Construida (m²)",
       y = "Precio Ofertado (Millones COP)",
       color = "Tipo de Inmueble")

Como muestra la gráfica, la relación entre precio y área construida varía significativamente según el tipo de inmueble. Las casas presentan una amplia dispersión horizontal, reflejando metrajes considerablemente mayores, mientras que los apartamentos concentran áreas más pequeñas pero alcanzan precios elevados, generando un patrón vertical de valorización.

Esta diferencia estructural evidencia comportamientos de mercado distintos, lo que justifica metodológicamente segmentar el análisis y estimar modelos predictivos independientes para cada tipo de inmueble (Caso 1 y Caso 2).

4 Caso 1: Solicitud de Vivienda 1 (Zona Norte)

La primera solicitud gestionada por la agencia C&A corresponde a la búsqueda de una vivienda tipo casa, ubicada exclusivamente en la zona norte de la ciudad, destinada a la reubicación de un directivo internacional y su familia. Para esta operación, la compañía ha dispuesto de un crédito preaprobado con un límite de 350 millones de pesos, lo que establece una restricción financiera clara para el proceso de selección de inmuebles.

4.1 Filtrado de datos y verificación

Como primer paso del análisis, se procede a segmentar el conjunto de datos depurado (vivienda_clean), con el objetivo de identificar únicamente aquellas observaciones que cumplen con las características estructurales y de localización definidas en la solicitud.

Este proceso de filtrado permite construir un subconjunto específico de análisis, compuesto exclusivamente por registros correspondientes a viviendas tipo casa ubicadas en la zona norte. A este nuevo conjunto de datos se le denomina base1, y constituirá el insumo principal para las etapas posteriores de análisis exploratorio de datos, modelado estadístico y generación de recomendaciones.

# Creación de la base de datos exclusiva para el Caso 1
base1 <- vivienda_clean %>% 
  filter(tipo == "Casa", zona == "Zona Norte")

# Comprobación de la consulta: Tabla cruzada de verificación
table(base1$tipo, base1$zona)

##       
##        Zona Norte
##   Casa        435

# Inspección de los primeros 3 registros para validar la estructura de los datos
head(base1, 3)

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4460 Zona N… 02          4     625       355            3      5            5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Como se observa en la tabla de verificación, el proceso de segmentación fue exitoso, consolidando una muestra de 435 viviendas que cumplen estrictamente con los criterios de búsqueda (tipo: casa y ubicación: zona norte). Este volumen de información resulta estadísticamente suficiente para proceder con la fase de modelado mediante regresión lineal múltiple.

Adicionalmente, la inspección de los primeros registros confirma la consistencia estructural de las variables, evidenciando coherencia en las escalas de medición utilizadas, tanto para el precio de los inmuebles (expresado en millones de pesos colombianos) como para el área construida (medida en $m^2$).

4.2 Validación Espacial

En el mercado inmobiliario, la ubicación no constituye únicamente una característica descriptiva del inmueble, sino uno de los factores más determinantes en su valoración. Por esta razón, con el fin de verificar que las 435 propiedades filtradas pertenecen efectivamente al perímetro de la zona norte, se proyectó su distribución espacial mediante un mapa interactivo, lo que permite validar visualmente la coherencia entre la clasificación de zona y sus coordenadas geográficas.

# Generación de visualización geoespacial interactiva con leaflet
leaflet(base1) %>%
  addTiles() %>%
  addCircleMarkers(
    ~longitud, ~latitud, 
    radius = 4, 
    color = "#1f77b4",
    stroke = FALSE, 
    fillOpacity = 0.6,
    popup = ~paste("<b>Referencia C&A</b><br>",
                  "Precio: $", preciom, "M<br>",
                  "Área: ", areaconst, "m²")
  )

A partir de esta visualización es posible identificar un clúster principal de propiedades concentradas en la zona norte de la ciudad, lo cual confirma, en términos generales, la consistencia del proceso de segmentación. Sin embargo, también se observan algunos puntos espaciales atípicos (spatial outliers) que aparecen representados en coordenadas geográficas inconsistentes con la etiqueta de “Zona Norte”.

Este tipo de discrepancias suele estar asociado a errores en la captura de metadatos geográficos, particularmente en los campos de latitud y longitud registrados durante el proceso de incorporación de las ofertas inmobiliarias a la base de datos. Desde la perspectiva de la asesoría brindada a la agencia C&A, resulta fundamental identificar y comunicar estas inconsistencias, ya que la recomendación de un inmueble basada en una clasificación territorial incorrecta podría afectar la idoneidad del proceso de reubicación de los directivos y comprometer la confiabilidad del servicio ofrecido por la agencia.

4.3 Análisis Exploratorio de Datos (EDA) Interactivos

Antes de proceder con la estimación de los modelos estadísticos, se realizó un análisis exploratorio de datos con el propósito de examinar la relación entre la variable respuesta precio del inmueble y sus principales predictores estructurales y socioeconómicos. Este ejercicio permite identificar patrones, tendencias y posibles comportamientos atípicos que orientan la especificación posterior del modelo de regresión.

# Gráfico interactivo: Área Construida vs Precio Múltiple
p_area <- plot_ly(data = base1, 
                  x = ~areaconst, 
                  y = ~preciom, 
                  color = ~as.factor(estrato), # El color revela el impacto del estrato
                  colors = "Set2", # Paleta de colores ejecutiva
                  type = 'scatter', 
                  mode = 'markers',
                  marker = list(opacity = 0.8, size = 8),
                  text = ~paste("<b>Precio:</b> $", preciom, "M",
                                "<br><b>Área:</b>", areaconst, "m²",
                                "<br><b>Estrato:</b>", estrato, 
                                "<br><b>Baños:</b>", banios,
                                "<br><b>Habitaciones:</b>", habitaciones)) %>%
  layout(title = "Relación de Precio vs. Área Construida por Estrato (Zona Norte)",
         xaxis = list(title = "Área Construida (m²)"),
         yaxis = list(title = "Precio Ofertado (Millones COP)"),
         legend = list(title = list(text = '<b> Estrato </b>')))

p_area

Interpretación multidimensional del EDA

Efecto del área construida:
Se observa una correlación lineal positiva marcada entre el área construida y el precio del inmueble. En términos generales, a mayor metraje, mayor es el valor de mercado de la vivienda, lo cual resulta consistente con la lógica estructural del mercado inmobiliario.
Efecto del estrato socioeconómico:
Al segmentar las observaciones por estrato mediante codificación cromática, se identifica que el estrato actúa como un factor multiplicador del precio. Para viviendas con áreas similares (por ejemplo, alrededor de 200 m²), aquellas ubicadas en estratos altos (5 y 6) presentan valores significativamente superiores frente a viviendas situadas en estratos más bajos. Este comportamiento refleja la incorporación en el precio de atributos intangibles asociados a la localización, el entorno urbano y la calidad de los acabados.
Dispersión y heterocedasticidad:
Tal como suele observarse en mercados inmobiliarios, la variabilidad del precio aumenta a medida que se incrementa el área construida. En viviendas de gran tamaño (superiores a 300 m²), el área por sí sola pierde capacidad explicativa sobre el precio, lo que sugiere que otros factores, como el número de habitaciones, los baños, los acabados o la antigüedad del inmueble, adquieren un papel más relevante en la determinación del valor.
Lectura desde la perspectiva de negocio (C&A):
Considerando que el crédito preaprobado tiene un límite de 350 millones de pesos, la visualización permite identificar de manera preliminar la zona de búsqueda financieramente viable, que se concentra principalmente en el sector inferior izquierdo del gráfico. Esto sugiere que las alternativas más compatibles con el presupuesto corresponden, en su mayoría, a viviendas de estratos 3 o 4 con áreas aproximadas entre 100 y 200 m².

4.4 Preparación de los Datos (Data Splitting)

4.4.1 Partición de entrenamiento y prueba

Con el fin de asegurar que el modelo predictivo posea capacidad de generalización y evitar problemas de sobreajuste (overfitting), se implementa una estrategia de división del conjunto de datos (data splitting).

En particular, el subconjunto base1 se divide en dos partes: un conjunto de entrenamiento (80%), utilizado para estimar los parámetros del modelo estadístico, y un conjunto de prueba (20%), reservado exclusivamente para evaluar el desempeño predictivo del modelo sobre observaciones que no fueron utilizadas durante el proceso de entrenamiento.

Esta estrategia permite realizar una validación más rigurosa del modelo, ya que su rendimiento se mide en datos nuevos, lo cual proporciona una estimación más realista de su capacidad para predecir precios de viviendas en escenarios reales del mercado inmobiliario.

# Fijar semilla para reproducibilidad
set.seed(42)

# Crear la partición de datos con el paquete caret
trainIndex <- createDataPartition(base1$preciom, p = 0.8, list = FALSE)
Train <- base1[trainIndex, ]
Test  <- base1[-trainIndex, ]

cat("Tamaño set de Entrenamiento:", nrow(Train), "\n")

## Tamaño set de Entrenamiento: 350

cat("Tamaño set de Prueba:", nrow(Test), "\n")

## Tamaño set de Prueba: 85

4.5 Modelado Estadístico

4.5.1 Estimación del modelo de regresión lineal múltiple

En esta etapa se procede a entrenar el modelo estadístico que permitirá a la agencia C&A estimar el valor de mercado de las viviendas de manera sistemática y basada en datos. Para ello, se especifica un modelo de regresión lineal múltiple, en el cual el precio de la vivienda (preciom) se modela como función de diversas características estructurales y de localización del inmueble.

Este enfoque permite cuantificar el efecto individual de cada variable explicativa sobre el precio, manteniendo constantes las demás variables incluidas en el modelo.

# Modelo de Regresión Lineal Múltiple
modelo1 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = Train)

# Resumen estadístico del modelo
summary(modelo1)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = Train)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -728.69  -81.04  -19.16   43.81  980.17 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -259.77242   50.77622  -5.116 5.20e-07 ***
## areaconst       0.62124    0.06213   9.999  < 2e-16 ***
## estrato        85.64394   11.34306   7.550 3.94e-13 ***
## habitaciones   10.08138    6.47063   1.558 0.120148    
## parqueaderos   22.32638    6.58654   3.390 0.000781 ***
## banios         20.94989    8.55160   2.450 0.014791 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 160.7 on 344 degrees of freedom
## Multiple R-squared:  0.583,  Adjusted R-squared:  0.5769 
## F-statistic: 96.19 on 5 and 344 DF,  p-value: < 2.2e-16

4.5.2 Interpretación de coeficientes y bondad de ajuste

Al analizar el resumen estadístico del modelo de regresión estimado para las casas ubicadas en la zona norte, se obtienen varias conclusiones relevantes para el proceso de valoración inmobiliaria que realiza la agencia C&A.

Significancia estadística de los predictores ($p$-valor)
Los resultados muestran que el área construida, el estrato socioeconómico y el número de parqueaderos son variables altamente significativas en la explicación del precio del inmueble ($p < 0.001$). En contraste, la variable habitaciones no presenta significancia estadística dentro del modelo ($p$-valor = 0.120 > 0.05).

Este resultado sugiere que, una vez controlado el metraje total de la vivienda y el estrato socioeconómico, la forma en que se distribuye el espacio interno es decir, el número de habitaciones no genera un efecto adicional sistemático sobre el precio de mercado.

Interpretación económica de los coeficientes ($\beta$)
Los coeficientes estimados permiten cuantificar el aporte marginal de cada característica estructural al valor del inmueble, manteniendo constantes las demás variables del modelo (ceteris paribus):

Área construida (areaconst): $\beta = 0.621$
Cada metro cuadrado adicional incrementa el valor de la vivienda en aproximadamente 0.621 millones de pesos (equivalente a $621,240 COP).
Estrato socioeconómico (estrato): $\beta = 85.64$
Un aumento de un nivel de estrato (por ejemplo, de estrato 4 a estrato 5) se asocia con un incremento promedio de 85.64 millones de pesos en el valor del inmueble, lo que refleja el fuerte efecto de la localización sobre la valoración inmobiliaria.
Amenidades estructurales (parqueaderos y banios):
Cada parqueadero adicional aumenta el valor estimado en 22.32 millones de pesos, mientras que cada baño adicional incrementa la tasación en aproximadamente 20.94 millones de pesos.

Análisis del ajuste global del modelo ($R^2$ ajustado)
El modelo presenta un coeficiente de determinación ajustado ($R^2_{adj}$) de 0.5769, lo que indica que las variables estructurales consideradas logran explicar aproximadamente el 57.7% de la variabilidad observada en los precios de las casas de la zona norte.

Adicionalmente, el estadístico $F$ del modelo ($p < 2.2e^{-16}$) confirma que el conjunto de predictores incluidos proporciona una explicación estadísticamente significativa del precio, superando ampliamente a un modelo sin variables explicativas.

Oportunidades de mejora del modelo
Dado que cerca del 42.3% de la variación del precio permanece sin explicar, existe un margen importante para mejorar la capacidad predictiva del modelo. Para futuras versiones, se recomienda que la agencia C&A incorpore variables adicionales con alto impacto en la valoración inmobiliaria, tales como la antigüedad del inmueble, el estado de conservación o remodelación, la calidad de los acabados, así como información sobre si la vivienda se encuentra en un conjunto residencial con seguridad privada y amenidades.

4.6 Evaluación y Validación del Modelo

4.6.1 Validación de supuestos estadísticos

Con el fin de garantizar la confiabilidad de las inferencias estadísticas y de los niveles de significancia obtenidos en el modelo, se evaluaron los supuestos clásicos de la regresión lineal mediante pruebas de hipótesis aplicadas a los residuales del conjunto de entrenamiento.

# 1. Normalidad de Residuales (Test de Shapiro-Wilk)
# Si el p-valor > 0.05, los residuos son normales. 
# Usamos una muestra máxima de 5000 por restricción de la función si aplicara (usualmente base1 es menor)
shapiro_test <- shapiro.test(residuals(modelo1))
shapiro_test

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.84801, p-value < 2.2e-16

# 2. Homocedasticidad (Test de Breusch-Pagan)
# Si p-valor > 0.05, la varianza de residuos es constante.
bptest(modelo1)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 60.988, df = 5, p-value = 7.596e-12

# 3. Multicolinealidad (VIF)
# VIF > 5 o 10 sugiere multicolinealidad severa.
vif(modelo1)

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.484535     1.327004     1.671842     1.214928     1.929936

# Generación de gráficos de diagnóstico del modelo (Caso 1)
par(mfrow = c(2, 2))
plot(modelo1)

par(mfrow = c(1, 1))

Diagnóstico analítico de supuestos

Normalidad de los residuales (prueba de Shapiro–Wilk):
La prueba arroja un $p$-valor < 2.2e-16, lo que conduce a rechazar la hipótesis nula de normalidad. Este comportamiento es relativamente común en el análisis de precios inmobiliarios, ya que el mercado suele presentar asimetría positiva. En particular, la presencia de propiedades de alto valor o gran tamaño genera colas largas en la distribución de los errores, lo que dificulta que el modelo capture la distribución de forma perfectamente simétrica.
Homocedasticidad (prueba de Breusch–Pagan):
Con un $p$-valor = 7.59e-12, se confirma la presencia de heterocedasticidad, lo que indica que la varianza de los residuos no permanece constante a lo largo del rango de valores predichos. Este resultado es coherente con lo observado previamente en el análisis exploratorio: a medida que aumenta el tamaño y el valor de las viviendas, también se incrementa la dispersión de los precios. Este fenómeno suele estar asociado a atributos intangibles o de lujo, como acabados de alta gama o amenidades exclusivas que no están incluidos en el modelo.
Multicolinealidad (Factor de Inflación de Varianza – VIF):
Los resultados muestran niveles muy bajos de multicolinealidad entre las variables explicativas. Todos los predictores presentan valores de VIF inferiores al umbral crítico de 5, siendo el mayor el correspondiente a la variable banios con un valor de 1.92. Esto indica que no existe redundancia significativa de información entre los predictores, por lo que cada variable aporta información relevante e independiente para la estimación del precio.

Sugerencias metodológicas de mejora

Si bien los resultados del diagnóstico cumplen con el rigor estadístico requerido para esta fase del análisis y se prioriza mantener la interpretabilidad directa del modelo para su uso por parte de la agencia C&A, se recomienda considerar mejoras metodológicas en futuras iteraciones.

En particular, podría aplicarse una transformación logarítmica sobre la variable respuesta, es decir, modelar $\log(preciom)$ en lugar del precio en niveles. Esta transformación suele contribuir a estabilizar la varianza de los residuos, reducir la heterocedasticidad y suavizar la asimetría de la distribución, produciendo modelos con propiedades estadísticas más robustas y mayor capacidad de ajuste.

4.6.2 Rendimiento en Conjunto de Prueba

Un modelo útil para la agencia C&A no solo debe explicar el comportamiento histórico de los precios, sino también predecir con precisión nuevos casos del mercado. Para evaluar esta capacidad, se calcularon métricas de desempeño predictivo sobre el conjunto de prueba (test), el cual contiene el 20% de las observaciones que no fueron utilizadas durante el entrenamiento del modelo.

# Predicciones sobre Test
predicciones1 <- predict(modelo1, newdata = Test)

# Cálculos de rendimiento
metricas1 <- data.frame(
  RMSE = RMSE(predicciones1, Test$preciom),
  MAE = MAE(predicciones1, Test$preciom),
  R2 = R2(predicciones1, Test$preciom)
)

metricas1 %>%
  kbl(caption = "Tabla 2. Métricas de Rendimiento Predictivo (Set de Prueba)") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = F, position = "left")

Tabla 2. Métricas de Rendimiento Predictivo (Set de Prueba)
RMSE	MAE	R2
131.3802	91.61946	0.6945272

Interpretación financiera y predictiva de las métricas

Capacidad de generalización ($R^2$ de prueba = 0.694):
El modelo presenta un buen desempeño predictivo, alcanzando un coeficiente de determinación de 69.4% en datos no observados durante el entrenamiento. Este resultado indica que el modelo logra explicar una proporción importante de la variabilidad del precio incluso en observaciones nuevas, lo que sugiere una adecuada capacidad de generalización y ausencia de problemas relevantes de sobreajuste (overfitting).
Margen promedio de error (MAE = 91.62):
Desde la perspectiva de toma de decisiones, el indicador más relevante es el Error Absoluto Medio (MAE), que en este caso se ubica en 91.62 millones de pesos. Esta métrica representa la desviación promedio entre el precio estimado por el modelo y el precio observado en el mercado.
Implicación para la toma de decisiones:
En términos prácticos, este valor puede interpretarse como un margen razonable de incertidumbre o negociación dentro del proceso de compra. Por ejemplo, si el modelo estima que una vivienda tiene un valor de 300 millones de pesos, el precio de mercado podría situarse, en promedio, dentro de un rango aproximado alrededor de esa estimación. Esta información permite a los consultores de C&A gestionar expectativas y definir estrategias de negociación más informadas durante el proceso de adquisición.

4.7 Despliegue y Recomendaciones

4.7.1 Predicción teórica del valor de mercado

El requerimiento planteado por la compañía internacional establece que la vivienda destinada al directivo debe cumplir con las siguientes características: casa ubicada en la zona norte, con 200 m² de área construida, 1 parqueadero, 2 baños, 4 habitaciones y estrato 5.

A partir del modelo de regresión previamente estimado y validado, se procede a calcular el valor teórico de mercado (Fair Market Value) para una propiedad que cumpla exactamente con estas especificaciones.

# Perfil solicitado
target_vivienda1 <- data.frame(
  areaconst = 200, estrato = 5, habitaciones = 4, parqueaderos = 1, banios = 2
)

# Valor predictivo
precio_esperado1 <- predict(modelo1, newdata = target_vivienda1)
paste("Precio Esperado Modelo (M COP): $", round(precio_esperado1, 2))

## [1] "Precio Esperado Modelo (M COP): $ 397.25"

Análisis de viabilidad financiera

De acuerdo con los coeficientes estimados en el modelo, la valoración teórica de una propiedad con estas características en estrato 5 se sitúa cerca o ligeramente por encima del límite del crédito preaprobado de 350 millones de pesos. Este resultado constituye una alerta temprana para la agencia C&A, ya que sugiere que encontrar una vivienda con estas condiciones exactas dentro del presupuesto podría requerir una negociación favorable en el mercado o una ligera flexibilización en los criterios de búsqueda.

4.7.2 Filtrado estratégico de ofertas reales

Con el objetivo de presentar alternativas concretas y viables, se realizó una búsqueda estratégica dentro del subconjunto base1, incorporando una holgura técnica en los criterios de selección. Entre los ajustes considerados se incluyó aceptar propiedades con áreas cercanas al requerimiento (por ejemplo, desde 190 m²) o contemplar viviendas en estrato 4 con alta valorización, manteniendo siempre la restricción de que ninguna opción exceda el presupuesto máximo de 350 millones de pesos.

Este enfoque permite ampliar el universo de alternativas disponibles sin comprometer la viabilidad financiera de la operación.

# Filtrado de mercado optimizando el presupuesto del cliente
ofertas_reales_1 <- base1 %>%
  filter(
    areaconst >= 190 & areaconst <= 230,  # Holgura comercial de +/- 15% en área
    estrato %in% c(4, 5),                 # Flexibilización socioeconómica estratégica
    habitaciones >= 4,
    parqueaderos >= 1,
    banios >= 2,
    preciom <= 350                        # Restricción dura: Límite del crédito
  ) %>%
  arrange(preciom) %>% # Ordenar de la más económica a la más costosa
  head(5)              # Seleccionar el Top 5

# Presentación ejecutiva de las opciones
ofertas_reales_1 %>%
  select(id, preciom, areaconst, estrato, habitaciones, parqueaderos, banios, barrio) %>%
  kbl(caption = "Tabla 3. Top 5 Ofertas Potenciales (Presupuesto < $350M)") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = F)

Tabla 3. Top 5 Ofertas Potenciales (Presupuesto < $350M)
id	preciom	areaconst	estrato	habitaciones	parqueaderos	banios	barrio
1914	300	205	5	6	2	5	vipasa
1343	320	200	5	4	2	4	la flora
3053	320	230	5	4	2	4	la flora
1144	320	200	4	4	2	4	la merced
1151	320	210	5	5	2	3	urbanización la merced

4.7.3 Visualización geográfica y justificación de las alternativas

Finalmente, las opciones identificadas se representaron mediante visualización geográfica, lo que permite evaluar su distribución espacial dentro de la zona norte de la ciudad y analizar su contexto urbano.

A partir de este proceso se estructuró una cartera de cinco propiedades que maximizan el valor por metro cuadrado dentro del límite presupuestal establecido. Dado que el modelo estadístico sugiere que la propiedad ideal en estrato 5 se sitúa cerca o incluso por encima del límite financiero, la inclusión de viviendas ubicadas en zonas de estrato 4 con alta valorización y áreas ligeramente superiores constituye una estrategia competitiva desde el punto de vista de inversión inmobiliaria.

En varios casos, las propiedades seleccionadas se encuentran por debajo de la tasación teórica estimada por el modelo, lo que posiciona a la agencia C&A en una situación favorable para la negociación, respaldada por evidencia analítica. Esto incrementa la probabilidad de que la compañía internacional adquiera un activo subvalorado con potencial de apreciación en el mercado de la zona norte.

# Mapeo de recomendaciones (Top 5)
leaflet(ofertas_reales_1) %>%
  addTiles() %>%
  addAwesomeMarkers(
    ~longitud, ~latitud, 
    popup = ~paste("<b>Recomendación C&A</b><br>",
                   "ID:", id, "<br>",
                   "Precio: $", preciom, "M<br>",
                   "Área:", areaconst, "m²<br>",
                   "Estrato:", estrato),
    label = ~paste("Opción por $", preciom, "M")
  )

Análisis estratégico de resultados

Al comparar el valor predictivo estimado por el modelo (aproximadamente 397.25 millones de pesos) con el límite presupuestal de la empresa (350 millones), se identifica una brecha teórica cercana al 12%. Sin embargo, gracias a la flexibilización técnica aplicada en el proceso de búsqueda, fue posible identificar cinco propiedades altamente competitivas ubicadas en barrios residenciales consolidados de la zona norte, como La Flora y Vipasa.

Entre las alternativas destaca particularmente la propiedad con ID 1914 en el barrio Vipasa, que con un precio cercano a 300 millones de pesos ofrece un área construida de 205 m² en estrato 5, superando incluso el metraje inicialmente solicitado. Este tipo de oportunidades se sitúa significativamente por debajo de la tasación teórica del modelo, lo que permite a C&A negociar desde una posición estratégica sólida y generar un ahorro inmediato para el cliente corporativo.

5 Caso 2: Solicitud de Vivienda 2 (Zona Sur)

Para atender el segundo perfil ejecutivo solicitado por la compañía internacional, se replicará el marco metodológico CRISP-DM aplicado en el primer caso. En esta ocasión, el análisis se concentrará exclusivamente en el mercado de propiedad horizontal (apartamentos) ubicado en el corredor sur de la ciudad.

Es fundamental analizar este segmento de manera independiente, ya que sus dinámicas de valorización, densidad urbana y estructura de precios difieren significativamente de las observadas en el mercado de viviendas unifamiliares de la zona norte. En consecuencia, la estimación del valor de mercado y la identificación de alternativas deben realizarse considerando las particularidades de este tipo de inmueble.

Perfil requerido (Vivienda 2):
Apartamento ubicado en zona sur, con 300 m² de área construida, 3 parqueaderos, 3 baños, 5 habitaciones y estrato 6.

Techo financiero:
La operación cuenta con un crédito preaprobado de 850 millones de pesos, que establece el límite presupuestal para la selección de alternativas.

5.1 Filtrado de datos y verificación

De forma análoga al primer caso, se procede a segmentar la base de datos depurada (vivienda_clean) con el fin de aislar las observaciones que corresponden al nuevo mercado objetivo. Este proceso permite construir un subconjunto específico compuesto únicamente por apartamentos ubicados en la zona sur de la ciudad.

El conjunto resultante se denomina base2, y servirá como insumo principal para las etapas posteriores de análisis exploratorio, modelado estadístico y formulación de recomendaciones para esta segunda solicitud.

# 1. Filtro estricto por tipo y zona
base2 <- vivienda_clean %>% 
  filter(tipo == "Apartamento", zona == "Zona Sur")

# 2. Comprobación cruzada de la consulta
table(base2$tipo, base2$zona)

##              
##               Zona Sur
##   Apartamento     2381

# 3. Inspección de los primeros 3 registros para validar la estructura
head(base2, 3)

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

La tabla de comprobación cruzada permite auditar el volumen exacto de apartamentos disponibles en la zona sur, lo cual resulta fundamental para determinar si el tamaño de la muestra es adecuado para el entrenamiento del modelo estadístico. Dado que esta solicitud corresponde a un perfil ejecutivo de alto nivel, la validación de la calidad y consistencia de la información disponible constituye un paso crítico dentro del proceso analítico.

5.2 Validación espacial

Con el fin de verificar la coherencia espacial del subconjunto de datos y evitar sesgos territoriales en las recomendaciones, se proyectaron las coordenadas geográficas de los apartamentos filtrados** en un mapa interactivo.

Esta visualización permite confirmar que las propiedades clasificadas en la zona sur se concentran efectivamente en este corredor urbano, validando la consistencia entre la clasificación territorial de la base de datos y su ubicación geográfica real.

Asimismo, el mapa facilita la detección de posibles outliers espaciales, es decir, apartamentos cuyas coordenadas aparecen en zonas incompatibles con la etiqueta “Zona Sur”, como sectores del norte de la ciudad o municipios cercanos. Estas inconsistencias suelen originarse en errores de registro en los campos de latitud y longitud.

La identificación temprana de estos registros anómalos permite depurar la base antes de la etapa de recomendación, evitando que errores de georreferenciación afecten la calidad del análisis y la selección de inmuebles.

# Generación de visualización geoespacial interactiva con leaflet
leaflet(base2) %>%
  addTiles() %>%
  addCircleMarkers(
    ~longitud, ~latitud, 
    radius = 4, 
    color = "#d62728",
    stroke = FALSE, 
    fillOpacity = 0.5,
    popup = ~paste("<b>Referencia C&A</b><br>",
                   "Precio: $", preciom, "M<br>",
                   "Área: ", areaconst, "m²<br>",
                   "Estrato: ", estrato)
  )

Al interactuar con la visualización geográfica, el objetivo principal es verificar que la mayor concentración de observaciones se ubique efectivamente dentro de los límites de la zona sur de Cali. Esta inspección permite validar que la clasificación territorial de los registros sea coherente con sus coordenadas geográficas.

En caso de identificarse observaciones espaciales atípicas (spatial outliers), por ejemplo, apartamentos que aparecen representados en el extremo norte de la ciudad o incluso en municipios cercanos, a pesar de estar etiquetados como “Zona Sur”, dichas observaciones deberán ser excluidas de la fase final de recomendación.

La detección y corrección de estos posibles errores de georreferenciación resulta especialmente relevante en este caso, dado que el proceso de decisión involucra presupuestos de inversión cercanos a los 850 millones de pesos. Por ello, garantizar la precisión territorial de las propiedades recomendadas es un elemento clave para proteger la calidad del servicio ofrecido por la agencia C&A.

5.3 Análisis Exploratorio de Datos (EDA) Interactivos

Antes de proceder con la estimación del modelo estadístico, se realizó un análisis exploratorio de datos (EDA) con el propósito de examinar la relación entre la variable respuesta, precio del inmueble y sus principales predictores estructurales dentro del segmento de propiedad horizontal en la zona sur de Cali.

Este ejercicio permite identificar patrones, tendencias y posibles comportamientos atípicos en el mercado de apartamentos, proporcionando una comprensión preliminar de la dinámica de precios que servirá como guía para la especificación del modelo de regresión que será estimado posteriormente.

p_area2 <- plot_ly(data = base2, 
                  x = ~areaconst, 
                  y = ~preciom, 
                  color = ~as.factor(estrato),
                  colors = "Set1", # Nueva paleta para diferenciar el Caso 2
                  type = 'scatter', 
                  mode = 'markers',
                  marker = list(opacity = 0.7, size = 8),
                  text = ~paste("<b>Precio:</b> $", preciom, "M",
                                "<br><b>Área:</b>", areaconst, "m²",
                                "<br><b>Estrato:</b>", estrato, 
                                "<br><b>Baños:</b>", banios,
                                "<br><b>Parqueaderos:</b>", parqueaderos)) %>%
  layout(title = "Relación de Precio vs. Área Construida por Estrato (Apartamentos Sur)",
         xaxis = list(title = "Área Construida (m²)"),
         yaxis = list(title = "Precio Ofertado (Millones COP)"),
         legend = list(title = list(text = '<b> Estrato </b>')))

p_area2

Interpretación multidimensional del EDA

Efecto del área construida A diferencia del mercado de casas unifamiliares, el segmento de propiedad horizontal en la zona sur presenta una alta concentración de observaciones en metrajes inferiores a los 150 $m^2$. No obstante, el análisis revela que cuando los apartamentos superan los 200 $m^2$ de área construida, el precio del inmueble experimenta incrementos considerablemente más pronunciados.

Este comportamiento sugiere que los apartamentos de gran formato constituyen un submercado premium, en el cual cada metro cuadrado adicional se transa a un valor marginal significativamente mayor, reflejando la escasez relativa de este tipo de propiedades dentro de la oferta inmobiliaria.

Efecto del estrato socioeconómico y las amenidades Al incorporar el estrato socioeconómico como dimensión visual dentro de la exploración gráfica, se observa que las propiedades correspondientes al estrato 6 se concentran sistemáticamente en los niveles más altos de precio, lo que confirma su papel como determinante clave en la valorización del inmueble.

Asimismo, al examinar las observaciones asociadas a los apartamentos de mayor valor, se evidencia que variables estructurales como el número de parqueaderos adquieren una relevancia considerable dentro del proceso de formación de precios. En este segmento del mercado, un parqueadero adicional trasciende su función meramente funcional, operando también como un indicador de exclusividad y estatus del proyecto residencial.

Dispersión y heterocedasticidad De manera similar a lo observado en el Caso 1, el análisis gráfico sugiere la presencia de heterocedasticidad, evidenciada por un incremento progresivo en la dispersión de los precios a medida que aumenta el tamaño del inmueble.

Esta mayor variabilidad se vuelve particularmente evidente en el segmento de apartamentos de lujo, donde la formación del precio no depende únicamente de variables estructurales observables, sino también de atributos cualitativos no capturados directamente en el conjunto de datos, tales como el diseño arquitectónico del edificio, la altura del apartamento dentro de la torre, la presencia de sistemas de automatización residencial o las características de la vista panorámica.

Lectura desde la perspectiva de negocio (C&A) Desde la perspectiva de la toma de decisiones de la agencia C&A, el análisis exploratorio proporciona una señal importante. Considerando que el cliente dispone de un crédito preaprobado de 850 millones de pesos y ha manifestado interés en apartamentos cercanos a los 300 $m^2$ en estrato 6, el perfil de búsqueda se ubica en la zona superior derecha del espacio de análisis, correspondiente al segmento más exclusivo y menos frecuente del mercado.

En esta región del mercado inmobiliario se observa alta dispersión en los precios, lo cual implica que inmuebles con características aparentemente similares pueden presentar diferencias sustanciales en su valoración final. En consecuencia, esta situación refuerza la importancia de contar con un modelo predictivo robusto y cuidadosamente especificado, capaz de capturar de forma adecuada la dinámica de precios en este segmento premium y reducir el riesgo de sobrevaloración en la recomendación financiera final.

5.4 Preparación de los Datos (Data Splitting)

5.4.1 Partición de entrenamiento y prueba

Para garantizar la robustez y capacidad de generalización del modelo en este segmento premium del mercado de apartamentos en la zona sur, se implementa una estrategia sistemática de división de datos (data splitting).

Utilizando el paquete caret, el conjunto base2 se dividirá estratégicamente en un conjunto de entrenamiento (Train2), que representa el 80% de la información y será utilizado para el ajuste de los parámetros del modelo, y un conjunto de prueba (Test2), conformado por el 20% estructuralmente reservado para evaluar el rendimiento predictivo ante datos no observados de manera rigurosa.

# Fijar semilla para garantizar reproducibilidad en la partición (Rigor Estadístico)
set.seed(42)

# Crear la partición de datos 
trainIndex2 <- createDataPartition(base2$preciom, p = 0.8, list = FALSE)
Train2 <- base2[trainIndex2, ]
Test2  <- base2[-trainIndex2, ]

cat("Tamaño set de Entrenamiento (Train2):", nrow(Train2), "\n")

## Tamaño set de Entrenamiento (Train2): 1906

cat("Tamaño set de Prueba (Test2):", nrow(Test2), "\n")

## Tamaño set de Prueba (Test2): 475

5.5 Modelado Estadístico

5.5.1 Estimación del modelo de regresión lineal múltiple

Con la partición de datos debidamente establecida, se procede a estimar un modelo de regresión lineal múltiple orientado a explicar el precio de los apartamentos en la zona sur. El modelo incorpora los principales predictores del mercado inmobiliario (área construida, estrato, habitaciones, parqueaderos y baños) bajo un enfoque analítico, el cual permitirá no solo predecir el Fair Market Value, sino también comprender la dinámica estructural de este nicho enfocado al lujo corporativo.

# Estimación del modelo con el set de entrenamiento
modelo2 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = Train2)

# Resumen ejecutivo estadístico del modelo
summary(modelo2)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = Train2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -939.75  -40.55   -0.36   39.35  839.11 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -252.6118    16.5312 -15.281  < 2e-16 ***
## areaconst       1.5991     0.0653  24.488  < 2e-16 ***
## estrato        58.1530     3.2845  17.705  < 2e-16 ***
## habitaciones  -24.9953     4.1640  -6.003 2.32e-09 ***
## parqueaderos   67.5629     4.5996  14.689  < 2e-16 ***
## banios         43.2859     3.6620  11.820  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 93.98 on 1900 degrees of freedom
## Multiple R-squared:  0.772,  Adjusted R-squared:  0.7714 
## F-statistic:  1287 on 5 and 1900 DF,  p-value: < 2.2e-16

5.5.2 Interpretación de coeficientes y bondad de ajuste

Significancia estadística de los predictores ($p$-valor) Los resultados indican que todas las variables incluidas en el modelo, área construida, estrato socioeconómico, número de habitaciones, parqueaderos y baños, presentan alta significancia estadística en la explicación del precio del inmueble ($p < 0.001$).

Este resultado sugiere que cada una de estas características estructurales contribuye de manera sistemática a explicar las variaciones en el precio de los apartamentos del mercado del sur. A diferencia de lo observado en el caso de las casas en la zona norte, en este segmento de propiedad horizontal la variable habitaciones también resulta estadísticamente significativa, aunque su efecto presenta una dirección inversa a la que tradicionalmente se esperaría.

Interpretación económica de los coeficientes ($\beta$) Los coeficientes estimados permiten cuantificar el aporte marginal de cada predictor al valor del inmueble, manteniendo constantes las demás variables del modelo (ceteris paribus).

Área construida (areaconst): $\beta = 1.599$ El coeficiente asociado al área construida indica que cada metro cuadrado adicional incrementa el valor del apartamento en aproximadamente 1.59 millones de pesos. Este resultado evidencia una alta valorización del espacio residencial en el mercado de apartamentos de la zona sur, particularmente en el segmento de propiedades de mayor tamaño.
Estrato socioeconómico (estrato): $\beta = 58.15$ El modelo estima que un aumento de un nivel en el estrato socioeconómico se asocia con un incremento promedio de 58.15 millones de pesos en el valor del inmueble, lo cual confirma la importancia del entorno urbano y del nivel socioeconómico del sector como determinantes clave en la formación del precio.
Amenidades estructurales (parqueaderos y banios) Las amenidades asociadas al confort y funcionalidad del inmueble también presentan efectos significativos sobre el valor de mercado. De acuerdo con el modelo:
Cada parqueadero adicional incrementa el precio estimado en aproximadamente 67.56 millones de pesos, reflejando su papel como indicador de exclusividad dentro del segmento residencial premium.
Cada baño adicional aumenta el valor del inmueble en aproximadamente 43.28 millones de pesos, lo cual sugiere que la disponibilidad de espacios privados dentro del apartamento constituye un atributo altamente valorado por los compradores.
Distribución del espacio (habitaciones): $\beta = -24.99$ Un resultado particularmente interesante del modelo se observa en la variable número de habitaciones, cuyo coeficiente es negativo y estadísticamente significativo. Manteniendo constantes el área construida y las demás variables del modelo, añadir una habitación adicional se asocia con una reducción promedio de 24.99 millones de pesos en el precio del inmueble.

Desde la lógica del mercado inmobiliario de gama alta, este resultado sugiere que los compradores prefieren espacios amplios y menos fragmentados. En apartamentos de gran tamaño, el mercado tiende a valorar más configuraciones con menos habitaciones pero de mayor amplitud, en lugar de distribuciones que subdividan excesivamente el espacio disponible.

Análisis del ajuste global del modelo ($R^2$ ajustado) El modelo presenta un coeficiente de determinación ajustado ($R^2_{adj}$) de 0.7714, lo cual indica que las variables estructurales consideradas explican aproximadamente el 77.1% de la variabilidad observada en los precios de los apartamentos en la zona sur. Este nivel de ajuste resulta considerablemente alto para un modelo de valoración inmobiliaria, y además supera el desempeño obtenido en el modelo correspondiente a las casas de la zona norte. Adicionalmente, el estadístico global $F$ del modelo presenta una significancia extremadamente alta ($p < 2.2 \times 10^{-16}$), lo que confirma que el conjunto de predictores incluidos en la especificación proporciona una explicación estadísticamente sólida del comportamiento del precio.

Oportunidades de mejora del modelo

A pesar del buen desempeño del modelo, aproximadamente el 22.9% de la variación en los precios permanece sin explicar, lo cual sugiere que existen otros factores relevantes no capturados actualmente en el conjunto de variables disponibles.

Para futuras versiones del modelo orientadas al segmento premium del mercado inmobiliario, se recomienda que la agencia C&A considere la incorporación de variables adicionales de carácter cualitativo o intangible, tales como:

Diseño arquitectónico del edificio
Altura o piso en el que se ubica el apartamento
Disponibilidad de vistas panorámicas
Nivel de automatización residencial (domótica)
Calidad de las zonas comunes del proyecto

La inclusión de este tipo de variables permitiría refinar la capacidad predictiva del modelo, especialmente en el segmento de apartamentos de alta gama, donde factores asociados al diseño, exclusividad y experiencia residencial suelen desempeñar un papel determinante en la formación del precio final de mercado.

5.6 Evaluación y Validación del Modelo

5.6.1 Validación de supuestos estadísticos

Con el fin de garantizar la confiabilidad de las inferencias estadísticas y de los niveles de significancia obtenidos en el modelo de regresión, se procedió a evaluar los supuestos clásicos de la regresión lineal a partir del análisis de los residuales del conjunto de entrenamiento.

Para ello, se aplicaron pruebas de hipótesis orientadas a verificar normalidad de los errores, homocedasticidad y multicolinealidad entre los predictores, condiciones fundamentales para asegurar la validez estadística de las estimaciones obtenidas.

# 1. Normalidad de Residuales (Test de Shapiro-Wilk)
shapiro_test2 <- shapiro.test(residuals(modelo2))
shapiro_test2

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.80555, p-value < 2.2e-16

# 2. Homocedasticidad (Test de Breusch-Pagan)
bptest(modelo2)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 586.87, df = 5, p-value < 2.2e-16

# 3. Multicolinealidad (VIF)
# Evaluación de inflación de varianza
vif(modelo2)

##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.397124     1.549574     1.446958     1.956511     2.606393

# Generación de gráficos de diagnóstico del modelo (Caso 1)
par(mfrow = c(2, 2))
plot(modelo2)

par(mfrow = c(1, 1))

Diagnóstico analítico de supuestos

Normalidad de los residuales (Prueba de Shapiro–Wilk): La prueba de Shapiro–Wilk arroja un $p$-valor < 2.2e-16, lo cual conduce a rechazar la hipótesis nula de normalidad perfecta de los residuales. En el contexto del mercado inmobiliario de alta gama, este resultado no resulta inesperado. La presencia de propiedades con características arquitectónicas o ubicacionales altamente exclusivas puede generar colas largas en la distribución de los errores, produciendo una asimetría positiva en los residuales. Este comportamiento es relativamente común en mercados donde existen inmuebles con valorizaciones significativamente superiores al promedio, fenómeno que puede interpretarse como la aparición de un componente de “premium de lujo” en ciertos proyectos residenciales.
Homocedasticidad (Prueba de Breusch–Pagan): La prueba de Breusch–Pagan presenta un $p$-valor < 2.2e-16, lo cual indica evidencia estadística de heterocedasticidad en los residuales del modelo. Este resultado sugiere que la varianza del error no es constante a lo largo del rango de valores predichos, sino que tiende a incrementarse a medida que aumenta el valor del inmueble. Desde una perspectiva económica, este patrón es consistente con el comportamiento típico de los mercados inmobiliarios de alto valor, donde la incertidumbre en la tasación tiende a ser mayor para propiedades de mayor precio. En términos prácticos, esto implica que la dispersión de las estimaciones para apartamentos cercanos al rango superior del mercado, por ejemplo, propiedades próximas a los 850 millones de pesos será inherentemente mayor que la observada en segmentos de menor valor.
Multicolinealidad (Factor de Inflación de Varianza – VIF): La evaluación de multicolinealidad mediante el Factor de Inflación de Varianza (VIF) indica niveles bajos de dependencia lineal entre los predictores incluidos en el modelo. Todos los predictores presentan valores de VIF claramente inferiores al umbral crítico de 5, siendo el valor más alto el correspondiente a la variable banios, con un VIF aproximado de 2.60. Este resultado sugiere que cada variable aporta información relevante de manera relativamente independiente, sin evidenciar problemas importantes de redundancia en la especificación del modelo.

Sugerencias Metodológicas de Mejora

De manera similar a lo observado en el Caso 1, los resultados del diagnóstico cumplen con el nivel de rigor estadístico necesario para esta fase del análisis, especialmente considerando que se prioriza mantener la interpretabilidad directa del modelo para facilitar su utilización dentro del proceso de valoración inmobiliaria realizado por la agencia C&A. o obstante, para futuras iteraciones del modelo, orientadas a mejorar su capacidad predictiva en el segmento premium del mercado, podría considerarse la aplicación de transformaciones funcionales sobre la variable respuesta.

En particular, la estimación de un modelo utilizando una transformación logarítmica del precio del inmueble, es decir, modelando $\log(preciom)$, podría aportar varias ventajas analíticas:

Estabilizar la varianza de los residuales, reduciendo los efectos de heterocedasticidad.
Mitigar la asimetría positiva generada por propiedades con precios excepcionalmente altos.
Mejorar la robustez del modelo predictivo frente a observaciones extremas del segmento de lujo.

La incorporación de esta transformación permitiría desarrollar versiones más refinadas del modelo, especialmente adecuadas para capturar la dinámica de precios en mercados inmobiliarios de alta exclusividad.

5.6.2 Rendimiento en Conjunto de Prueba

Un modelo útil no solo narra el pasado; diagnostica eficazmente el mercado no observado. Evaluamos su robustez predictiva ante los datos ciegos del conjunto Test2 para discernir si la formulación padece de un sobreajuste severo (overfitting).

# Predicciones teóricas en la muestra Test2
predicciones2 <- predict(modelo2, newdata = Test2)

# Construcción del dataframe de métricas de precisión
metricas2 <- data.frame(
  RMSE = RMSE(predicciones2, Test2$preciom),
  MAE  = MAE(predicciones2, Test2$preciom),
  R2   = R2(predicciones2, Test2$preciom)
)

# Presentación corporativa de las métricas con kableExtra
metricas2 %>%
  kbl(caption = "Tabla 4. Métricas de Rendimiento Predictivo en Apartamentos Zona Sur (Test2)") %>%
  kable_styling(bootstrap_options = c("striped", "hover"), full_width = FALSE, position = "left")

Tabla 4. Métricas de Rendimiento Predictivo en Apartamentos Zona Sur (Test2)
RMSE	MAE	R2
115.8646	62.77874	0.6434936

Interpretación financiera y predictiva de las métricas

Capacidad de generalización ($R^2$ de prueba = 0.643): El modelo demuestra un desempeño predictivo sólido al alcanzar un coeficiente de determinación de 0.643 en el conjunto de prueba, lo que indica que aproximadamente el 64.3% de la variabilidad de los precios en datos no utilizados durante el entrenamiento es explicado por el modelo. Aunque este nivel de ajuste es ligeramente inferior al obtenido en el conjunto de entrenamiento ($R^2_{adj} = 0.771$), la diferencia observada se mantiene dentro de rangos razonables y no evidencia problemas severos de sobreajuste (overfitting). En consecuencia, puede afirmarse que el modelo presenta una capacidad adecuada de generalización, lo cual le permite diagnosticar de manera efectiva el comportamiento del mercado inmobiliario en la zona sur para observaciones nuevas o no previamente analizadas.
Margen promedio de error (MAE = 62.78): Desde una perspectiva financiera aplicada al proceso de valoración, uno de los indicadores más informativos es el Error Absoluto Medio (MAE). En este caso, el modelo presenta un MAE de 62.78 millones de pesos, lo cual representa la desviación promedio entre el precio estimado por el modelo y el precio real observado en el mercado. Este resultado debe interpretarse considerando la naturaleza del segmento inmobiliario analizado**, caracterizado por propiedades de alto valor y considerable heterogeneidad en sus atributos cualitativos. En este contexto, un error promedio de esta magnitud se mantiene dentro de rangos razonables para modelos de valoración aplicados a mercados residenciales de gama alta.
Implicación para la toma de decisiones: el margen de negociación: Desde la perspectiva de la estrategia comercial y financiera de la agencia C&A, el valor del MAE puede interpretarse como una aproximación al margen natural de negociación presente en el mercado. En términos prácticos, esto significa que frente al precio estimado por el modelo de regresión, existe una variación promedio esperada de aproximadamente $\pm 62.78$ millones de pesos entre el valor sugerido por el modelo y el precio final de cierre en una transacción inmobiliaria.

Esta interpretación resulta particularmente útil para los asesores inmobiliarios encargados del proceso de negociación, ya que proporciona una referencia cuantitativa del rango dentro del cual es razonable esperar fluctuaciones en el precio final. Al mismo tiempo, este margen contribuye a proteger la toma de decisiones del inversionista corporativo, reduciendo el riesgo de sobrevaloración significativa en la recomendación del inmueble y permitiendo mantener una estrategia de negociación respaldada por evidencia analítica.

5.7 Despliegue y Recomendaciones

5.7.1 Predicción Teórica del Fair Market Value

Atendiendo al planteamiento específico de la directriz internacional, se procede a concretar la proyección de tasación utilizando la estructura exacta de variables solicitada por el cliente, manteniendo la coherencia con los predictores incluidos en el modelo estimado.

Perfil objetivo: Apartamento ubicado en la zona sur.
Requerimientos específicos del cliente:
Área construida: 300 $m^2$
Parqueaderos: 3
Baños: 3
Habitaciones: 5
Estrato socioeconómico: 6
Bajo estas condiciones estructurales, la estimación generada por el modelo de regresión arroja un precio proyectado de 783.61 millones de pesos para un inmueble con estas características.

# Insumo algorítmico del requerimiento corporativo
target_vivienda2 <- data.frame(
  areaconst = 300, 
  estrato = 6, 
  habitaciones = 5, 
  parqueaderos = 3, 
  banios = 3
)

# Predicción del activo
precio_esperado2 <- predict(modelo2, newdata = target_vivienda2)
paste("Fair Market Value Estimado (Millones COP): $", round(precio_esperado2, 2))

## [1] "Fair Market Value Estimado (Millones COP): $ 783.61"

Análisis de Viabilidad Financiera

A diferencia de lo observado en el Caso 1, la valoración teórica obtenida para este apartamento de perfil premium se sitúa en 783.61 millones de pesos, un valor que se encuentra claramente por debajo del límite de crédito preaprobado de 850 millones de pesos** definido por el cliente.

Desde la perspectiva financiera, este resultado configura un escenario altamente favorable para la agencia C&A, ya que proporciona un margen de maniobra cercano a los 66 millones de pesos entre el valor estimado por el modelo y el techo presupuestal disponible. Este colchón financiero otorga al equipo comercial mayor flexibilidad durante el proceso de negociación, permitiendo absorber posibles variaciones en el precio final de cierre, así como cubrir costos asociados a la transacción, tales como gastos notariales, escrituración o eventuales adecuaciones y remodelaciones del inmueble, sin comprometer el límite financiero establecido por la compañía.

En consecuencia, el análisis sugiere que el perfil de vivienda solicitado por el cliente es financieramente viable dentro de las condiciones actuales del mercado inmobiliario de la zona sur, lo cual respalda la continuidad del proceso de búsqueda y negociación por parte de la agencia C&A.

5.7.2 Filtrado de Ofertas y Visualización Estratégica

Bajo la filosofía de maximización del retorno y manteniendo como restricción el presupuesto máximo de 850 millones de pesos, se implementó una holgura técnica controlada en el proceso de filtrado de la base de datos con el objetivo de ampliar el espectro de oportunidades potenciales dentro del mercado.

En lugar de restringir estrictamente la búsqueda a apartamentos de 300 $m^2$ exactos, se procedió a rastrear el mercado considerando propiedades con áreas construidas comprendidas entre 280 y 320 $m^2$. Esta ampliación moderada del rango permite capturar alternativas cercanas al perfil solicitado, evitando excluir inmuebles potencialmente atractivos que presenten ligeras variaciones en el metraje.

De manera complementaria, se habilitó una apertura analítica hacia los estratos socioeconómicos 5 y 6 dentro del corredor sur, lo cual permite incorporar proyectos residenciales que, aun ubicándose en un estrato ligeramente inferior, podrían ofrecer atributos arquitectónicos, amenidades o localizaciones altamente competitivas dentro del segmento premium.

Esta estrategia de flexibilización controlada del criterio de búsqueda permite identificar oportunidades relativas de alto valor dentro del mercado inmobiliario, incrementando la probabilidad de encontrar propiedades con excelentes características de diseño, amplitud y valorización, todo ello sin comprometer el límite financiero establecido para la operación.

# Ejecución del barrido sobre la topología con holgura técnica
ofertas_reales_2 <- base2 %>%
  filter(
    areaconst >= 280 & areaconst <= 320,
    estrato %in% c(5, 6),                 
    habitaciones >= 4,                    
    parqueaderos >= 2,                    
    preciom <= 850                        
  ) %>%
  arrange(preciom) %>%                    
  head(5)                                 

# Presentación Ejecutiva a C&A
ofertas_reales_2 %>%
  select(id, preciom, areaconst, estrato, habitaciones, parqueaderos, banios, barrio) %>%
  kbl(caption = "Tabla 5. Top 5 de Alternativas Inmobiliarias de Inversión Premium (Zona Sur)") %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"), full_width = FALSE)

Tabla 5. Top 5 de Alternativas Inmobiliarias de Inversión Premium (Zona Sur)
id	preciom	areaconst	estrato	habitaciones	parqueaderos	banios	barrio
8113	410	295.55	5	4	2	4	cuarto de legua
7658	520	320.00	5	4	2	4	cuarto de legua
7512	670	300.00	5	6	3	5	seminario

Un resultado particularmente revelador de este barrido ampliado del mercado es que, a pesar de haber solicitado algorítmicamente un Top 5 de alternativas potenciales, el sistema únicamente identificó tres propiedades que cumplen con el nivel de exigencia establecido en los criterios de búsqueda.

Este hallazgo confirma empíricamente la hipótesis planteada durante el Análisis Exploratorio de Datos (EDA): los apartamentos de gran formato (superiores a 280 $m^2$) constituyen un activo inmobiliario escaso dentro del mercado residencial de la zona sur, lo cual refuerza su carácter de bien exclusivo dentro de la oferta disponible.

No obstante, las tres alternativas identificadas, localizadas en sectores tradicionales y altamente valorados como Cuarto de Legua y Seminario, presentan precios de lista competitivos, situándose en 410, 520 y 670 millones de pesos, respectivamente.

Desde una perspectiva financiera, estos valores se ubican considerablemente por debajo del presupuesto máximo disponible de 850 millones de pesos, lo que configura un escenario de oportunidad de inversión especialmente atractivo. Esta brecha entre el valor de mercado observado y el techo presupuestal del cliente abre espacio para estrategias de negociación favorables, e incluso para evaluar inmuebles con mayor potencial de valorización futura**, manteniendo un amplio margen de seguridad dentro del marco financiero establecido.

Visualización geográfica y justificación de las alternativas

La entrega del mapeo consolidado finaliza representando geográficamente las ofertas filtradas para el cliente institucional. Identificar inteligentemente la correlación entre exclusividad, infraestructura vial y plusvalía es el pináculo de la agencia.

# Mapa visual interactivo de cierre operativo
leaflet(ofertas_reales_2) %>%
  addTiles() %>%
  addAwesomeMarkers(
    ~longitud, ~latitud, 
    popup = ~paste("<b>Pre-calificado C&A</b><br>",
                   "ID:", id, "<br>",
                   "Precio: $", preciom, "M COP<br>",
                   "Área:", areaconst, "m²<br>",
                   "Estrato:", estrato, "<br>",
                   "Espacios (Hab):", habitaciones, "<br>",
                   "Garajes:", parqueaderos),
    label = ~paste("Opción Premium por $", preciom, "M COP")
  )

Directrices Corporativas de Cierre

Aprovechamiento de la holgura técnica: La aplicación de una flexibilización controlada en el criterio de metraje (280–320 $m^2$)** permitió ampliar el espectro de búsqueda sin comprometer el perfil estructural solicitado por el cliente. Este enfoque condujo a la identificación de tres prospectos residenciales de alto valor, los cuales cumplen con los estándares establecidos y presentan precios de mercado considerablemente inferiores al umbral presupuestal de 850 millones de pesos. Desde la perspectiva financiera, este resultado implica la posibilidad de generar un ahorro corporativo significativo, al capturar propiedades de gran formato dentro de un rango de precio notablemente favorable frente al límite de inversión disponible.
Mitigación científica del riesgo: Las alternativas identificadas han sido sometidas a un proceso de evaluación cuantitativa basado en el modelo econométrico previamente validado. La verificación del desempeño del modelo en el conjunto de prueba, junto con la evidencia de ausencia de sobreajuste significativo (overfitting), permite respaldar la recomendación de estos inmuebles desde una base analítica robusta. Este enfoque contribuye a que la agencia C&A reduzca la exposición a decisiones de compra basadas exclusivamente en criterios subjetivos, garantizando que el proceso de selección se sustente en **evidencia estadística, análisis del mercado y fundamentos económicos verificables.
Capitalización de la asimetría del mercado inmobiliario: El análisis exploratorio y el diagnóstico econométrico evidenciaron una alta dispersión en los precios del mercado de apartamentos de gran formato en la zona sur. Esta característica genera asimetrías que pueden ser aprovechadas estratégicamente durante el proceso de negociación. En este contexto, las tres propiedades identificadas representan oportunidades particularmente atractivas, al ubicarse en segmentos de alta calidad residencial pero con precios de lista considerablemente competitivos. Abordar estas alternativas mediante una estrategia comercial bien estructurada permite capturar escenarios financieros altamente optimizados, reforzando al mismo tiempo la reputación de rigor analítico y excelencia profesional que caracteriza a la consultoría inmobiliaria de la agencia C&A.

6 Conclusiones Generales

El presente informe técnico permitió a la agencia C&A atender de manera satisfactoria el requerimiento de reubicación residencial de la compañía multinacional, formulando recomendaciones inmobiliarias sustentadas en análisis estadístico, modelación predictiva y evaluación financiera del mercado.

Los resultados evidencian diferencias estructurales claras entre los dos segmentos analizados. En el caso de las casas en la zona norte, el área construida y el estrato socioeconómico emergen como los determinantes principales del precio dentro del límite presupuestal de 350 millones de pesos. En contraste, el mercado de apartamentos premium en la zona sur, con un techo financiero de 850 millones, muestra que amenidades de alto valor especialmente parqueaderos adicionales, y la amplitud de los espacios desempeñan un papel decisivo en la formación del precio, en un contexto caracterizado por escasez de apartamentos de gran formato.

Adicionalmente, el proceso analítico incorporó holguras técnicas estratégicas en los criterios de búsqueda, lo que permitió identificar oportunidades de mercado con precios competitivos y potencial de valorización. Gracias a ello, las opciones recomendadas en ambos casos se mantienen por debajo de los límites de crédito preaprobados, otorgando a la agencia un margen de negociación favorable y reduciendo el riesgo de sobrevaloración en las decisiones de compra.

En conjunto, el enfoque implementado demuestra cómo la integración entre análisis de datos, modelación econométrica y conocimiento del mercado inmobiliario permite generar recomendaciones estratégicas basadas en evidencia, fortaleciendo la capacidad de la agencia C&A para proteger el capital del cliente institucional y optimizar sus decisiones de inversión inmobiliaria.

Análisis de Vivienda - Regresión Lineal Múltiple

Angelica Arroyo Cantillo