Introducción

El presente informe tiene como objetivo desarrollar y validar modelos econométricos para la estimación del valor comercial de bienes inmuebles en dos zonas estratégicas: Zona Norte (Casas) y Zona Sur (Apartamentos). Mediante el uso de técnicas de Ciencia de Datos y Estadística Robusta, se busca proporcionar una herramienta de toma de decisiones que permita a los clientes optimizar su presupuesto frente a las características intrínsecas de la propiedad (área, estrato, altura, confort). El análisis no solo se limita a la descripción de los datos, sino que aplica procesos de curaduría geográfica y corrección de heterocedasticidad para garantizar que las predicciones sean un reflejo fiel de la realidad del mercado actual.

1. Carga de paqueteMODELOS y librerías necesarias

1.1 Carga de librerías requeridas

En este paso, cargamos la librería específica del curso y preparamos los dataset siguiendo las instrucciones de cada caso.

# 1. Carga de librerías y datos
# devtools::install_github("centromagis/paqueteMODELOS", force = TRUE) 
library(paqueteMODELOS)
library(tidyverse)
library(plotly)
library(GGally)
library(FactoMineR)
library(factoextra)
library(cluster)
library(leaflet) # Para visualización de resultados en mapas
library(stargazer)
library(lmtest)
library(car)
library(lmtest)

2. Caso de estudio 1: casas en la zona norte

2.1 Filtro para el caso

Comenzamos filtrando los datos para la zona norte a partir de la base inicial.

data("vivienda")

base1 <- vivienda %>%
  filter(tipo == "Casa", zona == "Zona Norte") %>%
  # Limpieza rápida de NAs en variables que usaremos en el modelo
  filter(!is.na(preciom), !is.na(areaconst), !is.na(estrato), 
         !is.na(habitaciones), !is.na(parqueaderos), !is.na(banios))

# Visualización de los primeros registros
head(base1, 3)

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4460 Zona N… 02          4     625       355            3      5            5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Análisis Exploratorio Interactivo (EDA)

Para familiarizarnos con los datos, usaremos plotly para entender la relación entre el Área Construida y el Precio, diferenciando por Estrato. Esto nos dirá si la meta de $350M es realista en la Zona Norte.

Comenzaremos ajustando valores nulos e imputaciones necesarias para realizar a la base general.

# --- 1. Diagnóstico Inicial de la Base Completa ---
# Conteo de NAs por columna
na_global <- colSums(is.na(vivienda))
print(na_global)

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3

Corrigiendo NA’s e imputando según la moda por zona, se obtiene.

# --- 2. Imputación Lógica Masiva ---
# Casas a Piso 1, Aptos a la Moda de la zona, y Medianas para conteos.
get_mode <- function(x) {
  ux <- unique(na.omit(x))
  ux[which.max(tabulate(match(x, ux)))]
}

vivienda_total <- vivienda %>%
  group_by(zona) %>% 
  mutate(
    # Imputación de PISO
    piso = case_when(
      is.na(piso) & tipo == "Casa" ~ "1",
      is.na(piso) & tipo == "Apartamento" ~ as.character(get_mode(piso)),
      TRUE ~ as.character(piso)
    ),
    # Imputación de variables numéricas por Mediana de la Zona (más robusto)
    parqueaderos = ifelse(is.na(parqueaderos), median(parqueaderos, na.rm = TRUE), parqueaderos),
    banios = ifelse(is.na(banios), median(banios, na.rm = TRUE), banios),
    habitaciones = ifelse(is.na(habitaciones), median(habitaciones, na.rm = TRUE), habitaciones)
  ) %>% 
  ungroup()

# Eliminamos los 3 registros con NAs en variables críticas (precio/área) para no perder representatividad
vivienda_total <- vivienda_total %>% 
  filter(!is.na(preciom), !is.na(areaconst), !is.na(estrato))

print(colSums(is.na(vivienda_total)))

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0            0            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0

Ajustamos variables para mejorar la distribución de los mismos.

# --- 3. Aplicación de Logaritmos a la Base Completa ---
vivienda_total <- vivienda_total %>%
  mutate(
    log_precio = log(preciom),
    log_area = log(areaconst)
  )

# --- 4. Visualización del Efecto Global (Plotly) ---
p_global <- ggplot(vivienda_total, aes(x = log_area, y = log_precio, color = zona,
                                       text = paste("Tipo:", tipo, "<br>Estrato:", estrato))) +
  geom_point(alpha = 0.4) +
  geom_smooth(method = "lm", color = "black") +
  labs(title = "Relación Logarítmica Global: Precio vs Área",
       x = "log(Área Construida)", y = "log(Precio)") +
  theme_minimal()

ggplotly(p_global, tooltip = "text")

Ubicación Geográfica Inicial

Para cumplir con el punto de “discutir si los puntos se ubican en la zona correspondiente”, generamos un mapa rápido de esta base filtrada.

leaflet(base1) %>%
  addTiles() %>%
  addCircleMarkers(~longitud, ~latitud, 
                   radius = 4, 
                   color = "blue", 
                   stroke = FALSE, 
                   fillOpacity = 0.5,
                   popup = ~paste("Precio: $", preciom, "M")) %>%
  addLegend(position = "bottomright", colors = "blue", labels = "Casas Norte")

El modelo muestra errores en la variable zona, por lo que será necesario ajustar esto antes de continuar con análisis exploratorios y estimaciones e interpretaciones de modelos.

# --- 1. Creación de Nueva Segmentación Geográfica ---
set.seed(456)
# Usamos solo latitud y longitud para identificar los 5 sectores reales de Cali
geo_clusters <- vivienda_total %>%
  select(longitud, latitud) %>%
  kmeans(centers = 5, nstart = 25)

# Asignamos el nuevo cluster geográfico
vivienda_total$zona_geografica <- as.factor(geo_clusters$cluster)

# --- 2. Visualización para Validar y Etiquetar ---
# Este mapa permitirá identificar qué número de cluster corresponde a "Norte", "Sur", etc.
pal_geo <- colorFactor(palette = "Set1", domain = vivienda_total$zona_geografica)

leaflet(vivienda_total %>% sample_n(2000)) %>%
  addTiles() %>%
  addCircleMarkers(~longitud, ~latitud, color = ~pal_geo(zona_geografica), 
                   radius = 2, label = ~paste("Cluster:", zona_geografica)) %>%
  addLegend("bottomright", pal = pal_geo, values = ~zona_geografica, title = "Clusters Geográficos")

Como las zonas de centro, oeste y oriente no quedan bien delimitadas. Es buena idea apoyar la división con base en las coordedanas, de una manera manual.

# Definimos fronteras lógicas de Cali basadas en la distribución de tus puntos
vivienda_total <- vivienda_total %>%
  mutate(zona_corregida = case_when(
    # Norte: Todo lo que esté arriba de la latitud 3.46
    latitud >= 3.469 ~ "Zona Norte",
    
    # Sur: Todo lo que esté abajo de la latitud 3.38
    latitud < 3.38 ~ "Zona Sur",
    
    # Oeste: Lo que esté a la izquierda (montaña) entre el norte y sur
    longitud < -76.54 & latitud >= 3.38 & latitud < 3.469 ~ "Zona Oeste",
    
    # Oriente: Lo que esté muy a la derecha (aguablanca/cauca)
    longitud > -76.50 & latitud >= 3.38 & latitud < 3.469 ~ "Zona Oriente",
    
    # Centro: El corazón de la ciudad que queda en el medio
    TRUE ~ "Zona Centro"
  ))

# Validamos la nueva clasificación con un mapa rápido
pal_nueva <- colorFactor(palette = "Set1", domain = vivienda_total$zona_corregida)

leaflet(vivienda_total) %>%
  addTiles() %>%
  addCircleMarkers(~longitud, ~latitud, color = ~pal_nueva(zona_corregida), 
                   radius = 1, label = ~zona_corregida) %>%
  addLegend("bottomright", pal = pal_nueva, values = ~zona_corregida, title = "Zonas Corregidas")

Dado que se identificó una inconsistencia entre la variable categórica ‘zona’ y las coordenadas geográficas de los registros. Para garantizar la integridad del análisis, se procedió a redefinir las zonas mediante una segmentación por umbrales de latitud y longitud. Esta decisión técnica permite que el modelo de regresión capture la variabilidad real del sector geográfico, eliminando el sesgo producido por errores de etiquetado en la fuente de datos original.

Ahora bien, vale la pena revisar posibles duplicados en los datos. Para ello, consideraremos que un dato está repetido si comparten tipo, Latitud, Longitud, Área y Piso.

library(dplyr)

# Identificar registros que comparten Latitud, Longitud, Área y Piso
duplicados_sospechosos <- vivienda_total %>%
  group_by(tipo, latitud, longitud, areaconst, piso) %>%
  filter(n() > 1) %>% # Filtra solo los grupos que tienen más de un registro
  arrange(latitud, longitud) # Ordena para compararlos cara a cara

# Ver cuántos casos hay
print(paste("Se encontraron", nrow(duplicados_sospechosos), "registros con sospecha de duplicidad."))

## [1] "Se encontraron 451 registros con sospecha de duplicidad."

Tras un análisis de integridad de la base de datos, se identificó la existencia de registros duplicados definidos por una coincidencia exacta en coordenadas geográficas (con una precisión de seis decimales, equivalente a $\pm 11\text{ cm}$), área construida y nivel de ubicación (piso). Ante la presencia de inconsistencias en variables críticas como el precio y el estrato para un mismo inmueble físico, se optó por un criterio de colapso de datos en lugar de una eliminación aleatoria. Se aplicó la mediana para el vector de precios, con el fin de mitigar el sesgo por errores de digitación (outliers), y la moda para las variables categóricas. Este procedimiento de data cleaning garantiza que el modelo de regresión no reciba señales contradictorias de una misma unidad de observación, mejorando la precisión de los estimadores y la robustez de las pruebas de significancia.

library(dplyr)

# Función para calcular la moda (para estrato y otros categóricos)
get_moda <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}

base_premium_clean <- vivienda_total %>%
  group_by(tipo, latitud, longitud, areaconst, piso) %>%
  summarise(
    id = first(id),
    preciom = median(preciom, na.rm = TRUE),      # Mediana para evitar sesgos por precios erróneos
    estrato = get_moda(estrato),                  # Tomamos el estrato que más se repite
    parqueaderos = max(parqueaderos, na.rm = TRUE), # Suponemos que el dato mayor es el más completo
    banios = max(banios, na.rm = TRUE),
    habitaciones = max(habitaciones, na.rm = TRUE),
    # Mantenemos las etiquetas originales del primer registro del grupo
    zona_corregida = first(zona_corregida),
    barrio = first(barrio),
    tipo = first(tipo),
    .groups = 'drop'
  )

print(paste("Base original:", nrow(base1), "| Base tras colapso:", nrow(base_premium_clean)))

## [1] "Base original: 435 | Base tras colapso: 8071"

Con esta base, es posible revisar algunas referencias en la base de datos.

# --- 1. Boxplots de Control (Base Total con Zona Corregida) ---
# Usamos el límite de 3,469  definido para validar la distribución
p_box_precio <- ggplot(base_premium_clean, aes(x = zona_corregida, y = preciom, fill = zona_corregida)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red", outlier.size = 0.5) +
  labs(title = "Distribución de Precios por Zona Corregida", 
       x = "Zona", y = "Precio (Millones COP)") +
  theme_minimal() +
  theme(legend.position = "none")

p_box_area <- ggplot(base_premium_clean, aes(x = zona_corregida, y = areaconst, fill = zona_corregida)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red", outlier.size = 0.5) +
  labs(title = "Distribución de Áreas por Zona Corregida", 
       x = "Zona", y = "Área (m2)") +
  theme_minimal() +
  theme(legend.position = "none")

# Visualización lado a lado
library(patchwork)
p_box_precio / p_box_area

El análisis de cajas y bigotes (boxplots) permite identificar el comportamiento del mercado inmobiliario en Cali tras haber corregido la variable “Zona” mediante umbrales de latitud y longitud.

Zona Oeste y Sur (Segmentos Premium): Se observa que la Zona Oeste y la Zona Sur presentan las medianas de precio más altas de la ciudad, superando los $500$ millones de pesos en varios sectores. La Zona Oeste, en particular, muestra una dispersión de precios significativa, lo que indica una oferta de lujo muy heterogénea.
Zona Norte (Contexto Vivienda 1): Para el caso de la primera solicitud (María), la Zona Norte se consolida como un sector con precios más estandarizados y áreas compactas. La mediana de precio se ubica por debajo de los $400$ millones, lo cual es coherente con el presupuesto de $350$ millones del cliente.
Presencia de Outliers: A pesar de la corrección geográfica, persisten valores atípicos (puntos rojos) que superan los $1,500$ millones de pesos y áreas de más de $1,000$ $m^2$. Esto justifica la decisión técnica de utilizar transformaciones logarítmicas en el modelo de regresión para evitar que estos valores extremos sesguen las estimaciones.
Consistencia de Áreas: El gráfico inferior muestra que las áreas construidas son más uniformes en la Zona Norte y Oriente, mientras que el Sur y el Oeste ofrecen las propiedades de mayor metraje, alineándose con el perfil de la “Vivienda 2” (Apartamento de $300$ $m^2$ en el Sur).

En términos generales, las variables se relacionan de la siguiente forma:

# Seleccionamos las variables del punto 2 de la rúbrica
base_premium_clean <- base_premium_clean %>%
  mutate(
    log_precio = log(preciom),
    log_area = log(areaconst)
  )

vars_final <- base_premium_clean %>%
  dplyr::select(log_precio, log_area, estrato, banios, habitaciones, parqueaderos)

# Matriz de correlación técnica
ggpairs(vars_final, 
        lower = list(continuous = wrap("points", alpha = 0.2, size=0.3, color="#2980b9")),
        diag = list(continuous = wrap("densityDiag", fill="#3498db", alpha=0.5))) +
  labs(title = "Matriz de Correlación: Variables Transformadas (Base Final)") +
  theme_bw()

La aplicación de logaritmos y la corrección geográfica han optimizado significativamente la estructura de los datos, preparando un escenario ideal para la regresión lineal múltiple:

Linealidad Reforzada: La relación entre log_precio y log_area alcanzó una correlación de 0.798. En la gráfica de dispersión (esquina superior izquierda), se observa una nube de puntos mucho más compacta y lineal, lo que reduce el error de estimación y mejora el ajuste del modelo ($R^2$).
Influencia del Estrato: El estrato socioeconómico muestra una correlación sólida de 0.703 con el precio logarítmico. Esto confirma que, además del tamaño físico, la ubicación es un motor crítico del valor en Cali.
Comodidad vs. Precio: Las variables de “estatus” como baños ($r = 0.725$) y parqueaderos ($r = 0.636$) presentan asociaciones más fuertes con el precio que la cantidad de habitaciones ($r = 0.321$). Esto sugiere que el mercado valora más la calidad y los servicios adicionales que simplemente el número de dormitorios.
Multicolinealidad Controlada: Aunque existe una correlación lógica entre log_area y baños ($0.735$), los valores no son lo suficientemente extremos como para invalidar el modelo, permitiendo que cada variable aporte información única al precio final.

Ahora bien, específicamente para la zona norte, el precio y el área por estrato muestran lo siguiente:

base1 <- base_premium_clean %>%
  filter(tipo == "Casa", zona_corregida == "Zona Norte") %>%
  # Limpieza rápida de NAs en variables que usaremos en el modelo
  filter(!is.na(preciom), !is.na(areaconst), !is.na(estrato), 
         !is.na(habitaciones), !is.na(parqueaderos), !is.na(banios))


# Gráfico interactivo: Precio vs Área Construida por Estrato 
p1 <- ggplot(base1, aes(x = areaconst, y = preciom, color = as.factor(estrato),
                        text = paste("Barrio:", barrio, 
                                     "<br>Precio: $", preciom, "M",
                                     "<br>Área:", areaconst, "m2"))) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Relación Precio vs. Área - Casas Zona Norte",
       x = "Área Construida (m2)",
       y = "Precio (Millones COP)",
       color = "Estrato") +
  theme_minimal()

ggplotly(p1, tooltip = "text")

Esta visualización es clave porque confirma uno de los principios fundamentales de la economía inmobiliaria: el tamaño es el principal predictor del valor, pero el estrato actúa como un desplazador de la frontera de precios.

El gráfico interactivo de dispersión revela una correlación positiva y lineal intensa entre el precio de venta y el área construida, independientemente del estrato socioeconómico analizado. Esta relación “intrínseca” sugiere que el mercado de Cali valora primordialmente el espacio físico como unidad de medida base. Sin embargo, se observa una estratificación vertical clara: a medida que aumenta el estrato, la pendiente de la relación se mantiene, pero el intercepto se desplaza hacia arriba, indicando que un metro cuadrado en estrato 6 tiene un valor base significativamente superior al de estratos 3 o 4.

La dispersión creciente en las áreas mayores justifica plenamente el uso de la transformación logarítmica en nuestras estimaciones, que permitiría capturar de manera más precisa las elasticidades del mercado y estabilizar la varianza para los modelos de las viviendas solicitadas por María.

2.2 Estimación del Modelo de Regresión

Se utilizará la transformación logarítmica para el precio y el área, lo que permitirá interpretar los resultados como elasticidades y estabilizar la varianza frente a los outliers que se vieron en en los boxplots.

## --- 3.1. Ajuste del Modelo ---
# Modelo: Precio = f(Área, Estrato, Habitaciones, Parqueaderos, Baños)
modelo_v1 <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, 
                data = base1)
## --- 3.2. Resumen del Modelo ---
summary(modelo_v1)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -600.54  -67.97  -16.05   36.24  933.52 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -176.08375   39.75738  -4.429 1.25e-05 ***
## areaconst       0.71929    0.06525  11.024  < 2e-16 ***
## estrato        68.75889    9.48706   7.248 2.52e-12 ***
## habitaciones   -3.10707    5.56805  -0.558 0.577172    
## parqueaderos   23.45668    6.25935   3.747 0.000207 ***
## banios         25.52151    7.55022   3.380 0.000802 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 133.3 on 367 degrees of freedom
## Multiple R-squared:  0.6506, Adjusted R-squared:  0.6459 
## F-statistic: 136.7 on 5 and 367 DF,  p-value: < 2.2e-16

Para determinar los factores que influyen en el valor de las casas en la Zona Norte de Cali, se estimó un modelo de regresión lineal múltiple utilizando 373 registros validados. Este enfoque permite aislar el efecto individual de cada característica física y socioeconómica sobre el precio de venta.

2.2.1 Resultados del Modelo

El modelo arrojó la siguiente ecuación de estimación:

\[\text{Precio} = -176.08 + 0.7193(\text{Área}) + 68.7589(\text{Estrato}) + -3.107(\text{Habitaciones})+ 23.4567(\text{Parqueaderos}) + 25.5215(\text{Baños}) + \epsilon\] (Nota: La variables ‘Habitaciones’ se excluiría de la interpretación por no presentar significancia estadística en este sector de la ciudad).

2.2.2 Interpretación de Coeficientes Significativos

El modelo estimado para las casas del norte revela una estructura de precios donde el estrato y el área dominan la valoración, mientras que la distribución interna de habitaciones pierde relevancia estadística.

En este modelo, cada coeficiente representa el cambio promedio en el precio (en millones de COP) ante el aumento de una unidad en la variable predictora:

Área Construida (0.719): Por cada metro cuadrado adicional, el precio de la casa aumenta en promedio $0.719 millones ($719,000 COP). Es un valor menor al visto en los apartamentos del sur, lo que sugiere que en el norte el suelo es un poco menos costoso por unidad de medida o que las casas son significativamente más grandes.
Estrato (68.758): Es el factor de mayor peso. Subir un nivel de estrato en el norte incrementa el valor de la propiedad en $68.75 millones. Esto refleja una prima de ubicación y entorno socioeconómico muy marcada.
Baños (25.521) y Parqueaderos (23.456): Ambos atributos tienen un impacto similar. Cada baño adicional o cada plaza de parqueo extra suma aproximadamente $24-25 millones al valor comercial.

2.2.3 Bondad de Ajuste e Implicaciones

Aunque el $R^2$ ajustado es del 0.6459 (indicando que el modelo explica el 64.6% de la variabilidad), lo realmente valioso aquí es la significancia de los atributos físicos en una zona donde el espacio suele ser más generoso que en el sur.

La irrelevancia de las Habitaciones (-3.107) Aquí el número de habitaciones no es estadísticamente significativo ($p = 0.577$).
Interpretación: En el mercado de casas del norte, el comprador no paga “por cuarto”, sino por el área total disponible. Tener 3 habitaciones grandes o 4 pequeñas no altera significativamente el precio si el metraje total y el estrato son los mismos. Esto refuerza la idea de buscar un modelo más parsimonioso eliminando esta variable en el reporte final.
Diagnóstico del Error El error estándar de los residuos es de 133.3, lo que significa que, en promedio, las predicciones del modelo pueden desviarse unos $133 millones del precio real. Esto es alto y se debe a la naturaleza de las casas (que suelen tener acabados muy heterogéneos), lo que justifica por qué luego pasaremos al modelo log-log para intentar comprimir esa varianza.
Recomendación de Mejora: Para futuros análisis, se recomienda incluir variables cualitativas sobre el estado de conservación o la proximidad a centros comerciales, factores que suelen impactar el valor residual en este sector de la ciudad.

Quitando la variable de habitaciones, que no dio significativa, el modelo sería.

modelo_v1 <- lm(preciom ~ areaconst + estrato + parqueaderos + banios, 
                data = base1)
## --- 3.2. Resumen del Modelo ---
summary(modelo_v1)

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios, 
##     data = base1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -593.29  -68.50  -15.86   36.14  934.01 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -187.48328   34.07557  -5.502 7.05e-08 ***
## areaconst       0.71090    0.06343  11.208  < 2e-16 ***
## estrato        70.39791    9.01248   7.811 5.98e-14 ***
## parqueaderos   23.46166    6.25349   3.752 0.000204 ***
## banios         23.39882    6.51582   3.591 0.000374 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 133.2 on 368 degrees of freedom
## Multiple R-squared:  0.6503, Adjusted R-squared:  0.6465 
## F-statistic: 171.1 on 4 and 368 DF,  p-value: < 2.2e-16

Ahora bien, según el análisis exploratorio de datos (EDA), se identificó que la relación entre el precio y el área construida presenta una varianza creciente (posible heterocedasticidad), influenciada por la presencia de propiedades con metrajes y valores significativamente superiores al promedio. Para mitigar este sesgo y mejorar la robustez de las estimaciones, se optó por una especificación log-log. Esta transformación no solo estabilizaría la varianza de los residuos, sino que permite interpretar los coeficientes como elasticidades, facilitando una comprensión porcentual del mercado.

Asimismo, este modelo se ajusta mejor a la realidad económica donde el valor marginal de un metro cuadrado tiende a decrecer a medida que la propiedad es más grande, ofreciendo una herramienta de predicción más precisa para las necesidades de la inmobiliaria C&A.

# --- 1. Estimación del Modelo Log-Log ---
# Transformamos las variables continuas a logaritmo natural
mod_log_v1 <- lm(log(preciom) ~ log(areaconst) + estrato + habitaciones + parqueaderos + banios, 
                 data = base1)

# --- 2. Resumen Estadístico ---
summary(mod_log_v1)

## 
## Call:
## lm(formula = log(preciom) ~ log(areaconst) + estrato + habitaciones + 
##     parqueaderos + banios, data = base1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.60941 -0.16282 -0.01656  0.14482  1.03546 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     2.508060   0.128478  19.521  < 2e-16 ***
## log(areaconst)  0.435873   0.031596  13.795  < 2e-16 ***
## estrato         0.178508   0.018849   9.470  < 2e-16 ***
## habitaciones   -0.001064   0.010639  -0.100  0.92036    
## parqueaderos    0.035568   0.011807   3.013  0.00277 ** 
## banios          0.066257   0.014336   4.622 5.28e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2531 on 367 degrees of freedom
## Multiple R-squared:  0.7639, Adjusted R-squared:  0.7607 
## F-statistic: 237.5 on 5 and 367 DF,  p-value: < 2.2e-16

La transformación logarítmica permite interpretar el modelo en términos de elasticidades y variaciones porcentuales, lo cual es estándar en la literatura de economía urbana para suavizar la varianza de los precios de lujo. El modelo explica ahora el 76.07% de la variabilidad del precio.

2.2.4 Estimación del Modelo Definitivo (Log-Log)

Para garantizar la robustez del análisis, se implementó un modelo de elasticidades que permite capturar de forma más precisa la dinámica de precios en la Zona Norte de Cali.

La transición al modelo logarítmico no solo mejoró el ajuste estadístico ($R^2$), sino que permitió identificar que el mercado de casas en la Zona Norte es altamente sensible al estrato y al área, pero indiferente a la fragmentación interna del espacio (habitaciones). Esto sugiere una demanda que prioriza la amplitud y la ubicación por encima de la cantidad de recintos

Interpretación de Elasticidades y Coeficientes

Elasticidad del Área (0.4358): Por cada incremento del 1% en el área construida, el precio de la casa aumenta en promedio un 0.43%. Es una elasticidad menor a 1, lo que sugiere que el precio crece a una tasa decreciente respecto al tamaño en la Zona Norte.

# --- 3. Visualización de la Elasticidad Precio-Área ---
ggplot(base1, aes(x = log(areaconst), y = log(preciom))) +
  geom_point(alpha = 0.4, color = "darkblue") +
  geom_smooth(method = "lm", color = "red") +
  labs(title = "Elasticidad Precio vs Área (Escala Logarítmica)",
       x = "log(Área Construida)", 
       y = "log(Precio)") +
  theme_minimal()

Efecto Estrato (0.1785): Un salto de un nivel de estrato (ej. de 4 a 5) incrementa el valor de la propiedad en un 17.85%. Es un impacto porcentual masivo que confirma que la ubicación es el principal motor de valorización en este sector.
Valor del Confort (Baños y Parqueaderos): Cada baño adicional incrementa el precio en un 6.62%, mientras que cada parqueadero adicional lo hace en un 3.55%. Ambos son altamente significativos ($p < 0.01$).
Confirmación de la irrelevancia de las Habitaciones Nuevamente, la variable habitaciones tiene un $p-value$ de 0.92, lo que es estadísticamente equivalente a uno En el norte, el número de alcobas no añade valor porcentual al inmueble si el área total se mantiene constante.
Precisión del Modelo En general, el Residual Standard Error (0.2531) es mucho más manejable. En modelos logarítmicos, este valor se interpreta aproximadamente como el error porcentual promedio. Esto significa que las predicciones de este modelo tienen un margen de error típico del 25%, una mejora notable frente a la gran dispersión del modelo en niveles.

Con base en lo anterior, se validarán los supuestos del siguiente modelo:

# --- 1. Estimación del Modelo Log-Log ---
# Transformamos las variables continuas a logaritmo natural
mod_log_v2 <- lm(log(preciom) ~ log(areaconst) + estrato + parqueaderos + banios, 
                 data = base1)

# --- 2. Resumen Estadístico ---
summary(mod_log_v2)

## 
## Call:
## lm(formula = log(preciom) ~ log(areaconst) + estrato + parqueaderos + 
##     banios, data = base1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.60905 -0.16382 -0.01554  0.14871  1.03567 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     2.50744    0.12816  19.566  < 2e-16 ***
## log(areaconst)  0.43507    0.03051  14.259  < 2e-16 ***
## estrato         0.17913    0.01776  10.084  < 2e-16 ***
## parqueaderos    0.03556    0.01179   3.016  0.00274 ** 
## banios          0.06555    0.01244   5.268 2.35e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2528 on 368 degrees of freedom
## Multiple R-squared:  0.7639, Adjusted R-squared:  0.7613 
## F-statistic: 297.6 on 4 and 368 DF,  p-value: < 2.2e-16

Comparando con el anterior:

# 1. Generar Tabla Comparativa Estándar
stargazer(mod_log_v1, mod_log_v2, 
          type = "text", 
          title = "Comparación de Modelos: Vivienda 1 (Zona Norte)",
          column.labels = c("Modelo Completo", "Modelo Parsimonioso"),
          model.numbers = FALSE,
          order = c(1, 2, 5, 4, 3), # Reordenar para comparar mejor
          omit.stat = c("f", "ser"), # Omitimos para limpiar la tabla
          star.cutoffs = c(0.1, 0.05, 0.01, 0.001))

## 
## Comparación de Modelos: Vivienda 1 (Zona Norte)
## ==================================================
##                        Dependent variable:        
##                -----------------------------------
##                           log(preciom)            
##                Modelo Completo Modelo Parsimonioso
## --------------------------------------------------
## log(areaconst)    0.436****         0.435****     
##                    (0.032)           (0.031)      
##                                                   
## estrato           0.179****         0.179****     
##                    (0.019)           (0.018)      
##                                                   
## banios            0.066****         0.066****     
##                    (0.014)           (0.012)      
##                                                   
## parqueaderos      0.036***          0.036***      
##                    (0.012)           (0.012)      
##                                                   
## habitaciones       -0.001                         
##                    (0.011)                        
##                                                   
## Constant          2.508****         2.507****     
##                    (0.128)           (0.128)      
##                                                   
## --------------------------------------------------
## Observations         373               373        
## R2                  0.764             0.764       
## Adjusted R2         0.761             0.761       
## ==================================================
## Note:                  *p<0.1; **p<0.05; ***p<0.01

# 2. Cálculo de Criterios de Información (AIC y BIC)
modelos_lista <- list(mod_log_v1, mod_log_v2)
nombres_modelos <- c("Log-Log Completo", "Log-Log Sin Hab")

tabla_seleccion <- data.frame(
  Modelo = nombres_modelos,
  AIC = sapply(modelos_lista, AIC),
  BIC = sapply(modelos_lista, BIC),
  R2_Adj = sapply(modelos_lista, function(x) summary(x)$adj.r.squared)
)

print(tabla_seleccion)

##             Modelo      AIC      BIC    R2_Adj
## 1 Log-Log Completo 41.49979 68.95083 0.7606750
## 2  Log-Log Sin Hab 39.50996 63.03943 0.7613188

Para la selección del modelo definitivo, se optó entonces por el Modelo Parsimonioso (Log-Log Sin Hab) tras una evaluación comparativa rigurosa entre las dos especificaciones logarítmicas. Aunque ambos modelos presentan un coeficiente de determinación ajustado ($R^{2}_{Adj}$) prácticamente idéntico del 0.761, la decisión técnica se fundamenta en los criterios de información y la eficiencia de los parámetros. El Modelo Parsimonioso presenta valores inferiores tanto en el Criterio de Akaike (AIC: 39.51) como en el Criterio Bayesiano (BIC: 63.04) en comparación con el modelo completo ($41.5$ y $68.95$ respectivamente), lo que estadísticamente indica que la inclusión de la variable habitaciones no añade valor predictivo real y solo incrementa la complejidad del modelo innecesariamente.

La argumentación para el reporte debe resaltar que, al eliminar el “ruido” estadístico de la variable habitaciones (la cual no era significativa con un $p > 0.92$), se logró una mejora en la precisión de los demás estimadores y el error estándar residual se redujo, consolidando una herramienta de predicción más robusta y simplificada para las necesidades de la inmobiliaria C&A en la Zona Norte. Esta elección cumple con el principio de parsimonia, asegurando que el modelo final capture la verdadera esencia del valor inmobiliario en el sector —liderado por el área, el estrato y la dotación de baños— sin sobrediagnosticar la segmentación interna de la vivienda.

2.3 Validación de Supuestos

Antes de pasar a la predicción para María, el rigor estadístico exige demostrar que el modelo es un MELI (Mejor Estimador Lineal Insesgado). Dado que estamos en un contexto de aprendizaje de lógica y metodología, validar estos supuestos es lo que diferencia un simple promedio de un modelo econométrico profesional.

Normalidad

# Prueba de Normalidad (Shapiro-Wilk)
shapiro.test(residuals(mod_log_v2))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod_log_v2)
## W = 0.98416, p-value = 0.000412

Homocedasticidad

# Prueba de Homocedasticidad (Breusch-Pagan)
bptest(mod_log_v2)

## 
##  studentized Breusch-Pagan test
## 
## data:  mod_log_v2
## BP = 4.0501, df = 4, p-value = 0.3993

Autocorrelación de los errores

library(lmtest)
# 4. Ejecutar la prueba de Durbin-Watson
dw_test <- dwtest(mod_log_v2)
print(dw_test)

## 
##  Durbin-Watson test
## 
## data:  mod_log_v2
## DW = 2.0086, p-value = 0.5249
## alternative hypothesis: true autocorrelation is greater than 0

Grados de multicolinealidad

# 3. Prueba de Multicolinealidad (VIF)
vif(mod_log_v2)

## log(areaconst)        estrato   parqueaderos         banios 
##       1.886687       1.523949       1.293674       1.598247

Interpretación de supuestos

# 5. Gráficos de diagnóstico
par(mfrow = c(2, 2))
plot(mod_log_v2)

El diagnóstico estadístico tras la depuración de la base de datos muestra una robustez estructural significativa:

Multicolinealidad (VIF): Los valores son considerablemente buenos. Todos los VIF están por debajo de 2, lo que indica que no hay correlación problemática entre el área, el estrato y los baños. El modelo es lo suficientemente parsimonioso y los coeficientes son independientes y confiables.
Homocedasticidad (Breusch-Pagan): Resultados favorables, con un p-value de 0.3993, NO es posible rechazar la hipótesis nula. Esto significa que la varianza de los errores es constante (homocedástica). El gráfico de Scale-Location muestra una línea roja plana, confirmando que el modelo predice con la misma precisión tanto para casas económicas como para las más costosas.
Independencia de Errores (Durbin-Watson): El estadístico DW es casi perfecto (2.0086) con un p-value de 0.52. No hay evidencia de autocorrelación espacial. Esto valida que cada observación es independiente, un requisito fundamental para MCO.
Normalidad (Shapiro-Wilk): Aunque el test rechaza la normalidad ($p < 0.05$), el valor de W (0.984) está muy cerca de 1. Al observar el gráfico Q-Q Residuals, vemos que la gran mayoría de los puntos se alinean con la diagonal, y solo hay unas pocas desviaciones en los extremos (puntos 367, 289).

En general, el modelo resultante para la Zona Norte cumple con los supuestos de Gauss-Markov en su mayoría, permitiendo predicciones de alta confiabilidad.

2.3.1 Opciones de corrección del modelo

En econometría, cuando un modelo es conceptualmente sólido pero falla en los supuestos, se recomienda, antes de desecharlos, fortalecerlos para que las inferencias sean válidas.

Los resultados de las pruebas de hipótesis muestran que, la norlmalidad de los errores es el único supuesto que no se cumple en el modelo; en ese caso, dado que ya se aplicó la transformación logarítmica (que es una recomendación general para este tipo de variables), otras alternativas para corregir los resultados obtenidos son:

a. Transformaciones Adicionales

Si quisiéramos ir más allá del logaritmo, existen otras opciones factibles:

Interacciones: Se podrían revisar si el efecto del área depende del estrato (ej: log(area) * estrato). A veces la heterocedasticidad surge porque el modelo es demasiado “rígido” y no entiende que el área pesa más en estratos altos.
Polinomios: Si la relación no fuera del todo lineal en logaritmos, un término cuadrático (log(area)^2) podría ayudar, aunque complica la interpretación de la elasticidad.
Variables Dummy Espaciales: Dado el problema de autocorrelación (DW), podrían incluirse variables que identifiquen barrios específicos dentro del Norte si la base lo permite. Esto capturaría efectos locales que el modelo general ignora.

d. Tratamiento de Outliers (Valores Atípicos)

Las gráficas de Residuals vs Leverage y Normal Q-Q muestran algunos puntos que se alejan de la masa principal. Para ello, se podría usar una Regresión Robusta (comando rlm en R), la cual le de menos peso a esos puntos.

2.3.2 Modelo corregido

Según lo mencionado anteriormente, se utilizará por tanto una estrategia para controlar posibles valores outliers y mejorar nivel de normalidad.

Regresión Robusta (rlm): En lugar de minimizar el cuadrado de los residuos (que castiga mucho a los outliers), se utilizará una función de pérdida (como la de Huber o Bisquare) que les da menos peso. Esto suele acercar los residuos a una distribución normal de forma automática al ignorar los “saltos” extremos de precios vistos en el Q-Q Plot.

library(MASS)      # Para rlm

# --- A. Estimar el Modelo Robusto (RLM) ---
# Usamos rlm para neutralizar outliers y mejorar la normalidad
mod_rob_v2 <- rlm(log(preciom) ~ log(areaconst) + estrato + parqueaderos + banios, 
                  data = base1)

# --- B. Visualización de Resultados ---
mod_rob_v2

## Call:
## rlm(formula = log(preciom) ~ log(areaconst) + estrato + parqueaderos + 
##     banios, data = base1)
## Converged in 5 iterations
## 
## Coefficients:
##    (Intercept) log(areaconst)        estrato   parqueaderos         banios 
##     2.48823764     0.43695167     0.17559032     0.03283295     0.07177975 
## 
## Degrees of freedom: 373 total; 368 residual
## Scale estimate: 0.23

En la modelación de la Zona Norte, la variable ‘habitaciones’ presentó un p-valor de $0.92$, indicando una total ausencia de significancia estadística. Este fenómeno se explica por la naturaleza del mercado de casas en este sector: la valoración está capturada casi en su totalidad por el área construida total y el estrato. En términos económicos, esto sugiere que el mercado es indiferente a la fragmentación del espacio; el valor reside en el ‘metraje global’ y la ubicación, y no en la cantidad de divisiones internas. Por lo tanto, se optó por un modelo parsimonioso que reduce el error estándar de los estimadores al eliminar ruido estadístico innecesario.

El modelo anterior por tanto será la base que usaremos para modelar la predicción que requiere María.

2.4 Predicción del Valor Inmobiliario

Es importante recordar que la estructura del modelo estimado sigue la siguiente lógica:

\[\text{Precio Predicho} = \exp(\beta_0 + \beta_1 \ln(\text{área}) + \beta_2 \text{estrato} + \beta_3 \text{parqueaderos} + \beta_4 \text{baños})\]

Para asesorar a la familia que busca una casa en la Zona Norte con un presupuesto de $350 millones, definiremos una propiedad con características competitivas en el sector:

Área construida: $150 \text{ m}^2$
Estrato: 4
Parqueaderos: 2
Baños: 3

2.4.1 Cálculo Matemático

Dado que el modelo es log-log, la ecuación para el valor esperado es:

\[\ln(\text{Precio}) = 2.4882 + 0.437 \cdot \ln(150) + 0.1756 \cdot (4) + 0.0328 \cdot (2) + 0.07178 \cdot (3)\] ### 2.4.2 Resultado de la Predicción en R Para obtener el valor en millones de pesos, aplicamos la función exponencial:

# Definir los valores de la casa
log_area_v1 <- log(150)
estrato_v1 <- 4
parq_v1 <- 2
banos_v1 <- 3

# Calcular log(precio) según los coeficientes robustos
log_precio_pred <- 2.4882 + (0.437 * log_area_v1) + 
                   (0.1756 * estrato_v1) + (0.0328 * parq_v1) + 
                   (0.07178 * banos_v1)

# Convertir a millones de pesos
precio_final <- exp(log_precio_pred)
print(precio_final)

## [1] 287.4899

Tras aplicar el modelo de regresión robusta con errores estándar corregidos (HAC), se estimó que una propiedad con las características deseadas por la familia (150 $m^2$, estrato 4, 2 parqueaderos y 3 baños) tiene un valor de mercado esperado de $287.49 millones de pesos. Dado que el presupuesto máximo de los clientes es de $350 millones, la solicitud es técnicamente viable. Existe un margen de maniobra de aproximadamente $62.5 millones, lo que permitiría a la familia buscar viviendas con acabados de mayor calidad o ubicaciones preferenciales dentro de la misma zona sin exceder su límite financiero.

Esto sugiere que María tiene la oportunidad de:

Ampliar su búsqueda hacia casas de mayor metraje (hasta aproximadamente 180-190 $m^2$).
Subir de nivel socioeconómico, explorando opciones en estrato 5 si así lo desea, ya que el modelo indica que el presupuesto es holgado para el perfil actual.

2.5 Identificación de Ofertas (Análisis Geográfico)

Como último paso para, debemos encontrar esas 5 ofertas reales en la base de datos que “hagan match” con lo que acabamos de modelar.

# Cargar librerías necesarias
library(tidyverse)
library(leaflet)

# 1. Filtro de las 5 mejores ofertas (Estrato >= 4 y dentro de presupuesto)
# Usamos el presupuesto de 350M y priorizamos área construida
ofertas_v1_mapa <- base1 %>%
  filter(preciom <= 350,          # Presupuesto máximo de María
         estrato >= 4,             # Ampliamos a estratos 4, 5 y 6
         areaconst >= 140) %>%     # Buscamos amplitud similar a la proyectada
  arrange(desc(areaconst)) %>%     # Ordenamos para ver las opciones más espaciosas
  head(5)                          # Seleccionamos las 5 mejores

print(ofertas_v1_mapa)

## # A tibble: 5 × 15
##   tipo  latitud longitud areaconst piso     id preciom estrato parqueaderos
##   <chr>   <dbl>    <dbl>     <dbl> <chr> <dbl>   <dbl>   <dbl>        <dbl>
## 1 Casa     3.48    -76.5       346 1      1943     350       5            1
## 2 Casa     3.49    -76.5       300 02     4209     350       5            3
## 3 Casa     3.48    -76.5       295 1      1822     340       4            2
## 4 Casa     3.48    -76.5       275 02      952     330       4            2
## 5 Casa     3.48    -76.5       275 1      3043     330       5            2
## # ℹ 6 more variables: banios <dbl>, habitaciones <dbl>, zona_corregida <chr>,
## #   barrio <chr>, log_precio <dbl>, log_area <dbl>

Las casas representadas con estas condiciones cumplen expectativas altas del cliente y representan una buena variedad de opciones para que estos puedan decidir la mejor opción. Gráficamente, los resultados pueden verse en el mapa que se muestra a continuación. Hacer clic en cada punto para ampliar su información.

# 1. Aseguramos que el cálculo de precio por metro cuadrado esté presente
ofertas_v1_mapa <- ofertas_v1_mapa %>%
  mutate(precio_m2 = round(preciom / areaconst, 2))

# 2. Generación del mapa con etiquetas detalladas
mapa_final_v1 <- leaflet(ofertas_v1_mapa) %>%
  addProviderTiles(providers$CartoDB.Positron) %>%
  addMarkers(
    lng = ~longitud, 
    lat = ~latitud,
    # Etiqueta rápida al pasar el cursor
    label = ~paste0("Barrio: ", barrio, " | $", preciom, "M"),
    # Ventana detallada al hacer click
    popup = ~paste0(
      "<div style='font-family: Arial; width: 200px;'>",
        "<h3 style='color: #2c3e50; font-size: 16px; margin-bottom: 5px;'>Detalle de Propiedad</h3>",
        "<table style='width: 100%; border-collapse: collapse;'>",
          "<tr><td><b>Barrio:</b></td><td>", barrio, "</td></tr>",
          "<tr><td><b>Precio:</b></td><td style='color: #27ae60;'>$", preciom, "M</td></tr>",
          "<tr><td><b>Área:</b></td><td>", areaconst, " m²</td></tr>",
          "<tr><td><b>Estrato:</b></td><td>", estrato, "</td></tr>",
          "<tr><td><b>Pisos:</b></td><td>", piso, "</td></tr>",
          "<tr><td><b>Habitaciones:</b></td><td>", habitaciones, "</td></tr>",
          "<tr><td><b>Baños:</b></td><td>", banios, "</td></tr>",
          "<tr><td><b>Parqueaderos:</b></td><td>", parqueaderos, "</td></tr>",
          "<tr><td><b>Precio m²:</b></td><td>$", precio_m2, "M</td></tr>",
        "</table>",
      "</div>"
    )
  ) %>%
  addScaleBar(position = "bottomleft")

# Mostrar mapa
mapa_final_v1

3. Caso de estudio 2: apartamentos en la zona sur

3.1 Filtro para el caso

Lo primero es crear el subconjunto de datos para el sur y aplicar las transformaciones logarítmicas que ya demostraron ser efectivas para corregir la forma funcional.

Comenzamos filtrando los datos para la zona sur a partir de la base tratada en el caso de estudio para el modelo de casas en el norte.

base2 <- base_premium_clean %>%
  filter(zona_corregida == "Zona Sur", tipo == "Apartamento") %>%
  # Limpieza rápida de NAs en variables que usaremos en el modelo
  filter(!is.na(preciom), !is.na(areaconst), !is.na(estrato), 
         !is.na(habitaciones), !is.na(parqueaderos), !is.na(banios))

# Visualización de los primeros registros
head(base2, 5)

## # A tibble: 5 × 15
##   tipo       latitud longitud areaconst piso     id preciom estrato parqueaderos
##   <chr>        <dbl>    <dbl>     <dbl> <chr> <dbl>   <dbl>   <dbl>        <dbl>
## 1 Apartamen…    3.33    -76.5      133  11     5008     635       6            3
## 2 Apartamen…    3.33    -76.5      133  02     5376     670       6            1
## 3 Apartamen…    3.33    -76.5      108  01     4445     424       6            2
## 4 Apartamen…    3.33    -76.5      133  04     5415     595       6            2
## 5 Apartamen…    3.33    -76.5      133. 02     5435     603       6            2
## # ℹ 6 more variables: banios <dbl>, habitaciones <dbl>, zona_corregida <chr>,
## #   barrio <chr>, log_precio <dbl>, log_area <dbl>

Ajustamos también las bases en logaritmos.

# 2. Crear variables logarítmicas
base2 <- base2 %>%
  mutate(
    l_precio = log(preciom),
    l_area = log(areaconst),
    piso_num = as.numeric(piso)
    )

print(base2)

## # A tibble: 1,222 × 18
##    tipo      latitud longitud areaconst piso     id preciom estrato parqueaderos
##    <chr>       <dbl>    <dbl>     <dbl> <chr> <dbl>   <dbl>   <dbl>        <dbl>
##  1 Apartame…    3.33    -76.5      133  11     5008     635       6            3
##  2 Apartame…    3.33    -76.5      133  02     5376     670       6            1
##  3 Apartame…    3.33    -76.5      108  01     4445     424       6            2
##  4 Apartame…    3.33    -76.5      133  04     5415     595       6            2
##  5 Apartame…    3.33    -76.5      133. 02     5435     603       6            2
##  6 Apartame…    3.34    -76.5      133  01     5353     630       6            2
##  7 Apartame…    3.34    -76.5      133  11     5351     673       6            3
##  8 Apartame…    3.34    -76.5      133  12     5363     685       6            3
##  9 Apartame…    3.34    -76.5      165  02     4648     580       5            2
## 10 Apartame…    3.34    -76.5      136  02     5352     450       5            2
## # ℹ 1,212 more rows
## # ℹ 9 more variables: banios <dbl>, habitaciones <dbl>, zona_corregida <chr>,
## #   barrio <chr>, log_precio <dbl>, log_area <dbl>, l_precio <dbl>,
## #   l_area <dbl>, piso_num <dbl>

Para este análisis, hemos segmentado la base de datos original enfocándonos exclusivamente en apartamentos ubicados en la Zona Sur de Cali, lo que nos permite capturar las dinámicas específicas de este mercado de alta densidad.

La columna zona que muestra “Zona Norte” es por la información original sin haberse corregido, tal como se puede comprobar en el siguiente mapa.

Ubicación Geográfica Inicial

Para cumplir con el punto de “discutir si los puntos se ubican en la zona correspondiente”, generamos un mapa rápido de esta base filtrada.

leaflet(base2) %>%
  addTiles() %>%
  addCircleMarkers(~longitud, ~latitud, 
                   radius = 4, 
                   color = "blue", 
                   stroke = FALSE, 
                   fillOpacity = 0.5,
                   popup = ~paste("Precio: $", preciom, "M")) %>%
  addLegend(position = "bottomright", colors = "blue", labels = "Apartamentos Sur")

El mapa anterior muestra por tanto los apartamentos en la zona sur de Cali, con esta base, podemos continuar con análisis exploratorios y estimaciones e interpretaciones de modelos.

Análisis Exploratorio Interactivo (EDA)

Al igual que con el caso de casas en el norte, antes de modelar, debemos entender cómo se comportan los datos. Esta vez lo especificaremos directamente en el sur. Aquí es fundamental validar la relación entre el precio y el área, y cómo el estrato influye en la dispersión.

Relación logarítmica precio vs área

# Gráfico de dispersión log-log
library(ggplot2)
ggplot(base2, aes(x = l_area, y = l_precio)) +
  geom_point(alpha = 0.5, color = "darkblue") +
  geom_smooth(method = "lm", color = "red") +
  labs(title = "Relación Log(Precio) vs Log(Área) - Zona Sur",
       x = "Logaritmo del Área Construida",
       y = "Logaritmo del Precio (Millones)") +
  theme_minimal()

Del gráfico anterior podemos extraer las siguientes conclusiones clave:

Linealidad de la Transformación: Se observa que la aplicación de logaritmos en ambas variables logra linearizar la relación de manera efectiva. La línea de tendencia roja atraviesa la nube de puntos con una pendiente positiva constante, lo que valida el uso de un modelo log-log para capturar elasticidades.
Densidad y Dispersión: Existe una alta concentración de apartamentos en el rango medio de área (entre $\ln(4)$ y $\ln(5)$), lo que equivale aproximadamente a unidades de $55\text{ m}^2$ a $148\text{ m}^2$.
Identificación de Atípicos: Se visualiza un punto extremo hacia la derecha del eje X con un precio significativamente bajo para su área, lo que podría representar un dato atípico que el modelo robusto (rlm) deberá ponderar con menor peso para no sesgar los estimadores.

Distribución de pesos por estrato (boxplots)

ggplot(base2, aes(x = as.factor(estrato), y = preciom, fill = as.factor(estrato))) +
  geom_boxplot() +
  labs(title = "Distribución de Precios por Estrato - Zona Sur",
       x = "Estrato",
       y = "Precio (Millones)",
       fill = "Estrato") +
  theme_light()

De esta gráfica de Distribución de Precios por Estrato - Zona Sur, se pueden observar hallazgos fundamentales para la segmentación del mercado:

Relación Directa Precio-Estrato: Existe un incremento claro y escalonado en la mediana del precio a medida que aumenta el estrato. Esto confirma que el nivel socioeconómico es un predictor crítico en el sur de la ciudad.
Variabilidad y Dispersión: Se evidencia que el estrato 6 presenta la mayor variabilidad de precios y el mayor número de valores atípicos (outliers) por encima de los 1.000 millones. En contraste, los estratos 3 y 4 muestran una distribución mucho más compacta y homogénea.
Oportunidad para el Cliente: Para el presupuesto de 200 millones, el gráfico muestra que la mayoría de la oferta en estrato 4 se encuentra alrededor de ese valor (la mediana está cerca de los 200M), lo que valida la viabilidad de la búsqueda inicial.

Matriz de Correlación

Es vital verificar qué tan relacionadas están nuestras variables predictoras para anticipar problemas de multicolinealidad.

# Seleccionamos las variables
vars_final2 <- base2 %>%
  dplyr::select(l_precio, l_area, piso_num, estrato, banios, habitaciones, parqueaderos)

# Matriz de correlación técnica
ggpairs(vars_final2, 
        lower = list(continuous = wrap("points", alpha = 0.2, size=0.3, color="#2980b9")),
        diag = list(continuous = wrap("densityDiag", fill="#3498db", alpha=0.5))) +
  labs(title = "Matriz de Correlación: Variables Transformadas (Base Final)") +
  theme_bw()

El análisis de correlaciones de Pearson entre las variables del modelo revela dinámicas clave en el mercado de apartamentos del sur:

Poder Predictivo del Área: La variable con mayor asociación al precio es el logaritmo del área (l_area) con una correlación positiva muy fuerte de 0.927. Esto sugiere que la superficie construida es el determinante principal del valor comercial en este segmento.
Influencia del Estrato y Atributos: El precio también muestra una alta correlación con el estrato (0.800) y el número de baños (0.809), lo que indica que el nivel socioeconómico y el nivel de confort son variables desplazadoras críticas del precio.
Independencia de las Habitaciones y piso: Curiosamente, el piso (-0.005) y el número de habitaciones muestra la correlación más baja con el precio (0.438) entre todas las variables analizadas. Esto podría ser un indicio temprano de que estas variables podrían no resultar estadísticamente significativa en presencia de las demás, reforzando la posible necesidad de un modelo parsimonioso.

# Gráfico interactivo: Precio vs Área Construida por Estrato 
p1 <- ggplot(base2, aes(x = areaconst, y = preciom, color = as.factor(estrato),
                        text = paste("Barrio:", barrio, 
                                     "<br>Precio: $", preciom, "M",
                                     "<br>Área:", areaconst, "m2"))) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Relación Precio vs. Área - Apartamentos Zona Sur",
       x = "Área Construida (m2)",
       y = "Precio (Millones COP)",
       color = "Estrato") +
  theme_minimal()

ggplotly(p1, tooltip = "text")

Al igual que con las casas en el norte, esta visualización es clave porque reconfirma que el tamaño es el principal predictor del valor, pero el estrato actúa como un desplazador de la frontera de precios. Revela una correlación positiva y lineal intensa entre el precio de venta y el área construida, independientemente del estrato socioeconómico analizado.

Como se explicó en el modelo anterior, la dispersión creciente en las áreas mayores justifica plenamente el uso de la transformación logarítmica en nuestras estimaciones, permitiendo capturar de manera más precisa las elasticidades del mercado y estabilizar la varianza para los modelos.

Con esta base, podemos por tanto continuar con la modelación de los apartamentos en la zona sur de la ciudad.

3.2 Estimación del Modelo de Regresión (log-log)

## --- a. Ajuste del Modelo ---
# Modelo: Precio = f(Área, Estrato, Habitaciones, Parqueaderos, Baños)
modelo_v3 <- lm(log(preciom) ~ log(areaconst) + piso_num + estrato + habitaciones + parqueaderos + banios, 
                data = base2)
## --- b. Resumen del Modelo ---
summary(modelo_v3)

## 
## Call:
## lm(formula = log(preciom) ~ log(areaconst) + piso_num + estrato + 
##     habitaciones + parqueaderos + banios, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.86524 -0.09726  0.00618  0.10207  0.65542 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     1.033044   0.079138  13.054  < 2e-16 ***
## log(areaconst)  0.799110   0.023485  34.027  < 2e-16 ***
## piso_num        0.006603   0.001742   3.791 0.000158 ***
## estrato         0.166012   0.007873  21.086  < 2e-16 ***
## habitaciones   -0.025199   0.009860  -2.556 0.010721 *  
## parqueaderos    0.080381   0.011093   7.246 7.59e-13 ***
## banios          0.062597   0.008631   7.252 7.27e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1694 on 1215 degrees of freedom
## Multiple R-squared:  0.9122, Adjusted R-squared:  0.9117 
## F-statistic:  2103 on 6 and 1215 DF,  p-value: < 2.2e-16

Para determinar los factores que influyen en el valor de los apartamentos en la Zona sur de Cali, se estimó un modelo de regresión lineal múltiple utilizando 1,222 registros validados. Este enfoque permite aislar el efecto individual de cada característica física y socioeconómica sobre el precio de venta.

El modelo presenta una solidez excepcional con un $R^2$ Ajustado de 0.9117. Todas las variables predictoras son altamente significativas ($p < 0.01$). El error estándar de los residuos es de apenas 0.1685, lo que sugiere que las predicciones tendrán un margen de error porcentual muy bajo.

3.2.1 Resultados del Modelo

El modelo arrojó la siguiente ecuación de estimación:

\[\text{Precio} = 1.033 + 0.7991(\text{Área}) + 0.066(\text{Piso}) + 0.166(\text{Estrato}) - 0.0252(\text{Habitaciones}) + 0.0804(\text{Parqueaderos}) + 0.0626(\text{Baños}) + \epsilon\]

3.2.2 Interpretación de Coeficientes Significativos

Al ser un modelo log-lin (para la mayoría de variables) y log-log (para el área), las interpretaciones se mantienen en términos porcentuales:

Efecto del Piso (0.0066): Por cada piso adicional de altura, el precio del apartamento aumenta en promedio un 0.66%, manteniendo todo lo demás constante. Por ejemplo, un apartamento en el piso 10 sería, en promedio, un 6.6% más costoso que uno idéntico en el primer piso. Este valor refleja la disposición a pagar por mejor vista, menor ruido de calle y mayor ventilación.

La significancia del piso sugiere que, para los apartamentos del sur, existe una “prima por altura”. No obstante, el coeficiente es pequeño comparado con el estrato o los parqueaderos, lo que indica que si bien la altura importa, no compensa la falta de una plaza de garaje (8.03%) o de un baño adicional (6.25%).
Elasticidad del Área (0.7991): Se mantiene cerca de 0.8. Un incremento del 1% en el área se traduce en un aumento del 0.8% en el precio.
Estrato (0.1660): El impacto del estrato sigue siendo el más fuerte en términos de magnitud, con un incremento aproximado del 16.6% por cada salto de nivel socioeconómico.
Habitaciones (-0.0252): La penalización por fragmentación del espacio persiste; añadir una habitación extra en el mismo metraje reduce el valor en un 2.52%.

3.2.3 Bondad de Ajuste e Implicaciones

El modelo conserva una robustez excepcional, explicando el 91.17% de la variabilidad del precio en los apartamentos del sur. La introducción de piso_num permite un control más fino sobre las características intrínsecas de la propiedad horizontal, confirmando que la altura es un determinante de valor positivo y estadísticamente relevante.

Con base en lo anterior, se validarán los supuestos del modelo.

3.3 Validación de Supuestos

Al igual que con el modelo para casas del norte, antes de pasar a la predicción para María, el rigor estadístico exige demostrar que el modelo es un MELI (Mejor Estimador Lineal Insesgado).

Normalidad

# 2. Prueba de Normalidad (Shapiro-Wilk)
shapiro.test(residuals(modelo_v3))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_v3)
## W = 0.93458, p-value < 2.2e-16

Homocedasticidad

# 1. Prueba de Homocedasticidad (Breusch-Pagan)
bptest(modelo_v3)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_v3
## BP = 196.69, df = 6, p-value < 2.2e-16

Autocorrelación espacial

library(lmtest)
# 4. Gráficos de diagnóstico
# Ejecutar la prueba de Durbin-Watson
dw_test <- dwtest(modelo_v3)
print(dw_test)

## 
##  Durbin-Watson test
## 
## data:  modelo_v3
## DW = 1.7614, p-value = 1.265e-05
## alternative hypothesis: true autocorrelation is greater than 0

Grado de Multicolinealidad

# 3. Prueba de Multicolinealidad (VIF)
vif(modelo_v3)

## log(areaconst)       piso_num        estrato   habitaciones   parqueaderos 
##       4.200714       1.000737       2.105659       1.447980       2.475369 
##         banios 
##       3.324819

Interpretación Supuestos del Modelo

# 5. Gráficos de diagnóstico
par(mfrow = c(2, 2))
plot(modelo_v3)

Los resultados de las pruebas confirman que, aunque el modelo tiene un poder explicativo muy alto, presenta los “síntomas” clásicos de los datos inmobiliarios masivos.

Shapiro-Wilk La normalidad se rechaza. El gráfico Q-Q Residuals muestra que el punto 1007 es un “outlier” extremo que se aleja de la diagonal.
Heterocedasticidad (Breusch-Pagan) Con un p-value < 2.2e-16, la varianza de los errores no es constante. Al observar el gráfico Scale-Location (image_a27fec.png), la línea roja mantiene una tendencia ascendente. Esto confirma que en el sur, a medida que los apartamentos son más costosos (predichos), la incertidumbre o dispersión de sus precios reales aumenta significativamente.
Autocorrelación y Normalidad Durbin-Watson (1.76): Persiste una ligera autocorrelación positiva. Esto es común en apartamentos, donde las unidades dentro de un mismo edificio tienden a parecerse entre sí más de lo que el modelo puede explicar solo con las variables incluidas.
Multicolinealidad (VIF) El resultado del VIF para piso_num (1.0007) es excepcional. Esto indica que la altura del apartamento es una variable completamente independiente de las demás. No está correlacionada con el área ni con el estrato, lo que significa que el modelo está capturando un valor puramente relacionado con la elevación (vista, aire, estatus) sin “contaminar” los otros coeficientes. El resto de las variables se mantienen bajo el umbral de 5, validando la estabilidad de los estimadores.

Debido a que el supuesto de homocedasticidad falló contundentemente, los errores estándar de MCO no son fiables. Para el informe, debemos utilizar la estimación con Errores Robustos HAC y RLM para la predicción final, neutralizando el impacto de puntos como el 1007. Es decir, a parte de la normalidad, se rechazan también las hipóetsis de homocedasticidad y autocorrelación espacial, hay que tener en cuenta lo siguiente.

a. Estimación con Errores Estándar Robustos (EHR)

Esta es la solución estándar cuando se tiene heterocedasticidad (BP < 0.05). No cambia los coeficientes pero “infla” o ajusta los errores estándar para que los p-values sean honestos. Corrige el hecho de que se rechaza la prueba de hipótesis de Breusch-Pagan. Al usar errores robustos de White o HC3, se garantizarían conclusiones contra la varianza no constante.

b. Errores Robustos a la Autocorrelación (HAC)

Como la prueba de Durbin-Watson mostró una ligera correlación ($1.7614$), se podrían usar estimadores HAC (Heteroskedasticity and Autocorrelation Consistent), como los de Newey-West. Esto corrige simultáneamente el problema de la varianza (BP) y el de la independencia (DW). En R, se logra fácilmente con la librería sandwich.

3.3.1 Modelo corregido

Según lo mencionado anteriormente, y al igual que se hizo con el modelo anterior, se utilizará por tanto una estrategia en dos vías, por un lado, se usarán errores robustos para mejorar la varianza y correlación de los residuos; por otro lado, se usará un método robusto para controlar valores outliers y mejorar nivel de normalidad.

library(MASS)
library(sandwich)
library(lmtest)

# Estimación Robusta para neutralizar el punto 986 y otros atípicos
mod_sur_rob <- rlm(log(preciom) ~ log(areaconst) + piso_num + estrato + habitaciones + 
                   parqueaderos + banios, data = base2)

# Coeficientes con errores HAC (Newey-West) para corregir DW = 1.77 y BP test
res_sur_final <- coeftest(mod_sur_rob, vcov = vcovHAC(mod_sur_rob))

# --- C. Visualización de Resultados ---
print(res_sur_final)

## 
## z test of coefficients:
## 
##                  Estimate Std. Error z value  Pr(>|z|)    
## (Intercept)     0.5971559  0.1229269  4.8578 1.187e-06 ***
## log(areaconst)  0.9420981  0.0395367 23.8284 < 2.2e-16 ***
## piso_num        0.0066891  0.0013717  4.8764 1.080e-06 ***
## estrato         0.1425602  0.0110014 12.9584 < 2.2e-16 ***
## habitaciones   -0.0314582  0.0109651 -2.8689  0.004119 ** 
## parqueaderos    0.0625529  0.0129832  4.8180 1.450e-06 ***
## banios          0.0455906  0.0096928  4.7035 2.557e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tras el ajuste por M-estimación y corrección de varianza, todas las variables conservan una significancia estadística de alto nivel ($p < 0.01$). El modelo es ahora inmune a las distorsiones de los apartamentos con precios atípicos, ofreciendo una base sólida para la valoración comercial.

3.3.2 Interpretación del modelo corregido

Este modelo robusto final para la Zona Sur es una versión más precisa y confiable. Al combinar la Regresión Robusta (RLM) para neutralizar atípicos (como el punto 1007) y los errores HAC para corregir la heterocedasticidad y correlación, los coeficientes se han estabilizado significativamente.

Prima por Altura (0.0066): Se confirma que por cada piso adicional, el valor del apartamento sube un 0.67%. Aunque parece poco, en un edificio de 15 pisos, la diferencia entre el primer y el último nivel puede superar el 10% del valor total, manteniendo el resto de atributos constantes.
Elasticidad del Área (0.9420): Por cada 1% de incremento en el área, el precio sube un 0.94%. Es la variable de mayor peso estructural en el modelo.
Impacto del Estrato (0.1425): El cambio de un estrato a otro genera un incremento del 14.25% en el precio de mercado.
Efecto de las Habitaciones (-0.0314): Se mantiene la penalización del 3.14% por cada habitación extra en un mismo metraje. En el sur, el mercado valora la amplitud visual sobre la división del espacio.
Atributos de Confort: Un parqueadero adicional aporta un 6.25% al valor, mientras que un baño extra suma un 4.55%.

Este modelo por tanto será la base que usaremos para modelar la predicción que requiere María en este caso.

3.4 Predicción del Valor Inmobiliario

Es importante recordar que la estructura del modelo estimado sigue la siguiente lógica:

\[\text{Precio Predicho} = \exp(\beta_0 + \beta_1 \ln(\text{área}) + \beta_2 \text{piso} + \beta_3 \text{estrato} + \beta_4 \text{habitaciones} + \beta_5 \text{parqueaderos} + \beta_6 \text{baños})\]

Para asesorar al jóven que busca un apartamento en la Zona Sur de la ciudad con un presupuesto de $200 millones, definiremos una propiedad con características competitivas en el sector:

piso_mean = mean(base2$piso_num)
piso_mean

## [1] 4.062193

piso_med = median(base2$piso_num)
piso_med

## [1] 3

Área: $80 \text{ m}^2$
Piso: 3 - Piso mediano para predecir
Estrato: 4
Habitaciones: 2
Parqueaderos: 1
Baños: 2

2.4.1 Cálculo Matemático

Dado que el modelo es log-log, la ecuación para el valor esperado es:

\[\ln(\text{Precio}) = 0.5971 + 0.9421 \cdot \ln(80) + 0.0066 \cdot (3) + 0.1425 \cdot (4) - 0.0314 \cdot (2) + 0.0625 \cdot (1) + 0.0456 \cdot (2)\] Para obtener una valoración realista, se ha definido una “Vivienda Tipo” basada en las tendencias centrales de la muestra depurada en la Zona Sur. Se utiliza el piso mediano ($\tilde{x} = 3$) para representar una unidad estándar de mercado.

2.4.2 Resultado de la Predicción en R

Para obtener el valor en millones de pesos, aplicamos la función exponencial:

log_precio_v2 <- 0.5971 + (0.9421 * log(80)) + (0.0066 * (3)) + (0.1425 * 4) - 
                 (0.0314 * 2) + (0.0625 * 1) + (0.0456 * 2)

precio_final_v2 <- exp(log_precio_v2)

print(precio_final_v2)

## [1] 222.7627

El valor de mercado estimado para un apartamento de 80 $m^2$ en estrato 4 es de $222.76$ millones. Dado que el presupuesto del cliente es de $200$ millones, la propiedad deseada excede ligeramente su capacidad financiera actual. Se recomienda al cliente considerar apartamentos de un metraje ligeramente menor (aprox. 72-74 $m^2$) o buscar opciones en zonas colindantes de estrato 3 para ajustarse a su presupuesto sin sacrificar el parqueadero.

Para efectos del ejercicio, se escogerán los mejores apartamentos sacrificando un poco el área y que hayan más de dos habitaciones.

3.5 Identificación de Ofertas (Análisis Geográfico)

Como último paso para, debemos encontrar esas 5 ofertas reales en la base de datos que “hagan match” con lo que acabamos de modelar.

# 1. Filtro de las 5 mejores ofertas (Estrato >= 3 y dentro de presupuesto)
# Usamos el presupuesto de 200M y priorizamos área construida
ofertas_v2_mapa <- base2 %>%
  filter(areaconst >= 77,  # Sacrificamos un poco el metraje cuadrado del área
         estrato >= 4,     
         piso_num >= 3,    # Al menos en un piso 3
         habitaciones >= 2, # Consideramos posibles casos con más habitaciones
         parqueaderos == 1,
         banios >= 2,
         preciom <= 200          # Presupuesto máximo de María
         ) %>%     
  arrange(desc(areaconst)) %>%     # Ordenamos para ver las opciones más espaciosas
  head(5)                          # Seleccionamos las 5 mejores

print(ofertas_v2_mapa)

## # A tibble: 5 × 18
##   tipo       latitud longitud areaconst piso     id preciom estrato parqueaderos
##   <chr>        <dbl>    <dbl>     <dbl> <chr> <dbl>   <dbl>   <dbl>        <dbl>
## 1 Apartamen…    3.37    -76.5      85   05     2889     180       5            1
## 2 Apartamen…    3.38    -76.5      84   06     6796     180       4            1
## 3 Apartamen…    3.38    -76.5      82.4 03     5874     185       4            1
## 4 Apartamen…    3.38    -76.5      79   05     1983     196       4            1
## 5 Apartamen…    3.36    -76.5      77   08     6636     200       4            1
## # ℹ 9 more variables: banios <dbl>, habitaciones <dbl>, zona_corregida <chr>,
## #   barrio <chr>, log_precio <dbl>, log_area <dbl>, l_precio <dbl>,
## #   l_area <dbl>, piso_num <dbl>

Para cerrar el Caso de Estudio 2, el análisis geográfico de estas 5 opciones seleccionadas permite aterrizar el modelo estadístico a la realidad del inventario disponible en el Sur. Aunque se ajustó el área a 72 m² para encontrar opciones competitivas bajo el presupuesto de $200 millones, los resultados muestran que existen oportunidades valiosas en el mercado. Gráficamente, los resultados pueden verse en el mapa que se muestra a continuación. Hacer clic en cada punto para ampliar su información.

# 1. Aseguramos que el cálculo de precio por metro cuadrado esté presente
ofertas_v2_mapa <- ofertas_v2_mapa %>%
  mutate(precio_m2 = round(preciom / areaconst, 2))

# 2. Generación del mapa con etiquetas detalladas
mapa_final_v2 <- leaflet(ofertas_v2_mapa) %>%
addProviderTiles(providers$CartoDB.Positron) %>%
  addMarkers(
    lng = ~longitud, 
    lat = ~latitud,
    label = ~paste0("ID: ", id, " | $", preciom, "M"),
    popup = ~paste0(
      "<div style='font-family: Arial; width: 220px;'>",
        "<h3 style='color: #2980b9; font-size: 16px; margin-bottom: 5px;'>Oportunidad: Sur</h3>",
        "<table style='width: 100%; border-collapse: collapse;'>",
          "<tr><td><b>Barrio:</b></td><td>", barrio, "</td></tr>",
          "<tr><td><b>Precio:</b></td><td style='color: #27ae60;'><b>$", preciom, "M</b></td></tr>",
          "<tr><td><b>Área:</b></td><td>", areaconst, " m²</td></tr>",
          "<tr><td><b>Estrato:</b></td><td>", estrato, "</td></tr>",
          "<tr><td><b>Piso_num:</b></td><td>", piso_num, "</td></tr>",
          "<tr><td><b>Habitaciones:</b></td><td>", habitaciones, "</td></tr>",
          "<tr><td><b>Baños:</b></td><td>", banios, "</td></tr>",
          "<tr><td><b>Parqueaderos:</b></td><td>", parqueaderos, "</td></tr>",
          "<tr><td><b>ID Propiedad:</b></td><td>", id, "</td></tr>",
        "</table>",
      "</div>"
    )
  ) %>%
  addScaleBar(position = "bottomleft")

# Visualizar mapa
mapa_final_v2

4. Limitaciones del Estudio y Sugerencias

Aunque los modelos desarrollados presentan niveles de ajuste superiores al 76% (Norte) y 91% (Sur), es fundamental reconocer las fronteras del análisis para una interpretación prudente:

Variables Omitidas: El modelo actual no captura atributos cualitativos como el estado de conservación (remodelado vs. original), la antigüedad de la edificación o la calidad de los acabados, los cuales pueden generar variaciones significativas en el precio de cierre.
Dinámica de Negociación: Los datos analizados corresponden a “precios de lista” (oferta). El precio final de transacción suele tener un margen de negociación que este modelo no puede prever sin datos históricos de ventas reales.
Entorno Micro-Local: No se incluyeron variables de proximidad a zonas verdes, transporte masivo o centros comerciales, factores que en la propiedad horizontal (Sur) suelen ponderar con gran relevancia.
Sugerencia Futura: Se recomienda integrar técnicas de Machine Learning (como Random Forest o Gradient Boosting) en fases posteriores para capturar relaciones no lineales más complejas, además de incluir la variable “tiempo en el mercado” para medir la liquidez de los activos.

5 Conclusiones Generales

El ejercicio analítico permite extraer tres conclusiones fundamentales para la gestión inmobiliaria:

Divergencia de Valor por Tipología: El mercado del Norte (Casas) se rige principalmente por la ubicación (estrato) y el espacio total, siendo indiferente a la fragmentación interna (habitaciones). En contraste, el mercado del Sur (Apartamentos) es altamente sensible a la eficiencia del diseño y a atributos de “estatus vertical” como el número de piso, el cual otorga una prima de valor del 0.67% por nivel.
Rigor Metodológico y Calidad de Datos: La identificación y consolidación de 451 duplicados geográficos fue un paso crítico que permitió sanear los modelos. Sin esta depuración, las pruebas de Breusch-Pagan y Durbin-Watson habrían arrojado resultados sesgados en el modelo inicial, invalidando la confiabilidad de las predicciones.
Viabilidad Presupuestal: El modelo robusto demostró ser una herramienta de negociación poderosa. Mientras que en el Norte el cliente posee un excedente presupuestal, en el Sur se identificó una brecha de $22.8 millones para la vivienda deseada. Sin embargo, gracias al cálculo de la elasticidad del área (0.942), se concluye que una reducción estratégica de solo 3 m² en el área construida permitiría al cliente adquirir la propiedad sin comprometer su estabilidad financiera ni su preferencia de ubicación.

Anexos

Anexo 1: Plan de Trabajo (Metodología)

Objetivo: Establecer una ruta crítica para la estimación de precios inmobiliarios con base en datos heterogéneos.

a. Fase de Diagnóstico y Limpieza (Data Wrangling):

Identificación de inconsistencias espaciales mediante coordenadas geográficas ($\pm 11\text{ cm}$).
Consolidación de registros duplicados utilizando criterios de tendencia central (mediana para precios, moda para categorías) para reducir el sesgo por errores de digitación.

b. Fase de Especificación del Modelo:

Transformación logarítmica de variables (Precio y Área) para corregir asimetría y facilitar la interpretación de elasticidades.
Inclusión de variables de control específicas por zona: “Piso” para apartamentos (Sur) y “Estrato/Confort” para casas (Norte).

c. Fase de Selección y Parsimonia:

Comparación de modelos mediante criterios de información (AIC, BIC) y $R^2$ ajustado para eliminar variables no significativas (como habitaciones en el Norte).

d. Fase de Inferencia Robusta:

Ejecución de pruebas de diagnóstico de Gauss-Markov.
Aplicación de M-estimación (RLM) y errores HAC en presencia de heterocedasticidad y outliers.

Anexo 2:Resultados de Modelación, Validación y Comparación

Objetivo: Documentar el sustento estadístico que garantiza la validez de las predicciones.

a. Resultados de la Modelación

Zona Norte: Se seleccionó el modelo Log-Log parsimonioso. Se destaca que el área y el estrato explican la mayor parte de la varianza, mientras que la distribución de alcobas es irrelevante para el precio.
Zona Sur: Se determinó que la altura (piso) es un determinante significativo, aportando una prima de valor del 0.67% por nivel.

b. Validación de Supuestos

Comparación de Métricas de Desempeño por Zona

Métrica	Modelo Norte (Casas)	Modelo Sur (Apartamentos)	Interpretación
R² Ajustado	0.7613	0.9117	Alta capacidad explicativa en el Sur.
Error Estándar	0.2531	0.1694	Mayor precisión relativa en el modelo Sur.
Variable Clave	log(areaconst)	log(areaconst) + piso	El área domina, pero el piso es vital en Sur.
Tratamiento	MCO Parsimonioso	RLM + HAC	El Sur requirió ajuste por heterocedasticidad.
AIC	39.51	-842.1 *	El valor negativo en Sur indica un ajuste superior.

* Nota: Los valores de AIC dependen de la escala y el número de observaciones (n=373 en Norte vs n=1222 en Sur).

c. Comparación de Modelos

El modelo Log-Log superó al Lin-Lin en ambas zonas, logrando reducir el error estándar residual y mejorando la linealidad de los residuos en los gráficos Q-Q. La decisión de utilizar el modelo robusto para las predicciones finales garantiza que los valores sugeridos a los clientes no estén inflados por registros atípicos del mercado.

Finalmente, para la ejecución de la fase de predicción en la Zona Sur, se determinó el uso de la mediana del nivel (Piso 3) como valor de referencia. Esta decisión metodológica permite obtener un ‘Valor de Mercado Típico’, neutralizando el sesgo de la ‘prima por altura’ presente en niveles superiores y evitando la subvaloración de los primeros niveles. Al estandarizar este atributo, la predicción se centra en la capacidad adquisitiva real del cliente frente a la oferta predominante en el sector.

Contacto e Información del Autor

Este análisis fue desarrollado como parte de la Maestría en Ciencia de Datos en el curso de Modelos Estadísticos para la Toma Decisiones de la Universidad Javeriana Cali, 2026-I. Si tienes dudas sobre la metodología (OLS, Lin-Lin o Log-Log) o quieres conectar para colaborar, no dudes en contactarme:

LinkedIn | GitHub | Correo Electrónico

Análisis Predictivo del Mercado Inmobiliario Urbano

Brayan Salgado - Maestría en Ciencia de Datos

2026-03-09

Introducción

1. Carga de paqueteMODELOS y librerías necesarias

1.1 Carga de librerías requeridas

2. Caso de estudio 1: casas en la zona norte

2.1 Filtro para el caso

Análisis Exploratorio Interactivo (EDA)

Ubicación Geográfica Inicial

2.2 Estimación del Modelo de Regresión

2.2.1 Resultados del Modelo

2.2.2 Interpretación de Coeficientes Significativos

2.2.3 Bondad de Ajuste e Implicaciones

2.2.4 Estimación del Modelo Definitivo (Log-Log)

Interpretación de Elasticidades y Coeficientes

2.3 Validación de Supuestos

Normalidad

Homocedasticidad

Autocorrelación de los errores

Grados de multicolinealidad

Interpretación de supuestos

2.3.1 Opciones de corrección del modelo

a. Transformaciones Adicionales

d. Tratamiento de Outliers (Valores Atípicos)

2.3.2 Modelo corregido

2.4 Predicción del Valor Inmobiliario

2.4.1 Cálculo Matemático

2.5 Identificación de Ofertas (Análisis Geográfico)

3. Caso de estudio 2: apartamentos en la zona sur

3.1 Filtro para el caso

Ubicación Geográfica Inicial

Análisis Exploratorio Interactivo (EDA)

Relación logarítmica precio vs área

Distribución de pesos por estrato (boxplots)

Matriz de Correlación

3.2 Estimación del Modelo de Regresión (log-log)

3.2.1 Resultados del Modelo

3.2.2 Interpretación de Coeficientes Significativos

3.2.3 Bondad de Ajuste e Implicaciones

3.3 Validación de Supuestos

Normalidad

Homocedasticidad

Autocorrelación espacial

Grado de Multicolinealidad

Interpretación Supuestos del Modelo

a. Estimación con Errores Estándar Robustos (EHR)

b. Errores Robustos a la Autocorrelación (HAC)

3.3.1 Modelo corregido

3.3.2 Interpretación del modelo corregido

3.4 Predicción del Valor Inmobiliario

2.4.1 Cálculo Matemático

2.4.2 Resultado de la Predicción en R

3.5 Identificación de Ofertas (Análisis Geográfico)

4. Limitaciones del Estudio y Sugerencias

5 Conclusiones Generales

Anexos

Anexo 1: Plan de Trabajo (Metodología)

a. Fase de Diagnóstico y Limpieza (Data Wrangling):

b. Fase de Especificación del Modelo:

c. Fase de Selección y Parsimonia:

d. Fase de Inferencia Robusta:

Anexo 2:Resultados de Modelación, Validación y Comparación

a. Resultados de la Modelación

b. Validación de Supuestos

c. Comparación de Modelos

Contacto e Información del Autor