Caso C&A

Tomada de: sitios-turisticos/cali

Enunciado

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

Características: Vivienda 1 / Vivienda 2

  • Tipo: Casa / Apartamento
  • área construida: 200 / 300
  • parqueaderos: 1 / 3
  • baños: 2 / 3
  • habitaciones: 4 / 5
  • estrato: 4 o 5 / 5 o 6
  • zona: Norte / Sur
  • crédito preap: 350 M / 850 M

Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .

Datos

Los datos de los tres últimos meses se adjuntan en la base que puede obtener con el siguiente código en R

Variable - Descripción

  • zona: ubicación de la vivienda : Zona Centro, Zona Norte,…
  • piso: piso que ocupa la vivienda : primer piso, segundo piso…
  • estrato: estrato socio-económico : 3,4,5,6
  • preciom: precio de la vivienda en millones de pesos
  • areaconst: área construida
  • parqueaderos: número de parqueaderos
  • banios: número de baños
  • habitaciones: número de habitaciones
  • tipo: tipo de vivienda : Casa, Apartamento
  • barrio: barrio de ubicación de la vivienda : 20 de Julio, alamos,..
  • longitud: coordenada geográfica
  • latitud: coordenada geográfica

Requerimientos

  1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).

  2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

  3. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

  4. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

  5. Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

  6. Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

  7. Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.

Desarrollo

Carga de datos

Tabla 1. Previsualización Base de datos Vivienda

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566
5992 Zona Sur 02 4 400 280 3 5 3 Casa 3 de julio -76.54000 3.43500
1212 Zona Norte 01 5 260 90 1 2 3 Apartamento acopi -76.51350 3.45891
1724 Zona Norte 01 5 240 87 1 3 3 Apartamento acopi -76.51700 3.36971

Se identifican valores faltantes por variable y se eliminan los registros incompletos para crear la base viviendaSNA. Esto asegura que los análisis posteriores no se vean afectados.

Vivienda 1 (Casa)

Verificación de filtro

Tabla 2. Base Vivienda - Filtro: Casa - Zona Norte

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721
4460 Zona Norte 02 4 625 355 3 5 5 Casa acopi -76.53179 3.40590

Después de realizar el filtro correspondiente, se procede a validar la cantidad total para Casas en Zona Norte

Tabla 3. Frecuencia de Tipo y Zona de Vivienda

Tipo Frecuencia
Casa 254
Zona Frecuencia
Zona Norte 254

Analisis Exploratorio

El summary() de base1 (Casas – Zona Norte) muestra que la base cuenta con 254 registros y que las variables numéricas presentan rangos amplios. Para las características del inmueble, se observan valores mínimos de 0 en banios y habitaciones, lo cual no es consistente con una vivienda habitable. Por esta razón, se decidió eliminar los registros con banios = 0 y habitaciones = 0 antes de continuar con el análisis, con el fin de evitar sesgos por errores de registro, quedando una base final de 250 registros.

Tabla 4. Summary inicial de base1 (Casas – Zona Norte)

##        id           zona               piso              estrato    
##  Min.   :  94   Length:254         Length:254         Min.   :3.00  
##  1st Qu.:1258   Class :character   Class :character   1st Qu.:4.00  
##  Median :2923   Mode  :character   Mode  :character   Median :5.00  
##  Mean   :2927                                         Mean   :4.52  
##  3rd Qu.:4313                                         3rd Qu.:5.00  
##  Max.   :7987                                         Max.   :6.00  
##     preciom         areaconst       parqueaderos       banios     
##  Min.   :  89.0   Min.   :  60.0   Min.   : 1.00   Min.   :0.000  
##  1st Qu.: 350.0   1st Qu.: 196.5   1st Qu.: 1.00   1st Qu.:3.000  
##  Median : 450.0   Median : 275.5   Median : 2.00   Median :4.000  
##  Mean   : 499.6   Mean   : 305.9   Mean   : 2.39   Mean   :3.882  
##  3rd Qu.: 600.0   3rd Qu.: 365.5   3rd Qu.: 3.00   3rd Qu.:5.000  
##  Max.   :1600.0   Max.   :1440.0   Max.   :10.00   Max.   :9.000  
##   habitaciones       tipo              barrio             longitud     
##  Min.   : 0.00   Length:254         Length:254         Min.   :-76.55  
##  1st Qu.: 4.00   Class :character   Class :character   1st Qu.:-76.53  
##  Median : 4.00   Mode  :character   Mode  :character   Median :-76.52  
##  Mean   : 4.87                                         Mean   :-76.52  
##  3rd Qu.: 5.75                                         3rd Qu.:-76.51  
##  Max.   :10.00                                         Max.   :-76.48  
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.464  
##  Median :3.475  
##  Mean   :3.469  
##  3rd Qu.:3.484  
##  Max.   :3.493

Tabla 5. Summary final de base1 (Casas – Zona Norte)

##        id           zona               piso              estrato     
##  Min.   :  94   Length:250         Length:250         Min.   :3.000  
##  1st Qu.:1258   Class :character   Class :character   1st Qu.:4.000  
##  Median :2923   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :2914                                         Mean   :4.516  
##  3rd Qu.:4302                                         3rd Qu.:5.000  
##  Max.   :7987                                         Max.   :6.000  
##     preciom         areaconst       parqueaderos        banios     
##  Min.   :  89.0   Min.   :  60.0   Min.   : 1.000   Min.   :1.000  
##  1st Qu.: 350.0   1st Qu.: 193.0   1st Qu.: 1.000   1st Qu.:3.000  
##  Median : 450.0   Median : 275.5   Median : 2.000   Median :4.000  
##  Mean   : 498.8   Mean   : 305.2   Mean   : 2.392   Mean   :3.928  
##  3rd Qu.: 600.0   3rd Qu.: 365.5   3rd Qu.: 3.000   3rd Qu.:5.000  
##  Max.   :1600.0   Max.   :1440.0   Max.   :10.000   Max.   :9.000  
##   habitaciones       tipo              barrio             longitud     
##  Min.   : 1.00   Length:250         Length:250         Min.   :-76.55  
##  1st Qu.: 4.00   Class :character   Class :character   1st Qu.:-76.53  
##  Median : 4.00   Mode  :character   Mode  :character   Median :-76.52  
##  Mean   : 4.92                                         Mean   :-76.52  
##  3rd Qu.: 5.75                                         3rd Qu.:-76.51  
##  Max.   :10.00                                         Max.   :-76.48  
##     latitud     
##  Min.   :3.369  
##  1st Qu.:3.464  
##  Median :3.475  
##  Mean   :3.470  
##  3rd Qu.:3.484  
##  Max.   :3.493

Grafico 1. Mapa (longitud vs latitud)

En el mapa, la mayoría de puntos de base1 se concentra en el sector de la Zona Norte. Sin embargo, se observan algunos puntos más alejados del grupo principal, lo que podría deberse a registros con inconsistencias en la asignación de la zona o en las coordenadas.

Grafico 2. Matriz de correlación Precio vs Variables

Grafico 3. Precio vs Área construida

Grafico 4. Precio vs Estrato

Grafico 5. Precio vs Baños

Grafico 6. Precio vs Habitaciones

Grafico 7. Precio vs Parqueaderos

En la base de casas en Zona Norte, el precio (preciom) muestra una relación positiva con varias características físicas del inmueble. La asociación más fuerte se observa con el área construida (areaconst), con una correlación aproximada de 0.66, lo cual se confirma en el gráfico de dispersión (Gráfico 3) donde se aprecia una tendencia creciente a mayor área, mayor precio, aunque con dispersión por la influencia de otras variables. También se observa correlación moderada del precio con baños (0.51), estrato (0.48) y parqueaderos (0.42), ya que normalmente, inmuebles con más comodidades y en estratos más altos tienden a ser más costosos.

En el caso de habitaciones, la relación con el precio es más baja (0.37), lo que sugiere que el número de habitaciones por sí solo explica menos el precio. Los boxplots (Gráficos 4–6) refuerzan este patrón: el precio tiende a aumentar por niveles de estrato, baños y habitaciones, pero con presencia de valores atípicos (viviendas premium) y solapamiento entre grupos, indicando que el precio no depende de un solo factor sino de la combinación de varios.

Grafico 8. Asociación entre las variables cuantitativas

Este gráfico resume la relación entre las variables. En la diagonal se observa la distribución de cada variable; en la parte inferior aparecen los diagramas de dispersión; y en la parte superior se muestra el valor de la correlación. En este caso, el precio se asocia principalmente con el área construida (correlación 0.66) y de forma moderada con baños, estrato y parqueaderos, mientras que la relación con habitaciones es más baja. También se observa que baños y habitaciones están relativamente correlacionados, lo cual es lógico porque viviendas con más habitaciones suelen tener más baños. En conjunto, el gráfico confirma que el precio depende de varias características, siendo el área la más influyente.

Estimación del Modelo MCO

Tabla 6. Summary modelo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base1c)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -734.28  -81.10  -16.88   47.90  932.30 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -234.76859   62.52796  -3.755 0.000217 ***
## areaconst       0.64853    0.06798   9.540  < 2e-16 ***
## estrato        82.22957   13.47879   6.101 4.11e-09 ***
## habitaciones    6.41855    7.57362   0.847 0.397554    
## parqueaderos   28.41301    6.84712   4.150 4.60e-05 ***
## banios         16.46959   10.24860   1.607 0.109346    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.8 on 244 degrees of freedom
## Multiple R-squared:  0.591,  Adjusted R-squared:  0.5826 
## F-statistic: 70.51 on 5 and 244 DF,  p-value: < 2.2e-16

Con el modelo estimado para casas en Zona Norte, se observa que el precio (en millones) está explicado principalmente por el área construida, el estrato y el número de parqueaderos, ya que estas variables son estadísticamente significativas (p-valor < 0.05) y tienen efecto positivo. En particular, manteniendo las demás variables constantes, por cada 1 unidad adicional de área construida el precio aumenta en promedio 0.65 millones, por cada incremento de 1 estrato el precio aumenta cerca de 82.23 millones, y por cada parqueadero adicional el precio aumenta alrededor de 28.41 millones. En cambio, habitaciones y baños no resultaron significativos (p-valores 0.398 y 0.109), lo que sugiere que su efecto sobre el precio ya está capturado indirectamente por variables como el área o el estrato, o que no aportan explicación adicional dentro de este grupo de casas.

El R² indica qué proporción de la variabilidad del precio es explicada por las variables incluidas en el modelo. En este caso, R² = 0.591 (R² ajustado = 0.583) indica que el modelo explica aproximadamente 59% de la variación del precio, lo cual es un ajuste moderado. Esto implica que el modelo es útil para obtener una estimación aproximada del precio en casas de Zona Norte, pero puede tener errores de predicción en viviendas atípicas o con características no incluidas.

Para mejorarlo, se podría incluir variables adicionales que capturen mejor la ubicación, explorar transformaciones como log(precio) o log(área) para reducir la influencia de valores extremos y mejorar la relación lineal, revisar y tratar outliers (casas muy costosas) que pueden afectar el ajuste, y probar interacciones o modelos alternativos.

Estimación Stepwise

Tabla 7. Summary modelo forward

##             Step Df  Deviance Resid. Df Resid. Dev      AIC
## 1                NA        NA       249   13919560 2733.836
## 2    + areaconst -1 6143950.9       248    7775609 2590.260
## 3      + estrato -1 1275881.0       247    6499728 2547.452
## 4 + parqueaderos -1  648375.5       246    5851352 2523.181
## 5       + banios -1  141165.9       245    5710186 2519.075
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios, 
##     data = base1c)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -725.82  -83.62  -15.50   53.96  930.73 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -212.10925   56.49069  -3.755 0.000217 ***
## areaconst       0.66515    0.06505  10.225  < 2e-16 ***
## estrato        79.01247   12.92576   6.113 3.83e-09 ***
## parqueaderos   28.36133    6.84291   4.145 4.69e-05 ***
## banios         21.17962    8.60588   2.461 0.014543 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.7 on 245 degrees of freedom
## Multiple R-squared:  0.5898, Adjusted R-squared:  0.5831 
## F-statistic: 88.06 on 4 and 245 DF,  p-value: < 2.2e-16

El procedimiento stepwise forward seleccionó un modelo más simple para explicar el precio de las casas en Zona Norte, incorporando en orden área construida, estrato, parqueaderos y baños, y dejando por fuera habitaciones por no aportar mejora adicional según el criterio AIC. En el modelo final, todas las variables incluidas resultan significativas y con efecto positivo: a mayor área, estrato, parqueaderos y baños, mayor precio estimado. El ajuste del modelo se mantiene moderado (R² ≈ 0.59, R² ajustado ≈ 0.58), por lo que el modelo final resume adecuadamente la relación entre precio y características principales del inmueble con un conjunto reducido de variables.

Validacion de supuestos

Grafico 9. Validación de Residuos

Pruebas

Normalidad de residuos (Shapiro-Wilk)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.87254, p-value = 1.368e-13

Homocedasticidad (Breusch-Pagan)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 50.66, df = 5, p-value = 1.015e-09

Multicolinealidad (VIF)

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.431241     1.249164     1.859409     1.232838     2.109814

En la validación de supuestos del modelo se observa que no todos se cumplen completamente. En el gráfico Residuals vs Fitted y en Scale-Location se aprecia un patrón y un aumento de la dispersión de los residuos a medida que crecen los valores ajustados, lo cual sugiere heterocedasticidad; esto se confirma con la prueba de Breusch–Pagan (p-value = 1.015e-09). En el gráfico Q–Q los residuos se desvían de la línea teórica en las colas y la prueba de Shapiro–Wilk (p-value = 1.368e-13) indica que los residuos no siguen normalidad estricta, posiblemente por presencia de valores extremos. En cuanto a multicolinealidad, los valores VIF se encuentran alrededor de 1–2, por lo que no se evidencia un problema importante de correlación excesiva entre predictores. Finalmente, el gráfico de Residuals vs Leverage y la distancia de Cook señalan algunas observaciones potencialmente influyentes que conviene revisar.

Como sugerencias, se podría considerar una transformación del precio (log(precio)) o el uso de errores robustos para manejar la heterocedasticidad y justificar las observaciones extremas.

Validacion simple

## [1] 31474.68

Validación simple repetida (100)

Grafico 10. Distribución del error MSE

Bootstrapping

Tabla 8. Bootstrap: coeficientes

Coeficiente Original Media_Bootstrap SD_Bootstrap
(Intercept) -212.1092 -197.4457 55.9576
areaconst 0.6651 0.7024 0.1785
estrato 79.0125 74.8519 15.8620
parqueaderos 28.3613 27.7283 7.6122
banios 21.1796 19.7380 11.0839

La validación simple muestra el error de predicción del modelo en datos no usados para estimarlo: el MSE obtenido (≈ 31.475) implica un RMSE cercano a 177 millones, es decir, el modelo puede equivocarse en el precio por un margen importante. Por su parte, el bootstrap indica que los coeficientes son estables (las medias bootstrap son cercanas a los coeficientes originales), lo que sugiere que la relación aprendida por el modelo no cambia drásticamente al re-muestrear los datos. En conjunto, el modelo es útil para orientar decisiones y priorizar opciones, pero por el tamaño del error no conviene usar un corte “radical” exactamente en 350 millones. Se recomienda trabajar con un rango alrededor del presupuesto (por ejemplo ±100 millones) y luego priorizar las ofertas más cercanas al límite, complementando con la revisión del precio real y características.

Predicciones

Tabla 9. Prediccion del precio para la Vivienda 1

Caso Prediccion_millones
Vivienda 1 (Estrato 4) 307.69
Vivienda 1 (Estrato 5) 386.70

Tabla 10. Top 5 ofertas potenciales para Vivienda 1

id barrio estrato areaconst parqueaderos banios habitaciones preciom precio_pred latitud longitud
1222 la merced 4 216 2 2 4 360 346.69 3.48 -76.51
4317 el bosque 4 250 1 3 4 485 362.13 3.49 -76.53
1108 la merced 4 260 1 3 4 330 368.78 3.48 -76.51
2266 la merced 4 225 2 3 4 430 373.86 3.48 -76.52
1020 la merced 4 250 2 3 5 230 390.49 3.47 -76.51

Grafico 11. Mapa (Vivienda 1)

Para la Vivienda 1, se filtraron las ofertas de casas en Zona Norte que cumplen con las características mínimas solicitadas y se priorizaron aquellas con precio predicho cercano al presupuesto de $350 MM (usando margen de $200 MM). Como resultado, se identificaron las principales 5 ofertas potenciales con predicciones entre aproximadamente $346 MM y $390 MM, lo que indica que, para este perfil de vivienda en Zona Norte, varias alternativas se ubican cerca del límite del crédito, aunque algunas lo superan ligeramente y deberían evaluarse con mayor detalle. En el mapa se observa que las ofertas seleccionaact2_p2_plot_baniosdas se ubican efectivamente en el sector norte de Cali, concentradas en barrios como La Merced, El Bosque y Vipasa, lo cual es consistente con el filtro aplicado y permite comparar opciones no solo por precio estimado, sino también por ubicación.

Vivienda 2 (Apartamento)

Verificación de filtro

Tabla 2. Base Vivienda - Filtro: Apartamento - Zona Sur

id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
5098 Zona Sur 05 4 290 96 1 2 3 Apartamento acopi -76.53464 3.44987
698 Zona Sur 02 3 78 40 1 1 2 Apartamento aguablanca -76.50100 3.40000
6975 Zona Sur 06 4 220 75 1 2 3 Apartamento alférez real -76.54627 3.39109

Después de realizar el filtro correspondiente, se procede a validar la cantidad total para Apartamento en Zona Sur

Tabla 3. Frecuencia de Tipo y Zona de Vivienda

Tipo Frecuencia
Apartamento 1860
Zona Frecuencia
Zona Sur 1860

Analisis Exploratorio

El summary() de base2 (Apartamento - Zona Sur) muestra que la base cuenta con 1860 registros y que las variables numéricas presentan rangos amplios. Para las características del inmueble, se observan valores mínimos de 0 en habitaciones, lo cual no es consistente con una vivienda habitable. Por esta razón, se decidió eliminar los registros con habitaciones = 0 antes de continuar con el análisis, con el fin de evitar sesgos por errores de registro, quedando una base final de 1856 registros.

Tabla 4. Summary inicial de base2 (Apartamento - Zona Sur)

##        id           zona               piso              estrato     
##  Min.   :   8   Length:1860        Length:1860        Min.   :3.000  
##  1st Qu.:2450   Class :character   Class :character   1st Qu.:4.000  
##  Median :4209   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4272                                         Mean   :4.745  
##  3rd Qu.:6008                                         3rd Qu.:5.000  
##  Max.   :8299                                         Max.   :6.000  
##     preciom         areaconst      parqueaderos       banios     
##  Min.   :  78.0   Min.   : 40.0   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 210.0   1st Qu.: 71.0   1st Qu.:1.000   1st Qu.:2.000  
##  Median : 260.0   Median : 90.0   Median :1.000   Median :2.000  
##  Mean   : 312.9   Mean   :100.7   Mean   :1.398   Mean   :2.584  
##  3rd Qu.: 350.0   3rd Qu.:112.0   3rd Qu.:2.000   3rd Qu.:3.000  
##  Max.   :1750.0   Max.   :932.0   Max.   :4.000   Max.   :7.000  
##   habitaciones       tipo              barrio             longitud     
##  Min.   :0.000   Length:1860        Length:1860        Min.   :-76.56  
##  1st Qu.:3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :3.018                                         Mean   :-76.53  
##  3rd Qu.:3.000                                         3rd Qu.:-76.52  
##  Max.   :6.000                                         Max.   :-76.46  
##     latitud     
##  Min.   :3.334  
##  1st Qu.:3.370  
##  Median :3.383  
##  Mean   :3.389  
##  3rd Qu.:3.405  
##  Max.   :3.497

Tabla 5. Summary final de base2 (Apartamento - Zona Sur)

##        id           zona               piso              estrato     
##  Min.   :   8   Length:1856        Length:1856        Min.   :3.000  
##  1st Qu.:2450   Class :character   Class :character   1st Qu.:4.000  
##  Median :4215   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4275                                         Mean   :4.745  
##  3rd Qu.:6010                                         3rd Qu.:5.000  
##  Max.   :8299                                         Max.   :6.000  
##     preciom         areaconst      parqueaderos       banios     
##  Min.   :  78.0   Min.   : 40.0   Min.   :1.000   Min.   :1.000  
##  1st Qu.: 210.0   1st Qu.: 71.0   1st Qu.:1.000   1st Qu.:2.000  
##  Median : 260.0   Median : 90.0   Median :1.000   Median :2.000  
##  Mean   : 312.9   Mean   :100.7   Mean   :1.398   Mean   :2.584  
##  3rd Qu.: 350.0   3rd Qu.:112.0   3rd Qu.:2.000   3rd Qu.:3.000  
##  Max.   :1750.0   Max.   :932.0   Max.   :4.000   Max.   :7.000  
##   habitaciones       tipo              barrio             longitud     
##  Min.   :1.000   Length:1856        Length:1856        Min.   :-76.56  
##  1st Qu.:3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :3.025                                         Mean   :-76.53  
##  3rd Qu.:3.000                                         3rd Qu.:-76.52  
##  Max.   :6.000                                         Max.   :-76.46  
##     latitud     
##  Min.   :3.334  
##  1st Qu.:3.370  
##  Median :3.383  
##  Mean   :3.389  
##  3rd Qu.:3.405  
##  Max.   :3.497

Grafico 1. Mapa (longitud vs latitud)

En el mapa, la mayoría de puntos de base2 se concentra en el sector de la Zona Sur. Sin embargo, se observan algunos puntos más alejados del grupo principal, lo que podría deberse a registros con inconsistencias en la asignación de la zona o en las coordenadas.

Grafico 2. Matriz de correlación Precio vs Variables

Grafico 3. Precio vs Área construida

Grafico 4. Precio vs Estrato

Grafico 5. Precio vs Baños

Grafico 6. Precio vs Habitaciones

Grafico 7. Precio vs Parqueaderos

En la base de Apartamentos en Zona Sur, el precio (preciom) muestra una relación positiva con varias características físicas del inmueble. La asociación más fuerte se observa con el área construida (areaconst), con una correlación aproximada de 0.72, lo cual se confirma en el gráfico de dispersión donde se aprecia una tendencia creciente a mayor área, mayor precio, aunque con dispersión por la influencia de otras variables. También se observa correlación alta del precio con baños (0.71), parqueaderos (0.71) y estrato (0.65), ya que normalmente, inmuebles con más comodidades y en estratos más altos tienden a ser más costosos.

En el caso de habitaciones, la relación con el precio es más baja (0.32), lo que sugiere que el número de habitaciones por sí solo explica menos el precio. Los boxplots refuerzan este patrón: el precio tiende a aumentar por niveles de estrato, baños y habitaciones, pero con presencia de valores atípicos (viviendas premium) y solapamiento entre grupos, indicando que el precio no depende de un solo factor sino de la combinación de varios.

Grafico 8. Asociación entre las variables cuantitativas

Este gráfico resume la relación entre las variables. En la diagonal se observa la distribución de cada variable; en la parte inferior aparecen los diagramas de dispersión; y en la parte superior se muestra el valor de la correlación. En este caso, el precio se asocia principalmente con el área construida (correlación 0.72), baños (0.71) y parqueaderos (0.71) y de forma moderada con estrato, mientras que la relación con habitaciones es más baja. En conjunto, el gráfico confirma que el precio depende de varias características, siendo el área la más influyente.

Estimación del Modelo MCO

Tabla 6. Summary modelo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base2c)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1024.87   -41.67    -1.75    40.41   934.57 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -263.26223   17.30447  -15.21  < 2e-16 ***
## areaconst       1.21333    0.06108   19.87  < 2e-16 ***
## estrato        57.80658    3.47669   16.63  < 2e-16 ***
## habitaciones  -19.54343    4.46245   -4.38 1.26e-05 ***
## parqueaderos   82.44926    5.07125   16.26  < 2e-16 ***
## banios         47.81685    3.89869   12.27  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 95.68 on 1850 degrees of freedom
## Multiple R-squared:  0.7365, Adjusted R-squared:  0.7358 
## F-statistic:  1034 on 5 and 1850 DF,  p-value: < 2.2e-16

Con el modelo estimado para Apartamentos en Zona Sur, se observa que el precio (en millones) está explicado principalmente por el área construida, el estrato, el número de parqueaderos y el número de baños, ya que estas variables son estadísticamente significativas (p-valor < 0.05) y tienen efecto positivo. En particular, manteniendo las demás variables constantes, por cada 1 unidad adicional de área construida el precio aumenta en promedio 1.21 millones, por cada incremento de 1 estrato el precio aumenta cerca de 57.81 millones, por cada parqueadero adicional el precio aumenta alrededor de 82.45 millones, y por cada baño adicional el precio aumenta aproximadamente 47.82 millones. En cambio, la variable habitaciones resulta significativa pero con efecto negativo (coeficiente -19.54), lo que sugiere que, controlando por área, estrato, parqueaderos y baños, aumentar el número de habitaciones se asocia con una disminución del precio; esto puede ocurrir porque, a igual área, más habitaciones implica habitaciones más pequeñas o una distribución distinta, y el mercado podría valorar más otros atributos.

El R² indica qué proporción de la variabilidad del precio es explicada por las variables incluidas en el modelo. En este caso, R² = 0.7365 (R² ajustado = 0.7358) indica que el modelo explica aproximadamente 74% de la variación del precio, lo cual refleja un buen ajuste para este segmento de apartamentos en Zona Sur. Esto implica que el modelo es útil para obtener una estimación del precio con mayor capacidad explicativa que en el caso anterior, aunque aún pueden existir errores de predicción en inmuebles atípicos o con características no incluidas.

Para mejorarlo, se podría incluir variables adicionales que capturen mejor la ubicación (por ejemplo barrio o coordenadas), explorar transformaciones como log(precio) o log(área) para reducir la influencia de valores extremos, revisar outliers que puedan afectar el ajuste, y evaluar posibles interacciones (por ejemplo, área × estrato) o especificaciones alternativas si se sospecha que los efectos cambian según el nivel socioeconómico.

Estimación Stepwise

Tabla 7. Summary modelo forward

##             Step Df   Deviance Resid. Df Resid. Dev      AIC
## 1                NA         NA      1855   64262805 19401.49
## 2    + areaconst -1 33646175.1      1854   30616630 18027.38
## 3      + estrato -1  8290965.9      1853   22325664 17443.25
## 4 + parqueaderos -1  4011337.2      1852   18314327 17077.66
## 5       + banios -1  1203466.9      1851   17110860 16953.51
## 6 + habitaciones -1   175580.1      1850   16935280 16936.36
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios + 
##     habitaciones, data = base2c)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1024.87   -41.67    -1.75    40.41   934.57 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -263.26223   17.30447  -15.21  < 2e-16 ***
## areaconst       1.21333    0.06108   19.87  < 2e-16 ***
## estrato        57.80658    3.47669   16.63  < 2e-16 ***
## parqueaderos   82.44926    5.07125   16.26  < 2e-16 ***
## banios         47.81685    3.89869   12.27  < 2e-16 ***
## habitaciones  -19.54343    4.46245   -4.38 1.26e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 95.68 on 1850 degrees of freedom
## Multiple R-squared:  0.7365, Adjusted R-squared:  0.7358 
## F-statistic:  1034 on 5 and 1850 DF,  p-value: < 2.2e-16

El procedimiento stepwise forward seleccionó un modelo para explicar el precio de los apartamentos en Zona Sur incorporando las variables área construida, estrato, parqueaderos, baños y habitaciones, manteniendo todas dentro del modelo final. En la estimación resultante, todas las variables incluidas son estadísticamente significativas; el efecto es positivo para área, estrato, parqueaderos y baños, mientras que habitaciones presenta un efecto negativo una vez se controla por las demás variables. El ajuste del modelo es alto (R² ≈ 0.74, R² ajustado ≈ 0.74), lo que indica que este modelo explica una proporción importante de la variación del precio en este segmento y ofrece una base sólida para realizar predicciones.

Validacion de supuestos

Grafico 9. Validación de Residuos

Pruebas

Normalidad de residuos (Shapiro-Wilk)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.7789, p-value < 2.2e-16

Homocedasticidad (Breusch-Pagan)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 648.02, df = 5, p-value < 2.2e-16

Multicolinealidad (VIF)

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.930039     1.569255     1.415838     1.867543     2.585076

En la validación de supuestos del modelo para apartamentos en Zona Sur se observa que no todos se cumplen completamente. En los gráficos Residuals vs Fitted y Scale-Location se evidencia un patrón y un incremento de la dispersión de los residuos a medida que aumentan los valores ajustados, lo que sugiere heterocedasticidad; esto se confirma con la prueba de Breusch–Pagan (p-value < 2.2e-16). En el gráfico Q–Q los residuos se apartan de la línea teórica en las colas y la prueba de Shapiro–Wilk (W = 0.7789, p-value < 2.2e-16) indica que los residuos no siguen normalidad estricta, probablemente por la presencia de valores extremos. En cuanto a multicolinealidad, los valores VIF se mantienen en un rango bajo (aprox. 1.4 a 2.6), por lo que no se evidencia un problema crítico entre predictores. Finalmente, el gráfico de Residuals vs Leverage sugiere la existencia de algunas observaciones potencialmente influyentes que conviene revisar.

Como sugerencias, se podría considerar transformar la variable respuesta (log(precio)) o utilizar errores robustos para manejar la heterocedasticidad, y revisar las observaciones extremas para validar que correspondan a inmuebles atípicos reales y no a errores de registro.

Validacion simple

## [1] 8820.499

Validación simple repetida (100)

Grafico 10. Distribución del error MSE

Bootstrapping

Tabla 8. Bootstrap: coeficientes

Coeficiente Original Media_Bootstrap SD_Bootstrap
(Intercept) -310.5296 -308.5498 13.7886
areaconst 1.1798 1.2849 0.4022
estrato 59.2515 58.7888 3.7630
parqueaderos 83.8650 80.8470 11.8403
banios 41.1200 38.8008 9.7661

La validación simple para el caso de apartamentos en Zona Sur arrojó un MSE = 8820.499, lo que equivale a un RMSE ≈ 94 millones (error típico de predicción). Esto indica que el modelo tiene un desempeño predictivo mejor que el del caso de casas, aunque aún puede presentar diferencias relevantes en inmuebles atípicos. Por su parte, el bootstrap muestra que los coeficientes son estables, ya que las medias bootstrap son cercanas a los valores originales y los sesgos son pequeños, lo que sugiere que el modelo es consistente ante remuestreos. En conjunto, el modelo es útil para orientar y priorizar ofertas, pero debido al margen de error es recomendable no usar un corte completamente rígido con el presupuesto, sino trabajar con un rango alrededor del valor del crédito y luego priorizar las opciones más cercanas, complementando con la revisión del precio real y las características del inmueble.

Predicciones

Tabla 9. Prediccion del precio para la Vivienda 2

Caso Prediccion_millones
Vivienda 2 (Estrato 5) 531.12
Vivienda 2 (Estrato 6) 610.13

Tabla 10. Top 5 ofertas potenciales para Vivienda 2

id barrio estrato areaconst parqueaderos banios habitaciones preciom precio_pred latitud longitud
4394 el ingenio 5 486.00 2 4 4 690 647.65 3.38 -76.53
6073 multicentro 5 251.00 4 5 4 1250 569.25 3.38 -76.54
7658 cuarto de legua 5 320.00 2 4 4 520 537.24 3.41 -76.55
5306 ciudadela pasoancho 5 275.00 2 5 5 650 528.49 3.39 -76.54
8113 cuarto de legua 5 295.55 2 4 4 410 520.98 3.41 -76.56

Grafico 11. Mapa (Vivienda 2)

Para la Vivienda 2, se filtraron las ofertas de apartamentos en Zona Sur que cumplen con las características mínimas solicitadas (estrato 5–6, área construida, parqueaderos, baños y habitaciones) y se priorizaron aquellas con precio predicho cercano al presupuesto de $850 millones, usando un margen de $400 millones para no ser demasiado restrictivos considerando el error del modelo. La predicción del modelo para la Vivienda 2 se ubicó alrededor de $531 millones (estrato 5) y $610 millones (estrato 6), lo que sugiere que, bajo las variables del modelo, el precio esperado estaría por debajo del crédito preaprobado. Con el filtro aplicado se identificaron 5 ofertas potenciales con precios predichos aproximadamente entre $521 y $648 millones, ubicadas en barrios como El Ingenio, Multicentro, Cuarto de Legua y Ciudadela Pasoancho; estas alternativas se encuentran dentro del rango considerado y pueden evaluarse como opciones viables, complementando la decisión con la revisión del precio real, la ubicación y el estado del inmueble.

Conclusiones

En este trabajo se desarrolló un enfoque de modelación para apoyar la toma de decisiones en la compra de vivienda, construyendo modelos de regresión para casas en Zona Norte y apartamentos en Zona Sur. En ambos casos, el área construida y el estrato resultaron determinantes del precio, junto con variables de dotación como parqueaderos y baños. Los modelos permitieron estimar precios para las dos solicitudes: para Vivienda 1 la predicción quedó cercana al presupuesto (308–387 millones según estrato), mientras que para Vivienda 2 las predicciones fueron inferiores al crédito disponible (531–610 millones). La validación mostró que los modelos son útiles para orientar la selección de ofertas, aunque presentan supuestos no completamente cumplidos y un margen de error que hace recomendable trabajar con rangos de precio en lugar de cortes rígidos. Finalmente, se identificaron ofertas potenciales y se ubicaron en mapas, facilitando una recomendación práctica basada en precio estimado, características y ubicación.