Tomada de: sitios-turisticos/cali
Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos) .
Los datos de los tres últimos meses se adjuntan en la base que puede obtener con el siguiente código en R
Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.
Tabla 1. Previsualización Base de datos Vivienda
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
| 5992 | Zona Sur | 02 | 4 | 400 | 280 | 3 | 5 | 3 | Casa | 3 de julio | -76.54000 | 3.43500 |
| 1212 | Zona Norte | 01 | 5 | 260 | 90 | 1 | 2 | 3 | Apartamento | acopi | -76.51350 | 3.45891 |
| 1724 | Zona Norte | 01 | 5 | 240 | 87 | 1 | 3 | 3 | Apartamento | acopi | -76.51700 | 3.36971 |
Se identifican valores faltantes por variable y se eliminan los registros incompletos para crear la base viviendaSNA. Esto asegura que los análisis posteriores no se vean afectados.
Tabla 2. Base Vivienda - Filtro: Casa - Zona Norte
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| 4460 | Zona Norte | 02 | 4 | 625 | 355 | 3 | 5 | 5 | Casa | acopi | -76.53179 | 3.40590 |
Después de realizar el filtro correspondiente, se procede a validar la cantidad total para Casas en Zona Norte
Tabla 3. Frecuencia de Tipo y Zona de Vivienda
| Tipo | Frecuencia |
|---|---|
| Casa | 254 |
| Zona | Frecuencia |
|---|---|
| Zona Norte | 254 |
El summary() de base1 (Casas – Zona Norte) muestra que la base cuenta con 254 registros y que las variables numéricas presentan rangos amplios. Para las características del inmueble, se observan valores mínimos de 0 en banios y habitaciones, lo cual no es consistente con una vivienda habitable. Por esta razón, se decidió eliminar los registros con banios = 0 y habitaciones = 0 antes de continuar con el análisis, con el fin de evitar sesgos por errores de registro, quedando una base final de 250 registros.
Tabla 4. Summary inicial de base1 (Casas – Zona Norte)
## id zona piso estrato
## Min. : 94 Length:254 Length:254 Min. :3.00
## 1st Qu.:1258 Class :character Class :character 1st Qu.:4.00
## Median :2923 Mode :character Mode :character Median :5.00
## Mean :2927 Mean :4.52
## 3rd Qu.:4313 3rd Qu.:5.00
## Max. :7987 Max. :6.00
## preciom areaconst parqueaderos banios
## Min. : 89.0 Min. : 60.0 Min. : 1.00 Min. :0.000
## 1st Qu.: 350.0 1st Qu.: 196.5 1st Qu.: 1.00 1st Qu.:3.000
## Median : 450.0 Median : 275.5 Median : 2.00 Median :4.000
## Mean : 499.6 Mean : 305.9 Mean : 2.39 Mean :3.882
## 3rd Qu.: 600.0 3rd Qu.: 365.5 3rd Qu.: 3.00 3rd Qu.:5.000
## Max. :1600.0 Max. :1440.0 Max. :10.00 Max. :9.000
## habitaciones tipo barrio longitud
## Min. : 0.00 Length:254 Length:254 Min. :-76.55
## 1st Qu.: 4.00 Class :character Class :character 1st Qu.:-76.53
## Median : 4.00 Mode :character Mode :character Median :-76.52
## Mean : 4.87 Mean :-76.52
## 3rd Qu.: 5.75 3rd Qu.:-76.51
## Max. :10.00 Max. :-76.48
## latitud
## Min. :3.333
## 1st Qu.:3.464
## Median :3.475
## Mean :3.469
## 3rd Qu.:3.484
## Max. :3.493
Tabla 5. Summary final de base1 (Casas – Zona Norte)
## id zona piso estrato
## Min. : 94 Length:250 Length:250 Min. :3.000
## 1st Qu.:1258 Class :character Class :character 1st Qu.:4.000
## Median :2923 Mode :character Mode :character Median :5.000
## Mean :2914 Mean :4.516
## 3rd Qu.:4302 3rd Qu.:5.000
## Max. :7987 Max. :6.000
## preciom areaconst parqueaderos banios
## Min. : 89.0 Min. : 60.0 Min. : 1.000 Min. :1.000
## 1st Qu.: 350.0 1st Qu.: 193.0 1st Qu.: 1.000 1st Qu.:3.000
## Median : 450.0 Median : 275.5 Median : 2.000 Median :4.000
## Mean : 498.8 Mean : 305.2 Mean : 2.392 Mean :3.928
## 3rd Qu.: 600.0 3rd Qu.: 365.5 3rd Qu.: 3.000 3rd Qu.:5.000
## Max. :1600.0 Max. :1440.0 Max. :10.000 Max. :9.000
## habitaciones tipo barrio longitud
## Min. : 1.00 Length:250 Length:250 Min. :-76.55
## 1st Qu.: 4.00 Class :character Class :character 1st Qu.:-76.53
## Median : 4.00 Mode :character Mode :character Median :-76.52
## Mean : 4.92 Mean :-76.52
## 3rd Qu.: 5.75 3rd Qu.:-76.51
## Max. :10.00 Max. :-76.48
## latitud
## Min. :3.369
## 1st Qu.:3.464
## Median :3.475
## Mean :3.470
## 3rd Qu.:3.484
## Max. :3.493
Grafico 1. Mapa (longitud vs latitud)
En el mapa, la mayoría de puntos de base1 se concentra en el sector de la Zona Norte. Sin embargo, se observan algunos puntos más alejados del grupo principal, lo que podría deberse a registros con inconsistencias en la asignación de la zona o en las coordenadas.
Grafico 2. Matriz de correlación Precio vs Variables
Grafico 3. Precio vs Área construida
Grafico 4. Precio vs Estrato
Grafico 5. Precio vs Baños
Grafico 6. Precio vs Habitaciones
Grafico 7. Precio vs Parqueaderos
En la base de casas en Zona Norte, el precio (preciom) muestra una relación positiva con varias características físicas del inmueble. La asociación más fuerte se observa con el área construida (areaconst), con una correlación aproximada de 0.66, lo cual se confirma en el gráfico de dispersión (Gráfico 3) donde se aprecia una tendencia creciente a mayor área, mayor precio, aunque con dispersión por la influencia de otras variables. También se observa correlación moderada del precio con baños (0.51), estrato (0.48) y parqueaderos (0.42), ya que normalmente, inmuebles con más comodidades y en estratos más altos tienden a ser más costosos.
En el caso de habitaciones, la relación con el precio es más baja (0.37), lo que sugiere que el número de habitaciones por sí solo explica menos el precio. Los boxplots (Gráficos 4–6) refuerzan este patrón: el precio tiende a aumentar por niveles de estrato, baños y habitaciones, pero con presencia de valores atípicos (viviendas premium) y solapamiento entre grupos, indicando que el precio no depende de un solo factor sino de la combinación de varios.
Grafico 8. Asociación entre las variables cuantitativas
Este gráfico resume la relación entre las variables. En la diagonal se observa la distribución de cada variable; en la parte inferior aparecen los diagramas de dispersión; y en la parte superior se muestra el valor de la correlación. En este caso, el precio se asocia principalmente con el área construida (correlación 0.66) y de forma moderada con baños, estrato y parqueaderos, mientras que la relación con habitaciones es más baja. También se observa que baños y habitaciones están relativamente correlacionados, lo cual es lógico porque viviendas con más habitaciones suelen tener más baños. En conjunto, el gráfico confirma que el precio depende de varias características, siendo el área la más influyente.
Tabla 6. Summary modelo
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -734.28 -81.10 -16.88 47.90 932.30
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -234.76859 62.52796 -3.755 0.000217 ***
## areaconst 0.64853 0.06798 9.540 < 2e-16 ***
## estrato 82.22957 13.47879 6.101 4.11e-09 ***
## habitaciones 6.41855 7.57362 0.847 0.397554
## parqueaderos 28.41301 6.84712 4.150 4.60e-05 ***
## banios 16.46959 10.24860 1.607 0.109346
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 152.8 on 244 degrees of freedom
## Multiple R-squared: 0.591, Adjusted R-squared: 0.5826
## F-statistic: 70.51 on 5 and 244 DF, p-value: < 2.2e-16
Con el modelo estimado para casas en Zona Norte, se observa que el precio (en millones) está explicado principalmente por el área construida, el estrato y el número de parqueaderos, ya que estas variables son estadísticamente significativas (p-valor < 0.05) y tienen efecto positivo. En particular, manteniendo las demás variables constantes, por cada 1 unidad adicional de área construida el precio aumenta en promedio 0.65 millones, por cada incremento de 1 estrato el precio aumenta cerca de 82.23 millones, y por cada parqueadero adicional el precio aumenta alrededor de 28.41 millones. En cambio, habitaciones y baños no resultaron significativos (p-valores 0.398 y 0.109), lo que sugiere que su efecto sobre el precio ya está capturado indirectamente por variables como el área o el estrato, o que no aportan explicación adicional dentro de este grupo de casas.
El R² indica qué proporción de la variabilidad del precio es explicada por las variables incluidas en el modelo. En este caso, R² = 0.591 (R² ajustado = 0.583) indica que el modelo explica aproximadamente 59% de la variación del precio, lo cual es un ajuste moderado. Esto implica que el modelo es útil para obtener una estimación aproximada del precio en casas de Zona Norte, pero puede tener errores de predicción en viviendas atípicas o con características no incluidas.
Para mejorarlo, se podría incluir variables adicionales que capturen mejor la ubicación, explorar transformaciones como log(precio) o log(área) para reducir la influencia de valores extremos y mejorar la relación lineal, revisar y tratar outliers (casas muy costosas) que pueden afectar el ajuste, y probar interacciones o modelos alternativos.
Tabla 7. Summary modelo forward
## Step Df Deviance Resid. Df Resid. Dev AIC
## 1 NA NA 249 13919560 2733.836
## 2 + areaconst -1 6143950.9 248 7775609 2590.260
## 3 + estrato -1 1275881.0 247 6499728 2547.452
## 4 + parqueaderos -1 648375.5 246 5851352 2523.181
## 5 + banios -1 141165.9 245 5710186 2519.075
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios,
## data = base1c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -725.82 -83.62 -15.50 53.96 930.73
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -212.10925 56.49069 -3.755 0.000217 ***
## areaconst 0.66515 0.06505 10.225 < 2e-16 ***
## estrato 79.01247 12.92576 6.113 3.83e-09 ***
## parqueaderos 28.36133 6.84291 4.145 4.69e-05 ***
## banios 21.17962 8.60588 2.461 0.014543 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 152.7 on 245 degrees of freedom
## Multiple R-squared: 0.5898, Adjusted R-squared: 0.5831
## F-statistic: 88.06 on 4 and 245 DF, p-value: < 2.2e-16
El procedimiento stepwise forward seleccionó un modelo más simple para explicar el precio de las casas en Zona Norte, incorporando en orden área construida, estrato, parqueaderos y baños, y dejando por fuera habitaciones por no aportar mejora adicional según el criterio AIC. En el modelo final, todas las variables incluidas resultan significativas y con efecto positivo: a mayor área, estrato, parqueaderos y baños, mayor precio estimado. El ajuste del modelo se mantiene moderado (R² ≈ 0.59, R² ajustado ≈ 0.58), por lo que el modelo final resume adecuadamente la relación entre precio y características principales del inmueble con un conjunto reducido de variables.
Grafico 9. Validación de Residuos
Pruebas
Normalidad de residuos (Shapiro-Wilk)
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.87254, p-value = 1.368e-13
Homocedasticidad (Breusch-Pagan)
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 50.66, df = 5, p-value = 1.015e-09
Multicolinealidad (VIF)
## areaconst estrato habitaciones parqueaderos banios
## 1.431241 1.249164 1.859409 1.232838 2.109814
En la validación de supuestos del modelo se observa que no todos se cumplen completamente. En el gráfico Residuals vs Fitted y en Scale-Location se aprecia un patrón y un aumento de la dispersión de los residuos a medida que crecen los valores ajustados, lo cual sugiere heterocedasticidad; esto se confirma con la prueba de Breusch–Pagan (p-value = 1.015e-09). En el gráfico Q–Q los residuos se desvían de la línea teórica en las colas y la prueba de Shapiro–Wilk (p-value = 1.368e-13) indica que los residuos no siguen normalidad estricta, posiblemente por presencia de valores extremos. En cuanto a multicolinealidad, los valores VIF se encuentran alrededor de 1–2, por lo que no se evidencia un problema importante de correlación excesiva entre predictores. Finalmente, el gráfico de Residuals vs Leverage y la distancia de Cook señalan algunas observaciones potencialmente influyentes que conviene revisar.
Como sugerencias, se podría considerar una transformación del precio (log(precio)) o el uso de errores robustos para manejar la heterocedasticidad y justificar las observaciones extremas.
## [1] 31474.68
Grafico 10. Distribución del error MSE
Tabla 8. Bootstrap: coeficientes
| Coeficiente | Original | Media_Bootstrap | SD_Bootstrap |
|---|---|---|---|
| (Intercept) | -212.1092 | -197.4457 | 55.9576 |
| areaconst | 0.6651 | 0.7024 | 0.1785 |
| estrato | 79.0125 | 74.8519 | 15.8620 |
| parqueaderos | 28.3613 | 27.7283 | 7.6122 |
| banios | 21.1796 | 19.7380 | 11.0839 |
La validación simple muestra el error de predicción del modelo en datos no usados para estimarlo: el MSE obtenido (≈ 31.475) implica un RMSE cercano a 177 millones, es decir, el modelo puede equivocarse en el precio por un margen importante. Por su parte, el bootstrap indica que los coeficientes son estables (las medias bootstrap son cercanas a los coeficientes originales), lo que sugiere que la relación aprendida por el modelo no cambia drásticamente al re-muestrear los datos. En conjunto, el modelo es útil para orientar decisiones y priorizar opciones, pero por el tamaño del error no conviene usar un corte “radical” exactamente en 350 millones. Se recomienda trabajar con un rango alrededor del presupuesto (por ejemplo ±100 millones) y luego priorizar las ofertas más cercanas al límite, complementando con la revisión del precio real y características.
Tabla 9. Prediccion del precio para la Vivienda 1
| Caso | Prediccion_millones |
|---|---|
| Vivienda 1 (Estrato 4) | 307.69 |
| Vivienda 1 (Estrato 5) | 386.70 |
Tabla 10. Top 5 ofertas potenciales para Vivienda 1
| id | barrio | estrato | areaconst | parqueaderos | banios | habitaciones | preciom | precio_pred | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|---|
| 1222 | la merced | 4 | 216 | 2 | 2 | 4 | 360 | 346.69 | 3.48 | -76.51 |
| 4317 | el bosque | 4 | 250 | 1 | 3 | 4 | 485 | 362.13 | 3.49 | -76.53 |
| 1108 | la merced | 4 | 260 | 1 | 3 | 4 | 330 | 368.78 | 3.48 | -76.51 |
| 2266 | la merced | 4 | 225 | 2 | 3 | 4 | 430 | 373.86 | 3.48 | -76.52 |
| 1020 | la merced | 4 | 250 | 2 | 3 | 5 | 230 | 390.49 | 3.47 | -76.51 |
Grafico 11. Mapa (Vivienda 1)
Para la Vivienda 1, se filtraron las ofertas de casas en Zona Norte que cumplen con las características mínimas solicitadas y se priorizaron aquellas con precio predicho cercano al presupuesto de $350 MM (usando margen de $200 MM). Como resultado, se identificaron las principales 5 ofertas potenciales con predicciones entre aproximadamente $346 MM y $390 MM, lo que indica que, para este perfil de vivienda en Zona Norte, varias alternativas se ubican cerca del límite del crédito, aunque algunas lo superan ligeramente y deberían evaluarse con mayor detalle. En el mapa se observa que las ofertas seleccionaact2_p2_plot_baniosdas se ubican efectivamente en el sector norte de Cali, concentradas en barrios como La Merced, El Bosque y Vipasa, lo cual es consistente con el filtro aplicado y permite comparar opciones no solo por precio estimado, sino también por ubicación.
Tabla 2. Base Vivienda - Filtro: Apartamento - Zona Sur
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5098 | Zona Sur | 05 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| 698 | Zona Sur | 02 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| 6975 | Zona Sur | 06 | 4 | 220 | 75 | 1 | 2 | 3 | Apartamento | alférez real | -76.54627 | 3.39109 |
Después de realizar el filtro correspondiente, se procede a validar la cantidad total para Apartamento en Zona Sur
Tabla 3. Frecuencia de Tipo y Zona de Vivienda
| Tipo | Frecuencia |
|---|---|
| Apartamento | 1860 |
| Zona | Frecuencia |
|---|---|
| Zona Sur | 1860 |
El summary() de base2 (Apartamento - Zona Sur) muestra que la base cuenta con 1860 registros y que las variables numéricas presentan rangos amplios. Para las características del inmueble, se observan valores mínimos de 0 en habitaciones, lo cual no es consistente con una vivienda habitable. Por esta razón, se decidió eliminar los registros con habitaciones = 0 antes de continuar con el análisis, con el fin de evitar sesgos por errores de registro, quedando una base final de 1856 registros.
Tabla 4. Summary inicial de base2 (Apartamento - Zona Sur)
## id zona piso estrato
## Min. : 8 Length:1860 Length:1860 Min. :3.000
## 1st Qu.:2450 Class :character Class :character 1st Qu.:4.000
## Median :4209 Mode :character Mode :character Median :5.000
## Mean :4272 Mean :4.745
## 3rd Qu.:6008 3rd Qu.:5.000
## Max. :8299 Max. :6.000
## preciom areaconst parqueaderos banios
## Min. : 78.0 Min. : 40.0 Min. :1.000 Min. :1.000
## 1st Qu.: 210.0 1st Qu.: 71.0 1st Qu.:1.000 1st Qu.:2.000
## Median : 260.0 Median : 90.0 Median :1.000 Median :2.000
## Mean : 312.9 Mean :100.7 Mean :1.398 Mean :2.584
## 3rd Qu.: 350.0 3rd Qu.:112.0 3rd Qu.:2.000 3rd Qu.:3.000
## Max. :1750.0 Max. :932.0 Max. :4.000 Max. :7.000
## habitaciones tipo barrio longitud
## Min. :0.000 Length:1860 Length:1860 Min. :-76.56
## 1st Qu.:3.000 Class :character Class :character 1st Qu.:-76.54
## Median :3.000 Mode :character Mode :character Median :-76.53
## Mean :3.018 Mean :-76.53
## 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :6.000 Max. :-76.46
## latitud
## Min. :3.334
## 1st Qu.:3.370
## Median :3.383
## Mean :3.389
## 3rd Qu.:3.405
## Max. :3.497
Tabla 5. Summary final de base2 (Apartamento - Zona Sur)
## id zona piso estrato
## Min. : 8 Length:1856 Length:1856 Min. :3.000
## 1st Qu.:2450 Class :character Class :character 1st Qu.:4.000
## Median :4215 Mode :character Mode :character Median :5.000
## Mean :4275 Mean :4.745
## 3rd Qu.:6010 3rd Qu.:5.000
## Max. :8299 Max. :6.000
## preciom areaconst parqueaderos banios
## Min. : 78.0 Min. : 40.0 Min. :1.000 Min. :1.000
## 1st Qu.: 210.0 1st Qu.: 71.0 1st Qu.:1.000 1st Qu.:2.000
## Median : 260.0 Median : 90.0 Median :1.000 Median :2.000
## Mean : 312.9 Mean :100.7 Mean :1.398 Mean :2.584
## 3rd Qu.: 350.0 3rd Qu.:112.0 3rd Qu.:2.000 3rd Qu.:3.000
## Max. :1750.0 Max. :932.0 Max. :4.000 Max. :7.000
## habitaciones tipo barrio longitud
## Min. :1.000 Length:1856 Length:1856 Min. :-76.56
## 1st Qu.:3.000 Class :character Class :character 1st Qu.:-76.54
## Median :3.000 Mode :character Mode :character Median :-76.53
## Mean :3.025 Mean :-76.53
## 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :6.000 Max. :-76.46
## latitud
## Min. :3.334
## 1st Qu.:3.370
## Median :3.383
## Mean :3.389
## 3rd Qu.:3.405
## Max. :3.497
Grafico 1. Mapa (longitud vs latitud)
En el mapa, la mayoría de puntos de base2 se concentra en el sector de la Zona Sur. Sin embargo, se observan algunos puntos más alejados del grupo principal, lo que podría deberse a registros con inconsistencias en la asignación de la zona o en las coordenadas.
Grafico 2. Matriz de correlación Precio vs Variables
Grafico 3. Precio vs Área construida
Grafico 4. Precio vs Estrato
Grafico 5. Precio vs Baños
Grafico 6. Precio vs Habitaciones
Grafico 7. Precio vs Parqueaderos
En la base de Apartamentos en Zona Sur, el precio (preciom) muestra una relación positiva con varias características físicas del inmueble. La asociación más fuerte se observa con el área construida (areaconst), con una correlación aproximada de 0.72, lo cual se confirma en el gráfico de dispersión donde se aprecia una tendencia creciente a mayor área, mayor precio, aunque con dispersión por la influencia de otras variables. También se observa correlación alta del precio con baños (0.71), parqueaderos (0.71) y estrato (0.65), ya que normalmente, inmuebles con más comodidades y en estratos más altos tienden a ser más costosos.
En el caso de habitaciones, la relación con el precio es más baja (0.32), lo que sugiere que el número de habitaciones por sí solo explica menos el precio. Los boxplots refuerzan este patrón: el precio tiende a aumentar por niveles de estrato, baños y habitaciones, pero con presencia de valores atípicos (viviendas premium) y solapamiento entre grupos, indicando que el precio no depende de un solo factor sino de la combinación de varios.
Grafico 8. Asociación entre las variables cuantitativas
Este gráfico resume la relación entre las variables. En la diagonal se observa la distribución de cada variable; en la parte inferior aparecen los diagramas de dispersión; y en la parte superior se muestra el valor de la correlación. En este caso, el precio se asocia principalmente con el área construida (correlación 0.72), baños (0.71) y parqueaderos (0.71) y de forma moderada con estrato, mientras que la relación con habitaciones es más baja. En conjunto, el gráfico confirma que el precio depende de varias características, siendo el área la más influyente.
Tabla 6. Summary modelo
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1024.87 -41.67 -1.75 40.41 934.57
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -263.26223 17.30447 -15.21 < 2e-16 ***
## areaconst 1.21333 0.06108 19.87 < 2e-16 ***
## estrato 57.80658 3.47669 16.63 < 2e-16 ***
## habitaciones -19.54343 4.46245 -4.38 1.26e-05 ***
## parqueaderos 82.44926 5.07125 16.26 < 2e-16 ***
## banios 47.81685 3.89869 12.27 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 95.68 on 1850 degrees of freedom
## Multiple R-squared: 0.7365, Adjusted R-squared: 0.7358
## F-statistic: 1034 on 5 and 1850 DF, p-value: < 2.2e-16
Con el modelo estimado para Apartamentos en Zona Sur, se observa que el precio (en millones) está explicado principalmente por el área construida, el estrato, el número de parqueaderos y el número de baños, ya que estas variables son estadísticamente significativas (p-valor < 0.05) y tienen efecto positivo. En particular, manteniendo las demás variables constantes, por cada 1 unidad adicional de área construida el precio aumenta en promedio 1.21 millones, por cada incremento de 1 estrato el precio aumenta cerca de 57.81 millones, por cada parqueadero adicional el precio aumenta alrededor de 82.45 millones, y por cada baño adicional el precio aumenta aproximadamente 47.82 millones. En cambio, la variable habitaciones resulta significativa pero con efecto negativo (coeficiente -19.54), lo que sugiere que, controlando por área, estrato, parqueaderos y baños, aumentar el número de habitaciones se asocia con una disminución del precio; esto puede ocurrir porque, a igual área, más habitaciones implica habitaciones más pequeñas o una distribución distinta, y el mercado podría valorar más otros atributos.
El R² indica qué proporción de la variabilidad del precio es explicada por las variables incluidas en el modelo. En este caso, R² = 0.7365 (R² ajustado = 0.7358) indica que el modelo explica aproximadamente 74% de la variación del precio, lo cual refleja un buen ajuste para este segmento de apartamentos en Zona Sur. Esto implica que el modelo es útil para obtener una estimación del precio con mayor capacidad explicativa que en el caso anterior, aunque aún pueden existir errores de predicción en inmuebles atípicos o con características no incluidas.
Para mejorarlo, se podría incluir variables adicionales que capturen mejor la ubicación (por ejemplo barrio o coordenadas), explorar transformaciones como log(precio) o log(área) para reducir la influencia de valores extremos, revisar outliers que puedan afectar el ajuste, y evaluar posibles interacciones (por ejemplo, área × estrato) o especificaciones alternativas si se sospecha que los efectos cambian según el nivel socioeconómico.
Tabla 7. Summary modelo forward
## Step Df Deviance Resid. Df Resid. Dev AIC
## 1 NA NA 1855 64262805 19401.49
## 2 + areaconst -1 33646175.1 1854 30616630 18027.38
## 3 + estrato -1 8290965.9 1853 22325664 17443.25
## 4 + parqueaderos -1 4011337.2 1852 18314327 17077.66
## 5 + banios -1 1203466.9 1851 17110860 16953.51
## 6 + habitaciones -1 175580.1 1850 16935280 16936.36
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios +
## habitaciones, data = base2c)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1024.87 -41.67 -1.75 40.41 934.57
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -263.26223 17.30447 -15.21 < 2e-16 ***
## areaconst 1.21333 0.06108 19.87 < 2e-16 ***
## estrato 57.80658 3.47669 16.63 < 2e-16 ***
## parqueaderos 82.44926 5.07125 16.26 < 2e-16 ***
## banios 47.81685 3.89869 12.27 < 2e-16 ***
## habitaciones -19.54343 4.46245 -4.38 1.26e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 95.68 on 1850 degrees of freedom
## Multiple R-squared: 0.7365, Adjusted R-squared: 0.7358
## F-statistic: 1034 on 5 and 1850 DF, p-value: < 2.2e-16
El procedimiento stepwise forward seleccionó un modelo para explicar el precio de los apartamentos en Zona Sur incorporando las variables área construida, estrato, parqueaderos, baños y habitaciones, manteniendo todas dentro del modelo final. En la estimación resultante, todas las variables incluidas son estadísticamente significativas; el efecto es positivo para área, estrato, parqueaderos y baños, mientras que habitaciones presenta un efecto negativo una vez se controla por las demás variables. El ajuste del modelo es alto (R² ≈ 0.74, R² ajustado ≈ 0.74), lo que indica que este modelo explica una proporción importante de la variación del precio en este segmento y ofrece una base sólida para realizar predicciones.
Grafico 9. Validación de Residuos
Pruebas
Normalidad de residuos (Shapiro-Wilk)
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.7789, p-value < 2.2e-16
Homocedasticidad (Breusch-Pagan)
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 648.02, df = 5, p-value < 2.2e-16
Multicolinealidad (VIF)
## areaconst estrato habitaciones parqueaderos banios
## 1.930039 1.569255 1.415838 1.867543 2.585076
En la validación de supuestos del modelo para apartamentos en Zona Sur se observa que no todos se cumplen completamente. En los gráficos Residuals vs Fitted y Scale-Location se evidencia un patrón y un incremento de la dispersión de los residuos a medida que aumentan los valores ajustados, lo que sugiere heterocedasticidad; esto se confirma con la prueba de Breusch–Pagan (p-value < 2.2e-16). En el gráfico Q–Q los residuos se apartan de la línea teórica en las colas y la prueba de Shapiro–Wilk (W = 0.7789, p-value < 2.2e-16) indica que los residuos no siguen normalidad estricta, probablemente por la presencia de valores extremos. En cuanto a multicolinealidad, los valores VIF se mantienen en un rango bajo (aprox. 1.4 a 2.6), por lo que no se evidencia un problema crítico entre predictores. Finalmente, el gráfico de Residuals vs Leverage sugiere la existencia de algunas observaciones potencialmente influyentes que conviene revisar.
Como sugerencias, se podría considerar transformar la variable respuesta (log(precio)) o utilizar errores robustos para manejar la heterocedasticidad, y revisar las observaciones extremas para validar que correspondan a inmuebles atípicos reales y no a errores de registro.
## [1] 8820.499
Grafico 10. Distribución del error MSE
Tabla 8. Bootstrap: coeficientes
| Coeficiente | Original | Media_Bootstrap | SD_Bootstrap |
|---|---|---|---|
| (Intercept) | -310.5296 | -308.5498 | 13.7886 |
| areaconst | 1.1798 | 1.2849 | 0.4022 |
| estrato | 59.2515 | 58.7888 | 3.7630 |
| parqueaderos | 83.8650 | 80.8470 | 11.8403 |
| banios | 41.1200 | 38.8008 | 9.7661 |
La validación simple para el caso de apartamentos en Zona Sur arrojó un MSE = 8820.499, lo que equivale a un RMSE ≈ 94 millones (error típico de predicción). Esto indica que el modelo tiene un desempeño predictivo mejor que el del caso de casas, aunque aún puede presentar diferencias relevantes en inmuebles atípicos. Por su parte, el bootstrap muestra que los coeficientes son estables, ya que las medias bootstrap son cercanas a los valores originales y los sesgos son pequeños, lo que sugiere que el modelo es consistente ante remuestreos. En conjunto, el modelo es útil para orientar y priorizar ofertas, pero debido al margen de error es recomendable no usar un corte completamente rígido con el presupuesto, sino trabajar con un rango alrededor del valor del crédito y luego priorizar las opciones más cercanas, complementando con la revisión del precio real y las características del inmueble.
Tabla 9. Prediccion del precio para la Vivienda 2
| Caso | Prediccion_millones |
|---|---|
| Vivienda 2 (Estrato 5) | 531.12 |
| Vivienda 2 (Estrato 6) | 610.13 |
Tabla 10. Top 5 ofertas potenciales para Vivienda 2
| id | barrio | estrato | areaconst | parqueaderos | banios | habitaciones | preciom | precio_pred | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|---|
| 4394 | el ingenio | 5 | 486.00 | 2 | 4 | 4 | 690 | 647.65 | 3.38 | -76.53 |
| 6073 | multicentro | 5 | 251.00 | 4 | 5 | 4 | 1250 | 569.25 | 3.38 | -76.54 |
| 7658 | cuarto de legua | 5 | 320.00 | 2 | 4 | 4 | 520 | 537.24 | 3.41 | -76.55 |
| 5306 | ciudadela pasoancho | 5 | 275.00 | 2 | 5 | 5 | 650 | 528.49 | 3.39 | -76.54 |
| 8113 | cuarto de legua | 5 | 295.55 | 2 | 4 | 4 | 410 | 520.98 | 3.41 | -76.56 |
Grafico 11. Mapa (Vivienda 2)
Para la Vivienda 2, se filtraron las ofertas de apartamentos en Zona Sur que cumplen con las características mínimas solicitadas (estrato 5–6, área construida, parqueaderos, baños y habitaciones) y se priorizaron aquellas con precio predicho cercano al presupuesto de $850 millones, usando un margen de $400 millones para no ser demasiado restrictivos considerando el error del modelo. La predicción del modelo para la Vivienda 2 se ubicó alrededor de $531 millones (estrato 5) y $610 millones (estrato 6), lo que sugiere que, bajo las variables del modelo, el precio esperado estaría por debajo del crédito preaprobado. Con el filtro aplicado se identificaron 5 ofertas potenciales con precios predichos aproximadamente entre $521 y $648 millones, ubicadas en barrios como El Ingenio, Multicentro, Cuarto de Legua y Ciudadela Pasoancho; estas alternativas se encuentran dentro del rango considerado y pueden evaluarse como opciones viables, complementando la decisión con la revisión del precio real, la ubicación y el estado del inmueble.
En este trabajo se desarrolló un enfoque de modelación para apoyar la toma de decisiones en la compra de vivienda, construyendo modelos de regresión para casas en Zona Norte y apartamentos en Zona Sur. En ambos casos, el área construida y el estrato resultaron determinantes del precio, junto con variables de dotación como parqueaderos y baños. Los modelos permitieron estimar precios para las dos solicitudes: para Vivienda 1 la predicción quedó cercana al presupuesto (308–387 millones según estrato), mientras que para Vivienda 2 las predicciones fueron inferiores al crédito disponible (531–610 millones). La validación mostró que los modelos son útiles para orientar la selección de ofertas, aunque presentan supuestos no completamente cumplidos y un margen de error que hace recomendable trabajar con rangos de precio en lugar de cortes rígidos. Finalmente, se identificaron ofertas potenciales y se ubicaron en mapas, facilitando una recomendación práctica basada en precio estimado, características y ubicación.