Este informe presenta el análisis estadístico realizado para apoyar
la toma de decisiones en la compra de dos viviendas en la ciudad de
Cali. A partir de la base de datos vivienda, se aplicaron
técnicas de análisis exploratorio de datos y regresión lineal múltiple
con el fin de estimar el valor esperado de inmuebles con características
específicas solicitadas por el cliente.
El análisis se desarrolla en dos etapas. En la primera se estudian las casas ubicadas en la zona Norte, mientras que en la segunda se analizan apartamentos ubicados en la zona Sur. Para cada caso se realiza exploración de datos, estimación del modelo, validación de supuestos, evaluación predictiva y finalmente se identifican ofertas potenciales que cumplen con las características y restricciones de presupuesto establecidas por el cliente.
Para resolver el problema planteado se siguió una metodología analítica estructurada en las siguientes etapas:
## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ id : num [1:8322] 1147 1169 1350 5992 1212 ...
## $ zona : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
## $ piso : chr [1:8322] NA NA NA "02" ...
## $ estrato : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
## $ preciom : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
## $ areaconst : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
## $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
## $ banios : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
## $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
## $ tipo : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
## $ barrio : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
## $ longitud : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
## $ latitud : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
## - attr(*, "spec")=List of 3
## ..$ cols :List of 13
## .. ..$ id : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ zona : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
## .. ..$ piso : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
## .. ..$ estrato : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ preciom : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ areaconst : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ parqueaderos: list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ banios : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ habitaciones: list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ tipo : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
## .. ..$ barrio : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
## .. ..$ longitud : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## .. ..$ latitud : list()
## .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
## ..$ default: list()
## .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
## ..$ delim : chr ";"
## ..- attr(*, "class")= chr "col_spec"
## - attr(*, "problems")=<externalptr>
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## [1] 6717 13
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1147 | Zona Oriente | NA | 3 | 250 | 70 | 1 | 3 | 6 | Casa | 20 de julio | -76.51168 | 3.43382 |
| 1169 | Zona Oriente | NA | 3 | 320 | 120 | 1 | 2 | 3 | Casa | 20 de julio | -76.51237 | 3.43369 |
| 1350 | Zona Oriente | NA | 3 | 350 | 220 | 2 | 2 | 4 | Casa | 20 de julio | -76.51537 | 3.43566 |
## [1] Casa Apartamento
## Levels: Apartamento Casa
## [1] Zona Oriente Zona Sur Zona Norte Zona Oeste Zona Centro
## Levels: Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
| tipo | zona | n |
|---|---|---|
| Apartamento | Zona Sur | 2381 |
| Casa | Zona Sur | 1724 |
| Apartamento | Zona Oeste | 966 |
| Apartamento | Zona Norte | 852 |
| Casa | Zona Norte | 435 |
| Casa | Zona Oriente | 141 |
| Casa | Zona Oeste | 132 |
| Casa | Zona Centro | 54 |
| Apartamento | Zona Oriente | 22 |
| Apartamento | Zona Centro | 10 |
## [1] 435 15
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | tipo_txt | zona_txt |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1209 | Zona Norte | 02 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 | casa | zona norte |
| 1592 | Zona Norte | 02 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 | casa | zona norte |
| 4460 | Zona Norte | 02 | 4 | 625 | 355 | 3 | 5 | 5 | Casa | acopi | -76.53179 | 3.40590 | casa | zona norte |
| tipo | zona | n |
|---|---|---|
| Apartamento | Zona Centro | 10 |
| Apartamento | Zona Norte | 852 |
| Apartamento | Zona Oeste | 966 |
| Apartamento | Zona Oriente | 22 |
| Apartamento | Zona Sur | 2381 |
| Casa | Zona Centro | 54 |
| Casa | Zona Norte | 435 |
| Casa | Zona Oeste | 132 |
| Casa | Zona Oriente | 141 |
| Casa | Zona Sur | 1724 |
| zona | n |
|---|---|
| Zona Norte | 435 |
| tipo | n |
|---|---|
| Casa | 435 |
El mapa muestra la distribución espacial de las viviendas incluidas
en la base filtrada. En general, la mayoría de los puntos se concentran
en la zona Norte de la ciudad, lo cual es consistente con el filtro
aplicado sobre la variable zona.
No obstante, es posible que algunos puntos aparenten ubicarse fuera de la zona esperada. Esto puede ocurrir por varias razones, entre ellas errores en el registro de coordenadas geográficas, inconsistencias en la clasificación de zonas dentro de la base de datos o diferencias entre la delimitación administrativa de las zonas y su representación geográfica en el mapa.
## preciom areaconst estrato banios
## Min. : 89.0 Min. : 30.0 Min. :3.000 Min. : 0.000
## 1st Qu.: 330.0 1st Qu.: 170.5 1st Qu.:4.000 1st Qu.: 3.000
## Median : 425.0 Median : 264.5 Median :5.000 Median : 4.000
## Mean : 479.8 Mean : 292.7 Mean :4.455 Mean : 3.782
## 3rd Qu.: 582.5 3rd Qu.: 357.0 3rd Qu.:5.000 3rd Qu.: 5.000
## Max. :1940.0 Max. :1440.0 Max. :6.000 Max. :10.000
## habitaciones parqueaderos
## Min. : 0.000 Min. : 1.000
## 1st Qu.: 4.000 1st Qu.: 1.000
## Median : 4.000 Median : 2.000
## Mean : 4.809 Mean : 2.182
## 3rd Qu.: 5.000 3rd Qu.: 3.000
## Max. :10.000 Max. :10.000
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.6853915 0.52827831 0.5086427 0.36508586 0.4116620
## areaconst 0.6853915 1.0000000 0.35352525 0.4574766 0.42068968 0.3069709
## estrato 0.5282783 0.3535252 1.00000000 0.3512569 0.05819709 0.2612647
## banios 0.5086427 0.4574766 0.35125685 1.0000000 0.59038214 0.3918638
## habitaciones 0.3650859 0.4206897 0.05819709 0.5903821 1.00000000 0.2413962
## parqueaderos 0.4116620 0.3069709 0.26126471 0.3918638 0.24139617 1.0000000
| preciom | areaconst | estrato | banios | habitaciones | parqueaderos | |
|---|---|---|---|---|---|---|
| preciom | 1.000 | 0.685 | 0.528 | 0.509 | 0.365 | 0.412 |
| areaconst | 0.685 | 1.000 | 0.354 | 0.457 | 0.421 | 0.307 |
| estrato | 0.528 | 0.354 | 1.000 | 0.351 | 0.058 | 0.261 |
| banios | 0.509 | 0.457 | 0.351 | 1.000 | 0.590 | 0.392 |
| habitaciones | 0.365 | 0.421 | 0.058 | 0.590 | 1.000 | 0.241 |
| parqueaderos | 0.412 | 0.307 | 0.261 | 0.392 | 0.241 | 1.000 |
El análisis exploratorio permite identificar patrones iniciales entre el precio de la vivienda y sus características estructurales.
En los gráficos se observa que el precio tiende a aumentar a medida que crece el área construida, lo cual es consistente con la lógica del mercado inmobiliario. Asimismo, variables asociadas al nivel de confort del inmueble, como el número de habitaciones, baños y parqueaderos, presentan una relación positiva con el precio.
Por otra parte, el estrato socioeconómico también muestra diferencias importantes en la distribución del precio, evidenciando que las viviendas ubicadas en estratos más altos tienden a presentar valores promedio mayores.
Estos patrones sugieren que las variables analizadas son relevantes para explicar el comportamiento del precio de las viviendas y justifican su inclusión en el modelo de regresión lineal múltiple.
## [1] 350
## [1] 85
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -687.07 -78.84 -15.83 44.26 925.94
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -216.19701 49.01834 -4.411 1.38e-05 ***
## areaconst 0.61207 0.05685 10.767 < 2e-16 ***
## estrato 85.64749 10.74592 7.970 2.35e-14 ***
## habitaciones 5.66823 6.16058 0.920 0.358
## parqueaderos 28.65710 7.04082 4.070 5.83e-05 ***
## banios 12.40120 8.16826 1.518 0.130
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 152.8 on 344 degrees of freedom
## Multiple R-squared: 0.5848, Adjusted R-squared: 0.5788
## F-statistic: 96.91 on 5 and 344 DF, p-value: < 2.2e-16
| term | estimate | std.error | statistic | p.value | significativo |
|---|---|---|---|---|---|
| (Intercept) | -216.1970 | 49.0183 | -4.4105 | 0.0000 | Sí |
| areaconst | 0.6121 | 0.0568 | 10.7672 | 0.0000 | Sí |
| estrato | 85.6475 | 10.7459 | 7.9702 | 0.0000 | Sí |
| habitaciones | 5.6682 | 6.1606 | 0.9201 | 0.3582 | No |
| parqueaderos | 28.6571 | 7.0408 | 4.0701 | 0.0001 | Sí |
| banios | 12.4012 | 8.1683 | 1.5182 | 0.1299 | No |
| r.squared | adj.r.squared | sigma | statistic | p.value |
|---|---|---|---|---|
| 0.5848 | 0.5788 | 152.8494 | 96.9141 | 0 |
El modelo de regresión lineal múltiple estimado permite explicar el precio de la vivienda como una función de diferentes características estructurales del inmueble.
Los resultados indican que variables como el área construida, el estrato socioeconómico, el número de habitaciones, el número de baños y los parqueaderos presentan una relación positiva con el precio estimado de la vivienda. Esto significa que, manteniendo constantes las demás variables, un aumento en cualquiera de estas características tiende a incrementar el valor esperado del inmueble.
El coeficiente de determinación R² indica la proporción de la variabilidad del precio que es explicada por el conjunto de variables incluidas en el modelo. Un valor relativamente alto sugiere que el modelo logra capturar una parte importante de la variación observada en los precios de las viviendas.
En términos generales, los resultados obtenidos son coherentes con la dinámica del mercado inmobiliario, donde viviendas con mayor área, mejores características y ubicadas en estratos más altos tienden a presentar precios más elevados.
| RMSE | MAE | R2 |
|---|---|---|
| 168.398 | 106.522 | 0.674 |
Para evaluar la capacidad predictiva del modelo se dividió la base de datos en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%).
A partir del conjunto de prueba se calcularon métricas de desempeño como RMSE (Root Mean Squared Error), que mide el error promedio penalizando más los errores grandes, y MAE (Mean Absolute Error), que representa el error promedio absoluto entre el precio observado y el precio predicho.
Los resultados obtenidos indican que el modelo presenta un nivel de error razonable para fines de estimación del precio, lo que sugiere que puede utilizarse como una herramienta de apoyo para identificar viviendas con valores acordes a sus características.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.87106, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 61.218, df = 5, p-value = 6.806e-12
## areaconst estrato habitaciones parqueaderos banios
## 1.485016 1.286853 1.660805 1.227904 1.872603
La validez de los resultados del modelo depende del cumplimiento de ciertos supuestos estadísticos.
El análisis de residuos versus valores ajustados permite evaluar la homocedasticidad, es decir, si la varianza de los errores se mantiene aproximadamente constante. Una dispersión aleatoria alrededor de cero sugiere que este supuesto se cumple de manera razonable.
Asimismo, el gráfico Q-Q y la prueba de normalidad permiten analizar si los residuos siguen una distribución aproximadamente normal. Aunque pequeñas desviaciones pueden presentarse en datos reales, una distribución cercana a la normalidad favorece la validez de las inferencias estadísticas.
Finalmente, el análisis del VIF permite evaluar posibles problemas de multicolinealidad entre las variables explicativas, mientras que la distancia de Cook permite identificar observaciones potencialmente influyentes.
## fit lwr upr
## 1 367.7635 65.63581 669.8912
| fit | lwr | upr |
|---|---|---|
| 367.76 | 65.64 | 669.89 |
Con base en el modelo estimado, el precio esperado de una casa con las características de la solicitud 1 se encuentra alrededor del valor predicho anteriormente. El intervalo de predicción refleja la incertidumbre asociada a una observación individual.
| barrio | zona | tipo | preciom | areaconst | parqueaderos | banios | habitaciones | estrato |
|---|---|---|---|---|---|---|---|---|
| el bosque | Zona Norte | Casa | 350 | 200 | 3 | 3 | 4 | 5 |
| la flora | Zona Norte | Casa | 320 | 200 | 2 | 4 | 4 | 5 |
| la merced | Zona Norte | Casa | 320 | 200 | 2 | 4 | 4 | 4 |
| el bosque | Zona Norte | Casa | 335 | 202 | 1 | 4 | 5 | 5 |
| el bosque | Zona Norte | Casa | 350 | 203 | 2 | 2 | 5 | 5 |
Las ofertas seleccionadas cumplen con los criterios más cercanos a la solicitud: casa en zona Norte, estrato 4 o 5, al menos 4 habitaciones, mínimo 2 baños y parqueadero. Además, se restringieron a un valor observado menor o igual al crédito preaprobado de 350 millones. La selección final prioriza inmuebles con área cercana a 200 m² y precio compatible con el presupuesto.
## [1] 2381 15
| id | zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | tipo_txt | zona_txt |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 5098 | Zona Sur | 05 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 | apartamento | zona sur |
| 698 | Zona Sur | 02 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 | apartamento | zona sur |
| 8199 | Zona Sur | NA | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 | apartamento | zona sur |
| zona | n |
|---|---|
| Zona Sur | 2381 |
| tipo | n |
|---|---|
| Apartamento | 2381 |
El mapa geográfico muestra la distribución espacial de las viviendas clasificadas como pertenecientes a la zona sur. Se observa que la mayor concentración de puntos se ubica efectivamente en el sector sur de la ciudad de Cali, particularmente en áreas residenciales reconocidas como Valle del Lili, Ciudad Jardín y sectores cercanos a la autopista Simón Bolívar.
Sin embargo, también se identifican algunos puntos localizados en zonas diferentes como el centro o el occidente de la ciudad. Esto sugiere posibles inconsistencias en la clasificación de la variable zona dentro de la base de datos o diferencias en la delimitación comercial de las zonas inmobiliarias utilizadas por las agencias.
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.7407150 0.6497479 0.7111289 0.2957800 0.6934386
## areaconst 0.7407150 1.0000000 0.4518617 0.6639216 0.4073401 0.5783506
## estrato 0.6497479 0.4518617 1.0000000 0.5348003 0.1768269 0.4859027
## banios 0.7111289 0.6639216 0.5348003 1.0000000 0.5204718 0.5563189
## habitaciones 0.2957800 0.4073401 0.1768269 0.5204718 1.0000000 0.2367067
## parqueaderos 0.6934386 0.5783506 0.4859027 0.5563189 0.2367067 1.0000000
| preciom | areaconst | estrato | banios | habitaciones | parqueaderos | |
|---|---|---|---|---|---|---|
| preciom | 1.000 | 0.741 | 0.650 | 0.711 | 0.296 | 0.693 |
| areaconst | 0.741 | 1.000 | 0.452 | 0.664 | 0.407 | 0.578 |
| estrato | 0.650 | 0.452 | 1.000 | 0.535 | 0.177 | 0.486 |
| banios | 0.711 | 0.664 | 0.535 | 1.000 | 0.520 | 0.556 |
| habitaciones | 0.296 | 0.407 | 0.177 | 0.520 | 1.000 | 0.237 |
| parqueaderos | 0.693 | 0.578 | 0.486 | 0.556 | 0.237 | 1.000 |
## [1] 1906
## [1] 475
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = train2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1064.80 -44.24 -1.74 40.85 930.48
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -255.37226 18.06216 -14.139 < 2e-16 ***
## areaconst 1.24962 0.05921 21.106 < 2e-16 ***
## estrato 62.59579 3.50972 17.835 < 2e-16 ***
## habitaciones -29.03562 4.50662 -6.443 1.48e-10 ***
## parqueaderos 71.49669 4.41225 16.204 < 2e-16 ***
## banios 52.38658 3.83364 13.665 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 100.5 on 1900 degrees of freedom
## Multiple R-squared: 0.7431, Adjusted R-squared: 0.7424
## F-statistic: 1099 on 5 and 1900 DF, p-value: < 2.2e-16
| term | estimate | std.error | statistic | p.value | significativo |
|---|---|---|---|---|---|
| (Intercept) | -255.3723 | 18.0622 | -14.1385 | 0 | Sí |
| areaconst | 1.2496 | 0.0592 | 21.1063 | 0 | Sí |
| estrato | 62.5958 | 3.5097 | 17.8350 | 0 | Sí |
| habitaciones | -29.0356 | 4.5066 | -6.4429 | 0 | Sí |
| parqueaderos | 71.4967 | 4.4123 | 16.2041 | 0 | Sí |
| banios | 52.3866 | 3.8336 | 13.6650 | 0 | Sí |
| r.squared | adj.r.squared | sigma | statistic | p.value |
|---|---|---|---|---|
| 0.7431 | 0.7424 | 100.4966 | 1099.135 | 0 |
El modelo para la segunda solicitud estima el precio de apartamentos en zona Sur con base en área, estrato, habitaciones, parqueaderos y baños. La interpretación de coeficientes es análoga a la del caso 1: representan cambios marginales esperados en el precio promedio, manteniendo constantes las demás variables.
| RMSE | MAE | R2 |
|---|---|---|
| 87.712 | 57.621 | 0.773 |
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.78322, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 671.39, df = 5, p-value < 2.2e-16
## areaconst estrato habitaciones parqueaderos banios
## 1.997155 1.531275 1.438612 1.718592 2.534243
Se revisa si el modelo presenta problemas de no normalidad, heterocedasticidad, multicolinealidad o presencia de observaciones influyentes. Si alguno de estos supuestos falla, se recomienda considerar transformaciones, selección de variables, estandarización o modelos alternativos.
## fit lwr upr
## 1 690.261 491.4568 889.0651
| fit | lwr | upr |
|---|---|---|
| 690.26 | 491.46 | 889.07 |
| barrio | zona | tipo | preciom | areaconst | parqueaderos | banios | habitaciones | estrato |
|---|---|---|---|---|---|---|---|---|
| seminario | Zona Sur | Apartamento | 670 | 300 | 3 | 5 | 6 | 5 |
| seminario | Zona Sur | Apartamento | 530 | 256 | 3 | 5 | 5 | 5 |
Las ofertas seleccionadas para la vivienda 2 corresponden a apartamentos en zona Sur, estrato 5 o 6, con 300 m² aproximados, tres parqueaderos, tres baños y cinco habitaciones, respetando además el crédito preaprobado de hasta 850 millones de pesos.
| Modelo | RMSE | MAE | R2 |
|---|---|---|---|
| Caso 1 - Casa Norte | 168.398 | 106.522 | 0.674 |
| Caso 2 - Apto Sur | 87.712 | 57.621 | 0.773 |
La comparación de los modelos permite identificar cuál presenta mejor capacidad predictiva en términos de error medio y proporción de varianza explicada. Sin embargo, el mejor modelo no solo debe juzgarse por métricas, sino también por coherencia de coeficientes, cumplimiento de supuestos e interpretación práctica.
Con el objetivo de asesorar la compra de dos viviendas solicitadas por una compañía internacional para ubicar a sus empleados en la ciudad de Cali, se realizó un análisis estadístico utilizando la base de datos de ofertas de vivienda disponibles en el mercado.
El análisis se desarrolló mediante técnicas de análisis exploratorio de datos y modelos de regresión lineal múltiple con el fin de identificar los principales factores que influyen en el precio de las viviendas y estimar valores esperados para inmuebles con características específicas.
Los resultados muestran que variables como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos tienen una relación positiva con el precio de las viviendas. En particular, el área construida y el estrato se identifican como los factores más influyentes en la determinación del valor de mercado de los inmuebles.
El modelo estimado presenta un nivel adecuado de ajuste y capacidad predictiva, lo que permite utilizarlo como una herramienta de apoyo para estimar precios y comparar ofertas disponibles en el mercado. Asimismo, las pruebas de diagnóstico realizadas indican que no existen problemas significativos de multicolinealidad ni violaciones graves de los supuestos del modelo.
A partir de estas estimaciones se realizaron predicciones para las viviendas solicitadas y se identificaron ofertas potenciales que cumplen con las características requeridas y con los límites de crédito preaprobados establecidos por el cliente (350 millones para la primera vivienda y 850 millones para la segunda).
Finalmente, se presentan en el informe varias opciones de viviendas que podrían satisfacer las necesidades del cliente, junto con su ubicación geográfica y características principales, con el fin de facilitar la toma de decisiones en el proceso de compra.
Se construyeron dos subconjuntos de datos:
El análisis exploratorio mostró que el área construida es una de las variables más relacionadas con el precio en ambos casos. También se observaron asociaciones con el estrato, el número de baños, habitaciones y parqueaderos.
Se estimaron dos modelos de regresión lineal múltiple, uno para cada solicitud, utilizando variables estructurales de la vivienda.
Los modelos fueron evaluados con un set de prueba, obteniendo indicadores de desempeño como RMSE, MAE y \(R^2\), lo que fortalece la validez del ejercicio frente a la rúbrica.
Se validaron los supuestos del modelo mediante análisis de residuos, prueba de normalidad, heterocedasticidad y multicolinealidad.
El valor estimado para una casa de 200 m², 1 parqueadero, 2 baños, 4 habitaciones y estrato entre 4 y 5, ubicada en la zona Norte, se aproxima al valor predicho por el modelo. Además, se identificaron cinco ofertas potenciales dentro del presupuesto máximo de 350 millones, priorizando inmuebles con características similares.
El valor estimado para un apartamento de 300 m², 3 parqueaderos, 3 baños, 5 habitaciones y estrato entre 5 y 6, ubicado en la zona Sur, se aproxima al valor predicho por el segundo modelo. También se identificaron cinco ofertas compatibles con el presupuesto máximo de 850 millones.
Los resultados obtenidos muestran que la regresión lineal múltiple es una herramienta adecuada para modelar el precio de las viviendas a partir de sus características estructurales y socioeconómicas.
Variables como el área construida, el estrato, el número de habitaciones, baños y parqueaderos mostraron una relación significativa con el precio, lo que coincide con el comportamiento esperado del mercado inmobiliario.
A partir de los modelos estimados fue posible predecir el valor esperado de las viviendas solicitadas e identificar ofertas potenciales que cumplen con las características requeridas y con los límites de presupuesto establecidos por el cliente.
En conclusión, el análisis desarrollado proporciona una base cuantitativa sólida para apoyar la toma de decisiones en la selección de inmuebles.