Informe estadístico de sobre requerimiento para oferta inmobiliaria - Empresa C&A

1. Introducción.

El presente informe, construido a partir de la muestra consolidada por la empresa inmobiliaria C&A (contenida en el paquete “paqueteMODELOS” de R) respecto a ubicaciones, precios y características de viviendas en la ciudad de Cali, provee un análisis predictivo inicial en función de los parámetros provistos en la solicitud para oferta de viviendas que origina este ejercicio, de tal forma que los resultados y discusiones obtenidos puedan servir como un insumo inicial para la determinación de ofertas específicas de viviendas de acuerdo a los criterios planteados por el cliente.

Así, este documento hace uso de técnicas fundamentales de preparación, análisis predictivo y visualización de datos, así como de la revisión de indicadores de centralidad y dispersión, y métricas para la validación estadística de los resultados obtenidos.

La siguiente sección presenta el objetivo general y objetivos específicos de este trabajo, la tercera sección realiza una descripción del paso a paso del trabajo realizado de acuerdo a la guía planteada para el primer caso de la solicitud. La cuarta sección presenta el paso a paso de acuerdo a los parámetros de segundo caso de la solicitud. La quinta sección finaliza el informe con conclusiones y recomendaciones.

2. Objetivos

2.1 Objetivo general.

Realizar un ejercicio práctico de predicción del comportamiento del mercado inmobiliario de la ciudad de Cali en función de las variables del data set provisto y los parámetros especificados en la solicitud del cliente, la cual pueda ser un insumo inicial para la determinación de una oferta concreta y digerible por parte de la firma inmobiliaria.

2.2 Objetivos específicos.

  • Realizar un proceso de limpieza y preparación de datos con la mejor retención posible de información fiable del data frame.

  • Construir un ejercicio de modelación predictiva de los precios de las viviendas en la ciudad de cali de acuerdo a sus atributos de mayor relevancia.

  • Proveer una predicción del comportamiento de los precios de las viviendas en función de los parámetros en las solicitudes del cliente.

  • Generar recomendaciones en función de los resultados obtenidos.

3. Ejercicio de modelación predictiva

El ejercicio de modelación a realizar consistirá en la sucesión de pasos planteados para el caso de estudio en función de las dos solicitudes realizadas por el cliente en cuanto a los parámetros y disponibilidad presupuestal para la compra de vivienda, de tal forma que los pasos a materializar en cada caso parten de la segmentación del dataset vivienda de acuerdo a los criterios de zonificación y tipo de vivienda, para así emplear un ejercicio predictivo en función de un modelo de regresión lineal múltiple (RLM), sobre el cual se puedan extraer predicciones puntuales del precio de las viviendas solicitadas en función de los atributos requeridos.

3.1 Caso 1: Viviendas tipo Casa ubicadas en la Zona Norte de Cali.

3.1.1 Filtración del dataset y visualización espacial inicial.

La primera solicitud a atender por parte de la empresa inicia con la filtración del dataset vivienda, teniendo en cuenta sólo las observaciones tipo Casa y etiquetadas como pertenecientes a la Zona Norte de la ciudad. A continuación, se presentan algunas tablas resumen con respecto al dataset filtrado, renombrado como base_1.

##        id             zona               piso              estrato     
##  Min.   :  58.0   Length:722         Length:722         Min.   :3.000  
##  1st Qu.: 766.2   Class :character   Class :character   1st Qu.:3.000  
##  Median :2257.0   Mode  :character   Mode  :character   Median :4.000  
##  Mean   :2574.6                                         Mean   :4.202  
##  3rd Qu.:4225.0                                         3rd Qu.:5.000  
##  Max.   :8319.0                                         Max.   :6.000  
##                                                                        
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  89.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 390.0   Median : 240.0   Median : 2.000   Median : 3.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   : 2.182   Mean   : 3.555  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.: 3.000   3rd Qu.: 4.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :10.000   Max.   :10.000  
##                                    NA's   :287                      
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:722         Length:722         Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.53  
##  Median : 4.000   Mode  :character   Mode  :character   Median :-76.52  
##  Mean   : 4.507                                         Mean   :-76.52  
##  3rd Qu.: 5.000                                         3rd Qu.:-76.50  
##  Max.   :10.000                                         Max.   :-76.47  
##                                                                         
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.452  
##  Median :3.468  
##  Mean   :3.460  
##  3rd Qu.:3.482  
##  Max.   :3.496  
## 
## base1 
## 
##  13  Variables      722  Observations
## --------------------------------------------------------------------------------
## id 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0      722        1     2575     2232    206.2    343.3 
##      .25      .50      .75      .90      .95 
##    766.2   2257.0   4225.0   5242.3   6135.1 
## 
## lowest :   58   88   94   98  103, highest: 7885 7987 8088 8318 8319
## --------------------------------------------------------------------------------
## zona 
##          n    missing   distinct      value 
##        722          0          1 Zona Norte 
##                      
## Value      Zona Norte
## Frequency         722
## Proportion          1
## --------------------------------------------------------------------------------
## piso 
##        n  missing distinct 
##      350      372        5 
##                                         
## Value          1     2     3     4     7
## Frequency     84   194    65     6     1
## Proportion 0.240 0.554 0.186 0.017 0.003
## --------------------------------------------------------------------------------
## estrato 
##        n  missing distinct     Info     Mean      Gmd 
##      722        0        4    0.901    4.202    1.077 
##                                   
## Value          3     4     5     6
## Frequency    235   161   271    55
## Proportion 0.325 0.223 0.375 0.076
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## preciom 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0      167        1    445.9    275.4    145.0    167.1 
##      .25      .50      .75      .90      .95 
##    261.2    390.0    550.0    780.0    928.5 
## 
## lowest :   89  110  115  117  118, highest: 1530 1600 1650 1800 1940
## --------------------------------------------------------------------------------
## areaconst 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0      251        1    264.9    172.1     75.0     93.1 
##      .25      .50      .75      .90      .95 
##    140.0    240.0    336.8    454.9    535.4 
## 
## lowest :   30   45   55   60   61, highest:  942  950  960 1188 1440
## --------------------------------------------------------------------------------
## parqueaderos 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      435      287       10    0.899    2.182    1.372        1        1 
##      .25      .50      .75      .90      .95 
##        1        2        3        4        5 
##                                                                       
## Value          1     2     3     4     5     6     7     8     9    10
## Frequency    161   158    49    40    11     8     5     1     1     1
## Proportion 0.370 0.363 0.113 0.092 0.025 0.018 0.011 0.002 0.002 0.002
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## banios 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0       11    0.954    3.555     1.65        2        2 
##      .25      .50      .75      .90      .95 
##        2        3        4        5        6 
##                                                                             
## Value          0     1     2     3     4     5     6     7     8     9    10
## Frequency     10    17   165   187   171   101    46    11    11     1     2
## Proportion 0.014 0.024 0.229 0.259 0.237 0.140 0.064 0.015 0.015 0.001 0.003
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## habitaciones 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0       11     0.95    4.507    1.922        3        3 
##      .25      .50      .75      .90      .95 
##        3        4        5        7        8 
##                                                                             
## Value          0     1     2     3     4     5     6     7     8     9    10
## Frequency     20     2    12   171   222   137    60    42    29    14    13
## Proportion 0.028 0.003 0.017 0.237 0.307 0.190 0.083 0.058 0.040 0.019 0.018
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## tipo 
##        n  missing distinct    value 
##      722        0        1     Casa 
##                
## Value      Casa
## Frequency   722
## Proportion    1
## --------------------------------------------------------------------------------
## barrio 
##        n  missing distinct 
##      722        0      103 
## 
## lowest : acopi              alameda del río    alamos             atanasio girardot  barranquilla      
## highest: villas de veracruz Villas De Veracruz vipasa             zona norte         zona oriente      
## --------------------------------------------------------------------------------
## longitud 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0      464        1   -76.52  0.01892   -76.54   -76.54 
##      .25      .50      .75      .90      .95 
##   -76.53   -76.52   -76.50   -76.49   -76.49 
## 
## lowest : -76.5892 -76.5888 -76.555  -76.5536 -76.5529
## highest: -76.483  -76.4827 -76.4824 -76.482  -76.473 
## --------------------------------------------------------------------------------
## latitud 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      722        0      462        1     3.46  0.03112    3.386    3.413 
##      .25      .50      .75      .90      .95 
##    3.452    3.468    3.482    3.487    3.489 
## 
## lowest : 3.33308 3.33656 3.34102 3.34994 3.35133
## highest: 3.49341 3.49374 3.49453 3.49461 3.49584
## --------------------------------------------------------------------------------

De igual forma, es posible visualizar la muestra obtenida al graficar sus observaciones en el mapa de la ciudad de Cali:

Nótese que la filtración del dataset tomó como criterio de zonificación la etiqueta provista por el atributo zona, el cual parece ser incongruente con los atributos de localización geográfica provistos por las variables latitud y longitud, de tal forma que las viviendas consideradas, si bien se muestran ubicadas alrededor del norte de la ciudad, denotan alta dispersión por toda la ciudad. Este problema fue explorado en la actividad 1, tomando como referencia espacial las coordenadas geográficas para el análisis. Sin embargo, es pertinente justificar el empleo de filtros al dataset en función de zona, en tanto la imprecisión en la etiqueta de zonificación, o posibles desfases en las coordenadas geográficas implican una situación ambigua que se decide superar al apegarse a la guía planteada para la actividad 2. Nótese además que la centralidad alrededor de la zona norte en las observaciones del dataset hace de este problema de ambiguedad menos grave.

3.1.2 Limpieza, preparación de datos y análisis de correlación entre los atributos.

Así, se procede con la limpieza y preparación del dataset base1 de manera análoga a como ésta se hizo en la actividad 1: se descarta la variable pisos debido a la confusión en su interpretación, y se eliminan las observaciones con NA’s debido a su baja proporción con respecto a las variables completas del dataset. A continuación, se presentan algunas observaciones ejemplo del dataset resultante, y un summary con sus indicadores descriptivos.

##        id           zona              estrato         preciom      
##  Min.   :  94   Length:435         Min.   :3.000   Min.   :  89.0  
##  1st Qu.:1114   Class :character   1st Qu.:4.000   1st Qu.: 330.0  
##  Median :2759   Mode  :character   Median :5.000   Median : 425.0  
##  Mean   :2725                      Mean   :4.455   Mean   : 479.8  
##  3rd Qu.:4268                      3rd Qu.:5.000   3rd Qu.: 582.5  
##  Max.   :8319                      Max.   :6.000   Max.   :1940.0  
##    areaconst       parqueaderos        banios        habitaciones   
##  Min.   :  30.0   Min.   : 1.000   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 170.5   1st Qu.: 1.000   1st Qu.: 3.000   1st Qu.: 4.000  
##  Median : 264.5   Median : 2.000   Median : 4.000   Median : 4.000  
##  Mean   : 292.7   Mean   : 2.182   Mean   : 3.782   Mean   : 4.809  
##  3rd Qu.: 357.0   3rd Qu.: 3.000   3rd Qu.: 5.000   3rd Qu.: 5.000  
##  Max.   :1440.0   Max.   :10.000   Max.   :10.000   Max.   :10.000  
##      tipo              barrio             longitud         latitud     
##  Length:435         Length:435         Min.   :-76.59   Min.   :3.333  
##  Class :character   Class :character   1st Qu.:-76.53   1st Qu.:3.462  
##  Mode  :character   Mode  :character   Median :-76.52   Median :3.473  
##                                        Mean   :-76.52   Mean   :3.468  
##                                        3rd Qu.:-76.51   3rd Qu.:3.483  
##                                        Max.   :-76.48   Max.   :3.496

Pasando a la fase exploratoria de la modelación, se procede con el análisis de correlación en función del gráfico interactivo de matriz de plotly.

## 
## Attaching package: 'plotly'
## The following object is masked from 'package:Hmisc':
## 
##     subplot
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

Al realizar un enfoque en el comportamiento de correlación entre los precios de las viviendas preciom y los atributos predictores del dataset, se puede obtener una idea previa de cómo éstos pueden determinar el comportamiento de la variable a predecir desde su alta correlación lineal.

Estas son las correlaciones más altas altas con respecto al precio: el área construida de las viviendas presenta una correlación de 0,685, así como una correlación de 0,5086 con la cantidad de baños, y una correlación de 0,4116 con respecto a la cantidad de parqueaderos.

Nótese que la correlación con la cantidad de habitaciones es relativamente baja (0,36), además, no es posible fijar una correlación fiable con las variables de localización geográfica, en tanto sus magnitudes no son simétricas. El análisis de correlación con la variable estrato no puede realizarse desde la matriz provista, en tanto se trata de una variable categórica. Para este propósito, se emplea un conjunto de diagramas de caja, los cuales muestran el comportamiento de la distribución de precios de las viviendas en función de cata estrato considerado:

De esta manera, puede apreciarse claramente una relación directamente proporcional entre el estrato de las viviendas y su precio, este es un resultado previo acorde al contexto del análisis inmobiliario. Así, la correlación alta y positiva entre los atributos del dataset y el comportamiento de los precios, da un indicio de cómo estos pueden funcionar de forma eficiente como variables exógenas de un modelo predictivo.

3.1.3 Estimación de modelo de regresión múltiple.

Dado el análisis exploratorio realizado, se procede al planteamiento del modelo predictivo a emplear, el cual tiene la siguiente definición:

\[preciom_i = {\beta}_o + {\beta}_1areaconst_i + {\beta}_2habitaciones_i + {\beta}_3parqueaderos_i + {\beta}_4banios_i + {\alpha}_1E4_i + {\alpha}_2E5_i + {\alpha}_3E6_i + {\epsilon}_i\]

Donde tomamos la definición estándar de un RLM para preciom en función de los atributos numéricos areaconst, habitaciones, parqueaderos, banios; y las instancias categóricas de la variables estrato, E4 (estrato 4), E5 (estrato 5), E6 (estrato 6), de tal forma que la estimación toma como caso base el estrato 3 y determina interceptos diferenciales en función de las dummies correspondientes a los estratos 4, 5 y 6.

A continuación, se presenta el summary de la estimación realizada:

## 
## Call:
## lm(formula = preciom ~ areaconst + habitaciones + parqueaderos + 
##     banios + factor(estrato), data = base1_clean)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -790.71  -74.72  -18.93   46.54  991.70 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       11.71883   27.15751   0.432  0.66631    
## areaconst          0.68098    0.05283  12.890  < 2e-16 ***
## habitaciones       7.17906    5.69802   1.260  0.20839    
## parqueaderos      24.22922    5.86635   4.130 4.36e-05 ***
## banios            18.09024    7.62857   2.371  0.01816 *  
## factor(estrato)4  80.91006   24.55085   3.296  0.00106 ** 
## factor(estrato)5 147.53872   22.70871   6.497 2.29e-10 ***
## factor(estrato)6 281.68942   37.33161   7.546 2.74e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 154.9 on 427 degrees of freedom
## Multiple R-squared:  0.607,  Adjusted R-squared:  0.6006 
## F-statistic: 94.24 on 7 and 427 DF,  p-value: < 2.2e-16

Y se realizan las interpretaciones correspondientes a los coeficientes obtenidos:

  • Se obtiene un intercepto ue describe el valor medio de las viviendas en aproximadamente 11 millones de pesos, este coeficiente carece de valor práctico real, en tanto su nivel de significancia estadística se halla en la región de la hipótesis nula.

  • El coeficiente para areaconst estima un incremento promedio de aproximadamente $680.000 por cada metro cuadrado adicional en área construida de la vivienda, y cuenta con un alto nivel de significancia estadística, cerca al 0%.

  • El coeficiente para habitaciones estima un incremento promedio de aproximadamente $7 millones por cada habitación adicional de la vivienda, sin embargo, cuenta con un nivel de significancia estadística descartable, en tanto se halla inmerso en la región correspondiente a la hipótesis nula.

  • El coeficiente para parqueaderos estima un incremento promedio de aproximadamente $24 millones por cada parqueadero adicional de la vivienda, y cuenta con un alto nivel de significancia estadística, cerca al 0%.

  • El coeficiente para banios estima un incremento promedio de aproximadamente $18 millones por cada baño adicional de la vivienda, y cuenta con un alto nivel de significancia estadística, 1%.

  • En cuanto al efecto del estrato en las viviendas, se tiene que el valor promedio del precio total de las viviendas incrementa en aproximadamente $80 millones al pertenecer al estrato 4, en aproximadamente $147 millones al pertenecer al estrato 5, y en aproximadamente $281 millones al pertenecer al estrato 6. Contando con niveles sanos de significancia, en tanto las variables dummy para los estratos 5 y 6 poseen coeficientes con máxima significancia, y la variable dummy para el estrato 4 posee un nivel de significancia sobre el 0,1%.

En general, los resultados hallados se muestran congruentes con el contexto del mercado inmobiliario de la ciudad, en tanto establecen una clara relación directamente proporcional entre la mejoría en los distintos atributos considerados para las viviendas y su correspondiente precio. La relación de mayor congruencia que puede hallarse, notablemente, es el incremento exponencial del precio de las viviendas al ascender entre estratos socioeconómicos.

Finalmente, las medidas de bondad de ajuste R2 y R2 ajustado determinan que el modelo estimado explica aproximadamente el 60% de la variabilidad en los datos, lo cual se muestra como una bondad de ajuste suficiente, pero por debajo del comportamiento de un buen ajuste en el caso de datos de corte transversal (70%), esto puede indicar que es necesario aplicar algunas mejorías al modelo planteado, así como resaltar la necesidad de validar su grado de ajuste. Este ejercicio se realiza a continuación.

Se procede a particionar el dataset en conjuntos de training (60% de los datos) y test (40%) de los datos, de tal forma que se aplica el mismo modelo planteado sobre el conjunto de training, y se contrastan sus predicciones con los valores de preciom del conjunto de test, con el fin de obtener la métrica de ajuste Root Mean Squared Error (RMSE), la cual determina el grado de error en las predicciones realizadas en las mismas unidades de preciom. Las salidas mostradas a continuación presentan el summary del modelo sobre los datos de training y el valor de RMSE obtenido al contrastar con el conjunto de test.

## 
## Call:
## lm(formula = preciom ~ areaconst + habitaciones + parqueaderos + 
##     banios + factor(estrato), data = base1_clean, subset = train1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -604.42  -72.74  -13.17   39.25  927.65 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       46.33881   35.21530   1.316   0.1894    
## areaconst          0.77061    0.07186  10.724  < 2e-16 ***
## habitaciones       4.40962    7.34328   0.600   0.5487    
## parqueaderos      16.42643    7.22239   2.274   0.0238 *  
## banios            11.04915   10.20136   1.083   0.2798    
## factor(estrato)4  77.65531   30.17194   2.574   0.0106 *  
## factor(estrato)5 134.12921   28.96792   4.630 5.84e-06 ***
## factor(estrato)6 308.27274   48.19528   6.396 7.64e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.4 on 253 degrees of freedom
## Multiple R-squared:  0.5989, Adjusted R-squared:  0.5878 
## F-statistic: 53.96 on 7 and 253 DF,  p-value: < 2.2e-16
## RMSE Modelo 1: 161.8123

Como puede observarse, la aplicación del modelo sobre los datos de training arroja magnitudes similares en los coeficientes, así como expresa la relación directamente proporcional entre el precio de la vivienda y los atributos considerados. Si bien denota discrepancias relevantes con los valores de los coeficientes originales, es posible afirmar que la estructura en el modelo de training es congruente con el modelo original. En cuanto a la métrica RMSE, se puede interpretar como que el error medio en las predicciones del modelo se halla en torno a los $161 millones, este alto nivel de variabilidad en las predicciones evoca signos de la necesidad de realizar cambios al modelo con el fin de obtener predicciones más exactas.

3.1.4 Validación de supuestos del modelo.

El nivel de ajuste del modelo y la alta variabilidad en sus predicciones arrojan la sospecha de posibles inconsistencias en cuanto al cumplimiento de los supuestos fundamentales del modelo de regresión lineal múltiple. La siguiente salida denota las pruebas de hipótesis para la validación de los supuestos: el test Shapiro-Wilk para la normalidad en los residuales, el test de Goldfeld-Quandt para evaluar homocedasticidad, y el test Durbin-Watson para evaluar autocorrelación en los errores.

## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  Goldfeld-Quandt test
## 
## data:  modelo1
## GQ = 2.256, df1 = 210, df2 = 209, p-value = 3.298e-09
## alternative hypothesis: variance increases from segment 1 to 2
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals1
## W = 0.8487, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo1
## DW = 1.79, p-value = 0.01124
## alternative hypothesis: true autocorrelation is greater than 0

En cuanto la normalidad en los errores, el test de Shapiro-Wilk ubica el resultado sobre la hipotesis alternativa, por lo cual no se puede afirmar que se cumple el supuesto de normalidad en los residuales.

En cuanto a homocedasticidad, el test GQ determina que la varianza no es homogénea a través de las observaciones, rompiendo el supuesto de constancia en la misma.

En cuanto al test Durbin-Watson, si bien el resultado se halla sobre el valor de 1% de probabilidad, se sigue teniendo un resultado donde hay presencia de autocorrelación de errores.

Las sospechas mencionadas a raíz de la alta variabilidad hallada en el análisis de ajuste son congruentes con el análisis de validación de los supuestos del RLM, en tanto no es posible afirmar que se cumple ninguno de los 3. Este resultado implica que es necesario realizar modificaciones en la estructura funcional del modelo. A continuación, se presentan algunas sugerencias.

  • Eliminar o transformar algunas variables exógenas del modelo, en tanto la alta variabilidad en el ajuste de las predicciones, y los resultados observados en la matriz de correlación, pueden inferir la presencia de multicolinealidad.

  • Agrupar los datos en función de clusteres de mayor homogeneidad, en tanto la presencia de heterocedasticidad en el modelo puede verse relacionada con la presencia de outliers, como pudo apreciarse en la actividad 1 y los diagramas de caja por estrato vistos anteriormente.

  • Revisar la idoneidad del RLM para este ejercicio, en tanto puede ser necesario el uso de modelos o métodos de mayor sofisticación, los cuales vayan más allá de las relaciones lineales entre los datos.

3.1.5 Predicciones.

En función del modelo estimado, se procede a la fijación de predicciones en los precios de las viviendas en función de los parámetros de la solicitud del cliente. La salida mostrada a continuación muestra los parámetros de los atributos requeridos por el cliente, en conjunto con los intervalos de predicción que emergen del modelo realizado (diferenciándose entre los estratos 4 y 5).

##   areaconst habitaciones parqueaderos banios estrato
## 1       200            4            1      2       4
##   areaconst habitaciones parqueaderos banios estrato
## 1       200            4            1      2       5
##        fit      lwr      upr
## 1 317.9507 11.07692 624.8244
##        fit    lwr      upr
## 1 384.5793 78.334 690.8247

Así, se tiene que el precio de las viviendas bajo las especificaciones del cliente se halla en un promedio aproximado de $318 millones en el caso del estrato 4, y de $384 millones en el caso del estrato 5. Esta cifra se muestra congruente con el contexto del mercado inmobiliario, sin embargo, es importante resaltar la altísima amplitud en los límites de los intervalos de predicción, los cuales pueden hallarse estrechamente relacionados con los problemas revelados anteriormente en el modelo estimado.

3.1.6 Ofertas disponibles bajo el nivel de precios estimado.

Dados los resultados obtenidos, se toma como referencia el presupuesto disponible en la solicitud y la información provista por el intervalo de predicción para generar un filtro con las ofertas disponibles en función de este nivel de precios. De tal forma que es posible tomar las ofertas potenciales, ubicarlas en un nuevo dataset, y plasmarlas en un mapa de la ciudad de Cali. A continuación, se presenta el mapa resultante y una vista previa de la lista de ofertas potenciales obtenidas.

## # A tibble: 63 × 12
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  3779 Zona …       4     350        98            2      3            4 Casa 
##  2  4210 Zona …       5     350       200            3      3            4 Casa 
##  3  4209 Zona …       5     350       300            3      5            6 Casa 
##  4  4422 Zona …       5     350       240            2      3            6 Casa 
##  5  1270 Zona …       5     350       203            2      2            5 Casa 
##  6   819 Zona …       5     350       264            2      3            4 Casa 
##  7  3060 Zona …       5     350       110            1      4            3 Casa 
##  8   459 Zona …       5     350       160            2      3            3 Casa 
##  9  1352 Zona …       5     350       190            1      3            3 Casa 
## 10  1491 Zona …       5     350       140            2      3            2 Casa 
## # ℹ 53 more rows
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

De entre las ofertas obtenidas, es posible mencionar las siguientes viviendas puntuales, las cuales destacan por poseer características similares o mejores a las de la solicitud del cliente y se ubican al límite del presupuesto planteado (para una revisión específica de todas la ofertas disponibles a este nivel de precios, revisar los anexos):

  • ID 4210, precio de 350 millones, área de 200 m2, 3 parqueaderos, 3 baños, 4 habitaciones, estrato 5, barrio el bosque.

  • ID 3779, precio de 350 millones, área de 98 m2, 2 parqueaderos, 3 baños, 4 habitaciones, estrato 4, barrio chipichape.

  • ID 4209, precio de 350 millones, área de 300 m2, 3 parqueaderos, 5 baños, 6 habitaciones, estrato 5, barrio el bosque.

  • ID 4422, precio de 350 millones, área de 240 m2, 2 parqueaderos, 3 baños, 6 habitaciones, estrato 5, barrio el bosque.

  • ID 1270, precio de 350 millones, área de 203 m2, 2 parqueaderos, 2 baños, 5 habitaciones, estrato 5, barrio el bosque.

3.2 Caso 2: Viviendas tipo Apartamento ubicadas en la zona sur.

Por practicidad, para el siguiente caso se procede a mencionar los resultados obtenidos, en tanto la descripción de la metodología fue cubierta en el caso 1.

3.2.1 Filtración del dataset y visualización espacial inicial.

Dataset base_2.

##        id           zona               piso              estrato    
##  Min.   :   3   Length:2787        Length:2787        Min.   :3.00  
##  1st Qu.:2292   Class :character   Class :character   1st Qu.:4.00  
##  Median :4004   Mode  :character   Mode  :character   Median :5.00  
##  Mean   :4131                                         Mean   :4.63  
##  3rd Qu.:5876                                         3rd Qu.:5.00  
##  Max.   :8302                                         Max.   :6.00  
##                                                                     
##     preciom         areaconst       parqueaderos        banios     
##  Min.   :  75.0   Min.   : 40.00   Min.   : 1.000   Min.   :0.000  
##  1st Qu.: 175.0   1st Qu.: 65.00   1st Qu.: 1.000   1st Qu.:2.000  
##  Median : 245.0   Median : 85.00   Median : 1.000   Median :2.000  
##  Mean   : 297.3   Mean   : 97.47   Mean   : 1.415   Mean   :2.488  
##  3rd Qu.: 335.0   3rd Qu.:110.00   3rd Qu.: 2.000   3rd Qu.:3.000  
##  Max.   :1750.0   Max.   :932.00   Max.   :10.000   Max.   :8.000  
##                                    NA's   :406                     
##   habitaciones       tipo              barrio             longitud     
##  Min.   :0.000   Length:2787        Length:2787        Min.   :-76.57  
##  1st Qu.:3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :2.966                                         Mean   :-76.53  
##  3rd Qu.:3.000                                         3rd Qu.:-76.52  
##  Max.   :6.000                                         Max.   :-76.46  
##                                                                        
##     latitud     
##  Min.   :3.334  
##  1st Qu.:3.370  
##  Median :3.383  
##  Mean   :3.390  
##  3rd Qu.:3.406  
##  Max.   :3.497  
## 
## base2 
## 
##  13  Variables      2787  Observations
## --------------------------------------------------------------------------------
## id 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     2787        0     2787        1     4131     2437    968.5   1518.4 
##      .25      .50      .75      .90      .95 
##   2291.5   4004.0   5876.0   7086.4   7667.5 
## 
## lowest :    3    4    8    9   10, highest: 8288 8293 8294 8299 8302
## --------------------------------------------------------------------------------
## zona 
##        n  missing distinct    value 
##     2787        0        1 Zona Sur 
##                    
## Value      Zona Sur
## Frequency      2787
## Proportion        1
## --------------------------------------------------------------------------------
## piso 
##        n  missing distinct 
##     2165      622       12 
##                                                                             
## Value          1     2     3     4     5     6     7     8     9    10    11
## Frequency    255   319   329   327   353   131   113   129    73    73    29
## Proportion 0.118 0.147 0.152 0.151 0.163 0.061 0.052 0.060 0.034 0.034 0.013
##                 
## Value         12
## Frequency     34
## Proportion 0.016
## --------------------------------------------------------------------------------
## estrato 
##        n  missing distinct     Info     Mean      Gmd 
##     2787        0        4    0.884     4.63   0.9081 
##                                   
## Value          3     4     5     6
## Frequency    201  1091  1033   462
## Proportion 0.072 0.391 0.371 0.166
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## preciom 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     2787        0      344        1    297.3    179.7    125.0    140.0 
##      .25      .50      .75      .90      .95 
##    175.0    245.0    335.0    554.0    683.5 
## 
## lowest :   75   78   83   85   87, highest: 1580 1590 1600 1700 1750
## --------------------------------------------------------------------------------
## areaconst 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     2787        0      276    0.999    97.47    46.07       55       58 
##      .25      .50      .75      .90      .95 
##       65       85      110      150      187 
## 
## lowest :  40  43  44  45  46, highest: 520 573 600 605 932
## --------------------------------------------------------------------------------
## parqueaderos 
##        n  missing distinct     Info     Mean      Gmd 
##     2381      406        5    0.696    1.415   0.5815 
##                                         
## Value          1     2     3     4    10
## Frequency   1551   718    79    31     2
## Proportion 0.651 0.302 0.033 0.013 0.001
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## banios 
##        n  missing distinct     Info     Mean      Gmd 
##     2787        0        9    0.801    2.488   0.9163 
##                                                                 
## Value          0     1     2     3     4     5     6     7     8
## Frequency      6   167  1588   662   229   123    10     1     1
## Proportion 0.002 0.060 0.570 0.238 0.082 0.044 0.004 0.000 0.000
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## habitaciones 
##        n  missing distinct     Info     Mean      Gmd 
##     2787        0        7    0.675    2.966   0.5824 
##                                                     
## Value          0     1     2     3     4     5     6
## Frequency      8    19   463  1902   366    24     5
## Proportion 0.003 0.007 0.166 0.682 0.131 0.009 0.002
## 
## For the frequency table, variable is rounded to the nearest 0
## --------------------------------------------------------------------------------
## tipo 
##           n     missing    distinct       value 
##        2787           0           1 Apartamento 
##                       
## Value      Apartamento
## Frequency         2787
## Proportion           1
## --------------------------------------------------------------------------------
## barrio 
##        n  missing distinct 
##     2787        0      141 
## 
## lowest : acopi          aguablanca     aguacatal      alameda        alférez real 
## highest: Valle Del Lili versalles      villa del sur  vipasa         zona sur      
## --------------------------------------------------------------------------------
## longitud 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     2787        0     1191        1   -76.53  0.01567   -76.55   -76.55 
##      .25      .50      .75      .90      .95 
##   -76.54   -76.53   -76.52   -76.52   -76.51 
## 
## lowest : -76.5653 -76.565  -76.5649 -76.5648 -76.564 
## highest: -76.4652 -76.465  -76.4648 -76.4644 -76.464 
## --------------------------------------------------------------------------------
## latitud 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     2787        0     1390        1     3.39  0.03172    3.348    3.360 
##      .25      .50      .75      .90      .95 
##    3.370    3.383    3.406    3.431    3.450 
## 
## lowest : 3.33367 3.33418 3.33448 3.33498 3.335  
## highest: 3.48383 3.4854  3.48941 3.492   3.49684
## --------------------------------------------------------------------------------

Mapa de viviendas pertenecientes a la muestra de base_2

3.2.2 Limpieza, preparación de datos y análisis de correlación entre los atributos.

Limpieza de datos y dataset final.

##        id           zona              estrato         preciom      
##  Min.   :   4   Length:2381        Min.   :3.000   Min.   :  78.0  
##  1st Qu.:2485   Class :character   1st Qu.:4.000   1st Qu.: 205.0  
##  Median :4170   Mode  :character   Median :5.000   Median : 260.0  
##  Mean   :4269                      Mean   :4.748   Mean   : 318.2  
##  3rd Qu.:6008                      3rd Qu.:5.000   3rd Qu.: 350.0  
##  Max.   :8299                      Max.   :6.000   Max.   :1750.0  
##    areaconst      parqueaderos        banios       habitaciones  
##  Min.   : 40.0   Min.   : 1.000   Min.   :0.000   Min.   :0.000  
##  1st Qu.: 71.0   1st Qu.: 1.000   1st Qu.:2.000   1st Qu.:3.000  
##  Median : 90.0   Median : 1.000   Median :2.000   Median :3.000  
##  Mean   :102.2   Mean   : 1.415   Mean   :2.588   Mean   :3.016  
##  3rd Qu.:113.0   3rd Qu.: 2.000   3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :932.0   Max.   :10.000   Max.   :8.000   Max.   :6.000  
##      tipo              barrio             longitud         latitud     
##  Length:2381        Length:2381        Min.   :-76.56   Min.   :3.334  
##  Class :character   Class :character   1st Qu.:-76.54   1st Qu.:3.370  
##  Mode  :character   Mode  :character   Median :-76.53   Median :3.382  
##                                        Mean   :-76.53   Mean   :3.388  
##                                        3rd Qu.:-76.52   3rd Qu.:3.405  
##                                        Max.   :-76.46   Max.   :3.497

Análisis de correlación.

Al realizar un enfoque en el comportamiento de correlación entre los precios de las viviendas preciom y los atributos predictores del dataset, se puede obtener una idea previa de cómo éstos pueden determinar el comportamiento de la variable a predecir desde su alta correlación lineal.

Estas son las correlaciones más altas altas con respecto al precio: el área construida de las viviendas presenta una correlación de 0,74, así como una correlación de 0,71 con la cantidad de baños, y una correlación de 0,69 con respecto a la cantidad de parqueaderos.

Nótese que la correlación con la cantidad de habitaciones es relativamente baja (0,29), además, no es posible fijar una correlación fiable con las variables de localización geográfica, en tanto sus magnitudes no son simétricas. El análisis de correlación con la variable estrato no puede realizarse desde la matriz provista, en tanto se trata de una variable categórica. Para este propósito, se emplea un conjunto de diagramas de caja, los cuales muestran el comportamiento de la distribución de precios de las viviendas en función de cata estrato considerado:

De esta manera, puede apreciarse claramente una relación directamente proporcional entre el estrato de las viviendas y su precio, este es un resultado previo acorde al contexto del análisis inmobiliario. Así, la correlación alta y positiva entre los atributos del dataset y el comportamiento de los precios, da un indicio de cómo estos pueden funcionar de forma eficiente como variables exógenas de un modelo predictivo.

3.2.3 Estimación de modelo de regresión múltiple.

modelo:

\[preciom_i = {\beta}_o + {\beta}_1areaconst_i + {\beta}_2habitaciones_i + {\beta}_3parqueaderos_i + {\beta}_4banios_i + {\alpha}_1E4_i + {\alpha}_2E5_i + {\alpha}_3E6_i + {\epsilon}_i\]

## 
## Call:
## lm(formula = preciom ~ areaconst + habitaciones + parqueaderos + 
##     banios + factor(estrato), data = base2_clean)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1058.69   -39.21     0.38    36.96   898.14 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -28.38462   12.93336  -2.195  0.02828 *  
## areaconst          1.28595    0.05105  25.189  < 2e-16 ***
## habitaciones     -17.10675    3.70357  -4.619 4.06e-06 ***
## parqueaderos      62.13696    3.79229  16.385  < 2e-16 ***
## banios            41.95467    3.24893  12.913  < 2e-16 ***
## factor(estrato)4  30.40026    9.55717   3.181  0.00149 ** 
## factor(estrato)5  50.88889    9.61940   5.290 1.33e-07 ***
## factor(estrato)6 204.40443   11.17300  18.294  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 92.52 on 2373 degrees of freedom
## Multiple R-squared:  0.7762, Adjusted R-squared:  0.7755 
## F-statistic:  1175 on 7 and 2373 DF,  p-value: < 2.2e-16

Coeficientes e interpretaciones:

  • Se obtiene un intercepto ue describe el valor medio de las viviendas en aproximadamente -28 millones de pesos, este coeficiente carece de valor práctico real, sin embargo, su nivel alto de sigificancia denota una posible inconsistencia en la forma funcional elegida para el modelo.

  • El coeficiente para areaconst estima un incremento promedio de aproximadamente $1,2 millones por cada metro cuadrado adicional en área construida de la vivienda, y cuenta con un alto nivel de significancia estadística, cerca al 0%.

  • El coeficiente para habitaciones estima una disminución promedio de aproximadamente $17 millones por cada habitación adicional de la vivienda, y cuenta con un nivel de significancia estadística al 0%. Esto puede ser congruente con el contexto del tipo de vivienda (Apartamentos), y sus posibles tendencias de valorización basadas en espacios de mayor eficiencia.

  • El coeficiente para parqueaderos estima un incremento promedio de aproximadamente $62 millones por cada parqueadero adicional de la vivienda, y cuenta con un alto nivel de significancia estadística, cerca al 0%.

  • El coeficiente para banios estima un incremento promedio de aproximadamente $41 millones por cada baño adicional de la vivienda, y cuenta con un alto nivel de significancia estadística sobre el nivel de 0%.

  • En cuanto al efecto del estrato en las viviendas, se tiene que el valor promedio del precio total de las viviendas incrementa en aproximadamente 30 millones al pertenecer al estrato 4, en aproximadamente 50 millones al pertenecer al estrato 5, y en aproximadamente $204 millones al pertenecer al estrato 6. Contando con niveles sanos de significancia, en tanto las variables dummy para los estratos 5 y 6 poseen coeficientes con máxima significancia, y la variable dummy para el estrato 4 posee un nivel de significancia sobre el 0,1%.

En general, los resultados hallados denotan congruencia con la escala de magnitud del caso anterior y denotan un mayor nivel de precios generalizado para este subconunto del dataset, en tanto establecen una clara relación directamente proporcional entre la mejoría en los distintos atributos considerados para las viviendas y su correspondiente precio. La relación de incremento del precio de las viviendas al ascender entre estratos socioeconómicos persiste, sin embargo no es un incremento tan pronunciado como en el caso anterior, lo cual puede indicar que el estrato pierde cierto grado de relevancia en esta agrupación de datos.

Finalmente, las medidas de bondad de ajuste R2 y R2 ajustado determinan que el modelo estimado explica aproximadamente el 77% de la variabilidad en los datos, lo cual se muestra como una bondad de ajuste suficiente bastante beningna en comparación al caso anterior.

Para la validación cruzada del ejercicio, se procede a particionar el dataset en conjuntos de training (60% de los datos) y test (40%) de los datos, de tal forma que se aplica el mismo modelo planteado sobre el conjunto de training, y se contrastan sus predicciones con los valores de preciom del conjunto de test, con el fin de obtener la métrica de ajuste Root Mean Squared Error (RMSE), la cual determina el grado de error en las predicciones realizadas en las mismas unidades de preciom. Las salidas mostradas a continuación presentan el summary del modelo sobre los datos de training y el valor de RMSE obtenido al contrastar con el conjunto de test.

## 
## Call:
## lm(formula = preciom ~ areaconst + habitaciones + parqueaderos + 
##     banios + factor(estrato), data = base2_clean, subset = train2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -847.29  -37.60   -0.68   36.85  886.05 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -12.60377   16.29437  -0.774  0.43935    
## areaconst          1.02629    0.05541  18.522  < 2e-16 ***
## habitaciones     -21.94699    4.61814  -4.752 2.21e-06 ***
## parqueaderos      60.16462    4.25214  14.149  < 2e-16 ***
## banios            51.05370    4.02163  12.695  < 2e-16 ***
## factor(estrato)4  34.11742   12.22139   2.792  0.00531 ** 
## factor(estrato)5  54.91101   12.27269   4.474 8.28e-06 ***
## factor(estrato)6 210.06326   14.17108  14.823  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 88.41 on 1421 degrees of freedom
## Multiple R-squared:  0.783,  Adjusted R-squared:  0.7819 
## F-statistic: 732.3 on 7 and 1421 DF,  p-value: < 2.2e-16
## RMSE Modelo 2: 100.0144

Como puede observarse, la aplicación del modelo sobre los datos de training arroja magnitudes similares en los coeficientes, así como expresa la relación directamente proporcional entre el precio de la vivienda y los atributos considerados. Si bien denota discrepancias relevantes con los valores de los coeficientes originales, es posible afirmar que la estructura en el modelo de training es congruente con el modelo original. En cuanto a la métrica RMSE, se puede interpretar como que el error medio en las predicciones del modelo se halla en torno a los $100 millones, se sigue obtieniendo un alto nivel de variabilidad en las predicciones, sin embargo, no es tan alto como el del caso anterior, esto es congruente con su valor mayor en el R2.

3.2.4 Validación de supuestos del modelo.

## 
##  Goldfeld-Quandt test
## 
## data:  modelo2
## GQ = 0.90861, df1 = 1183, df2 = 1182, p-value = 0.9502
## alternative hypothesis: variance increases from segment 1 to 2
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals2
## W = 0.77823, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  modelo2
## DW = 1.6866, p-value = 7.31e-15
## alternative hypothesis: true autocorrelation is greater than 0

En cuanto la normalidad en los errores, el test de Shapiro-Wilk vuelve a ubicar el resultado sobre la hipotesis alternativa, por lo cual no se puede afirmar que se cumple el supuesto de normalidad en los residuales.

En cuanto a homocedasticidad, el test GQ determina que la varianza es homogénea a través de las observaciones, cumpliendo con el supuesto de constancia en la misma.

En cuanto al test Durbin-Watson, se obtiene un resultado claro donde hay presencia de autocorrelación de errores.

Nótese que este caso ahora cumple con al menos uno de los 3 supuestos del RLM, lo cual escongruente con los resultados hallados en términos de significancia y bondad de ajuste hallados anteriormente.

3.2.5 Predicciones.

En función del modelo estimado, se procede a la fijación de predicciones en los precios de las viviendas en función de los parámetros de la solicitud del cliente. La salida mostrada a continuación muestra los parámetros de los atributos requeridos por el cliente, en conjunto con los intervalos de predicción que emergen del modelo realizado (diferenciándose entre los estratos 5 y 6).

##   areaconst habitaciones parqueaderos banios estrato
## 1       300            5            3      3       5
##   areaconst habitaciones parqueaderos banios estrato
## 1       300            5            3      3       6
##        fit      lwr      upr
## 1 635.0311 452.2703 817.7919
##        fit      lwr      upr
## 1 788.5467 605.7037 971.3896

Así, se tiene que el precio de las viviendas bajo las especificaciones del cliente se halla en un promedio aproximado de 635 millones en el caso del estrato 5, y de $788 millones en el caso del estrato 6. Nótese que ahora la amplitud de los intervalos de predicción es mucho más reducida, lo cual habla bien de la salud del modelo con respecto al caso anterior.

3.1.6 Ofertas disponibles bajo el nivel de precios estimado.

Dados los resultados obtenidos, se toma como referencia el presupuesto disponible en la solicitud y la información provista por el intervalo de predicción para generar un filtro con las ofertas disponibles en función de este nivel de precios. De tal forma que es posible tomar las ofertas potenciales, ubicarlas en un nuevo dataset, y plasmarlas en un mapa de la ciudad de Cali. A continuación, se presenta el mapa resultante y una vista previa de la lista de ofertas potenciales obtenidas.

## # A tibble: 139 × 12
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  5842 Zona …       6     850      187             3      5            4 Apar…
##  2  6614 Zona …       6     850      168             3      5            4 Apar…
##  3  3786 Zona …       6     850      192             2      5            3 Apar…
##  4  5690 Zona …       6     850      192.            2      5            4 Apar…
##  5  6539 Zona …       6     850      186             3      5            4 Apar…
##  6  5240 Zona …       6     850      187             3      4            3 Apar…
##  7  5574 Zona …       6     850      352             4      3            3 Apar…
##  8  6800 Zona …       6     850      187             3      4            3 Apar…
##  9  6611 Zona …       6     850      185             3      5            3 Apar…
## 10  7162 Zona …       6     850      222             2      3            3 Apar…
## # ℹ 129 more rows
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>

De entre las ofertas obtenidas, es posible mencionar las siguientes viviendas puntuales, las cuales destacan por poseer características similares o mejores a las de la solicitud del cliente y se ubican al límite del presupuesto planteado (para una revisión específica de todas la ofertas disponibles a este nivel de precios, revisar los anexos):

  • ID 5842, precio de 850 millones, área de 187 m2, 3 parqueaderos, 5 baños, 4 habitaciones, estrato 6, barrio ciudad jardin.

  • ID 6614, precio de 850 millones, área de 168 m2, 3 parqueaderos, 5 baños, 4 habitaciones, estrato 6, barrio ciudad jardin.

  • ID 3786, precio de 850 millones, área de 192 m2, 2 parqueaderos, 5 baños, 3 habitaciones, estrato 6, barrio ciudad jardin.

  • ID 5690, precio de 850 millones, área de 186 m2, 2 parqueaderos, 5 baños, 4 habitaciones, estrato 6, barrio ciudad jardin.

  • ID 6539, precio de 850 millones, área de 186 m2, 2 parqueaderos, 5 baños, 4 habitaciones, estrato 6, barrio ciudad jardin.

Nótese la predominancia de espacios pequeños debido al tipo de viviendas en este caso.

4. Conclusiones y recomendaciones

En general, el ejercicio realizado permitió desarrollar predicciones congruentes con los órdenes de magnitud del mercado inmobiliario de la ciudad de Cali y las dos solicitudes presentadas por el cliente, otorgando ofertas puntuales visualizadas de forma interactiva y en cumplimiento con el presupuesto disponible.

Sin embargo, es necesario resaltar que no es pertinente desestimar el conjunto de enfermedades presentes en los modelos de regresión lineal múltiple en función de los datos disponibles, de tal forma que es necesario aplicar modificaciones de cara al incremento del ajuste en los modelos y el complimiento de los supuestos fundamentales. Se sugiere la revisión de las variables y forma funcional del modelo planteado, así como una re evaluación de la estructura y acriterios de la muestra a considerar para la modelación. De tal forma que una re calibración propicia del ejercicio predictivo puede arrojar resultados con menor variabilidad y de mayor fiabilidad para la toma de decisiones.

Anexos

Lista de ofertas disponibles dado el nivel de precios predicho para la solicitud 1.

id zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
3779 Zona Norte 4 350 98.0 2 3 4 Casa chipichape -76.52840 3.48154
4210 Zona Norte 5 350 200.0 3 3 4 Casa el bosque -76.53010 3.48503
4209 Zona Norte 5 350 300.0 3 5 6 Casa el bosque -76.53010 3.48577
4422 Zona Norte 5 350 240.0 2 3 6 Casa el bosque -76.53136 3.48635
1270 Zona Norte 5 350 203.0 2 2 5 Casa el bosque -76.51448 3.48531
819 Zona Norte 5 350 264.0 2 3 4 Casa la flora -76.50330 3.46412
3060 Zona Norte 5 350 110.0 1 4 3 Casa la flora -76.52353 3.48157
459 Zona Norte 5 350 160.0 2 3 3 Casa la flora -76.49632 3.46661
1352 Zona Norte 5 350 190.0 1 3 3 Casa la flora -76.51538 3.48796
1491 Zona Norte 5 350 140.0 2 3 2 Casa la flora -76.51608 3.48918
937 Zona Norte 4 350 280.0 2 3 4 Casa la merced -76.50603 3.46643
1163 Zona Norte 5 350 216.0 2 2 4 Casa la merced -76.51218 3.48181
1024 Zona Norte 3 350 150.0 1 2 5 Casa las américas -76.50800 3.44700
1065 Zona Norte 3 350 350.0 10 2 4 Casa manzanares -76.50900 3.46400
5031 Zona Norte 4 350 350.0 1 4 5 Casa salomia -76.53464 3.44987
725 Zona Norte 3 350 200.0 1 2 6 Casa salomia -76.50200 3.46300
396 Zona Norte 5 350 99.0 1 3 3 Casa urbanización la flora -76.49500 3.46700
1848 Zona Norte 5 350 160.0 2 4 3 Casa urbanización la flora -76.51800 3.48900
1842 Zona Norte 5 350 240.0 2 3 4 Casa vipasa -76.51800 3.48100
1943 Zona Norte 5 350 346.0 1 2 4 Casa vipasa -76.51847 3.47503
1641 Zona Norte 5 343 170.0 3 4 4 Casa la flora -76.51698 3.48939
4483 Zona Norte 5 342 250.0 1 4 6 Casa el bosque -76.53197 3.48752
4800 Zona Norte 5 340 250.0 2 4 4 Casa el bosque -76.53300 3.46500
4471 Zona Norte 4 340 162.0 1 4 4 Casa el bosque -76.53188 3.48770
3453 Zona Norte 5 340 240.0 2 5 6 Casa la campiña -76.52640 3.48211
1506 Zona Norte 5 340 180.0 2 4 4 Casa la flora -76.51633 3.48675
5047 Zona Norte 5 340 160.0 2 4 5 Casa la flora -76.53464 3.44987
3101 Zona Norte 5 340 355.0 2 5 8 Casa san vicente -76.52377 3.46384
1887 Zona Norte 5 340 203.0 2 3 4 Casa vipasa -76.51803 3.48257
2544 Zona Norte 4 340 264.5 2 4 4 Casa vipasa -76.52096 3.47665
7470 Zona Norte 4 340 264.0 2 5 7 Casa vipasa -76.54980 3.37556
1822 Zona Norte 4 340 295.0 2 2 4 Casa vipasa -76.51777 3.48060
1211 Zona Norte 4 340 158.0 2 2 3 Casa zona norte -76.51350 3.38790
4267 Zona Norte 5 335 202.0 1 4 5 Casa el bosque -76.53044 3.48399
4313 Zona Norte 5 335 220.0 1 3 3 Casa el bosque -76.53088 3.48810
3352 Zona Norte 4 335 300.0 3 4 4 Casa el bosque -76.52600 3.43400
136 Zona Norte 3 335 166.0 2 3 3 Casa los guaduales -76.48600 3.45200
2295 Zona Norte 5 334 243.0 4 0 0 Casa la flora -76.51972 3.44000
464 Zona Norte 4 330 165.0 1 4 4 Casa el bosque -76.49657 3.45140
1415 Zona Norte 5 330 130.0 4 3 3 Casa la flora -76.51600 3.48800
3586 Zona Norte 4 330 240.0 1 2 3 Casa la merced -76.52720 3.48433
952 Zona Norte 4 330 275.0 2 3 5 Casa la merced -76.50647 3.47516
1108 Zona Norte 4 330 260.0 1 3 4 Casa la merced -76.51060 3.48108
1161 Zona Norte 4 330 258.0 2 3 3 Casa la merced -76.51214 3.47881
1107 Zona Norte 4 330 140.0 1 3 4 Casa la merced -76.51057 3.48113
3043 Zona Norte 5 330 275.0 2 3 5 Casa la merced -76.52350 3.48329
350 Zona Norte 3 330 150.0 3 3 4 Casa la villa del -76.49400 3.46600
7885 Zona Norte 3 330 280.0 2 3 5 Casa popular -76.55290 3.42135
1849 Zona Norte 5 330 246.0 2 4 4 Casa prados del norte -76.51800 3.47000
747 Zona Norte 3 330 240.0 1 5 7 Casa zona norte -76.50235 3.47350
766 Zona Norte 5 321 249.0 1 5 5 Casa la merced -76.50291 3.46757
1209 Zona Norte 5 320 150.0 2 4 6 Casa acopi -76.51341 3.47968
1343 Zona Norte 5 320 200.0 2 4 4 Casa la flora -76.51524 3.48893
1376 Zona Norte 5 320 160.0 1 3 4 Casa la flora -76.51568 3.48876
3053 Zona Norte 5 320 230.0 2 4 4 Casa la flora -76.52353 3.48352
1487 Zona Norte 5 320 170.0 1 3 3 Casa la flora -76.51604 3.48913
3890 Zona Norte 5 320 140.0 1 3 4 Casa la flora -76.52900 3.41300
1144 Zona Norte 4 320 200.0 2 4 4 Casa la merced -76.51156 3.48029
1326 Zona Norte 4 320 140.0 2 5 7 Casa la merced -76.51511 3.47845
1304 Zona Norte 5 320 90.0 2 3 3 Casa urbanización la flora -76.51500 3.48800
1151 Zona Norte 5 320 210.0 2 3 5 Casa urbanización la merced -76.51200 3.47600
1924 Zona Norte 4 320 264.0 1 2 3 Casa vipasa -76.51840 3.48459
1113 Zona Norte 4 320 100.0 1 3 4 Casa zona norte -76.51077 3.48795

Lista de ofertas disponibles dado el nivel de precios predicho para la solicitud 2.

id zona estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
5842 Zona Sur 6 850 187.00 3 5 4 Apartamento ciudad jardín -76.53887 3.36287
6614 Zona Sur 6 850 168.00 3 5 4 Apartamento ciudad jardín -76.54369 3.35114
3786 Zona Sur 6 850 192.00 2 5 3 Apartamento ciudad jardín -76.52846 3.36540
5690 Zona Sur 6 850 191.80 2 5 4 Apartamento ciudad jardín -76.53798 3.35961
6539 Zona Sur 6 850 186.00 3 5 4 Apartamento ciudad jardín -76.54309 3.35621
5240 Zona Sur 6 850 187.00 3 4 3 Apartamento pance -76.53530 3.34782
5574 Zona Sur 6 850 352.00 4 3 3 Apartamento pance -76.53729 3.34265
6800 Zona Sur 6 850 187.00 3 4 3 Apartamento pance -76.54484 3.35064
6611 Zona Sur 6 850 185.00 3 5 3 Apartamento parcelaciones pance -76.54369 3.35114
7162 Zona Sur 6 850 222.00 2 3 3 Apartamento santa teresita -76.54800 3.45300
6613 Zona Sur 6 845 187.00 2 5 4 Apartamento pance -76.54369 3.35114
993 Zona Sur 6 840 161.79 2 4 4 Apartamento pance -76.50726 3.46182
6723 Zona Sur 6 840 185.00 2 2 2 Apartamento pance -76.54412 3.35074
6682 Zona Sur 6 840 176.00 2 4 3 Apartamento parcelaciones pance -76.54400 3.35100
6720 Zona Sur 6 836 187.00 3 5 3 Apartamento pance -76.54410 3.33810
3603 Zona Sur 6 833 213.00 2 3 3 Apartamento ciudad jardin pance -76.52726 3.34865
6526 Zona Sur 6 832 213.00 2 2 3 Apartamento ciudad jardín -76.54303 3.41923
6612 Zona Sur 6 830 187.00 3 5 4 Apartamento pance -76.54369 3.35114
6683 Zona Sur 6 830 169.00 3 5 3 Apartamento pance -76.54400 3.35100
6686 Zona Sur 6 830 187.00 3 4 4 Apartamento pance -76.54400 3.35100
3827 Zona Sur 6 820 213.00 2 3 3 Apartamento pance -76.52888 3.35064
6159 Zona Sur 6 810 164.00 3 5 3 Apartamento pance -76.54100 3.33700
3933 Zona Sur 6 800 160.00 2 5 3 Apartamento pance -76.52900 3.34800
3936 Zona Sur 6 800 160.00 2 5 3 Apartamento pance -76.52900 3.34900
8191 Zona Sur 6 800 221.00 2 4 3 Apartamento santa teresita -76.55700 3.38900
6511 Zona Sur 6 790 187.00 2 4 3 Apartamento pance -76.54300 3.35100
5693 Zona Sur 6 780 168.00 2 3 3 Apartamento ciudad jardín -76.53798 3.35961
3970 Zona Sur 6 780 150.00 2 4 3 Apartamento ciudad jardín -76.52900 3.39500
6838 Zona Sur 6 770 140.00 2 4 4 Apartamento ciudad jardín -76.54500 3.35500
5241 Zona Sur 6 767 154.00 2 4 3 Apartamento ciudad jardín -76.53530 3.35959
3848 Zona Sur 6 760 200.00 2 3 3 Apartamento ciudad jardín -76.52897 3.36403
4133 Zona Sur 6 760 200.00 2 2 3 Apartamento ciudad jardín -76.52999 3.36550
5879 Zona Sur 6 760 168.00 2 3 3 Apartamento ciudad jardín -76.53900 3.36600
3113 Zona Sur 6 760 220.00 2 5 3 Apartamento pance -76.52392 3.35104
6463 Zona Sur 6 760 160.00 3 5 4 Apartamento pance -76.54292 3.34103
4380 Zona Sur 6 754 180.00 2 3 3 Apartamento pance -76.53102 3.34318
6603 Zona Sur 6 750 166.00 2 5 3 Apartamento ciudad jardín -76.54360 3.35741
5191 Zona Sur 6 750 176.00 2 4 3 Apartamento ciudad jardín -76.53504 3.36444
6111 Zona Sur 6 750 176.00 2 4 3 Apartamento ciudad jardín -76.54085 3.36544
5364 Zona Sur 6 750 141.00 2 5 2 Apartamento ciudad jardin -76.53600 3.36100
3813 Zona Sur 6 750 200.00 3 5 4 Apartamento pance -76.52872 3.34865
3814 Zona Sur 6 750 191.00 3 5 4 Apartamento pance -76.52872 3.34865
4319 Zona Sur 6 750 164.00 2 5 4 Apartamento pance -76.53091 3.33840
5451 Zona Sur 6 750 192.00 4 3 3 Apartamento pance -76.53679 3.33843
5573 Zona Sur 6 750 192.00 4 3 3 Apartamento pance -76.53729 3.34265
7911 Zona Sur 6 750 121.00 2 3 3 Apartamento santa teresita -76.55300 3.44700
5757 Zona Sur 6 737 147.00 2 5 3 Apartamento ciudad jardín -76.53800 3.35800
7182 Zona Sur 5 730 573.00 3 8 5 Apartamento guadalupe -76.54800 3.40800
6529 Zona Sur 6 720 165.00 4 4 3 Apartamento pance -76.54304 3.35631
4418 Zona Sur 6 720 170.00 2 5 4 Apartamento parcelaciones pance -76.53134 3.33781
3802 Zona Sur 6 710 158.00 2 5 3 Apartamento pance -76.52862 3.34982
6077 Zona Sur 5 710 151.00 3 5 3 Apartamento pance -76.54041 3.36568
5242 Zona Sur 5 704 141.00 2 3 2 Apartamento ciudad jardín -76.53530 3.35959
5941 Zona Sur 5 700 138.00 2 5 4 Apartamento ciudad jardín -76.53967 3.36259
5087 Zona Sur 6 700 170.00 3 4 3 Apartamento ciudad jardín -76.53464 3.44987
4266 Zona Sur 6 700 250.00 2 4 5 Apartamento el ingenio -76.53043 3.37062
4996 Zona Sur 6 700 155.00 2 4 4 Apartamento pance -76.53436 3.33861
4997 Zona Sur 6 700 150.00 2 4 4 Apartamento pance -76.53436 3.33861
3810 Zona Sur 6 700 149.00 2 5 4 Apartamento pance -76.52870 3.34898
3937 Zona Sur 6 700 156.00 2 5 4 Apartamento pance -76.52900 3.34900
3939 Zona Sur 6 700 160.00 2 5 4 Apartamento pance -76.52900 3.34900
6462 Zona Sur 6 700 160.00 3 5 4 Apartamento pance -76.54292 3.34103
3243 Zona Sur 6 700 160.00 2 5 4 Apartamento pance -76.52500 3.45900
3934 Zona Sur 6 700 158.00 2 4 3 Apartamento pance -76.52900 3.35000
3825 Zona Sur 6 700 160.00 2 5 4 Apartamento pance -76.52887 3.35024
2313 Zona Sur 6 700 130.00 3 5 4 Apartamento pance -76.51972 3.44000
3932 Zona Sur 6 700 152.00 2 5 3 Apartamento pance -76.52900 3.34900
3815 Zona Sur 6 700 158.00 2 5 4 Apartamento parcelaciones pance -76.52875 3.35030
8014 Zona Sur 6 700 152.00 2 4 3 Apartamento santa teresita -76.55400 3.44800
3608 Zona Sur 6 699 164.00 4 5 3 Apartamento ponce -76.52733 3.41198
5246 Zona Sur 6 697 139.00 2 2 2 Apartamento ciudad jardín -76.53531 3.35970
5423 Zona Sur 6 695 227.00 3 3 3 Apartamento ciudad jardín -76.53638 3.36905
5691 Zona Sur 6 695 180.00 2 5 4 Apartamento ciudad jardín -76.53798 3.35961
6035 Zona Sur 6 695 206.00 2 4 3 Apartamento parcelaciones pance -76.54008 3.35145
6749 Zona Sur 6 690 180.00 2 5 4 Apartamento ciudad jardín -76.54421 3.35528
5793 Zona Sur 5 690 169.00 4 5 4 Apartamento ciudad jardín -76.53831 3.36281
4978 Zona Sur 6 690 170.00 2 3 3 Apartamento ciudad jardín -76.53410 3.36531
4394 Zona Sur 5 690 486.00 2 4 4 Apartamento el ingenio -76.53111 3.38292
6201 Zona Sur 6 690 140.00 2 4 3 Apartamento pance -76.54132 3.33924
3941 Zona Sur 6 690 160.00 2 5 4 Apartamento pance -76.52900 3.34900
10 Zona Sur 6 690 150.00 2 5 4 Apartamento pance -76.46478 3.42783
3944 Zona Sur 6 690 158.00 2 5 4 Apartamento pance -76.52900 3.35000
5363 Zona Sur 6 685 133.00 3 4 3 Apartamento ciudad jardín -76.53600 3.33500
4824 Zona Sur 6 680 167.00 1 5 4 Apartamento cañasgordas -76.53300 3.33600
3943 Zona Sur 6 680 158.00 2 5 4 Apartamento pance -76.52900 3.35000
4161 Zona Sur 6 680 200.00 2 4 3 Apartamento pance -76.53000 3.33900
4447 Zona Sur 6 680 138.00 2 5 3 Apartamento pance -76.53165 3.44708
6527 Zona Sur 6 677 108.00 2 2 3 Apartamento ciudad jardín -76.54303 3.41923
5366 Zona Sur 6 673 132.00 2 2 2 Apartamento ciudad jardín -76.53600 3.36700
5351 Zona Sur 6 673 133.00 3 4 3 Apartamento pance -76.53600 3.33500
5880 Zona Sur 6 670 168.00 2 3 4 Apartamento ciudad jardín -76.53900 3.36600
3365 Zona Sur 5 670 191.00 2 3 3 Apartamento seminario -76.52600 3.43400
7512 Zona Sur 5 670 300.00 3 5 6 Apartamento seminario -76.55000 3.40900
3834 Zona Sur 6 667 160.00 2 3 3 Apartamento pance -76.52896 3.34961
4477 Zona Sur 5 660 150.00 3 4 3 Apartamento ciudad jardín -76.53191 3.35342
6113 Zona Sur 6 660 168.00 2 4 4 Apartamento ciudad jardín -76.54085 3.36544
6576 Zona Sur 6 660 210.00 4 5 3 Apartamento ciudad jardín -76.54341 3.35627
6605 Zona Sur 5 660 158.00 4 4 3 Apartamento ciudad jardín -76.54362 3.35616
3973 Zona Sur 6 660 135.00 2 4 3 Apartamento ciudad jardín -76.52900 3.34500
3808 Zona Sur 6 660 160.00 2 4 3 Apartamento pance -76.52870 3.34898
6464 Zona Sur 6 660 159.00 4 4 3 Apartamento pance -76.54292 3.34103
5273 Zona Sur 6 660 224.41 2 5 4 Apartamento quintas de don -76.53551 3.38812
6361 Zona Sur 6 655 241.00 2 3 3 Apartamento mayapan las vegas -76.54200 3.38300
6776 Zona Sur 5 651 220.00 2 4 2 Apartamento mayapan las vegas -76.54452 3.38889
4478 Zona Sur 6 650 160.00 2 5 3 Apartamento ciudad capri -76.53191 3.35204
4321 Zona Sur 6 650 145.00 3 4 4 Apartamento ciudad jardín -76.53091 3.44074
5622 Zona Sur 6 650 152.00 3 4 3 Apartamento ciudad jardín -76.53773 3.45279
5694 Zona Sur 6 650 170.00 2 4 4 Apartamento ciudad jardín -76.53798 3.35961
5826 Zona Sur 6 650 160.00 2 5 3 Apartamento ciudad jardín -76.53860 3.35942
5365 Zona Sur 6 650 177.00 2 3 2 Apartamento ciudad jardín -76.53600 3.36600
3397 Zona Sur 6 650 183.00 2 3 3 Apartamento ciudad jardín -76.52600 3.43400
3627 Zona Sur 6 650 185.00 2 3 3 Apartamento ciudad jardín -76.52745 3.36960
5877 Zona Sur 6 650 185.00 2 4 4 Apartamento ciudad jardín -76.53900 3.36600
5881 Zona Sur 6 650 223.00 3 5 3 Apartamento ciudad jardín -76.53900 3.36600
6112 Zona Sur 6 650 185.00 2 4 4 Apartamento ciudad jardín -76.54085 3.36544
6620 Zona Sur 6 650 185.00 2 3 3 Apartamento ciudad jardín -76.54375 3.43795
4182 Zona Sur 6 650 164.00 2 5 3 Apartamento ciudad jardín -76.53000 3.35200
5306 Zona Sur 5 650 275.00 2 5 5 Apartamento ciudadela pasoancho -76.53569 3.38597
5528 Zona Sur 5 650 249.00 2 4 4 Apartamento ciudadela pasoancho -76.53700 3.38600
4952 Zona Sur 5 650 600.00 2 4 5 Apartamento el ingenio -76.53400 3.38100
5598 Zona Sur 6 650 138.00 3 5 4 Apartamento pance -76.53746 3.34926
7664 Zona Sur 6 650 137.00 2 3 3 Apartamento pance -76.55101 3.34365
5073 Zona Sur 6 650 141.00 3 4 3 Apartamento pance -76.53464 3.44987
6507 Zona Sur 4 645 184.00 1 4 3 Apartamento pance -76.54300 3.35100
4091 Zona Sur 6 640 136.00 2 4 3 Apartamento ciudad jardín -76.52967 3.34324
4419 Zona Sur 5 640 200.00 2 4 4 Apartamento pance -76.53134 3.33781
5266 Zona Sur 6 640 200.00 2 4 3 Apartamento pance -76.53540 3.34404
5008 Zona Sur 6 635 133.00 3 4 4 Apartamento parcelaciones pance -76.53454 3.33367
5704 Zona Sur 5 630 210.00 2 2 3 Apartamento ciudad jardín -76.53798 3.35961
5353 Zona Sur 6 630 133.00 2 4 3 Apartamento pance -76.53600 3.33500
3942 Zona Sur 6 630 150.00 2 5 3 Apartamento pance -76.52900 3.34800
4361 Zona Sur 6 630 133.00 3 4 3 Apartamento pance -76.53100 3.36600
3833 Zona Sur 6 620 136.00 2 3 4 Apartamento ciudad jardín -76.52895 3.34475
4629 Zona Sur 6 620 197.00 2 3 3 Apartamento pance -76.53200 3.45200
6011 Zona Sur 5 620 160.00 2 2 3 Apartamento san fernando nuevo -76.54000 3.43100
4428 Zona Sur 6 615 162.00 2 5 4 Apartamento pance -76.53146 3.35303
6836 Zona Sur 6 610 116.00 2 4 2 Apartamento ciudad jardín -76.54500 3.35500
4326 Zona Sur 6 610 202.00 2 4 3 Apartamento pance -76.53094 3.33615
5072 Zona Sur 6 610 138.00 2 4 3 Apartamento pance -76.53464 3.44987