1 Introduccion

El presente trabajo desarrolla un modelo de regresion lineal multiple para apoyar la toma de decisiones en la empresa C&A (Casas y Apartamentos), a partir del caso planteado sobre la busqueda de dos viviendas para una compania internacional que desea ubicar a dos de sus empleados y sus familias en la ciudad de Cali.

El objetivo central consiste en construir modelos estadisticos que permitan explicar y predecir el precio de los inmuebles en funcion de sus caracteristicas fisicas y socioeconomicas, con el fin de formular recomendaciones realistas y sustentadas para cada solicitud. En particular, se estudian dos submercados:

  1. Vivienda 1: casas ubicadas en la zona norte.
  2. Vivienda 2: apartamentos ubicados en la zona sur.

El trabajo se basa en un filtrado de bases, analisis exploratorio, estimacion de modelos, validacion de supuestos, predicciones puntuales, seleccion de ofertas potenciales y mapas de apoyo. Como complemento, se incorpora una pequena validacion predictiva con conjunto de prueba y una comparacion simple entre el modelo completo y un modelo reducido, con el fin de fortalecer la discusion tecnica.

2 Carga de librerias y datos

## package 'AsioHeaders' successfully unpacked and MD5 sums checked
## package 'websocket' successfully unpacked and MD5 sums checked
## package 'chromote' successfully unpacked and MD5 sums checked
## package 'pingr' successfully unpacked and MD5 sums checked
## package 'ggthemes' successfully unpacked and MD5 sums checked
## package 'ggalluvial' successfully unpacked and MD5 sums checked
## package 'shinytest2' successfully unpacked and MD5 sums checked
## package 'Cairo' successfully unpacked and MD5 sums checked
## package 'webshot' successfully unpacked and MD5 sums checked
## package 'listviewer' successfully unpacked and MD5 sums checked
## package 'sf' successfully unpacked and MD5 sums checked
## package 'IRdisplay' successfully unpacked and MD5 sums checked
## package 'plotlyGeoAssets' successfully unpacked and MD5 sums checked
## package 'reticulate' successfully unpacked and MD5 sums checked
## package 'rsvg' successfully unpacked and MD5 sums checked
## package 'ggridges' successfully unpacked and MD5 sums checked
## package 'plotly' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\HOGAR\AppData\Local\Temp\Rtmp8cveA5\downloaded_packages
## package 'leaflet.providers' successfully unpacked and MD5 sums checked
## package 'raster' successfully unpacked and MD5 sums checked
## package 'RJSONIO' successfully unpacked and MD5 sums checked
## package 'leaflet' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\HOGAR\AppData\Local\Temp\Rtmp8cveA5\downloaded_packages
## Rows: 8,322
## Columns: 13
## $ id           <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona         <fct> Zona Oriente, Zona Oriente, Zona Oriente, Zona Sur, Zona …
## $ piso         <fct> NA, NA, NA, 02, 01, 01, 01, 01, 02, 02, 02, 02, 02, 02, 0…
## $ estrato      <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom      <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst    <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios       <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo         <fct> Casa, Casa, Casa, Casa, Apartamento, Apartamento, Apartam…
## $ barrio       <fct> 20 de julio, 20 de julio, 20 de julio, 3 de julio, acopi,…
## $ longitud     <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud      <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…
##        id                 zona           piso         estrato     
##  Min.   :   1   Zona Centro : 124   02     :1450   Min.   :3.000  
##  1st Qu.:2080   Zona Norte  :1920   03     :1097   1st Qu.:4.000  
##  Median :4160   Zona Oeste  :1198   01     : 860   Median :5.000  
##  Mean   :4160   Zona Oriente: 351   04     : 607   Mean   :4.634  
##  3rd Qu.:6240   Zona Sur    :4726   05     : 567   3rd Qu.:5.000  
##  Max.   :8319   NA's        :   3   (Other):1103   Max.   :6.000  
##  NA's   :3                          NA's   :2638   NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones             tipo                 barrio        longitud     
##  Min.   : 0.000   Apartamento:5100   valle del lili:1008   Min.   :-76.59  
##  1st Qu.: 3.000   Casa       :3219   ciudad jardín : 516   1st Qu.:-76.54  
##  Median : 3.000   NA's       :   3   pance         : 409   Median :-76.53  
##  Mean   : 3.605                      la flora      : 366   Mean   :-76.53  
##  3rd Qu.: 4.000                      santa teresita: 262   3rd Qu.:-76.52  
##  Max.   :10.000                      (Other)       :5758   Max.   :-76.46  
##  NA's   :3                           NA's          :   3   NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

3 Funciones auxiliares

4 Solicitud 1: Casa en zona norte

4.1 Requerimiento del cliente

La socicitud que se hace en primer lugar para analizar es lo siguiente, Tipo: Casa, Area construida: 200 m2, Parqueaderos: 1, Banios: 2, Habitaciones: 4, Estrato: 4 o 5, Zona: Norte, Credito preaprobado: 350 millones de pesos

4.2 1. Filtrado de la base

## Numero de registros en base1: 722

La Base 1 fue construida filtrando las observaciones correspondientes a casas de la Zona Norte. Esta selección permite trabajar con un subconjunto específico del mercado de vivienda y resulta adecuada para el análisis de regresión múltiple. Las variables consideradas —área construida, estrato, parqueaderos, baños y habitaciones— son relevantes para explicar el comportamiento del precio por metro cuadrado, ya que reflejan características físicas y de calidad del inmueble. En conjunto, la base presenta condiciones apropiadas para estimar un modelo orientado a identificar qué atributos tienen mayor incidencia sobre el valor de las viviendas analizadas.

A partir de esta base, se procede a estimar un modelo de regresión lineal múltiple con el fin de evaluar la relación entre el precio por metro cuadrado y las características estructurales de las viviendas seleccionadas.

4.2.1 Tablas de comprobacion de la consulta

4.2.2 Mapa de las ofertas de la base 1

El mapa de la Base 1 muestra que las casas clasificadas en Zona Norte se concentran mayoritariamente en la parte norte de la ciudad, aunque también aparecen algunas observaciones dispersas en sectores más centrales y meridionales. Esto sugiere que la variable zona no representa necesariamente un límite geográfico rígido, sino una clasificación más amplia dentro del mercado inmobiliario. Aun así, la distribución espacial observada respalda el uso de esta base para el análisis, reconociendo que existe cierta heterogeneidad en la localización de las viviendas.

4.2.3 Revision de consistencia espacial sugerida

## Numero de registros en base1: 722
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.333   3.452   3.468   3.460   3.482   3.496
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -76.59  -76.53  -76.52  -76.52  -76.50  -76.47

Las observaciones con menor latitud evidencian que algunas viviendas clasificadas como Zona Norte se encuentran más dispersas espacialmente de lo esperado. Esto indica que la segmentación por zona en la base no necesariamente corresponde a un límite geográfico estricto. Aun así, la muestra presenta variabilidad suficiente en variables como precio, área construida y características del inmueble, lo cual la hace adecuada para el análisis de regresión.

4.3 2. Analisis exploratorio de datos

##     preciom         areaconst         estrato       parqueaderos   
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 1.000  
##  1st Qu.: 261.2   1st Qu.: 140.0   1st Qu.:3.000   1st Qu.: 1.000  
##  Median : 390.0   Median : 240.0   Median :4.000   Median : 2.000  
##  Mean   : 445.9   Mean   : 264.9   Mean   :4.202   Mean   : 2.182  
##  3rd Qu.: 550.0   3rd Qu.: 336.8   3rd Qu.:5.000   3rd Qu.: 3.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##                                                    NA's   :287     
##      banios        habitaciones   
##  Min.   : 0.000   Min.   : 0.000  
##  1st Qu.: 2.000   1st Qu.: 3.000  
##  Median : 3.000   Median : 4.000  
##  Mean   : 3.555   Mean   : 4.507  
##  3rd Qu.: 4.000   3rd Qu.: 5.000  
##  Max.   :10.000   Max.   :10.000  
## 

4.3.1 Correlaciones numericas

##              preciom areaconst estrato parqueaderos banios habitaciones
## preciom        1.000     0.685   0.528        0.412  0.509        0.365
## areaconst      0.685     1.000   0.354        0.307  0.457        0.421
## estrato        0.528     0.354   1.000        0.261  0.351        0.058
## parqueaderos   0.412     0.307   0.261        1.000  0.392        0.241
## banios         0.509     0.457   0.351        0.392  1.000        0.590
## habitaciones   0.365     0.421   0.058        0.241  0.590        1.000

La matriz de correlaciones muestra que la variable con mayor asociación lineal con el precio por metro cuadrado es el área construida (r = 0.685), lo que sugiere que a mayor tamaño del inmueble, mayor tiende a ser su valor. También se observan correlaciones positivas moderadas entre el precio y variables como estrato (r = 0.528) y número de baños (r = 0.509), indicando que las viviendas con mejores condiciones socioeconómicas y mayor nivel de equipamiento tienden a presentar precios más altos. En menor medida, el número de parqueaderos (r = 0.412) y de habitaciones (r = 0.365) también muestran una relación positiva con el precio. En conjunto, estos resultados sugieren que las características físicas y de calidad del inmueble tienen una relación importante con la variable respuesta, lo cual respalda su inclusión en el modelo de regresión múltiple. ### Graficos interactivos con plotly

Las gráficas exploratorias muestran que el precio de la vivienda presenta una relación positiva con el área construida, el número de baños, el número de habitaciones y el estrato. En particular, el área y el estrato evidencian patrones más marcados, mientras que baños y habitaciones también muestran incrementos en la mediana del precio a medida que aumentan. Al mismo tiempo, se observan algunos valores atípicos y una dispersión creciente en viviendas de mayor tamaño y precio

  1. Precio vs área construida

Se observa una relación positiva entre el área construida y el precio de la vivienda. A mayor tamaño del inmueble, mayor tiende a ser su valor. No obstante, la dispersión del precio aumenta en áreas grandes, lo que sugiere heterogeneidad y posibles valores atípicos.

  1. Precio según baños

El número de baños presenta una asociación positiva con el precio. En general, a medida que aumenta esta característica, la mediana del precio también tiende a incrementarse, aunque con alta variabilidad en varias categorías.

  1. Precio según habitaciones

También se aprecia una tendencia creciente del precio conforme aumenta el número de habitaciones, aunque la relación parece menos ordenada que en el caso del área o del estrato.

  1. Precio según estrato

El estrato muestra una relación claramente positiva con el precio, siendo una de las variables con patrón más definido. Las viviendas de estratos más altos concentran mayores niveles de precio y mayor dispersión. ## 3. Estimacion del modelo de regresion lineal multiple

4.3.2 Division entrenamiento - prueba

4.3.3 Modelo completo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -828.38  -79.58  -16.05   48.46  966.21 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -262.08989   50.39169  -5.201 3.39e-07 ***
## areaconst       0.70366    0.05908  11.910  < 2e-16 ***
## estrato        85.87243   11.11909   7.723 1.23e-13 ***
## habitaciones   11.07678    6.27865   1.764  0.07858 .  
## parqueaderos   21.62046    6.72835   3.213  0.00143 ** 
## banios         14.30099    8.28616   1.726  0.08526 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.6 on 347 degrees of freedom
##   (226 observations deleted due to missingness)
## Multiple R-squared:  0.6036, Adjusted R-squared:  0.5979 
## F-statistic: 105.7 on 5 and 347 DF,  p-value: < 2.2e-16

El modelo de regresión múltiple estimado para la Base 1 muestra resultados coherentes con la dinámica del mercado de vivienda. En particular, las variables área construida, estrato y parqueaderos presentan coeficientes positivos y estadísticamente significativos, lo que indica que estas características tienen una incidencia importante en el precio del inmueble. Entre ellas, el área construida se destaca como la variable con mayor peso explicativo, seguida por el estrato, lo que sugiere que tanto el tamaño de la vivienda como el nivel socioeconómico del entorno son factores determinantes en su valoración.

Por otro lado, las variables habitaciones y baños también muestran coeficientes positivos, pero su nivel de significancia es más débil, ya que solo resultan marginalmente significativas al 10%. Esto puede indicar que parte de la información que aportan estas variables ya está capturada por otras características del modelo, especialmente por el área construida.

El modelo como tal indica que el precio de las viviendas en esta base depende principalmente del tamaño, la calidad del entorno socioeconómico y la disponibilidad de parqueaderos. Sin embargo, el error estándar residual evidencia que todavía existe variabilidad no explicada, lo cual es razonable dado que en el valor de una vivienda también influyen factores no observados, como los acabados, la antigüedad o la ubicación específica.

4.3.4 Modelo reducido por AIC

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -828.38  -79.58  -16.05   48.46  966.21 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -262.08989   50.39169  -5.201 3.39e-07 ***
## areaconst       0.70366    0.05908  11.910  < 2e-16 ***
## estrato        85.87243   11.11909   7.723 1.23e-13 ***
## habitaciones   11.07678    6.27865   1.764  0.07858 .  
## parqueaderos   21.62046    6.72835   3.213  0.00143 ** 
## banios         14.30099    8.28616   1.726  0.08526 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.6 on 347 degrees of freedom
##   (226 observations deleted due to missingness)
## Multiple R-squared:  0.6036, Adjusted R-squared:  0.5979 
## F-statistic: 105.7 on 5 and 347 DF,  p-value: < 2.2e-16

El modelo completo presenta un ajuste global estadísticamente significativo (F = 105.7, p < 0.001), lo que indica que, en conjunto, las variables explicativas aportan información relevante para explicar el comportamiento del precio. Además, el coeficiente de determinación (R² = 0.6036) muestra que el modelo explica aproximadamente el 60.4% de la variabilidad observada en la variable respuesta, lo que representa un nivel de ajuste aceptable para este tipo de datos.

A nivel individual, las variables área construida, estrato y parqueaderos presentan efectos positivos y estadísticamente significativos, por lo que se identifican como los principales determinantes del precio dentro del modelo. Por su parte, habitaciones y baños también muestran coeficientes positivos, pero con significancia marginal al 10%, lo que sugiere que su aporte explicativo es más débil una vez se controla por el resto de variables.

Finalmente, el error estándar residual de 156.6 indica que aún existe una diferencia importante entre los valores observados y los estimados, lo cual es razonable en un mercado como el inmobiliario, donde intervienen factores adicionales no incluidos en la base de datos.

4.3.5 Comparacion de desempeño predictivo

El modelo reducido por AIC no mostró mejoras frente al modelo completo, ya que ambas especificaciones presentaron exactamente las mismas métricas predictivas. Por esta razón, se mantuvo el modelo completo como referencia principal del análisis.

4.3.6 Interpretacion de coeficientes

La tabla de coeficientes confirma que área construida, estrato y parqueaderos tienen efectos positivos y estadísticamente significativos sobre el precio, ya que sus intervalos de confianza no incluyen el cero. En cambio, aunque habitaciones y baños presentan coeficientes positivos, sus intervalos sí contienen el cero, por lo que su efecto no resulta concluyente al 95% de confianza. En consecuencia, las variables con evidencia más sólida dentro del modelo son el tamaño del inmueble, el estrato y el número de parqueaderos.

4.3.7 Ajuste del modelo

El modelo presenta un ajuste global estadísticamente significativo (p < 0.001), lo que indica que, en conjunto, las variables incluidas explican de manera relevante el comportamiento del precio. El coeficiente de determinación muestra que el modelo explica aproximadamente el 60.36% de la variabilidad observada (R² = 0.6036), mientras que el R² ajustado = 0.5979 sugiere que este nivel de ajuste se mantiene aun considerando el número de predictores incluidos. Asimismo, el error estándar residual de 156.63 refleja que, aunque el modelo tiene una capacidad explicativa aceptable, todavía existe una proporción importante de variación no capturada, probablemente asociada a factores no observados en la base de datos.

4.4 4. Validacion de supuestos

4.4.1 Pruebas formales

## 
## Prueba de normalidad de residuos (Shapiro-Wilk)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.8511, p-value < 2.2e-16
## 
## 
## Prueba de heterocedasticidad (Breusch-Pagan)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 66.13, df = 5, p-value = 6.533e-13
## 
## 
## Factores de inflacion de la varianza (VIF)
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.445913     1.341742     1.665523     1.211812     1.828657

4.4.2 Graficos diagnosticos

La prueba de Shapiro-Wilk aplicada a los residuos arroja un valor p < 0.001, por lo que se rechaza la hipótesis nula de normalidad. Esto indica que los residuos del modelo no siguen una distribución normal, al menos desde el punto de vista estricto de esta prueba. No obstante, dado el tamaño de la muestra, este resultado debe interpretarse con cautela, ya que pruebas como Shapiro-Wilk suelen ser muy sensibles a pequeñas desviaciones de la normalidad cuando el número de observaciones es grande.

Por su parte, la prueba de Breusch-Pagan también resulta significativa (p < 0.001), lo que evidencia la presencia de heterocedasticidad en el modelo. En consecuencia, la varianza de los errores no es constante, lo cual puede afectar la precisión de los errores estándar y, por tanto, la inferencia sobre los coeficientes.

En contraste, los valores de VIF son bajos en todas las variables, ubicándose aproximadamente entre 1.21 y 1.83, muy por debajo de los umbrales comúnmente utilizados para detectar multicolinealidad severa. Esto indica que no existe un problema importante de colinealidad entre las variables explicativas, por lo que los coeficientes estimados pueden interpretarse con relativa estabilidad.

Por lo tanto a pesar dd que el modelo no cumple completamente los supuestos de normalidad y homocedasticidad de los residuos, aunque no presenta problemas relevantes de multicolinealidad.Se tienen que tener cuidado con los resultado y analzar bien pero el modelo sigue siendo útil como aproximación explicativa y predictiva del precio de la vivienda.

4.5 5. Prediccion de la vivienda 1

Dado que la solicitud permite estrato 4 o 5, se construyen dos escenarios para apoyar la recomendacion.

##        fit      lwr     upr
## 1 316.6605 7.326936 625.994
##        fit      lwr      upr
## 1 402.5329 92.30584 712.7599

Las predicciones realizadas con el modelo muestran que, para las características especificadas, la vivienda ubicada en estrato 4 tendría un precio estimado de 316.66 unidades monetarias, mientras que la vivienda en estrato 5 alcanzaría un valor esperado de 402.53. Esto confirma que, manteniendo constantes las demás características, una vivienda en un estrato superior tiende a registrar un mayor valor estimado, en línea con los resultados obtenidos en la regresión.

No obstante, los intervalos de predicción son bastante amplios en ambos casos. Para la vivienda de estrato 4, el intervalo va desde 7.33 hasta 625.99, y para la de estrato 5 desde 92.31 hasta 712.76. Esta amplitud refleja una incertidumbre considerable en la predicción individual, lo cual es consistente con la variabilidad residual observada en el modelo y con la presencia de factores no incluidos en la base de datos que también influyen en el precio.

4.6 6. Seleccion de ofertas potenciales para la vivienda 1

Se propone filtrar ofertas cercanas al perfil del cliente y dentro del presupuesto maximo de 350 millones.

4.6.1 Mapa de ofertas potenciales

Las cinco ofertas seleccionadas representan alternativas razonables desde tres criterios: ajuste al perfil solicitado, cumplimiento del presupuesto y cercania en atributos fisicos.

5 Solicitud 2: Apartamento en zona sur

5.1 Requerimiento del cliente

La segunda solicitud corresponde a una vivienda con las siguientes caracteristicas:Tipo: Apartamento, Area construida: 300 m2, Parqueaderos: 3, Banios: 3, Habitaciones: 5, Estrato: 5 o 6, Zona: Sur, Credito preaprobado: 850 millones de pesos

5.2 1. Filtrado de la base

## Numero de registros en base2: 2787

5.2.1 Tablas de comprobacion

5.2.2 Mapa de las ofertas de la base 2

El mapa de la Base 2 muestra una distribución espacial más amplia y dispersa de las ofertas de vivienda en comparación con la Base 1. Se observa una alta concentración de inmuebles en la zona central y centro-sur de la ciudad, aunque también aparecen registros en sectores orientales y noroccidentales. Este patrón sugiere que la muestra recoge una porción más heterogénea del mercado inmobiliario, con viviendas localizadas en distintos entornos urbanos y niveles de valorización. En consecuencia, la Base 2 presenta una mayor diversidad espacial, lo que podría traducirse en una variabilidad más alta en los precios y en una relación más compleja entre la localización y las características del inmueble.

5.3 2. Analisis exploratorio de datos

##     preciom         areaconst         estrato      parqueaderos   
##  Min.   :  75.0   Min.   : 40.00   Min.   :3.00   Min.   : 1.000  
##  1st Qu.: 175.0   1st Qu.: 65.00   1st Qu.:4.00   1st Qu.: 1.000  
##  Median : 245.0   Median : 85.00   Median :5.00   Median : 1.000  
##  Mean   : 297.3   Mean   : 97.47   Mean   :4.63   Mean   : 1.415  
##  3rd Qu.: 335.0   3rd Qu.:110.00   3rd Qu.:5.00   3rd Qu.: 2.000  
##  Max.   :1750.0   Max.   :932.00   Max.   :6.00   Max.   :10.000  
##                                                   NA's   :406     
##      banios       habitaciones  
##  Min.   :0.000   Min.   :0.000  
##  1st Qu.:2.000   1st Qu.:3.000  
##  Median :2.000   Median :3.000  
##  Mean   :2.488   Mean   :2.966  
##  3rd Qu.:3.000   3rd Qu.:3.000  
##  Max.   :8.000   Max.   :6.000  
## 

En la estadística descriptiva, se observa que la Base 2 presenta una marcada heterogeneidad. El precio tiene una mediana de 245 y un valor máximo de 1750, lo que evidencia una amplia dispersión entre viviendas de menor y mayor valor. De igual forma, el área construida tiene una mediana de 85 m², pero alcanza valores máximos de 932 m², lo que confirma la existencia de inmuebles de gran tamaño dentro de la muestra. Esta amplitud en las distribuciones sugiere la posible presencia de observaciones atípicas, algo esperable en datos del mercado inmobiliario.

5.3.1 Correlaciones numericas

##              preciom areaconst estrato parqueaderos banios habitaciones
## preciom        1.000     0.741   0.650        0.693  0.711        0.296
## areaconst      0.741     1.000   0.452        0.578  0.664        0.407
## estrato        0.650     0.452   1.000        0.486  0.535        0.177
## parqueaderos   0.693     0.578   0.486        1.000  0.556        0.237
## banios         0.711     0.664   0.535        0.556  1.000        0.520
## habitaciones   0.296     0.407   0.177        0.237  0.520        1.000

La matriz de correlaciones muestra que el precio mantiene relaciones positivas con todas las variables explicativas consideradas, aunque con distinta intensidad. La asociación más alta se presenta con el área construida (r = 0.741), lo que indica que las viviendas con mayor tamaño tienden a registrar precios más elevados. También se observan correlaciones relativamente altas entre el precio y el número de baños (r = 0.711), así como con los parqueaderos (r = 0.693) y el estrato (r = 0.650), lo cual sugiere que estos atributos tienen un papel importante en la valoración de los inmuebles. En contraste, la variable habitaciones presenta una relación más débil con el precio (r = 0.296), por lo que, al menos de manera aislada, parece tener menor capacidad explicativa. ### Graficos interactivos con plotly

  1. Precio vs área construida

Se observa una relación positiva entre el área construida y el precio de la vivienda. En general, los inmuebles de mayor tamaño tienden a presentar valores más altos, aunque con una dispersión creciente y algunos valores atípicos en áreas grandes.

  1. Precio según baños

El número de baños muestra una asociación positiva con el precio. A medida que aumentan los baños, la mediana del precio tiende a incrementarse, lo que sugiere que esta característica aporta valor al inmueble.

  1. Precio según habitaciones

También se aprecia una tendencia creciente del precio conforme aumenta el número de habitaciones. Sin embargo, la relación es menos ordenada que en el caso del área construida o del estrato, y presenta mayor variabilidad dentro de algunas categorías.

  1. Precio según estrato

El estrato presenta una relación claramente positiva con el precio. Las viviendas de estratos más altos concentran mayores niveles de precio, por lo que esta variable parece ser una de las más relevantes en la explicación del valor de los inmuebles. ## 3. Estimacion del modelo de regresion lineal multiple

5.3.2 Division entrenamiento - prueba

5.3.3 Modelo completo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1067.35   -42.18    -1.43    38.64   929.91 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -263.81456   18.22177 -14.478  < 2e-16 ***
## areaconst       1.25558    0.05894  21.302  < 2e-16 ***
## estrato        59.52817    3.56733  16.687  < 2e-16 ***
## habitaciones  -23.27107    4.47300  -5.203 2.18e-07 ***
## parqueaderos   73.75048    4.39772  16.770  < 2e-16 ***
## banios         52.79611    3.83452  13.769  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 100.4 on 1887 degrees of freedom
##   (338 observations deleted due to missingness)
## Multiple R-squared:  0.7484, Adjusted R-squared:  0.7477 
## F-statistic:  1122 on 5 and 1887 DF,  p-value: < 2.2e-16

Este modelo de regresión múltiple estimado para la Base 2 presenta un ajuste global altamente significativo (p < 0.001) y una capacidad explicativa superior a la observada en la Base 1. En efecto, el coeficiente de determinación indica que el modelo explica aproximadamente el 74.84% de la variabilidad del precio (R² = 0.7484), lo que sugiere un ajuste bastante sólido para este conjunto de datos.

En cuanto a los coeficientes, todas las variables incluidas resultan estadísticamente significativas. El área construida muestra un efecto positivo y fuerte sobre el precio, consolidándose como uno de los principales determinantes del valor del inmueble. De igual forma, el estrato, los parqueaderos y los baños presentan efectos positivos, lo que indica que viviendas con mejores condiciones socioeconómicas, mayor equipamiento y mayor funcionalidad tienden a alcanzar precios más altos.

Un resultado llamativo es que la variable habitaciones presenta un coeficiente negativo y significativo. Esto sugiere que, manteniendo constantes las demás variables, un mayor número de habitaciones se asocia con una disminución en el precio. Aunque a primera vista puede parecer contraintuitivo, este comportamiento puede interpretarse como un efecto de ajuste entre variables relacionadas: para un mismo tamaño de vivienda, más habitaciones podrían implicar espacios más reducidos o una distribución menos valorizada por el mercado. Por tanto, este coeficiente no debe leerse de forma aislada, sino en conjunto con el área construida y las demás características del inmueble.

Finalmente, el error estándar residual de 100.4 es menor que el observado en la Base 1, lo que refuerza la idea de que el modelo de la Base 2 ofrece un mejor nivel de ajuste. En síntesis, los resultados muestran que el precio de las viviendas en esta base depende principalmente del área construida, el estrato, los parqueaderos y los baños, mientras que el efecto de las habitaciones debe interpretarse como un resultado condicionado por la presencia simultánea de otras variables en el modelo. ### Modelo reducido por AIC

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1067.35   -42.18    -1.43    38.64   929.91 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -263.81456   18.22177 -14.478  < 2e-16 ***
## areaconst       1.25558    0.05894  21.302  < 2e-16 ***
## estrato        59.52817    3.56733  16.687  < 2e-16 ***
## habitaciones  -23.27107    4.47300  -5.203 2.18e-07 ***
## parqueaderos   73.75048    4.39772  16.770  < 2e-16 ***
## banios         52.79611    3.83452  13.769  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 100.4 on 1887 degrees of freedom
##   (338 observations deleted due to missingness)
## Multiple R-squared:  0.7484, Adjusted R-squared:  0.7477 
## F-statistic:  1122 on 5 and 1887 DF,  p-value: < 2.2e-16

5.3.4 Comparacion de desempeno predictivo

En este caso ocurre una situación similar a la observada en la Base 1: el modelo reducido por AIC no presenta mejoras frente al modelo completo en términos de desempeño predictivo. Esto sugiere que la especificación inicial ya ofrece un ajuste adecuado, por lo que no se obtiene una ganancia relevante al simplificar el modelo.

5.3.5 Coeficientes e interpretacion

La tabla de coeficientes confirma que todas las variables incluidas en el modelo de la Base 2 son estadísticamente significativas. El área construida presenta un efecto positivo importante sobre el precio, consolidándose como uno de los principales determinantes del valor de la vivienda. De igual forma, el estrato, los parqueaderos y los baños también muestran coeficientes positivos, lo que indica que mejores condiciones socioeconómicas, mayor equipamiento y mayor funcionalidad del inmueble se asocian con precios más altos. En contraste, la variable habitaciones presenta un coeficiente negativo, lo que sugiere que, manteniendo constantes las demás características, un mayor número de habitaciones podría relacionarse con distribuciones internas menos amplias o menos valorizadas por el mercado. En conjunto, los resultados respaldan que el precio en la Base 2 depende principalmente del tamaño del inmueble, su estrato y su nivel de equipamiento.

5.3.6 Ajuste del modelo

El modelo de la Base 2 presenta un ajuste global muy sólido. El coeficiente de determinación indica que explica aproximadamente el 74.84% de la variabilidad del precio (R² = 0.7484), mientras que el R² ajustado = 0.7477 muestra que este nivel de ajuste se mantiene aun considerando el número de variables incluidas. Además, la prueba global del modelo resulta altamente significativa (p < 0.001), lo que confirma que, en conjunto, los predictores aportan información relevante para explicar el comportamiento del precio. Finalmente, el error estándar residual de 100.44 sugiere un nivel de error moderado y menor al observado en la Base 1, lo que refuerza la idea de que este modelo presenta un mejor desempeño general.

5.4 4. Validacion de supuestos

5.4.1 Pruebas formales

## 
## Prueba de normalidad de residuos (Shapiro-Wilk)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.76805, p-value < 2.2e-16
## 
## 
## Prueba de heterocedasticidad (Breusch-Pagan)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 614.73, df = 5, p-value < 2.2e-16
## 
## 
## Factores de inflacion de la varianza (VIF)
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.004665     1.567357     1.442099     1.727939     2.524415

Las pruebas diagnósticas indican que el modelo de la Base 2 no cumple completamente los supuestos de normalidad y homocedasticidad, ya que tanto la prueba de Shapiro-Wilk como la de Breusch-Pagan resultan significativas (p < 0.001). Sin embargo, los valores de VIF son bajos, lo que descarta problemas importantes de multicolinealidad. En consecuencia, el modelo puede utilizarse como aproximación explicativa, aunque sus inferencias deben leerse con cautela. ### Graficos diagnosticos

Las pruebas diagnósticas indican que el modelo de la Base 2 no cumple completamente los supuestos de normalidad y homocedasticidad, ya que tanto la prueba de Shapiro-Wilk como la de Breusch-Pagan resultan significativas (p < 0.001). Sin embargo, los valores de VIF son bajos, lo que descarta problemas importantes de multicolinealidad. En consecuencia, el modelo puede utilizarse como aproximación explicativa, aunque sus inferencias deben leerse con cautela. ## 5. Prediccion de la vivienda 2

Dado que la solicitud admite estrato 5 o 6, se calculan dos escenarios.

##        fit      lwr      upr
## 1 673.7833 475.1531 872.4135
##        fit      lwr      upr
## 1 733.3115 534.6102 932.0127

Las predicciones realizadas con el modelo para la Base 2 muestran valores estimados de 673.78 y 733.31 para las dos viviendas evaluadas. Además, los intervalos de predicción se ubican entre 475.15 y 872.41 para la primera vivienda, y entre 534.61 y 932.01 para la segunda. Estos resultados indican que la segunda vivienda presenta un valor esperado superior, lo cual es consistente con el efecto positivo de variables como el estrato, el área construida, los baños o los parqueaderos dentro del modelo. Aunque los intervalos son relativamente amplios, reflejan de manera razonable la incertidumbre asociada a la predicción individual en el mercado inmobiliario.

5.5 6. Seleccion de ofertas potenciales para la vivienda 2

5.5.1 Mapa de ofertas potenciales

Se identificaron tres apartamentos comparables cercanos a la vivienda objetivo, todos en estrato 5 y ubicados en la Zona Sur. El comparable más representativo es el que presenta dif_area = 0, ya que coincide exactamente en área construida y registra un precio de 670. Los otros dos inmuebles, aunque con diferencias de área mayores, mantienen características similares y ayudan a confirmar que el valor estimado de la vivienda se encuentra dentro de un rango razonable para su entorno.

A partir del análisis realizado, se concluye que la regresión lineal múltiple constituye una herramienta útil para apoyar una primera aproximación a la valoración de inmuebles y orientar la selección de ofertas en función de las necesidades del cliente. En ambos casos estudiados, variables como el área construida, el estrato, los parqueaderos y los baños mostraron una influencia importante sobre el precio, mientras que otras variables, como el número de habitaciones, presentaron un comportamiento más dependiente del contexto del modelo.

En la Base 1 se obtuvo un ajuste aceptable, aunque con menor capacidad explicativa y con evidencia de incumplimiento en algunos supuestos clásicos. En contraste, la Base 2 presentó un mejor desempeño general, con mayor poder explicativo y coeficientes estadísticamente más sólidos. Asimismo, la comparación entre el modelo completo y el reducido por AIC no mostró mejoras relevantes, por lo que en ambos casos se mantuvo el modelo completo como base principal de interpretación.

Finalmente, los resultados confirman que el modelo debe entenderse como una herramienta de apoyo a la decisión y no como un sustituto del criterio comercial. Por ello, la recomendación final sobre una oferta de vivienda debe complementarse con la revisión de comparables, la validación espacial, el análisis del entorno y la evaluación directa de las condiciones particulares del inmueble.