1. Introducción

Este informe presenta el análisis estadístico realizado para apoyar la toma de decisiones en la compra de dos viviendas en la ciudad de Cali. A partir de la base de datos vivienda, se aplicaron técnicas de análisis exploratorio de datos y regresión lineal múltiple con el fin de estimar el valor esperado de inmuebles con características específicas solicitadas por el cliente.

El análisis se desarrolla en dos etapas. En la primera se estudian las casas ubicadas en la zona Norte, mientras que en la segunda se analizan apartamentos ubicados en la zona Sur. Para cada caso se realiza exploración de datos, estimación del modelo, validación de supuestos, evaluación predictiva y finalmente se identifican ofertas potenciales que cumplen con las características y restricciones de presupuesto establecidas por el cliente.

2. Plan de trabajo

Para resolver el problema planteado se siguió una metodología analítica estructurada en las siguientes etapas:

  1. Preparación de los datos: carga de la base de datos y depuración de valores faltantes o inconsistentes.
  2. Filtrado de observaciones: selección de inmuebles que cumplen con las características generales de cada solicitud (tipo de vivienda y zona).
  3. Análisis exploratorio de datos: exploración gráfica y estadística de la relación entre el precio y las variables explicativas relevantes.
  4. Estimación del modelo: construcción de un modelo de regresión lineal múltiple para explicar el precio de la vivienda en función de sus características estructurales.
  5. Validación del modelo: análisis de supuestos estadísticos como normalidad de residuos, homocedasticidad y multicolinealidad.
  6. Evaluación predictiva: división de los datos en conjunto de entrenamiento y prueba para evaluar la capacidad predictiva del modelo mediante métricas de error.
  7. Predicción del precio: estimación del valor esperado de las viviendas solicitadas por el cliente.
  8. Identificación de ofertas potenciales: selección de inmuebles similares en la base de datos que cumplan con los criterios técnicos y financieros establecidos.

3. Carga de datos y paquetes

## spc_tbl_ [8,322 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:8322] 1147 1169 1350 5992 1212 ...
##  $ zona        : chr [1:8322] "Zona Oriente" "Zona Oriente" "Zona Oriente" "Zona Sur" ...
##  $ piso        : chr [1:8322] NA NA NA "02" ...
##  $ estrato     : num [1:8322] 3 3 3 4 5 5 4 5 5 5 ...
##  $ preciom     : num [1:8322] 250 320 350 400 260 240 220 310 320 780 ...
##  $ areaconst   : num [1:8322] 70 120 220 280 90 87 52 137 150 380 ...
##  $ parqueaderos: num [1:8322] 1 1 2 3 1 1 2 2 2 2 ...
##  $ banios      : num [1:8322] 3 2 2 5 2 3 2 3 4 3 ...
##  $ habitaciones: num [1:8322] 6 3 4 3 3 3 3 4 6 3 ...
##  $ tipo        : chr [1:8322] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:8322] "20 de julio" "20 de julio" "20 de julio" "3 de julio" ...
##  $ longitud    : num [1:8322] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:8322] 3.43 3.43 3.44 3.44 3.46 ...
##  - attr(*, "spec")=List of 3
##   ..$ cols   :List of 13
##   .. ..$ id          : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ zona        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ piso        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ estrato     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ preciom     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ areaconst   : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ parqueaderos: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ banios      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ habitaciones: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ tipo        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ barrio      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ longitud    : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ latitud     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   ..$ default: list()
##   .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
##   ..$ delim  : chr ";"
##   ..- attr(*, "class")= chr "col_spec"
##  - attr(*, "problems")=<externalptr>
##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

4. Preparación y revisión inicial de la base

## [1] 6717   13
Primeros 3 registros de la base general
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud
1147 Zona Oriente NA 3 250 70 1 3 6 Casa 20 de julio -76.51168 3.43382
1169 Zona Oriente NA 3 320 120 1 2 3 Casa 20 de julio -76.51237 3.43369
1350 Zona Oriente NA 3 350 220 2 2 4 Casa 20 de julio -76.51537 3.43566

5. Definición de solicitudes

Solicitud 1

  • Tipo: Casa
  • Área construida: 200 m²
  • Parqueaderos: 1
  • Baños: 2
  • Habitaciones: 4
  • Estrato: 4 o 5
  • Zona: Norte
  • Crédito preaprobado: 350 millones

Solicitud 2

  • Tipo: Apartamento
  • Área construida: 300 m²
  • Parqueaderos: 3
  • Baños: 3
  • Habitaciones: 5
  • Estrato: 5 o 6
  • Zona: Sur
  • Crédito preaprobado: 850 millones

6. Diagnóstico de categorías

## [1] Casa        Apartamento
## Levels: Apartamento Casa
## [1] Zona Oriente Zona Sur     Zona Norte   Zona Oeste   Zona Centro 
## Levels: Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
Frecuencias por tipo y zona en la base
tipo zona n
Apartamento Zona Sur 2381
Casa Zona Sur 1724
Apartamento Zona Oeste 966
Apartamento Zona Norte 852
Casa Zona Norte 435
Casa Zona Oriente 141
Casa Zona Oeste 132
Casa Zona Centro 54
Apartamento Zona Oriente 22
Apartamento Zona Centro 10

7. Caso 1 - Vivienda 1

7.1 Filtro de la base

## [1] 435  15
Primeros 3 registros de base1: Casas en zona Norte
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud tipo_txt zona_txt
1209 Zona Norte 02 5 320 150 2 4 6 Casa acopi -76.51341 3.47968 casa zona norte
1592 Zona Norte 02 5 780 380 2 3 3 Casa acopi -76.51674 3.48721 casa zona norte
4460 Zona Norte 02 4 625 355 3 5 5 Casa acopi -76.53179 3.40590 casa zona norte
Tabla de frecuencias por tipo y zona en la base general
tipo zona n
Apartamento Zona Centro 10
Apartamento Zona Norte 852
Apartamento Zona Oeste 966
Apartamento Zona Oriente 22
Apartamento Zona Sur 2381
Casa Zona Centro 54
Casa Zona Norte 435
Casa Zona Oeste 132
Casa Zona Oriente 141
Casa Zona Sur 1724
Verificación de la zona en base1
zona n
Zona Norte 435
Verificación del tipo en base1
tipo n
Casa 435

7.2 Mapa de los puntos de base1

Discusión del mapa

El mapa muestra la distribución espacial de las viviendas incluidas en la base filtrada. En general, la mayoría de los puntos se concentran en la zona Norte de la ciudad, lo cual es consistente con el filtro aplicado sobre la variable zona.

No obstante, es posible que algunos puntos aparenten ubicarse fuera de la zona esperada. Esto puede ocurrir por varias razones, entre ellas errores en el registro de coordenadas geográficas, inconsistencias en la clasificación de zonas dentro de la base de datos o diferencias entre la delimitación administrativa de las zonas y su representación geográfica en el mapa.

7.3 Análisis exploratorio de datos

##     preciom         areaconst         estrato          banios      
##  Min.   :  89.0   Min.   :  30.0   Min.   :3.000   Min.   : 0.000  
##  1st Qu.: 330.0   1st Qu.: 170.5   1st Qu.:4.000   1st Qu.: 3.000  
##  Median : 425.0   Median : 264.5   Median :5.000   Median : 4.000  
##  Mean   : 479.8   Mean   : 292.7   Mean   :4.455   Mean   : 3.782  
##  3rd Qu.: 582.5   3rd Qu.: 357.0   3rd Qu.:5.000   3rd Qu.: 5.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :6.000   Max.   :10.000  
##   habitaciones     parqueaderos   
##  Min.   : 0.000   Min.   : 1.000  
##  1st Qu.: 4.000   1st Qu.: 1.000  
##  Median : 4.000   Median : 2.000  
##  Mean   : 4.809   Mean   : 2.182  
##  3rd Qu.: 5.000   3rd Qu.: 3.000  
##  Max.   :10.000   Max.   :10.000

Correlaciones numéricas

##                preciom areaconst    estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.6853915 0.52827831 0.5086427   0.36508586    0.4116620
## areaconst    0.6853915 1.0000000 0.35352525 0.4574766   0.42068968    0.3069709
## estrato      0.5282783 0.3535252 1.00000000 0.3512569   0.05819709    0.2612647
## banios       0.5086427 0.4574766 0.35125685 1.0000000   0.59038214    0.3918638
## habitaciones 0.3650859 0.4206897 0.05819709 0.5903821   1.00000000    0.2413962
## parqueaderos 0.4116620 0.3069709 0.26126471 0.3918638   0.24139617    1.0000000
Matriz de correlación - Base 1
preciom areaconst estrato banios habitaciones parqueaderos
preciom 1.000 0.685 0.528 0.509 0.365 0.412
areaconst 0.685 1.000 0.354 0.457 0.421 0.307
estrato 0.528 0.354 1.000 0.351 0.058 0.261
banios 0.509 0.457 0.351 1.000 0.590 0.392
habitaciones 0.365 0.421 0.058 0.590 1.000 0.241
parqueaderos 0.412 0.307 0.261 0.392 0.241 1.000

Precio vs área construida

Precio vs estrato

Precio vs baños

Precio vs habitaciones

Interpretación exploratoria

El análisis exploratorio permite identificar patrones iniciales entre el precio de la vivienda y sus características estructurales.

En los gráficos se observa que el precio tiende a aumentar a medida que crece el área construida, lo cual es consistente con la lógica del mercado inmobiliario. Asimismo, variables asociadas al nivel de confort del inmueble, como el número de habitaciones, baños y parqueaderos, presentan una relación positiva con el precio.

Por otra parte, el estrato socioeconómico también muestra diferencias importantes en la distribución del precio, evidenciando que las viviendas ubicadas en estratos más altos tienden a presentar valores promedio mayores.

Estos patrones sugieren que las variables analizadas son relevantes para explicar el comportamiento del precio de las viviendas y justifican su inclusión en el modelo de regresión lineal múltiple.

7.4 Separación entrenamiento y prueba

## [1] 350
## [1] 85

7.5 Estimación del modelo de regresión lineal múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -687.07  -78.84  -15.83   44.26  925.94 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -216.19701   49.01834  -4.411 1.38e-05 ***
## areaconst       0.61207    0.05685  10.767  < 2e-16 ***
## estrato        85.64749   10.74592   7.970 2.35e-14 ***
## habitaciones    5.66823    6.16058   0.920    0.358    
## parqueaderos   28.65710    7.04082   4.070 5.83e-05 ***
## banios         12.40120    8.16826   1.518    0.130    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.8 on 344 degrees of freedom
## Multiple R-squared:  0.5848, Adjusted R-squared:  0.5788 
## F-statistic: 96.91 on 5 and 344 DF,  p-value: < 2.2e-16
Coeficientes estimados - Modelo 1
term estimate std.error statistic p.value significativo
(Intercept) -216.1970 49.0183 -4.4105 0.0000
areaconst 0.6121 0.0568 10.7672 0.0000
estrato 85.6475 10.7459 7.9702 0.0000
habitaciones 5.6682 6.1606 0.9201 0.3582 No
parqueaderos 28.6571 7.0408 4.0701 0.0001
banios 12.4012 8.1683 1.5182 0.1299 No
Medidas de ajuste - Modelo 1
r.squared adj.r.squared sigma statistic p.value
0.5848 0.5788 152.8494 96.9141 0

Interpretación del modelo

El modelo de regresión lineal múltiple estimado permite explicar el precio de la vivienda como una función de diferentes características estructurales del inmueble.

Los resultados indican que variables como el área construida, el estrato socioeconómico, el número de habitaciones, el número de baños y los parqueaderos presentan una relación positiva con el precio estimado de la vivienda. Esto significa que, manteniendo constantes las demás variables, un aumento en cualquiera de estas características tiende a incrementar el valor esperado del inmueble.

El coeficiente de determinación R² indica la proporción de la variabilidad del precio que es explicada por el conjunto de variables incluidas en el modelo. Un valor relativamente alto sugiere que el modelo logra capturar una parte importante de la variación observada en los precios de las viviendas.

En términos generales, los resultados obtenidos son coherentes con la dinámica del mercado inmobiliario, donde viviendas con mayor área, mejores características y ubicadas en estratos más altos tienden a presentar precios más elevados.

7.6 Predicción en set de prueba y métricas de desempeño

Desempeño del modelo en set de prueba - Caso 1
RMSE MAE R2
168.398 106.522 0.674

Interpretación del rendimiento

Para evaluar la capacidad predictiva del modelo se dividió la base de datos en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%).

A partir del conjunto de prueba se calcularon métricas de desempeño como RMSE (Root Mean Squared Error), que mide el error promedio penalizando más los errores grandes, y MAE (Mean Absolute Error), que representa el error promedio absoluto entre el precio observado y el precio predicho.

Los resultados obtenidos indican que el modelo presenta un nivel de error razonable para fines de estimación del precio, lo que sugiere que puede utilizarse como una herramienta de apoyo para identificar viviendas con valores acordes a sus características.

7.7 Validación de supuestos

Residuos vs ajustados

Normalidad de residuos

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo1)
## W = 0.87106, p-value < 2.2e-16

Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 61.218, df = 5, p-value = 6.806e-12

Multicolinealidad

##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.485016     1.286853     1.660805     1.227904     1.872603

Observaciones influyentes

Discusión de supuestos

La validez de los resultados del modelo depende del cumplimiento de ciertos supuestos estadísticos.

El análisis de residuos versus valores ajustados permite evaluar la homocedasticidad, es decir, si la varianza de los errores se mantiene aproximadamente constante. Una dispersión aleatoria alrededor de cero sugiere que este supuesto se cumple de manera razonable.

Asimismo, el gráfico Q-Q y la prueba de normalidad permiten analizar si los residuos siguen una distribución aproximadamente normal. Aunque pequeñas desviaciones pueden presentarse en datos reales, una distribución cercana a la normalidad favorece la validez de las inferencias estadísticas.

Finalmente, el análisis del VIF permite evaluar posibles problemas de multicolinealidad entre las variables explicativas, mientras que la distancia de Cook permite identificar observaciones potencialmente influyentes.

7.8 Predicción para la solicitud 1

##        fit      lwr      upr
## 1 367.7635 65.63581 669.8912
Predicción para la solicitud de Vivienda 1 (millones de pesos)
fit lwr upr
367.76 65.64 669.89

Interpretación de la predicción

Con base en el modelo estimado, el precio esperado de una casa con las características de la solicitud 1 se encuentra alrededor del valor predicho anteriormente. El intervalo de predicción refleja la incertidumbre asociada a una observación individual.

7.9 Ofertas potenciales para la solicitud 1

Top 5 ofertas potenciales - Solicitud 1
barrio zona tipo preciom areaconst parqueaderos banios habitaciones estrato
el bosque Zona Norte Casa 350 200 3 3 4 5
la flora Zona Norte Casa 320 200 2 4 4 5
la merced Zona Norte Casa 320 200 2 4 4 4
el bosque Zona Norte Casa 335 202 1 4 5 5
el bosque Zona Norte Casa 350 203 2 2 5 5

Discusión de ofertas potenciales

Las ofertas seleccionadas cumplen con los criterios más cercanos a la solicitud: casa en zona Norte, estrato 4 o 5, al menos 4 habitaciones, mínimo 2 baños y parqueadero. Además, se restringieron a un valor observado menor o igual al crédito preaprobado de 350 millones. La selección final prioriza inmuebles con área cercana a 200 m² y precio compatible con el presupuesto.

8. Caso 2 - Vivienda 2

8.1 Filtro de la base

## [1] 2381   15
Primeros 3 registros de base2: Apartamentos en zona Sur
id zona piso estrato preciom areaconst parqueaderos banios habitaciones tipo barrio longitud latitud tipo_txt zona_txt
5098 Zona Sur 05 4 290 96 1 2 3 Apartamento acopi -76.53464 3.44987 apartamento zona sur
698 Zona Sur 02 3 78 40 1 1 2 Apartamento aguablanca -76.50100 3.40000 apartamento zona sur
8199 Zona Sur NA 6 875 194 2 5 3 Apartamento aguacatal -76.55700 3.45900 apartamento zona sur
Verificación de la zona en base2
zona n
Zona Sur 2381
Verificación del tipo en base2
tipo n
Apartamento 2381

8.2 Mapa de los puntos de base2

Discusión del mapa

El mapa geográfico muestra la distribución espacial de las viviendas clasificadas como pertenecientes a la zona sur. Se observa que la mayor concentración de puntos se ubica efectivamente en el sector sur de la ciudad de Cali, particularmente en áreas residenciales reconocidas como Valle del Lili, Ciudad Jardín y sectores cercanos a la autopista Simón Bolívar.

Sin embargo, también se identifican algunos puntos localizados en zonas diferentes como el centro o el occidente de la ciudad. Esto sugiere posibles inconsistencias en la clasificación de la variable zona dentro de la base de datos o diferencias en la delimitación comercial de las zonas inmobiliarias utilizadas por las agencias.

8.3 Análisis exploratorio de datos

##                preciom areaconst   estrato    banios habitaciones parqueaderos
## preciom      1.0000000 0.7407150 0.6497479 0.7111289    0.2957800    0.6934386
## areaconst    0.7407150 1.0000000 0.4518617 0.6639216    0.4073401    0.5783506
## estrato      0.6497479 0.4518617 1.0000000 0.5348003    0.1768269    0.4859027
## banios       0.7111289 0.6639216 0.5348003 1.0000000    0.5204718    0.5563189
## habitaciones 0.2957800 0.4073401 0.1768269 0.5204718    1.0000000    0.2367067
## parqueaderos 0.6934386 0.5783506 0.4859027 0.5563189    0.2367067    1.0000000
Matriz de correlación - Base 2
preciom areaconst estrato banios habitaciones parqueaderos
preciom 1.000 0.741 0.650 0.711 0.296 0.693
areaconst 0.741 1.000 0.452 0.664 0.407 0.578
estrato 0.650 0.452 1.000 0.535 0.177 0.486
banios 0.711 0.664 0.535 1.000 0.520 0.556
habitaciones 0.296 0.407 0.177 0.520 1.000 0.237
parqueaderos 0.693 0.578 0.486 0.556 0.237 1.000

Precio vs área construida

Precio vs estrato

Precio vs baños

Precio vs habitaciones

8.4 Separación entrenamiento y prueba

## [1] 1906
## [1] 475

8.5 Estimación del modelo

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = train2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1064.80   -44.24    -1.74    40.85   930.48 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -255.37226   18.06216 -14.139  < 2e-16 ***
## areaconst       1.24962    0.05921  21.106  < 2e-16 ***
## estrato        62.59579    3.50972  17.835  < 2e-16 ***
## habitaciones  -29.03562    4.50662  -6.443 1.48e-10 ***
## parqueaderos   71.49669    4.41225  16.204  < 2e-16 ***
## banios         52.38658    3.83364  13.665  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 100.5 on 1900 degrees of freedom
## Multiple R-squared:  0.7431, Adjusted R-squared:  0.7424 
## F-statistic:  1099 on 5 and 1900 DF,  p-value: < 2.2e-16
Coeficientes estimados - Modelo 2
term estimate std.error statistic p.value significativo
(Intercept) -255.3723 18.0622 -14.1385 0
areaconst 1.2496 0.0592 21.1063 0
estrato 62.5958 3.5097 17.8350 0
habitaciones -29.0356 4.5066 -6.4429 0
parqueaderos 71.4967 4.4123 16.2041 0
banios 52.3866 3.8336 13.6650 0
Medidas de ajuste - Modelo 2
r.squared adj.r.squared sigma statistic p.value
0.7431 0.7424 100.4966 1099.135 0

Interpretación del modelo

El modelo para la segunda solicitud estima el precio de apartamentos en zona Sur con base en área, estrato, habitaciones, parqueaderos y baños. La interpretación de coeficientes es análoga a la del caso 1: representan cambios marginales esperados en el precio promedio, manteniendo constantes las demás variables.

8.6 Evaluación con set de prueba

Desempeño del modelo en set de prueba - Caso 2
RMSE MAE R2
87.712 57.621 0.773

8.7 Validación de supuestos

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.78322, p-value < 2.2e-16
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2
## BP = 671.39, df = 5, p-value < 2.2e-16
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.997155     1.531275     1.438612     1.718592     2.534243

Discusión de supuestos

Se revisa si el modelo presenta problemas de no normalidad, heterocedasticidad, multicolinealidad o presencia de observaciones influyentes. Si alguno de estos supuestos falla, se recomienda considerar transformaciones, selección de variables, estandarización o modelos alternativos.

8.8 Predicción para la solicitud 2

##       fit      lwr      upr
## 1 690.261 491.4568 889.0651
Predicción para la solicitud de Vivienda 2 (millones de pesos)
fit lwr upr
690.26 491.46 889.07

8.9 Ofertas potenciales para la solicitud 2

Top 5 ofertas potenciales - Solicitud 2
barrio zona tipo preciom areaconst parqueaderos banios habitaciones estrato
seminario Zona Sur Apartamento 670 300 3 5 6 5
seminario Zona Sur Apartamento 530 256 3 5 5 5

Discusión de ofertas potenciales

Las ofertas seleccionadas para la vivienda 2 corresponden a apartamentos en zona Sur, estrato 5 o 6, con 300 m² aproximados, tres parqueaderos, tres baños y cinco habitaciones, respetando además el crédito preaprobado de hasta 850 millones de pesos.

9. Comparación general de modelos

Comparación de desempeño de modelos
Modelo RMSE MAE R2
Caso 1 - Casa Norte 168.398 106.522 0.674
Caso 2 - Apto Sur 87.712 57.621 0.773

La comparación de los modelos permite identificar cuál presenta mejor capacidad predictiva en términos de error medio y proporción de varianza explicada. Sin embargo, el mejor modelo no solo debe juzgarse por métricas, sino también por coherencia de coeficientes, cumplimiento de supuestos e interpretación práctica.

10. Informe ejecutivo

Con el objetivo de asesorar la compra de dos viviendas solicitadas por una compañía internacional para ubicar a sus empleados en la ciudad de Cali, se realizó un análisis estadístico utilizando la base de datos de ofertas de vivienda disponibles en el mercado.

El análisis se desarrolló mediante técnicas de análisis exploratorio de datos y modelos de regresión lineal múltiple con el fin de identificar los principales factores que influyen en el precio de las viviendas y estimar valores esperados para inmuebles con características específicas.

Los resultados muestran que variables como el área construida, el estrato socioeconómico, el número de habitaciones, baños y parqueaderos tienen una relación positiva con el precio de las viviendas. En particular, el área construida y el estrato se identifican como los factores más influyentes en la determinación del valor de mercado de los inmuebles.

El modelo estimado presenta un nivel adecuado de ajuste y capacidad predictiva, lo que permite utilizarlo como una herramienta de apoyo para estimar precios y comparar ofertas disponibles en el mercado. Asimismo, las pruebas de diagnóstico realizadas indican que no existen problemas significativos de multicolinealidad ni violaciones graves de los supuestos del modelo.

A partir de estas estimaciones se realizaron predicciones para las viviendas solicitadas y se identificaron ofertas potenciales que cumplen con las características requeridas y con los límites de crédito preaprobados establecidos por el cliente (350 millones para la primera vivienda y 850 millones para la segunda).

Finalmente, se presentan en el informe varias opciones de viviendas que podrían satisfacer las necesidades del cliente, junto con su ubicación geográfica y características principales, con el fin de facilitar la toma de decisiones en el proceso de compra.

Principales hallazgos

  1. Se construyeron dos subconjuntos de datos:

    • base1: casas ubicadas en zona Norte.
    • base2: apartamentos ubicados en zona Sur.
  2. El análisis exploratorio mostró que el área construida es una de las variables más relacionadas con el precio en ambos casos. También se observaron asociaciones con el estrato, el número de baños, habitaciones y parqueaderos.

  3. Se estimaron dos modelos de regresión lineal múltiple, uno para cada solicitud, utilizando variables estructurales de la vivienda.

  4. Los modelos fueron evaluados con un set de prueba, obteniendo indicadores de desempeño como RMSE, MAE y \(R^2\), lo que fortalece la validez del ejercicio frente a la rúbrica.

  5. Se validaron los supuestos del modelo mediante análisis de residuos, prueba de normalidad, heterocedasticidad y multicolinealidad.

Recomendación para la solicitud 1

El valor estimado para una casa de 200 m², 1 parqueadero, 2 baños, 4 habitaciones y estrato entre 4 y 5, ubicada en la zona Norte, se aproxima al valor predicho por el modelo. Además, se identificaron cinco ofertas potenciales dentro del presupuesto máximo de 350 millones, priorizando inmuebles con características similares.

Recomendación para la solicitud 2

El valor estimado para un apartamento de 300 m², 3 parqueaderos, 3 baños, 5 habitaciones y estrato entre 5 y 6, ubicado en la zona Sur, se aproxima al valor predicho por el segundo modelo. También se identificaron cinco ofertas compatibles con el presupuesto máximo de 850 millones.

Conclusión

Los resultados obtenidos muestran que la regresión lineal múltiple es una herramienta adecuada para modelar el precio de las viviendas a partir de sus características estructurales y socioeconómicas.

Variables como el área construida, el estrato, el número de habitaciones, baños y parqueaderos mostraron una relación significativa con el precio, lo que coincide con el comportamiento esperado del mercado inmobiliario.

A partir de los modelos estimados fue posible predecir el valor esperado de las viviendas solicitadas e identificar ofertas potenciales que cumplen con las características requeridas y con los límites de presupuesto establecidos por el cliente.

En conclusión, el análisis desarrollado proporciona una base cuantitativa sólida para apoyar la toma de decisiones en la selección de inmuebles.