Carolina de la Espriella Alvarez

Introducción

Descripción del caso

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

María requiere realizar una cotización con base en dos solicitudes específicas, las cuales se desarrollarán con ayuda de un Modelo de Regresión Líneal Múltiple MRLM.

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
área construida (m²) 200 300
parqueaderos 1 3
baños 2 3
habitaciones 4 5
estrato 4 o 5 5 o 6
zona Norte Sur
crédito preaprobado 350 millones 850 millones

Revisión general dataset

Antes de iniciar el proceso para dar respuesta a las dos solicitudes, se realiza una revisión general de los datos para tener mejor contexto del caso, donde se identifican las características principales de cada atributo:

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Caso 1: Zona Norte

Filtrado del dataset

Inicialmente, se realiza un filtro de las viviendas categorizadas como “Casa” y ubicadas en la zona norte y como verificación, se presentan los primeros tres resultados de la tabla resultante y el mapa para validar que los puntos efectivamente se encuentran en la zona norte.

## [1] 722
## 
## Casa 
##  722
## 
## Zona Norte 
##        722
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445           NA      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Como se evidencia en el mapa, hay un claro problema con el etiquetado previo de los datos en general, lo cual se debería reportar posteriormente al área de recolección de datos, para validar si hay algún problema en la manera en que se categorizan los datos y definir posibles mejoras para el proceso. Por otro lado, continuando con el objeto de este informe, se debe definir otra estrategia para la clasificación de la ubicación de las viviendas, que permita obtener resultados adecuados. Por lo tanto, se decide filtrar con las coordenadas de latitud y longitud que corresponden al norte en la ciudad de Santiago de Cali generando una caja con las viviendas de interés:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   3.333   3.381   3.416   3.418   3.452   3.498       3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  -76.59  -76.54  -76.53  -76.53  -76.52  -76.46       3

Correlación de las variables

Ahora, se procede a realizar un análisis exploratorio de datos enfocado en la correlación en función del área construida, estrato, numero de baños, numero de habitaciones:

##       variable correlacion      p_value
## 1    areaconst   0.7417923 1.522993e-98
## 2      estrato   0.6189406 2.620986e-60
## 3       banios   0.5515523 9.880879e-46
## 4 habitaciones   0.3458676 4.003598e-17

Interpretación

  • Área construida: r≈0.742 (p ≪ 0.001). En este mercado, el precio crece fuertemente con el metraje, lo cual se acerca a una relación prácticamente lineal en promedio. Esto confirma que la capacidad explicativa principal del precio es el tamaño del inmueble.

  • Estrato: r≈0.619 (p ≪ 0.001). A mayor estrato, mayor precio de oferta, lo cual refleja aumentos en el precio debido a la calidad de entorno, lo cual era esperado en teniendo en cuenta las dinámicas sociales del país.

  • Baños: r≈0.552 (p ≪ 0.001). Se observa una correlación media, lo cual podría estar asociado a que a mayor área de la vivienda, se espera una mayor cantidad de baños.

  • Habitaciones: r≈0.346 (p ≪ 0.001). Se observa que habitaciones cuenta con la correlación más baja de las variables objeto de estudio que, aunque el sentido es positivo, su fuerza menor sugiere que “más cuartos” sin mayor metraje añadido no necesariamente incrementa precio en la misma proporción que baños o área.

En resumen, el orden de importancia bivariada con el precio de la vivienda es Área -> Estrato -> Baños -> Habitaciones.

Gráficas

La matriz tipo ggpairs muestra nubes ascendentes y correlaciones positivas entre varias características de tamaño/calidad, como área con baños, área con habitaciones y estrato con atributos del inmueble. Esto podría tener dos puntos de vista para su interpretación:

  • En el contexto de bienes raíces: las viviendas “mejor posicionadas” (mayor estrato) tienden a ofrecer más metraje y equipamiento (más baños, más parqueaderos…), debido a que las personas que buscan viviendas en estos estratos, buscan un nivel de comfort mayor.

  • En el contexto del modelado estadístico: Se observan ligeras asociaciones entre algunas variables explicativas, como baños y habitaciones, lo cual es un indicativo colinealidad moderada. Sin embargo, en términos generales se observa una correlación adecuada entre las variables explicativas y la de respuesta.

Modelo de MRLM

En esta sección se presenta el entrenamiento del MRLM, en el cual, debido a que se cuenta con la variable de estrato, se decidió evaluar si tomar la variable “estrato” como numérica o como categórica tendría un impacto positivo en la exactitud de las predicciones del modelo. Esto, debido a que a pesar de que la variable estrato es discreta, corresponde a una variable categórica en la que sería incorrecto interpretarla como numérica.

A continuación, se presentan los resultados del modelo tomando a estrato como numérica, y luego como categórica tomando el estrato 4 como referencia para las nuevas variables:

##                  Estimate  Std. Error    t value     Pr(>|t|)
## (Intercept)  -207.9526839 49.67697189 -4.1860982 3.564707e-05
## areaconst       0.6806102  0.05632557 12.0835036 1.745866e-28
## estrato        82.4899708 11.19155066  7.3707365 1.156714e-12
## banios         21.7095374  8.92370212  2.4327949 1.546513e-02
## habitaciones   -5.7084035  6.32254232 -0.9028652 3.671962e-01
## parqueaderos   30.7055958  6.41304247  4.7879920 2.457211e-06
## [1] 0.6126568
## [1] 0.6073215
##        value 
## 1.554681e-72

1) Modelo A — estrato tratado como numérico

Ecuación:

\(precio = −207.95 + 0.6806area + 82.49estrato + 21.71baños − 5.71habitaciones + 30.71parqueaderos\)

Ajuste global: \(R^2=0.613\); \(R^2_{adj}=0.607\); prueba F global con \(p-valor ≈ 1.55×10^{−72}\)

A partir del ajuste global se puede decir de manera general que el modelo es altamente significativo.

Coeficientes:

  • Área construida: +0.6806 por m², lo cual equivale a $680 mil/m² y, teniendo en cuenta su valor p (1.74^-28) se puede considerar como significativo para la predicción.

  • Estrato: +82.49 por cada nivel adicional en el estrato. Sin embargo, genera la suposición, de que la diferencia entre 3→4, 4→5 y 5→6 valen lo mismo. Asimismo, se puede considerar como muy significativo.

  • Baños:+21.71 por baño. Significativo (Valor p = 1.54^-2).

  • Parqueaderos:+30.71 por parqueadero. Significativo (Valor p = 2.45^-6).

  • Habitaciones: −5.71 por habitación, no significativo (p≈0.37). Esto se puede dar, debido a la correlación identificada previamente entre los predictores con esta variable, en las cuales una vez se fija área y baños, “más cuartos” no cambia el precio de forma estadísticamente detectable, en otras palabras, el metraje y los baños ya capturan la mayor parte del valor.

Teniendo en cuenta estos resultados, este modelo es útil para la estimación requerida, pero el supuesto de que los saltos de estrato son equidistantes puede ser restrictivo para la realidad del mercado.

# 2) Modelo con estrato como categórico con estrato 4 como referencia
df$estrato_f <- stats::relevel(factor(df$estrato), ref = "4")
m_fac <- lm(preciom ~ areaconst + estrato_f + banios + habitaciones + parqueaderos, data = df)
sm_fac <- summary(m_fac)
sm_fac$coefficients
##                 Estimate  Std. Error    t value     Pr(>|t|)
## (Intercept)  139.8380589 31.48970894  4.4407543 1.193241e-05
## areaconst      0.6630537  0.05441664 12.1847598 7.641096e-29
## estrato_f3   -73.4958358 26.08291251 -2.8177772 5.101894e-03
## estrato_f5    47.9114828 20.45555144  2.3422240 1.971202e-02
## estrato_f6   307.3746339 36.76133286  8.3613572 1.363598e-15
## banios        16.9956803  8.78922824  1.9336943 5.393218e-02
## habitaciones  -3.4623986  6.12675577 -0.5651276 5.723380e-01
## parqueaderos  30.4473807  6.17221605  4.9329739 1.238314e-06
sm_fac$r.squared
## [1] 0.6432286
sm_fac$adj.r.squared
## [1] 0.6363106
# p-valor global del modelo
pf(sm_fac$fstatistic[1], sm_fac$fstatistic[2], sm_fac$fstatistic[3], lower.tail = FALSE)
##        value 
## 7.256333e-77

2) Modelo B — estrato como categórico (base = 4)

Ecuación:

\(precio=139.84+0.6650+área−73.501_{(𝐸=3)}+47.911_{(𝐸=5)}+307.351_{(𝐸=6)}+16.996baños−3.46habitaciones+40.45parqueaderos\)

(Los términos \(1_{(𝐸=𝑘)}\) son dummies vs. estrato 4).

Ajuste global: \(R^2=0.643\); \(R_{adj}=0.636\); \(p-valor F≈7.26×10^{−77}\). De acuerdo con estos resultados, se puede concluir de manera general que este modelo es más significativo.

Coeficientes (dif. vs estrato 4):

  • Área construida:+0.6650 por m² ⇒ ~$665 mil/m². Muy significativo.

  • Estrato 3:−73.50 menos que estrato 4 (p≈0.005) ⇒ descuento relevante por ubicarse en E3.

  • Estrato 5:+47.91 más que estrato 4 (p≈0.019) ⇒ prima moderada.

  • Estrato 6: +307.35 más que estrato 4 (p≈1.3e-06) ⇒ prima muy alta; el salto 5→6 no es comparable al 4→5, lo que justifica tratar estrato como factor.

  • Baños:+16.996 por baño, marginalmente significativo (p≈0.054): la señal es positiva pero con menor evidencia que en el Modelo A, consistente con la colinealidad con área.

  • Parqueaderos: +40.45 por parqueadero. Muy significativo.

  • Habitaciones: −3.46, no significativo: una vez controlados m²/baños, el conteo de cuartos no explica precio adicional.

De acuerdo con estos resultados, se puede decir que este modelo captura correctamente que los saltos de estrato no son lineales, debido a que entrega mejor ajuste y una interpretación más fiel del mercado: tamaño, estrato como niveles, parqueaderos y, en menor medida, baños y habitaciones.

Validación de supuestos

Interpretación 1. Residuals vs Fitted: Se evidencia una posible heterocedasticidad (la varianza del error crece con el nivel de precio) y una ligera falta de linealidad en la cola alta del mercado, es decir que los inmuebles más costosos muestran mayor dispersión de precios alrededor del valor esperado. 2. Q–Q Residuals: A pesar de que hay una gran cantidad de datos en el rango adecuado, se evidencia la no normalidad en los residuos, con una cola derecha marcada pesada. 3. Scale–Location: Se confirma la sospecha de heterocedasticidad, debido a que se esperaría que los datos estuvieran distribuidos de manera pareja, y se evidencia una aglomeración de éstos. 4. Residuals vs Leverage: Se evidencian observaciones influyentes, las cuales podrían retirarse para evaluar su impacto en los coeficientes.

Homocedasticidad

## Cargando paquete requerido: zoo
## 
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  studentized Breusch-Pagan test
## 
## data:  m_fac
## BP = 65.946, df = 7, p-value = 9.706e-12

Breusch-Pagan test: Con un valor p de \(9.706x10^{-12}\) se rechaza el supuesto de homocedasticidad y se puede decir que hay heterocedasticidad significativa. Esto, confirma lo observado en el gráfico de Residuals vs Fitted y la pendiente del Scale-Location. Esto indica que la dispersión de precios aumenta con el nivel del inmueble, es decir, que las viviendas mas prestigiosas tienen costos más volátiles y con un comportamiento mas impredecible.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuales
## W = 0.86695, p-value < 2.2e-16

Shapiro–Wilk: Con un valor p < 2.2e−16, el test rechaza de manera contundente la hipótesis nula de normalidad de los residuos. Esto es coherente con el Q–Q plot, donde se evidenciaron colas pesadas, en especial a la derecha, lo que sugiere observaciones de alto precio con residuales grandes.

## 
##  Durbin-Watson test
## 
## data:  m_fac
## DW = 1.9404, p-value = 0.2523
## alternative hypothesis: true autocorrelation is greater than 0

Durbin-Watson: Con un valor p de 0.2523, no hay evidencia para rechazar la hipótesis nula de independencia de los errores.

Recomendaciones para cumplir supuestos: - Atacar la heterocedasticidad: Se podría reexpresar la respuesta a escala logarítmica (precio en log), lo cual podría homogeneizar la dispersión y, además, aproxima la normalidad.

  • Gestionar observaciones influyentes: Se podría identificar los casos con alto leverage/Cook y hacer un control de calidad.

  • Reducir colinealidad: Área, baños y habitaciones están correlacionadas, se podrían priorizar aquellas que tengan mayor correlación y disminuir la colinealidad.

Respuesta a solicitud 1

A continuación, se presenta el resultado de la predicción con los datos especificados en la solicitud 1 con:

Características Vivienda 1
Tipo Casa
área construida (m²) 200
parqueaderos 1
baños 2
habitaciones 4
estrato 4 o 5
zona Norte
crédito preaprobado 350 millones
##                   perfil preciom
## 1 Casa Norte - Estrato 4   323.0
## 2 Casa Norte - Estrato 5   370.9

Con base en el requerimiento planteado, se espera que la casa requerida se encuentre entre 323 y 370 millones.

Principales ofertas para el cliente con la solicitud 1

## # A tibble: 2 × 7
##   barrio       estrato areaconst banios habitaciones parqueaderos preciom
##   <chr>          <dbl>     <dbl>  <dbl>        <dbl>        <dbl>   <dbl>
## 1 zona oriente       4       162      2            4            1     265
## 2 alamos             4       120      2            4            1     275

Con base en los requerimientos puntuales del cliente, no fue posible identificar una vivienda con exactamente 200 \(m^2\) construidos, por lo que se decidió cambiar el filtro por menor o igual, con el fin de presentarle al cliente algunas opciones que se asemejen a sus intereses.

Caso 2: Zona Norte

## [1] 2787
## 
## Apartamento 
##        2787
## 
## Zona Sur 
##     2787
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Como en el caso anterior, se evidencia un etiquetado incorrecto en la delimitación de la ubicación de las viviendas en la base de datos de la empresa. Por lo tanto, se implementa la misma estrategia para filtrar correctamente las viviendas:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   3.333   3.381   3.416   3.418   3.452   3.498       3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  -76.59  -76.54  -76.53  -76.53  -76.52  -76.46       3
## [1] 2787
## [1] 2393
## 
## Zona Sur 
##     2787
## 
## (-Inf,3.42] (3.42, Inf] 
##        2393           0

Correlación

##       variable correlacion       p_value
## 1    areaconst   0.7456542  0.000000e+00
## 3       banios   0.7209909  0.000000e+00
## 2      estrato   0.6577876 1.234910e-296
## 4 habitaciones   0.3097263  2.287046e-54

- Precio–Área (r≈0.746): relación fuerte y positiva, es decir a mayor metraje, mayor precio. La nube es casi lineal, con abanico en la cola alta, lo que indica que los inmuebles más caros son más dispersos)

- Precio–Estrato (r≈0.658): asociación alta, indica que los barrios de mayor estrato tienen mayor concentración.

- Precio–Baños (r≈0.721): relación fuerte, indica que la cantidad de baños agrega valor a los inmuebles, y se correlaciona con el tamaño.

- Precio–Habitaciones (r≈0.310): señal débil–media, más cuartos no elevan el precio tanto como área/baños.

- Precio–Parqueaderos (r≈0.712): relación fuerte entre las variables, lo cual indica que el mercado paga por espacio de parqueo, con dispersión mayor en la cola alta.

Modelo

##                 Estimate  Std. Error   t value     Pr(>|t|)
## (Intercept)    15.076409 12.54040239  1.202227 2.294182e-01
## areaconst       1.203233  0.05744998 20.944017 3.305238e-88
## estrato_f_s23 -57.468091 10.87028049 -5.286716 1.381516e-07
## estrato_f_s24 -17.033138  5.32817365 -3.196806 1.411321e-03
## estrato_f_s26 152.759275  7.18759980 21.253169 1.577048e-90
## banios         47.564514  3.84252302 12.378459 5.822867e-34
## habitaciones  -21.914860  4.45961771 -4.914067 9.647880e-07
## parqueaderos   73.750997  4.69012205 15.724750 1.287621e-52
## [1] 0.7640769
## [1] 0.7632495
## value 
##     0

Ecuación con estrato 5 como base: \(precio=15.07+1.20área-57.47_{E=3}-17.03_{E=4}+152_{E=6}+47.56baños-21.91habitaciones+73.75parqueaderos\)

El intercepto (15.1 M) no tiene lectura sustantiva —corresponde al precio cuando todas las X valen 0 y estrato=5—, se usa solo para ajustar el plano.

Ajuste global: \(R^2=0.764\); \(R_{adj}^2=0.763\) el 76% de la variabilidad del precio queda explicada por las X. La prueba F global arroja p-valor ≈ 0, por lo que el conjunto de regresores es altamente significativo.

Coeficientes:

  • Área construida: +1.203 M por cada m² adicional (p<1e-87). Es decir, ≈1,203,000 COP/m²; 10 m² extra≈ +12.0 M. Es el driver principal.

  • Estrato (dummies vs. 5):

E3: −57.5 M respecto a E5 (p≈1.38e-07) → descuento relevante por ubicarse en estrato 3. E4: −17.0 M vs. E5 (p≈1.41e-03) → descuento moderado. E6: +152.8 M vs. E5 (p≈1.58e-90) → prima muy alta; los saltos no son equidistantes (el 5→6 vale mucho más que 4→5).

  • Baños: +47.6 M por baño adicional (p<1e-33). El mercado paga con claridad por este atributo de confort.

  • Habitaciones: −21.9 M por habitación (p≈9.65e-07). Este signo negativo no implica que “más cuartos baja el precio” en general; indica que, a igual área y baños, repartir el mismo metraje en más habitaciones (cuartos más pequeños/lay-out más fraccionado) está asociado a menor precio esperado.

  • Parqueaderos: +73.8 M por parqueadero adicional (p≈1.29e-52), una de las primas más fuertes después del m².

## 
##  studentized Breusch-Pagan test
## 
## data:  mod_s2
## BP = 629.24, df = 7, p-value < 2.2e-16
## 
##  Shapiro-Wilk normality test
## 
## data:  resid_s2
## W = 0.76366, p-value < 2.2e-16
## 
##  Durbin-Watson test
## 
## data:  mod_s2
## DW = 1.6791, p-value = 2.388e-13
## alternative hypothesis: true autocorrelation is greater than 0

Gráficas

Residuals vs Fitted: Se evidencia heterocedasticidad, es decir, que la varianza del error aumenta con el valor ajustado, además de una ligera falta de linealidad en la cola alta. En otras palabras, los inmuebles más costosos presentan mayor dispersión del precio alrededor del valor esperado.

Q–Q Residuals: Aun cuando la mayoría de puntos sigue la recta central, se observa desviación en las colas, especialmente cola derecha pesada. Esto indica no normalidad de los residuos y presencia de valores extremos en el segmento alto.

Scale–Location: Se confirma la heterocedasticidad: la banda debería ser horizontal, pero se aprecia una pendiente ascendente, señal de que la dispersión crece conforme aumentan los valores ajustados (no están distribuidos de manera pareja a lo largo del rango).

Residuals vs Leverage: Se identifican observaciones influyentes (alto leverage y residuales grandes) cercanas a las curvas de Cook’s distance. Estas pueden distorsionar coeficientes e inferencia; conviene revisarlas y evaluar su impacto antes de decidir conservarlas o tratarlas.

Supuestos

Shapiro–Wilk: Con un valor p de \(2.2x10^{-16}\), el test rechaza de manera contundente la hipótesis nula de normalidad de los residuos. Esto es coherente con el Q–Q plot, donde se evidenciaron colas pesadas, en especial a la derecha, lo que sugiere observaciones de alto precio con residuales grandes.

Breusch-Pagan test: Con un valor p de \(2.2x10^{-16}\) se rechaza el supuesto de homocedasticidad y se puede decir que hay heterocedasticidad significativa. Esto, confirma lo observado en el gráfico de Residuals vs Fitted y la pendiente del Scale-Location. Esto indica que la dispersión de precios aumenta con el nivel del inmueble, es decir, que las viviendas mas prestigiosas tienen costos más volátiles y con un comportamiento mas impredecible.

Durbin-Watson: Con un valor p de \(2.38x10^{-13}\) se rechaza la hipótesis nula de independencia de los errores.

Respuesta a solicitud 1

A continuación, se presenta el resultado de la predicción con los datos especificados en la solicitud 2 con:

Características Vivienda 2
Tipo Apartamento
área construida (m²) 300
parqueaderos 3
baños 3
habitaciones 5
estrato 5 o 6
zona Sur
crédito preaprobado 850 millones
##                 perfil preciom
## 1 Apto Sur - Estrato 5   630.4
## 2 Apto Sur - Estrato 6   783.2

Con base en el requerimiento planteado, se espera que el apartamento requerido se encuentre entre 630 y 783 millones.

Principales ofertas para el cliente con la solicitud 2

## # A tibble: 0 × 7
## # ℹ 7 variables: barrio <chr>, estrato <dbl>, areaconst <dbl>, banios <dbl>,
## #   habitaciones <dbl>, parqueaderos <dbl>, preciom <dbl>

Lamentablemente, no se lograron indetificar viviendas que cumplan con todos los requerimientos del cliente. Por lo tanto, se hace una revisión general de los datos para estar seguro de que los rangos de las variables de interés en el dataset del sur, si contiene los valores requeridos para cada atributo:

##        id           zona               piso              estrato     
##  Min.   : 463   Length:2393        Length:2393        Min.   :3.000  
##  1st Qu.:2324   Class :character   Class :character   1st Qu.:4.000  
##  Median :3930   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4120                                         Mean   :4.645  
##  3rd Qu.:5787                                         3rd Qu.:5.000  
##  Max.   :8165                                         Max.   :6.000  
##                                                                      
##     preciom         areaconst       parqueaderos        banios    
##  Min.   :  70.0   Min.   : 40.00   Min.   : 1.000   Min.   :0.00  
##  1st Qu.: 175.0   1st Qu.: 65.00   1st Qu.: 1.000   1st Qu.:2.00  
##  Median : 245.0   Median : 84.00   Median : 1.000   Median :2.00  
##  Mean   : 297.6   Mean   : 97.48   Mean   : 1.405   Mean   :2.48  
##  3rd Qu.: 330.0   3rd Qu.:108.00   3rd Qu.: 2.000   3rd Qu.:3.00  
##  Max.   :1750.0   Max.   :932.00   Max.   :10.000   Max.   :8.00  
##                                    NA's   :389                    
##   habitaciones       tipo              barrio             longitud     
##  Min.   :0.000   Length:2393        Length:2393        Min.   :-76.56  
##  1st Qu.:3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :2.953                                         Mean   :-76.53  
##  3rd Qu.:3.000                                         3rd Qu.:-76.52  
##  Max.   :6.000                                         Max.   :-76.50  
##                                                                        
##     latitud     
##  Min.   :3.341  
##  1st Qu.:3.369  
##  Median :3.379  
##  Mean   :3.381  
##  3rd Qu.:3.395  
##  Max.   :3.416  
## 

Al evidenciar que los requerimientos sí están contenidos en los rangos de los atributos, se opta por buscar ofertas mas flexibles con el fin de ofrecerle al cliente algunas opciones cercanas:

## # A tibble: 5 × 7
##   barrio              estrato areaconst banios habitaciones parqueaderos preciom
##   <chr>                 <dbl>     <dbl>  <dbl>        <dbl>        <dbl>   <dbl>
## 1 pance                     6       185      2            2            2     840
## 2 ciudad jardin pance       6       213      3            3            2     833
## 3 pance                     6       213      3            3            2     820
## 4 ciudad jardín             6       168      3            3            2     780
## 5 ciudad jardín             6       200      3            3            2     760