Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Por lo que este informe busca dar asesoría para la compra de dos viviendas teniendo en cuenta las siguientes condiciones:
| Caracteristicas | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| area construida | 200 | 300 |
| Parqueaderos | 1 | 3 |
| Banos | 2 | 3 |
| habitaciones | 4 | 5 |
| Estrato | 4 o 5 | 5 o 6 |
| Zona | Norte | Sur |
| crédito preaprobado | 350 millones | 850 millones |
De acuerdo a la base de datos y a la solicitud de la empresa se obtuvo 5 ofertas que pueden ser analizadas por parte de la inmobiliaria y del potencial comprador
Se obtuvo un modelo lineal múltiple con un R2 de 65.48%, indicando que el modelo explica en un 65.48% la variablididad presentada en el precio y su ajuste a este modelo, como se muestra a continuación:
Precio: -251.05 + 0.81área de construcción + 84.61estrato + 0.95numero de habitaciones + 16.55número de parqueaderos + 24.57*número de baños
Sin embargo, el modelo tiene inconsistencias con el cumplimiento de supuestos de normalidad, homocedasticidad e independecia y se debe tener en cuenta que se encontraron datos atipicos a los cuales se les debe hacer tratamiento.
Ofertas:
Se proponen 5 ofertas que cumplen con los requerimientos de casas que se encuentran ubicadas en la zona Norte, sus precios oscilan en los $350000000 millones de pesos COP como se observa en la siguiente tabla:
| ID | Barrio | Área de construcción | Estrato | N. parquederos | N. Baños | N. habitaciones |
|---|---|---|---|---|---|---|
| 4210 | Barrio el bosque | 200 | 3 | 3 | 4 | 5 |
| 1842 | Vipasa | 240 | 2 | 3 | 4 | 5 |
| 1163 | La merced | 216 | 2 | 2 | 4 | 5 |
| 819 | La Flora | 264 | 2 | 3 | 4 | 5 |
| 937 | La merced | 280 | 2 | 3 | 4 | 4 |
base1 <- vivienda %>% filter(tipo == "Casa", zona == "Zona Norte")
head(base1, 3)
# A tibble: 3 × 13
id zona piso estrato preciom areaconst parqueaderos banios habitaciones
<dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1209 Zona N… 02 5 320 150 2 4 6
2 1592 Zona N… 02 5 780 380 2 3 3
3 4057 Zona N… 02 6 750 445 2 7 6
# ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
| Zona | Frecuencia |
|---|---|
| Zona Norte | 722 |
| Tipo de Vivienda | Frecuencia |
|---|---|
| Casa | 722 |
mapa <- leaflet(data = base1) %>%
addTiles() %>%
addMarkers(lng = ~longitud, lat = ~latitud)
# Mostrar el mapa
mapa
En el mapa se observa que aparecen puntos fuera de la zona norte, esto puede deberse a:
Errores los datos: pudo haber una inadecuada clasificación de zonas en la base de datos.
Coordenadas incorrectas o valores mal ingresados en la fuente de datos.
Imprecisión en la definición de la zona norte: La definición de la zona norte puede variar dependiendo de quién la establezca. Podría haber áreas que, aunque generalmente se consideren como parte de la zona norte, no cumplen estrictamente con los límites definidos.
Cambios en la geografía: Los límites de las zonas pueden cambiar con el tiempo debido al desarrollo urbano, cambios en las infraestructuras, entre otros factores.
Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Para determinar que coeficiente de correlación es el más adecuado utilizar se decidio realizar pruebas de normalidad a las variables de estudio:
A partir de la prueba de normalidad se decide realizar la prueba de correlación de Spearman
library(PerformanceAnalytics)
vars_cor <- base1 %>%
select(preciom, areaconst, estrato, banios, habitaciones,parqueaderos)
plot= chart.Correlation(vars_cor, histogram = TRUE, method = "spearman")
ggplotly(plot)
Interpretación: Se observa una correlación positiva altamente significativa alta entre el precio de la vivienda y el área de construcción de la vivienda (0.81), de igual forma entre el precio y el estrato (0.71) el area de construcción y el estrato.
El precio presenta una correlación positiva moderada altamente significativa con el numero de baños de la vivienda (0.62) y de igual forma con el número de habitaciones (0.40). En el caso del precio y el número de parqueaderos estas variables presentan una correlación positiva baja (0.30).
De igual forma se observa una correlación positiva moderada altamente significativa entre el número de baños y el número de habitaciones (0.58), el estrato y el número de baños (0.45), el área de construcción y el número de baños (0.55).
modelo_completo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = base1)
summary(modelo_completo)
Call:
lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
banios, data = base1)
Residuals:
Min 1Q Median 3Q Max
-924.94 -77.71 -17.66 45.90 1081.29
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -251.05177 30.11848 -8.335 3.94e-16 ***
areaconst 0.81090 0.04352 18.634 < 2e-16 ***
estrato 84.61108 7.17727 11.789 < 2e-16 ***
habitaciones 0.95948 4.10569 0.234 0.81529
parqueaderos 16.55976 5.70396 2.903 0.00381 **
banios 24.57669 5.35583 4.589 5.26e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 158.2 on 716 degrees of freedom
Multiple R-squared: 0.6548, Adjusted R-squared: 0.6524
F-statistic: 271.6 on 5 and 716 DF, p-value: < 2.2e-16
Interpretación:
Intercepto (-251.05): El precio base de una vivienda cuando todas las variables son 0 (no tiene sentido logico su interpretación).
Área construida (0.8109, p < 0.001): Cada unidad de metro cuadrado adicional aumenta el precio en 0.81 millones de COP (810,900 COP).
Estrato (84.61, p < 0.001): Por cada aumento en un nivel de estrato, el precio sube en 84.61 millones de COP.
Número de habitaciones (0.96, p = 0.815): Por cada habitación que aumenta el precio seria de 0.96 millones de COP (960,900 COP). sin embargo este parámetro no es significativo.
Número de parqueaderos (16.56, p = 0.0038): Un parqueadero adicional aumenta el precio en 16.56 millones de COP.
Número de baños (24.57, p < 0.001): por cada unidad de baño que aumenta el precio aumenta 24.57 millones de COP.
Coeficiente de determinación El modelo con todas variables regresoras explica en un 65.48% de la variabilidad presentada en el precio de las viviendas
Recomendaciones para mejorar el modelo se puede buscar las variables que presenten el mejor ajuste y aquellas que sean significativas para la variable dependiente:
| Modelo | R2_Ajustado | AIC |
|---|---|---|
| Completo | 0.6523753 | 9369.382 |
| Sin Área Construida | 0.4845071 | 9652.858 |
| Sin Estrato | 0.5854806 | 9495.459 |
| Sin Habitaciones | 0.6528336 | 9367.438 |
| Sin Parqueaderos | 0.6487736 | 9375.832 |
| Sin Baños | 0.6426511 | 9388.310 |
Interpretación: Al revisar cada una de las variables predictoras se recomiendan descartar del modelo el numero de habitaciones para que el ajuste del modelo aumente, dado que esta variable no presenta significancia estadística. De igual forma se puede considerar la normalización de las variables lo que puede ayudar a evitar problemas de sesgo debido a la disparidad en las escalas y puede mejorar la estabilidad numérica del modelo.
| Supuesto | P_Valor | Interpretación |
|---|---|---|
| Normalidad (Shapiro-Wilk) | 0e+00 | No Normal |
| Normalidad (Lilliefors) | 0e+00 | No Normal |
| Homocedasticidad (Breusch-Pagan) | 0e+00 | Heterocedasticidad |
| Independencia (Durbin-Watson) | 3e-07 | Autocorrelación |
| Multicolinealidad (Promedio VIF) | NA | No Multicolinealidad |
Multicolinealidad
areaconst estrato habitaciones parqueaderos banios
1.523989 1.433058 1.621630 1.120670 1.918323
[1] 1.523534
Interpretación Se puede inferir que el modelo no cumple con los supuestos:
Normalidad:los residuales no presentan normalidad (p valor=2.2e-16).
Homoscedasticidad: los datos del modelo presentan heterogeneidad de varianza (p valor=2.2e-16).
Independencia: los residuales estan autocorrelacionados (p valor= 2.93e-07).
Multicolinealidad: las variables no presentan multicolinealidad (VIF promedio 1.52).
Por lo que es importante revisar los datos atípicos y realizar pruebas no parámetricas.
# Diagnóstico gráfico de residuos
par(mfrow=c(2,2)) # Dividir la pantalla en 4 gráficos
plot(modelo_completo) # Gráficos de diagnóstico
Residuals vs Fitted y scale-Location: se observa que no se presenta homocedasticidad.
Q-Q Residuals: los residuales no presentan normalidad
Residuals vs Leverage: Se encuentran valores influyentes como el punto 632.
Estrato Precio_Predicho Limite_Inferior Limite_Superior
1 4 319.12 299.39 338.86
2 5 403.74 377.23 430.24
Interpretación: El precio estimado de acuerdo a las caracterisiticas solicitadas de Zona, tipo de vivienda, precio, estrato, habitaciones, parquederos, baños y área de construcción con un nivel de confianza del 95% es de $319.120.000 millones pesos colombianos para el estrato 4 y $403.740.000 millones pesos colombianos para el estrato 5.
# A tibble: 5 × 13
id zona piso estrato preciom areaconst parqueaderos banios habitaciones
<dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 4210 Zona N… 01 5 350 200 3 3 4
2 819 Zona N… 02 5 350 264 2 3 4
3 937 Zona N… 02 4 350 280 2 3 4
4 1163 Zona N… 2 5 350 216 2 2 4
5 1842 Zona N… 02 5 350 240 2 3 4
# ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Ofertas
Se encontraron 5 ofertas que cumplen con el requerimiento del cliente como se describe a continuación:
Oferta 1: vivienda con ID 4210 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 200m2, 3 parquederos, 3 baños y 4 habitaciones, de un piso, la cual queda ubicada en el barrio el bosque.
Oferta 2: vivienda con ID 819 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 264m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la flora.
Oferta 3: vivienda con ID 937 ubicada en la zona norte, estrato 4, precio de $35000000 millones una área construida de 280m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la merced.
Oferta 4: vivienda con ID 1163 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 216m2, 2 parquederos, 2 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la merced.
Oferta 5: vivienda con ID 1842 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 240m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la vipasa.