1 Introducción

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Por lo que este informe busca dar asesoría para la compra de dos viviendas teniendo en cuenta las siguientes condiciones:

Tabla 1. Caracteristicas viviendas
Caracteristicas Vivienda 1 Vivienda 2
Tipo Casa Apartamento
area construida 200 300
Parqueaderos 1 3
Banos 2 3
habitaciones 4 5
Estrato 4 o 5 5 o 6
Zona Norte Sur
crédito preaprobado 350 millones 850 millones

2 Informe ejecutivo

De acuerdo a la base de datos y a la solicitud de la empresa se obtuvo 5 ofertas que pueden ser analizadas por parte de la inmobiliaria y del potencial comprador

Se obtuvo un modelo lineal múltiple con un R2 de 65.48%, indicando que el modelo explica en un 65.48% la variablididad presentada en el precio y su ajuste a este modelo, como se muestra a continuación:

Precio: -251.05 + 0.81área de construcción + 84.61estrato + 0.95numero de habitaciones + 16.55número de parqueaderos + 24.57*número de baños

Sin embargo, el modelo tiene inconsistencias con el cumplimiento de supuestos de normalidad, homocedasticidad e independecia y se debe tener en cuenta que se encontraron datos atipicos a los cuales se les debe hacer tratamiento.

Ofertas:

Se proponen 5 ofertas que cumplen con los requerimientos de casas que se encuentran ubicadas en la zona Norte, sus precios oscilan en los $350000000 millones de pesos COP como se observa en la siguiente tabla:

Oferta de casas Zona Norte
ID Barrio Área de construcción Estrato N. parquederos N. Baños N. habitaciones
4210 Barrio el bosque 200 3 3 4 5
1842 Vipasa 240 2 3 4 5
1163 La merced 216 2 2 4 5
819 La Flora 264 2 3 4 5
937 La merced 280 2 3 4 4

3 ANEXOS

  1. Se filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
base1 <- vivienda %>%  filter(tipo == "Casa", zona == "Zona Norte") 
head(base1, 3)
# A tibble: 3 × 13
     id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
  <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
1  1209 Zona N… 02          5     320       150            2      4            6
2  1592 Zona N… 02          5     780       380            2      3            3
3  4057 Zona N… 02          6     750       445            2      7            6
# ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Frecuencia de Viviendas por Zona
Zona Frecuencia
Zona Norte 722
Frecuencia de Viviendas por Tipo
Tipo de Vivienda Frecuencia
Casa 722
mapa <- leaflet(data = base1) %>%
  addTiles() %>%
  addMarkers(lng = ~longitud, lat = ~latitud)
# Mostrar el mapa
mapa

En el mapa se observa que aparecen puntos fuera de la zona norte, esto puede deberse a:

  • Errores los datos: pudo haber una inadecuada clasificación de zonas en la base de datos.

  • Coordenadas incorrectas o valores mal ingresados en la fuente de datos.

  • Imprecisión en la definición de la zona norte: La definición de la zona norte puede variar dependiendo de quién la establezca. Podría haber áreas que, aunque generalmente se consideren como parte de la zona norte, no cumplen estrictamente con los límites definidos.

  • Cambios en la geografía: Los límites de las zonas pueden cambiar con el tiempo debido al desarrollo urbano, cambios en las infraestructuras, entre otros factores.

3.1 Análisis explorarorio

Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

Para determinar que coeficiente de correlación es el más adecuado utilizar se decidio realizar pruebas de normalidad a las variables de estudio:

A partir de la prueba de normalidad se decide realizar la prueba de correlación de Spearman

library(PerformanceAnalytics)
vars_cor <- base1 %>%
  select(preciom, areaconst, estrato, banios, habitaciones,parqueaderos)
plot= chart.Correlation(vars_cor, histogram = TRUE, method = "spearman")

ggplotly(plot)

Interpretación: Se observa una correlación positiva altamente significativa alta entre el precio de la vivienda y el área de construcción de la vivienda (0.81), de igual forma entre el precio y el estrato (0.71) el area de construcción y el estrato.

El precio presenta una correlación positiva moderada altamente significativa con el numero de baños de la vivienda (0.62) y de igual forma con el número de habitaciones (0.40). En el caso del precio y el número de parqueaderos estas variables presentan una correlación positiva baja (0.30).

De igual forma se observa una correlación positiva moderada altamente significativa entre el número de baños y el número de habitaciones (0.58), el estrato y el número de baños (0.45), el área de construcción y el número de baños (0.55).

3.2 Estimación del modelo

  1. Se estimó un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deben estár contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
modelo_completo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = base1)
summary(modelo_completo)

Call:
lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
    banios, data = base1)

Residuals:
    Min      1Q  Median      3Q     Max 
-924.94  -77.71  -17.66   45.90 1081.29 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -251.05177   30.11848  -8.335 3.94e-16 ***
areaconst       0.81090    0.04352  18.634  < 2e-16 ***
estrato        84.61108    7.17727  11.789  < 2e-16 ***
habitaciones    0.95948    4.10569   0.234  0.81529    
parqueaderos   16.55976    5.70396   2.903  0.00381 ** 
banios         24.57669    5.35583   4.589 5.26e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 158.2 on 716 degrees of freedom
Multiple R-squared:  0.6548,    Adjusted R-squared:  0.6524 
F-statistic: 271.6 on 5 and 716 DF,  p-value: < 2.2e-16

Interpretación:

Intercepto (-251.05): El precio base de una vivienda cuando todas las variables son 0 (no tiene sentido logico su interpretación).

Área construida (0.8109, p < 0.001): Cada unidad de metro cuadrado adicional aumenta el precio en 0.81 millones de COP (810,900 COP).

Estrato (84.61, p < 0.001): Por cada aumento en un nivel de estrato, el precio sube en 84.61 millones de COP.

Número de habitaciones (0.96, p = 0.815): Por cada habitación que aumenta el precio seria de 0.96 millones de COP (960,900 COP). sin embargo este parámetro no es significativo.

Número de parqueaderos (16.56, p = 0.0038): Un parqueadero adicional aumenta el precio en 16.56 millones de COP.

Número de baños (24.57, p < 0.001): por cada unidad de baño que aumenta el precio aumenta 24.57 millones de COP.

Coeficiente de determinación El modelo con todas variables regresoras explica en un 65.48% de la variabilidad presentada en el precio de las viviendas

Recomendaciones para mejorar el modelo se puede buscar las variables que presenten el mejor ajuste y aquellas que sean significativas para la variable dependiente:

Comparación de Modelos
Modelo R2_Ajustado AIC
Completo 0.6523753 9369.382
Sin Área Construida 0.4845071 9652.858
Sin Estrato 0.5854806 9495.459
Sin Habitaciones 0.6528336 9367.438
Sin Parqueaderos 0.6487736 9375.832
Sin Baños 0.6426511 9388.310

Interpretación: Al revisar cada una de las variables predictoras se recomiendan descartar del modelo el numero de habitaciones para que el ajuste del modelo aumente, dado que esta variable no presenta significancia estadística. De igual forma se puede considerar la normalización de las variables lo que puede ayudar a evitar problemas de sesgo debido a la disparidad en las escalas y puede mejorar la estabilidad numérica del modelo.

3.3 Validación de supuestos del modelo

  1. Se realizó la validación de supuestos del modelo e interpretó los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
Validación de Supuestos del Modelo
Supuesto P_Valor Interpretación
Normalidad (Shapiro-Wilk) 0e+00 No Normal
Normalidad (Lilliefors) 0e+00 No Normal
Homocedasticidad (Breusch-Pagan) 0e+00 Heterocedasticidad
Independencia (Durbin-Watson) 3e-07 Autocorrelación
Multicolinealidad (Promedio VIF) NA No Multicolinealidad

Multicolinealidad

   areaconst      estrato habitaciones parqueaderos       banios 
    1.523989     1.433058     1.621630     1.120670     1.918323 
[1] 1.523534

Interpretación Se puede inferir que el modelo no cumple con los supuestos:

Normalidad:los residuales no presentan normalidad (p valor=2.2e-16).

Homoscedasticidad: los datos del modelo presentan heterogeneidad de varianza (p valor=2.2e-16).

Independencia: los residuales estan autocorrelacionados (p valor= 2.93e-07).

Multicolinealidad: las variables no presentan multicolinealidad (VIF promedio 1.52).

Por lo que es importante revisar los datos atípicos y realizar pruebas no parámetricas.

# Diagnóstico gráfico de residuos
par(mfrow=c(2,2))  # Dividir la pantalla en 4 gráficos
plot(modelo_completo)  # Gráficos de diagnóstico

Residuals vs Fitted y scale-Location: se observa que no se presenta homocedasticidad.

Q-Q Residuals: los residuales no presentan normalidad

Residuals vs Leverage: Se encuentran valores influyentes como el punto 632.

3.4 Predicción de precio

  1. Con el modelo identificado se predijo el precio de la vivienda con las características de la primera solicitud.
  Estrato Precio_Predicho Limite_Inferior Limite_Superior
1       4          319.12          299.39          338.86
2       5          403.74          377.23          430.24

Interpretación: El precio estimado de acuerdo a las caracterisiticas solicitadas de Zona, tipo de vivienda, precio, estrato, habitaciones, parquederos, baños y área de construcción con un nivel de confianza del 95% es de $319.120.000 millones pesos colombianos para el estrato 4 y $403.740.000 millones pesos colombianos para el estrato 5.

3.5 Ofertas potenciales

  1. Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga en cuenta que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
# A tibble: 5 × 13
     id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
  <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
1  4210 Zona N… 01          5     350       200            3      3            4
2   819 Zona N… 02          5     350       264            2      3            4
3   937 Zona N… 02          4     350       280            2      3            4
4  1163 Zona N… 2           5     350       216            2      2            4
5  1842 Zona N… 02          5     350       240            2      3            4
# ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Ofertas

Se encontraron 5 ofertas que cumplen con el requerimiento del cliente como se describe a continuación:

Oferta 1: vivienda con ID 4210 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 200m2, 3 parquederos, 3 baños y 4 habitaciones, de un piso, la cual queda ubicada en el barrio el bosque.

Oferta 2: vivienda con ID 819 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 264m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la flora.

Oferta 3: vivienda con ID 937 ubicada en la zona norte, estrato 4, precio de $35000000 millones una área construida de 280m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la merced.

Oferta 4: vivienda con ID 1163 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 216m2, 2 parquederos, 2 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la merced.

Oferta 5: vivienda con ID 1842 ubicada en la zona norte, estrato 5, precio de $35000000 millones una área construida de 240m2, 2 parquederos, 3 baños y 4 habitaciones, de dos pisos, la cual queda ubicada en el barrio la vipasa.