Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
| Características | Vivienda1 | Vivienda2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| Área construida | 200 | 300 |
| Parqueaderos | 1 | 3 |
| Baños | 2 | 3 |
| Habitaciones | 4 | 5 |
| Estrato | 4 ó 5 | 5 ó 6 |
| Zona | Norte | Sur |
| Crédito preaprobado | 350 millones | 850 millones |
Ayude a María a responder la solicitud, mediante técnicas modelación que usted conoce. Ella requiere le envíe un informe ejecutivo donde analice los dos casos y sus recomendaciones (Informe). Como soporte del informe debe anexar las estimaciones, validaciones y comparación de modelos requeridos (Anexos).
Datos
Los datos de los tres últimos meses se adjuntan en la base que puede obtener con el siguiente código en R.
| Variable | Descripción |
|---|---|
| zona | Ubicación de la vivienda: Zona Centro, Zona Norte,… |
| piso | Piso que ocupa la vivienda: primer piso, segundo piso… |
| estrato | Estrato socio-económico: 3, 4, 5, 6 |
| preciom | Precio de la vivienda en millones de pesos |
| areaconst | Área construida |
| parqueaderos | Número de parqueaderos |
| banios | Número de baños |
| habitaciones | Número de habitaciones |
| tipo | Tipo de vivienda: Casa, Apartamento |
| barrio | Barrio de ubicación de la vivienda: 20 de Julio, álamos,… |
| longitud | Coordenada geográfica |
| latitud | Coordenada geográfica |
Solución:
INFORME EJECUTIVO
1. Introducción
María, como agente de bienes raíces y fundadora de C&A, ha recibido una solicitud de asesoría para la compra de dos viviendas para empleados de una compañía internacional en Cali. El objetivo de este informe es evaluar las opciones disponibles en el mercado y proporcionar recomendaciones basadas en un análisis estadístico de los factores determinantes del precio de las viviendas en la ciudad.
2. Criterios de selección de viviendas
De acuerdo con la solicitud, las viviendas deben cumplir con las siguientes condiciones:
3. Análisis estadístico y modelación
Se ha realizado un modelo de regresión múltiple para estimar el precio de las viviendas en función de sus características estructurales y de ubicación. Los principales hallazgos incluyen:
Las ecuaciones estimadas del modelo de regresión son:
Para Vivienda 1 (Casa):
\[ \begin{align} \hat{preciom} &= 37.705 + 0.724 \cdot \text{areaconst} + 78.052 \cdot \text{estrato4} \\ &\quad + 113.691 \cdot \text{estrato5} + 303.701 \cdot \text{estrato6} \\ &\quad + 13.253 \cdot \text{parqueaderos} + 6.784 \cdot \text{habitaciones} \\ &\quad + 17.933 \cdot \text{banios} \end{align} \] Para Vivienda 2 (Apartamento):
\[ \begin{align} \hat{preciom} &= -52.99 + 1.29 \cdot \text{areaconst} + 13.14 \cdot \text{estrato4} \\ &\quad + 24.42 \cdot \text{estrato5} + 171.69 \cdot \text{estrato6} \\ &\quad + 43.98 \cdot \text{baños} + 59.83 \cdot \text{parqueaderos} \end{align} \]
4. Recomendaciones
Se recomienda proceder con la búsqueda de propiedades que cumplan con los criterios definidos, asegurando que los precios estimados se alineen con los créditos preaprobados.
Para la Vivienda 1, se debe considerar el impacto del estrato en la valorización futura y la oferta limitada en la zona Norte. Además, el modelo indica que cada baño adicional aumenta el valor de la vivienda en aproximadamente 17.933 millones de pesos, y cada parqueadero adicional en 13.253 millones de pesos, lo que puede ser un factor clave en la selección final.
Para la Vivienda 2, se sugiere evaluar el mercado de apartamentos en el Sur y analizar la relación calidad-precio. El análisis muestra que cada parqueadero adicional incrementa el precio en 59.83 millones de pesos, lo que implica que una diferencia en la cantidad de parqueaderos podría influir significativamente en la valoración de la vivienda.
Se recomienda priorizar viviendas en estratos más altos si se busca un mayor potencial de valorización, dado que los coeficientes del modelo sugieren un impacto considerable en el precio final.
5. Conclusión
Este informe presenta un análisis basado en modelación estadística que permite una toma de decisiones fundamentada. Se recomienda revisar los anexos para un detalle técnico de los modelos utilizados y la validación de los resultados obtenidos.
ANEXO 1: CASAS DEL SECTOR NORTE
Paso 1: Filtro preliminar
Dado que la base de datos se encuentra con toda la información de las viviendas, es necesario filtrar inicialmente por casas > zona norte.
## # A tibble: 722 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <fct> <int> <fct> <int> <dbl> <int> <int> <int>
## 1 1209 Zona … 2 5 320 150 2 4 6
## 2 1592 Zona … 2 5 780 380 2 3 3
## 3 4057 Zona … 2 6 750 445 NA 7 6
## 4 4460 Zona … 2 4 625 355 3 5 5
## 5 6081 Zona … 2 5 750 237 2 6 6
## 6 7824 Zona … 2 4 600 160 1 4 5
## 7 7987 Zona … 2 5 420 200 4 4 5
## 8 3495 Zona … 3 5 490 118 2 4 4
## 9 141 Zona … NA 3 230 160 NA 2 3
## 10 243 Zona … NA 3 190 435 NA 0 0
## # ℹ 712 more rows
## # ℹ 4 more variables: tipo <fct>, barrio <fct>, longitud <dbl>, latitud <dbl>
Paso 2: Análisis latitud-longitud
Se analiza la latitud y longitud de las casas filtradas previamente.
De acuerdo con el gráfico anterior, se observan puntos de casas fuera de la zona norte. Por tal motivo, es necesario hacer un nuevo filtro para eliminar dichos errores de la base de datos.
Criterios del filtro:
El límite inferior se toma como criterio los datos hasta el Q1 dado que hay datos que contienen valores muy bajos de latitud/longitud y a través de este método quitamos el sesgo.
El limite superior es el máximo para cada uno de las variables (teniendo en cuenta que es la zona norte).
Los casas filtradas quedarían:
Paso 3: Análisis exploratorio
Inicialmente es necesario hacer un análisis de datos faltantes e imputación (si aplica).
## id zona piso estrato preciom areaconst
## 0 0 207 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 167 0 0 0 0 0
## latitud
## 0
Parqueaderos: En este contexto la variable parquedero es numérica discreta. Se asumió que los datos faltantes corresponden a encuestados que omitieron la respuesta porque no tienen parqueadero. Por lo tanto, se imputaron estos valores faltantes con 0, reflejando de manera coherente la ausencia de parqueaderos segun el significado de la variable.
Pisos: En este contexto la variable parquedero es numérica discreta. Se decidió imputar los valores faltantes utilizando la mediana del numero de pisos de las casas.
Recalculando el número de datos faltantes:
## id zona piso estrato preciom areaconst
## 0 0 0 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
También se verifica si hay datos duplicados:
## [1] "Número de datos duplicados: 0"
Ya con la base de datos lista, se procede a hacer los análisis bivariados:
- Área construida vs. Precio
- Estrato vs. Precio
- Baños vs. Precio
- Habitaciones vs. Precio
- Zona vs. Precio
- Parqueaderos vs. Precio
Conclusiones del análisis bivariado:
A medida que el área construida aumenta, el precio del inmueble también tiende a aumentar.
A mayor estrato, el precio de la vivienda es más alto, lo cual es consistente con la lógica del mercado inmobiliario
Los inmuebles con más baños y parqueaderos suelen tener un mayor valor.
Aunque más habitaciones pueden influir en el precio, su impacto es menor comparado con otras variables como área construida y estrato.
Paso 4: Análisis de correlación
Interpretación de correlaciones:
El precio de la vivienda está fuertemente determinado por el área construida, con influencias adicionales del estrato socioeconómico, cantidad de baños y parqueaderos.
La cantidad de habitaciones no tiene una correlación tan alta con el precio como el área construida, lo que indica que una vivienda más cara no necesariamente tiene más habitaciones, sino que puede tener otros factores de valor agregado.
Hay relaciones esperadas entre baños, parqueaderos y área construida, lo que muestra que estos factores suelen crecer juntos en viviendas más grandes.
Paso 5: Revisión de colinealidad
Para la revisión de colinealidad se hace el análisis de factor de varianza (VIF).
## GVIF Df GVIF^(1/(2*Df))
## areaconst 1.672353 1 1.293195
## factor(estrato) 1.723561 3 1.094976
## parqueaderos 1.344921 1 1.159707
## habitaciones 1.904157 1 1.379912
## banios 2.126325 1 1.458193
Se pueden mantener todas las variables en el modelo de regresión múltiple sin problemas. No hay colinealidad preocupante, ya que los valores están por debajo de 5.
Paso 6: Modelo de regresión lineal múltiple
##
## Call:
## lm(formula = preciom ~ areaconst + factor(estrato) + parqueaderos +
## habitaciones + banios, data = vivienda_filtrada1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -863.08 -52.74 -11.63 32.62 951.56
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.7058 17.4299 2.163 0.03105 *
## areaconst 0.7240 0.0501 14.452 < 2e-16 ***
## factor(estrato)4 78.0526 16.5866 4.706 3.37e-06 ***
## factor(estrato)5 113.6916 16.5661 6.863 2.25e-11 ***
## factor(estrato)6 303.7010 51.8006 5.863 8.82e-09 ***
## parqueaderos 13.2535 4.1608 3.185 0.00155 **
## habitaciones 6.7846 4.6327 1.465 0.14376
## banios 17.9333 5.9635 3.007 0.00278 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 120 on 449 degrees of freedom
## Multiple R-squared: 0.674, Adjusted R-squared: 0.6689
## F-statistic: 132.6 on 7 and 449 DF, p-value: < 2.2e-16
El resumen del modelo muestra que todas las variables son significativas para el modelo a excepción de habitaciones, ya que su p-value es mayor a la significancia (0.14 > 0.05). De esta manera, la ecuación que describe el comportamiento del mercado inmobiliario quedaría de la siguiente manera:
\[ \begin{align} \hat{preciom} &= 37.705 + 0.724 \cdot \text{areaconst} + 78.052 \cdot \text{estrato4} \\ &\quad + 113.691 \cdot \text{estrato5} + 303.701 \cdot \text{estrato6} \\ &\quad + 13.253 \cdot \text{parqueaderos} + 6.784 \cdot \text{habitaciones} \\ &\quad + 17.933 \cdot \text{banios} \end{align} \]
Adicionalmente, se observa un \(R^2\) de 0.66, es decir, que el modelo solo captura el 66% de la variabilidad en la variable dependiente (preciom). Algunas razones por las cuales el ajuste es bajo pueden ser:
- Falta de variables relevantes: Factores como ubicación, antigüedad del inmueble, calidad de los acabados o cercanía a servicios pueden ser determinantes en el precio y no están en el modelo.
- Relaciones no lineales: Puede que la relación entre preciom y las variables explicativas no sea completamente lineal.
Para mejorar el ajuste se sugiere lo siguiente:
- Incluir nuevas variables: Si hay datos disponibles, probar con información sobre ubicación, antigüedad, etc.
- Explorar transformaciones: Aplicar logaritmos o términos polinomiales para capturar relaciones no lineales (si aplica).
Paso 7: Validación de los supuestos
- Test de Shapiro-Wilk (normalidad):
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.76584, p-value < 2.2e-16
Dado el p-valor obtiene un valor menor al nivel de significancia (0.05), los residuos del modelo no tienen una distribución normal.
- Test de Durwin-Watson (independencia):
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.7844, p-value = 0.008329
## alternative hypothesis: true autocorrelation is greater than 0
Dado el p-valor obtiene un valor menor al nivel de significancia (0.05), los errores del modelo no son independientes.
- Test de Goldfeld-Quandt (varianza constante):
##
## Goldfeld-Quandt test
##
## data: modelo1
## GQ = 2.2901, df1 = 221, df2 = 220, p-value = 6.863e-10
## alternative hypothesis: variance increases from segment 1 to 2
Dado el p-valor obtiene un valor menor al nivel de significancia (0.05), se puede afirmar que la varianza de los errores no es constante.
Paso 8: Predicción del precio de la vivienda
Teniendo en cuenta los requerimientos del primer caso de estudio y las variables del modelo de regresión lineal múltiple se estima el precio:
## 1 2
## 336.8143 372.4534
De acuerdo con los requerimientos del cliente, el resultado de la estimación del precio del inmueble van de 336 a 372 millones aproximadamente. Por lo cual, si el préstamo es de 350 millones, no puede escoger cualquier casa dado que no le alcanza para comprar el inmueble con las características deseadas. Debe filtrar y seleccionar el inmueble.
Paso 9: Presentación de propuestas
## # A tibble: 25 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <fct> <dbl> <fct> <int> <dbl> <dbl> <int> <int>
## 1 4210 Zona … 1 5 350 200 3 3 4
## 2 4209 Zona … 2 5 350 300 3 5 6
## 3 1009 Zona … 2 5 250 243 1 4 5
## 4 1270 Zona … 2 5 350 203 2 2 5
## 5 3453 Zona … 2 5 340 240 2 5 6
## 6 819 Zona … 2 5 350 264 2 3 4
## 7 1343 Zona … 2 5 320 200 2 4 4
## 8 3053 Zona … 2 5 320 230 2 4 4
## 9 937 Zona … 2 4 350 280 2 3 4
## 10 952 Zona … 2 4 330 275 2 3 5
## # ℹ 15 more rows
## # ℹ 4 more variables: tipo <fct>, barrio <fct>, longitud <dbl>, latitud <dbl>
Teniendo en cuenta los resultados obtenidos, se muestran los 5 inmuebles con mayor área construida y que se encuentren dentro del rango de precio:
## # A tibble: 5 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <fct> <dbl> <fct> <int> <dbl> <dbl> <int> <int>
## 1 3101 Zona N… 2 5 340 355 2 5 8
## 2 1943 Zona N… 2 5 350 346 1 2 4
## 3 4209 Zona N… 2 5 350 300 3 5 6
## 4 1822 Zona N… 2 4 340 295 2 2 4
## 5 937 Zona N… 2 4 350 280 2 3 4
## # ℹ 4 more variables: tipo <fct>, barrio <fct>, longitud <dbl>, latitud <dbl>
En el mapa se localizan de la siguiente manera:
El cliente tiene esas 5 opciones para definir la compra. El filtro se realizó teniendo en cuenta la condición mínima del cliente. Es decir, al menos 200 metros de área construida, al menos un parqueadero, al menos 2 baños, al menos 4 habitaciones, estrato 4 o 5 y el precio máximo 350 millones. Cabe resaltar que todas las opciones mostradas cumplen las condiciones ya mencionadas.
ANEXO 2: APARTAMENTOS ZONA SUR
Paso 1: Filtro preliminar
Se realiza inicialmente el filtrado de las viviendas, de acuerdo al requerimiento de que sean apartamentos ubicados en la zona sur de la ciudad.
## # A tibble: 2,787 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <fct> <int> <fct> <int> <dbl> <int> <int> <int>
## 1 5098 Zona … 5 4 290 96 1 2 3
## 2 698 Zona … 2 3 78 40 1 1 2
## 3 8199 Zona … NA 6 875 194 2 5 3
## 4 1241 Zona … NA 3 135 117 NA 2 3
## 5 5370 Zona … NA 3 135 78 NA 1 3
## 6 6975 Zona … 6 4 220 75 1 2 3
## 7 5615 Zona … 8 3 210 72 2 2 3
## 8 6262 Zona … NA 3 105 68 NA 2 3
## 9 7396 Zona … NA 3 115 58 1 2 2
## 10 6949 Zona … NA 4 220 84 NA 2 3
## # ℹ 2,777 more rows
## # ℹ 4 more variables: tipo <fct>, barrio <fct>, longitud <dbl>, latitud <dbl>
Paso 2: Análisis latitud-longitud
De acuerdo al filtrado inicial, se presenta a continuación la distribución de las viviendas preseleccionadas en el mapa de la ciudad.
Al igual que en la solicitud anterior, se observan viviendas por fuera de la zona requerida, en este caso la zona sur. Por este motivo, es necesario realizar un ajuste de las viviendas seleccionadas de acuerdo a los parámetros de longitud y latitud.
Criterios del filtro:
El límite inferior permanece igual, tomando el valor mínimo para las variables de longitud y latitud.
El limite superior se modifica, tomando como valor el Q3, ya que por encima de dicho valor se observa que las viviendas tienden a salir de la zona sur de la ciudad.
La distribución de los apartamentos con el anterior ajuste quedaría así:
Paso 3: Análisis exploratorio
Se revisan los datos faltantes con el fin de realizar su imputación correspondiente
## id zona piso estrato preciom areaconst
## 0 0 353 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 141 0 0 0 0 0
## latitud
## 0
Al igual que para la solicitud anterior, se realiza la misma imputación para los datos faltantes en las variables Parqueaderos y Pisos, reemplazando por cero y utilizando la mediana respectivamente.
## id zona piso estrato preciom areaconst
## 0 0 0 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
También se verifica la presencia de datos duplicados antes de proceder con el análisis bivariado.
## [1] "Número de datos duplicados: 0"
- Área construida vs. Precio
- Estrato vs. Precio
- Baños vs. Precio
- Habitaciones vs. Precio
- Parqueaderos vs. Precio
Conclusiones del análisis bivariado:
El incremento en el área construida está directamente asociado con un aumento en el precio del inmueble.
Las viviendas de estratos más altos presentan precios mayores, lo cual concuerda con la dinámica del mercado inmobiliario.
Las propiedades que cuentan con más baños y parqueaderos suelen tener un valor más elevado.
Si bien el número de habitaciones puede influir en el precio, su efecto parece menos significativo en comparación con factores como el área construida y el estrato, ya que su comportamiento visual no es claro con el aumento del precio.
Paso 4: Análisis de correlación
Variables más correlacionadas con preciom:
areaconst (0.74) → Alta correlación con el precio.
baños (0.73) → Alta correlación con el precio.
habitaciones (0.29) → Baja correlación con el precio (posible exclusión).
parqueaderos (0.70) → Alta correlación con el precio.
De los resultados anteriores, se puede resaltar que las variables numéricas de mayor correlación que podría incluirse en el modelo son: areaconst, baños y parqueaderos. La variable habitaciones presenta una influencia débil en el precio en comparación con las otras variables, por lo que podría excluirse del modelo. La variable categórica estrato también presenta una influencia lógica fuerte en la determinación del precio de la vivienda, por lo que también se adiciona.
Paso 5: Revisión de colinealidad
Para la revisión de colinealidad se hace el análisis de factor de varianza (VIF).
## GVIF Df GVIF^(1/(2*Df))
## areaconst 1.889094 1 1.374443
## estrato 1.811941 3 1.104140
## banios 2.212769 1 1.487538
## parqueaderos 1.848630 1 1.359643
Se pueden mantener todas las variables en el modelo de regresión múltiple sin problemas. No hay colinealidad preocupante, ya que los valores están por debajo de 5.
Paso 6: Modelo de regresión lineal múltiple
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + parqueaderos,
## data = vivienda_filtrada2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1066.01 -46.29 -2.58 38.62 901.92
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -52.99209 11.10653 -4.771 2e-06 ***
## areaconst 1.28949 0.06214 20.751 <2e-16 ***
## estrato4 13.13763 11.36447 1.156 0.2478
## estrato5 24.41959 11.39567 2.143 0.0323 *
## estrato6 171.69348 13.57612 12.647 <2e-16 ***
## banios 43.98459 3.88231 11.329 <2e-16 ***
## parqueaderos 59.82838 4.41169 13.561 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 103.4 on 1542 degrees of freedom
## Multiple R-squared: 0.7755, Adjusted R-squared: 0.7747
## F-statistic: 888 on 6 and 1542 DF, p-value: < 2.2e-16
Se obtiene el siguiente modelo de regresión lineal múltiple:
\[ \begin{align} \hat{preciom} &= -52.99 + 1.29 \cdot \text{areaconst} + 13.14 \cdot \text{estrato4} \\ &\quad + 24.42 \cdot \text{estrato5} + 171.69 \cdot \text{estrato6} \\ &\quad + 43.98 \cdot \text{baños} + 59.83 \cdot \text{parqueaderos} \end{align} \]
Del modelo anterior se puede interpretar que el intercepto no tiene una interpretación directa, ya que es el precio cuando todas las variables son 0 (no realista). Para el área construida se tiene una relación positiva esperada, mostrando que por cada metro cuadrado adicional el precio aumenta 1.29 millones. Las variables estrato 4 y estrato 5 no presentan un impacto significativo en el modelo. Sólo el estrato 6 parece influir fuertemente en el modelo, mostrando que un apartamento en dicho estrato, cuesta en promedio 171.69 millones más que un apartamento en estrato 3. Las variables baños y parqueaderos también tienen un impacto significativo en el modelo (p-valores<2e-16).
En cuanto al \(R^2\) del modelo, se obtiene un valor de 0.7755, es decir que el modelo explica el 77.55% de la variabilidad del precio de los apartamentos en la zona sur, similar al \(R^2\) ajustado, lo que indica que la cantidad de variables en el modelo es adecuada, y con un \(p < 2.2e-16\), que sugiere que el modelo en su conjunto es altamente significativo.
Para mejorar el \(R^2\) del modelo, se podrían evaluar los siguientes cambios:
- Eliminar estrato4 y estrato5: Ya que estas dos variables no son significativas, se podrían eliminar del modelo, reclasificando los estratos con una variable binaria(estrato alto = 1, estrato bajo = 0).
- Explorar otras variables: Se puede evaluar la incorporación de otras variables que expliquen mejor la variabilidad del precio de las viviendas, por ejemplo, ubicación, barrio.
- Aplicar transformaciones: Aplicar logaritmos o términos polinomiales para capturar relaciones no lineales (si aplica).
Paso 7: Validación de los supuestos
Mediante la gráfica de residuos vs valores ajustados, se pueden evaluar dos supuestos claves que son linealidad (La relación entre las variables explicativas y la respuesta debe ser lineal) y homocedasticidad (La varianza de los residuos debe ser constante en todos los valores ajustados).
Para el supuesto de linealidad, los residuos deberían estar distribuidos aleatoriamente alrededor de 0, sin mostrar tendencias claras. En la gráfica se observa que en la parte izquierda, los residuos parecen estar bastante concentrados alrededor de 0, pero a medida que aumentan los valores ajustados comienzan a dispersarse más, lo que presenta un posible problema de linealidad.
Para el supuesto de homocedasticidad, la dispersión de los residuos debe ser similar en toda la gráfica. Para el modelo construído, se observa en la parte derecha de la gráfica, que los residuos están más dispersos (más varianza para precios altos), esto indica un posible problema de heterocedasticidad.
Para mejorar los comportamientos anteriores se puede probar:
Aplicar una transformación del precio (log(preciom)) para capturar relaciones no lineales.
Considerar un modelo polinómico si hay curvaturas en los residuos.
En cuanto al gráfico Q-Q para normalidad de residuos, se espera que si los residuos siguen una distribución normal, los puntos deben estar alineados con la línea. Para el modelo, la mayoría de los puntos están alineados con la línea, lo que indica que la normalidad se cumple en la parte central de la distribución, sin embargo, hay desviaciones significativas en ambos extremos. Para mejorar esto se puede:
Aplicar una transformación logarítmica a la variable precio.
Detectar y eliminar outliers.
- Test de Shapiro-Wilk (normalidad):
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.7822, p-value < 2.2e-16
Dado el p-valor obtiene un valor menor al nivel de significancia (0.05), los residuos del modelo no tienen una distribución normal.
- Test de Durwin-Watson (independencia):
##
## Durbin-Watson test
##
## data: modelo2
## DW = 1.7184, p-value = 1.119e-08
## alternative hypothesis: true autocorrelation is greater than 0
Dado el p-valor obtiene un valor menor al nivel de significancia (0.05), los errores del modelo no son independientes.
- Test de Goldfeld-Quandt (varianza constante):
##
## Goldfeld-Quandt test
##
## data: modelo2
## GQ = 0.88426, df1 = 768, df2 = 767, p-value = 0.9557
## alternative hypothesis: variance increases from segment 1 to 2
Dado el p-valor obtiene un valor mayor al nivel de significancia (0.05), se puede afirmar que la varianza de los errores si es constante, es decir, cumple el supuesto de homocedasticidad.
Paso 8: Predicción del precio de la vivienda
Teniedo en cuenta los requerimientos de la segunda solicitud en cuanto a apartamentos ubicados en la zona sur, se realiza la estimación de los precios con el modelo de regresión lineal múltiple obtenido:
## 1 2
## 669.7135 816.9874
De acuerdo con los requerimientos de la segunda solicitud, el resultado de la estimación del precio del inmueble va de 670 a 817 millones aproximadamente. Por lo cual, con el crédito preaprobado de 850 millones es posible tener una buena variedad de opciones para escoger.
Paso 9: Presentación de propuestas
Con la base de datos filtrada inicialmente no se encuentran viviendas que cumplan con los requerimientos de las segunda solicitud. Por lo anterior, se amplia el rango máximo para las variables de longitud y latitud al 85%, ya que inicialmente estaban en Q3. Con esta modificación se encuentran dos viviendas que cumplen con los requerimientos y se verifica que ambas se encuentran ubicadas en la zona sur de la ciudad.
## # A tibble: 2 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <fct> <dbl> <fct> <int> <dbl> <dbl> <int> <int>
## 1 7182 Zona S… 4 5 730 573 3 8 5
## 2 7512 Zona S… 4 5 670 300 3 5 6
## # ℹ 4 more variables: tipo <fct>, barrio <fct>, longitud <dbl>, latitud <dbl>
En el mapa se localizan de la siguiente manera:
El cliente tiene 2 opciones para definir la compra de apartamento en la zona sur de la ciudad. El filtro se realizó teniendo en cuenta la condición mínima del cliente. Es decir, al menos 300 metros de área construida, al menos 3 parqueaderos, al menos 3 baños, al menos 5 habitaciones, estrato 5 o 6 y el precio máximo 850 millones.