Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
| Características | Vivienda 1 | Vivienda 2 |
|---|---|---|
| Tipo | Casa | Apartamento |
| área construida | 200 | 300 |
| parqueaderos | 1 | 3 |
| baños | 2 | 3 |
| habitaciones | 4 | 5 |
| estrato | 4 o 5 | 5 o 6 |
| zona | Norte | Sur |
| crédito preaprobado | 350 millones | 850 millones |
El objetivo de este análisis es ayudar a María a responder a la solicitud, mediante técnicas modelación.
Como se observa en la Tabla 1, se cuenta con \(8.322\) registros en los cuales se presentan casos de datos faltantes para las diferentes variables. Adicionalmente el conjunto de datos cuenta con variables como la zona en la que se encuentra ubicada la vivienda, el estrato de la vivienda, el precio de la vivienda en millones de pesos (MCOP), el área construida en \(m^2\) y el tipo de vivienda, entre otros.
| Variable | Tipo | N° registros | N° faltantes | Visualización preliminar |
|---|---|---|---|---|
| id | numeric | 8319 | 3 | 1147.000, 1169.000, 1350.000, 5992.000, 1212.000 |
| zona | character | 8319 | 3 | Zona Oriente, Zona Oriente, Zona Oriente, Zona Sur, Zona Norte |
| piso | character | 5684 | 2638 | NA, NA, NA, 02, 01 |
| estrato | numeric | 8319 | 3 | 3.000, 3.000, 3.000, 4.000, 5.000 |
| preciom | numeric | 8320 | 2 | 250.000, 320.000, 350.000, 400.000, 260.000 |
| areaconst | numeric | 8319 | 3 | 70.000, 120.000, 220.000, 280.000, 90.000 |
| parqueaderos | numeric | 6717 | 1605 | 1.000, 1.000, 2.000, 3.000, 1.000 |
| banios | numeric | 8319 | 3 | 3.000, 2.000, 2.000, 5.000, 2.000 |
| habitaciones | numeric | 8319 | 3 | 6.000, 3.000, 4.000, 3.000, 3.000 |
| tipo | character | 8319 | 3 | Casa, Casa, Casa, Casa, Apartamento |
| barrio | character | 8319 | 3 | 20 de julio, 20 de julio, 20 de julio, 3 de julio, acopi |
| longitud | numeric | 8319 | 3 | -76.512, -76.512, -76.515, -76.540, -76.513 |
| latitud | numeric | 8319 | 3 | 3.434, 3.434, 3.436, 3.435, 3.459 |
Dado el conjunto de datos presentado en la Tabla 1, para este análisis se tomará de todo el conjunto de características únicamente las características zona, tipo, areaconst, estrato, habitaciones, parqueaderos, banios y preciom ya que son las variables de principal interés, y adicionalmente las variables latitud y longitud para la visualización efectiva de recomendaciones. Algunas de estas contienen casos de datos faltantes por lo cuál procederemos a imputar estos valores con la mediana para las variables continuas y discretas, y la moda para las variables categóricas.
Para responder a la solicitud del primer caso (Vivienda 1) se realiza un filtrado del conjunto de datos en el que se tengan únicamente vviiendas de tipo casa ubicadas en la Zona Norte de la ciudad como se observa en la Tabla 2.
| zona | tipo | areaconst | estrato | habitaciones | parqueaderos | banios | preciom | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|
| Zona Norte | Casa | 150 | 5 | 6 | 2 | 4 | 320 | 3.47968 | -76.51341 |
| Zona Norte | Casa | 380 | 5 | 3 | 2 | 3 | 780 | 3.48721 | -76.51674 |
| Zona Norte | Casa | 445 | 6 | 6 | NA | 7 | 750 | 3.38527 | -76.52950 |
Adicionalmente, validamos que encontremos en este conjunto de dato solamente viviendas de tipo Casa ubicadas en la Zona Norte.
| tipo | zona | n |
|---|---|---|
| Casa | Zona Norte | 722 |
Al realizar la verificación de la ubicación de las viviendas dentro de la ciudad de Cali según sus coordenadas, se observa que las viviendas no están ubicadas en su totalidad en la zona norte de la ciudad. Si bien hay una notoria agrupación de las viviendas en dicha zona, se ve un volumen significativo de viviendas que se distribuyen a lo largo y ancho de la ciudad. Esto puede deberse a fallas en la toma de datos de las viviendas o confusión debido a características como el estrato y el precio de la vivienda que pudieron llevar a asociar la zona en una ubicación errada.
Para dar respuesta a la solicitud de la Vivienda 1 se realizó un análisis exploratorio de datos enfocado en la correlación de las variables presentadas con el precio de la vivienda. Previamente se realizó imputación de datos faltantes. Adicionalmente, en el siguiente gráfico se observa que el conjunto de datos contiene algunos casos de datos atípicos.
Como se observa en el siguiente correlograma, las variables de área construida, estrato y número de baños presentan una correlación significativa con el precio de la vivienda, adicionalmente se observa que las características no presentan correlaciones significativas entre sí. Adicionalmente, se presentan los resultados de las respectivas pruebas de hipótesis en el Anexo 1.
El siguiente gráfico de dispersión muestra como a medida que aumenta el área construida también aumenta el precio de la vivienda, adicionalmente se ve que las viviendas de mayores precios son las de estratos más altos según la escala de colores y las que tienen una mayor cantidad de baños representadas por el tamaño del punto.
Warning: `line.width` does not currently support multiple values.
A continuación de da interpretación de los coeficientes del modelo propuesto:
Cada coeficiente representa el cambio esperado en el precio (preciom) cuando la variable cambia en una unidad, manteniendo las demás constantes.
| Variable | Coeficiente (β) | Interpretación | Significancia (p-valor) |
|---|---|---|---|
| Intercepto | -251.05 | Si todas las variables fueran 0, el precio sería -251 (no interpretable). | - |
| Área construida (areaconst) | 0.81 | Por cada metro cuadrado adicional, el precio aumenta 0.81 millones. | p < 0.001 (muy significativo) |
| Estrato (estrato) | 84.61 | Cada aumento en el estrato eleva el precio en 84.61 millones. | p < 0.001 (muy significativo) |
| Número de habitaciones (habitaciones) | 0.96 | No es significativo (p = 0.815). Indica que el número de habitaciones no influye en el precio. | No significativo |
| Número de parqueaderos (parqueaderos) | 16.56 | Cada parqueadero adicional incrementa el precio en 16.56 millones. | p = 0.0038 (significativo) |
| Número de baños (banios) | 24.57 | Cada baño adicional aumenta el precio en 24.57 millones. | p < 0.001 (muy significativo) |
¿Los resultados son lógicos?
Área construida (areaconst): Tiene un impacto positivo y significativo, lo cual es esperado, ya que las casas más grandes suelen valer más.
Estrato (estrato): También tiene un gran impacto positivo, lo cual es lógico, ya que los estratos más altos tienden a estar en zonas con mejor infraestructura y servicios.
Número de baños (banios): Es significativo, lo que tiene sentido, ya que más baños suelen aumentar el confort y el valor de la propiedad.
Número de parqueaderos (parqueaderos): Es significativo, lo cual también es esperado, ya que las viviendas con más parqueaderos suelen ser más costosas.
Número de habitaciones (habitaciones): No es significativo (p = 0.815). Esto es curioso, ya que se podría esperar que más habitaciones aumenten el precio. Esto puede indicar que:
El número de habitaciones no es tan importante como la superficie total. Puede estar correlacionado con otras variables (por ejemplo, casas más grandes suelen tener más habitaciones).
Estimate Std. Error t value Pr(>|t|)
(Intercept) -251.0517725 30.11847732 -8.3354736 3.939180e-16
areaconst 0.8109022 0.04351648 18.6343695 1.741760e-63
estrato 84.6110757 7.17726806 11.7887579 1.929084e-29
habitaciones 0.9594798 4.10569138 0.2336951 8.152885e-01
parqueaderos 16.5597632 5.70395725 2.9032061 3.807238e-03
banios 24.5766859 5.35583161 4.5887712 5.264187e-06
Evaluación del Ajuste del Modelo (\(R²\))
R² = 0.6548 El modelo explica el 65.48% de la variabilidad en el precio.
R² ajustado = 0.6524 Penaliza la inclusión de variables innecesarias y sigue indicando un buen ajuste.
El modelo explica bien el precio, pero hay un 35% de variabilidad sin explicar, lo que sugiere que hay otras variables importantes no incluidas. Adicionalmente, los casos atípicos de viviendas con precios elevados pueden estar afectando el ajuste del modelo.
R²: 0.6548 (Explica 65.48 % de la variabilidad del precio)
R² Ajustado: 0.6524
Diagnóstico del Modelo: Multicolinealidad (VIF)
Los valores VIF (Factor de Inflación de la Varianza) indican si hay colinealidad entre variables (problema cuando VIF > 10):
| Variable | VIF | Multicolinealidad? |
|---|---|---|
| Área construida (areaconst) | 1.52 | No hay multicolinealidad. |
| Estrato (estrato) | 1.43 | No hay multicolinealidad. |
| Número de habitaciones (habitaciones) | 1.62 | No hay multicolinealidad. |
| Número de parqueaderos (parqueaderos) | 1.12 | No hay multicolinealidad. |
| Número de baños (banios) | 1.91 | No hay multicolinealidad. |
No hay multicolinealidad severa en el modelo, lo cual es positivo.
areaconst estrato habitaciones parqueaderos banios
1.523989 1.433058 1.621630 1.120670 1.918323
A continuación se realiza e interpreta la validación de supuestos del modelo:
Supuesto de Normalidad de los Residuos (Prueba de Shapiro-Wilk)
El p-valor = 1.039083e-26 (muy inferior a 0.05) muestra que los residuos NO siguen una distribución normal. Lo que implica que la inferencia basada en pruebas t y valores p puede no ser del todo confiable. Esto puede indicar que hay valores atípicos o que la relación entre las variables no es completamente lineal.
Posibles soluciones:
Supuesto de Homocedasticidad (Varianza constante) – Prueba de Breusch-Pagan
El p-valor = 7.944536e-27 (muy inferior a 0.05) Implica que el modelo presenta heterocedasticidad. Esto significa que la varianza de los residuos no es constante, lo que puede hacer que los intervalos de confianza y pruebas de hipótesis sean incorrectos. Esto puede indicar que el modelo no está capturando bien la variabilidad de los datos.
Posibles soluciones:
Realizar tratamiento a datos atípicos
Transformación en preciom: Aplicar log(preciom) para estabilizar la varianza.
Supuesto de Independencia de los Errores – Prueba de Durbin-Watson
El p-valor = 2.930326e-07 (inferior a 0.05) Indica que existe autocorrelación en los residuos. Esto implica que la independencia de los errores no se cumple, lo que puede generar problemas en la predicción y en la validez de los intervalos de confianza.
Posibles soluciones:
En general, el modelo tiene problemas de normalidad, homocedasticidad e independencia de los errores, por lo que se sugiere realizar un tratamiento a los casos atípicos, aplicar transformaciones (log(preciom)) y usar errores robustos.
Prueba de Shapiro-Wilk (p-valor): 1.039083e-26
Prueba de Breusch-Pagan para homocedasticidad (p-valor): 7.944536e-27
Prueba de Durbin-Watson para independencia (p-valor): 2.930326e-07
A continuación se presentan los resultados de la implementación del modelo para la predicción de la Vivienda 1 para los estratos 4 y 5.
El precio estimado de la vivienda del caso 1 estrato 5 es: 403.74 millones.
El precio estimado de la vivienda del caso 1 estrato 4 es: 319.12 millones.
A continuación se presentan diferentes sugerencias para el caso de la Vivienda 1, mostrando opciones que respetan el prestamo de 350 millones y se acercan lo más posible a los requerimientos de la vivienda.
Para responder a la solicitud del primer caso (Vivienda 2) se realiza un filtrado del conjunto de datos en el que se tengan únicamente vviiendas de tipo apartamento ubicadas en la Zona Sur de la ciudad como se observa en la Tabla 3.
| zona | tipo | areaconst | estrato | habitaciones | parqueaderos | banios | preciom | latitud | longitud |
|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | Apartamento | 96 | 4 | 3 | 1 | 2 | 290 | 3.44987 | -76.53464 |
| Zona Sur | Apartamento | 40 | 3 | 2 | 1 | 1 | 78 | 3.40000 | -76.50100 |
| Zona Sur | Apartamento | 194 | 6 | 3 | 2 | 5 | 875 | 3.45900 | -76.55700 |
Adicionalmente, validamos que encontremos en este conjunto de dato solamente viviendas de tipo Apartamento ubicadas en la Zona Sur.
| tipo | zona | n |
|---|---|---|
| Apartamento | Zona Sur | 2787 |
Al realizar la verificación de la ubicación de las viviendas dentro de la ciudad de Cali según sus coordenadas, se observa que las viviendas no están ubicadas en su totalidad en la zona sur de la ciudad. Si bien hay una notoria agrupación de las viviendas en dicha zona, se ve un volumen significativo de viviendas que se distribuyen a lo largo y ancho de la ciudad. Esto puede deberse a fallas en la toma de datos de las viviendas o confusión debido a características como el estrato y el precio de la vivienda que pudieron llevar a asociar la zona en una ubicación errada.
Para dar respuesta a la solicitud de la Vivienda 2 se realizó un análisis exploratorio de datos enfocado en la correlación de las variables presentadas con el precio de la vivienda. Previamente se realizó imputación de datos faltantes. Adicionalmente, en el siguiente gráfico se observa que el conjunto de datos contiene algunos casos de datos atípicos.
Como se observa en el siguiente correlograma, las variables de área construida, estrato, número de parqueaderos y número de baños presentan una correlación significativa con el precio de la vivienda, adicionalmente se observa que las características no presentan correlaciones significativas entre sí. Adicionalmente, se presentan los resultados de las respectivas pruebas de hipótesis en el Anexo 2.
El siguiente gráfico de dispersión muestra como a medida que aumenta el área construida también aumenta el precio de la vivienda, adicionalmente se ve que las viviendas de mayores precios son las de estratos más altos según la escala de colores y las que tienen una mayor cantidad de baños representadas por el tamaño del punto.
Warning: `line.width` does not currently support multiple values.
A continuación se da interpretación de los coeficientes del modelo propuesto:
Cada coeficiente representa el cambio esperado en el precio (preciom) cuando la variable cambia en una unidad, manteniendo las demás constantes.
| Variable | Coeficiente (β) | Interpretación | Significancia (p-valor) |
|---|---|---|---|
| Intercepto | -266.91 | Si todas las variables fueran 0, el precio sería -266.91 (no interpretable). | - |
| Área construida (areaconst) | 1.36 | Por cada metro cuadrado adicional, el precio aumenta 1.36 millones. | p < 0.001 (muy significativo) |
| Estrato (estrato) | 59.24 | Cada aumento en el estrato eleva el precio en 59.24 millones. | p < 0.001 (muy significativo) |
| Número de habitaciones (habitaciones) | -17.89 | Por cada habitación adicional, el precio disminuye en 17.89 millones. | p < 0.001 (muy significativo) |
| Número de parqueaderos (parqueaderos) | 73.21 | Cada parqueadero adicional incrementa el precio en 73.21 millones. | p < 0.001 (muy significativo) |
| Número de baños (banios) | 44.72 | Cada baño adicional aumenta el precio en 44.72 millones. | p < 0.001 (muy significativo) |
¿Los resultados son lógicos?
Área construida (areaconst): Tiene un impacto positivo y significativo, lo cual es esperado, ya que las casas más grandes suelen valer más.
Estrato (estrato): También tiene un gran impacto positivo, lo cual es lógico, ya que los estratos más altos tienden a estar en zonas con mejor infraestructura y servicios.
Número de baños (banios): Es significativo, lo que tiene sentido, ya que más baños suelen aumentar el confort y el valor de la propiedad.
Número de parqueaderos (parqueaderos): Es significativo, lo cual también es esperado, ya que las viviendas con más parqueaderos suelen ser más costosas.
Número de habitaciones (habitaciones): Tiene un impacto negativo y significativo (p < 0.001). Esto es curioso, ya que se podría esperar que más habitaciones aumenten el precio. Esto puede indicar que:
El número de habitaciones no es tan importante como la superficie total. Puede estar correlacionado con otras variables (por ejemplo, casas más grandes suelen tener más habitaciones, pero podrían encontrarse en zonas menos costosas o de menor demanda).
Estimate Std. Error t value Pr(>|t|)
(Intercept) -266.910891 12.89132372 -20.704692 1.100478e-88
areaconst 1.360189 0.04843265 28.084135 5.383057e-153
estrato 59.236205 2.66623961 22.217135 8.385629e-101
habitaciones -17.891209 3.32828198 -5.375509 8.269760e-08
parqueaderos 73.209585 3.65913011 20.007374 2.627385e-83
banios 44.719776 2.98956275 14.958634 1.020258e-48
Evaluación del Ajuste del Modelo (\(R²\))
R² = 0.7648 El modelo explica el 76.48% de la variabilidad en el precio.
R² ajustado = 0.7643 Penaliza la inclusión de variables innecesarias y sigue indicando un buen ajuste.
El modelo explica bien el precio, pero hay un 23.52% de variabilidad sin explicar, lo que sugiere que hay otras variables importantes no incluidas. Adicionalmente, los casos atípicos de viviendas con precios elevados pueden estar afectando el ajuste del modelo.
R²: 0.7648 (Explica 76.48 % de la variabilidad del precio)
R² Ajustado: 0.7643
Diagnóstico del Modelo: Multicolinealidad (VIF)
Los valores VIF (Factor de Inflación de la Varianza) indican si hay colinealidad entre variables (problema cuando VIF > 10):
| Variable | VIF | Multicolinealidad? |
|---|---|---|
| Área construida (areaconst) | 2.09 | No hay multicolinealidad. |
| Estrato (estrato) | 1.62 | No hay multicolinealidad. |
| Número de habitaciones (habitaciones) | 1.43 | No hay multicolinealidad. |
| Número de parqueaderos (parqueaderos) | 1.74 | No hay multicolinealidad. |
| Número de baños (banios) | 2.51 | No hay multicolinealidad. |
No hay multicolinealidad severa en el modelo, lo cual es positivo.
areaconst estrato habitaciones parqueaderos banios
2.088431 1.624197 1.428028 1.742717 2.514122
A continuación se realiza e interpreta la validación de supuestos del modelo:
Supuesto de Normalidad de los Residuos (Prueba de Shapiro-Wilk)
El p-valor = 1.255434e-51 (muy inferior a 0.05) muestra que los residuos NO siguen una distribución normal. Lo que implica que la inferencia basada en pruebas t y valores p puede no ser del todo confiable. Esto puede indicar que hay valores atípicos o que la relación entre las variables no es completamente lineal.
Posibles soluciones:
Supuesto de Homocedasticidad (Varianza constante) – Prueba de Breusch-Pagan
El p-valor = 6.725591e-191 (muy inferior a 0.05) implica que el modelo presenta heterocedasticidad. Esto significa que la varianza de los residuos no es constante, lo que puede hacer que los intervalos de confianza y pruebas de hipótesis sean incorrectos. Esto puede indicar que el modelo no está capturando bien la variabilidad de los datos.
Posibles soluciones:
Realizar tratamiento a datos atípicos
Transformación en preciom: Aplicar log(preciom) para estabilizar la varianza.
Supuesto de Independencia de los Errores – Prueba de Durbin-Watson
El p-valor = 9.052403e-34 (inferior a 0.05) indica que existe autocorrelación en los residuos. Esto implica que la independencia de los errores no se cumple, lo que puede generar problemas en la predicción y en la validez de los intervalos de confianza.
Posibles soluciones:
En general, el modelo tiene problemas de normalidad, homocedasticidad e independencia de los errores, por lo que se sugiere realizar un tratamiento a los casos atípicos, aplicar transformaciones (log(preciom)) y usar errores robustos.
Prueba de Shapiro-Wilk (p-valor): 1.255434e-51
Prueba de Breusch-Pagan para homocedasticidad (p-valor): 6.725591e-191
Prueba de Durbin-Watson para independencia (p-valor): 9.052403e-34
A continuación se presentan los resultados de la implementación del modelo para la predicción de la Vivienda 2 para los estratos 5 y 6.
El precio estimado de la vivienda del caso 2 estrato 5 es: 701.66 millones.
El precio estimado de la vivienda del caso 2 estrato 6 es: 760.9 millones.
A continuación se presentan diferentes sugerencias para el caso de la Vivienda 2, mostrando opciones que respetan el prestamo de 850 millones y se acercan lo más posible a los requerimientos de la vivienda.