Introducción

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

Características Vivienda 1 Vivienda 2
Tipo Casa Apartamento
área construida 200 300
parqueaderos 1 3
baños 2 3
habitaciones 4 5
estrato 4 o 5 5 o 6
zona Norte Sur
crédito preaprobado 350 millones 850 millones

El objetivo de este análisis es ayudar a María a responder a la solicitud, mediante técnicas modelación.

Como se observa en la Tabla 1, se cuenta con \(8.322\) registros en los cuales se presentan casos de datos faltantes para las diferentes variables. Adicionalmente el conjunto de datos cuenta con variables como la zona en la que se encuentra ubicada la vivienda, el estrato de la vivienda, el precio de la vivienda en millones de pesos (MCOP), el área construida en \(m^2\) y el tipo de vivienda, entre otros.

Tabla 1. Información general del conjunto de datos
Variable Tipo N° registros N° faltantes Visualización preliminar
id numeric 8319 3 1147.000, 1169.000, 1350.000, 5992.000, 1212.000
zona character 8319 3 Zona Oriente, Zona Oriente, Zona Oriente, Zona Sur, Zona Norte
piso character 5684 2638 NA, NA, NA, 02, 01
estrato numeric 8319 3 3.000, 3.000, 3.000, 4.000, 5.000
preciom numeric 8320 2 250.000, 320.000, 350.000, 400.000, 260.000
areaconst numeric 8319 3 70.000, 120.000, 220.000, 280.000, 90.000
parqueaderos numeric 6717 1605 1.000, 1.000, 2.000, 3.000, 1.000
banios numeric 8319 3 3.000, 2.000, 2.000, 5.000, 2.000
habitaciones numeric 8319 3 6.000, 3.000, 4.000, 3.000, 3.000
tipo character 8319 3 Casa, Casa, Casa, Casa, Apartamento
barrio character 8319 3 20 de julio, 20 de julio, 20 de julio, 3 de julio, acopi
longitud numeric 8319 3 -76.512, -76.512, -76.515, -76.540, -76.513
latitud numeric 8319 3 3.434, 3.434, 3.436, 3.435, 3.459

1. Presentación del conjunto de datos

1.1. Consideraciones

Dado el conjunto de datos presentado en la Tabla 1, para este análisis se tomará de todo el conjunto de características únicamente las características zona, tipo, areaconst, estrato, habitaciones, parqueaderos, banios y preciom ya que son las variables de principal interés, y adicionalmente las variables latitud y longitud para la visualización efectiva de recomendaciones. Algunas de estas contienen casos de datos faltantes por lo cuál procederemos a imputar estos valores con la mediana para las variables continuas y discretas, y la moda para las variables categóricas.

2. Análisis del caso

2.1. Análisis vivienda 1

Para responder a la solicitud del primer caso (Vivienda 1) se realiza un filtrado del conjunto de datos en el que se tengan únicamente vviiendas de tipo casa ubicadas en la Zona Norte de la ciudad como se observa en la Tabla 2.

Tabla 2. Visualización de los 3 primeros registros del conjunto de datos filtrado
zona tipo areaconst estrato habitaciones parqueaderos banios preciom latitud longitud
Zona Norte Casa 150 5 6 2 4 320 3.47968 -76.51341
Zona Norte Casa 380 5 3 2 3 780 3.48721 -76.51674
Zona Norte Casa 445 6 6 NA 7 750 3.38527 -76.52950

Adicionalmente, validamos que encontremos en este conjunto de dato solamente viviendas de tipo Casa ubicadas en la Zona Norte.

Tabla 3. Validación del tipo de vivienda y zona
tipo zona n
Casa Zona Norte 722

Al realizar la verificación de la ubicación de las viviendas dentro de la ciudad de Cali según sus coordenadas, se observa que las viviendas no están ubicadas en su totalidad en la zona norte de la ciudad. Si bien hay una notoria agrupación de las viviendas en dicha zona, se ve un volumen significativo de viviendas que se distribuyen a lo largo y ancho de la ciudad. Esto puede deberse a fallas en la toma de datos de las viviendas o confusión debido a características como el estrato y el precio de la vivienda que pudieron llevar a asociar la zona en una ubicación errada.

2.1.1. Análisis Exploratorio Vivienda 1

Para dar respuesta a la solicitud de la Vivienda 1 se realizó un análisis exploratorio de datos enfocado en la correlación de las variables presentadas con el precio de la vivienda. Previamente se realizó imputación de datos faltantes. Adicionalmente, en el siguiente gráfico se observa que el conjunto de datos contiene algunos casos de datos atípicos.

Como se observa en el siguiente correlograma, las variables de área construida, estrato y número de baños presentan una correlación significativa con el precio de la vivienda, adicionalmente se observa que las características no presentan correlaciones significativas entre sí. Adicionalmente, se presentan los resultados de las respectivas pruebas de hipótesis en el Anexo 1.

El siguiente gráfico de dispersión muestra como a medida que aumenta el área construida también aumenta el precio de la vivienda, adicionalmente se ve que las viviendas de mayores precios son las de estratos más altos según la escala de colores y las que tienen una mayor cantidad de baños representadas por el tamaño del punto.

Warning: `line.width` does not currently support multiple values.

2.1.2. Modelamiento del caso para la Vivienda 1

A continuación de da interpretación de los coeficientes del modelo propuesto:

Cada coeficiente representa el cambio esperado en el precio (preciom) cuando la variable cambia en una unidad, manteniendo las demás constantes.

Variable Coeficiente (β) Interpretación Significancia (p-valor)
Intercepto -251.05 Si todas las variables fueran 0, el precio sería -251 (no interpretable). -
Área construida (areaconst) 0.81 Por cada metro cuadrado adicional, el precio aumenta 0.81 millones. p < 0.001 (muy significativo)
Estrato (estrato) 84.61 Cada aumento en el estrato eleva el precio en 84.61 millones. p < 0.001 (muy significativo)
Número de habitaciones (habitaciones) 0.96 No es significativo (p = 0.815). Indica que el número de habitaciones no influye en el precio. No significativo
Número de parqueaderos (parqueaderos) 16.56 Cada parqueadero adicional incrementa el precio en 16.56 millones. p = 0.0038 (significativo)
Número de baños (banios) 24.57 Cada baño adicional aumenta el precio en 24.57 millones. p < 0.001 (muy significativo)

¿Los resultados son lógicos?

Área construida (areaconst): Tiene un impacto positivo y significativo, lo cual es esperado, ya que las casas más grandes suelen valer más.

Estrato (estrato): También tiene un gran impacto positivo, lo cual es lógico, ya que los estratos más altos tienden a estar en zonas con mejor infraestructura y servicios.

Número de baños (banios): Es significativo, lo que tiene sentido, ya que más baños suelen aumentar el confort y el valor de la propiedad.

Número de parqueaderos (parqueaderos): Es significativo, lo cual también es esperado, ya que las viviendas con más parqueaderos suelen ser más costosas.

Número de habitaciones (habitaciones): No es significativo (p = 0.815). Esto es curioso, ya que se podría esperar que más habitaciones aumenten el precio. Esto puede indicar que:

El número de habitaciones no es tan importante como la superficie total. Puede estar correlacionado con otras variables (por ejemplo, casas más grandes suelen tener más habitaciones).

                 Estimate  Std. Error    t value     Pr(>|t|)
(Intercept)  -251.0517725 30.11847732 -8.3354736 3.939180e-16
areaconst       0.8109022  0.04351648 18.6343695 1.741760e-63
estrato        84.6110757  7.17726806 11.7887579 1.929084e-29
habitaciones    0.9594798  4.10569138  0.2336951 8.152885e-01
parqueaderos   16.5597632  5.70395725  2.9032061 3.807238e-03
banios         24.5766859  5.35583161  4.5887712 5.264187e-06

Evaluación del Ajuste del Modelo (\(R²\))

R² = 0.6548 El modelo explica el 65.48% de la variabilidad en el precio.

R² ajustado = 0.6524 Penaliza la inclusión de variables innecesarias y sigue indicando un buen ajuste.

El modelo explica bien el precio, pero hay un 35% de variabilidad sin explicar, lo que sugiere que hay otras variables importantes no incluidas. Adicionalmente, los casos atípicos de viviendas con precios elevados pueden estar afectando el ajuste del modelo.


 R²: 0.6548  (Explica 65.48 % de la variabilidad del precio) 
R² Ajustado: 0.6524 

Diagnóstico del Modelo: Multicolinealidad (VIF)

Los valores VIF (Factor de Inflación de la Varianza) indican si hay colinealidad entre variables (problema cuando VIF > 10):

Variable VIF Multicolinealidad?
Área construida (areaconst) 1.52 No hay multicolinealidad.
Estrato (estrato) 1.43 No hay multicolinealidad.
Número de habitaciones (habitaciones) 1.62 No hay multicolinealidad.
Número de parqueaderos (parqueaderos) 1.12 No hay multicolinealidad.
Número de baños (banios) 1.91 No hay multicolinealidad.

No hay multicolinealidad severa en el modelo, lo cual es positivo.

   areaconst      estrato habitaciones parqueaderos       banios 
    1.523989     1.433058     1.621630     1.120670     1.918323 

2.1.3. Validación de supuestos del modelo del caso para la Vivienda 1

A continuación se realiza e interpreta la validación de supuestos del modelo:

Supuesto de Normalidad de los Residuos (Prueba de Shapiro-Wilk)

El p-valor = 1.039083e-26 (muy inferior a 0.05) muestra que los residuos NO siguen una distribución normal. Lo que implica que la inferencia basada en pruebas t y valores p puede no ser del todo confiable. Esto puede indicar que hay valores atípicos o que la relación entre las variables no es completamente lineal.

Posibles soluciones:

  • Aplicar transformaciones en preciom (log(preciom), sqrt(preciom)) para mejorar la normalidad.

Supuesto de Homocedasticidad (Varianza constante) – Prueba de Breusch-Pagan

El p-valor = 7.944536e-27 (muy inferior a 0.05) Implica que el modelo presenta heterocedasticidad. Esto significa que la varianza de los residuos no es constante, lo que puede hacer que los intervalos de confianza y pruebas de hipótesis sean incorrectos. Esto puede indicar que el modelo no está capturando bien la variabilidad de los datos.

Posibles soluciones:

  • Realizar tratamiento a datos atípicos

  • Transformación en preciom: Aplicar log(preciom) para estabilizar la varianza.

Supuesto de Independencia de los Errores – Prueba de Durbin-Watson

El p-valor = 2.930326e-07 (inferior a 0.05) Indica que existe autocorrelación en los residuos. Esto implica que la independencia de los errores no se cumple, lo que puede generar problemas en la predicción y en la validez de los intervalos de confianza.

Posibles soluciones:

  • Aplicar modelos de regresión con errores autocorrelacionados (gls() del paquete nlme).

En general, el modelo tiene problemas de normalidad, homocedasticidad e independencia de los errores, por lo que se sugiere realizar un tratamiento a los casos atípicos, aplicar transformaciones (log(preciom)) y usar errores robustos.

Prueba de Shapiro-Wilk (p-valor): 1.039083e-26 
Prueba de Breusch-Pagan para homocedasticidad (p-valor): 7.944536e-27 
Prueba de Durbin-Watson para independencia (p-valor): 2.930326e-07 

2.1.4. Predicción del precio aplicando el modelo del caso para la Vivienda 1

A continuación se presentan los resultados de la implementación del modelo para la predicción de la Vivienda 1 para los estratos 4 y 5.

El precio estimado de la vivienda del caso 1 estrato 5 es: 403.74 millones.
El precio estimado de la vivienda del caso 1 estrato 4 es: 319.12 millones.

2.1.5. Sugerencia de potenciales ofertas del caso para la Vivienda 1

A continuación se presentan diferentes sugerencias para el caso de la Vivienda 1, mostrando opciones que respetan el prestamo de 350 millones y se acercan lo más posible a los requerimientos de la vivienda.

2.2. Análisis vivienda 2

Para responder a la solicitud del primer caso (Vivienda 2) se realiza un filtrado del conjunto de datos en el que se tengan únicamente vviiendas de tipo apartamento ubicadas en la Zona Sur de la ciudad como se observa en la Tabla 3.

Tabla 3. Visualización de los 3 primeros registros del conjunto de datos filtrado
zona tipo areaconst estrato habitaciones parqueaderos banios preciom latitud longitud
Zona Sur Apartamento 96 4 3 1 2 290 3.44987 -76.53464
Zona Sur Apartamento 40 3 2 1 1 78 3.40000 -76.50100
Zona Sur Apartamento 194 6 3 2 5 875 3.45900 -76.55700

Adicionalmente, validamos que encontremos en este conjunto de dato solamente viviendas de tipo Apartamento ubicadas en la Zona Sur.

Tabla 4. Validación del tipo de vivienda y zona
tipo zona n
Apartamento Zona Sur 2787

Al realizar la verificación de la ubicación de las viviendas dentro de la ciudad de Cali según sus coordenadas, se observa que las viviendas no están ubicadas en su totalidad en la zona sur de la ciudad. Si bien hay una notoria agrupación de las viviendas en dicha zona, se ve un volumen significativo de viviendas que se distribuyen a lo largo y ancho de la ciudad. Esto puede deberse a fallas en la toma de datos de las viviendas o confusión debido a características como el estrato y el precio de la vivienda que pudieron llevar a asociar la zona en una ubicación errada.

2.2.1. Análisis Exploratorio Vivienda 2

Para dar respuesta a la solicitud de la Vivienda 2 se realizó un análisis exploratorio de datos enfocado en la correlación de las variables presentadas con el precio de la vivienda. Previamente se realizó imputación de datos faltantes. Adicionalmente, en el siguiente gráfico se observa que el conjunto de datos contiene algunos casos de datos atípicos.

Como se observa en el siguiente correlograma, las variables de área construida, estrato, número de parqueaderos y número de baños presentan una correlación significativa con el precio de la vivienda, adicionalmente se observa que las características no presentan correlaciones significativas entre sí. Adicionalmente, se presentan los resultados de las respectivas pruebas de hipótesis en el Anexo 2.

El siguiente gráfico de dispersión muestra como a medida que aumenta el área construida también aumenta el precio de la vivienda, adicionalmente se ve que las viviendas de mayores precios son las de estratos más altos según la escala de colores y las que tienen una mayor cantidad de baños representadas por el tamaño del punto.

Warning: `line.width` does not currently support multiple values.

2.2.2. Modelamiento del caso para la Vivienda 2

A continuación se da interpretación de los coeficientes del modelo propuesto:

Cada coeficiente representa el cambio esperado en el precio (preciom) cuando la variable cambia en una unidad, manteniendo las demás constantes.

Variable Coeficiente (β) Interpretación Significancia (p-valor)
Intercepto -266.91 Si todas las variables fueran 0, el precio sería -266.91 (no interpretable). -
Área construida (areaconst) 1.36 Por cada metro cuadrado adicional, el precio aumenta 1.36 millones. p < 0.001 (muy significativo)
Estrato (estrato) 59.24 Cada aumento en el estrato eleva el precio en 59.24 millones. p < 0.001 (muy significativo)
Número de habitaciones (habitaciones) -17.89 Por cada habitación adicional, el precio disminuye en 17.89 millones. p < 0.001 (muy significativo)
Número de parqueaderos (parqueaderos) 73.21 Cada parqueadero adicional incrementa el precio en 73.21 millones. p < 0.001 (muy significativo)
Número de baños (banios) 44.72 Cada baño adicional aumenta el precio en 44.72 millones. p < 0.001 (muy significativo)

¿Los resultados son lógicos?

Área construida (areaconst): Tiene un impacto positivo y significativo, lo cual es esperado, ya que las casas más grandes suelen valer más.

Estrato (estrato): También tiene un gran impacto positivo, lo cual es lógico, ya que los estratos más altos tienden a estar en zonas con mejor infraestructura y servicios.

Número de baños (banios): Es significativo, lo que tiene sentido, ya que más baños suelen aumentar el confort y el valor de la propiedad.

Número de parqueaderos (parqueaderos): Es significativo, lo cual también es esperado, ya que las viviendas con más parqueaderos suelen ser más costosas.

Número de habitaciones (habitaciones): Tiene un impacto negativo y significativo (p < 0.001). Esto es curioso, ya que se podría esperar que más habitaciones aumenten el precio. Esto puede indicar que:

El número de habitaciones no es tan importante como la superficie total. Puede estar correlacionado con otras variables (por ejemplo, casas más grandes suelen tener más habitaciones, pero podrían encontrarse en zonas menos costosas o de menor demanda).

                Estimate  Std. Error    t value      Pr(>|t|)
(Intercept)  -266.910891 12.89132372 -20.704692  1.100478e-88
areaconst       1.360189  0.04843265  28.084135 5.383057e-153
estrato        59.236205  2.66623961  22.217135 8.385629e-101
habitaciones  -17.891209  3.32828198  -5.375509  8.269760e-08
parqueaderos   73.209585  3.65913011  20.007374  2.627385e-83
banios         44.719776  2.98956275  14.958634  1.020258e-48

Evaluación del Ajuste del Modelo (\(R²\))

R² = 0.7648 El modelo explica el 76.48% de la variabilidad en el precio.

R² ajustado = 0.7643 Penaliza la inclusión de variables innecesarias y sigue indicando un buen ajuste.

El modelo explica bien el precio, pero hay un 23.52% de variabilidad sin explicar, lo que sugiere que hay otras variables importantes no incluidas. Adicionalmente, los casos atípicos de viviendas con precios elevados pueden estar afectando el ajuste del modelo.


 R²: 0.7648  (Explica 76.48 % de la variabilidad del precio) 
R² Ajustado: 0.7643 

Diagnóstico del Modelo: Multicolinealidad (VIF)

Los valores VIF (Factor de Inflación de la Varianza) indican si hay colinealidad entre variables (problema cuando VIF > 10):

Variable VIF Multicolinealidad?
Área construida (areaconst) 2.09 No hay multicolinealidad.
Estrato (estrato) 1.62 No hay multicolinealidad.
Número de habitaciones (habitaciones) 1.43 No hay multicolinealidad.
Número de parqueaderos (parqueaderos) 1.74 No hay multicolinealidad.
Número de baños (banios) 2.51 No hay multicolinealidad.

No hay multicolinealidad severa en el modelo, lo cual es positivo.

   areaconst      estrato habitaciones parqueaderos       banios 
    2.088431     1.624197     1.428028     1.742717     2.514122 

2.2.3. Validación de supuestos del modelo del caso para la Vivienda 2

A continuación se realiza e interpreta la validación de supuestos del modelo:

Supuesto de Normalidad de los Residuos (Prueba de Shapiro-Wilk)

El p-valor = 1.255434e-51 (muy inferior a 0.05) muestra que los residuos NO siguen una distribución normal. Lo que implica que la inferencia basada en pruebas t y valores p puede no ser del todo confiable. Esto puede indicar que hay valores atípicos o que la relación entre las variables no es completamente lineal.

Posibles soluciones:

  • Aplicar transformaciones en preciom (log(preciom), sqrt(preciom)) para mejorar la normalidad.

Supuesto de Homocedasticidad (Varianza constante) – Prueba de Breusch-Pagan

El p-valor = 6.725591e-191 (muy inferior a 0.05) implica que el modelo presenta heterocedasticidad. Esto significa que la varianza de los residuos no es constante, lo que puede hacer que los intervalos de confianza y pruebas de hipótesis sean incorrectos. Esto puede indicar que el modelo no está capturando bien la variabilidad de los datos.

Posibles soluciones:

  • Realizar tratamiento a datos atípicos

  • Transformación en preciom: Aplicar log(preciom) para estabilizar la varianza.

Supuesto de Independencia de los Errores – Prueba de Durbin-Watson

El p-valor = 9.052403e-34 (inferior a 0.05) indica que existe autocorrelación en los residuos. Esto implica que la independencia de los errores no se cumple, lo que puede generar problemas en la predicción y en la validez de los intervalos de confianza.

Posibles soluciones:

  • Aplicar modelos de regresión con errores autocorrelacionados (gls() del paquete nlme).

En general, el modelo tiene problemas de normalidad, homocedasticidad e independencia de los errores, por lo que se sugiere realizar un tratamiento a los casos atípicos, aplicar transformaciones (log(preciom)) y usar errores robustos.

Prueba de Shapiro-Wilk (p-valor): 1.255434e-51 
Prueba de Breusch-Pagan para homocedasticidad (p-valor): 6.725591e-191 
Prueba de Durbin-Watson para independencia (p-valor): 9.052403e-34 

2.2.4. Predicción del precio aplicando el modelo del caso para la Vivienda 2

A continuación se presentan los resultados de la implementación del modelo para la predicción de la Vivienda 2 para los estratos 5 y 6.

El precio estimado de la vivienda del caso 2 estrato 5 es: 701.66 millones.
El precio estimado de la vivienda del caso 2 estrato 6 es: 760.9 millones.

2.2.5. Sugerencia de potenciales ofertas del caso para la Vivienda 2

A continuación se presentan diferentes sugerencias para el caso de la Vivienda 2, mostrando opciones que respetan el prestamo de 850 millones y se acercan lo más posible a los requerimientos de la vivienda.

3. Anexos

Anexo 1. Resultados de la pruebas de independencia entre las variables vivienda 1

Anexo 2. Resultados de la pruebas de independencia entre las variables vivienda 2