María comenzó como agente de bienes raíces en Cali hace 10 años. Después de trabajar para una empresa nacional y posteriormente trasladarse a Bogotá para laborar en otra agencia inmobiliaria, decidió fundar su propia compañía en Cali, denominada C&A (Casas y Apartamentos). Actualmente cuenta con un equipo de ocho agentes de bienes raíces.
En el contexto actual, las ventas de bienes raíces en Cali han disminuido significativamente en lo corrido del año. No obstante, varias instituciones financieras están otorgando créditos importantes para el sector de construcción y vivienda, por lo cual se espera una reactivación del mercado cuando disminuyan las tensiones políticas y sociales.
Hace dos días, María recibió una solicitud de asesoría por parte de una compañía internacional que desea adquirir dos viviendas para ubicar a dos de sus empleados con sus familias en la ciudad de Cali. Para responder a esta solicitud se requiere un análisis basado en técnicas de modelación estadística.
Desarrollar un análisis estadístico que permita apoyar la recomendación de vivienda para las dos solicitudes recibidas por María, mediante:
zona: ubicación general de la vivienda.piso: piso que ocupa la vivienda.estrato: estrato socioeconómico.preciom: precio de la vivienda en millones de
pesos.areaconst: área construida en metros cuadrados.parqueaderos: número de parqueaderos.banios: número de baños.habitaciones: número de habitaciones.tipo: tipo de vivienda.barrio: barrio de ubicación.longitud, latitud: coordenadas
geográficas.Para el desarrollo del caso se utiliza la base de datos
vivienda, disponible en el paquete
paqueteMODELOS, la cual reune la información necesaria para
analizar las dos solicitudes planteadas.
## Rows: 8,322
## Columns: 13
## $ id <dbl> 1147, 1169, 1350, 5992, 1212, 1724, 2326, 4386, 1209, 159…
## $ zona <fct> Zona Oriente, Zona Oriente, Zona Oriente, Zona Sur, Zona …
## $ piso <fct> NA, NA, NA, 02, 01, 01, 01, 01, 02, 02, 02, 02, 02, 02, 0…
## $ estrato <dbl> 3, 3, 3, 4, 5, 5, 4, 5, 5, 5, 6, 4, 5, 6, 4, 5, 5, 4, 5, …
## $ preciom <dbl> 250, 320, 350, 400, 260, 240, 220, 310, 320, 780, 750, 62…
## $ areaconst <dbl> 70, 120, 220, 280, 90, 87, 52, 137, 150, 380, 445, 355, 2…
## $ parqueaderos <dbl> 1, 1, 2, 3, 1, 1, 2, 2, 2, 2, NA, 3, 2, 2, 1, 4, 2, 2, 2,…
## $ banios <dbl> 3, 2, 2, 5, 2, 3, 2, 3, 4, 3, 7, 5, 6, 2, 4, 4, 4, 3, 2, …
## $ habitaciones <dbl> 6, 3, 4, 3, 3, 3, 3, 4, 6, 3, 6, 5, 6, 2, 5, 5, 4, 3, 3, …
## $ tipo <fct> Casa, Casa, Casa, Casa, Apartamento, Apartamento, Apartam…
## $ barrio <fct> 20 de julio, 20 de julio, 20 de julio, 3 de julio, acopi,…
## $ longitud <dbl> -76.51168, -76.51237, -76.51537, -76.54000, -76.51350, -7…
## $ latitud <dbl> 3.43382, 3.43369, 3.43566, 3.43500, 3.45891, 3.36971, 3.4…
En esta sección se presenta una visión general de la base de datos, con el fin de identificar la estructura de las variables, sus rangos de valores y la posible presencia de datos faltantes o comportamientos atípicos. Esta revisión inicial permite verificar que la información disponible sea consistente con el objetivo del análisis y sirve como punto de partida para la etapa de depuración.
## id zona piso estrato
## Min. : 1 Zona Centro : 124 02 :1450 Min. :3.000
## 1st Qu.:2080 Zona Norte :1920 03 :1097 1st Qu.:4.000
## Median :4160 Zona Oeste :1198 01 : 860 Median :5.000
## Mean :4160 Zona Oriente: 351 04 : 607 Mean :4.634
## 3rd Qu.:6240 Zona Sur :4726 05 : 567 3rd Qu.:5.000
## Max. :8319 NA's : 3 (Other):1103 Max. :6.000
## NA's :3 NA's :2638 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Apartamento:5100 valle del lili:1008 Min. :-76.59
## 1st Qu.: 3.000 Casa :3219 ciudad jardín : 516 1st Qu.:-76.54
## Median : 3.000 NA's : 3 pance : 409 Median :-76.53
## Mean : 3.605 la flora : 366 Mean :-76.53
## 3rd Qu.: 4.000 santa teresita: 262 3rd Qu.:-76.52
## Max. :10.000 (Other) :5758 Max. :-76.46
## NA's :3 NA's : 3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## id zona piso estrato preciom areaconst
## 0.04 0.04 31.70 0.04 0.02 0.04
## parqueaderos banios habitaciones tipo barrio longitud
## 19.29 0.04 0.04 0.04 0.04 0.04
## latitud
## 0.04
En esta parte se revisa si existen valores faltantes en las variables que se van a usar en el modelo. Esta verificación es importante porque, si los faltantes no se tratan de forma adecuada, pueden afectar tanto el ajuste del modelo como la interpretación de los resultados.
Para esta actividad se utiliza una estrategia simple y transparente:
zona, tipo,
latitud o longitud se eliminan, ya que impiden
realizar filtros correctos o construir mapas.## id zona piso estrato preciom areaconst
## 0 0 2635 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
Se decidió imputar con la mediana porque esta medida no se ve tan afectada por valores extremos y permite conservar registros útiles para el análisis. De esta manera se evita perder información que puede aportar al modelo, sin recurrir a procedimientos más complejos que no son necesarios para el alcance de esta actividad. ## Detección exploratoria de valores atípicos
Se identifican algunos valores extremos, sobre todo en precio y área construida. Esto no resulta extraño en una base inmobiliaria, ya que pueden aparecer viviendas de alto valor o inmuebles con características poco frecuentes frente al resto del mercado. En esta actividad no se eliminan, pero sí se tienen en cuenta porque pueden influir en el comportamiento del modelo y en el cumplimiento de algunos supuestos.
Para responder la primera solicitud se construye una base específica con las ofertas de casas ubicadas en la zona norte de la ciudad. Este filtro permite concentrar el análisis en un segmento comparable con el perfil solicitado y evita mezclar observaciones de otras zonas o de otros tipos de vivienda.
##
## Apartamento Casa
## 0 722
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 0 722 0 0 0
Las tablas anteriores confirman que la consulta se realizó correctamente, ya que todos los registros de la base 1 corresponden a casas ubicadas en la zona norte.
Discusión del mapa.
Idealmente, los puntos deben concentrarse en la zona norte. Si algunos registros parecen quedar fuera de la zona esperada, esto puede explicarse por errores de georreferenciación, diferencias entre la clasificación comercial de la zona y la ubicación exacta, imprecisiones en los límites espaciales o errores de digitación en las coordenadas.
## preciom areaconst estrato parqueaderos
## Min. : 89.0 Min. : 30.0 Min. :3.000 Min. : 1.000
## 1st Qu.: 261.2 1st Qu.: 140.0 1st Qu.:3.000 1st Qu.: 2.000
## Median : 390.0 Median : 240.0 Median :4.000 Median : 2.000
## Mean : 445.9 Mean : 264.9 Mean :4.202 Mean : 2.109
## 3rd Qu.: 550.0 3rd Qu.: 336.8 3rd Qu.:5.000 3rd Qu.: 2.000
## Max. :1940.0 Max. :1440.0 Max. :6.000 Max. :10.000
## banios habitaciones
## Min. : 0.000 Min. : 0.000
## 1st Qu.: 2.000 1st Qu.: 3.000
## Median : 3.000 Median : 4.000
## Mean : 3.555 Mean : 4.507
## 3rd Qu.: 4.000 3rd Qu.: 5.000
## Max. :10.000 Max. :10.000
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.7313480 0.6123503 0.5233357 0.3227096 0.3033762
## areaconst 0.7313480 1.0000000 0.4573818 0.4628152 0.3753323 0.2586839
## estrato 0.6123503 0.4573818 1.0000000 0.4083039 0.1073141 0.2039056
## banios 0.5233357 0.4628152 0.4083039 1.0000000 0.5755314 0.2922145
## habitaciones 0.3227096 0.3753323 0.1073141 0.5755314 1.0000000 0.1928669
## parqueaderos 0.3033762 0.2586839 0.2039056 0.2922145 0.1928669 1.0000000
La matriz de correlación permite ver qué tan relacionadas están las variables entre sí y en qué dirección se mueven. En este caso, lo esperable es que el precio aumente junto con el área construida, el estrato y algunas características de comodidad de la vivienda, como el número de baños o parqueaderos.
Interpretación general del EDA.
En general, los gráficos muestran que el precio de las casas en la zona norte tiende a ser mayor cuando aumentan el área construida, el estrato y el número de baños. En el caso de las habitaciones, la relación no siempre se ve tan marcada, posiblemente porque parte de ese efecto ya está reflejado en el tamaño total de la vivienda. Por esta razón, conviene estimar un modelo de regresión múltiple que permita evaluar el efecto conjunto de todas las variables.
Se estima el siguiente modelo:
\[ preciom_i = \beta_0 + \beta_1 areaconst_i + \beta_2 estrato_i + \beta_3 habitaciones_i + \beta_4 parqueaderos_i + \beta_5 banios_i + \varepsilon_i \]
donde los parámetros se estiman mediante Mínimos Cuadrados Ordinarios (MCO).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -924.94 -77.71 -17.66 45.90 1081.29
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -251.05177 30.11848 -8.335 3.94e-16 ***
## areaconst 0.81090 0.04352 18.634 < 2e-16 ***
## estrato 84.61108 7.17727 11.789 < 2e-16 ***
## habitaciones 0.95948 4.10569 0.234 0.81529
## parqueaderos 16.55976 5.70396 2.903 0.00381 **
## banios 24.57669 5.35583 4.589 5.26e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.2 on 716 degrees of freedom
## Multiple R-squared: 0.6548, Adjusted R-squared: 0.6524
## F-statistic: 271.6 on 5 and 716 DF, p-value: < 2.2e-16
## R2 R2_Ajustado
## 0.6547860 0.6523753
Interpretación de R².
El coeficiente R² muestra qué parte de la variación del precio logra explicar el modelo con las variables incluidas. Por su parte, el R² ajustado hace una corrección teniendo en cuenta cuántos predictores se incorporaron. Si estos valores resultan razonables, el modelo puede servir como apoyo para la decisión de compra, aunque no recoge todos los factores que influyen en el precio, como el estado del inmueble, la antigüedad, los acabados o detalles más finos de la ubicación.
La interpretación puntual debe realizarse con base en el
summary(modelo1) obtenido al ejecutar el código:
Desde el punto de vista del caso, estos resultados son lógicos, ya que el mercado inmobiliario suele valorar de manera favorable viviendas más amplias, mejor dotadas y ubicadas en estratos más altos.
Las pruebas formales permiten complementar la revisión gráfica del modelo y ayudan a verificar si los supuestos de la regresión lineal se cumplen de manera razonable. En particular, se revisa la normalidad de los residuos, la homogeneidad de varianzas, la posible autocorrelación y el nivel de multicolinealidad entre las variables explicativas.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo1)
## W = 0.83433, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo1
## BP = 132.24, df = 5, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: modelo1
## DW = 1.6319, p-value = 2.93e-07
## alternative hypothesis: true autocorrelation is greater than 0
## areaconst estrato habitaciones parqueaderos banios
## 1.523989 1.433058 1.621630 1.120670 1.918323
## [1] NaN NaN
Interpretación.
Si alguno de los supuestos no se cumple, no es necesario corregirlo en esta actividad, pero sí sugerir posibles alternativas, por ejemplo transformar el precio con logaritmo, incluir variables adicionales como barrio o antigüedad, usar modelos robustos o explorar relaciones no lineales.
Dado que la solicitud acepta estrato 4 o 5, se calculan ambos escenarios.
## fit lwr upr
## 1 319.124 7.853564 630.3945
## fit lwr upr
## 1 403.7351 91.96195 715.5082
Estas predicciones representan el valor estimado de mercado para una casa con las características solicitadas. Al compararlas con el crédito preaprobado de 350 millones, se puede valorar si la búsqueda resulta más viable en estrato 4, en estrato 5 o en ambos escenarios.
Para sugerir inmuebles potenciales, se construye un filtro razonable alrededor de las características solicitadas y respetando el presupuesto máximo.
## [1] 36
Discusión.
Las ofertas seleccionadas se consideran viables porque cumplen con la zona requerida, se acercan al perfil solicitado y se mantienen dentro del presupuesto disponible. A partir de estas opciones, María puede discutir con el cliente no solo el precio, sino también la ubicación puntual, el barrio y qué tan bien se ajusta cada inmueble a las necesidades de la familia.
##
## Apartamento Casa
## 2787 0
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 0 0 0 0 2787
Estas tablas permiten verificar que el filtro se aplicó correctamente y que la base 2 contiene únicamente apartamentos ubicados en la zona sur, tal como lo requiere la segunda solicitud del caso.
Discusión del mapa.
Al igual que en el caso anterior, si se observan puntos aparentemente fuera de la zona sur, esto puede relacionarse con problemas de georreferenciación o con diferencias entre la clasificación comercial y la localización cartográfica exacta.
El análisis exploratorio de esta segunda base permite describir cómo se comportan, en términos generales, los apartamentos ubicados en la zona sur. En particular, interesa observar los rangos de precio, área construida, estrato y demás características físicas del inmueble, para reconocer si este segmento presenta un comportamiento parecido o distinto al observado en las casas de la zona norte.
## preciom areaconst estrato parqueaderos
## Min. : 75.0 Min. : 40.00 Min. :3.00 Min. : 1.0
## 1st Qu.: 175.0 1st Qu.: 65.00 1st Qu.:4.00 1st Qu.: 1.0
## Median : 245.0 Median : 85.00 Median :5.00 Median : 1.0
## Mean : 297.3 Mean : 97.47 Mean :4.63 Mean : 1.5
## 3rd Qu.: 335.0 3rd Qu.:110.00 3rd Qu.:5.00 3rd Qu.: 2.0
## Max. :1750.0 Max. :932.00 Max. :6.00 Max. :10.0
## banios habitaciones
## Min. :0.000 Min. :0.000
## 1st Qu.:2.000 1st Qu.:3.000
## Median :2.000 Median :3.000
## Mean :2.488 Mean :2.966
## 3rd Qu.:3.000 3rd Qu.:3.000
## Max. :8.000 Max. :6.000
## preciom areaconst estrato banios habitaciones parqueaderos
## preciom 1.0000000 0.7579955 0.6727067 0.7196705 0.3317538 0.5357706
## areaconst 0.7579955 1.0000000 0.4815593 0.6618179 0.4339608 0.4472369
## estrato 0.6727067 0.4815593 1.0000000 0.5686171 0.2125953 0.3021866
## banios 0.7196705 0.6618179 0.5686171 1.0000000 0.5149227 0.4092575
## habitaciones 0.3317538 0.4339608 0.2125953 0.5149227 1.0000000 0.1418243
## parqueaderos 0.5357706 0.4472369 0.3021866 0.4092575 0.1418243 1.0000000
Interpretación general del EDA.
En los apartamentos de la zona sur también se espera una asociación positiva entre el precio y el área, el estrato y el número de baños. Esto confirma que la estructura del precio depende de varias características simultáneas y justifica estimar un modelo de regresión específico para este segmento.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1233.80 -45.98 -2.05 42.25 927.76
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -314.61850 13.51614 -23.277 < 2e-16 ***
## areaconst 1.45139 0.04876 29.766 < 2e-16 ***
## estrato 68.93151 2.66560 25.860 < 2e-16 ***
## habitaciones -16.28835 3.41634 -4.768 1.96e-06 ***
## parqueaderos 51.59374 3.16010 16.327 < 2e-16 ***
## banios 49.11206 3.02770 16.221 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 95.01 on 2781 degrees of freedom
## Multiple R-squared: 0.7544, Adjusted R-squared: 0.754
## F-statistic: 1709 on 5 and 2781 DF, p-value: < 2.2e-16
## R2 R2_Ajustado
## 0.7544366 0.7539951
Interpretación de R².
El valor de R² indica la proporción de la variabilidad del precio explicada por el modelo. Esto permite valorar si el modelo es una herramienta adecuada para apoyar la recomendación del segundo caso.
La lectura debe hacerse igual que en el primer caso:
areaconst indica mayor
precio esperado para apartamentos de mayor tamaño;estrato señala mayor
valoración en estratos altos;banios y parqueaderos normalmente reflejan
mayor nivel de amenidades;habitaciones debe interpretarse controlando por el
resto de variables.Las pruebas formales complementan la revisión gráfica del modelo y permiten revisar si los supuestos clásicos de la regresión lineal se cumplen de manera aceptable. En esta parte se analiza la normalidad de los residuos, la homogeneidad de varianzas, la posible autocorrelación y la presencia de multicolinealidad entre las variables explicativas. Aunque en esta actividad no se busca corregir el modelo, esta revisión sí permite identificar sus limitaciones y proponer mejoras futuras.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.79864, p-value < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo2
## BP = 929.2, df = 5, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: modelo2
## DW = 1.5597, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## areaconst estrato habitaciones parqueaderos banios
## 2.027751 1.555176 1.441342 1.310740 2.470269
## [1] NaN NaN
Los supuestos se revisan exactamente igual que en el caso 1. Si se detectan problemas, basta con sugerir mejoras metodológicas, sin necesidad de corregir el modelo para esta entrega.
Dado que la solicitud permite estrato 5 o 6, se estiman ambos escenarios.
## fit lwr upr
## 1 686.1331 498.7416 873.5246
## fit lwr upr
## 1 755.0646 567.6303 942.4988
Estas predicciones permiten revisar si el crédito preaprobado de 850 millones resulta coherente con el valor estimado de mercado de un apartamento con las características solicitadas.
## [1] 11
Discusión.
Las ofertas seleccionadas se consideran adecuadas porque cumplen razonablemente con el perfil del cliente, se ubican en la zona solicitada y están dentro del límite presupuestal establecido.
En esta actividad, tipo y zona son
variables categóricas. No se incluyeron directamente en los modelos
porque el análisis se segmentó previamente en dos bases:
Si se hubiera querido estimar un modelo único con toda la base, R habría transformado estas variables en variables indicadoras o dummies.
La siguiente tabla resume las predicciones puntuales obtenidas para los cuatro escenarios evaluados, junto con sus respectivos intervalos de predicción. Esta comparación facilita revisar de forma directa qué tan cercanos están los valores estimados frente a los montos de crédito disponibles en cada solicitud.
El filtro inicial permitió construir correctamente dos subconjuntos de análisis: casas en la zona norte y apartamentos en la zona sur, cumpliendo con lo solicitado en el caso.
El análisis exploratorio mostró que variables como el área construida, el estrato, el número de baños y los parqueaderos presentan asociación positiva con el precio de la vivienda, lo cual es consistente con la lógica del mercado inmobiliario.
Los modelos de regresión lineal múltiple estimados mediante Mínimos Cuadrados Ordinarios permiten analizar el precio a partir de varias características del inmueble de manera simultánea, por lo que resultan útiles como apoyo para la toma de decisiones de la inmobiliaria C&A.
El coeficiente R² y el R² ajustado permiten valorar la capacidad explicativa de cada modelo. Aunque no capturan la totalidad de la variabilidad del precio, sí aportan una base cuantitativa importante para la recomendación.
La validación de supuestos permite identificar las principales limitaciones del modelo. Si aparecen problemas de heterocedasticidad o de no normalidad, una alternativa futura sería probar transformaciones, incorporar variables adicionales o considerar modelos más robustos.
En el caso de la primera vivienda, la comparación entre el precio predicho y el crédito máximo de 350 millones permite establecer si la búsqueda es más viable en estrato 4, en estrato 5 o en ambos.
En el caso de la segunda vivienda, el mismo procedimiento permite evaluar la viabilidad de la compra en estratos 5 y 6, considerando el crédito máximo de 850 millones.
Las ofertas potenciales identificadas y ubicadas en el mapa representan alternativas concretas para presentar al cliente. Estas deben discutirse no solo por precio, sino también por ubicación, entorno barrial y compatibilidad con las necesidades familiares de los empleados.
Como mejora futura, el modelo podría fortalecerse incorporando variables como antiguedad del inmueble, estado de conservación, acabados, amenidades del edificio o información más detallada de localización.