En esta etapa se realizó un proceso de limpieza y depuración de la base de datos de vivienda con el fin de garantizar la calidad y consistencia de la información antes del análisis.
Tipificación de variables: Se ajustaron los tipos de datos de las variables numéricas, en particular la variable piso, que fue convertida de carácter a numérica.
Tratamiento de valores faltantes:
Para variables categóricas (zona, tipo, barrio) se reemplazaron los valores faltantes con la moda, asegurando representatividad de los casos más frecuentes.
Para variables numéricas discretas como estrato, parqueaderos, baños, habitaciones y piso, la imputación se realizó con la moda condicionada por tipo de inmueble y barrio, con el fin de mantener coherencia según el contexto.
Para las variables preciom y área construida se empleó la mediana, lo que permitió reducir la influencia de valores atípicos.
En el caso de las coordenadas geográficas (latitud, longitud), los valores faltantes fueron imputados con la mediana por grupo de barrio, zona y tipo de inmueble.
Estandarización de textos: La variable barrio fue normalizada (minúsculas, eliminación de tildes y espacios redundantes), reduciendo inconsistencias en la codificación de categorías.
Depuración de variables: Se eliminó la variable id al no aportar información relevante para el análisis.
Verificación posterior: Tras la imputación, se revisó nuevamente la cantidad de valores faltantes, confirmando que la base quedó completa para su utilización.
Una vez finalizada esta fase, se inicia con el desarrollo del Caso C&A para dar respuesta a las dos solicitudes de “Casa” y “Apartamento”.
Se realiza el filtro sobre a la base de datos, con los tipos de vivienda “Casa” que esten ubicados en la “Zona norte”, a continuación se presenta la tabla con los primeros 3 registros:
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Norte | 2 | 5 | 320 | 150 | 2 | 4 | 6 | Casa | acopi | -76.51341 | 3.47968 |
| Zona Norte | 2 | 5 | 780 | 380 | 2 | 3 | 3 | Casa | acopi | -76.51674 | 3.48721 |
| Zona Norte | 2 | 6 | 750 | 445 | 2 | 7 | 6 | Casa | acopi | -76.52950 | 3.38527 |
Se genera un mapa geoespacial que permite mostrar la ubicación de cada vivienda en puntos, así:
Se genera la delimitación de un poligono sobre lo que podría ser la zona norte de Cali. Aquí se evidencia la cantidad de viviendas que no se encuentran dentro del perimetro de la zona norte. Se toma como referencia “https://www.cali.gov.co/planeacion/publicaciones/169423/zonas-geograficas-idesc/”
Al filtrar las ofertas clasificadas como tipo de vivienda “Casa” y ubicadas en la “Zona Norte” de Cali, se esperaba que todas las coordenadas geográficas correspondieran estrictamente a dicha zona. Sin embargo, la visualización cartográfica revela que ciertos puntos se encuentran dispersos fuera del polígono definido para la Zona Norte. Esta novedad puede atribuirse a varios factores:
Posibles inconsistencias o errores en los datos registrados del atributo “zona” en la base de datos.
Las coordenadas de latitud y longitud asignadas a cada vivienda pueden no ser totalmente precisas o estar desactualizadas.
Se realizó un análisis de correlación entre el precio de las viviendas (preciom) y las variables explicativas principales: areaconst (área construida), estrato, banios, habitaciones, en función a la “Zona Norte”, usando gráficos de dispersión y matrices de correlación.
Se observó una clara tendencia creciente entre el área construida y el precio. Las viviendas con mayor área tienden a ubicarse en estratos más altos y tienen precios más elevados. Además, se identificaron algunos valores atípicos en viviendas con áreas grandes y precios significativamente altos, lo cual es esperable en zonas exclusivas o propiedades con características premium.
El análisis con el coeficiente de Pearson, se evidencio en las siguientes variables una mayor correlación frente al precio de las viviendas:
Área construida: 0.731
Estrato: 0.612
Baños: 0.523
Parqueaderos: 0.375
Habitaciones: 0.323
Todas las variables presentaron una relación positiva con el precio, destacándose el área construida y el estrato como las de mayor asociación lineal.
Dado que algunas variables no son perfectamente lineales (distribuciones no normales), se complementó el análisis con correlaciones de Spearman, que confirmó las tendencias observadas, presentando una mejor correlación frente al precio de las viviendas así:
Área construida: 0.866
Estrato: 0.751
Baños: 0.700
Parqueaderos: 0.676
Habitaciones: 0.390
En general, las correlaciones de Spearman fueron más altas, lo que indica la existencia de relaciones monótonas no estrictamente lineales, especialmente entre el área construida y el precio.
Se estimó un modelo de regresión lineal múltiple para explicar el precio de las casas en función del área construida, estrato, número de habitaciones, número de parqueaderos y número de baños.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -943.89 -78.62 -18.22 46.63 1084.10
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -232.85421 29.67651 -7.846 1.56e-14 ***
## areaconst 0.81578 0.04384 18.609 < 2e-16 ***
## estrato 83.59448 7.33211 11.401 < 2e-16 ***
## habitaciones 1.02161 4.12401 0.248 0.804
## parqueaderos 8.44638 5.44003 1.553 0.121
## banios 25.64324 5.37604 4.770 2.23e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 716 degrees of freedom
## Multiple R-squared: 0.6519, Adjusted R-squared: 0.6495
## F-statistic: 268.2 on 5 and 716 DF, p-value: < 2.2e-16
Los resultados indican que:
Área construida: Por cada metro cuadrado adicional, el precio promedio aumenta aproximadamente 0.82 millones, lo cual es coherente con la expectativa de que casas más grandes tengan un mayor valor.
Estrato: Un aumento en el estrato se asocia con un incremento en el precio promedio de cerca de 83.6 millones, reflejando la influencia del nivel socioeconómico en el valor inmobiliario.
Número de baños: Cada baño adicional incrementa el precio en alrededor de 25.6 millones, señalando su relevancia en la valoración de la vivienda.
Número de habitaciones: El número de habitaciones muestra un efecto muy pequeño y no estadísticamente significativo (p=0.804), lo que implica que, dado el resto de las variables, no aporta significativamente a la explicación del precio.
Número de parqueaderos: El coeficiente indica que cada espacio adicional de parqueadero podría aumentar el precio en aproximadamente 8.45 millones, pero dado que no es estadísticamente significativo (p=0.121), no se puede concluir con certeza que el número de parqueaderos tenga un efecto relevante en el precio dentro de este modelo.
El modelo de regresión lineal múltiple obtuvo un R² (coeficiente de determinación) de 0.6519 y un R² ajustado de 0.6495, lo cual indica que aproximadamente el 65% de la variabilidad en el precio de las viviendas puede ser explicada por las variables incluidas en el modelo: área construida, estrato, número de habitaciones, parqueaderos y baños. Este nivel de ajuste podría considerarse moderadamente alto en el contexto de bienes raíces, donde existen múltiples factores externos que también pueden influir en el precio (por ejemplo: ubicación exacta, cercanía a servicios, antigüedad, acabados, etc.).
El error estándar residual es de 158.9 millones, lo que implica que, en promedio, las predicciones del modelo pueden desviarse en esa magnitud respecto al valor real, lo cual tambien se considera una cifra significativa.
Con el fin de asegurar que el modelo estimado cumpla con los supuestos necesarios para que las inferencias sean válidas, se realizaron las siguientes pruebas estadísticas y visualizaciones:
El test de Shapiro-Wilk se emplea para evaluar el supuesto de normalidad de los residuos en un modelo de regresión. Este supuesto es importante porque garantiza la validez de las inferencias estadísticas del modelo, especialmente para la interpretación de los p-valores, la construcción de intervalos de confianza y la realización de pruebas de hipótesis. Si los residuos se distribuyen normalmente, se puede confiar en que el modelo está adecuadamente especificado y que sus predicciones e inferencias son robustas
El valor del estadístico W cercano a 0.83 y el p-valor extremadamente bajo (< 0.05) indican que los residuos del modelo no siguen una distribución normal. Esto sugiere que los errores del modelo al predecir el precio de las casas en la Zona Norte no se distribuyen de forma simétrica (gaussiana), lo cual limita la validez de las inferencias estadísticas obtenidas con este modelo, como las pruebas t para los coeficientes.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_mco_casa)
## W = 0.83326, p-value < 2.2e-16
El gráfico Q-Q de los residuos muestra una desviación importante respecto a la línea recta, especialmente en los extremos, lo que refuerza la conclusión de que existe asimetría o presencia de valores atípicos. Por lo tanto, se aprecia que los residuos del modelo de predicción de precios de casas en la zona norte no se distribuyen normalmente, especialmente en los extremos.
El test de Goldfeld-Quandt se utiliza para evaluar la presencia de heterocedasticidad en un modelo de regresión, es decir, si la varianza de los errores cambia a lo largo de los valores predichos. Este supuesto es fundamental para garantizar que las estimaciones del modelo sean eficientes y que los errores estándar estén correctamente calculados.
En este caso, el resultado del test aplicado al modelo de predicción del precio de casas en la Zona Norte arroja un estadístico GQ = 1.1121 con un p-valor de 0.1586, lo cual indica que no hay evidencia estadística significativa para rechazar la hipótesis nula de homocedasticidad. Esto sugiere que la dispersión de los residuos es constante, lo cual es deseable en un modelo de regresión lineal. En consecuencia, se puede considerar que el modelo cumple con este supuesto, aumentando la confiabilidad de sus inferencias.
##
## Goldfeld-Quandt test
##
## data: modelo_mco_casa
## GQ = 1.1121, df1 = 355, df2 = 355, p-value = 0.1586
## alternative hypothesis: variance increases from segment 1 to 2
Se observa que los residuos se distribuyen de manera aleatoria y sin un patrón aparente, lo que sugiere que el supuesto de varianza constante (homocedasticidad) se cumple adecuadamente. Esto concuerda con el resultado de la prueba de Goldfeld-Quandt, que no evidencia heterocedasticidad significativa. Sin embargo, se identifican algunas observaciones con residuos relativamente grandes, lo que podría indicar la presencia de valores atípicos o una mayor variabilidad en ciertas viviendas.
## NULL
Esto refuerza el resultado no significativo del test de Goldfeld-Quandt, en la conclusión de que no existe evidencia suficiente para rechazar el supuesto de homocedasticidad, lo cual es fundamental para la validez de las inferencias y la precisión de los intervalos de confianza en el modelo de regresión.
El test de Durbin-Watson se utiliza para detectar la presencia de autocorrelación en los residuos de un modelo de regresión, es decir, si los errores están correlacionados en función del orden de las observaciones. Este supuesto es clave para asegurar que las inferencias estadísticas sean válidas y que los errores estándar no estén subestimados o sobrestimados.
## lag Autocorrelation D-W Statistic p-value
## 1 0.1870825 1.62512 0
## Alternative hypothesis: rho != 0
En este caso, el valor obtenido de 1.625, aunque no indica una autocorrelación positiva fuerte (valor cercano a 0 sería una alta autocorrelación positiva), sí sugiere una ligera autocorrelación en los residuos. Además, el p-valor asociado es significativo, lo que indica evidencia estadística contra la independencia total de los errores.
Aunque el modelo cumple razonablemente bien con la homocedasticidad, existen dos aspectos a mejorar:
La no normalidad de los residuos puede afectar la confiabilidad de los intervalos y pruebas estadísticas. Se podrían considerar transformaciones de la variable respuesta (por ejemplo, logaritmos) o utilizar métodos robustos o no paramétricos para obtener inferencias más confiables.
La presencia de autocorrelación indica que los errores no son completamente independientes, lo cual puede subestimar o sobreestimar los errores estándar. Se podría, incluir variables adicionales que expliquen esta dependencia efectos temporales (esto quiere decir si las observaciones se recolectaron en diferentes momentos) o espaciales (pueden compartir características no medidas, lo que hace que sus errores estén relacionados. Por ejemplo, un factor local que afecta el precio pero no está en el modelo).
Utilizando el modelo de regresión lineal múltiple estimado, se predijo el precio de las casas con las características especificadas. En el caso de la vivienda en estrato 4, con un área construida de 200 m², 4 habitaciones, 1 parqueadero y 2 baños, ubicada en la zona norte , la predicción resultó en un precio aproximado de 328.5 millones de pesos. Por otra parte, la vivienda con las mismas caracteristicas en estrato 5, la predicción resulto en un precio aproximado de 412.1 millones de pesos.
| estrato | precio_predicho |
|---|---|
| 4 | 328.4997 |
| 5 | 412.0942 |
El valor estimado para la vivienda en estrato 4, está ligeramente por debajo del crédito preaprobado de 350 millones, lo que indica que, bajo las condiciones actuales y las variables consideradas en el modelo, la vivienda podría ser financieramente viable para el solicitante. Por el contrario la vivienda en estrato 5, excede el limite del credito preaprobado.
Cabe destacar que esta predicción refleja el comportamiento promedio esperado según el modelo y las características ingresadas. No obstante, factores no incluidos en el modelo, como la ubicación exacta dentro de la zona, acabados o condiciones particulares del inmueble, podrían influir en el precio real.
Para responder a la solicitud de la vivienda con características específicas (casa en Zona Norte, área construida alrededor de 200 m², 1 parqueadero, 2 baños, 4 habitaciones, estrato 4 o 5, y un crédito preaprobado máximo de 350 millones de pesos), se identificaron y analizaron un conjunto de ofertas potenciales que cumplen con estos criterios.
Se filtraron las viviendas de tipo casa localizadas en la Zona Norte de Cali, considerando características comparables a las solicitadas y permitiendo cierta flexibilidad en el área construida (≤ 220 m²) con el fin de ampliar las opciones de vivienda. Asimismo, se incluyeron inmuebles que presentan mejores prestaciones que lo solicitado, con mayor número de baños, parqueaderos o habitaciones. Para garantizar la ubicación, se restringió el análisis a las coordenadas dentro del perímetro definido por una longitud entre −76.58 y −76.48 y una latitud entre 3.47 y 3.52, dado que la clasificación de la zona norte en los datos originales presenta inconsistencias. Por ultimo, sobre este subconjunto se calcularon los precios estimados utilizando el modelo de regresión lineal múltiple previamente ajustado.
De las ofertas filtradas, se seleccionaron las cinco más adecuadas que cumplen con la restricción del crédito preaprobado (precio estimado menor o igual a 350 millones de pesos).
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | precio_estimado_casa |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Norte | 2 | 4 | 360 | 216 | 2 | 2 | 4 | Casa | la merced | -76.51390 | 3.48386 | 349.9986 |
| Zona Norte | 2 | 4 | 340 | 162 | 1 | 4 | 4 | Casa | el bosque | -76.53188 | 3.48770 | 348.7864 |
| Zona Norte | 2 | 4 | 280 | 130 | 2 | 4 | 4 | Casa | pacara | -76.50721 | 3.48524 | 331.1277 |
| Zona Norte | 2 | 4 | 310 | 120 | 1 | 4 | 4 | Casa | pacara | -76.51080 | 3.48399 | 314.5235 |
| Zona Norte | 2 | 4 | 253 | 140 | 2 | 3 | 4 | Casa | la merced | -76.51376 | 3.48104 | 313.6423 |
Ambas viviendas presentan precios estimados dentro del rango aceptable según el crédito preaprobado, lo que las convierte en opciones viables para la empresa y el cliente. Aunque el área construida de estas casas es menor a la solicitada, cumplen con el resto de características clave (estrato, número de baños, habitaciones y parqueaderos), y se encuentran localizadas en barrios relevantes de la Zona Norte.
Además, el análisis espacial mediante el mapa interactivo resalta la distribución geográfica de estas opciones, facilitando la visualización de la proximidad entre ellas y su ubicación dentro de la Zona Norte. La diferenciación por estrato también ayuda a entender cómo varían los precios y características en función del contexto socioeconómico.
Se realiza el filtro sobre a la base de datos, con los tipos de vivienda “Apartamento” que esten ubicados en la “Zona Sur”, a continuación se presenta la tabla con los primeros 3 registros:
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | 5 | 4 | 290 | 96 | 1 | 2 | 3 | Apartamento | acopi | -76.53464 | 3.44987 |
| Zona Sur | 2 | 3 | 78 | 40 | 1 | 1 | 2 | Apartamento | aguablanca | -76.50100 | 3.40000 |
| Zona Sur | 1 | 6 | 875 | 194 | 2 | 5 | 3 | Apartamento | aguacatal | -76.55700 | 3.45900 |
Se genera un mapa geoespacial que permite mostrar la ubicación de cada vivienda en puntos, así:
Se genera la delimitación de un poligono sobre lo que podría ser la zona sur de Cali. Aquí se evidencia la cantidad de viviendas que no se encuentran dentro del perimetro de la zona sur. Se toma como referencia “https://www.cali.gov.co/planeacion/publicaciones/169423/zonas-geograficas-idesc/”
Al filtrar las ofertas clasificadas como tipo de vivienda “Apartamento” y ubicadas en la “Zona Sur” de Cali, se esperaba que todas las coordenadas geográficas correspondieran estrictamente a dicha zona. Sin embargo, la visualización cartográfica revela que ciertos puntos se encuentran dispersos fuera del polígono definido para la Zona Sur. Esta novedad puede atribuirse a varios factores:
Posibles inconsistencias o errores en los datos registrados del atributo “zona” en la base de datos.
Las coordenadas de latitud y longitud asignadas a cada vivienda pueden no ser totalmente precisas o estar desactualizadas.
Se realizó un análisis de correlación entre el precio de las viviendas (preciom) y las variables explicativas principales: areaconst (área construida), estrato, banios, habitaciones, en función a la “Zona Sur”, usando gráficos de dispersión y matrices de correlación.
Se observó una clara tendencia creciente entre el área construida y el precio. Las viviendas con mayor área tienden a ubicarse en estratos más altos y tienen precios más elevados. Además, se identificaron algunos valores atípicos en viviendas con áreas grandes y precios significativamente altos, lo cual es esperable en zonas exclusivas o propiedades con características premium.
El análisis con el coeficiente de Pearson, se evidencio en las siguientes variables una mayor correlación frente al precio de las viviendas:
Área construida: 0.758
Baños: 0.719
Parqueaderos: 0.702
Estrato: 0.672
Habitaciones: 0.332
Todas las variables presentaron una relación positiva con el precio, destacándose el área construida y los baños como las de mayor asociación lineal.
Dado que algunas variables no son perfectamente lineales (distribuciones no normales), se complementó el análisis con correlaciones de Spearman, que confirmó las tendencias observadas, presentando una mejor correlación frente al precio de las viviendas así:
Área construida: 0.866
Estrato: 0.751
Baños: 0.700
Baños: 0.676
Habitaciones: 0.390
En general, las correlaciones de Spearman fueron más altas, lo que indica la existencia de relaciones monótonas no estrictamente lineales, especialmente entre el área construida y el precio.
Se estimó un modelo de regresión lineal múltiple para explicar el precio de los apartamentos en función del área construida, estrato, número de habitaciones, número de parqueaderos y número de baños.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1133.89 -37.73 -2.38 38.47 924.24
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -265.59361 12.84521 -20.68 < 2e-16 ***
## areaconst 1.34019 0.04849 27.64 < 2e-16 ***
## estrato 58.48455 2.66149 21.97 < 2e-16 ***
## habitaciones -18.00882 3.31645 -5.43 6.12e-08 ***
## parqueaderos 74.66638 3.64512 20.48 < 2e-16 ***
## banios 45.45527 2.96788 15.32 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 92.68 on 2784 degrees of freedom
## Multiple R-squared: 0.766, Adjusted R-squared: 0.7656
## F-statistic: 1823 on 5 and 2784 DF, p-value: < 2.2e-16
Los resultados indican que:
Área construida: Por cada metro cuadrado adicional de área construida, el precio promedio del apartamento aumenta en 1.34 millones. Esto confirma que el tamaño es el factor más relevante en la valorización.
Estrato: Un aumento en una unidad de estrato se asocia con un incremento en el precio promedio de 58.5 millones, lo cual refleja la fuerte influencia del nivel socioeconómico en el valor de los apartamentos.
Número de baños: Cada baño adicional aumenta el precio promedio en 45.5 millones, lo cual resalta su importancia en la decisión de compra.
Número de habitaciones: Cada habitación adicional se relaciona con una disminución de 18 millones en el precio, manteniendo constantes las demás variables. Esto puede deberse a que, para un mismo metraje, más habitaciones implican espacios más reducidos y menos atractivos para los compradores.
Número de parqueaderos: Cada parqueadero adicional incrementa el precio en 74.7 millones, mostrando que este es un atributo altamente valorado en apartamentos.
El modelo de regresión lineal múltiple obtuvo un R² de 0.766 y un R² ajustado de 0.7656, lo que indica que aproximadamente el 77% de la variabilidad en el precio de los apartamentos puede ser explicada por las variables incluidas en el modelo: área construida, estrato, número de habitaciones, parqueaderos y baños. Este nivel de ajuste es alto para el contexto inmobiliario, considerando que factores externos como ubicación exacta, cercanía a transporte y servicios, antigüedad del edificio o acabados también influyen en el precio y no están contemplados en el modelo.
El error estándar residual es de 92.7 millones, lo que implica que, en promedio, las predicciones del modelo pueden desviarse en esa magnitud respecto al valor real. Aunque este error representa un margen importante, se considera aceptable dada la naturaleza compleja del mercado inmobiliario.
Con el fin de asegurar que el modelo estimado cumpla con los supuestos necesarios para que las inferencias sean válidas, se realizaron las siguientes pruebas estadísticas y visualizaciones:
El test de Shapiro-Wilk se utilizó para evaluar el supuesto de normalidad de los residuos en el modelo de regresión aplicado a apartamentos. Este supuesto es relevante porque respalda la validez de las inferencias estadísticas del modelo, como la interpretación de los p-valores, la construcción de intervalos de confianza y la realización de pruebas de hipótesis.
El estadístico obtenido (W = 0.783) y el p-valor < 2.2e-16 indican que los residuos no siguen una distribución normal. En consecuencia, los errores en la predicción del precio de los apartamentos no se distribuyen de forma gaussiana, lo que limita la validez estricta de las pruebas de significancia de los coeficientes.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_mco_apt)
## W = 0.78327, p-value < 2.2e-16
El gráfico Q-Q de los residuos muestra una desviación importante respecto a la línea recta, especialmente en los extremos, lo que refuerza la conclusión de que existe asimetría o presencia de valores atípicos. Por lo tanto, se aprecia que los residuos del modelo de predicción de precios de apartamentos en la Zona Sur no se distribuyen normalmente, especialmente en los extremos.
En este caso, el resultado del test aplicado al modelo de predicción del precio de apartamentos en la Zona Sur arroja un estadístico GQ = 0.9447 con un p-valor de 0.8555, lo cual indica que no hay evidencia estadística significativa para rechazar la hipótesis nula de homocedasticidad. Esto sugiere que la dispersión de los residuos es constante, lo cual es deseable en un modelo de regresión lineal. En consecuencia, se puede considerar que el modelo cumple con este supuesto, aumentando la confiabilidad de sus inferencias.
##
## Goldfeld-Quandt test
##
## data: modelo_mco_apt
## GQ = 0.94468, df1 = 1389, df2 = 1389, p-value = 0.8555
## alternative hypothesis: variance increases from segment 1 to 2
Se observa que los residuos en los apartamentos de la Zona Sur se distribuyen de manera aleatoria en torno a la línea cero, sin un patrón claro, lo que sugiere que el supuesto de homocedasticidad se cumple de forma adecuada. Este comportamiento coincide con el resultado de la prueba de Goldfeld-Quandt, que no evidencia heterocedasticidad significativa. No obstante, se presentan algunas observaciones con residuos altos, lo cual podría asociarse con valores atípicos o una mayor variabilidad en ciertos apartamentos.
## NULL
Esto refuerza el resultado no significativo del test de Goldfeld-Quandt, en la conclusión de que no existe evidencia suficiente para rechazar el supuesto de homocedasticidad, lo cual es fundamental para la validez de las inferencias y la precisión de los intervalos de confianza en el modelo de regresión.
El test de Durbin-Watson se utiliza para detectar la presencia de autocorrelación en los residuos de un modelo de regresión, es decir, si los errores están correlacionados en función del orden de las observaciones. Este supuesto es clave para asegurar que las inferencias estadísticas sean válidas y que los errores estándar no estén subestimados o sobrestimados.
## lag Autocorrelation D-W Statistic p-value
## 1 0.2265053 1.546408 0
## Alternative hypothesis: rho != 0
En este caso, el valor obtenido de 1.546 en la estadística de Durbin-Watson, cercano pero inferior a 2, sugiere la presencia de autocorrelación positiva en los residuos. La autocorrelación estimada en el primer rezago es de 0.226, lo que confirma esta dependencia moderada. Además, el p-valor igual a 0 indica que existe evidencia estadística suficiente para rechazar la hipótesis nula de independencia de los errores.
Aunque el modelo cumple razonablemente bien con la homocedasticidad, existen dos aspectos a mejorar:
La no normalidad de los residuos, evidenciada en el gráfico Q-Q, puede afectar la validez de los intervalos de confianza y pruebas estadísticas. Para mitigar este efecto, podrían explorarse transformaciones de la variable respuesta como por ejemplo, logaritmos o aplicar métodos robustos que sean menos sensibles a valores atípicos.
La presencia de autocorrelación positiva en los residuos indica que los errores no son completamente independientes. Esto puede llevar a una estimación inadecuada de los errores estándar. Una alternativa es incorporar variables adicionales que expliquen esta dependencia, ya sea de tipo temporal, si los datos provienen de distintos momentos o espacial factores de localización o características no observadas que influyen en el precio y generan correlación en los errores.
Utilizando el modelo de regresión lineal múltiple estimado, se predijo el precio de los apartamentos con las características especificadas. En el caso de la vivienda en estrato 5 , con un área construida de 300 m², 5 habitaciones, 3 parqueadero y 6 baños, ubicada en la zona sur , la predicción resultó en un precio aproximado de 699.2 millones de pesos. Por otra parte, la vivienda con las mismas caracteristicas en estrato 6, la predicción resulto en un precio aproximado de 757.6 millones de pesos.
| estrato | precio_predicho |
|---|---|
| 5 | 699.2063 |
| 6 | 757.6908 |
El valor estimado para la vivienda en estrato 5 y 6, está ligeramente por debajo del crédito preaprobado de 850 millones, lo que indica que, bajo las condiciones actuales y las variables consideradas en el modelo, la vivienda podría ser financieramente viable para el solicitante.
Cabe destacar que esta predicción refleja el comportamiento promedio esperado según el modelo y las características ingresadas. No obstante, factores no incluidos en el modelo, como la ubicación exacta dentro de la zona, acabados o condiciones particulares del inmueble, podrían influir en el precio real.
Para responder a la solicitud de la vivienda con características específicas (apartamento en Zona Sur, área construida alrededor de 300 m², 3 parqueaderos, 3 baños, 5 habitaciones, estrato 5 o 6, y un crédito preaprobado máximo de 850 millones de pesos), se identificaron y analizaron un conjunto de ofertas potenciales que cumplen con estos criterios.
Se filtraron las viviendas de tipo apartamento localizadas en la Zona Sur de Cali, considerando características comparables a las solicitadas y permitiendo cierta flexibilidad en el área construida (≤ 320 m²) con el fin de ampliar las opciones de vivienda. Asimismo, se incluyeron inmuebles que presentan mejores prestaciones que lo solicitado, con mayor número de baños, parqueaderos o habitaciones. Para garantizar la ubicación, se restringió el análisis a las coordenadas dentro del perímetro definido por una longitud entre −76.55 y −76.50 y una latitud entre 3.41 y 3.31, dado que la clasificación de la zona sur en los datos originales presenta inconsistencias. Por ultimo, sobre este subconjunto se calcularon los precios estimados utilizando el modelo de regresión lineal múltiple previamente ajustado.
De las ofertas filtradas, se seleccionaron las dos más adecuadas que cumplen con la restricción del crédito preaprobado (precio estimado menor o igual a 850 millones de pesos).
| zona | piso | estrato | preciom | areaconst | parqueaderos | banios | habitaciones | tipo | barrio | longitud | latitud | precio_estimado_apt |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | 4 | 5 | 670 | 300 | 3 | 5 | 6 | Apartamento | seminario | -76.55000 | 3.40900 | 772.1080 |
| Zona Sur | 10 | 6 | 1500 | 240 | 3 | 5 | 6 | Apartamento | ciudad jardin | -76.54057 | 3.36308 | 750.1813 |
Ambas viviendas presentan precios estimados dentro del rango aceptable según el crédito preaprobado, lo que las convierte en opciones viables para la empresa y el cliente. Aunque el área construida de estos apartamentos en una opción es igual y en otra menor a la solicitado, cumplen con el resto de características clave (estrato, número de baños, habitaciones y parqueaderos), y se encuentran localizadas en barrios relevantes de la Zona Sur.
Además, el análisis espacial mediante el mapa interactivo resalta la distribución geográfica de estas opciones, facilitando la visualización de la proximidad entre ellas y su ubicación dentro de la Zona Sur. La diferenciación por estrato también ayuda a entender cómo varían los precios y características en función del contexto socioeconómico.
Fin del programa
Elaborado por Sebastian Ortiz