Se requiere de
Se realizó un filtro de la base original para las casas de la zona norte y se visualizaron los primeros 3 datos de la siguiente manera
#Cargado de paquetes
library(dplyr)
library(ggplot2)
library(ggmap)
library(leaflet)
library(knitr)
library(plotly)
library(lmtest)
library(car)
library(lmtest)
library(nortest)
library(paqueteMODELOS)
data("vivienda")
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 02 5 320 150 2 4 6
## 2 1592 Zona N… 02 5 780 380 2 3 3
## 3 4057 Zona N… 02 6 750 445 NA 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Adicionalmente se realizó un mapa para identificar si las 3 viviendas se encontraban en la zona correspondiente
En el mapa se observa que dos de los puntos están ubicados muy próximos entre sí, mientras que un tercer punto se encuentra notablemente distanciado del par agrupado. Sugiriendo un posible error en las coordenadas o en la asignación de la zona. Se recomienda verificar la exactitud de las variables de zona y coordenadas geográficas en la base de datos para garantizar la precisión del mapeo y la integridad del análisis.
Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, número de habitaciones y zona donde se ubica la vivienda.
Para esto tuvo que convertirse en valor numérico la zona y al momento de graficar se explicó a qué valor correspondió cada zona
Interpretación de Gráficos de Dispersión
La interpretación de los gráficos de dispersión para el análisis de precios de viviendas en relación con diferentes variables muestra las siguientes tendencias:
Área Construida - Existe una correlación positiva clara entre el área construida y el precio de las casas. Esto indica que, en general, las casas más grandes tienden a tener precios más altos.
Estrato - Se observa que las casas ubicadas en estratos más altos generalmente tienen precios más elevados. Esto sugiere una correlación positiva entre el estrato socioeconómico y el precio de las viviendas, reflejando la percepción de valor asociada a la ubicación y servicios del área.
Número de Baños - Hay una relación positiva entre el número de baños y el precio. Aunque hay variabilidad considerable en los precios, generalmente, casas con más baños tienden a ser más caras, lo que puede estar relacionado con un mayor tamaño y lujo de la vivienda.
Número de Habitaciones - Similar al número de baños, existe una tendencia a que las casas con más habitaciones tengan precios más altos. Sin embargo, la variabilidad en los precios sugiere que otros factores, como la calidad de los acabados o la ubicación, también juegan un papel importante.
Zona - El análisis muestra diferencias significativas en los precios de las viviendas según la zona. La zona sur destaca por concentrar viviendas de mayor precio, mientras que la zona norte y oeste presentan una gama más amplia de precios con una tendencia a valores moderados. Por otro lado, la zona centro y oriente alojan las viviendas con los precios más bajos, lo que puede reflejar diferencias en la demanda, calidad de vida o accesibilidad a servicios y comodidades.
En conclusión, estos análisis de dispersión subrayan la importancia del tamaño, la ubicación y las características de las viviendas como determinantes clave del precio. La relación negativa entre el número de habitaciones y el precio en algunas zonas sugiere que factores como la distribución del espacio y la funcionalidad pueden influir en la percepción de valor de una vivienda más allá de su tamaño bruto.
Se estimó un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) para las casas
No se incluyó la zona dado la incertidumbre de su veracidad.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = casas_filtradas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1185.09 -114.47 -23.53 75.33 996.11
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -412.93670 25.52757 -16.176 < 2e-16 ***
## areaconst 0.74349 0.02942 25.274 < 2e-16 ***
## estrato 115.84636 5.25045 22.064 < 2e-16 ***
## habitaciones -14.57886 3.17545 -4.591 4.63e-06 ***
## parqueaderos 64.58068 3.47554 18.582 < 2e-16 ***
## banios 38.69357 4.04733 9.560 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 205.3 on 2480 degrees of freedom
## (733 observations deleted due to missingness)
## Multiple R-squared: 0.6832, Adjusted R-squared: 0.6825
## F-statistic: 1069 on 5 and 2480 DF, p-value: < 2.2e-16
Los resultados del modelo de regresión lineal múltiple se pueden interpretar de la siguiente manera:
Análisis de Resultados del Modelo de Regresión
Residuos:Los residuos varían desde un mínimo de -1198.10 hasta un máximo de 988.22, con una mediana cercana a cero (-24.75). Esto indica que el modelo no tiene un sesgo sistemático significativo, sugiriendo que las predicciones del modelo son, en general, equilibradas alrededor de los valores reales.
Coeficientes (Estimaciones): - (Intercept): El valor del intercepto es -412.90, lo cual necesita ser interpretado en el contexto de las otras variables del modelo. - areaconst: Cada metro cuadrado adicional en área construida aumenta el precio de la vivienda en 0.74 millones de pesos, manteniendo constantes el resto de las variables. - estrato: Un incremento en el nivel de estrato se asocia con un aumento promedio de 115.81 millones de pesos en el precio de la vivienda. - habitaciones: Interesantemente, cada habitación adicional se asocia con una reducción de 14.72 millones de pesos en el precio de la vivienda, lo que sugiere que el tamaño de la habitación o factores no considerados podrían influir en este resultado. - parqueaderos: Cada parqueadero adicional se asocia con un incremento de 64.58 millones de pesos en el precio de la vivienda. - banios: Cada baño adicional incrementa el precio de la vivienda en 38.98 millones de pesos.
Todos los coeficientes son estadísticamente significativos (p < 0.05), indicando una relación fuerte entre estas variables y el precio de la vivienda.
Error Estándar Residual: - El error estándar residual de 205.3 muestra el tamaño típico de los residuos, es decir, las desviaciones entre los precios observados y los predichos por el modelo.
R-cuadrado y R-cuadrado ajustado: - El R-cuadrado de 0.6832 indica que aproximadamente el 68.32% de la variabilidad en el precio de la vivienda es explicada por el modelo. - El R-cuadrado ajustado de 0.6825, ligeramente menor que el R-cuadrado, refleja una penalización mínima por la inclusión de múltiples variables en el modelo.
F-estadístico: - Un F-estadístico de 1070 con un valor p menor que 2.2e-16 confirma la significancia estadística del modelo en su conjunto.
Observaciones Adicionales: - 733 observaciones fueron eliminadas por falta de datos, lo que podría influir en la generalización de los resultados.
Conclusión: El modelo revela que el área construida, el estrato, el número de habitaciones, parqueaderos, y baños son predictores significativos del precio de las viviendas. Sin embargo, la influencia negativa del número de habitaciones sobre el precio es peculiar y podría justificar una exploración más detallada para entender mejor esta dinámica.
Se realizó la validación de supuestos del modelo
## lag Autocorrelation D-W Statistic p-value
## 1 0.2120354 1.575634 0
## Alternative hypothesis: rho != 0
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.89752, p-value < 2.2e-16
## areaconst estrato habitaciones parqueaderos banios
## 1.540901 1.688818 1.590463 1.532485 2.052810
Interpretación
Linealidad y Homocedasticidad: En este caso, parece haber un patrón en la dispersión de los residuos que sugiere posibles problemas con la homocedasticidad. Los residuos no parecen estar distribuidos uniformemente a lo largo del rango de valores ajustados, lo que podría indicar que la varianza de los errores cambia con el nivel de la variable predictora.
Independencia de los Errores: Un valor de 1.574 en la prueba de Durbin-Watson indica una posible autocorrelación positiva, lo cual podría violar el supuesto de independencia.
Normalidad de los Errores: Un valor p pequeño en la prueba de Shapiro-Wilk (menor que 2.2e-16) indica que los residuos no siguen una distribución normal. Además, en el gráfico Q-Q se muestran desviaciones de la línea roja, especialmente en los extremos, lo que indica que los residuos pueden tener colas más pesadas de lo que se esperaría en una distribución normal. Esto sugiere que la normalidad de los errores puede ser una suposición violada en el modelo.
Multicolinealidad: Un valor de 2.05 en el Factor de Inflación de la Varianza sugiere que la multicolinealidad no es un problema importante en este modelo.
Sugerencias para Mejorar el Modelo
Linealidad y Homocedasticidad: Se podría intentar transformar las variables (como logaritmos o raíces cuadradas) o utilizar modelos más complejos que no asuman homocedasticidad, como modelos con varianzas que cambian con el nivel de la variable predictora (modelos de varianza heterocedástica).
Independencia de los Errores: Se pueden considerar métodos que tengan en cuenta la autocorrelación, como modelos ARIMA para datos de series temporales o modelos espaciales para datos geográficos.
Normalidad de los Errores: Se pueden usar técnicas de transformación de datos o métodos robustos a las violaciones de la normalidad. Además, con un tamaño de muestra grande, la violación de la normalidad de los residuos no es tan crítica debido al Teorema del Límite Central.
Dado que los valores VIF son aceptables, no parece necesario abordar la multicolinealidad en este caso.
Se realizó la estimación del precio de la vivienda 1 que se solicita: resultando en un total de 339.864.000 pesos lo cual se acomoda al presupuesto del crédito aprobado
## 1
## 340.7221
Se predijeron las casas <350 millones y se compararon con los requerimientos
Comparación casas
Conclusión: Ninguna de las viviendas cumple completamente con todos los requisitos especificados. Las viviendas 1, 2 y 3 están más cerca del rango de precio y tienen áreas construidas adecuadas (excepto la vivienda 1 que es menor), pero todas tienen estratos menores a 4 y variaciones en el número de habitaciones y baños. Las viviendas 4 y 5 están significativamente por debajo del presupuesto y del área construida deseada, con otras discrepancias en las características requeridas.
Se requiere de
Se realizó un filtro de la base original para los apartamentos de la zona sur y se visualizaron los primeros 3 datos de la siguiente manera
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 05 4 290 96 1 2 3
## 2 698 Zona S… 02 3 78 40 1 1 2
## 3 8199 Zona S… <NA> 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Adicionalmente se realizó un mapa para identificar si las 3 viviendas se encontraban en la zona correspondiente
En el mapa se observa que los 3 puntos están separados entre sí. Sugiriendo un posible error en las coordenadas o en la asignación de la zona. Se recomienda nuevamente verificar la exactitud de las variables de zona y coordenadas geográficas en la base de datos para garantizar la precisión del mapeo y la integridad del análisis.
Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato, numero de baños, número de habitaciones y zona donde se ubica la vivienda.
Para esto tuvo que convertirse en valor numérico la zona y al momento de graficar se explicó a qué valor correspondió cada zona
Interpretación de Gráficos de Dispersión para Apartamentos
Área Construida: El gráfico sugiere que existe una correlación positiva entre el área construida de los apartamentos y su precio. Los apartamentos con mayor superficie tienden a tener precios más elevados, lo que es consistente con la expectativa de que más espacio suele significar un mayor costo.
Estrato: Similar a las casas, los apartamentos ubicados en estratos socioeconómicos más altos parecen tener precios más altos. Esto indica que el estrato sigue siendo un indicador importante del precio, reflejando posiblemente la calidad de la ubicación y los servicios asociados con áreas de mayor estrato.
Número de Baños: La relación entre el número de baños en los apartamentos y su precio también parece ser positiva. Aunque hay una variabilidad notable en los precios, generalmente, los apartamentos con más baños tienden a ser más caros, lo cual podría estar relacionado con un mayor lujo o tamaño del apartamento.
Número de Habitaciones: El gráfico muestra que los apartamentos con un mayor número de habitaciones suelen tener precios más altos. Sin embargo, la relación no es tan clara, y parece haber una mayor dispersión de precios para un mismo número de habitaciones, lo que podría deberse a otros factores como la ubicación exacta, el estado del apartamento o las comodidades adicionales.
Zona: Al observar el precio de los apartamentos en relación con la zona, parece haber diferencias significativas. La Zona Oeste muestra una alta concentración de apartamentos con precios elevados, aunque en esta misma zona se encuentran de todos los precios. Zona Sur y Norte tienen precios similares y el centro tiene los apartamentos con menor costo.
Se estimó un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) para los apartamentos
No se incluyó la zona dado la incertidumbre de su veracidad.
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = apartamentos_filtrados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1696.42 -56.60 -0.70 47.52 1005.34
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -275.66814 15.86685 -17.37 <2e-16 ***
## areaconst 2.00584 0.04839 41.45 <2e-16 ***
## estrato 55.39778 3.06013 18.10 <2e-16 ***
## habitaciones -42.40561 3.79710 -11.17 <2e-16 ***
## parqueaderos 90.90165 4.14464 21.93 <2e-16 ***
## banios 54.73839 3.40828 16.06 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 137.9 on 4225 degrees of freedom
## (869 observations deleted due to missingness)
## Multiple R-squared: 0.784, Adjusted R-squared: 0.7838
## F-statistic: 3068 on 5 and 4225 DF, p-value: < 2.2e-16
Interpretación de los Resultados del Modelo de Regresión para Apartamentos
Residuos: - Los residuos, diferencias entre los valores observados y los predichos por el modelo, varían desde -1698.62 hasta 1010.08. - La mediana cercana a -1.27 indica que el modelo no presenta un sesgo sistemático significativo.
Coeficientes (Estimaciones): - (Intercept): El valor del intercepto es -279.07, que carece de interpretación práctica sin el contexto de las otras variables. - areaconst: Por cada metro cuadrado adicional de área construida, el precio del apartamento aumenta en promedio 2.01 millones de pesos. - estrato: Cada incremento en el estrato se asocia con un aumento promedio en el precio del apartamento de 56.00 millones de pesos. - habitaciones: Cada habitación adicional se relaciona con una disminución promedio del precio del apartamento de 41.77 millones de pesos. - parqueaderos: Cada parqueadero adicional incrementa el precio del apartamento en promedio 90.94 millones de pesos. - banios: Cada baño adicional está asociado con un aumento promedio en el precio del apartamento de 53.82 millones de pesos. - Todos los coeficientes son estadísticamente significativos (p < 0.05), indicando un efecto claro sobre el precio de los apartamentos.
Error Estándar Residual: - El error estándar residual es de 137.9, proporcionando una medida de la desviación típica de los residuos o errores del modelo.
R-cuadrado: - El R-cuadrado de 0.7839 implica que aproximadamente el 78.39% de la variabilidad en el precio de los apartamentos puede explicarse con el modelo.
R-cuadrado ajustado: - El R-cuadrado ajustado de 0.7836 es muy cercano al R-cuadrado, indicando que la penalización por múltiples predictores no afecta significativamente la explicación de la varianza del modelo.
F-estadístico: - Un F-estadístico de 3065 y un valor p asociado menor que 2.2e-16 confirman la significancia estadística del modelo en su conjunto.
Observaciones adicionales: - 869 observaciones fueron eliminadas debido a la falta de datos, lo que podría influir en la representatividad del modelo.
En resumen, el modelo indica que el tamaño del apartamento, su ubicación y las comodidades son determinantes significativos del precio. La relación negativa entre el número de habitaciones y el precio es notable y podría reflejar preferencias del mercado por apartamentos con diseños más abiertos o por otras características no capturadas en el modelo.
Se realizó la validación de supuestos del modelo
## lag Autocorrelation D-W Statistic p-value
## 1 0.1724767 1.654624 0
## Alternative hypothesis: rho != 0
##
## Shapiro-Wilk normality test
##
## data: modelo_apartamentos$residuals
## W = 0.83745, p-value < 2.2e-16
## areaconst estrato habitaciones parqueaderos banios
## 2.595729 1.689009 1.424867 2.107425 2.897397
Interpretación de Diagnósticos del Modelo
Linealidad y Homocedasticidad - La dispersión de los residuos no es uniforme a lo largo de los valores ajustados, lo que sugiere problemas de homocedasticidad. Este patrón indica que la varianza de los errores no es constante y podría depender del nivel de las variables predictoras.
Independencia de los Errores - La prueba de Durbin-Watson tiene un valor de 1.6549, lo que indica una ligera autocorrelación positiva en los residuos. Este resultado sugiere que los errores no son completamente independientes, lo que es un supuesto clave en la regresión lineal.
Normalidad de los Errores - La prueba de Shapiro-Wilk tiene un valor p muy bajo, lo que rechaza la hipótesis de normalidad de los residuos. Esto se ve corroborado por el gráfico Q-Q, donde se observan desviaciones de la línea roja, indicando colas más pesadas que en una distribución normal.
Multicolinealidad - Los valores del Factor de Inflación de la Varianza (VIF) están por debajo del umbral común de 5 o 10, lo que sugiere que la multicolinealidad entre las variables predictoras no es una preocupación importante para este modelo.
Sugerencias para Mejorar el Modelo - Transformar las variables predictoras o la variable respuesta (logaritmos, raíces cuadradas) para mejorar la homocedasticidad y linealidad. - Explorar métodos que aborden la autocorrelación en los errores podría ser beneficioso, especialmente si los datos tienen una estructura temporal o espacial. - Aunque la violación de la normalidad no es crítica en grandes muestras debido al Teorema del Límite Central, se podrían intentar métodos más robustos o transformaciones para mejorar la normalidad de los residuos.
En resumen, aunque el modelo parece ser fuerte en términos de las relaciones entre las variables predictoras y el precio de los apartamentos, hay ciertos supuestos del modelo de regresión lineal que se han violado. Estas violaciones deberían ser investigadas y abordadas para mejorar la fiabilidad de las predicciones del modelo y la validez de las inferencias estadísticas que se puedan hacer.
Se realizó la estimación del precio de la vivienda e que se solicita: resultando en un total de 858.439.700 pesos lo cual no se acomoda al presupuesto del crédito aprobado
## 1
## 855.6631
Se predijeron los apartamentos <850 millones y se compararon con los requerimientos
Conclusión: Ninguno de los apartamentos cumple con todos los requisitos de la solicitud. Aunque el estrato y el precio en algunas opciones son adecuados, todas las propiedades fallan en cumplir con el área construida, el número de habitaciones y parqueaderos requeridos.