Primera solicitud

Se requiere de

Punto 1

Se realizó un filtro de la base original para las casas de la zona norte y se visualizaron los primeros 3 datos de la siguiente manera

#Cargado de paquetes 
library(dplyr)
library(ggplot2)
library(ggmap)
library(leaflet)
library(knitr)
library(plotly)
library(lmtest)
library(car)
library(lmtest)
library(nortest)
library(paqueteMODELOS)
data("vivienda")
## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445           NA      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Adicionalmente se realizó un mapa para identificar si las 3 viviendas se encontraban en la zona correspondiente

En el mapa se observa que dos de los puntos están ubicados muy próximos entre sí, mientras que un tercer punto se encuentra notablemente distanciado del par agrupado. Sugiriendo un posible error en las coordenadas o en la asignación de la zona. Se recomienda verificar la exactitud de las variables de zona y coordenadas geográficas en la base de datos para garantizar la precisión del mapeo y la integridad del análisis.

Punto 2

Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, número de habitaciones y zona donde se ubica la vivienda.

Para esto tuvo que convertirse en valor numérico la zona y al momento de graficar se explicó a qué valor correspondió cada zona

Interpretación de Gráficos de Dispersión

La interpretación de los gráficos de dispersión para el análisis de precios de viviendas en relación con diferentes variables muestra las siguientes tendencias:

Área Construida - Existe una correlación positiva clara entre el área construida y el precio de las casas. Esto indica que, en general, las casas más grandes tienden a tener precios más altos.

Estrato - Se observa que las casas ubicadas en estratos más altos generalmente tienen precios más elevados. Esto sugiere una correlación positiva entre el estrato socioeconómico y el precio de las viviendas, reflejando la percepción de valor asociada a la ubicación y servicios del área.

Número de Baños - Hay una relación positiva entre el número de baños y el precio. Aunque hay variabilidad considerable en los precios, generalmente, casas con más baños tienden a ser más caras, lo que puede estar relacionado con un mayor tamaño y lujo de la vivienda.

Número de Habitaciones - Similar al número de baños, existe una tendencia a que las casas con más habitaciones tengan precios más altos. Sin embargo, la variabilidad en los precios sugiere que otros factores, como la calidad de los acabados o la ubicación, también juegan un papel importante.

Zona - El análisis muestra diferencias significativas en los precios de las viviendas según la zona. La zona sur destaca por concentrar viviendas de mayor precio, mientras que la zona norte y oeste presentan una gama más amplia de precios con una tendencia a valores moderados. Por otro lado, la zona centro y oriente alojan las viviendas con los precios más bajos, lo que puede reflejar diferencias en la demanda, calidad de vida o accesibilidad a servicios y comodidades.

En conclusión, estos análisis de dispersión subrayan la importancia del tamaño, la ubicación y las características de las viviendas como determinantes clave del precio. La relación negativa entre el número de habitaciones y el precio en algunas zonas sugiere que factores como la distribución del espacio y la funcionalidad pueden influir en la percepción de valor de una vivienda más allá de su tamaño bruto.

Punto 3

Se estimó un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) para las casas

No se incluyó la zona dado la incertidumbre de su veracidad.

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = casas_filtradas)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1185.09  -114.47   -23.53    75.33   996.11 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -412.93670   25.52757 -16.176  < 2e-16 ***
## areaconst       0.74349    0.02942  25.274  < 2e-16 ***
## estrato       115.84636    5.25045  22.064  < 2e-16 ***
## habitaciones  -14.57886    3.17545  -4.591 4.63e-06 ***
## parqueaderos   64.58068    3.47554  18.582  < 2e-16 ***
## banios         38.69357    4.04733   9.560  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 205.3 on 2480 degrees of freedom
##   (733 observations deleted due to missingness)
## Multiple R-squared:  0.6832, Adjusted R-squared:  0.6825 
## F-statistic:  1069 on 5 and 2480 DF,  p-value: < 2.2e-16

Los resultados del modelo de regresión lineal múltiple se pueden interpretar de la siguiente manera:

Análisis de Resultados del Modelo de Regresión

Residuos:Los residuos varían desde un mínimo de -1198.10 hasta un máximo de 988.22, con una mediana cercana a cero (-24.75). Esto indica que el modelo no tiene un sesgo sistemático significativo, sugiriendo que las predicciones del modelo son, en general, equilibradas alrededor de los valores reales.

Coeficientes (Estimaciones): - (Intercept): El valor del intercepto es -412.90, lo cual necesita ser interpretado en el contexto de las otras variables del modelo. - areaconst: Cada metro cuadrado adicional en área construida aumenta el precio de la vivienda en 0.74 millones de pesos, manteniendo constantes el resto de las variables. - estrato: Un incremento en el nivel de estrato se asocia con un aumento promedio de 115.81 millones de pesos en el precio de la vivienda. - habitaciones: Interesantemente, cada habitación adicional se asocia con una reducción de 14.72 millones de pesos en el precio de la vivienda, lo que sugiere que el tamaño de la habitación o factores no considerados podrían influir en este resultado. - parqueaderos: Cada parqueadero adicional se asocia con un incremento de 64.58 millones de pesos en el precio de la vivienda. - banios: Cada baño adicional incrementa el precio de la vivienda en 38.98 millones de pesos.

Todos los coeficientes son estadísticamente significativos (p < 0.05), indicando una relación fuerte entre estas variables y el precio de la vivienda.

Error Estándar Residual: - El error estándar residual de 205.3 muestra el tamaño típico de los residuos, es decir, las desviaciones entre los precios observados y los predichos por el modelo.

R-cuadrado y R-cuadrado ajustado: - El R-cuadrado de 0.6832 indica que aproximadamente el 68.32% de la variabilidad en el precio de la vivienda es explicada por el modelo. - El R-cuadrado ajustado de 0.6825, ligeramente menor que el R-cuadrado, refleja una penalización mínima por la inclusión de múltiples variables en el modelo.

F-estadístico: - Un F-estadístico de 1070 con un valor p menor que 2.2e-16 confirma la significancia estadística del modelo en su conjunto.

Observaciones Adicionales: - 733 observaciones fueron eliminadas por falta de datos, lo que podría influir en la generalización de los resultados.

Conclusión: El modelo revela que el área construida, el estrato, el número de habitaciones, parqueaderos, y baños son predictores significativos del precio de las viviendas. Sin embargo, la influencia negativa del número de habitaciones sobre el precio es peculiar y podría justificar una exploración más detallada para entender mejor esta dinámica.

Punto 4

Se realizó la validación de supuestos del modelo

##  lag Autocorrelation D-W Statistic p-value
##    1       0.2120354      1.575634       0
##  Alternative hypothesis: rho != 0

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.89752, p-value < 2.2e-16
##    areaconst      estrato habitaciones parqueaderos       banios 
##     1.540901     1.688818     1.590463     1.532485     2.052810

Interpretación

Sugerencias para Mejorar el Modelo

Dado que los valores VIF son aceptables, no parece necesario abordar la multicolinealidad en este caso.

Punto 5

Se realizó la estimación del precio de la vivienda 1 que se solicita: resultando en un total de 339.864.000 pesos lo cual se acomoda al presupuesto del crédito aprobado

##        1 
## 340.7221

Punto 6

Se predijeron las casas <350 millones y se compararon con los requerimientos

Comparación casas

Conclusión: Ninguna de las viviendas cumple completamente con todos los requisitos especificados. Las viviendas 1, 2 y 3 están más cerca del rango de precio y tienen áreas construidas adecuadas (excepto la vivienda 1 que es menor), pero todas tienen estratos menores a 4 y variaciones en el número de habitaciones y baños. Las viviendas 4 y 5 están significativamente por debajo del presupuesto y del área construida deseada, con otras discrepancias en las características requeridas.

Segunda solicitud

Se requiere de

Punto 1

Se realizó un filtro de la base original para los apartamentos de la zona sur y se visualizaron los primeros 3 datos de la siguiente manera

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Adicionalmente se realizó un mapa para identificar si las 3 viviendas se encontraban en la zona correspondiente

En el mapa se observa que los 3 puntos están separados entre sí. Sugiriendo un posible error en las coordenadas o en la asignación de la zona. Se recomienda nuevamente verificar la exactitud de las variables de zona y coordenadas geográficas en la base de datos para garantizar la precisión del mapeo y la integridad del análisis.

Punto 2

Se realizó un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato, numero de baños, número de habitaciones y zona donde se ubica la vivienda.

Para esto tuvo que convertirse en valor numérico la zona y al momento de graficar se explicó a qué valor correspondió cada zona

Interpretación de Gráficos de Dispersión para Apartamentos

Punto 3

Se estimó un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) para los apartamentos

No se incluyó la zona dado la incertidumbre de su veracidad.

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = apartamentos_filtrados)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1696.42   -56.60    -0.70    47.52  1005.34 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -275.66814   15.86685  -17.37   <2e-16 ***
## areaconst       2.00584    0.04839   41.45   <2e-16 ***
## estrato        55.39778    3.06013   18.10   <2e-16 ***
## habitaciones  -42.40561    3.79710  -11.17   <2e-16 ***
## parqueaderos   90.90165    4.14464   21.93   <2e-16 ***
## banios         54.73839    3.40828   16.06   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 137.9 on 4225 degrees of freedom
##   (869 observations deleted due to missingness)
## Multiple R-squared:  0.784,  Adjusted R-squared:  0.7838 
## F-statistic:  3068 on 5 and 4225 DF,  p-value: < 2.2e-16

Interpretación de los Resultados del Modelo de Regresión para Apartamentos

Residuos: - Los residuos, diferencias entre los valores observados y los predichos por el modelo, varían desde -1698.62 hasta 1010.08. - La mediana cercana a -1.27 indica que el modelo no presenta un sesgo sistemático significativo.

Coeficientes (Estimaciones): - (Intercept): El valor del intercepto es -279.07, que carece de interpretación práctica sin el contexto de las otras variables. - areaconst: Por cada metro cuadrado adicional de área construida, el precio del apartamento aumenta en promedio 2.01 millones de pesos. - estrato: Cada incremento en el estrato se asocia con un aumento promedio en el precio del apartamento de 56.00 millones de pesos. - habitaciones: Cada habitación adicional se relaciona con una disminución promedio del precio del apartamento de 41.77 millones de pesos. - parqueaderos: Cada parqueadero adicional incrementa el precio del apartamento en promedio 90.94 millones de pesos. - banios: Cada baño adicional está asociado con un aumento promedio en el precio del apartamento de 53.82 millones de pesos. - Todos los coeficientes son estadísticamente significativos (p < 0.05), indicando un efecto claro sobre el precio de los apartamentos.

Error Estándar Residual: - El error estándar residual es de 137.9, proporcionando una medida de la desviación típica de los residuos o errores del modelo.

R-cuadrado: - El R-cuadrado de 0.7839 implica que aproximadamente el 78.39% de la variabilidad en el precio de los apartamentos puede explicarse con el modelo.

R-cuadrado ajustado: - El R-cuadrado ajustado de 0.7836 es muy cercano al R-cuadrado, indicando que la penalización por múltiples predictores no afecta significativamente la explicación de la varianza del modelo.

F-estadístico: - Un F-estadístico de 3065 y un valor p asociado menor que 2.2e-16 confirman la significancia estadística del modelo en su conjunto.

Observaciones adicionales: - 869 observaciones fueron eliminadas debido a la falta de datos, lo que podría influir en la representatividad del modelo.

En resumen, el modelo indica que el tamaño del apartamento, su ubicación y las comodidades son determinantes significativos del precio. La relación negativa entre el número de habitaciones y el precio es notable y podría reflejar preferencias del mercado por apartamentos con diseños más abiertos o por otras características no capturadas en el modelo.

Punto 4

Se realizó la validación de supuestos del modelo

##  lag Autocorrelation D-W Statistic p-value
##    1       0.1724767      1.654624       0
##  Alternative hypothesis: rho != 0

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_apartamentos$residuals
## W = 0.83745, p-value < 2.2e-16
##    areaconst      estrato habitaciones parqueaderos       banios 
##     2.595729     1.689009     1.424867     2.107425     2.897397

Interpretación de Diagnósticos del Modelo

Linealidad y Homocedasticidad - La dispersión de los residuos no es uniforme a lo largo de los valores ajustados, lo que sugiere problemas de homocedasticidad. Este patrón indica que la varianza de los errores no es constante y podría depender del nivel de las variables predictoras.

Independencia de los Errores - La prueba de Durbin-Watson tiene un valor de 1.6549, lo que indica una ligera autocorrelación positiva en los residuos. Este resultado sugiere que los errores no son completamente independientes, lo que es un supuesto clave en la regresión lineal.

Normalidad de los Errores - La prueba de Shapiro-Wilk tiene un valor p muy bajo, lo que rechaza la hipótesis de normalidad de los residuos. Esto se ve corroborado por el gráfico Q-Q, donde se observan desviaciones de la línea roja, indicando colas más pesadas que en una distribución normal.

Multicolinealidad - Los valores del Factor de Inflación de la Varianza (VIF) están por debajo del umbral común de 5 o 10, lo que sugiere que la multicolinealidad entre las variables predictoras no es una preocupación importante para este modelo.

Sugerencias para Mejorar el Modelo - Transformar las variables predictoras o la variable respuesta (logaritmos, raíces cuadradas) para mejorar la homocedasticidad y linealidad. - Explorar métodos que aborden la autocorrelación en los errores podría ser beneficioso, especialmente si los datos tienen una estructura temporal o espacial. - Aunque la violación de la normalidad no es crítica en grandes muestras debido al Teorema del Límite Central, se podrían intentar métodos más robustos o transformaciones para mejorar la normalidad de los residuos.

En resumen, aunque el modelo parece ser fuerte en términos de las relaciones entre las variables predictoras y el precio de los apartamentos, hay ciertos supuestos del modelo de regresión lineal que se han violado. Estas violaciones deberían ser investigadas y abordadas para mejorar la fiabilidad de las predicciones del modelo y la validez de las inferencias estadísticas que se puedan hacer.

Punto 5

Se realizó la estimación del precio de la vivienda e que se solicita: resultando en un total de 858.439.700 pesos lo cual no se acomoda al presupuesto del crédito aprobado

##        1 
## 855.6631

Punto 6

Se predijeron los apartamentos <850 millones y se compararon con los requerimientos

Conclusión: Ninguno de los apartamentos cumple con todos los requisitos de la solicitud. Aunque el estrato y el precio en algunas opciones son adecuados, todas las propiedades fallan en cumplir con el área construida, el número de habitaciones y parqueaderos requeridos.