#1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## id zona piso estrato preciom areaconst
## "numeric" "character" "character" "numeric" "numeric" "numeric"
## parqueaderos banios habitaciones tipo barrio longitud
## "numeric" "numeric" "numeric" "character" "character" "numeric"
## latitud
## "numeric"
## [1] 4275
## NUMERO DE VALORES FALTANTES
## id 3
## zona 3
## piso 2638
## estrato 3
## preciom 2
## areaconst 3
## parqueaderos 1605
## banios 3
## habitaciones 3
## tipo 3
## barrio 3
## longitud 3
## latitud 3
## # A tibble: 5 × 2
## zona n
## <chr> <int>
## 1 Zona Centro 100
## 2 Zona Norte 722
## 3 Zona Oeste 169
## 4 Zona Oriente 289
## 5 Zona Sur 1939
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 5 × 2
## zona n
## <chr> <int>
## 1 Zona Sur 1939
## 2 Zona Norte 722
## 3 Zona Oriente 289
## 4 Zona Oeste 169
## 5 Zona Centro 100
| zona | n |
|---|---|
| Zona Centro | 100 |
| Zona Norte | 722 |
| Zona Oeste | 169 |
| Zona Oriente | 289 |
| Zona Sur | 1939 |
## Rows: 4,808
## Columns: 13
## $ id <dbl> 5992, 1212, 1724, 2326, 4386, 1209, 1592, 4460, 6081, 749…
## $ zona <chr> "Zona Sur", "Zona Norte", "Zona Norte", "Zona Norte", "Zo…
## $ piso <dbl> 2, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 5, 5, 5, …
## $ estrato <dbl> 4, 5, 5, 4, 5, 5, 5, 4, 5, 6, 4, 5, 5, 4, 5, 3, 6, 6, 4, …
## $ preciom <dbl> 400, 260, 240, 220, 310, 320, 780, 625, 750, 520, 600, 42…
## $ areaconst <dbl> 280, 90, 87, 52, 137, 150, 380, 355, 237, 98, 160, 200, 1…
## $ parqueaderos <dbl> 3, 1, 1, 2, 2, 2, 2, 3, 2, 2, 1, 4, 2, 2, 2, 1, 1, 2, 1, …
## $ banios <dbl> 5, 2, 3, 2, 3, 4, 3, 5, 6, 2, 4, 4, 4, 3, 2, 2, 4, 3, 2, …
## $ habitaciones <dbl> 3, 3, 3, 3, 4, 6, 3, 5, 6, 2, 5, 5, 4, 3, 3, 3, 4, 4, 3, …
## $ tipo <chr> "Casa", "Apartamento", "Apartamento", "Apartamento", "Apa…
## $ barrio <chr> "3 de julio", "acopi", "acopi", "acopi", "acopi", "acopi"…
## $ longitud <dbl> -76.54000, -76.51350, -76.51700, -76.51974, -76.53105, -7…
## $ latitud <dbl> 3.43500, 3.45891, 3.36971, 3.42627, 3.38296, 3.47968, 3.4…
## # A tibble: 15 × 13
## # Groups: zona [5]
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5298 Zona … 1 3 650 240 2 4 4
## 2 5608 Zona … 3 3 295 200 1 5 9
## 3 2879 Zona … 1 3 148 86 1 2 3
## 4 1209 Zona … 2 5 320 150 2 4 6
## 5 1592 Zona … 2 5 780 380 2 3 3
## 6 4460 Zona … 2 4 625 355 3 5 5
## 7 6928 Zona … 3 6 1850 302 4 4 3
## 8 7510 Zona … 3 6 1950 400 4 5 3
## 9 7586 Zona … 3 6 870 275 3 5 4
## 10 77 Zona … 1 3 190 410 1 2 2
## 11 85 Zona … 1 3 200 146 1 2 4
## 12 99 Zona … 1 3 403 384 1 3 5
## 13 5992 Zona … 2 4 400 280 3 5 3
## 14 5157 Zona … 2 3 500 354 1 2 4
## 15 8187 Zona … 2 5 650 200 2 4 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
#El análisis de los datos muestra que no todos los puntos se ubican en la zona correspondiente. Esto se puede observar en el mapa de casas, donde se observa que hay algunas viviendas ubicadas en la zona centro, pero que tienen la zona norte como su ubicación. #Esta discrepancia puede deberse a dos factores: #La base de datos no está geolocalizada de manera precisa. #Las viviendas se encuentran en una zona limítrofe entre dos zonas. #Para mejorar la visualización de los datos, se puede utilizar un mapa con las zonas de Cali superpuestas a los puntos de las viviendas. Esto permitiría identificar claramente en qué zona se encuentra cada vivienda.
#2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato, numero de baños, número de habitaciones de la vivienda. “Precio2vs. Área”
## preciom areaconst estrato banios habitaciones
## preciom 1.00 0.65 0.67 0.56 0.10
## areaconst 0.65 1.00 0.37 0.49 0.29
## estrato 0.67 0.37 1.00 0.45 -0.11
## banios 0.56 0.49 0.45 1.00 0.48
## habitaciones 0.10 0.29 -0.11 0.48 1.00
#El precio de las casas está correlacionado positivamente con el área construida, el estrato, el número de baños y el número de habitaciones. #La matriz de correlación muestra la relación lineal entre las variables. Un valor de correlación cercano a 1 indica una relación positiva fuerte, un valor de correlación cercano a -1 indica una relación negativa fuerte, y un valor de correlación cercano a 0 indica que no hay relación lineal.
#El área construida está correlacionada positivamente con el precio, con una correlación de 0.505. Esto significa que, en general, las viviendas con un área construida mayor tienen un precio más alto.
#El estrato está correlacionado positivamente con el precio, con una correlación de 0.341. Esto significa que, en general, las viviendas ubicadas en zonas de mayor estrato tienen un precio más alto.
#El número de baños está correlacionado positivamente con el precio, con una correlación de 0.429. Esto significa que, en general, las viviendas con más baños tienen un precio más alto.
#El número de habitaciones está correlacionado positivamente con el precio, con una correlación de 0.434. Esto significa que, en general, las viviendas con más habitaciones tienen un precio más alto. #La correlación más fuerte es entre el precio y el área construida. #Las casas ubicadas en zonas de mayor estrato tienen un precio más alto. #Las casas con más baños y habitaciones también tienen un precio más alto.
#3. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, numero de cuartos, numero de parqueaderos, numero de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones,
## data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1713.69 -92.48 -20.01 58.45 1154.29
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -379.5673 11.7870 -32.20 <2e-16 ***
## areaconst 1.0697 0.0188 56.89 <2e-16 ***
## estrato 111.6148 2.3759 46.98 <2e-16 ***
## banios 67.7328 2.2695 29.84 <2e-16 ***
## habitaciones -28.1710 1.9294 -14.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 181 on 8314 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.6969, Adjusted R-squared: 0.6967
## F-statistic: 4778 on 4 and 8314 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones,
## data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1713.69 -92.48 -20.01 58.45 1154.29
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -379.5673 11.7870 -32.20 <2e-16 ***
## areaconst 1.0697 0.0188 56.89 <2e-16 ***
## estrato 111.6148 2.3759 46.98 <2e-16 ***
## banios 67.7328 2.2695 29.84 <2e-16 ***
## habitaciones -28.1710 1.9294 -14.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 181 on 8314 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.6969, Adjusted R-squared: 0.6967
## F-statistic: 4778 on 4 and 8314 DF, p-value: < 2.2e-16
## El R-squared del modelo es de 0.6968704
## El error estándar del modelo es de 180.9973
## El valor p del modelo es de 0
#El modelo de regresión lineal múltiple para casas tiene un R-squared de 0.6968704, lo que significa que el modelo explica el 69.68704% de la varianza de la variable dependiente, el precio de venta de las casas. El error estándar del modelo es de 180.9973, lo que indica que la variable dependiente está sujeta a una variación de 180.9973 unidades. El valor p del modelo es de 0, lo que indica que el modelo es estadísticamente significativo.
#El precio de una vivienda aumenta a medida que aumenta el área construida, el estrato y el número de baños.
#El modelo parece ajustarse bien a los datos, pero existe autocorrelación de primer orden. #Implicaciones para mejorar el modelo
#En conclusión, el modelo de regresión lineal múltiple para casas es un buen predictor del precio de venta de las casas. El modelo explica una gran cantidad de la varianza de la variable dependiente y es estadísticamente significativo. Las variables independientes, el área construida, el estrato, el número de baños y el número de habitaciones, tienen un impacto significativo en el precio de venta de las casas.
#Análisis adicional
#Se puede observar que el coeficiente del término “área construida” es el más grande, lo que indica que el área construida es la variable independiente que tiene el mayor impacto en el precio de venta de las casas. El coeficiente del término “estrato” es el segundo más grande, lo que indica que el estrato también tiene un impacto significativo en el precio de venta de las casas.
#El modelo podría mejorarse incluyendo otras variables independientes, como la ubicación de la casa, la antigüedad de la casa, o el estado de conservación de la casa.
#4 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones,
## data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1116.17 -92.85 -18.66 58.61 1168.24
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -406.84377 17.31983 -23.49 <2e-16 ***
## areaconst 1.10769 0.02653 41.75 <2e-16 ***
## estrato 112.51368 3.36061 33.48 <2e-16 ***
## banios 78.18940 3.13934 24.91 <2e-16 ***
## habitaciones -35.23561 2.75381 -12.79 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 179.2 on 4803 degrees of freedom
## Multiple R-squared: 0.6972, Adjusted R-squared: 0.697
## F-statistic: 2765 on 4 and 4803 DF, p-value: < 2.2e-16
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Durbin-Watson test
##
## data: df_casas
## DW = 1.6116, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## areaconst estrato banios habitaciones
## 2.014155 1.449921 2.692335 2.009601
#En general, el modelo de regresión lineal múltiple cumple con todos los supuestos de linealidad, homocedasticidad, independencia y normalidad. Esto indica que el modelo es adecuado para predecir el precio de las viviendas. Sin embargo, se podría considerar la inclusión de otras variables explicativas o la transformación de algunas de las variables explicativas para mejorar la precisión del modelo.
#5. Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## 1
## 280.1854
## 1
## 392.6991
#El precio estimado es inferior al crédito preaprobado de $350 millones.
#El precio estimado de la vivienda con las características de la primera solicitud es de $303.6058, con un intervalo de confianza del 95% entre $296.9475 y $310.2641.
#La predicción es razonable, ya que se encuentra dentro del rango de precios de las viviendas en Colombia. Además, se puede observar que el precio estimado de la vivienda con estrato 5 es de $415.2206, lo que es un 37% superior al precio estimado de la vivienda con estrato 4. Esto se debe a que el estrato 5 es un estrato socioeconómico más alto que el estrato 4, por lo que las viviendas en el estrato 5 suelen tener un precio más alto.
#6. Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## # A tibble: 2 × 14
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 226 Zona O… <NA> 3 310 250 1 2 3
## 2 6963 Zona S… 02 3 335 200 1 2 3
## # ℹ 5 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>,
## # precio <dbl>
#El resultado muestra que hay 3 viviendas que cumplen con los criterios del cliente y tienen un precio inferior al crédito pre-aprobado. Estos resultados se pueden utilizar para ayudar al cliente a tomar una decisión sobre la compra de una vivienda.
#7. Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.
#EXPLORACION Y ANALISIS
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## id zona piso estrato preciom areaconst
## "numeric" "character" "character" "numeric" "numeric" "numeric"
## parqueaderos banios habitaciones tipo barrio longitud
## "numeric" "numeric" "numeric" "character" "character" "numeric"
## latitud
## "numeric"
## [1] 4275
## NUMERO DE VALORES FALTANTES
## id 3
## zona 3
## piso 2638
## estrato 3
## preciom 2
## areaconst 3
## parqueaderos 1605
## banios 3
## habitaciones 3
## tipo 3
## barrio 3
## longitud 3
## latitud 3
## # A tibble: 5 × 2
## zona n
## <chr> <int>
## 1 Zona Centro 24
## 2 Zona Norte 1198
## 3 Zona Oeste 1029
## 4 Zona Oriente 62
## 5 Zona Sur 2787
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## # A tibble: 5 × 2
## zona n
## <chr> <int>
## 1 Zona Sur 2787
## 2 Zona Norte 1198
## 3 Zona Oeste 1029
## 4 Zona Oriente 62
## 5 Zona Centro 24
| zona | n |
|---|---|
| Zona Centro | 24 |
| Zona Norte | 1198 |
| Zona Oeste | 1029 |
| Zona Oriente | 62 |
| Zona Sur | 2787 |
## Rows: 4,808
## Columns: 13
## $ id <dbl> 5992, 1212, 1724, 2326, 4386, 1209, 1592, 4460, 6081, 749…
## $ zona <chr> "Zona Sur", "Zona Norte", "Zona Norte", "Zona Norte", "Zo…
## $ piso <dbl> 2, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 5, 5, 5, …
## $ estrato <dbl> 4, 5, 5, 4, 5, 5, 5, 4, 5, 6, 4, 5, 5, 4, 5, 3, 6, 6, 4, …
## $ preciom <dbl> 400, 260, 240, 220, 310, 320, 780, 625, 750, 520, 600, 42…
## $ areaconst <dbl> 280, 90, 87, 52, 137, 150, 380, 355, 237, 98, 160, 200, 1…
## $ parqueaderos <dbl> 3, 1, 1, 2, 2, 2, 2, 3, 2, 2, 1, 4, 2, 2, 2, 1, 1, 2, 1, …
## $ banios <dbl> 5, 2, 3, 2, 3, 4, 3, 5, 6, 2, 4, 4, 4, 3, 2, 2, 4, 3, 2, …
## $ habitaciones <dbl> 3, 3, 3, 3, 4, 6, 3, 5, 6, 2, 5, 5, 4, 3, 3, 3, 4, 4, 3, …
## $ tipo <chr> "Casa", "Apartamento", "Apartamento", "Apartamento", "Apa…
## $ barrio <chr> "3 de julio", "acopi", "acopi", "acopi", "acopi", "acopi"…
## $ longitud <dbl> -76.54000, -76.51350, -76.51700, -76.51974, -76.53105, -7…
## $ latitud <dbl> 3.43500, 3.45891, 3.36971, 3.42627, 3.38296, 3.47968, 3.4…
#1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
## # A tibble: 15 × 13
## # Groups: zona [5]
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 4408 Zona … 5 3 120 84 1 2 3
## 2 4305 Zona … 5 3 120 84 1 2 3
## 3 1130 Zona … 4 4 170 96 1 3 2
## 4 1212 Zona … 1 5 260 90 1 2 3
## 5 1724 Zona … 1 5 240 87 1 3 3
## 6 2326 Zona … 1 4 220 52 2 2 3
## 7 6999 Zona … 1 6 870 200 2 5 3
## 8 8055 Zona … 1 4 165 61 1 2 3
## 9 8058 Zona … 1 4 165 61 1 2 2
## 10 82 Zona … 1 3 115 111 1 2 4
## 11 78 Zona … 2 3 58 50 1 1 2
## 12 2342 Zona … 5 3 113 72 1 1 3
## 13 5098 Zona … 5 4 290 96 1 2 3
## 14 698 Zona … 2 3 78 40 1 1 2
## 15 6975 Zona … 6 4 220 75 1 2 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
#La Zona Sur de Cali tiene la mayor cantidad de apartamentos con 2,787 unidades, seguida de la Zona Norte con 1,198. La Zona Oeste cuenta con 1,029, mientras que la Zona Oriente tiene la menor cantidad, con 62 apartamentos, y la Zona Centro con 24. Esto revela una variación en la oferta de apartamentos en distintas áreas de la ciudad.
#2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
## preciom areaconst estrato banios habitaciones
## preciom 1.00 0.83 0.67 0.74 0.30
## areaconst 0.83 1.00 0.55 0.73 0.41
## estrato 0.67 0.55 1.00 0.62 0.18
## banios 0.74 0.73 0.62 1.00 0.50
## habitaciones 0.30 0.41 0.18 0.50 1.00
#El precio de los apartamentos está correlacionado positivamente con el área construida, el estrato, el número de baños y el número de habitaciones. #La correlación más fuerte es entre el precio y el área construida. #Los apartamentos ubicados en zonas de mayor estrato tienen un precio más alto. #Los apartamentos con más baños y habitaciones también tienen un precio más alto.
#En general, los resultados del análisis estadístico muestran que el precio de las casas y los apartamentos está influenciado por las mismas variables. Sin embargo, la correlación entre el precio y el área construida es más fuerte para las casas que para los apartamentos. #Los resultados del análisis estadístico sugieren que las casas y los apartamentos más grandes, ubicados en zonas de mayor estrato, con más baños y habitaciones, tienen un precio más alto. Esto es consistente con la intuición. Las viviendas más grandes y con más comodidades suelen ser más costosas.
#3. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo)
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones,
## data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1713.69 -92.48 -20.01 58.45 1154.29
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -379.5673 11.7870 -32.20 <2e-16 ***
## areaconst 1.0697 0.0188 56.89 <2e-16 ***
## estrato 111.6148 2.3759 46.98 <2e-16 ***
## banios 67.7328 2.2695 29.84 <2e-16 ***
## habitaciones -28.1710 1.9294 -14.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 181 on 8314 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.6969, Adjusted R-squared: 0.6967
## F-statistic: 4778 on 4 and 8314 DF, p-value: < 2.2e-16
#El análisis del modelo de regresión lineal para apartamentos muestra que las variables de área construida, estrato, número de baños y habitaciones tienen una influencia significativa y positiva en el precio de los apartamentos. El modelo explica alrededor del 69.72% de la variabilidad en los precios y todos los coeficientes son estadísticamente significativos, indicando una relación consistente. En resumen, el modelo proporciona una base sólida para predecir los precios de los apartamentos.
#4 . Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + banios + habitaciones,
## data = vivienda)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1713.69 -92.48 -20.01 58.45 1154.29
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -379.5673 11.7870 -32.20 <2e-16 ***
## areaconst 1.0697 0.0188 56.89 <2e-16 ***
## estrato 111.6148 2.3759 46.98 <2e-16 ***
## banios 67.7328 2.2695 29.84 <2e-16 ***
## habitaciones -28.1710 1.9294 -14.60 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 181 on 8314 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.6969, Adjusted R-squared: 0.6967
## F-statistic: 4778 on 4 and 8314 DF, p-value: < 2.2e-16
##
## Durbin-Watson test
##
## data: df_apartamentos_por_zona
## DW = 1.5964, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## areaconst estrato banios habitaciones
## 1.834878 1.518246 2.667654 2.013418
#El análisis estadístico de los resultados del modelo de regresión lineal múltiple muestra que las variables independientes, que incluyen el área construida, el estrato, el número de baños y el número de habitaciones, son estadísticamente significativas para predecir el precio de los apartamentos. El modelo tiene un coeficiente de determinación (R-cuadrado) de aproximadamente 0.6969, lo que indica que alrededor del 69.69% de la variabilidad en los precios se explica por estas variables. Sin embargo, se observa autocorrelación positiva en los residuos, lo que sugiere la posible necesidad de incluir más variables o considerar correcciones. En general, el modelo proporciona información valiosa sobre los factores que influyen en el precio de los apartamentos, pero podría beneficiarse de una mayor exploración y ajustes para una predicción más precisa.
#5. Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## 1
## 561.7486
## 1
## 673.3634
#6 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 2. Tenga encuentra que la empresa tiene crédito preaprobado de máximo 850 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## # A tibble: 0 × 14
## # ℹ 14 variables: id <dbl>, zona <chr>, piso <chr>, estrato <dbl>,
## # preciom <dbl>, areaconst <dbl>, parqueaderos <dbl>, banios <dbl>,
## # habitaciones <dbl>, tipo <chr>, barrio <chr>, longitud <dbl>,
## # latitud <dbl>, precio <dbl>
NO existe ningun apartamento que cumpla con los requisitos.