Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:
En este informe se pretende ayudar a Maria a responder la solicitud, mediante técnicas de modelación, donde se analizaran los dos casos presentados de la vivienda 1 y la vivienda 2, con algunas recomendaciones.
Se brinda un esquema general de las columnas y descripción de las mismas de la base de datos “vivienda”, contentivo de los datos de los últimos tres meses.
1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Warning: package 'leaflet' was built under R version 4.3.3
## Warning: package 'plotly' was built under R version 4.3.3
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
Se procede mirar los datos de forma inicial:
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1147 Zona O… <NA> 3 250 70 1 3 6
## 2 1169 Zona O… <NA> 3 320 120 1 2 3
## 3 1350 Zona O… <NA> 3 350 220 2 2 4
## 4 5992 Zona S… 02 4 400 280 3 5 3
## 5 1212 Zona N… 01 5 260 90 1 2 3
## 6 1724 Zona N… 01 5 240 87 1 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Realizando una revisión de los datos de centralidad:
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
Ahora procedemos a mirar específicamente los datos del total de registros por zonas:
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 124 1920 1198 351 4726
Nos centramos en la zona norte requerida:
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1212 Zona N… 01 5 260 90 1 2 3
## 2 1724 Zona N… 01 5 240 87 1 3 3
## 3 2326 Zona N… 01 4 220 52 2 2 3
## 4 4386 Zona N… 01 5 310 137 2 3 4
## 5 1209 Zona N… 02 5 320 150 2 4 6
## 6 1592 Zona N… 02 5 780 380 2 3 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Es conducente realizar una revisión de los datos de centralidad
## id zona piso estrato
## Min. : 31.0 Length:1920 Length:1920 Min. :3.000
## 1st Qu.: 832.8 Class :character Class :character 1st Qu.:3.000
## Median :2400.5 Mode :character Mode :character Median :4.000
## Mean :2558.0 Mean :4.282
## 3rd Qu.:3867.8 3rd Qu.:5.000
## Max. :8319.0 Max. :6.000
##
## preciom areaconst parqueaderos banios
## Min. : 65.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 160.0 1st Qu.: 70.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 300.0 Median : 107.0 Median : 1.000 Median : 2.000
## Mean : 345.6 Mean : 161.1 Mean : 1.647 Mean : 2.778
## 3rd Qu.: 430.0 3rd Qu.: 215.2 3rd Qu.: 2.000 3rd Qu.: 3.000
## Max. :1940.0 Max. :1440.0 Max. :10.000 Max. :10.000
## NA's :633
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:1920 Length:1920 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.53
## Median : 3.000 Mode :character Mode :character Median :-76.52
## Mean : 3.501 Mean :-76.52
## 3rd Qu.: 4.000 3rd Qu.:-76.50
## Max. :10.000 Max. :-76.47
##
## latitud
## Min. :3.333
## 1st Qu.:3.457
## Median :3.472
## Mean :3.464
## 3rd Qu.:3.485
## Max. :3.498
##
La zona norte tiene 1920 inmuebles, entre apartamentos y casas
Procedemos a mirar si la data de la zona norte tiene faltantes:
## id zona piso estrato preciom areaconst
## 0 0 781 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 633 0 0 0 0 0
## latitud
## 0
Se encuentra que piso tiene 781 y parqueaderos 633
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1209 Zona N… 02 5 320 150 2 4 6
## 2 1592 Zona N… 02 5 780 380 2 3 3
## 3 4057 Zona N… 02 6 750 445 NA 7 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
A continuación se hace un conteo de las casas de la zona norte.
## [1] 722
Hay 722 casas en la zona norte
Es pertinente mirar datos correspondientes al estrato.
##
## 3 4 5 6
## 235 161 271 55
El mayor número de viviendas de la zona norte son estrato 3 y 5, seguidos de estrato 4 y por último estrato 6
Con número de baños:
##
## 0 1 2 3 4 5 6 7 8 9 10
## 10 17 165 187 171 101 46 11 11 1 2
El mayor número de baños de las casas de la zona norte de la ciudad tiene 2, 3, 4 y 5 baños.
Con número de habitaciones:
##
## 0 1 2 3 4 5 6 7 8 9 10
## 20 2 12 171 222 137 60 42 29 14 13
El mayor número de habitaciones de las casas de la zona norte son de 4,3 y 5 respectivamente.
Con Barrio:
##
## acopi alameda del río alamos
## 70 1 3
## atanasio girardot barranquilla barrio tranquilo y
## 1 3 1
## base aérea berlin brisas de los
## 2 1 22
## brisas del guabito Cali calibella
## 1 13 1
## calima calimio norte cambulos
## 6 3 1
## centenario chapinero chipichape
## 3 1 5
## ciudad los álamos colinas del bosque cristales
## 11 1 1
## el bosque el cedro el gran limonar
## 37 1 1
## el guabito el sena el trébol
## 1 1 1
## evaristo garcía flora industrial floralia
## 1 4 3
## gaitan granada jorge eliecer gaitán
## 1 10 1
## juanamb√∫ la base la campiña
## 11 1 4
## la esmeralda la flora La Flora
## 1 99 1
## la floresta la merced la rivera
## 2 24 9
## la rivera i la rivera ii la riviera
## 1 2 1
## la villa del las acacias las américas
## 1 1 1
## las ceibas las delicias las granjas
## 2 3 1
## los andes los guaduales los guayacanes
## 13 10 2
## manzanares menga metropolitano del norte
## 1 2 1
## nueva tequendama oasis de comfandi occidente
## 1 1 1
## pacara parque residencial el paseo de los
## 2 1 2
## paso del comercio poblado campestre popular
## 2 1 5
## portada de comfandi portales de comfandi porvenir
## 1 1 2
## prados del norte quintas de salomia rozo la torre
## 31 1 1
## salomia san luis san luís
## 20 2 1
## san vicente santa bárbara santa monica
## 31 1 16
## Santa Monica santa mónica santa monica norte
## 1 1 1
## santa monica residencial santa mónica residencial santander
## 5 15 1
## tejares de san torres de comfandi unión de vivienda
## 1 2 1
## urbanización barranquilla urbanización la flora urbanización la merced
## 2 23 4
## urbanización la nueva valle del lili versalles
## 1 1 16
## villa colombia villa de veracruz villa del prado
## 1 4 40
## Villa Del Prado villa del sol villas de veracruz
## 1 12 7
## Villas De Veracruz vipasa zona norte
## 1 30 19
## zona oriente
## 1
Mediante un mapa se visualizan las casas de la zona norte (722 en total):
En el mapa se ve una gran concentración de puntos en la zona norte, específicamente de los tipos de vivienda “Casa”, pero se encuentran varios puntos dispersos o atipicidad de los mismos esto puede deberse a:
2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Lo primero pertinente es realizar una visión general de la matriz de correlación de las variables propuestas en el enunciado que corresponden a precio, area construida, estrato, baños y habitaciones de las casas de la zona norte de la ciudad.
## Warning: package 'corrplot' was built under R version 4.3.3
## corrplot 0.92 loaded
Se nota que la mayor correlación se ve entre las variables de precio del inmueble y el área construida.
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
En el gráfico anterior se puede apreciar la directa relación entre precio y área construida del inmueble, también se puede notar que existen algunos puntos atípicos relacionados con que a mayor área construida, mayor precio del inmueble, siendo la casa de mayor valor próxima a los 2000 millones con un área construida de casi 750 m2.
El gráfico de cajas y bigotes, nos muestra detalladamente una proporción de distribución de los precios de la vivienda por estrato socio econónimo:
Podemos encontrar de forma general que ha mayor número de baños incrementa el precio del inmueble.
Podemos encontrar en este gráfico de forma general que las casas con mayores valores por habitación son:
Con el gráfico precedente encontramos que:
3 Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = datos_zona_norte_casas1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -784.29 -77.56 -16.03 47.67 978.61
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -238.17090 44.40551 -5.364 1.34e-07 ***
## areaconst 0.67673 0.05281 12.814 < 2e-16 ***
## estrato 80.63495 9.82632 8.206 2.70e-15 ***
## habitaciones 7.64511 5.65873 1.351 0.177
## parqueaderos 24.00598 5.86889 4.090 5.14e-05 ***
## banios 18.89938 7.48800 2.524 0.012 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 155.1 on 429 degrees of freedom
## (287 observations deleted due to missingness)
## Multiple R-squared: 0.6041, Adjusted R-squared: 0.5995
## F-statistic: 130.9 on 5 and 429 DF, p-value: < 2.2e-16
Análisis del modelo de regresión lineal múltiple:
Intercepto es de -238.17090, que indica el valor esperado de la variable dependiente cuando todas las demás son cero, es decir valdrá -$238.17090 millones cuando área construida, estrato, habitaciones, parqueadeeros y baños sean cero.
Coeficientes:
Valores p: Al ser tan bajos dichos valores se puede concluir que todas las variables independientes en el modelo son significativas.
Coeficiente R2: Se encuentra una significancia del 60.41%, lo que determina que dicho porcentaje es la variabilidad del precio de una casa en la zona norte por las variables de área construida, estrato, habitaciones, parqueaderos y baños.
Para mejorar el coeficiente R2, se podría hacer:
4 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.85246, p-value < 0.00000000000000022
Los residuos del modelo siguen una distribución normal.
Esto queda confirmado con el hecho de que el valor de p-value es muy pequeño, tendencia de distribución normal.
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Durbin-Watson test
##
## data: puntoModelo
## DW = 1.7615, p-value = 0.005472
## alternative hypothesis: true autocorrelation is greater than 0
En la estadística de Durbin Watson para el modelo de regresión, los valores oscilan entre 0 y 4, al presentarse un valor inferior a 2 se puede determinar que existe una autocorrelación positiva.
El p-value al ser significativamente pequeño sugiere que hay evidencia en contra de la hipótesis nula y que hay autocorrelación de primer orden en los residuos.
3.Supuesto de varianza constante
##
## studentized Breusch-Pagan test
##
## data: puntoModelo
## BP = 80.281, df = 5, p-value = 0.000000000000000733
Para el caso de la prueba de Breusch-Pagan, se encuentra que existe una evidencia de 80.281 en contra de la hipótesis nula de Homocedasticidad.
Se presentan 5 grados de libertad asociados con la distribución del estadístico de prueba.
El p-value al ser tan pequeño, sugiere que los residuos tienen una varianza que no es constante en todas las observaciones.
##
## Goldfeld-Quandt test
##
## data: puntoModelo
## GQ = 2.2522, df1 = 212, df2 = 211, p-value = 0.000000002995
## alternative hypothesis: variance increases from segment 1 to 2
El estadístico de la prueba Goldfeld-Quandt es de 2.2522, entre más grande sea el valor, más evidencia habrá en contra de la hipótesis nula de Homocedasticidad.
El df1 es de 212 que representa los grados de libertad asociados con el numerador del estadístico de la prueba.
El df2 es de 211 que representa los grados de libertad asociados con el denominador del estadístico de la prueba.
El p-value es significativamente pequeño lo que indica que hay evidencia fuerte en contra de la hipótesis de homocedasticidad, es decir que los residuos tiene una varianza que no es constante en todas las observaciones.
5 Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## areaconst estrato habitaciones parqueaderos banios
## 1 200 4 4 1 2
## 2 200 5 4 1 2
## 1 2
## 312.1010 392.7359
Se encuentra que para una vivienda en la zona norte con las características solicitadas de un área construida de 200 m2, un parqueadero, dos baños, cuatro habitaciones y estrato 4, está en un precio de 312.1010 millones de pesos.
De igual forma para una casa con las mismas características pero estrato 5, está en un precio de 392.7359 millones de pesos.
6 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## [1] 37
## # A tibble: 5 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 4210 Zona N… 01 5 350 200 3 3 4
## 2 4267 Zona N… 01 5 335 202 1 4 5
## 3 4800 Zona N… 01 5 340 250 2 4 4
## 4 4209 Zona N… 02 5 350 300 3 5 6
## 5 4422 Zona N… 02 5 350 240 2 3 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Las primeras opciones de casa en la zona norte de la ciudad son:
Casa id 4210 con un precio de 350 millones, un área construida de 200 m2, 3 parqueaderos, 3 baños, 4 habitaciones en el barrio el bosque.
Casa id 4267 con un precio de 335 millones, un área construida de 202 m2, 1 parqueaderos, 4 baños, 5 habitaciones en el barrio el bosque.
Casa id 4800 con un precio de 340 millones, un área construida de 250 m2, 2 parqueaderos, 4 baños, 4 habitaciones en el barrio el bosque.
Casa id 4209 con un precio de 350 millones, un área construida de 300 m2, 3 parqueaderos, 5 baños, 6 habitaciones en el barrio el bosque.
Casa id 4422 con un precio de 350 millones, un área construida de 240 m2, 2 parqueaderos, 3 baños, 6 habitaciones en el barrio el bosque.
7 Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.
Ahora procedemos a mirar específicamente los datos del total de registros por zonas:
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 124 1920 1198 351 4726
Nos centramos en la zona sur requerida:
## # A tibble: 6 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5992 Zona S… 02 4 400 280 3 5 3
## 2 5098 Zona S… 05 4 290 96 1 2 3
## 3 698 Zona S… 02 3 78 40 1 1 2
## 4 8199 Zona S… <NA> 6 875 194 2 5 3
## 5 5157 Zona S… 02 3 500 354 1 2 4
## 6 5501 Zona S… 02 3 175 102 NA 2 4
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Es conducente realizar una revisión de los datos de centralidad
## id zona piso estrato
## Min. : 1 Length:4726 Length:4726 Min. :3.000
## 1st Qu.:2574 Class :character Class :character 1st Qu.:4.000
## Median :4378 Mode :character Mode :character Median :5.000
## Mean :4361 Mean :4.717
## 3rd Qu.:6057 3rd Qu.:5.000
## Max. :8305 Max. :6.000
##
## preciom areaconst parqueaderos banios
## Min. : 75.0 Min. : 40.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 222.0 1st Qu.: 78.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 320.0 Median : 113.0 Median : 1.000 Median : 3.000
## Mean : 426.5 Mean : 173.3 Mean : 1.835 Mean : 3.179
## 3rd Qu.: 520.0 3rd Qu.: 220.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1900.0 Max. :1600.0 Max. :10.000 Max. :10.000
## NA's :621
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:4726 Length:4726 Min. :-76.57
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.601 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
##
## latitud
## Min. :3.333
## 1st Qu.:3.370
## Median :3.385
## Mean :3.390
## 3rd Qu.:3.409
## Max. :3.497
##
La zona sur tiene 4726 inmuebles, entre apartamentos y casas
Procedemos a mirar si la data de la zona sur tiene faltantes:
## id zona piso estrato preciom areaconst
## 0 0 1263 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 621 0 0 0 0 0
## latitud
## 0
Se encuentra que piso tiene 1263 y parqueaderos 621
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5098 Zona S… 05 4 290 96 1 2 3
## 2 698 Zona S… 02 3 78 40 1 1 2
## 3 8199 Zona S… <NA> 6 875 194 2 5 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
A continuación se hace un conteo de los apartamentos de la zona sur.
## [1] 2787
Hay 2787 apartamentos en la zona norte
Es pertinente mirar datos correspondientes al estrato.
##
## 3 4 5 6
## 201 1091 1033 462
El mayor número de apartamentos de la zona sur son estrato 4 y 5, seguidos de estrato 6 y por último estrato 3.
Con número de baños:
##
## 0 1 2 3 4 5 6 7 8
## 6 167 1588 662 229 123 10 1 1
El mayor número de baños de los apartamentos de la zona sur de la ciudad tiene 2, 3, 4 y 1 baños.
Con número de habitaciones:
##
## 0 1 2 3 4 5 6
## 8 19 463 1902 366 24 5
El mayor número de habitaciones de los apartamentos de la zona sur son de 3, 2 y 4 respectivamente.
Con Barrio:
##
## acopi aguablanca
## 1 1
## aguacatal alameda
## 1 2
## alférez real alferez real
## 4 1
## alto jordán altos de guadalupe
## 1 1
## arboleda belisario caicedo
## 1 2
## bella suiza bloques del limonar
## 5 1
## bochalema bosques del limonar
## 33 12
## brisas del limonar buenos aires
## 1 4
## caldas Cali
## 1 3
## calicanto cambulos
## 2 2
## camino real Camino Real
## 14 1
## campestre caney
## 1 58
## caney especial cañasgordas
## 1 5
## cañaveralejo cañaverales
## 9 19
## cañaverales los samanes capri
## 1 43
## cataya real cerro cristales
## 1 1
## champagnat ciudad 2000
## 1 19
## ciudad bochalema ciudad capri
## 48 9
## ciudad jardin ciudad jardín
## 9 218
## ciudad jardin pance ciudad meléndez
## 1 1
## ciudad melendez ciudad pacifica
## 1 2
## Ciudad Pacifica ciudad universitaria
## 1 1
## ciudadela comfandi ciudadela melendez
## 2 1
## ciudadela pasoancho colinas del sur
## 3 3
## colseguros colseguros andes
## 22 1
## cristales cristobal colón
## 1 2
## cuarto de legua departamental
## 30 16
## el caney El Caney
## 124 1
## el dorado el gran limonar
## 6 3
## el guabal el ingenio
## 4 128
## el ingenio 3 el ingenio i
## 1 13
## el ingenio ii el ingenio iii
## 9 10
## el jordán el lido
## 1 33
## el limonar el refugio
## 59 77
## fuentes de la gran limonar
## 1 8
## guadalupe ingenio
## 10 1
## ingenio ii la alborada
## 1 4
## la cascada la flora
## 2 1
## la hacienda La Hacienda
## 108 1
## la luisa la selva
## 1 7
## las acacias las camelias
## 1 1
## las granjas las vegas de
## 7 1
## los cambulos los cámbulos
## 19 3
## los farallones mayapan las vegas
## 2 31
## meléndez melendez
## 19 40
## miraflores multicentro
## 1 27
## napoles nápoles
## 1 12
## normandía nueva tequendama
## 1 36
## oasis de pasoancho pampa linda
## 1 13
## pampalinda panamericano
## 3 2
## pance parcelaciones pance
## 205 18
## pasoancho ponce
## 5 1
## prados del limonar Prados Del Limonar
## 3 1
## primero de mayo quintas de don
## 24 58
## refugio samanes
## 1 1
## samanes de guadalupe san bosco
## 1 2
## san fernando San Fernando
## 18 1
## san fernando nuevo san fernando viejo
## 4 5
## san joaquin santa anita
## 1 36
## Santa Anita santa elena
## 2 1
## santa isabel santa teresita
## 7 6
## santo domingo sector aguacatal
## 1 1
## sector cañaveralejo guadalupe seminario
## 2 22
## templete tequendama
## 2 14
## unicentro cali urbanización colseguros
## 1 2
## urbanizacion gratamira urbanización nueva granada
## 1 1
## urbanización río lili urbanización tequendama
## 3 2
## valle de lili valle del lili
## 1 837
## Valle Del Lili versalles
## 1 1
## villa del sur vipasa
## 1 1
## zona sur
## 32
Mediante un mapa se visualizan los apartamentos de la zona sur (2787 en total):
En el mapa se ve una gran concentración de puntos en la zona sur, específicamente de los tipos de vivienda “apartamento”, pero se encuentran varios puntos dispersos o atipicidad de los mismos esto puede deberse a:
2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
Lo primero pertinente es realizar una visión general de la matriz de correlación de las variables propuestas en el enunciado que corresponden a precio, area construida, estrato, baños y habitaciones de los apartamentos de la zona sur de la ciudad.
## Warning in ind1:ind2: numerical expression has 2 elements: only the first used
Se nota que la mayor correlación se ve entre las variables de precio del inmueble y el área construida.
## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'
En el gráfico anterior se puede apreciar la directa relación entre precio y área construida del inmueble, también se puede notar que existen algunos puntos atípicos relacionados con que a mayor área construida, mayor precio del inmueble, siendo el apartamento de mayor valor próxima a los 1750 millones con un área construida de casi 290 m2.
El gráfico de cajas y bigotes, nos muestra detalladamente una proporción de distribución de los precios de la vivienda por estrato socio econónimo:
Podemos encontrar de forma general que ha mayor número de baños incrementa el precio del inmueble.
Podemos encontrar en este gráfico de forma general que los apartamentos con mayores valores por habitación son:
Con el gráfico precedente encontramos que:
3 Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = datos_zona_sur_aptos1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1092.02 -42.28 -1.33 40.58 926.56
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -261.62501 15.63220 -16.736 < 0.0000000000000002 ***
## areaconst 1.28505 0.05403 23.785 < 0.0000000000000002 ***
## estrato 60.89709 3.08408 19.746 < 0.0000000000000002 ***
## habitaciones -24.83693 3.89229 -6.381 0.000000000211 ***
## parqueaderos 72.91468 3.95797 18.422 < 0.0000000000000002 ***
## banios 50.69675 3.39637 14.927 < 0.0000000000000002 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 98.02 on 2375 degrees of freedom
## (406 observations deleted due to missingness)
## Multiple R-squared: 0.7485, Adjusted R-squared: 0.748
## F-statistic: 1414 on 5 and 2375 DF, p-value: < 0.00000000000000022
Análisis del modelo de regresión lineal múltiple:
Intercepto es de -261.62501, que indica el valor esperado de la variable dependiente cuando todas las demás son cero, es decir valdrá -$261.62501 millones cuando área construida, estrato, habitaciones, parqueadeeros y baños sean cero.
Coeficientes:
Valores p: Al ser tan bajos dichos valores se puede concluir que todas las variables independientes en el modelo son significativas.
Coeficiente R2: Se encuentra una significancia del 74.85%, lo que determina que dicho porcentaje es la variabilidad del precio de un apartamento en la zona sur por las variables de área construida, estrato, habitaciones, parqueaderos y baños.
Para mejorar el coeficiente R2, se podría hacer:
4 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.79118, p-value < 0.00000000000000022
Los residuos del modelo siguen una distribución normal.
Esto queda confirmado con el hecho de que el valor de p-value es muy pequeño, tendencia de distribución normal.
##
## Durbin-Watson test
##
## data: puntoModelo2
## DW = 1.5333, p-value < 0.00000000000000022
## alternative hypothesis: true autocorrelation is greater than 0
En la estadística de Durbin Watson para el modelo de regresión, los valores oscilan entre 0 y 4, al presentarse un valor inferior a 2 se puede determinar que existe una autocorrelación positiva.
El p-value al ser significativamente pequeño sugiere que hay evidencia en contra de la hipótesis nula y que hay autocorrelación de primer orden en los residuos.
3.Supuesto de varianza constante
##
## studentized Breusch-Pagan test
##
## data: puntoModelo2
## BP = 754.81, df = 5, p-value < 0.00000000000000022
Para el caso de la prueba de Breusch-Pagan, se encuentra que existe una evidencia de 754.81 en contra de la hipótesis nula de Homocedasticidad.
Se presentan 5 grados de libertad asociados con la distribución del estadístico de prueba.
El p-value al ser tan pequeño, sugiere que los residuos tienen una varianza que no es constante en todas las observaciones.
##
## Goldfeld-Quandt test
##
## data: puntoModelo2
## GQ = 0.9513, df1 = 1185, df2 = 1184, p-value = 0.8048
## alternative hypothesis: variance increases from segment 1 to 2
El estadístico de la prueba Goldfeld-Quandt es de 0.9513, entre más grande sea el valor, más evidencia habrá en contra de la hipótesis nula de Homocedasticidad.
El df1 es de 1185 que representa los grados de libertad asociados con el numerador del estadístico de la prueba.
El df2 es de 1184 que representa los grados de libertad asociados con el denominador del estadístico de la prueba.
El p-value es pequeño lo que indica que hay evidencia fuerte en contra de la hipótesis de homocedasticidad, es decir que los residuos tiene una varianza que no es constante en todas las observaciones.
5 Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.
## areaconst estrato habitaciones parqueaderos banios
## 1 300 5 5 3 3
## 2 300 6 5 3 3
## 1 2
## 675.0247 735.9218
Se encuentra que para una apartamento en la zona sur con las características solicitadas de un área construida de 300 m2, tres parqueadero, tres baños, cinco habitaciones y estrato 5, está en un precio de 675.0247 millones de pesos.
De igual forma para un apartamento con las mismas características pero estrato 6, está en un precio de 735.9218 millones de pesos.
6 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.
## [1] 2
## # A tibble: 2 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 7182 Zona S… <NA> 5 730 573 3 8 5
## 2 7512 Zona S… <NA> 5 670 300 3 5 6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
Se encuentra que no existe una oferta específica para el tipo de vivienda 2.
Las primeras opciones de apartamento en la zona sur de la ciudad, las más cercanas a lo que pidió el cliente son:
Apartamento id 7182 con un precio de 730 millones, un área construida de 573 m2, 3 parqueaderos, 8 baños, 5 habitaciones en el barrio el Guadalupe.
Apartamento id 7512 con un precio de 670 millones, un área construida de 300 m2, 3 parqueaderos, 5 baños, 6 habitaciones en el barrio el Seminario.
Se le ofrece al cliente una tercera propuesta de las mismas caracteristicas de la vivienda 2 pero tipo casa.
## [1] 61
## # A tibble: 5 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5099 Zona S… 03 5 655 300 3 5 5
## 2 6505 Zona S… 03 5 780 430 4 4 6
## 3 6676 Zona S… 04 5 600 520 4 6 7
## 4 5890 Zona S… <NA> 5 590 520 4 5 7
## 5 5000 Zona S… 01 5 830 300 3 5 5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>