Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.
Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.
Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad.
Con la información de contexto mencionada se requiere hacer el desarrollo de unos puntos, sin embargo, inicialmente se procede con la limpieza y entendimiento de los datos.
## id zona piso estrato
## Min. : 1 Length:8322 Length:8322 Min. :3.000
## 1st Qu.:2080 Class :character Class :character 1st Qu.:4.000
## Median :4160 Mode :character Mode :character Median :5.000
## Mean :4160 Mean :4.634
## 3rd Qu.:6240 3rd Qu.:5.000
## Max. :8319 Max. :6.000
## NA's :3 NA's :3
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 30.0 Min. : 1.000 Min. : 0.000
## 1st Qu.: 220.0 1st Qu.: 80.0 1st Qu.: 1.000 1st Qu.: 2.000
## Median : 330.0 Median : 123.0 Median : 2.000 Median : 3.000
## Mean : 433.9 Mean : 174.9 Mean : 1.835 Mean : 3.111
## 3rd Qu.: 540.0 3rd Qu.: 229.0 3rd Qu.: 2.000 3rd Qu.: 4.000
## Max. :1999.0 Max. :1745.0 Max. :10.000 Max. :10.000
## NA's :2 NA's :3 NA's :1605 NA's :3
## habitaciones tipo barrio longitud
## Min. : 0.000 Length:8322 Length:8322 Min. :-76.59
## 1st Qu.: 3.000 Class :character Class :character 1st Qu.:-76.54
## Median : 3.000 Mode :character Mode :character Median :-76.53
## Mean : 3.605 Mean :-76.53
## 3rd Qu.: 4.000 3rd Qu.:-76.52
## Max. :10.000 Max. :-76.46
## NA's :3 NA's :3
## latitud
## Min. :3.333
## 1st Qu.:3.381
## Median :3.416
## Mean :3.418
## 3rd Qu.:3.452
## Max. :3.498
## NA's :3
## [1] "id" "zona" "piso" "estrato" "preciom"
## [6] "areaconst" "parqueaderos" "banios" "habitaciones" "tipo"
## [11] "barrio" "longitud" "latitud"
## id zona piso estrato preciom areaconst
## 3 3 2638 3 2 3
## parqueaderos banios habitaciones tipo barrio longitud
## 1605 3 3 3 3 3
## latitud
## 3
## id zona piso estrato preciom areaconst
## 0 0 0 0 0 0
## parqueaderos banios habitaciones tipo barrio longitud
## 0 0 0 0 0 0
## latitud
## 0
Con la preparación y organización de los datos en el punto anterior, procedemos a dar respuesta a cada uno de los puntos solicitados.
## [1] "Primeros 3 registros del dataframe: "
## # A tibble: 3 × 13
## id zona piso estrato preciom areaconst parqueaderos banios habitaciones
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1212 Zona N… 1 5 260 90 1 2 3
## 2 1724 Zona N… 1 5 240 87 1 3 3
## 3 2326 Zona N… 1 4 220 52 2 2 3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
## id zona piso estrato
## Min. : 3 Length:5100 Min. : 1.000 Min. :3.000
## 1st Qu.:2180 Class :character 1st Qu.: 3.000 1st Qu.:4.000
## Median :4158 Mode :character Median : 4.000 Median :5.000
## Mean :4284 Mean : 4.462 Mean :4.727
## 3rd Qu.:6556 3rd Qu.: 5.000 3rd Qu.:6.000
## Max. :8317 Max. :12.000 Max. :6.000
## preciom areaconst parqueaderos banios
## Min. : 58.0 Min. : 35.0 Min. : 1.000 Min. :0.000
## 1st Qu.: 175.0 1st Qu.: 68.0 1st Qu.: 1.000 1st Qu.:2.000
## Median : 279.0 Median : 90.0 Median : 2.000 Median :2.000
## Mean : 366.9 Mean :112.8 Mean : 1.641 Mean :2.617
## 3rd Qu.: 430.0 3rd Qu.:130.0 3rd Qu.: 2.000 3rd Qu.:3.000
## Max. :1950.0 Max. :932.0 Max. :10.000 Max. :8.000
## habitaciones tipo barrio longitud
## Min. :0.000 Length:5100 Length:5100 Min. :-76.59
## 1st Qu.:3.000 Class :character Class :character 1st Qu.:-76.54
## Median :3.000 Mode :character Mode :character Median :-76.53
## Mean :2.971 Mean :-76.53
## 3rd Qu.:3.000 3rd Qu.:-76.52
## Max. :9.000 Max. :-76.46
## latitud
## Min. :3.334
## 1st Qu.:3.380
## Median :3.419
## Mean :3.419
## 3rd Qu.:3.453
## Max. :3.498
## Precio Área Baños Habitaciones Zona centro
## Precio 1.00000000 0.82874371 0.74047323 0.297493968 -0.042884535
## Área 0.82874371 1.00000000 0.72673766 0.409270802 -0.017557791
## Baños 0.74047323 0.72673766 1.00000000 0.500660483 -0.031664250
## Habitaciones 0.29749397 0.40927080 0.50066048 1.000000000 0.002912402
## Zona centro -0.04288453 -0.01755779 -0.03166425 0.002912402 1.000000000
## Zona norte -0.15669514 -0.11324257 -0.15939039 -0.063438334 -0.038100405
## Zona oeste 0.52325711 0.43135469 0.36307392 0.073341606 -0.034570205
## Zona oriente -0.08222405 -0.02965787 -0.09252835 0.017935024 -0.007628016
## Zona sur -0.26437983 -0.24235038 -0.13223135 -0.009449142 -0.075478886
## Zona norte Zona oeste Zona oriente Zona sur
## Precio -0.15669514 0.52325711 -0.082224050 -0.264379826
## Área -0.11324257 0.43135469 -0.029657870 -0.242350378
## Baños -0.15939039 0.36307392 -0.092528353 -0.132231351
## Habitaciones -0.06343833 0.07334161 0.017935024 -0.009449142
## Zona centro -0.03810040 -0.03457020 -0.007628016 -0.075478886
## Zona norte 1.00000000 -0.27857485 -0.061468348 -0.608226649
## Zona oeste -0.27857485 1.00000000 -0.055772986 -0.551871294
## Zona oriente -0.06146835 -0.05577299 1.000000000 -0.121771998
## Zona sur -0.60822665 -0.55187129 -0.121771998 1.000000000
# Ajuste del modelo de regresión lineal múltiple
modelo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = base_filtrada)
summary(modelo)
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = base_filtrada)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1692.17 -56.80 1.17 47.63 967.21
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -92.76136 10.48268 -8.849 < 2e-16 ***
## areaconst 2.02704 0.04183 48.461 < 2e-16 ***
## estrato4 38.66668 6.44189 6.002 2.08e-09 ***
## estrato5 75.06135 6.53197 11.491 < 2e-16 ***
## estrato6 218.08938 7.98301 27.319 < 2e-16 ***
## habitaciones -31.33865 3.21120 -9.759 < 2e-16 ***
## parqueaderos 59.76785 3.29765 18.124 < 2e-16 ***
## banios 51.30410 2.91877 17.577 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 129.4 on 5092 degrees of freedom
## Multiple R-squared: 0.8002, Adjusted R-squared: 0.7999
## F-statistic: 2913 on 7 and 5092 DF, p-value: < 2.2e-16
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 1479.9, df = 7, p-value < 2.2e-16
##
## Durbin-Watson test
##
## data: modelo
## DW = 1.7247, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
## Número de filas en el conjunto de entrenamiento: 3572
## Número de filas en el conjunto de prueba: 1528
##
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos +
## banios, data = datos_train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1647.72 -56.03 0.85 46.85 964.99
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -88.71811 12.48574 -7.106 1.44e-12 ***
## areaconst 1.97842 0.04987 39.670 < 2e-16 ***
## estrato4 41.40401 7.70242 5.375 8.13e-08 ***
## estrato5 77.79708 7.81961 9.949 < 2e-16 ***
## estrato6 231.30333 9.54113 24.243 < 2e-16 ***
## habitaciones -28.00211 3.79762 -7.374 2.05e-13 ***
## parqueaderos 57.82914 4.00687 14.432 < 2e-16 ***
## banios 46.64542 3.49205 13.358 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 129.8 on 3564 degrees of freedom
## Multiple R-squared: 0.7921, Adjusted R-squared: 0.7917
## F-statistic: 1940 on 7 and 3564 DF, p-value: < 2.2e-16
## Real Prediccion
## 1 240 287.4536
## 2 220 175.6533
## 3 385 320.7592
## 4 100 114.3165
## 5 170 135.5118
## 6 130 100.1321
## Error cuadrático medio: 127.3683
## MAE: 80.4341
## R^2: 0.8200434