Contexto

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad.

Con la información de contexto mencionada se requiere hacer el desarrollo de unos puntos, sin embargo, inicialmente se procede con la limpieza y entendimiento de los datos.

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3
##  [1] "id"           "zona"         "piso"         "estrato"      "preciom"     
##  [6] "areaconst"    "parqueaderos" "banios"       "habitaciones" "tipo"        
## [11] "barrio"       "longitud"     "latitud"
##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
##           id         zona         piso      estrato      preciom    areaconst 
##            0            0            0            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##            0            0            0            0            0            0 
##      latitud 
##            0

Con la preparación y organización de los datos en el punto anterior, procedemos a dar respuesta a cada uno de los puntos solicitados.

  1. Realice un filtro a la base de datos e incluya sólo las ofertas de apartamentos. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta.
## [1] "Primeros 3 registros del dataframe: "
## # A tibble: 3 × 13
##      id zona     piso estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <dbl>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1212 Zona N…     1       5     260        90            1      2            3
## 2  1724 Zona N…     1       5     240        87            1      3            3
## 3  2326 Zona N…     1       4     220        52            2      2            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>
##        id           zona                piso           estrato     
##  Min.   :   3   Length:5100        Min.   : 1.000   Min.   :3.000  
##  1st Qu.:2180   Class :character   1st Qu.: 3.000   1st Qu.:4.000  
##  Median :4158   Mode  :character   Median : 4.000   Median :5.000  
##  Mean   :4284                      Mean   : 4.462   Mean   :4.727  
##  3rd Qu.:6556                      3rd Qu.: 5.000   3rd Qu.:6.000  
##  Max.   :8317                      Max.   :12.000   Max.   :6.000  
##     preciom         areaconst      parqueaderos        banios     
##  Min.   :  58.0   Min.   : 35.0   Min.   : 1.000   Min.   :0.000  
##  1st Qu.: 175.0   1st Qu.: 68.0   1st Qu.: 1.000   1st Qu.:2.000  
##  Median : 279.0   Median : 90.0   Median : 2.000   Median :2.000  
##  Mean   : 366.9   Mean   :112.8   Mean   : 1.641   Mean   :2.617  
##  3rd Qu.: 430.0   3rd Qu.:130.0   3rd Qu.: 2.000   3rd Qu.:3.000  
##  Max.   :1950.0   Max.   :932.0   Max.   :10.000   Max.   :8.000  
##   habitaciones       tipo              barrio             longitud     
##  Min.   :0.000   Length:5100        Length:5100        Min.   :-76.59  
##  1st Qu.:3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median :3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   :2.971                                         Mean   :-76.53  
##  3rd Qu.:3.000                                         3rd Qu.:-76.52  
##  Max.   :9.000                                         Max.   :-76.46  
##     latitud     
##  Min.   :3.334  
##  1st Qu.:3.380  
##  Median :3.419  
##  Mean   :3.419  
##  3rd Qu.:3.453  
##  Max.   :3.498
  1. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.
##                   Precio        Área       Baños Habitaciones  Zona centro
## Precio        1.00000000  0.82874371  0.74047323  0.297493968 -0.042884535
## Área          0.82874371  1.00000000  0.72673766  0.409270802 -0.017557791
## Baños         0.74047323  0.72673766  1.00000000  0.500660483 -0.031664250
## Habitaciones  0.29749397  0.40927080  0.50066048  1.000000000  0.002912402
## Zona centro  -0.04288453 -0.01755779 -0.03166425  0.002912402  1.000000000
## Zona norte   -0.15669514 -0.11324257 -0.15939039 -0.063438334 -0.038100405
## Zona oeste    0.52325711  0.43135469  0.36307392  0.073341606 -0.034570205
## Zona oriente -0.08222405 -0.02965787 -0.09252835  0.017935024 -0.007628016
## Zona sur     -0.26437983 -0.24235038 -0.13223135 -0.009449142 -0.075478886
##               Zona norte  Zona oeste Zona oriente     Zona sur
## Precio       -0.15669514  0.52325711 -0.082224050 -0.264379826
## Área         -0.11324257  0.43135469 -0.029657870 -0.242350378
## Baños        -0.15939039  0.36307392 -0.092528353 -0.132231351
## Habitaciones -0.06343833  0.07334161  0.017935024 -0.009449142
## Zona centro  -0.03810040 -0.03457020 -0.007628016 -0.075478886
## Zona norte    1.00000000 -0.27857485 -0.061468348 -0.608226649
## Zona oeste   -0.27857485  1.00000000 -0.055772986 -0.551871294
## Zona oriente -0.06146835 -0.05577299  1.000000000 -0.121771998
## Zona sur     -0.60822665 -0.55187129 -0.121771998  1.000000000

  1. Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
# Ajuste del modelo de regresión lineal múltiple
modelo <- lm(preciom ~ areaconst + estrato + habitaciones + parqueaderos + banios, data = base_filtrada)

summary(modelo)
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = base_filtrada)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1692.17   -56.80     1.17    47.63   967.21 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -92.76136   10.48268  -8.849  < 2e-16 ***
## areaconst      2.02704    0.04183  48.461  < 2e-16 ***
## estrato4      38.66668    6.44189   6.002 2.08e-09 ***
## estrato5      75.06135    6.53197  11.491  < 2e-16 ***
## estrato6     218.08938    7.98301  27.319  < 2e-16 ***
## habitaciones -31.33865    3.21120  -9.759  < 2e-16 ***
## parqueaderos  59.76785    3.29765  18.124  < 2e-16 ***
## banios        51.30410    2.91877  17.577  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 129.4 on 5092 degrees of freedom
## Multiple R-squared:  0.8002, Adjusted R-squared:  0.7999 
## F-statistic:  2913 on 7 and 5092 DF,  p-value: < 2.2e-16
  1. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 1479.9, df = 7, p-value < 2.2e-16

## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.7247, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
  1. Realice una partición en los datos de forma aleatoria donde 70% sea un set para entrenar el modelo y 30% para prueba. Estime el modelo con la muestra del 70%. Muestre los resultados.
## Número de filas en el conjunto de entrenamiento: 3572
## Número de filas en el conjunto de prueba: 1528
## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = datos_train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1647.72   -56.03     0.85    46.85   964.99 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -88.71811   12.48574  -7.106 1.44e-12 ***
## areaconst      1.97842    0.04987  39.670  < 2e-16 ***
## estrato4      41.40401    7.70242   5.375 8.13e-08 ***
## estrato5      77.79708    7.81961   9.949  < 2e-16 ***
## estrato6     231.30333    9.54113  24.243  < 2e-16 ***
## habitaciones -28.00211    3.79762  -7.374 2.05e-13 ***
## parqueaderos  57.82914    4.00687  14.432  < 2e-16 ***
## banios        46.64542    3.49205  13.358  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 129.8 on 3564 degrees of freedom
## Multiple R-squared:  0.7921, Adjusted R-squared:  0.7917 
## F-statistic:  1940 on 7 and 3564 DF,  p-value: < 2.2e-16
  1. Realice predicciones con el modelo anterior usando los datos de prueba (30%).
##   Real Prediccion
## 1  240   287.4536
## 2  220   175.6533
## 3  385   320.7592
## 4  100   114.3165
## 5  170   135.5118
## 6  130   100.1321
  1. Calcule el error cuadrático medio, el error absoluto medio y el R2, interprete.
## Error cuadrático medio: 127.3683
## MAE: 80.4341
## R^2: 0.8200434