Alcance

.

  1. Filtro de ofertas de casas de la zona norte de la ciudad.

  2. Análisis exploratorio de correlación del precio, en función del área construida, estrato, número de baños, número de habitaciones y zona donde se ubica la vivienda.

  3. Modelo de regresión lineal múltiple precio = f(área construida, estrato, cant. cuartos, cant. parqueaderos, cant. baños.

  4. Validación de supuestos del modelo e interpretación de resultados.

  5. Predicción del precio de vivienda con las características de la primera solicitud.

  6. Top 5 de ofertas para la vivienda 1, considerando el precio máximo (350 millones).

  7. Pasos 1 al 6 para la segunda solicitud que, considerando el precio máximo($850 millones).


Carga de Datos

## stringi     (1.8.3  -> 1.8.4  ) [CRAN]
## rlang       (1.1.3  -> 1.1.4  ) [CRAN]
## cli         (3.6.2  -> 3.6.3  ) [CRAN]
## Rcpp        (1.0.12 -> 1.0.13 ) [CRAN]
## digest      (0.6.34 -> 0.6.37 ) [CRAN]
## curl        (5.2.0  -> 5.2.2  ) [CRAN]
## fastmap     (1.1.1  -> 1.2.0  ) [CRAN]
## colorspace  (2.1-0  -> 2.1-1  ) [CRAN]
## matrixStats (1.3.0  -> 1.4.0  ) [CRAN]
## htmltools   (0.5.7  -> 0.5.8.1) [CRAN]
## 
##   There is a binary version available but the source version is later:
##             binary source needs_compilation
## matrixStats  1.3.0  1.4.0              TRUE
## 
##   Binaries will be installed
## package 'stringi' successfully unpacked and MD5 sums checked
## package 'rlang' successfully unpacked and MD5 sums checked
## package 'cli' successfully unpacked and MD5 sums checked
## package 'Rcpp' successfully unpacked and MD5 sums checked
## package 'digest' successfully unpacked and MD5 sums checked
## package 'curl' successfully unpacked and MD5 sums checked
## package 'fastmap' successfully unpacked and MD5 sums checked
## package 'colorspace' successfully unpacked and MD5 sums checked
## package 'matrixStats' successfully unpacked and MD5 sums checked
## package 'htmltools' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\edgard.camacho\AppData\Local\Temp\RtmpIVKPLB\downloaded_packages
## ── R CMD build ─────────────────────────────────────────────────────────────────
##   
  
  
✔  checking for file 'C:\Users\edgard.camacho\AppData\Local\Temp\RtmpIVKPLB\remotes51bc7ab935e6\Centromagis-paqueteMODELOS-78ce06f/DESCRIPTION' (399ms)
## 
  
  
  
─  preparing 'paqueteMODELOS': (1.4s)
##    checking DESCRIPTION meta-information ...
  
✔  checking DESCRIPTION meta-information
## 
  
  
  
─  checking for LF line-endings in source and make files and shell scripts
## 
  
  
  
─  checking for empty or unneeded directories
## 
  
  
  
─  building 'paqueteMODELOS_0.1.0.tar.gz'
## 
  
   
## 

Limpieza de Datos

##           id         zona         piso      estrato      preciom    areaconst 
##            3            3         2638            3            2            3 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##         1605            3            3            3            3            3 
##      latitud 
##            3
## # A tibble: 5 × 12
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  1147 Zona O…       3     250        70            1      3            6 Casa 
## 2  1169 Zona O…       3     320       120            1      2            3 Casa 
## 3  1350 Zona O…       3     350       220            2      2            4 Casa 
## 4  5992 Zona S…       4     400       280            3      5            3 Casa 
## 5  1212 Zona N…       5     260        90            1      2            3 Apar…
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
## [1] 8319   12
## # A tibble: 6 × 12
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  1147 Zona O…       3     250        70            1      3            6 Casa 
## 2  1169 Zona O…       3     320       120            1      2            3 Casa 
## 3  1350 Zona O…       3     350       220            2      2            4 Casa 
## 4  5992 Zona S…       4     400       280            3      5            3 Casa 
## 5  1212 Zona N…       5     260        90            1      2            3 Apar…
## 6  1724 Zona N…       5     240        87            1      3            3 Apar…
## # ℹ 3 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>
## Frequencies  
## vivienda$parqueaderos  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           1   4468    53.708         53.708    53.708         53.708
##           2   2712    32.600         86.308    32.600         86.308
##           3    547     6.575         92.884     6.575         92.884
##           4    408     4.904         97.788     4.904         97.788
##           5     69     0.829         98.618     0.829         98.618
##           6     68     0.817         99.435     0.817         99.435
##           7     18     0.216         99.651     0.216         99.651
##           8     17     0.204         99.856     0.204         99.856
##           9      4     0.048         99.904     0.048         99.904
##          10      8     0.096        100.000     0.096        100.000
##        <NA>      0                              0.000        100.000
##       Total   8319   100.000        100.000   100.000        100.000
##           id         zona      estrato      preciom    areaconst parqueaderos 
##            0            0            0            0            0            0 
##       banios habitaciones         tipo       barrio     longitud      latitud 
##            0            0            0            0            0            0
##           id         zona      estrato      preciom    areaconst parqueaderos 
##            0            0            0            0            0            0 
##       banios habitaciones         tipo       barrio     longitud      latitud 
##           45           66            0            0            0            0
##           id         zona      estrato      preciom    areaconst parqueaderos 
##            0            0            0            0            0            0 
##       banios habitaciones         tipo       barrio     longitud      latitud 
##            0            0            0            0            0            0
## Frequencies  
## vivienda$zona  
## Type: Character  
## 
##                      Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ------------------ ------ --------- -------------- --------- --------------
##        Zona Centro    124      1.49           1.49      1.49           1.49
##         Zona Norte   1920     23.08          24.57     23.08          24.57
##         Zona Oeste   1198     14.40          38.97     14.40          38.97
##       Zona Oriente    351      4.22          43.19      4.22          43.19
##           Zona Sur   4726     56.81         100.00     56.81         100.00
##               <NA>      0                               0.00         100.00
##              Total   8319    100.00         100.00    100.00         100.00
## Frequencies  
## vivienda$base  
## Type: Character  
## 
##                      Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ------------------ ------ --------- -------------- --------- --------------
##        Apto Centro     24      0.29           0.29      0.29           0.29
##         Apto Norte   1198     14.40          14.69     14.40          14.69
##         Apto Oeste   1029     12.37          27.06     12.37          27.06
##       Apto Oriente     62      0.75          27.80      0.75          27.80
##           Apto Sur   2787     33.50          61.31     33.50          61.31
##        Casa Centro    100      1.20          62.51      1.20          62.51
##         Casa Norte    722      8.68          71.19      8.68          71.19
##         Casa Oeste    169      2.03          73.22      2.03          73.22
##       Casa Oriente    289      3.47          76.69      3.47          76.69
##           Casa Sur   1939     23.31         100.00     23.31         100.00
##               <NA>      0                               0.00         100.00
##              Total   8319    100.00         100.00    100.00         100.00

Las variables que mayor número de registros NA tienen son piso, con 2638 y parqueaderos con 1605, por lo cual son las que se analizan y se gestionan paraq ser tradas.

Para el caso de la variable piso, dicha variable se elimina dado que se encuentran anomalías con la data de dicha variable, en casos donde existen registros de casas con 10 pisos, lo cual no hace sentido, y podría generar ruido dentro del análisis

VIVIENDA 1

1.1 Filtro Casas de Zona Norte

## # A tibble: 3 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  1209 Zona N…       5     320       150            2      4            6 Casa 
## 2  1592 Zona N…       5     780       380            2      3            3 Casa 
## 3  4057 Zona N…       6     750       445            2      7            6 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## spc_tbl_ [722 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:722] 1209 1592 4057 4460 6081 ...
##  $ zona        : chr [1:722] "Zona Norte" "Zona Norte" "Zona Norte" "Zona Norte" ...
##  $ estrato     : num [1:722] 5 5 6 4 5 4 5 5 3 3 ...
##  $ preciom     : num [1:722] 320 780 750 625 750 600 420 490 230 190 ...
##  $ areaconst   : num [1:722] 150 380 445 355 237 160 200 118 160 435 ...
##  $ parqueaderos: num [1:722] 2 2 2 3 2 1 4 2 1 1 ...
##  $ banios      : num [1:722] 4 3 7 5 6 4 4 4 2 2 ...
##  $ habitaciones: num [1:722] 6 3 6 5 6 5 5 4 3 3 ...
##  $ tipo        : chr [1:722] "Casa" "Casa" "Casa" "Casa" ...
##  $ barrio      : chr [1:722] "acopi" "acopi" "acopi" "acopi" ...
##  $ longitud    : num [1:722] -76.5 -76.5 -76.5 -76.5 -76.5 ...
##  $ latitud     : num [1:722] 3.48 3.49 3.39 3.41 3.37 ...
##  $ base        : chr [1:722] "Casa Norte" "Casa Norte" "Casa Norte" "Casa Norte" ...
##  - attr(*, "spec")=List of 3
##   ..$ cols   :List of 13
##   .. ..$ id          : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ zona        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ piso        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ estrato     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ preciom     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ areaconst   : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ parqueaderos: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ banios      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ habitaciones: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ tipo        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ barrio      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ longitud    : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ latitud     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   ..$ default: list()
##   .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
##   ..$ delim  : chr ";"
##   ..- attr(*, "class")= chr "col_spec"
##  - attr(*, "problems")=<externalptr>
## Descriptive Statistics  
## vivienda_casasnorte  
## N: 722  
## 
##                     areaconst   banios   habitaciones   parqueaderos   preciom
## ----------------- ----------- -------- -------------- -------------- ---------
##              Mean      264.85     3.58           4.59           1.87    445.91
##           Std.Dev      167.17     1.48           1.68           1.23    268.36
##               Min       30.00     1.00           1.00           1.00     89.00
##                Q1      140.00     2.00           3.00           1.00    260.00
##            Median      240.00     3.00           4.00           2.00    390.00
##                Q3      337.00     4.00           5.00           2.00    550.00
##               Max     1440.00    10.00          10.00          10.00   1940.00
##               MAD      146.78     1.48           1.48           1.48    220.17
##               IQR      196.75     2.00           2.00           1.00    288.75
##                CV        0.63     0.41           0.37           0.66      0.60
##          Skewness        1.85     0.86           1.18           2.23      1.76
##       SE.Skewness        0.09     0.09           0.09           0.09      0.09
##          Kurtosis        6.24     1.02           1.16           6.89      4.65
##           N.Valid      722.00   722.00         722.00         722.00    722.00
##         Pct.Valid      100.00   100.00         100.00         100.00    100.00

1.2 Análisis de Datos Exploratorios

Conclusiones/Observaciones

  1. Diversidad Socioeconómica:

En la zona Norte, la distribución de casas revela una marcada diversidad socioeconómica. La presencia significativa de viviendas en los estratos 3 y 5 sugiere que esta zona alberga principalmente a la clase media. Sin embargo, la existencia de casas en estrato 6 indica que también hay áreas de mayor exclusividad, aunque no predominan en la zona.

Por su parte la oferta de apartamentos en la zona sur de Cali evidenció ser muy amplia, con 1,460 registros analizados, entre los estratos 3 a 6. La distribución de precios y áreas construidas varía significativamente, lo que indica una gama diversa de opciones disponibles para los compradores. La mayoría de los apartamentos están en estratos medios-altos (4 y 5).

  1. Variabilidad en Precios y Áreas:

El análisis de precios por metro cuadrado y áreas construidas en la ZONA NORTE, muestra una amplia variabilidad, con precios que oscilan desde valores considerablemente bajos hasta muy elevados, y áreas que varían desde pequeñas casas hasta grandes propiedades. Esto sugiere un mercado heterogéneo que ofrece opciones tanto accesibles como de lujo, dependiendo del tamaño y la ubicación de la vivienda.

En la zona SUR, los precios de los apartamentos varían desde los 70 hasta 1,750 millones. La mayoría de los apartamentos se concentran en un rango medio de precios, con una media de 290.7 millones. Esta dispersión sugiere una oferta que incluye tanto opciones más accesibles como de alto valor. Las áreas construidas varían considerablemente, desde 40 m² hasta 932 m². La mayoría de los apartamentos tienen áreas en el rango medio, con una media de 101.2 m². Esta diversidad en el tamaño de los apartamentos indica que hay opciones disponibles para diferentes necesidades y preferencias.

  1. Variables Predictivas:

En ambos modelos existe una correlación alta entre el área construida y el precio por metro cuadrado, indicando que el tamaño de la vivienda es un factor clave en su valoración. Este hallazgo subraya la importancia de considerar el área como una de las principales variables predictivas en la estimación del precio de las viviendas. Variables como la cantidad de baños y parqueaderos también muestran una relación significativa con el precio, aunque su impacto es menor en comparación con el área construida. El número de habitaciones, en cambio, presenta una correlación más baja con el precio, lo que sugiere que su influencia es limitada y podría estar vinculada a otras características de las viviendas (convendría analizar excluirla de los modelos o realizar transformaciones). 4. Modelo Lineal con Limitaciones:

El modelo de regresión aplicado a LAS CASAS DE LA ZONA NORTE, muestra un R² de 0.6777, lo que significa que aproximadamente el 68% de la variabilidad en los precios se explica por las variables independientes incluidas en el modelo. Aunque este valor es aceptable, indica que hay otros factores no considerados en el modelo que podrían estar influyendo en los precios de las viviendas. Además, la prueba de Breusch-Pagan sugiere la presencia de heterocedasticidad en los residuos del modelo, lo que podría afectar la precisión de las estimaciones de los coeficientes. Esta situación subraya la necesidad de aplicar posibles ajustes o considerar modelos más robustos que manejen mejor la variabilidad de los residuos.

El modelo de regresión aplicado a LOS APARTAMENTOS DE LA ZONA SUR, tiene un buen ajuste, con un R-cuadrado de 0.7205, indicando que aproximadamente el 72% de la variabilidad en los precios es explicada por las variables del modelo. Los coeficientes de las variables principales, como el área construida, el estrato y el número de baños, son significativos y tienen el signo esperado. Sin embargo, el coeficiente negativo para el número de habitaciones es contraintuitivo y requiere una investigación adicional para comprender su comportamiento. Se detectó heterocedasticidad en el modelo, con los residuos mostrando una mayor dispersión a medida que aumentan los valores ajustados. Esto puede afectar la precisión de las estimaciones del modelo. Adicionalmente, el test de Durbin-Watson indica una ligera autocorrelación positiva en los residuos, lo que podría afectar la validez de las inferencias del modelo. Esto sugiere que los residuos no son completamente independientes, lo que puede influir en la precisión de las estimaciones.

  1. Posibles Mejoras a los Modelos: Conviene explorar transformaciones de variables, como el uso de logaritmos, para mejorar la linealidad y reducir la heterocedasticidad. Además, podría ser beneficioso investigar modelos no lineales o de machine learning que puedan capturar de manera más efectiva las complejidades del mercado inmobiliario de Cali. Adicionalmente conviene aplica la validación cruzada a los modelos

1.3 Modelo de Regresión Lineal Múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios + 
##     habitaciones, data = vivienda_casasnorte)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -901.07  -75.64  -17.35   44.46 1039.69 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -238.99637   30.65312  -7.797 2.24e-14 ***
## areaconst       0.77933    0.04451  17.510  < 2e-16 ***
## estrato        80.63148    7.32947  11.001  < 2e-16 ***
## parqueaderos   21.03234    5.47397   3.842 0.000133 ***
## banios         24.60130    5.67365   4.336 1.66e-05 ***
## habitaciones    2.64930    4.58096   0.578 0.563224    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.9 on 716 degrees of freedom
## Multiple R-squared:  0.6604, Adjusted R-squared:  0.658 
## F-statistic: 278.4 on 5 and 716 DF,  p-value: < 2.2e-16

Análisis de Coeficientes: Intercepto: El intercepto es 238.17 negativo, lo que indica que cuando todas las variables independientes (areaconst, estrato, habitaciones, parqueaderos, banios) son iguales a cero, el modelo predice un precio por metro cuadrado de cerca de -238 millones, lo cual no tiene una interpretación realista en este contexto. Esto sugiere que el intercepto es más un ajuste matemático que una variable interpretativa en el modelo.

areaconst (Área construida): Con un coeficiente de 0.6767, esto indica que, manteniendo constantes las demás variables, cada metro cuadrado adicional construido incrementa el precio en aproximadamente 0.77 millones. Dado que el valor de p es bajo, este resultado es altamente significativo, sugiriendo que el área construida es un factor clave en la determinación del precio.

estrato 4: Las viviendas en estrato 4 tienen un precio promedio 80.064 unidades mayor que las viviendas en estrato 3 (el estrato de referencia), manteniendo las demás variables constantes. Este efecto es significativo.

estrato 5: Las viviendas en estrato 5 tienen un precio promedio 80.6 unidades mayor que las viviendas en estrato 3, lo que también es significativo.

estrato 6: Las viviendas en estrato 6 tienen un precio promedio 390.94 unidades mayor que las viviendas en estrato 3, siendo este un efecto muy significativo.

habitaciones: El coeficiente es 7.64, lo que sugiere que, al mantener constantes las demás variables, un aumento en el número de habitaciones en realidad disminuiría ligeramente el precio, aunque este resultado no es estadísticamente significativo. Adicionalmente es contraintuitivo y podría sugerir multicolinealidad o que el número de habitaciones está capturando algún otro efecto en el modelo.

parqueaderos: Con un coeficiente de 24.06, cada parqueadero adicional incrementa el precio en 41.6 millones. Este resultado es significativo, lo que sugiere que los parqueaderos tienen un impacto positivo en el precio.

banios: Con un coeficiente de 18.89, cada baño adicional incrementa el precio en cerca de 30 millones. Este resultado también es significativo.

. .

Análisis de R² y Error R²: El valor de R² es 0.6041, lo que indica que aproximadamente el 60% de la variabilidad en el precio se explica por las variables independientes en el modelo. Este es un valor aceptable, pero no extremadamente alto, sugiriendo que hay otros factores no incluidos en el modelo que podrían estar influyendo en el precio (hay un 34% de la variabilidad que no está explicada por estas variables).

Error Estándar Residual: El error estándar residual es 155.1, lo que proporciona una medida de la desviación típica de los residuos. Esto sugiere que, en promedio, las predicciones del modelo pueden desviarse en 155.1 millones del valor real del precio por metro cuadrado.

. .

EN RESUMEN,

Las variables areaconst, estrato (factorizado), parqueaderos, y banios son altamente significativas, lo que indica que son importantes para predecir el precio por metro cuadrado de las casas en la zona norte de Cali. El número de habitaciones no es estadísticamente significativa, lo que podría indicar que, en este modelo no tiene un impacto claro en el precio, o podría estar capturando algún efecto confuso con otras variables.

Podrían explorarse algunas mejoras al modelo, como por ejemplo:

Transformaciones: Probar transformaciones logarítmicas de las variables, especialmente del precio.

Eliminar Variables Insignificantes: eliminar la variable habitaciones si sigue sin ser significativa después de probar modelos ajustados.

Modelo no lineal: Dado que el R² no es extremadamente alto, podrían explorarse modelos no lineales o de machine learning.

Validación del Modelo: Sería útil realizar una validación cruzada para verificar la robustez del modelo y asegurarse de que los resultados obtenidos no estén sobreajustados a los datos específicos de la muestra.

1.4 Validación de supuestos del modelo

## 
##  Shapiro-Wilk normality test
## 
## data:  e
## W = 0.83791, p-value < 2.2e-16
##  lag Autocorrelation D-W Statistic p-value
##    1       0.1875584      1.624094       0
##  Alternative hypothesis: rho != 0
## 
##  Goldfeld-Quandt test
## 
## data:  mrlm_casas
## GQ = 1.1071, df1 = 355, df2 = 355, p-value = 0.169
## alternative hypothesis: variance increases from segment 1 to 2

1.5 Predicción del precio de la Vivienda

##   estrato areaconst parqueaderos banios habitaciones
## 1       4       200            1      2            4
## 2       5       200            1      2            4
##        1        2 
## 320.2281 400.8596

1.6 Potenciales Ofertas

## # A tibble: 11 × 13
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  4210 Zona …       5     350       200            3      3            4 Casa 
##  2  4800 Zona …       5     340       250            2      4            4 Casa 
##  3   852 Zona …       5     340       208            2      6            4 Casa 
##  4   819 Zona …       5     350       264            2      3            4 Casa 
##  5  1343 Zona …       5     320       200            2      4            4 Casa 
##  6  3053 Zona …       5     320       230            2      4            4 Casa 
##  7  1163 Zona …       5     350       216            2      2            4 Casa 
##  8  1849 Zona …       5     330       246            2      4            4 Casa 
##  9  1887 Zona …       5     340       203            2      3            4 Casa 
## 10  1842 Zona …       5     350       240            2      3            4 Casa 
## 11  1943 Zona …       5     350       346            1      2            4 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 5 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  4800 Zona N…       5     340       250            2      4            4 Casa 
## 2   819 Zona N…       5     350       264            2      3            4 Casa 
## 3  1849 Zona N…       5     330       246            2      4            4 Casa 
## 4  1842 Zona N…       5     350       240            2      3            4 Casa 
## 5  1943 Zona N…       5     350       346            1      2            4 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 10 × 13
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  7471 Zona …       4     330      240             2      4            4 Casa 
##  2  4458 Zona …       4     315      270             2      4            4 Casa 
##  3  2837 Zona …       4     340      207             2      4            4 Casa 
##  4  3352 Zona …       4     335      300             3      4            4 Casa 
##  5  4727 Zona …       4     296      232             2      6            4 Casa 
##  6   937 Zona …       4     350      280             2      3            4 Casa 
##  7  1108 Zona …       4     330      260             1      3            4 Casa 
##  8  1144 Zona …       4     320      200             2      4            4 Casa 
##  9  2544 Zona …       4     340      264.            2      4            4 Casa 
## 10  1822 Zona …       4     340      295             2      2            4 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 5 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  4458 Zona N…       4     315      270             2      4            4 Casa 
## 2   937 Zona N…       4     350      280             2      3            4 Casa 
## 3  1108 Zona N…       4     330      260             1      3            4 Casa 
## 4  2544 Zona N…       4     340      264.            2      4            4 Casa 
## 5  1822 Zona N…       4     340      295             2      2            4 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 10 × 13
##       id zona   estrato preciom areaconst parqueaderos banios habitaciones tipo 
##    <dbl> <chr>    <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
##  1  4458 Zona …       4     315      270             2      4            4 Casa 
##  2   937 Zona …       4     350      280             2      3            4 Casa 
##  3  1108 Zona …       4     330      260             1      3            4 Casa 
##  4  2544 Zona …       4     340      264.            2      4            4 Casa 
##  5  1822 Zona …       4     340      295             2      2            4 Casa 
##  6  4800 Zona …       5     340      250             2      4            4 Casa 
##  7   819 Zona …       5     350      264             2      3            4 Casa 
##  8  1849 Zona …       5     330      246             2      4            4 Casa 
##  9  1842 Zona …       5     350      240             2      3            4 Casa 
## 10  1943 Zona …       5     350      346             1      2            4 Casa 
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>

VIVIENDA 2

2.1 Filtro Apartamentos de Zona Sur

## # A tibble: 3 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  5098 Zona S…       4     290        96            1      2            3 Apar…
## 2   698 Zona S…       3      78        40            1      1            2 Apar…
## 3  8199 Zona S…       6     875       194            2      5            3 Apar…
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## spc_tbl_ [2,787 × 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ id          : num [1:2787] 5098 698 8199 1241 5370 ...
##  $ zona        : chr [1:2787] "Zona Sur" "Zona Sur" "Zona Sur" "Zona Sur" ...
##  $ estrato     : num [1:2787] 4 3 6 3 3 4 3 3 3 4 ...
##  $ preciom     : num [1:2787] 290 78 875 135 135 220 210 105 115 220 ...
##  $ areaconst   : num [1:2787] 96 40 194 117 78 75 72 68 58 84 ...
##  $ parqueaderos: num [1:2787] 1 1 2 1 1 1 2 1 1 1 ...
##  $ banios      : num [1:2787] 2 1 5 2 1 2 2 2 2 2 ...
##  $ habitaciones: num [1:2787] 3 2 3 3 3 3 3 3 2 3 ...
##  $ tipo        : chr [1:2787] "Apartamento" "Apartamento" "Apartamento" "Apartamento" ...
##  $ barrio      : chr [1:2787] "acopi" "aguablanca" "aguacatal" "alameda" ...
##  $ longitud    : num [1:2787] -76.5 -76.5 -76.6 -76.5 -76.5 ...
##  $ latitud     : num [1:2787] 3.45 3.4 3.46 3.44 3.44 ...
##  $ base        : chr [1:2787] "Apto Sur" "Apto Sur" "Apto Sur" "Apto Sur" ...
##  - attr(*, "spec")=List of 3
##   ..$ cols   :List of 13
##   .. ..$ id          : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ zona        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ piso        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ estrato     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ preciom     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ areaconst   : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ parqueaderos: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ banios      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ habitaciones: list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ tipo        : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ barrio      : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_character" "collector"
##   .. ..$ longitud    : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   .. ..$ latitud     : list()
##   .. .. ..- attr(*, "class")= chr [1:2] "collector_double" "collector"
##   ..$ default: list()
##   .. ..- attr(*, "class")= chr [1:2] "collector_guess" "collector"
##   ..$ delim  : chr ";"
##   ..- attr(*, "class")= chr "col_spec"
##  - attr(*, "problems")=<externalptr>
## Descriptive Statistics  
## vivienda_aptosur  
## N: 2787  
## 
##                     areaconst    banios   habitaciones   parqueaderos   preciom
## ----------------- ----------- --------- -------------- -------------- ---------
##              Mean       97.47      2.49           2.97           1.36    297.29
##           Std.Dev       52.57      0.93           0.61           0.64    191.55
##               Min       40.00      1.00           1.00           1.00     75.00
##                Q1       65.00      2.00           3.00           1.00    175.00
##            Median       85.00      2.00           3.00           1.00    245.00
##                Q3      110.00      3.00           3.00           2.00    335.00
##               Max      932.00      8.00           6.00          10.00   1750.00
##               MAD       31.13      0.00           0.00           0.00    114.16
##               IQR       45.00      1.00           0.00           1.00    160.00
##                CV        0.54      0.37           0.21           0.47      0.64
##          Skewness        4.33      1.24           0.25           3.20      2.63
##       SE.Skewness        0.05      0.05           0.05           0.05      0.05
##          Kurtosis       38.13      1.78           1.94          26.01     10.44
##           N.Valid     2787.00   2787.00        2787.00        2787.00   2787.00
##         Pct.Valid      100.00    100.00         100.00         100.00    100.00

2.2 Análisis de Datos Exploratorios

2.3 Modelo de Regresión Lineal Múltiple

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + parqueaderos + banios + 
##     habitaciones, data = vivienda_casasnorte)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -901.07  -75.64  -17.35   44.46 1039.69 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -238.99637   30.65312  -7.797 2.24e-14 ***
## areaconst       0.77933    0.04451  17.510  < 2e-16 ***
## estrato        80.63148    7.32947  11.001  < 2e-16 ***
## parqueaderos   21.03234    5.47397   3.842 0.000133 ***
## banios         24.60130    5.67365   4.336 1.66e-05 ***
## habitaciones    2.64930    4.58096   0.578 0.563224    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 156.9 on 716 degrees of freedom
## Multiple R-squared:  0.6604, Adjusted R-squared:  0.658 
## F-statistic: 278.4 on 5 and 716 DF,  p-value: < 2.2e-16

2.4 Validación de supuestos del modelo

## 
##  Shapiro-Wilk normality test
## 
## data:  e2
## W = 0.83791, p-value < 2.2e-16
##  lag Autocorrelation D-W Statistic p-value
##    1       0.1875584      1.624094       0
##  Alternative hypothesis: rho != 0
## 
##  Goldfeld-Quandt test
## 
## data:  mrlm_apto
## GQ = 1.1071, df1 = 355, df2 = 355, p-value = 0.169
## alternative hypothesis: variance increases from segment 1 to 2

2.5 Predicción del precio de la Vivienda

##   estrato areaconst parqueaderos banios habitaciones
## 1       5       300            3      3            5
## 2       6       300            3      3            5
##        1        2 
## 548.1080 628.7395

6. Potenciales Ofertas

## # A tibble: 1 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  7182 Zona S…       5     730       573            3      8            5 Apar…
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 1 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  7182 Zona S…       5     730       573            3      8            5 Apar…
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 0 × 13
## # ℹ 13 variables: id <dbl>, zona <chr>, estrato <dbl>, preciom <dbl>,
## #   areaconst <dbl>, parqueaderos <dbl>, banios <dbl>, habitaciones <dbl>,
## #   tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 0 × 13
## # ℹ 13 variables: id <dbl>, zona <chr>, estrato <dbl>, preciom <dbl>,
## #   areaconst <dbl>, parqueaderos <dbl>, banios <dbl>, habitaciones <dbl>,
## #   tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>
## # A tibble: 1 × 13
##      id zona    estrato preciom areaconst parqueaderos banios habitaciones tipo 
##   <dbl> <chr>     <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl> <chr>
## 1  7182 Zona S…       5     730       573            3      8            5 Apar…
## # ℹ 4 more variables: barrio <chr>, longitud <dbl>, latitud <dbl>, base <chr>

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this: