Actividad 2 - Caso C&A

Maria comenzó como agente de bienes raíces en Cali hace 10 años. Después de laborar dos años para una empresa nacional, se traslado a Bogotá y trabajó para otra agencia de bienes raíces. Sus amigos y familiares la convencieron de que con su experiencia y conocimientos del negocio debía abrir su propia agencia. Terminó por adquirir la licencia de intermediario y al poco tiempo fundó su propia compañía, C&A (Casas y Apartamentos) en Cali. Santiago y Lina, dos vendedores de la empresa anterior aceptaron trabajar en la nueva compaña. En la actualidad ocho agentes de bienes raíces colaboran con ella en C&A.

Actualmente las ventas de bienes raíces en Cali se han visto disminuidas de manera significativa en lo corrido del año. Durante este periodo muchas instituciones bancarias de ahorro y vivienda están prestando grandes sumas de dinero para la industria y la construcción comercial y residencial. Cuando el efecto producto de las tensiones políticas y sociales disminuya, se espera que la actividad económica de este sector se reactive.

Hace dos días, María recibió una carta solicitando asesoría para la compra de dos viviendas por parte de una compañía internacional que desea ubicar a dos de sus empleados con sus familias en la ciudad. Las solicitudes incluyen las siguientes condiciones:

En este informe se pretende ayudar a Maria a responder la solicitud, mediante técnicas de modelación, donde se analizaran los dos casos presentados de la vivienda 1 y la vivienda 2, con algunas recomendaciones.

Se brinda un esquema general de las columnas y descripción de las mismas de la base de datos “vivienda”, contentivo de los datos de los últimos tres meses.

Vivienda 1

Pasos requeridos para la obtención de los resultados.

1. Realice un filtro a la base de datos e incluya solo las ofertas de : base1: casas, de la zona norte de la ciudad. Presente los primeros 3 registros de las bases y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de las bases. Discutir si todos los puntos se ubican en la zona correspondiente o se presentan valores en otras zonas, por que?).

## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
## Warning: package 'leaflet' was built under R version 4.3.3
## Warning: package 'plotly' was built under R version 4.3.3
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout

Se procede mirar los datos de forma inicial:

## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1147 Zona O… <NA>        3     250        70            1      3            6
## 2  1169 Zona O… <NA>        3     320       120            1      2            3
## 3  1350 Zona O… <NA>        3     350       220            2      2            4
## 4  5992 Zona S… 02          4     400       280            3      5            3
## 5  1212 Zona N… 01          5     260        90            1      2            3
## 6  1724 Zona N… 01          5     240        87            1      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Realizando una revisión de los datos de centralidad:

##        id           zona               piso              estrato     
##  Min.   :   1   Length:8322        Length:8322        Min.   :3.000  
##  1st Qu.:2080   Class :character   Class :character   1st Qu.:4.000  
##  Median :4160   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4160                                         Mean   :4.634  
##  3rd Qu.:6240                                         3rd Qu.:5.000  
##  Max.   :8319                                         Max.   :6.000  
##  NA's   :3                                            NA's   :3      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  58.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 220.0   1st Qu.:  80.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 330.0   Median : 123.0   Median : 2.000   Median : 3.000  
##  Mean   : 433.9   Mean   : 174.9   Mean   : 1.835   Mean   : 3.111  
##  3rd Qu.: 540.0   3rd Qu.: 229.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1999.0   Max.   :1745.0   Max.   :10.000   Max.   :10.000  
##  NA's   :2        NA's   :3        NA's   :1605     NA's   :3       
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:8322        Length:8322        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.605                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##  NA's   :3                                              NA's   :3       
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.381  
##  Median :3.416  
##  Mean   :3.418  
##  3rd Qu.:3.452  
##  Max.   :3.498  
##  NA's   :3

Ahora procedemos a mirar específicamente los datos del total de registros por zonas:

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1920         1198          351         4726

Nos centramos en la zona norte requerida:

## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1212 Zona N… 01          5     260        90            1      2            3
## 2  1724 Zona N… 01          5     240        87            1      3            3
## 3  2326 Zona N… 01          4     220        52            2      2            3
## 4  4386 Zona N… 01          5     310       137            2      3            4
## 5  1209 Zona N… 02          5     320       150            2      4            6
## 6  1592 Zona N… 02          5     780       380            2      3            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Es conducente realizar una revisión de los datos de centralidad

##        id             zona               piso              estrato     
##  Min.   :  31.0   Length:1920        Length:1920        Min.   :3.000  
##  1st Qu.: 832.8   Class :character   Class :character   1st Qu.:3.000  
##  Median :2400.5   Mode  :character   Mode  :character   Median :4.000  
##  Mean   :2558.0                                         Mean   :4.282  
##  3rd Qu.:3867.8                                         3rd Qu.:5.000  
##  Max.   :8319.0                                         Max.   :6.000  
##                                                                        
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  65.0   Min.   :  30.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 160.0   1st Qu.:  70.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 300.0   Median : 107.0   Median : 1.000   Median : 2.000  
##  Mean   : 345.6   Mean   : 161.1   Mean   : 1.647   Mean   : 2.778  
##  3rd Qu.: 430.0   3rd Qu.: 215.2   3rd Qu.: 2.000   3rd Qu.: 3.000  
##  Max.   :1940.0   Max.   :1440.0   Max.   :10.000   Max.   :10.000  
##                                    NA's   :633                      
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:1920        Length:1920        Min.   :-76.59  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.53  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.52  
##  Mean   : 3.501                                         Mean   :-76.52  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.50  
##  Max.   :10.000                                         Max.   :-76.47  
##                                                                         
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.457  
##  Median :3.472  
##  Mean   :3.464  
##  3rd Qu.:3.485  
##  Max.   :3.498  
## 

La zona norte tiene 1920 inmuebles, entre apartamentos y casas

Procedemos a mirar si la data de la zona norte tiene faltantes:

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0          781            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##          633            0            0            0            0            0 
##      latitud 
##            0

Se encuentra que piso tiene 781 y parqueaderos 633

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  1209 Zona N… 02          5     320       150            2      4            6
## 2  1592 Zona N… 02          5     780       380            2      3            3
## 3  4057 Zona N… 02          6     750       445           NA      7            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

A continuación se hace un conteo de las casas de la zona norte.

## [1] 722

Hay 722 casas en la zona norte

Es pertinente mirar datos correspondientes al estrato.

## 
##   3   4   5   6 
## 235 161 271  55

El mayor número de viviendas de la zona norte son estrato 3 y 5, seguidos de estrato 4 y por último estrato 6

Con número de baños:

## 
##   0   1   2   3   4   5   6   7   8   9  10 
##  10  17 165 187 171 101  46  11  11   1   2

El mayor número de baños de las casas de la zona norte de la ciudad tiene 2, 3, 4 y 5 baños.

Con número de habitaciones:

## 
##   0   1   2   3   4   5   6   7   8   9  10 
##  20   2  12 171 222 137  60  42  29  14  13

El mayor número de habitaciones de las casas de la zona norte son de 4,3 y 5 respectivamente.

Con Barrio:

## 
##                     acopi           alameda del río                    alamos 
##                        70                         1                         3 
##         atanasio girardot              barranquilla        barrio tranquilo y 
##                         1                         3                         1 
##               base aérea                    berlin             brisas de los 
##                         2                         1                        22 
##        brisas del guabito                      Cali                 calibella 
##                         1                        13                         1 
##                    calima             calimio norte                  cambulos 
##                         6                         3                         1 
##                centenario                 chapinero                chipichape 
##                         3                         1                         5 
##         ciudad los álamos        colinas del bosque                 cristales 
##                        11                         1                         1 
##                 el bosque                  el cedro           el gran limonar 
##                        37                         1                         1 
##                el guabito                   el sena                el trébol 
##                         1                         1                         1 
##           evaristo garcía          flora industrial                  floralia 
##                         1                         4                         3 
##                    gaitan                   granada      jorge eliecer gaitán 
##                         1                        10                         1 
##                 juanamb√∫                   la base                la campiña 
##                        11                         1                         4 
##              la esmeralda                  la flora                  La Flora 
##                         1                        99                         1 
##               la floresta                 la merced                 la rivera 
##                         2                        24                         9 
##               la rivera i              la rivera ii                la riviera 
##                         1                         2                         1 
##              la villa del               las acacias             las américas 
##                         1                         1                         1 
##                las ceibas              las delicias               las granjas 
##                         2                         3                         1 
##                 los andes             los guaduales            los guayacanes 
##                        13                        10                         2 
##                manzanares                     menga   metropolitano del norte 
##                         1                         2                         1 
##          nueva tequendama         oasis de comfandi                 occidente 
##                         1                         1                         1 
##                    pacara     parque residencial el              paseo de los 
##                         2                         1                         2 
##         paso del comercio         poblado campestre                   popular 
##                         2                         1                         5 
##       portada de comfandi      portales de comfandi                  porvenir 
##                         1                         1                         2 
##          prados del norte        quintas de salomia             rozo la torre 
##                        31                         1                         1 
##                   salomia                  san luis                  san luís 
##                        20                         2                         1 
##               san vicente             santa bárbara              santa monica 
##                        31                         1                        16 
##              Santa Monica              santa mónica        santa monica norte 
##                         1                         1                         1 
##  santa monica residencial  santa mónica residencial                 santander 
##                         5                        15                         1 
##            tejares de san        torres de comfandi         unión de vivienda 
##                         1                         2                         1 
## urbanización barranquilla     urbanización la flora    urbanización la merced 
##                         2                        23                         4 
##     urbanización la nueva            valle del lili                 versalles 
##                         1                         1                        16 
##            villa colombia         villa de veracruz           villa del prado 
##                         1                         4                        40 
##           Villa Del Prado             villa del sol        villas de veracruz 
##                         1                        12                         7 
##        Villas De Veracruz                    vipasa                zona norte 
##                         1                        30                        19 
##              zona oriente 
##                         1

Mediante un mapa se visualizan las casas de la zona norte (722 en total):

En el mapa se ve una gran concentración de puntos en la zona norte, específicamente de los tipos de vivienda “Casa”, pero se encuentran varios puntos dispersos o atipicidad de los mismos esto puede deberse a:

  • Error de captura o digitación del tipo de vivienda por parte humana.
  • Inconvenientes en la asignación de los datos, poca o baja calidad de los datos.

2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

Lo primero pertinente es realizar una visión general de la matriz de correlación de las variables propuestas en el enunciado que corresponden a precio, area construida, estrato, baños y habitaciones de las casas de la zona norte de la ciudad.

## Warning: package 'corrplot' was built under R version 4.3.3
## corrplot 0.92 loaded

Se nota que la mayor correlación se ve entre las variables de precio del inmueble y el área construida.

## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

En el gráfico anterior se puede apreciar la directa relación entre precio y área construida del inmueble, también se puede notar que existen algunos puntos atípicos relacionados con que a mayor área construida, mayor precio del inmueble, siendo la casa de mayor valor próxima a los 2000 millones con un área construida de casi 750 m2.

El gráfico de cajas y bigotes, nos muestra detalladamente una proporción de distribución de los precios de la vivienda por estrato socio econónimo:

  • Para el estrato 3 encontramos:
    • El precio de casa más bajo es de 89 millones
    • El mayor precio de casa es de 1.100 millones
    • La mediana es de 215 millones.
  • Para el estrato 4 encontramos:
    • El precio de casa más bajo es de 160 millones
    • El mayor precio de casa es de 1.800 millones
    • La mediana es de 380 millones.
  • Para el estrato 5 encontramos:
    • El precio de casa más bajo es de 125 millones
    • El mayor precio de casa es de 1.940 millones
    • La mediana es de 480 millones.
  • Para el estraro 6 encontramos:
    • El precio de casa más bajo es de 430 millones
    • El mayor precio de casa es de 1.600 millones
    • La mediana es de 800 millones

Podemos encontrar de forma general que ha mayor número de baños incrementa el precio del inmueble.

Podemos encontrar en este gráfico de forma general que las casas con mayores valores por habitación son:

  • Las de mayor precio son las de 4 habitaciones.
  • Siguen las de 3 habitaciones.
  • Luego las de 5 habitaciones.

Con el gráfico precedente encontramos que:

  • La casa de menor valor que encontramos en la zona norte es de 89 millones.
  • La casa de mayor valor que encontramos en la zona norte es de 1.940 millones.
  • La mitad de casas de la norte tiene un precio de 390 millones.
  • Una oferta premium o costo alto de casas en el norte está de los 950 millones hasta los 1.940 millones.

3 Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = datos_zona_norte_casas1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -784.29  -77.56  -16.03   47.67  978.61 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -238.17090   44.40551  -5.364 1.34e-07 ***
## areaconst       0.67673    0.05281  12.814  < 2e-16 ***
## estrato        80.63495    9.82632   8.206 2.70e-15 ***
## habitaciones    7.64511    5.65873   1.351    0.177    
## parqueaderos   24.00598    5.86889   4.090 5.14e-05 ***
## banios         18.89938    7.48800   2.524    0.012 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 155.1 on 429 degrees of freedom
##   (287 observations deleted due to missingness)
## Multiple R-squared:  0.6041, Adjusted R-squared:  0.5995 
## F-statistic: 130.9 on 5 and 429 DF,  p-value: < 2.2e-16

Análisis del modelo de regresión lineal múltiple:

  • Intercepto es de -238.17090, que indica el valor esperado de la variable dependiente cuando todas las demás son cero, es decir valdrá -$238.17090 millones cuando área construida, estrato, habitaciones, parqueadeeros y baños sean cero.

  • Coeficientes:

    • Área construida: El incremento por metro cuadrado está asociado a un aumento de 0.67673 millones en el precio de la vivienda.
    • Estrato: El aumento del estrato incrementa el precio de la vivienda en 80.6349 millones.
    • Habitaciones: El tener una habitación más en la casa a comprar en la zona norte, incrementaría el precio de la vivienda en 7.64511 millones de pesos.
    • Parqueaderos: El incremento de parqueaderos hará que la casa aumente su precio en 24.0059 millones de pesos.
    • Baños: El tener un baño más en una casa a comprar en el norte de la ciudad, incrementará el precio en 18.89 millones.
  • Valores p: Al ser tan bajos dichos valores se puede concluir que todas las variables independientes en el modelo son significativas.

  • Coeficiente R2: Se encuentra una significancia del 60.41%, lo que determina que dicho porcentaje es la variabilidad del precio de una casa en la zona norte por las variables de área construida, estrato, habitaciones, parqueaderos y baños.

  • Para mejorar el coeficiente R2, se podría hacer:

    • utilizar variables dummy, usando las variables categóricas para capturar su efecto en la variable de precio.
    • Transformación de variables: Se puede considerar realizar transformaciones de variables independientes o dependientes mediante logaritmos, raices cuadradas para capturar mejor los valores del precio.
    • Revisar los datos atípicos que realmente no corresponde a la zona norte, podria decidirse eliminarlos o no tenerlos en cuenta para mejorar la precisión del modelo inicial.

4 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

  1. Supuesto de normalidad
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.85246, p-value < 0.00000000000000022

Los residuos del modelo siguen una distribución normal.

Esto queda confirmado con el hecho de que el valor de p-value es muy pequeño, tendencia de distribución normal.

  1. Independencia de errores

## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  Durbin-Watson test
## 
## data:  puntoModelo
## DW = 1.7615, p-value = 0.005472
## alternative hypothesis: true autocorrelation is greater than 0

En la estadística de Durbin Watson para el modelo de regresión, los valores oscilan entre 0 y 4, al presentarse un valor inferior a 2 se puede determinar que existe una autocorrelación positiva.

El p-value al ser significativamente pequeño sugiere que hay evidencia en contra de la hipótesis nula y que hay autocorrelación de primer orden en los residuos.

3.Supuesto de varianza constante

## 
##  studentized Breusch-Pagan test
## 
## data:  puntoModelo
## BP = 80.281, df = 5, p-value = 0.000000000000000733

Para el caso de la prueba de Breusch-Pagan, se encuentra que existe una evidencia de 80.281 en contra de la hipótesis nula de Homocedasticidad.

Se presentan 5 grados de libertad asociados con la distribución del estadístico de prueba.

El p-value al ser tan pequeño, sugiere que los residuos tienen una varianza que no es constante en todas las observaciones.

## 
##  Goldfeld-Quandt test
## 
## data:  puntoModelo
## GQ = 2.2522, df1 = 212, df2 = 211, p-value = 0.000000002995
## alternative hypothesis: variance increases from segment 1 to 2

El estadístico de la prueba Goldfeld-Quandt es de 2.2522, entre más grande sea el valor, más evidencia habrá en contra de la hipótesis nula de Homocedasticidad.

El df1 es de 212 que representa los grados de libertad asociados con el numerador del estadístico de la prueba.

El df2 es de 211 que representa los grados de libertad asociados con el denominador del estadístico de la prueba.

El p-value es significativamente pequeño lo que indica que hay evidencia fuerte en contra de la hipótesis de homocedasticidad, es decir que los residuos tiene una varianza que no es constante en todas las observaciones.

  1. Multicolinealidad

5 Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

##   areaconst estrato habitaciones parqueaderos banios
## 1       200       4            4            1      2
## 2       200       5            4            1      2
##        1        2 
## 312.1010 392.7359

Se encuentra que para una vivienda en la zona norte con las características solicitadas de un área construida de 200 m2, un parqueadero, dos baños, cuatro habitaciones y estrato 4, está en un precio de 312.1010 millones de pesos.

De igual forma para una casa con las mismas características pero estrato 5, está en un precio de 392.7359 millones de pesos.

6 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

## [1] 37
## # A tibble: 5 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  4210 Zona N… 01          5     350       200            3      3            4
## 2  4267 Zona N… 01          5     335       202            1      4            5
## 3  4800 Zona N… 01          5     340       250            2      4            4
## 4  4209 Zona N… 02          5     350       300            3      5            6
## 5  4422 Zona N… 02          5     350       240            2      3            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Las primeras opciones de casa en la zona norte de la ciudad son:

  1. Casa id 4210 con un precio de 350 millones, un área construida de 200 m2, 3 parqueaderos, 3 baños, 4 habitaciones en el barrio el bosque.

  2. Casa id 4267 con un precio de 335 millones, un área construida de 202 m2, 1 parqueaderos, 4 baños, 5 habitaciones en el barrio el bosque.

  3. Casa id 4800 con un precio de 340 millones, un área construida de 250 m2, 2 parqueaderos, 4 baños, 4 habitaciones en el barrio el bosque.

  4. Casa id 4209 con un precio de 350 millones, un área construida de 300 m2, 3 parqueaderos, 5 baños, 6 habitaciones en el barrio el bosque.

  5. Casa id 4422 con un precio de 350 millones, un área construida de 240 m2, 2 parqueaderos, 3 baños, 6 habitaciones en el barrio el bosque.

7 Realice los pasos del 1 al 6. Para la segunda solicitud que tiene un crédito pre-aprobado por valor de $850 millones.

Vivienda 2

Ahora procedemos a mirar específicamente los datos del total de registros por zonas:

## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1920         1198          351         4726

Nos centramos en la zona sur requerida:

## # A tibble: 6 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5992 Zona S… 02          4     400       280            3      5            3
## 2  5098 Zona S… 05          4     290        96            1      2            3
## 3   698 Zona S… 02          3      78        40            1      1            2
## 4  8199 Zona S… <NA>        6     875       194            2      5            3
## 5  5157 Zona S… 02          3     500       354            1      2            4
## 6  5501 Zona S… 02          3     175       102           NA      2            4
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Es conducente realizar una revisión de los datos de centralidad

##        id           zona               piso              estrato     
##  Min.   :   1   Length:4726        Length:4726        Min.   :3.000  
##  1st Qu.:2574   Class :character   Class :character   1st Qu.:4.000  
##  Median :4378   Mode  :character   Mode  :character   Median :5.000  
##  Mean   :4361                                         Mean   :4.717  
##  3rd Qu.:6057                                         3rd Qu.:5.000  
##  Max.   :8305                                         Max.   :6.000  
##                                                                      
##     preciom         areaconst       parqueaderos        banios      
##  Min.   :  75.0   Min.   :  40.0   Min.   : 1.000   Min.   : 0.000  
##  1st Qu.: 222.0   1st Qu.:  78.0   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 320.0   Median : 113.0   Median : 1.000   Median : 3.000  
##  Mean   : 426.5   Mean   : 173.3   Mean   : 1.835   Mean   : 3.179  
##  3rd Qu.: 520.0   3rd Qu.: 220.0   3rd Qu.: 2.000   3rd Qu.: 4.000  
##  Max.   :1900.0   Max.   :1600.0   Max.   :10.000   Max.   :10.000  
##                                    NA's   :621                      
##   habitaciones        tipo              barrio             longitud     
##  Min.   : 0.000   Length:4726        Length:4726        Min.   :-76.57  
##  1st Qu.: 3.000   Class :character   Class :character   1st Qu.:-76.54  
##  Median : 3.000   Mode  :character   Mode  :character   Median :-76.53  
##  Mean   : 3.601                                         Mean   :-76.53  
##  3rd Qu.: 4.000                                         3rd Qu.:-76.52  
##  Max.   :10.000                                         Max.   :-76.46  
##                                                                         
##     latitud     
##  Min.   :3.333  
##  1st Qu.:3.370  
##  Median :3.385  
##  Mean   :3.390  
##  3rd Qu.:3.409  
##  Max.   :3.497  
## 

La zona sur tiene 4726 inmuebles, entre apartamentos y casas

Procedemos a mirar si la data de la zona sur tiene faltantes:

##           id         zona         piso      estrato      preciom    areaconst 
##            0            0         1263            0            0            0 
## parqueaderos       banios habitaciones         tipo       barrio     longitud 
##          621            0            0            0            0            0 
##      latitud 
##            0

Se encuentra que piso tiene 1263 y parqueaderos 621

## # A tibble: 3 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5098 Zona S… 05          4     290        96            1      2            3
## 2   698 Zona S… 02          3      78        40            1      1            2
## 3  8199 Zona S… <NA>        6     875       194            2      5            3
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

A continuación se hace un conteo de los apartamentos de la zona sur.

## [1] 2787

Hay 2787 apartamentos en la zona norte

Es pertinente mirar datos correspondientes al estrato.

## 
##    3    4    5    6 
##  201 1091 1033  462

El mayor número de apartamentos de la zona sur son estrato 4 y 5, seguidos de estrato 6 y por último estrato 3.

Con número de baños:

## 
##    0    1    2    3    4    5    6    7    8 
##    6  167 1588  662  229  123   10    1    1

El mayor número de baños de los apartamentos de la zona sur de la ciudad tiene 2, 3, 4 y 1 baños.

Con número de habitaciones:

## 
##    0    1    2    3    4    5    6 
##    8   19  463 1902  366   24    5

El mayor número de habitaciones de los apartamentos de la zona sur son de 3, 2 y 4 respectivamente.

Con Barrio:

## 
##                         acopi                    aguablanca 
##                             1                             1 
##                     aguacatal                       alameda 
##                             1                             2 
##                 alférez real                  alferez real 
##                             4                             1 
##                   alto jordán            altos de guadalupe 
##                             1                             1 
##                      arboleda             belisario caicedo 
##                             1                             2 
##                   bella suiza           bloques del limonar 
##                             5                             1 
##                     bochalema           bosques del limonar 
##                            33                            12 
##            brisas del limonar                  buenos aires 
##                             1                             4 
##                        caldas                          Cali 
##                             1                             3 
##                     calicanto                      cambulos 
##                             2                             2 
##                   camino real                   Camino Real 
##                            14                             1 
##                     campestre                         caney 
##                             1                            58 
##                caney especial                   cañasgordas 
##                             1                             5 
##                  cañaveralejo                   cañaverales 
##                             9                            19 
##       cañaverales los samanes                         capri 
##                             1                            43 
##                   cataya real               cerro cristales 
##                             1                             1 
##                    champagnat                   ciudad 2000 
##                             1                            19 
##              ciudad bochalema                  ciudad capri 
##                            48                             9 
##                 ciudad jardin                 ciudad jardín 
##                             9                           218 
##           ciudad jardin pance              ciudad meléndez 
##                             1                             1 
##               ciudad melendez               ciudad pacifica 
##                             1                             2 
##               Ciudad Pacifica          ciudad universitaria 
##                             1                             1 
##            ciudadela comfandi            ciudadela melendez 
##                             2                             1 
##           ciudadela pasoancho               colinas del sur 
##                             3                             3 
##                    colseguros              colseguros andes 
##                            22                             1 
##                     cristales               cristobal colón 
##                             1                             2 
##               cuarto de legua                 departamental 
##                            30                            16 
##                      el caney                      El Caney 
##                           124                             1 
##                     el dorado               el gran limonar 
##                             6                             3 
##                     el guabal                    el ingenio 
##                             4                           128 
##                  el ingenio 3                  el ingenio i 
##                             1                            13 
##                 el ingenio ii                el ingenio iii 
##                             9                            10 
##                     el jordán                       el lido 
##                             1                            33 
##                    el limonar                    el refugio 
##                            59                            77 
##                 fuentes de la                  gran limonar 
##                             1                             8 
##                     guadalupe                       ingenio 
##                            10                             1 
##                    ingenio ii                   la alborada 
##                             1                             4 
##                    la cascada                      la flora 
##                             2                             1 
##                   la hacienda                   La Hacienda 
##                           108                             1 
##                      la luisa                      la selva 
##                             1                             7 
##                   las acacias                  las camelias 
##                             1                             1 
##                   las granjas                  las vegas de 
##                             7                             1 
##                  los cambulos                  los cámbulos 
##                            19                             3 
##                los farallones             mayapan las vegas 
##                             2                            31 
##                     meléndez                      melendez 
##                            19                            40 
##                    miraflores                   multicentro 
##                             1                            27 
##                       napoles                       nápoles 
##                             1                            12 
##                     normandía              nueva tequendama 
##                             1                            36 
##            oasis de pasoancho                   pampa linda 
##                             1                            13 
##                    pampalinda                  panamericano 
##                             3                             2 
##                         pance           parcelaciones pance 
##                           205                            18 
##                     pasoancho                         ponce 
##                             5                             1 
##            prados del limonar            Prados Del Limonar 
##                             3                             1 
##               primero de mayo                quintas de don 
##                            24                            58 
##                       refugio                       samanes 
##                             1                             1 
##          samanes de guadalupe                     san bosco 
##                             1                             2 
##                  san fernando                  San Fernando 
##                            18                             1 
##            san fernando nuevo            san fernando viejo 
##                             4                             5 
##                   san joaquin                   santa anita 
##                             1                            36 
##                   Santa Anita                   santa elena 
##                             2                             1 
##                  santa isabel                santa teresita 
##                             7                             6 
##                 santo domingo              sector aguacatal 
##                             1                             1 
## sector cañaveralejo guadalupe                     seminario 
##                             2                            22 
##                      templete                    tequendama 
##                             2                            14 
##                unicentro cali       urbanización colseguros 
##                             1                             2 
##        urbanizacion gratamira    urbanización nueva granada 
##                             1                             1 
##         urbanización río lili       urbanización tequendama 
##                             3                             2 
##                 valle de lili                valle del lili 
##                             1                           837 
##                Valle Del Lili                     versalles 
##                             1                             1 
##                 villa del sur                        vipasa 
##                             1                             1 
##                      zona sur 
##                            32

Mediante un mapa se visualizan los apartamentos de la zona sur (2787 en total):

En el mapa se ve una gran concentración de puntos en la zona sur, específicamente de los tipos de vivienda “apartamento”, pero se encuentran varios puntos dispersos o atipicidad de los mismos esto puede deberse a:

2. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio de la casa) en función del área construida, estrato, numero de baños, numero de habitaciones y zona donde se ubica la vivienda. Use gráficos interactivos con el paquete plotly e interprete los resultados.

Lo primero pertinente es realizar una visión general de la matriz de correlación de las variables propuestas en el enunciado que corresponden a precio, area construida, estrato, baños y habitaciones de los apartamentos de la zona sur de la ciudad.

## Warning in ind1:ind2: numerical expression has 2 elements: only the first used

Se nota que la mayor correlación se ve entre las variables de precio del inmueble y el área construida.

## `geom_smooth()` using method = 'gam' and formula = 'y ~ s(x, bs = "cs")'

En el gráfico anterior se puede apreciar la directa relación entre precio y área construida del inmueble, también se puede notar que existen algunos puntos atípicos relacionados con que a mayor área construida, mayor precio del inmueble, siendo el apartamento de mayor valor próxima a los 1750 millones con un área construida de casi 290 m2.

El gráfico de cajas y bigotes, nos muestra detalladamente una proporción de distribución de los precios de la vivienda por estrato socio econónimo:

Podemos encontrar de forma general que ha mayor número de baños incrementa el precio del inmueble.

Podemos encontrar en este gráfico de forma general que los apartamentos con mayores valores por habitación son:

Con el gráfico precedente encontramos que:

3 Estime un modelo de regresión lineal múltiple con las variables del punto anterior (precio = f(área construida, estrato, número de cuartos, número de parqueaderos, número de baños ) ) e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = preciom ~ areaconst + estrato + habitaciones + parqueaderos + 
##     banios, data = datos_zona_sur_aptos1)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1092.02   -42.28    -1.33    40.58   926.56 
## 
## Coefficients:
##                Estimate Std. Error t value             Pr(>|t|)    
## (Intercept)  -261.62501   15.63220 -16.736 < 0.0000000000000002 ***
## areaconst       1.28505    0.05403  23.785 < 0.0000000000000002 ***
## estrato        60.89709    3.08408  19.746 < 0.0000000000000002 ***
## habitaciones  -24.83693    3.89229  -6.381       0.000000000211 ***
## parqueaderos   72.91468    3.95797  18.422 < 0.0000000000000002 ***
## banios         50.69675    3.39637  14.927 < 0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 98.02 on 2375 degrees of freedom
##   (406 observations deleted due to missingness)
## Multiple R-squared:  0.7485, Adjusted R-squared:  0.748 
## F-statistic:  1414 on 5 and 2375 DF,  p-value: < 0.00000000000000022

Análisis del modelo de regresión lineal múltiple:

4 Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas, solo realizar sugerencias de que se podría hacer).

  1. Supuesto de normalidad
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.79118, p-value < 0.00000000000000022

Los residuos del modelo siguen una distribución normal.

Esto queda confirmado con el hecho de que el valor de p-value es muy pequeño, tendencia de distribución normal.

  1. Independencia de errores

## 
##  Durbin-Watson test
## 
## data:  puntoModelo2
## DW = 1.5333, p-value < 0.00000000000000022
## alternative hypothesis: true autocorrelation is greater than 0

En la estadística de Durbin Watson para el modelo de regresión, los valores oscilan entre 0 y 4, al presentarse un valor inferior a 2 se puede determinar que existe una autocorrelación positiva.

El p-value al ser significativamente pequeño sugiere que hay evidencia en contra de la hipótesis nula y que hay autocorrelación de primer orden en los residuos.

3.Supuesto de varianza constante

## 
##  studentized Breusch-Pagan test
## 
## data:  puntoModelo2
## BP = 754.81, df = 5, p-value < 0.00000000000000022

Para el caso de la prueba de Breusch-Pagan, se encuentra que existe una evidencia de 754.81 en contra de la hipótesis nula de Homocedasticidad.

Se presentan 5 grados de libertad asociados con la distribución del estadístico de prueba.

El p-value al ser tan pequeño, sugiere que los residuos tienen una varianza que no es constante en todas las observaciones.

## 
##  Goldfeld-Quandt test
## 
## data:  puntoModelo2
## GQ = 0.9513, df1 = 1185, df2 = 1184, p-value = 0.8048
## alternative hypothesis: variance increases from segment 1 to 2

El estadístico de la prueba Goldfeld-Quandt es de 0.9513, entre más grande sea el valor, más evidencia habrá en contra de la hipótesis nula de Homocedasticidad.

El df1 es de 1185 que representa los grados de libertad asociados con el numerador del estadístico de la prueba.

El df2 es de 1184 que representa los grados de libertad asociados con el denominador del estadístico de la prueba.

El p-value es pequeño lo que indica que hay evidencia fuerte en contra de la hipótesis de homocedasticidad, es decir que los residuos tiene una varianza que no es constante en todas las observaciones.

  1. Multicolinealidad

5 Con el modelo identificado debe predecir el precio de la vivienda con las características de la primera solicitud.

##   areaconst estrato habitaciones parqueaderos banios
## 1       300       5            5            3      3
## 2       300       6            5            3      3
##        1        2 
## 675.0247 735.9218

Se encuentra que para una apartamento en la zona sur con las características solicitadas de un área construida de 300 m2, tres parqueadero, tres baños, cinco habitaciones y estrato 5, está en un precio de 675.0247 millones de pesos.

De igual forma para un apartamento con las mismas características pero estrato 6, está en un precio de 735.9218 millones de pesos.

6 Con las predicciones del modelo sugiera potenciales ofertas que responda a la solicitud de la vivienda 1. Tenga encuentra que la empresa tiene crédito pre-aprobado de máximo 350 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir.

## [1] 2
## # A tibble: 2 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  7182 Zona S… <NA>        5     730       573            3      8            5
## 2  7512 Zona S… <NA>        5     670       300            3      5            6
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Se encuentra que no existe una oferta específica para el tipo de vivienda 2.

Las primeras opciones de apartamento en la zona sur de la ciudad, las más cercanas a lo que pidió el cliente son:

  1. Apartamento id 7182 con un precio de 730 millones, un área construida de 573 m2, 3 parqueaderos, 8 baños, 5 habitaciones en el barrio el Guadalupe.

  2. Apartamento id 7512 con un precio de 670 millones, un área construida de 300 m2, 3 parqueaderos, 5 baños, 6 habitaciones en el barrio el Seminario.

Se le ofrece al cliente una tercera propuesta de las mismas caracteristicas de la vivienda 2 pero tipo casa.

## [1] 61
## # A tibble: 5 × 13
##      id zona    piso  estrato preciom areaconst parqueaderos banios habitaciones
##   <dbl> <chr>   <chr>   <dbl>   <dbl>     <dbl>        <dbl>  <dbl>        <dbl>
## 1  5099 Zona S… 03          5     655       300            3      5            5
## 2  6505 Zona S… 03          5     780       430            4      4            6
## 3  6676 Zona S… 04          5     600       520            4      6            7
## 4  5890 Zona S… <NA>        5     590       520            4      5            7
## 5  5000 Zona S… 01          5     830       300            3      5            5
## # ℹ 4 more variables: tipo <chr>, barrio <chr>, longitud <dbl>, latitud <dbl>

Conclusiones:

  • El incremento del valor de los inmuebles es directamente proporcional al incremento del área construida.
  • Tiene más incidencia en el precio del inmueble el número de baños que el número de habitaciones.
  • Siempre se ve una discrepancia marcada entre los diferentes precios por estrato de los inmuebles.
  • Existe una diferencia pronunciada en los precios de los inmuebles dependiendo de las zonas estudiadas.