El siguiente informe corresponde a la elaboración de un análisis de mercado para un grupo de viviendas tipo apartamento, localizadas en el sector de Multicentro, en el Sur de la ciudad de Cali. Este informe comprende un análisis exploratorio utilizando las variable precio, área, piso y número de parqueaderos; modelo de regresión lineal del precio de las viviendas en función del área; modelo líneal múltiple incorporando además las variable de piso y número de parqueaderos y finalmente predicción de precio para las carácteristicas definidas.

library(readxl)
Datos_Vivienda <- read_excel("Maestria/Analitica de Negocios/Taller 2/Datos_Vivienda.xlsx")
Datos_Vivienda
## # A tibble: 26 x 12
##    Zona   piso Estrato precio_millon Area_contruida parqueaderos Banos
##    <chr> <dbl>   <dbl>         <dbl>          <dbl>        <dbl> <dbl>
##  1 Zona~     3       5           250             86            1     2
##  2 Zona~     3       5           385            118            2     3
##  3 Zona~     2       5           395            130            1     3
##  4 Zona~     4       6           419            181            2     3
##  5 Zona~     4       5           240             86            1     2
##  6 Zona~     3       5           320             98            2     2
##  7 Zona~     4       5           480            170            2     4
##  8 Zona~     4       5           268             96            1     3
##  9 Zona~     4       5           240             85            1     3
## 10 Zona~     4       5           450            170            2     4
## # ... with 16 more rows, and 5 more variables: Habitaciones <dbl>, Tipo <chr>,
## #   Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>

1. Análisis Exploratorio

Se realiza la selección de los datos necesarios para la realización del análisis exploratorio generando una nueva base de batos (Datos_Vivienda2):

Datos_Vivienda2=Datos_Vivienda[,c(2,4,5,6)]
Datos_Vivienda2
## # A tibble: 26 x 4
##     piso precio_millon Area_contruida parqueaderos
##    <dbl>         <dbl>          <dbl>        <dbl>
##  1     3           250             86            1
##  2     3           385            118            2
##  3     2           395            130            1
##  4     4           419            181            2
##  5     4           240             86            1
##  6     3           320             98            2
##  7     4           480            170            2
##  8     4           268             96            1
##  9     4           240             85            1
## 10     4           450            170            2
## # ... with 16 more rows

Precio de las Viviendas

hist(Datos_Vivienda2$precio_millon)

barplot(table(Datos_Vivienda2$piso))

Los 26 apartamentos en oferta se encuentran en un rango de precio entre los 200 y 500 millones de pesos; 50% de la oferta disponible está por debajo de 300 millones y 42% entre 350 y 450 millones. En el gráfico de barras se observa que el 46% de la oferta disponible se ubica en cuarto piso. 4 apartamentos en segundo y 9 en tercer piso.

Precios y Areas Promedio - Indicadores de Centralidad

mean(Datos_Vivienda2$precio_millon)
## [1] 332.0769
mean(Datos_Vivienda2$Area_contruida)
## [1] 115.7469
median(Datos_Vivienda2$precio_millon)
## [1] 305
median(Datos_Vivienda2$Area_contruida)
## [1] 97
boxplot(Datos_Vivienda2$precio_millon)

boxplot(Datos_Vivienda2$Area_contruida)

El precio de venta de los apartamentos en oferta en Multicentro presenta un promedio es 332 Millones y una media de 305 millones. El 50% de la oferta entre 250 y 400 millones aprox. El área construida varía entre 85 y 181 m2 siendo 113m2 el área promedio y la mediana 97m2

Gráfico Relación entre variables

plot(Datos_Vivienda2$Area_contruida,Datos_Vivienda2$precio_millon)

cor(Datos_Vivienda2$Area_contruida,Datos_Vivienda2$precio_millon)
## [1] 0.9190295
plot(Datos_Vivienda2$piso,Datos_Vivienda2$precio_millon)

cor(Datos_Vivienda2$piso,Datos_Vivienda2$precio_millon)
## [1] -0.009600106
plot(Datos_Vivienda2$parqueaderos, Datos_Vivienda2$precio_millon)

cor(Datos_Vivienda2$parqueaderos, Datos_Vivienda2$precio_millon)
## [1] 0.7174827

En el gráfico se observa la relación directa que existe entre el área de las viviendas y el precio de venta. A mayor área construida, mayor es el precio al cual se oferta la misma.

Igualmente se observa que el numero de parqueaderos tambien tiene incidencia importante en el precio de venta. Los apartamentos con mayor número de parqueaderos son mas costosos. Esto tambien se relaciona con el área debido a que estos hacen parte del área vendibe de un inmueble.

En cuanto al piso se ve una incidencia negativa en e precio de venta a mayor altura. A persar de que en el mercado normal (principalmente de vivienda nueva) a mayor altura el precio de venta es mayor, en este caso a mayor altura el precio diminuye. Esto tiene como causa que los edificios de multicentro no cuentan en su equipamento con ascensor.

2. Modelo de Regresión Lineal Simple

Estime un modelo de regresión lineal simple entre el precio de la vivienda (y) y el área construida (x) e interprete los coeficientes. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

R/

Variables del Modelo

Se desea evaluar la relación entre las variables Precio como respuesta y el Área Construida como variable predictora. Se espera en general que a mayor Área el precio de la vivienda se incremente.

Relación entre Variables

y=Datos_Vivienda2$precio_millon
x=Datos_Vivienda2$Area_contruida

plot(x,y)

cor(x,y)
## [1] 0.9190295

Se observa claramente que existe una relación lineal directa o positiva entre el Precio y el área Construida, adicionalmente esta relación es fuerte porque el coeficiente de correlación de Pearson es de 0.92, indicando que el área de la vivienda puede ser un buen predictor de su precio de venta.

Modelo de Regresión Lineal Simple

mod_simple=lm(y~x)
mod_simple
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      86.234        2.124

Como se observa el coeficiente beta 1 nos indica que por cada metro cuadrado (m2) adicional de área de la vivienda se espera un incremento de 2.29 millones en el precio de venta.

summary(mod_simple)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   86.234     22.479   3.836 0.000796 ***
## x              2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

Se observa que el modelo presenta un ajuste del 84% con base en el R2. Es decir, este modelo logra explicar el 84% de la variabilidad del precio de venta de la vivienda.

Se observa que la variable área construida es significativa en el modelo, es decir, el área construida efectivamente es una variable importante para explicar su precio de venta. El modelo podría mejorar integrando las variables de parqueaderos y piso las cuales son relevantes a nivel de mercado por lo tanto se integrarán en en modelo lineal múltiple para estimar su impacto y/o ajuste.

3. Modelo de Regresión Lineal Múltiple

Estime el modelo de regresión lineal múltiple incorporando adicionalmente las variables piso del apartamento y parqueaderos, interprete los resultados de los coeficientes del modelo (discutir si son lógicos los signos de los coeficientes). Compare este modelo con el anterior simple en términos del ajuste.

R/

Con el objetivo de mejorar el ajuste del modelo para explicar o predecir el precio de la vivienda, se incorporan la variable parqueaderos.

y=Datos_Vivienda2$precio_millon
x=Datos_Vivienda2$Area_contruida
x1=Datos_Vivienda2$piso
x2=Datos_Vivienda2$parqueaderos

plot(Datos_Vivienda2[,2:4])

cor(Datos_Vivienda2[,2:4])
##                precio_millon Area_contruida parqueaderos
## precio_millon      1.0000000      0.9190295    0.7174827
## Area_contruida     0.9190295      1.0000000    0.5455632
## parqueaderos       0.7174827      0.5455632    1.0000000
mod_multiple1=lm(y~x+x2)
summary(mod_multiple1)
## 
## Call:
## lm(formula = y ~ x + x2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -53.127 -13.825  -4.282  10.540  61.123 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  58.4788    18.6131   3.142  0.00457 ** 
## x             1.7360     0.1714  10.126 6.03e-10 ***
## x2           49.7120    11.9863   4.147  0.00039 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 25.53 on 23 degrees of freedom
## Multiple R-squared:  0.9111, Adjusted R-squared:  0.9034 
## F-statistic: 117.9 on 2 and 23 DF,  p-value: 8.172e-13

Adicionalmente se incorpora la variable piso con el fin de conocer que tanto esta otra variable puede incidir en el ajuste del modelo.

plot(Datos_Vivienda2[,1:4])

cor(Datos_Vivienda2[,1:4])
##                        piso precio_millon Area_contruida parqueaderos
## piso            1.000000000  -0.009600106      0.2616663   -0.1218184
## precio_millon  -0.009600106   1.000000000      0.9190295    0.7174827
## Area_contruida  0.261666258   0.919029471      1.0000000    0.5455632
## parqueaderos   -0.121818434   0.717482653      0.5455632    1.0000000
mod_multiple1=lm(y~x+x1+x2)
summary(mod_multiple1)
## 
## Call:
## lm(formula = y ~ x + x1 + x2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -46.154  -6.085  -0.106  11.395  36.351 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 125.9639    23.5349   5.352 2.26e-05 ***
## x             1.9550     0.1496  13.065 7.64e-12 ***
## x1          -22.3504     6.0259  -3.709  0.00122 ** 
## x2           37.3705    10.1728   3.674  0.00133 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.48 on 22 degrees of freedom
## Multiple R-squared:  0.9453, Adjusted R-squared:  0.9378 
## F-statistic: 126.7 on 3 and 22 DF,  p-value: 4.942e-14

Una vez incorporadas la variable parqueaderos el modelo explica el 91% del precio e incorporando una cuarta variable de piso, el ajuste del modelo llega a a explicar el 94% de la variabilidad del precio de la vivienda, lo cual evidencia una mejora considerable frente al modelo lineal simple.

4. Predicción

Con el modelo identificado predecir el precio de un apartamento con 150 mt2, en un piso 3 y con dos parqueaderos. ¿Si este apartamento lo están ofreciendo en 300 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta (Use el MAE para apoyar el resultado)?

R/

predict(mod_multiple1, list(x=150, x1=3, x2=2))
##        1 
## 426.9001
MAE=mean(abs(mod_multiple1$residuals))

De acuerdo con el modelo y las variables definidas el resultado de la predicción de precio es 427 millones. El modelo tiene un error de aproximadamente 15 millones lo cual indica que el precio máximo a pagar por una vivienda de 150 m2, ubicada en un tercer piso y con dos parqueaderos es de 413 millones de pesos por lo tanto, basado en la informacion arrojada por el modelo y teniendo en cuenta el MAE se considera un buen negocio y se recomienda la adquisición del inmueble por el valor ofertado.