El siguiente informe corresponde a la elaboración de un análisis de mercado para un grupo de viviendas tipo apartamento, localizadas en el sector de Multicentro, en el Sur de la ciudad de Cali. Este informe comprende un análisis exploratorio utilizando las variable precio, área, piso y número de parqueaderos; modelo de regresión lineal del precio de las viviendas en función del área; modelo líneal múltiple incorporando además las variable de piso y número de parqueaderos y finalmente predicción de precio para las carácteristicas definidas.
library(readxl)
Datos_Vivienda <- read_excel("Maestria/Analitica de Negocios/Taller 2/Datos_Vivienda.xlsx")
Datos_Vivienda
## # A tibble: 26 x 12
## Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Zona~ 3 5 250 86 1 2
## 2 Zona~ 3 5 385 118 2 3
## 3 Zona~ 2 5 395 130 1 3
## 4 Zona~ 4 6 419 181 2 3
## 5 Zona~ 4 5 240 86 1 2
## 6 Zona~ 3 5 320 98 2 2
## 7 Zona~ 4 5 480 170 2 4
## 8 Zona~ 4 5 268 96 1 3
## 9 Zona~ 4 5 240 85 1 3
## 10 Zona~ 4 5 450 170 2 4
## # ... with 16 more rows, and 5 more variables: Habitaciones <dbl>, Tipo <chr>,
## # Barrio <chr>, cordenada_longitud <dbl>, Cordenada_latitud <dbl>
Se realiza la selección de los datos necesarios para la realización del análisis exploratorio generando una nueva base de batos (Datos_Vivienda2):
Datos_Vivienda2=Datos_Vivienda[,c(2,4,5,6)]
Datos_Vivienda2
## # A tibble: 26 x 4
## piso precio_millon Area_contruida parqueaderos
## <dbl> <dbl> <dbl> <dbl>
## 1 3 250 86 1
## 2 3 385 118 2
## 3 2 395 130 1
## 4 4 419 181 2
## 5 4 240 86 1
## 6 3 320 98 2
## 7 4 480 170 2
## 8 4 268 96 1
## 9 4 240 85 1
## 10 4 450 170 2
## # ... with 16 more rows
hist(Datos_Vivienda2$precio_millon)
barplot(table(Datos_Vivienda2$piso))
Los 26 apartamentos en oferta se encuentran en un rango de precio entre los 200 y 500 millones de pesos; 50% de la oferta disponible está por debajo de 300 millones y 42% entre 350 y 450 millones. En el gráfico de barras se observa que el 46% de la oferta disponible se ubica en cuarto piso. 4 apartamentos en segundo y 9 en tercer piso.
mean(Datos_Vivienda2$precio_millon)
## [1] 332.0769
mean(Datos_Vivienda2$Area_contruida)
## [1] 115.7469
median(Datos_Vivienda2$precio_millon)
## [1] 305
median(Datos_Vivienda2$Area_contruida)
## [1] 97
boxplot(Datos_Vivienda2$precio_millon)
boxplot(Datos_Vivienda2$Area_contruida)
El precio de venta de los apartamentos en oferta en Multicentro presenta un promedio es 332 Millones y una media de 305 millones. El 50% de la oferta entre 250 y 400 millones aprox. El área construida varía entre 85 y 181 m2 siendo 113m2 el área promedio y la mediana 97m2
plot(Datos_Vivienda2$Area_contruida,Datos_Vivienda2$precio_millon)
cor(Datos_Vivienda2$Area_contruida,Datos_Vivienda2$precio_millon)
## [1] 0.9190295
plot(Datos_Vivienda2$piso,Datos_Vivienda2$precio_millon)
cor(Datos_Vivienda2$piso,Datos_Vivienda2$precio_millon)
## [1] -0.009600106
plot(Datos_Vivienda2$parqueaderos, Datos_Vivienda2$precio_millon)
cor(Datos_Vivienda2$parqueaderos, Datos_Vivienda2$precio_millon)
## [1] 0.7174827
En el gráfico se observa la relación directa que existe entre el área de las viviendas y el precio de venta. A mayor área construida, mayor es el precio al cual se oferta la misma.
Igualmente se observa que el numero de parqueaderos tambien tiene incidencia importante en el precio de venta. Los apartamentos con mayor número de parqueaderos son mas costosos. Esto tambien se relaciona con el área debido a que estos hacen parte del área vendibe de un inmueble.
En cuanto al piso se ve una incidencia negativa en e precio de venta a mayor altura. A persar de que en el mercado normal (principalmente de vivienda nueva) a mayor altura el precio de venta es mayor, en este caso a mayor altura el precio diminuye. Esto tiene como causa que los edificios de multicentro no cuentan en su equipamento con ascensor.
Estime un modelo de regresión lineal simple entre el precio de la vivienda (y) y el área construida (x) e interprete los coeficientes. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).
R/
Se desea evaluar la relación entre las variables Precio como respuesta y el Área Construida como variable predictora. Se espera en general que a mayor Área el precio de la vivienda se incremente.
y=Datos_Vivienda2$precio_millon
x=Datos_Vivienda2$Area_contruida
plot(x,y)
cor(x,y)
## [1] 0.9190295
Se observa claramente que existe una relación lineal directa o positiva entre el Precio y el área Construida, adicionalmente esta relación es fuerte porque el coeficiente de correlación de Pearson es de 0.92, indicando que el área de la vivienda puede ser un buen predictor de su precio de venta.
mod_simple=lm(y~x)
mod_simple
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 86.234 2.124
Como se observa el coeficiente beta 1 nos indica que por cada metro cuadrado (m2) adicional de área de la vivienda se espera un incremento de 2.29 millones en el precio de venta.
summary(mod_simple)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## x 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
Se observa que el modelo presenta un ajuste del 84% con base en el R2. Es decir, este modelo logra explicar el 84% de la variabilidad del precio de venta de la vivienda.
Se observa que la variable área construida es significativa en el modelo, es decir, el área construida efectivamente es una variable importante para explicar su precio de venta. El modelo podría mejorar integrando las variables de parqueaderos y piso las cuales son relevantes a nivel de mercado por lo tanto se integrarán en en modelo lineal múltiple para estimar su impacto y/o ajuste.
Estime el modelo de regresión lineal múltiple incorporando adicionalmente las variables piso del apartamento y parqueaderos, interprete los resultados de los coeficientes del modelo (discutir si son lógicos los signos de los coeficientes). Compare este modelo con el anterior simple en términos del ajuste.
R/
Con el objetivo de mejorar el ajuste del modelo para explicar o predecir el precio de la vivienda, se incorporan la variable parqueaderos.
y=Datos_Vivienda2$precio_millon
x=Datos_Vivienda2$Area_contruida
x1=Datos_Vivienda2$piso
x2=Datos_Vivienda2$parqueaderos
plot(Datos_Vivienda2[,2:4])
cor(Datos_Vivienda2[,2:4])
## precio_millon Area_contruida parqueaderos
## precio_millon 1.0000000 0.9190295 0.7174827
## Area_contruida 0.9190295 1.0000000 0.5455632
## parqueaderos 0.7174827 0.5455632 1.0000000
mod_multiple1=lm(y~x+x2)
summary(mod_multiple1)
##
## Call:
## lm(formula = y ~ x + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -53.127 -13.825 -4.282 10.540 61.123
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 58.4788 18.6131 3.142 0.00457 **
## x 1.7360 0.1714 10.126 6.03e-10 ***
## x2 49.7120 11.9863 4.147 0.00039 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 25.53 on 23 degrees of freedom
## Multiple R-squared: 0.9111, Adjusted R-squared: 0.9034
## F-statistic: 117.9 on 2 and 23 DF, p-value: 8.172e-13
Adicionalmente se incorpora la variable piso con el fin de conocer que tanto esta otra variable puede incidir en el ajuste del modelo.
plot(Datos_Vivienda2[,1:4])
cor(Datos_Vivienda2[,1:4])
## piso precio_millon Area_contruida parqueaderos
## piso 1.000000000 -0.009600106 0.2616663 -0.1218184
## precio_millon -0.009600106 1.000000000 0.9190295 0.7174827
## Area_contruida 0.261666258 0.919029471 1.0000000 0.5455632
## parqueaderos -0.121818434 0.717482653 0.5455632 1.0000000
mod_multiple1=lm(y~x+x1+x2)
summary(mod_multiple1)
##
## Call:
## lm(formula = y ~ x + x1 + x2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -46.154 -6.085 -0.106 11.395 36.351
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 125.9639 23.5349 5.352 2.26e-05 ***
## x 1.9550 0.1496 13.065 7.64e-12 ***
## x1 -22.3504 6.0259 -3.709 0.00122 **
## x2 37.3705 10.1728 3.674 0.00133 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.48 on 22 degrees of freedom
## Multiple R-squared: 0.9453, Adjusted R-squared: 0.9378
## F-statistic: 126.7 on 3 and 22 DF, p-value: 4.942e-14
Una vez incorporadas la variable parqueaderos el modelo explica el 91% del precio e incorporando una cuarta variable de piso, el ajuste del modelo llega a a explicar el 94% de la variabilidad del precio de la vivienda, lo cual evidencia una mejora considerable frente al modelo lineal simple.
Con el modelo identificado predecir el precio de un apartamento con 150 mt2, en un piso 3 y con dos parqueaderos. ¿Si este apartamento lo están ofreciendo en 300 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta (Use el MAE para apoyar el resultado)?
R/
predict(mod_multiple1, list(x=150, x1=3, x2=2))
## 1
## 426.9001
MAE=mean(abs(mod_multiple1$residuals))
De acuerdo con el modelo y las variables definidas el resultado de la predicción de precio es 427 millones. El modelo tiene un error de aproximadamente 15 millones lo cual indica que el precio máximo a pagar por una vivienda de 150 m2, ubicada en un tercer piso y con dos parqueaderos es de 413 millones de pesos por lo tanto, basado en la informacion arrojada por el modelo y teniendo en cuenta el MAE se considera un buen negocio y se recomienda la adquisición del inmueble por el valor ofertado.