library(readxl)
Datos_Vivienda <- read_excel("YDRAY-Datos-Vivienda.xlsx")
DT::datatable(Datos_Vivienda)
library(ggplot2)
library(plotly)
fig1=ggplot(Datos_Vivienda, aes(x = precio_millon, y = Area_contruida,
color=Zona,size=Estrato)) +
geom_point()
ggplotly(fig1)
Z_CENTRO<-Datos_Vivienda %>% filter(Zona=="Zona Centro")
Z_NORTE<-Datos_Vivienda %>% filter(Zona=="Zona Norte")
Z_OESTE<-Datos_Vivienda %>% filter(Zona=="Zona Oeste")
Z_ORIENTE<-Datos_Vivienda %>% filter(Zona=="Zona Oriente")
Z_SUR<-Datos_Vivienda %>% filter(Zona=="Zona Sur")
fig1=ggplot(data=Z_CENTRO,aes(y=precio_millon))+
geom_boxplot(fill="red")+
ggtitle("Zona Centro")
fig2=ggplot(data=Z_NORTE,aes(y=precio_millon))+
geom_boxplot(fill="blue")+
ggtitle("Zona Norte")
fig3=ggplot(data=Z_OESTE,aes(y=precio_millon))+
geom_boxplot(fill="yellow")+
ggtitle("Zona Oeste")
fig4=ggplot(data=Z_ORIENTE,aes(y=precio_millon))+
geom_boxplot(fill="pink")+
ggtitle("Zona Oriente")
fig5=ggplot(data=Z_SUR,aes(y=precio_millon))+
geom_boxplot(fill="green")+
ggtitle("Zona Sur")
library(gridExtra)
grid.arrange(fig1, fig2, fig3, fig4, fig5, ncol=5, widths=c(2,2,2,2,2))

qplot(Z_SUR$precio_millon,geom="histogram",bins=8, fill = "green")

qplot(Z_ORIENTE$precio_millon,geom="histogram",bins=8, fill = 9)

library(dplyr)
Datos_Vivienda2 <- select (Datos_Vivienda, -piso, -Zona, -Tipo, -Barrio)
numeparquea = as.numeric(Datos_Vivienda2$parqueaderos) #Conversion a numerico
## Warning: NAs introduced by coercion
sum(is.na(numeparquea)) #Contamos los NA
## [1] 1605
numeparquea[is.na(numeparquea)] <- 0 #Cambiamos los NA por 0
sum(is.na(numeparquea)) #Verificamos que sean 0 los NA
## [1] 0
Datos_Vivienda2$parqueaderos=numeparquea
library(psych)
corPlot(Datos_Vivienda2)

pairs.panels(Datos_Vivienda2, smooth=TRUE,
scale = FALSE,
density = TRUE,
ellipses = TRUE,
method = "pearson",
lm=FALSE,
cor = TRUE,
jiggle = FALSE)

Model=lm(precio_millon ~ Estrato + Area_contruida + parqueaderos + Banos, data=Datos_Vivienda2)
summary(Model)
##
## Call:
## lm(formula = precio_millon ~ Estrato + Area_contruida + parqueaderos +
## Banos, data = Datos_Vivienda2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1434.23 -90.99 -17.73 58.14 1239.91
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -414.55753 9.46772 -43.79 <2e-16 ***
## Estrato 105.74397 2.25509 46.89 <2e-16 ***
## Area_contruida 0.89602 0.01836 48.80 <2e-16 ***
## parqueaderos 49.84143 2.03800 24.46 <2e-16 ***
## Banos 41.10343 1.93000 21.30 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 177 on 8314 degrees of freedom
## (3 observations deleted due to missingness)
## Multiple R-squared: 0.71, Adjusted R-squared: 0.7098
## F-statistic: 5088 on 4 and 8314 DF, p-value: < 2.2e-16
library(ggpubr)
ggplot(Datos_Vivienda2, aes(x =precio_millon, y =Area_contruida,color=precio_millon)) +
geom_point() +
ggtitle("precio_millon vs Area_contruida+parqueaderos")+
xlab("precio_millon")+
ylab("Area_contruida")+
geom_smooth(method = "lm",se=F,col="red")+
stat_regline_equation(label.y = 1500)+
stat_cor(label.y = 1200)
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 3 rows containing non-finite values (stat_smooth).
## Warning: Removed 3 rows containing non-finite values (stat_regline_equation).
## Warning: Removed 3 rows containing non-finite values (stat_cor).
## Warning: Removed 3 rows containing missing values (geom_point).
