library(readxl)
Datos_Vivienda <- read_excel("YDRAY-Datos-Vivienda.xlsx")
DT::datatable(Datos_Vivienda)
library(ggplot2)
library(plotly)
fig1=ggplot(Datos_Vivienda, aes(x = precio_millon, y = Area_contruida,
                           color=Zona,size=Estrato)) +
  geom_point()
ggplotly(fig1)
Z_CENTRO<-Datos_Vivienda %>% filter(Zona=="Zona Centro")
Z_NORTE<-Datos_Vivienda %>% filter(Zona=="Zona Norte")
Z_OESTE<-Datos_Vivienda %>% filter(Zona=="Zona Oeste")
Z_ORIENTE<-Datos_Vivienda %>% filter(Zona=="Zona Oriente")
Z_SUR<-Datos_Vivienda %>% filter(Zona=="Zona Sur")
fig1=ggplot(data=Z_CENTRO,aes(y=precio_millon))+
  geom_boxplot(fill="red")+
  ggtitle("Zona Centro")
fig2=ggplot(data=Z_NORTE,aes(y=precio_millon))+
  geom_boxplot(fill="blue")+
  ggtitle("Zona Norte")
fig3=ggplot(data=Z_OESTE,aes(y=precio_millon))+
  geom_boxplot(fill="yellow")+
  ggtitle("Zona Oeste")
fig4=ggplot(data=Z_ORIENTE,aes(y=precio_millon))+
  geom_boxplot(fill="pink")+
  ggtitle("Zona Oriente")
fig5=ggplot(data=Z_SUR,aes(y=precio_millon))+
  geom_boxplot(fill="green")+
  ggtitle("Zona Sur")
library(gridExtra)

grid.arrange(fig1, fig2, fig3, fig4, fig5, ncol=5, widths=c(2,2,2,2,2))

qplot(Z_SUR$precio_millon,geom="histogram",bins=8, fill = "green")

qplot(Z_ORIENTE$precio_millon,geom="histogram",bins=8, fill = 9)

library(dplyr)
Datos_Vivienda2 <- select (Datos_Vivienda, -piso, -Zona, -Tipo, -Barrio)
numeparquea = as.numeric(Datos_Vivienda2$parqueaderos) #Conversion a numerico
## Warning: NAs introduced by coercion
sum(is.na(numeparquea)) #Contamos los NA
## [1] 1605
numeparquea[is.na(numeparquea)] <- 0 #Cambiamos los NA por 0

sum(is.na(numeparquea)) #Verificamos que sean 0 los NA
## [1] 0
Datos_Vivienda2$parqueaderos=numeparquea
library(psych)
corPlot(Datos_Vivienda2)

pairs.panels(Datos_Vivienda2, smooth=TRUE,
             scale = FALSE,
             density = TRUE,
             ellipses = TRUE,
             method = "pearson",
             lm=FALSE,
             cor = TRUE,
             jiggle = FALSE)

Model=lm(precio_millon ~ Estrato + Area_contruida + parqueaderos + Banos, data=Datos_Vivienda2)
summary(Model)
## 
## Call:
## lm(formula = precio_millon ~ Estrato + Area_contruida + parqueaderos + 
##     Banos, data = Datos_Vivienda2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1434.23   -90.99   -17.73    58.14  1239.91 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -414.55753    9.46772  -43.79   <2e-16 ***
## Estrato         105.74397    2.25509   46.89   <2e-16 ***
## Area_contruida    0.89602    0.01836   48.80   <2e-16 ***
## parqueaderos     49.84143    2.03800   24.46   <2e-16 ***
## Banos            41.10343    1.93000   21.30   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 177 on 8314 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:   0.71,  Adjusted R-squared:  0.7098 
## F-statistic:  5088 on 4 and 8314 DF,  p-value: < 2.2e-16
library(ggpubr)
ggplot(Datos_Vivienda2, aes(x =precio_millon, y =Area_contruida,color=precio_millon)) +
  geom_point() +
  ggtitle("precio_millon vs Area_contruida+parqueaderos")+
  xlab("precio_millon")+
  ylab("Area_contruida")+
  geom_smooth(method = "lm",se=F,col="red")+
  stat_regline_equation(label.y = 1500)+
  stat_cor(label.y = 1200)
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 3 rows containing non-finite values (stat_smooth).
## Warning: Removed 3 rows containing non-finite values (stat_regline_equation).
## Warning: Removed 3 rows containing non-finite values (stat_cor).
## Warning: Removed 3 rows containing missing values (geom_point).