Paso 1. Filtrar un barrio de interes y solo apartamentos

library(readxl)
datos = read_excel("~/OneDrive - PUJ Cali/PUJ Msc/Semestre I/Métodos y simulación estadística 2022 - B/Actividad 1/YDRAY-Datos_Vivienda.xlsx")
ID = 1:dim(datos)[1]
datos = data.frame(ID,datos)


pos=which(datos$Barrio=="pance")
datos_sub=datos[pos,]

require(RecordLinkage)

pos2=which(jarowinkler("pance",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
ID Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
10 10 Zona Sur 6 6 690 150 2 5 4 Apartamento pance -76.46478 3.42783
19 19 Zona Sur 3 6 550 136 2 4 4 Apartamento pance -76.46554 3.42933
35 35 Zona Sur NA 6 570 137 2 5 4 Apartamento pance -76.46851 3.42544
39 39 Zona Sur 4 6 510 148 2 3 3 Apartamento pance -76.46947 3.42527
44 44 Zona Sur 6 6 1200 211 2 3 3 Apartamento pance -76.47039 3.41435
46 46 Zona Sur 2 6 550 143 3 3 3 Apartamento pance -76.47112 3.42049
table(datos$Tipo)
## 
## Apartamento        Casa 
##        5100        3219
table(datos$Zona)
## 
##  Zona Centro   Zona Norte   Zona Oeste Zona Oriente     Zona Sur 
##          124         1920         1198          351         4726

Punto 2. Exploración incial de dataset

## Tabla de Indicadores

promedio_precio = mean(datos_sub$precio_millon,na.rm = TRUE)
mediana_precio = median(datos_sub$precio_millon,na.rm = TRUE)
desviacion_estandar = sd(datos_sub$precio_millon,na.rm = TRUE)
Coeficiente_variacion = abs(desviacion_estandar/promedio_precio)
promedio_area = mean(datos_sub$Area_contruida,na.rm = TRUE)
cantidad_ofertas = length(datos_sub$Zona)

resultado = data.frame(promedio_precio,mediana_precio,desviacion_estandar,Coeficiente_variacion,promedio_area,cantidad_ofertas)
resultado
promedio_precio mediana_precio desviacion_estandar Coeficiente_variacion promedio_area cantidad_ofertas
641.5455 600 235.0794 0.3664267 152.6554 209

Punto 3. Presentar mapa interactivo

require(leaflet)
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud, lat = datos_sub$Cordenada_latitud, radius = 0.4, color = "black",label = datos_sub$precio_millon) %>% addTiles()

Punto 4. Exploración bivariada entre el precio de la vivienda y el área

require(ggplot2)
require(plotly)

g1 = ggplot(data = datos_sub, aes(y = precio_millon, x = Area_contruida)) + geom_point(colour = "coral") + geom_smooth() 
ggplotly(g1)
pos3 = which(datos_sub$Area_contruida<400)
datos_sub2 = datos_sub[pos3,]

g2 = ggplot(data = datos_sub2, aes(y = precio_millon, x = Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)