Actividad 1

Paso 1. Filtrar un barrio de interes y solo apartamentos:

library(readxl)
datos = read_excel("C:\\Users\\Usuario\\Documents\\Maestria en Ciencias de Datos\\Metodos Estadisticos\\Actividad 1\\YDRAY-Datos_Vivienda.xlsx")


pos=which(datos$Barrio=="multicentro")
datos_sub=datos[pos,]

require(RecordLinkage)

pos2=which(jarowinkler("pance",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
Zona Sur 6 6 690 150 2 5 4 Apartamento pance -76.46478 3.42783
Zona Sur 3 6 550 136 2 4 4 Apartamento pance -76.46554 3.42933
Zona Sur NA 6 570 137 2 5 4 Apartamento pance -76.46851 3.42544
Zona Sur 4 6 510 148 2 3 3 Apartamento pance -76.46947 3.42527
Zona Sur 6 6 1200 211 2 3 3 Apartamento pance -76.47039 3.41435
Zona Sur 2 6 550 143 3 3 3 Apartamento pance -76.47112 3.42049

Paso 2. Exploración Inicial

#Tabla de Indicadores Imprtantes

promedio_precio=mean(datos_sub$precio_millon,na.rm=TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm=TRUE)
promedio_area=mean(datos_sub$Area_contruida,na.rm=TRUE)
cantidad_de_ofertas=length(datos_sub$Zona)
resultado=data.frame(promedio_precio,mediana_precio,promedio_area,cantidad_de_ofertas)
resultado
promedio_precio mediana_precio promedio_area cantidad_de_ofertas
641.5455 600 152.6554 209

Paso 3: Visualización en Mapa Interactivo

#Visualización en mapa interactivo

require(leaflet)
leaflet()%>% addCircleMarkers(lng=datos_sub$cordenada_longitud,lat=datos_sub$Cordenada_latitud, radius=0.3) %>% addTiles()

###Paso 4: Exploración bivariada enre Precio vs Area Constrida

require(ggplot2)
require(plotly)

g1=ggplot(data=datos_sub,aes(y=precio_millon,x=Area_contruida))+ geom_point()+geom_smooth()
ggplotly(g1)

Paso 5: Filtar los dos datos que generan ruido en el análisis de datos.

require(ggplot2)
require(plotly)

pos3=which(datos_sub$Area_contruida<300)
datos_sub2=datos_sub[pos3,]

g2=ggplot(data=datos_sub2,aes(y=precio_millon,x=Area_contruida))+ geom_point()+geom_smooth()
ggplotly(g2)