Actividad 1

  1. Filtrar solo por apartamentos, en un barrio de preferencia y tener encuenta las variaciones que se puedan presentar:
library(readxl)
datos = read_excel("C:/Users/LUISA GIRALDO/Desktop/Masters/Maestria Ciencia de Datos/1semestre/Metodos y simulacion estadisica/Actividad 1/YDRAY-Datos_Vivienda.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)

pos=which(datos$Barrio=="normandia")

require(RecordLinkage)

pos2=which(jarowinkler("normandia",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
ID Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
685 685 Zona Oeste NA 6 1050 171 3 3 3 Apartamento normandv<U+2260>a -76.50100 3.40100
2790 2790 Zona Oeste 10 6 1200 315 3 4 3 Apartamento normandv<U+2260>a -76.52200 3.48300
2791 2791 Zona Oeste NA 6 1500 530 4 7 4 Apartamento normandia -76.52200 3.42100
2838 2838 Zona Oeste NA 6 950 203 NA 3 3 Apartamento normandv<U+2260>a -76.52222 3.42056
3158 3158 Zona Oeste NA 6 1350 236 3 5 3 Apartamento normandv<U+2260>a -76.52400 3.45700
3378 3378 Zona Oeste NA 6 270 62 1 2 2 Apartamento normandv<U+2260>a -76.52600 3.43400
  1. Presentar exploración inicial de los datos, ejemplo: conteo de cuantos registros quedaron, precio promedio, area promedio,entre otros. (Aprox. 5 datos clave)
##Tabla de indicadores

promedio_precio=mean(datos_sub$precio_millon)
promedio_area=mean(datos_sub$Area_contruida)
cantidad_ofertas=length(datos_sub$Zona)
precio_maximo=max(datos_sub$precio_millon)
precio_minimo=min(datos_sub$precio_millon)
promedio_habitaciones=round(mean(datos_sub$Habitaciones),0)

resultado=round(data.frame(promedio_precio,precio_maximo,precio_minimo,promedio_area,promedio_habitaciones),0)


resultado
promedio_precio precio_maximo precio_minimo promedio_area promedio_habitaciones
781 1850 260 182 3

3.Presentar en un mapa interactivo los resultados de las viviendas y discutir un poco sobre posibles errores en la geocodificacion dado que el campo es abierto.

require(leaflet)
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud,lat = datos_sub$Cordenada_latitud,radius = 0.3,color = "black",label = datos_sub$ID) %>% addTiles()

4.Exploración bivariada entre el precio de la vivienda y el area por un grafico de puntos con una linea de tendencia interactiva usando ggplot2 y plotly.

require(ggplot2)
require(plotly)

g1=ggplot(data = datos_sub,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()

ggplotly(g1)