library(readxl)
datos = read_excel("C:/Users/LUISA GIRALDO/Desktop/Masters/Maestria Ciencia de Datos/1semestre/Metodos y simulacion estadisica/Actividad 1/YDRAY-Datos_Vivienda.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)
pos=which(datos$Barrio=="normandia")
require(RecordLinkage)
pos2=which(jarowinkler("normandia",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
| ID | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 685 | 685 | Zona Oeste | NA | 6 | 1050 | 171 | 3 | 3 | 3 | Apartamento | normandv<U+2260>a | -76.50100 | 3.40100 |
| 2790 | 2790 | Zona Oeste | 10 | 6 | 1200 | 315 | 3 | 4 | 3 | Apartamento | normandv<U+2260>a | -76.52200 | 3.48300 |
| 2791 | 2791 | Zona Oeste | NA | 6 | 1500 | 530 | 4 | 7 | 4 | Apartamento | normandia | -76.52200 | 3.42100 |
| 2838 | 2838 | Zona Oeste | NA | 6 | 950 | 203 | NA | 3 | 3 | Apartamento | normandv<U+2260>a | -76.52222 | 3.42056 |
| 3158 | 3158 | Zona Oeste | NA | 6 | 1350 | 236 | 3 | 5 | 3 | Apartamento | normandv<U+2260>a | -76.52400 | 3.45700 |
| 3378 | 3378 | Zona Oeste | NA | 6 | 270 | 62 | 1 | 2 | 2 | Apartamento | normandv<U+2260>a | -76.52600 | 3.43400 |
##Tabla de indicadores
promedio_precio=mean(datos_sub$precio_millon)
promedio_area=mean(datos_sub$Area_contruida)
cantidad_ofertas=length(datos_sub$Zona)
precio_maximo=max(datos_sub$precio_millon)
precio_minimo=min(datos_sub$precio_millon)
promedio_habitaciones=round(mean(datos_sub$Habitaciones),0)
resultado=round(data.frame(promedio_precio,precio_maximo,precio_minimo,promedio_area,promedio_habitaciones),0)
resultado
| promedio_precio | precio_maximo | precio_minimo | promedio_area | promedio_habitaciones |
|---|---|---|---|---|
| 781 | 1850 | 260 | 182 | 3 |
3.Presentar en un mapa interactivo los resultados de las viviendas y discutir un poco sobre posibles errores en la geocodificacion dado que el campo es abierto.
require(leaflet)
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud,lat = datos_sub$Cordenada_latitud,radius = 0.3,color = "black",label = datos_sub$ID) %>% addTiles()
4.Exploración bivariada entre el precio de la vivienda y el area por un grafico de puntos con una linea de tendencia interactiva usando ggplot2 y plotly.
require(ggplot2)
require(plotly)
g1=ggplot(data = datos_sub,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g1)