Actividad 1
Paso 1. Filtrar un barrio de interes y solo apartamentos:
library(readxl)
datos = read_excel("C:\\Users\\Usuario\\Documents\\Maestria en Ciencias de Datos\\Metodos Estadisticos\\Actividad 1\\YDRAY-Datos_Vivienda.xlsx")
pos=which(datos$Barrio=="multicentro")
datos_sub=datos[pos,]
require(RecordLinkage)
pos2=which(jarowinkler("pance",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
| Zona Sur |
6 |
6 |
690 |
150 |
2 |
5 |
4 |
Apartamento |
pance |
-76.46478 |
3.42783 |
| Zona Sur |
3 |
6 |
550 |
136 |
2 |
4 |
4 |
Apartamento |
pance |
-76.46554 |
3.42933 |
| Zona Sur |
NA |
6 |
570 |
137 |
2 |
5 |
4 |
Apartamento |
pance |
-76.46851 |
3.42544 |
| Zona Sur |
4 |
6 |
510 |
148 |
2 |
3 |
3 |
Apartamento |
pance |
-76.46947 |
3.42527 |
| Zona Sur |
6 |
6 |
1200 |
211 |
2 |
3 |
3 |
Apartamento |
pance |
-76.47039 |
3.41435 |
| Zona Sur |
2 |
6 |
550 |
143 |
3 |
3 |
3 |
Apartamento |
pance |
-76.47112 |
3.42049 |
Paso 2. Exploración Inicial
#Tabla de Indicadores Imprtantes
promedio_precio=mean(datos_sub$precio_millon,na.rm=TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm=TRUE)
promedio_area=mean(datos_sub$Area_contruida,na.rm=TRUE)
cantidad_de_ofertas=length(datos_sub$Zona)
resultado=data.frame(promedio_precio,mediana_precio,promedio_area,cantidad_de_ofertas)
resultado
| 641.5455 |
600 |
152.6554 |
209 |
Paso 3: Visualización en Mapa Interactivo
#Visualización en mapa interactivo
require(leaflet)
leaflet()%>% addCircleMarkers(lng=datos_sub$cordenada_longitud,lat=datos_sub$Cordenada_latitud, radius=0.3) %>% addTiles()
###Paso 4: Exploración bivariada enre Precio vs Area Constrida
require(ggplot2)
require(plotly)
g1=ggplot(data=datos_sub,aes(y=precio_millon,x=Area_contruida))+ geom_point()+geom_smooth()
ggplotly(g1)
Paso 5: Filtar los dos datos que generan ruido en el análisis de datos.
require(ggplot2)
require(plotly)
pos3=which(datos_sub$Area_contruida<300)
datos_sub2=datos_sub[pos3,]
g2=ggplot(data=datos_sub2,aes(y=precio_millon,x=Area_contruida))+ geom_point()+geom_smooth()
ggplotly(g2)