Actividad 1 Paso 1. Filtrar un barrio de interes y solo apartamentos:
library(readxl)
datos = read_excel("~/Mestria Ciencia de Datos/Metodos y Tecnica Simulacion Estadistica- S1/Datos_Vivienda.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)
pos=which(datos$Barrio=="miraflores")
datos_sub=datos[pos,]
require(RecordLinkage)
pos2=which(jarowinkler("miraflores",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
| ID | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 6163 | 6163 | Zona Sur | 3 | 4 | 400 | 135.0 | 2 | 3 | 3 | Apartamento | miraflores | -76.54100 | 3.43900 |
| 6213 | 6213 | Zona Oeste | 2 | 3 | 180 | 110.0 | 1 | 2 | 3 | Apartamento | miraflores | -76.54140 | 3.43931 |
| 6250 | 6250 | Zona Oeste | 1 | 4 | 140 | 48.0 | NA | 1 | 2 | Apartamento | miraflores | -76.54160 | 3.43765 |
| 6279 | 6279 | Zona Oeste | 3 | 4 | 200 | 143.0 | 2 | 3 | 3 | Apartamento | miraflores | -76.54177 | 3.43730 |
| 6291 | 6291 | Zona Oeste | 1 | 4 | 190 | 72.3 | 1 | 2 | 3 | Apartamento | miraflores | -76.54189 | 3.43795 |
| 6397 | 6397 | Zona Oeste | 5 | 5 | 350 | 124.0 | 2 | 3 | 4 | Apartamento | miraflores | -76.54233 | 3.44914 |
Paso 2. Exploracion Inicial
promedio_precio=mean(datos_sub$precio_millon,na.rm = TRUE)
promedio_habitaciones=mean(datos_sub$Habitaciones,na.rm = TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm = TRUE)
promedio_areaconstruida=mean(datos_sub$Area_contruida,na.rm = TRUE)
cantidad_ofertas = length(datos_sub$Zona)
resultado=data.frame(promedio_precio,mediana_precio,promedio_areaconstruida,promedio_habitaciones,cantidad_ofertas)
resultado
| promedio_precio | mediana_precio | promedio_areaconstruida | promedio_habitaciones | cantidad_ofertas |
|---|---|---|---|---|
| 243.3333 | 195 | 105.3833 | 3 | 6 |
paso.3 Valoracion en Mapa Interactivo
require(leaflet)
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud,lat = datos_sub$Cordenada_latitud,radius = 0.3,color = "black",label = datos_sub$ID) %>% addTiles()
Paso.4 Exploracion Bivariada entre Precio vs Area Construida
require(ggplot2)
require(plotly)
g1= ggplot(data = datos_sub,aes(y=precio_millon,x=Area_contruida))+geom_point()+geom_smooth()
ggplotly(g1)