Paso 1: Filtrar un barrio de interes y solo apartamentos:
library(readxl)
datos = read_excel("C:/Users/User/Downloads/Datos_Vivienda.xlsx")
ID=1:dim(datos)[1]
datos_subconjunto=data.frame(ID,datos)
posicion=which(datos$Barrio=="multicentro")
datos_subconjunto=datos[posicion,]
require(RecordLinkage)
posicion2=which(jarowinkler("ingenio",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_subconjunto=datos[posicion2,]
head(datos)
| Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | 2 | 6 | 880 | 237 | 2 | 5 | 4 | Casa | pance | -76.46300 | 3.43000 |
| Zona Oeste | 2 | 4 | 1200 | 800 | 3 | 6 | 7 | Casa | miraflores | -76.46400 | 3.42800 |
| Zona Sur | 3 | 5 | 250 | 86 | NA | 2 | 3 | Apartamento | multicentro | -76.46400 | 3.42900 |
| Zona Sur | NA | 6 | 1280 | 346 | 4 | 6 | 5 | Apartamento | ciudad jardv<U+2260>n | -76.46400 | 3.43300 |
| Zona Sur | 2 | 6 | 1300 | 600 | 4 | 7 | 5 | Casa | pance | -76.46438 | 3.43463 |
| Zona Sur | 3 | 6 | 513 | 160 | 2 | 4 | 4 | Casa | pance | -76.46438 | 3.43463 |
Paso 2. Exploración Inicial
##Tabla de Indicadores Importantes
promedio_precio=mean(datos_subconjunto$precio_millon,na.rm = TRUE)
mediana_precio=median(datos_subconjunto$precio_millon,na.rm = TRUE)
promedio_area=mean(datos_subconjunto$Area_contruida,na.rm = TRUE)
cantidad_ofertas=length(datos_subconjunto$Zona)
resultado=data.frame(promedio_precio,mediana_precio,promedio_area,cantidad_ofertas)
resultado
| promedio_precio | mediana_precio | promedio_area | cantidad_ofertas |
|---|---|---|---|
| 316.6846 | 300 | 117.7467 | 130 |
Paso 3. Visualización en Mapa Interactivo
require(leaflet)
## Loading required package: leaflet
leaflet() %>% addCircleMarkers(lng = datos_subconjunto$cordenada_longitud,lat = datos_subconjunto$Cordenada_latitud,radius = 0.3,color = "black") %>% addTiles()
Paso 4. Exploración Bivariada entre Precio vs Area Construida
require(ggplot2)
require(plotly)
g1=ggplot(data = datos_subconjunto,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g1)
posicion_3=which(datos_subconjunto$Area_contruida>400)
datos_subconjunto_2 = datos_subconjunto[posicion_3,]
g2=ggplot(data = datos_subconjunto_2,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)