Paso 1. Filtrar un barrio de interés y solo apartamentos:
library(readxl)
Datos = read_excel("C:/ALL/Personal/Maestria/01_Simulacion_EstadÃstica/Unidad 1/Actividad_1/Datos_Vivienda.xlsx")
ID=1:dim(Datos)[1]
Datos=data.frame(ID,Datos)
pos=which(Datos$Barrio=="floralia")
datos_sub=Datos[pos,]
require(RecordLinkage)
pos2=which(jarowinkler("el caney",Datos$Barrio)>0.8 & Datos$Tipo=="Apartamento")
datos_sub=Datos[pos2,]
head(datos_sub)
| ID | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 882 | 882 | Zona Oriente | 3 | 3 | 140 | 61 | 1 | 2 | 3 | Apartamento | el troncal | -76.50459 | 3.44968 |
| 900 | 900 | Zona Norte | 4 | 3 | 125 | 60 | 1 | 2 | 3 | Apartamento | el troncal | -76.50500 | 3.45100 |
| 901 | 901 | Zona Oriente | NA | 3 | 119 | 61 | NA | 2 | 3 | Apartamento | el troncal | -76.50500 | 3.45100 |
| 932 | 932 | Zona Oriente | 1 | 3 | 160 | 93 | NA | 1 | 3 | Apartamento | el troncal | -76.50600 | 3.45100 |
| 1069 | 1069 | Zona Oriente | NA | 3 | 240 | 233 | NA | 4 | 6 | Apartamento | el troncal | -76.50900 | 3.45000 |
| 1177 | 1177 | Zona Sur | 4 | 4 | 215 | 92 | 1 | 3 | 3 | Apartamento | el caney | -76.51279 | 3.48038 |
Paso 2. Exploración inicial
## Tabla de Indicadores Importantes
promedio_precio = mean(datos_sub$precio_millon,na.rm = TRUE)
promedio_area = mean(datos_sub$Area_contruida,na.rm = TRUE)
mediana_area = median(datos_sub$Area_contruida,na.rm = TRUE)
cantidad_ofertas = length(datos_sub$Zona)
precio_maximo = max(datos_sub$precio_millon,na.rm = TRUE)
precio_minimo = min(datos_sub$precio_millon,na.rm = TRUE)
resultado = data.frame(promedio_precio, promedio_area, mediana_area, cantidad_ofertas, precio_maximo, precio_minimo)
resultado
| promedio_precio | promedio_area | mediana_area | cantidad_ofertas | precio_maximo | precio_minimo |
|---|---|---|---|---|---|
| 181.1894 | 70.14818 | 60 | 132 | 385 | 110 |
Paso 3. Visualización en mapa interactivo
require(leaflet)
## Loading required package: leaflet
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud,lat = datos_sub$Cordenada_latitud, radius = 0.3,color = "red",label=datos_sub$ID)%>%addTiles()
Paso 4. Exploración bivariada entre Precio vs Area construida
require(ggplot2)
require(plotly)
g1=ggplot(data = datos_sub,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g1)
require(ggplot2)
require(plotly)
pos3=which(datos_sub$Area_contruida<150)
datos_sub2=datos_sub[pos3,]
g2=ggplot(data = datos_sub2,aes(y=precio_millon,x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)