Paso1. Filtrar solo por apartamentos, en un barrio de preferencia y tener encuenta las variaciones que se puedan presentar:
library(readxl)
Datos_Vivienda <- read_excel("D:/ESTUDIO/MASTER IN DATA SCIENCE/Semester 1/METODOS Y SIMULACION ESTADISTICA/MOD 1/Actividad_1/Datos_Vivienda.xlsx")
ID=1:dim(Datos_Vivienda)[1]
datos=data.frame(ID, Datos_Vivienda)
require(RecordLinkage)
pos = which (jarowinkler(Datos_Vivienda$Barrio, "ciudad jardin")>=0.93 & datos$Tipo == "Apartamento" )
datos_sub = Datos_Vivienda[pos,]
head(datos_sub)
| Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Zona Sur | NA | 6 | 1280 | 346 | 4 | 6 | 5 | Apartamento | ciudad jardÃn | -76.46400 | 3.43300 |
| Zona Sur | 12 | 6 | 580 | 145 | 2 | 5 | 3 | Apartamento | ciudad jardÃn | -76.46691 | 3.42334 |
| Zona Sur | 3 | 6 | 595 | 146 | 2 | 4 | 4 | Apartamento | ciudad jardÃn | -76.46851 | 3.42544 |
| Zona Sur | 5 | 6 | 315 | 85 | 2 | 2 | 3 | Apartamento | ciudad jardÃn | -76.47355 | 3.41248 |
| Zona Sur | 1 | 5 | 370 | 87 | 2 | 3 | 3 | Apartamento | ciudad jardÃn | -76.48300 | 3.44500 |
| Zona Sur | 1 | 4 | 275 | 96 | 2 | 2 | 0 | Apartamento | ciudad jardÃn | -76.52088 | 3.44889 |
Paso 2. Presentar exploración inicial de los datos, ejemplo: conteo de cuantos registros quedaron, precio promedio, area promedio,entre otros.
## Tabla de indicadores importantes
precio_promedio = mean(datos_sub$precio_millon, na.rm = TRUE)
desviacion_precio = sd(datos_sub$precio_millon, na.rm =TRUE)
mediana_precio = median(datos_sub$precio_millon, na.rm =TRUE)
promedio_area = mean(datos_sub$Area_contruida, na.rm = TRUE)
cantidad_oferta = length(datos_sub$Zona)
resultado = data.frame(precio_promedio,desviacion_precio,mediana_precio, promedio_area, cantidad_oferta)
resultado
| precio_promedio | desviacion_precio | mediana_precio | promedio_area | cantidad_oferta |
|---|---|---|---|---|
| 552.6667 | 271.1903 | 485 | 144.4279 | 231 |
Paso 3. Visuacización en mapa interactivo
require(leaflet)
leaflet() %>% addCircleMarkers(lng= datos_sub$cordenada_longitud, lat=datos_sub$Cordenada_latitud, radius = 0.7, color = "black") %>% addTiles()
Paso 4. Exploración bivariada entre precio y area construida
require(ggplot2)
require(plotly)
g1=ggplot(data = datos_sub, aes(y = precio_millon, x= Area_contruida)) +geom_point() + geom_smooth()
ggplotly(g1)
Exploración bivariada entre precio y area construida con area menor a 300 mts^2
pos2= which(datos_sub$Area_contruida < 300)
datos_sub2=datos_sub[pos2,]
require(ggplot2)
require(plotly)
g2=ggplot(data = datos_sub2, aes(y = precio_millon, x= Area_contruida)) +geom_point() + geom_smooth()
ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'