Actividad 1

Paso1. Filtrar solo por apartamentos, en un barrio de preferencia y tener encuenta las variaciones que se puedan presentar:

library(readxl)
Datos_Vivienda <- read_excel("D:/ESTUDIO/MASTER IN DATA SCIENCE/Semester 1/METODOS Y SIMULACION ESTADISTICA/MOD 1/Actividad_1/Datos_Vivienda.xlsx")

ID=1:dim(Datos_Vivienda)[1]
datos=data.frame(ID, Datos_Vivienda)

require(RecordLinkage)

pos = which (jarowinkler(Datos_Vivienda$Barrio, "ciudad jardin")>=0.93 & datos$Tipo == "Apartamento" )

datos_sub = Datos_Vivienda[pos,]
head(datos_sub)
Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
Zona Sur NA 6 1280 346 4 6 5 Apartamento ciudad jardín -76.46400 3.43300
Zona Sur 12 6 580 145 2 5 3 Apartamento ciudad jardín -76.46691 3.42334
Zona Sur 3 6 595 146 2 4 4 Apartamento ciudad jardín -76.46851 3.42544
Zona Sur 5 6 315 85 2 2 3 Apartamento ciudad jardín -76.47355 3.41248
Zona Sur 1 5 370 87 2 3 3 Apartamento ciudad jardín -76.48300 3.44500
Zona Sur 1 4 275 96 2 2 0 Apartamento ciudad jardín -76.52088 3.44889

Paso 2. Presentar exploración inicial de los datos, ejemplo: conteo de cuantos registros quedaron, precio promedio, area promedio,entre otros.

## Tabla de indicadores importantes

precio_promedio = mean(datos_sub$precio_millon, na.rm = TRUE)
desviacion_precio = sd(datos_sub$precio_millon, na.rm =TRUE)
mediana_precio = median(datos_sub$precio_millon, na.rm =TRUE)
promedio_area = mean(datos_sub$Area_contruida, na.rm =  TRUE)
cantidad_oferta = length(datos_sub$Zona)

resultado = data.frame(precio_promedio,desviacion_precio,mediana_precio, promedio_area, cantidad_oferta)
resultado
precio_promedio desviacion_precio mediana_precio promedio_area cantidad_oferta
552.6667 271.1903 485 144.4279 231

Paso 3. Visuacización en mapa interactivo

require(leaflet)

leaflet() %>% addCircleMarkers(lng= datos_sub$cordenada_longitud, lat=datos_sub$Cordenada_latitud, radius = 0.7, color = "black")  %>% addTiles()

Paso 4. Exploración bivariada entre precio y area construida

require(ggplot2)
require(plotly)

g1=ggplot(data = datos_sub, aes(y = precio_millon, x= Area_contruida)) +geom_point() + geom_smooth()

ggplotly(g1)

Exploración bivariada entre precio y area construida con area menor a 300 mts^2

pos2= which(datos_sub$Area_contruida < 300)
datos_sub2=datos_sub[pos2,]

require(ggplot2)
require(plotly)

g2=ggplot(data = datos_sub2, aes(y = precio_millon, x= Area_contruida)) +geom_point() + geom_smooth()

ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'