Paso 1. Filtrar un barrio de interes y solo apartamentos
library(readxl)
datos = read_excel("~/OneDrive - PUJ Cali/PUJ Msc/Semestre I/Métodos y simulación estadística 2022 - B/Actividad 1/YDRAY-Datos_Vivienda.xlsx")
ID = 1:dim(datos)[1]
datos = data.frame(ID,datos)
pos=which(datos$Barrio=="pance")
datos_sub=datos[pos,]
require(RecordLinkage)
pos2=which(jarowinkler("pance",datos$Barrio)>0.8 & datos$Tipo=="Apartamento")
datos_sub=datos[pos2,]
head(datos_sub)
| ID | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 10 | 10 | Zona Sur | 6 | 6 | 690 | 150 | 2 | 5 | 4 | Apartamento | pance | -76.46478 | 3.42783 |
| 19 | 19 | Zona Sur | 3 | 6 | 550 | 136 | 2 | 4 | 4 | Apartamento | pance | -76.46554 | 3.42933 |
| 35 | 35 | Zona Sur | NA | 6 | 570 | 137 | 2 | 5 | 4 | Apartamento | pance | -76.46851 | 3.42544 |
| 39 | 39 | Zona Sur | 4 | 6 | 510 | 148 | 2 | 3 | 3 | Apartamento | pance | -76.46947 | 3.42527 |
| 44 | 44 | Zona Sur | 6 | 6 | 1200 | 211 | 2 | 3 | 3 | Apartamento | pance | -76.47039 | 3.41435 |
| 46 | 46 | Zona Sur | 2 | 6 | 550 | 143 | 3 | 3 | 3 | Apartamento | pance | -76.47112 | 3.42049 |
table(datos$Tipo)
##
## Apartamento Casa
## 5100 3219
table(datos$Zona)
##
## Zona Centro Zona Norte Zona Oeste Zona Oriente Zona Sur
## 124 1920 1198 351 4726
Punto 2. Exploración incial de dataset
## Tabla de Indicadores
promedio_precio = mean(datos_sub$precio_millon,na.rm = TRUE)
mediana_precio = median(datos_sub$precio_millon,na.rm = TRUE)
desviacion_estandar = sd(datos_sub$precio_millon,na.rm = TRUE)
Coeficiente_variacion = abs(desviacion_estandar/promedio_precio)
promedio_area = mean(datos_sub$Area_contruida,na.rm = TRUE)
cantidad_ofertas = length(datos_sub$Zona)
resultado = data.frame(promedio_precio,mediana_precio,desviacion_estandar,Coeficiente_variacion,promedio_area,cantidad_ofertas)
resultado
| promedio_precio | mediana_precio | desviacion_estandar | Coeficiente_variacion | promedio_area | cantidad_ofertas |
|---|---|---|---|---|---|
| 641.5455 | 600 | 235.0794 | 0.3664267 | 152.6554 | 209 |
Punto 3. Presentar mapa interactivo
require(leaflet)
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud, lat = datos_sub$Cordenada_latitud, radius = 0.4, color = "black",label = datos_sub$precio_millon) %>% addTiles()
Punto 4. Exploración bivariada entre el precio de la vivienda y el área
require(ggplot2)
require(plotly)
g1 = ggplot(data = datos_sub, aes(y = precio_millon, x = Area_contruida)) + geom_point(colour = "coral") + geom_smooth()
ggplotly(g1)
pos3 = which(datos_sub$Area_contruida<400)
datos_sub2 = datos_sub[pos3,]
g2 = ggplot(data = datos_sub2, aes(y = precio_millon, x = Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)