Extracción de datos

Extraemos los datos de vivienda en Cali y filtramos para nuestro análisis por el barrio “valle del lili”

library(readxl)

datos <- read_excel("D:/Maestria/Metodos estadisticos/Actividad 1/YDRAY-Datos_Vivienda.xlsx")
## Warning in strptime(x, format, tz = tz): unable to identify current timezone 'H':
## please set environment variable 'TZ'
ID=1:dim(datos)[1]

datos=data.frame(ID,datos)

barrio_seleccionado ="valle del lili"
pos=which(datos$Barrio==barrio_seleccionado)
datos_sub=datos[pos,]
View(datos_sub)
head(datos_sub)
##    ID     Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## 8   8 Zona Sur    5       5           310           82.5            1     2
## 9   9 Zona Sur    9       4           240           80.0            1     2
## 12 12 Zona Sur   NA       5           230           70.0            1     2
## 13 13 Zona Sur   NA       5           160           63.0           NA     2
## 14 14 Zona Sur    6       5           200           71.0            1     2
## 15 15 Zona Sur   NA       5           270           76.0           NA     2
##    Habitaciones        Tipo         Barrio cordenada_longitud Cordenada_latitud
## 8             3 Apartamento valle del lili          -76.46438           3.43463
## 9             3 Apartamento valle del lili          -76.46438           3.43463
## 12            2 Apartamento valle del lili          -76.46500           3.43600
## 13            2 Apartamento valle del lili          -76.46500           3.43600
## 14            3 Apartamento valle del lili          -76.46500           3.43600
## 15            3 Apartamento valle del lili          -76.46500           3.43600

Indicadores y exploración de datos

##   promedio_precio mediana_precio promedio_area cantidad_ofertas
## 1        243.1716            235      90.07727             1008

Aplicamos el metodo jarowinkler y filtrando por tipo igual a “Apartamento”

##    ID     Zona piso Estrato precio_millon Area_contruida parqueaderos Banos
## 8   8 Zona Sur    5       5           310           82.5            1     2
## 9   9 Zona Sur    9       4           240           80.0            1     2
## 12 12 Zona Sur   NA       5           230           70.0            1     2
## 13 13 Zona Sur   NA       5           160           63.0           NA     2
## 14 14 Zona Sur    6       5           200           71.0            1     2
## 15 15 Zona Sur   NA       5           270           76.0           NA     2
##    Habitaciones        Tipo         Barrio cordenada_longitud Cordenada_latitud
## 8             3 Apartamento valle del lili          -76.46438           3.43463
## 9             3 Apartamento valle del lili          -76.46438           3.43463
## 12            2 Apartamento valle del lili          -76.46500           3.43600
## 13            2 Apartamento valle del lili          -76.46500           3.43600
## 14            3 Apartamento valle del lili          -76.46500           3.43600
## 15            3 Apartamento valle del lili          -76.46500           3.43600
##   promedio_precio mediana_precio promedio_area cantidad_ofertas
## 1        224.5718            225      74.97807              843

Graficamos las ubicaciones por longitud y latitud de nuestros datos

Regresión lineal entre el area construida y precio (por millon)

Ajuste, eliminando datos atipicos.