##Depuracion de los Datos

Actividad 1

# Carga de Informacion
library(readxl)
datos = read_excel("C:/Ant/MCD/S1_M2/Descargas/olx_viviendas_cali.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)
head(datos)
ID ID.1 URL ciudad Zona piso Estrato Precio Area_privada Area_contruida condi parqueaderos Baños Habitaciones Tipo Barrio Cordenada_latitud cordenada_longitud
1 1564442091-9900 https://www.fincaraiz.com.co/apartamento-en-venta/cali/metropolitano_del_norte-det-4683523.aspx Cali Zona Norte NA 3 1.50e+08 2027027 74 FALSE 1 2 3 Apartamento metropolitano del norte -0.00168643891811371 0.000171326100826263
2 1564442091-13645 https://www.fincaraiz.com.co/apartamento-en-venta/cali/ingenio-det-4369414.aspx Cali Zona Sur 6 5 3.20e+08 2064516 155 FALSE 1 5 4 Apartamento el ingenio 0.000300407409667969 0.000193119049072266
3 1564442091-7383 https://www.fincaraiz.com.co/apartamento-en-venta/cali/valle_del_lili-det-4696414.aspx Cali Zona Sur NA 4 1.18e+08 2145455 55 FALSE NA 2 2 Apartamento valle del lili 0.00701350811868906 -0.000827856420073658
4 1564442091-10349 https://www.fincaraiz.com.co/apartamento-en-venta/cali/caney-det-4664306.aspx Cali Zona Sur NA 5 1.70e+08 2833333 60 FALSE NA 2 3 Apartamento el caney -0.0120641002431512 -0.00303027289919555
5 1564437042-4644 https://www.fincaraiz.com.co/casa-en-venta/cali/primavera-det-4362009.aspx Cali Zona Oriente NA 3 2.58e+08 806250 320 FALSE NA 3 8 Casa la primavera -0.00355292111635208 0.00366389751434326
6 1564442091-9307 https://www.fincaraiz.com.co/apartamento-en-venta/cali/valle_del_lili-det-4707819.aspx Cali Zona Sur NA 4 1.65e+08 2704918 61 FALSE NA 1 2 Apartamento valle del lili 0.00320347701199353 0.0225584600120783
View(datos)
datos2 = datos

# Analilzar los valores de la columna Tipo
table(datos$Tipo) #Solo hay dos posibles valores, esta correcto
## 
## Apartamento        Casa 
##        6185        4672
# Analizar los valores de la columna Barrio
datos2$Barrio = tolower(datos2$Barrio)
datos2$Barrio = trimws(datos2$Barrio)
View(datos2)

require(RecordLinkage)
barrio=c("santa rita","santarita", "valle del lili", "INGENIO","pance")
jarowinkler("santa rita",barrio)
## [1] 1.0000000 0.9800000 0.5047619 0.0000000 0.5333333
 #pos = which(datos2$Barrio =='santa rita' )
 pos = which(jarowinkler("santa rita",datos2$Barrio)>=0.98 & datos2$Tipo == "Apartamento")
 BarSantaRita = datos2[pos,]
  View(BarSantaRita)
 head(BarSantaRita)
ID ID.1 URL ciudad Zona piso Estrato Precio Area_privada Area_contruida condi parqueaderos Baños Habitaciones Tipo Barrio Cordenada_latitud cordenada_longitud
1227 1227 1564442091-8094 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4780594.aspx Cali Zona Oeste 4 6 1.15e+09 3159341 364 FALSE 3 4 3 Apartamento santa rita 3.4909999370575 -76.5019989013672
1377 1377 1564442091-15035 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4281560.aspx Cali Zona Oeste 5 6 4.30e+08 3115942 138 FALSE 2 3 3 Apartamento santa rita 3.40799999237061 -76.5039978027344
5192 5192 1564442091-11675 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4529705.aspx Cali Zona Oeste 9 6 9.10e+08 2964169 307 FALSE 2 5 4 Apartamento santa rita 3.44440746307373 -76.5288238525391
5835 5835 1564442091-12525 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4538150.aspx Cali Zona Oeste 7 6 9.10e+08 5027624 181 FALSE 2 2 3 Apartamento santa rita 3.45499992370605 -76.5309982299805
6038 6038 1564442091-11849 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4637142.aspx Cali Zona Oeste 3 6 5.10e+08 2246696 227 FALSE 2 4 3 Apartamento santa rita 3.45164680480957 -76.531982421875
7247 7247 1564442091-13028 https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-3048846.aspx Cali Zona Oeste NA 5 3.95e+08 2821429 140 FALSE 2 4 4 Apartamento santa rita 3.4539999961853 -76.5370025634766
options(scipen = 999)
Cantidad_Ofertas = length(BarSantaRita$ID)
Precio_Maximo = max(BarSantaRita$Precio,na.rm = TRUE)
Precio_Minimo = min(BarSantaRita$Precio,na.rm = TRUE)
Precio_Promedio = mean(BarSantaRita$Precio,na.rm = TRUE)
Precio_Mediana =as.numeric(median(BarSantaRita$Precio,na.rm = TRUE))
Area_Promedio = mean(as.numeric(BarSantaRita$Area_contruida),na.rm  = TRUE)


Resultado=data.frame(Cantidad_Ofertas, Precio_Promedio,Precio_Maximo,Precio_Minimo,Precio_Mediana, Area_Promedio)
Resultado
Cantidad_Ofertas Precio_Promedio Precio_Maximo Precio_Minimo Precio_Mediana Area_Promedio
42 925500000 1900000000 230000000 905000000 232.2348
#Paso 3 Mapa Interactivo
require(leaflet)
leaflet() %>% addCircleMarkers(lng = as.double( BarSantaRita$cordenada_longitud),lat = as.double(BarSantaRita$Cordenada_latitud),radius = 0.3, label = BarSantaRita$ID) %>% addTiles()
#Se encuentral algunos valores que estan por fuera del area buscada
#Id 1227 y 1377
#seria bueno contar con las direcciones, para corregir las coordenadas
#Exploracion biVariada
require(ggplot2)
require(plotly)
Graph1 = ggplot(data =BarSantaRita, aes(y=Precio, x=as.numeric(Area_contruida))) + geom_point()+geom_smooth()
ggplotly(Graph1)