##Depuracion de los Datos
# Carga de Informacion
library(readxl)
datos = read_excel("C:/Ant/MCD/S1_M2/Descargas/olx_viviendas_cali.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)
head(datos)
| ID | ID.1 | URL | ciudad | Zona | piso | Estrato | Precio | Area_privada | Area_contruida | condi | parqueaderos | Baños | Habitaciones | Tipo | Barrio | Cordenada_latitud | cordenada_longitud |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1564442091-9900 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/metropolitano_del_norte-det-4683523.aspx | Cali | Zona Norte | NA | 3 | 1.50e+08 | 2027027 | 74 | FALSE | 1 | 2 | 3 | Apartamento | metropolitano del norte | -0.00168643891811371 | 0.000171326100826263 |
| 2 | 1564442091-13645 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/ingenio-det-4369414.aspx | Cali | Zona Sur | 6 | 5 | 3.20e+08 | 2064516 | 155 | FALSE | 1 | 5 | 4 | Apartamento | el ingenio | 0.000300407409667969 | 0.000193119049072266 |
| 3 | 1564442091-7383 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/valle_del_lili-det-4696414.aspx | Cali | Zona Sur | NA | 4 | 1.18e+08 | 2145455 | 55 | FALSE | NA | 2 | 2 | Apartamento | valle del lili | 0.00701350811868906 | -0.000827856420073658 |
| 4 | 1564442091-10349 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/caney-det-4664306.aspx | Cali | Zona Sur | NA | 5 | 1.70e+08 | 2833333 | 60 | FALSE | NA | 2 | 3 | Apartamento | el caney | -0.0120641002431512 | -0.00303027289919555 |
| 5 | 1564437042-4644 | https://www.fincaraiz.com.co/casa-en-venta/cali/primavera-det-4362009.aspx | Cali | Zona Oriente | NA | 3 | 2.58e+08 | 806250 | 320 | FALSE | NA | 3 | 8 | Casa | la primavera | -0.00355292111635208 | 0.00366389751434326 |
| 6 | 1564442091-9307 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/valle_del_lili-det-4707819.aspx | Cali | Zona Sur | NA | 4 | 1.65e+08 | 2704918 | 61 | FALSE | NA | 1 | 2 | Apartamento | valle del lili | 0.00320347701199353 | 0.0225584600120783 |
View(datos)
datos2 = datos
# Analilzar los valores de la columna Tipo
table(datos$Tipo) #Solo hay dos posibles valores, esta correcto
##
## Apartamento Casa
## 6185 4672
# Analizar los valores de la columna Barrio
datos2$Barrio = tolower(datos2$Barrio)
datos2$Barrio = trimws(datos2$Barrio)
View(datos2)
require(RecordLinkage)
barrio=c("santa rita","santarita", "valle del lili", "INGENIO","pance")
jarowinkler("santa rita",barrio)
## [1] 1.0000000 0.9800000 0.5047619 0.0000000 0.5333333
#pos = which(datos2$Barrio =='santa rita' )
pos = which(jarowinkler("santa rita",datos2$Barrio)>=0.98 & datos2$Tipo == "Apartamento")
BarSantaRita = datos2[pos,]
View(BarSantaRita)
head(BarSantaRita)
| ID | ID.1 | URL | ciudad | Zona | piso | Estrato | Precio | Area_privada | Area_contruida | condi | parqueaderos | Baños | Habitaciones | Tipo | Barrio | Cordenada_latitud | cordenada_longitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1227 | 1227 | 1564442091-8094 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4780594.aspx | Cali | Zona Oeste | 4 | 6 | 1.15e+09 | 3159341 | 364 | FALSE | 3 | 4 | 3 | Apartamento | santa rita | 3.4909999370575 | -76.5019989013672 |
| 1377 | 1377 | 1564442091-15035 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4281560.aspx | Cali | Zona Oeste | 5 | 6 | 4.30e+08 | 3115942 | 138 | FALSE | 2 | 3 | 3 | Apartamento | santa rita | 3.40799999237061 | -76.5039978027344 |
| 5192 | 5192 | 1564442091-11675 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4529705.aspx | Cali | Zona Oeste | 9 | 6 | 9.10e+08 | 2964169 | 307 | FALSE | 2 | 5 | 4 | Apartamento | santa rita | 3.44440746307373 | -76.5288238525391 |
| 5835 | 5835 | 1564442091-12525 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4538150.aspx | Cali | Zona Oeste | 7 | 6 | 9.10e+08 | 5027624 | 181 | FALSE | 2 | 2 | 3 | Apartamento | santa rita | 3.45499992370605 | -76.5309982299805 |
| 6038 | 6038 | 1564442091-11849 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-4637142.aspx | Cali | Zona Oeste | 3 | 6 | 5.10e+08 | 2246696 | 227 | FALSE | 2 | 4 | 3 | Apartamento | santa rita | 3.45164680480957 | -76.531982421875 |
| 7247 | 7247 | 1564442091-13028 | https://www.fincaraiz.com.co/apartamento-en-venta/cali/santa_rita-det-3048846.aspx | Cali | Zona Oeste | NA | 5 | 3.95e+08 | 2821429 | 140 | FALSE | 2 | 4 | 4 | Apartamento | santa rita | 3.4539999961853 | -76.5370025634766 |
options(scipen = 999)
Cantidad_Ofertas = length(BarSantaRita$ID)
Precio_Maximo = max(BarSantaRita$Precio,na.rm = TRUE)
Precio_Minimo = min(BarSantaRita$Precio,na.rm = TRUE)
Precio_Promedio = mean(BarSantaRita$Precio,na.rm = TRUE)
Precio_Mediana =as.numeric(median(BarSantaRita$Precio,na.rm = TRUE))
Area_Promedio = mean(as.numeric(BarSantaRita$Area_contruida),na.rm = TRUE)
Resultado=data.frame(Cantidad_Ofertas, Precio_Promedio,Precio_Maximo,Precio_Minimo,Precio_Mediana, Area_Promedio)
Resultado
| Cantidad_Ofertas | Precio_Promedio | Precio_Maximo | Precio_Minimo | Precio_Mediana | Area_Promedio |
|---|---|---|---|---|---|
| 42 | 925500000 | 1900000000 | 230000000 | 905000000 | 232.2348 |
#Paso 3 Mapa Interactivo
require(leaflet)
leaflet() %>% addCircleMarkers(lng = as.double( BarSantaRita$cordenada_longitud),lat = as.double(BarSantaRita$Cordenada_latitud),radius = 0.3, label = BarSantaRita$ID) %>% addTiles()
#Se encuentral algunos valores que estan por fuera del area buscada
#Id 1227 y 1377
#seria bueno contar con las direcciones, para corregir las coordenadas
#Exploracion biVariada
require(ggplot2)
require(plotly)
Graph1 = ggplot(data =BarSantaRita, aes(y=Precio, x=as.numeric(Area_contruida))) + geom_point()+geom_smooth()
ggplotly(Graph1)