##Actividad No.1

Con base en los datos de olx realizar los siguientes pasos:

Paso 1. Filtrar el barrio de interes y elegir solo apartamentos

Barrio elegido: santa teresita

library(readxl)
datos <- read_excel("C:/Users/julie/OneDrive/Escritorio/YDRAY-Datos_Vivienda.xlsx")

id=1:dim(datos)[1]
datos=data.frame(id,datos)

require(RecordLinkage)

pos = which(jarowinkler("santa teresita",datos$Barrio)>0.98&datos$Tipo=="Apartamento")
datos_sub=datos[pos,]
head(datos_sub)
id Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
117 117 Zona Oeste NA 6 630 133 2 3 3 Apartamento santa teresita -76.48426 3.43948
211 211 Zona Oeste 2 6 695 245 3 4 5 Apartamento santa teresita -76.48900 3.48000
450 450 Zona Oeste NA 6 1583 229 3 4 3 Apartamento santa teresita -76.49600 3.46900
451 451 Zona Oeste NA 6 1250 229 2 5 3 Apartamento santa teresita -76.49600 3.46900
646 646 Zona Oeste 12 6 690 314 2 5 4 Apartamento santa teresita -76.50021 3.44812
684 684 Zona Oeste 9 6 1270 153 2 6 4 Apartamento santa teresita -76.50100 3.40000
##Registros totales para el vivienda tipo "Apartamento" y  barrio "santa teresita" 
length(pos)
## [1] 250

Paso 2. Exploracion inicial de datos

## Tabla 2. Indicadores para tipo de vivienda "Apartamento" y Barrio "santa teresita"

cantidad_ofertas= length(datos_sub$Zona)
promedio_precio= mean(datos_sub$precio_millon,na.rm=TRUE)
promedio_area= mean(datos_sub$Area_contruida,na.rm =TRUE)
promedio_habitaciones= mean(datos_sub$Habitaciones,na.rm=TRUE)
promedio_banos= mean(datos_sub$Banos,na.rm=TRUE)

resultado=data.frame(cantidad_ofertas,promedio_precio,promedio_area,promedio_habitaciones,promedio_banos)
resultado
cantidad_ofertas promedio_precio promedio_area promedio_habitaciones promedio_banos
250 843.276 213.1172 3.324 3.944
## Tabla 3. Indicadores de centralidad y variabilidad para la variable "precio"

promedio_precio=mean(datos_sub$precio_millon,na.rm = TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm = TRUE)
minimo_precio=min(datos_sub$precio_millon,na.rm = TRUE)
maximo_precio=max(datos_sub$precio_millon,na.rm = TRUE)
desvest_precio=sd(datos_sub$precio_millon,na.rm = TRUE)

indic_precio=data.frame(promedio_precio,mediana_precio,minimo_precio,maximo_precio,desvest_precio)
indic_precio
promedio_precio mediana_precio minimo_precio maximo_precio desvest_precio
843.276 730 150 1900 378.132
## Tabla 4. Indicadores de centralidad y variabilidad para la variable "area construida"

promedio_areacon=mean(datos_sub$Area_contruida,na.rm =TRUE)
mediana_areacon=median(datos_sub$Area_contruida,na.rm =TRUE)
minimo_areacon=min(datos_sub$Area_contruida,na.rm =TRUE)
maximo_areacon=max(datos_sub$Area_contruida,na.rm =TRUE)
desvest_areacon=sd(datos_sub$Area_contruida,na.rm =TRUE)

indic_areacon=data.frame(promedio_precio,mediana_precio,minimo_precio,maximo_precio,desvest_precio)
indic_areacon
promedio_precio mediana_precio minimo_precio maximo_precio desvest_precio
843.276 730 150 1900 378.132

Paso 3. Visualizacion espacial de la informacion

require(leaflet)
library(htmltools)

#Mapa 1
leaflet() %>% addCircleMarkers(lng= datos_sub$cordenada_longitud, lat= datos_sub$Cordenada_latitud, radius=1.0, color= "purple", label= datos_sub$id)%>% addTiles()
#Mapa 2 

leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud, lat = datos_sub$Cordenada_latitud, radius = 1, color = "purple",label = paste0( 'ID: ',datos_sub$ID,', Precio: ', datos_sub$precio_millon, ', Area: ', datos_sub$Area_contruida, ', Barrio: ', datos_sub$Barrio,', Lat: ',datos_sub$Cordenada_latitud,', Long: ',datos_sub$cordenada_longitud)) %>% addTiles()

Paso 4. ExploraciĂ³n Bivariada entre precio y area construida

require(ggplot2)
require(plotly)

g1=ggplot(data = datos_sub,aes(y=precio_millon, x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g1)
pos2=which(datos_sub$Area_contruida<300)
datos_sub2=datos_sub[pos2,]

g2=ggplot(data = datos_sub2,aes(y=precio_millon, x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)