##Actividad No.1
Con base en los datos de olx realizar los siguientes pasos:
Paso 1. Filtrar el barrio de interes y elegir solo apartamentos
Barrio elegido: santa teresita
library(readxl)
datos <- read_excel("C:/Users/julie/OneDrive/Escritorio/YDRAY-Datos_Vivienda.xlsx")
id=1:dim(datos)[1]
datos=data.frame(id,datos)
require(RecordLinkage)
pos = which(jarowinkler("santa teresita",datos$Barrio)>0.98&datos$Tipo=="Apartamento")
datos_sub=datos[pos,]
head(datos_sub)
| id | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 117 | 117 | Zona Oeste | NA | 6 | 630 | 133 | 2 | 3 | 3 | Apartamento | santa teresita | -76.48426 | 3.43948 |
| 211 | 211 | Zona Oeste | 2 | 6 | 695 | 245 | 3 | 4 | 5 | Apartamento | santa teresita | -76.48900 | 3.48000 |
| 450 | 450 | Zona Oeste | NA | 6 | 1583 | 229 | 3 | 4 | 3 | Apartamento | santa teresita | -76.49600 | 3.46900 |
| 451 | 451 | Zona Oeste | NA | 6 | 1250 | 229 | 2 | 5 | 3 | Apartamento | santa teresita | -76.49600 | 3.46900 |
| 646 | 646 | Zona Oeste | 12 | 6 | 690 | 314 | 2 | 5 | 4 | Apartamento | santa teresita | -76.50021 | 3.44812 |
| 684 | 684 | Zona Oeste | 9 | 6 | 1270 | 153 | 2 | 6 | 4 | Apartamento | santa teresita | -76.50100 | 3.40000 |
##Registros totales para el vivienda tipo "Apartamento" y barrio "santa teresita"
length(pos)
## [1] 250
Paso 2. Exploracion inicial de datos
## Tabla 2. Indicadores para tipo de vivienda "Apartamento" y Barrio "santa teresita"
cantidad_ofertas= length(datos_sub$Zona)
promedio_precio= mean(datos_sub$precio_millon,na.rm=TRUE)
promedio_area= mean(datos_sub$Area_contruida,na.rm =TRUE)
promedio_habitaciones= mean(datos_sub$Habitaciones,na.rm=TRUE)
promedio_banos= mean(datos_sub$Banos,na.rm=TRUE)
resultado=data.frame(cantidad_ofertas,promedio_precio,promedio_area,promedio_habitaciones,promedio_banos)
resultado
| cantidad_ofertas | promedio_precio | promedio_area | promedio_habitaciones | promedio_banos |
|---|---|---|---|---|
| 250 | 843.276 | 213.1172 | 3.324 | 3.944 |
## Tabla 3. Indicadores de centralidad y variabilidad para la variable "precio"
promedio_precio=mean(datos_sub$precio_millon,na.rm = TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm = TRUE)
minimo_precio=min(datos_sub$precio_millon,na.rm = TRUE)
maximo_precio=max(datos_sub$precio_millon,na.rm = TRUE)
desvest_precio=sd(datos_sub$precio_millon,na.rm = TRUE)
indic_precio=data.frame(promedio_precio,mediana_precio,minimo_precio,maximo_precio,desvest_precio)
indic_precio
| promedio_precio | mediana_precio | minimo_precio | maximo_precio | desvest_precio |
|---|---|---|---|---|
| 843.276 | 730 | 150 | 1900 | 378.132 |
## Tabla 4. Indicadores de centralidad y variabilidad para la variable "area construida"
promedio_areacon=mean(datos_sub$Area_contruida,na.rm =TRUE)
mediana_areacon=median(datos_sub$Area_contruida,na.rm =TRUE)
minimo_areacon=min(datos_sub$Area_contruida,na.rm =TRUE)
maximo_areacon=max(datos_sub$Area_contruida,na.rm =TRUE)
desvest_areacon=sd(datos_sub$Area_contruida,na.rm =TRUE)
indic_areacon=data.frame(promedio_precio,mediana_precio,minimo_precio,maximo_precio,desvest_precio)
indic_areacon
| promedio_precio | mediana_precio | minimo_precio | maximo_precio | desvest_precio |
|---|---|---|---|---|
| 843.276 | 730 | 150 | 1900 | 378.132 |
Paso 3. Visualizacion espacial de la informacion
require(leaflet)
library(htmltools)
#Mapa 1
leaflet() %>% addCircleMarkers(lng= datos_sub$cordenada_longitud, lat= datos_sub$Cordenada_latitud, radius=1.0, color= "purple", label= datos_sub$id)%>% addTiles()
#Mapa 2
leaflet() %>% addCircleMarkers(lng = datos_sub$cordenada_longitud, lat = datos_sub$Cordenada_latitud, radius = 1, color = "purple",label = paste0( 'ID: ',datos_sub$ID,', Precio: ', datos_sub$precio_millon, ', Area: ', datos_sub$Area_contruida, ', Barrio: ', datos_sub$Barrio,', Lat: ',datos_sub$Cordenada_latitud,', Long: ',datos_sub$cordenada_longitud)) %>% addTiles()
Paso 4. ExploraciĂ³n Bivariada entre precio y area construida
require(ggplot2)
require(plotly)
g1=ggplot(data = datos_sub,aes(y=precio_millon, x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g1)
pos2=which(datos_sub$Area_contruida<300)
datos_sub2=datos_sub[pos2,]
g2=ggplot(data = datos_sub2,aes(y=precio_millon, x=Area_contruida)) + geom_point() + geom_smooth()
ggplotly(g2)