Actividad 1.1

Paso 1. Filtrar solo casas, en un barrio de preferencia y tener en cuenta las variaciones que este puede presentar por ser un campo abierto.

library(readxl)
datos= read_excel("D:/GUIANCARLO_2022/MAESTRIA CIENCIA DE DATOS/Metodos y Simulacion Estadistica/Actividad 1_16_02_2022/Datos_Vivienda.xlsx")

ID=1:dim(datos)[1]
datos=data.frame(ID,datos)

pos=which(datos$Barrio=="pance")
datos_sub=datos[pos,]

require(RecordLinkage)

pos2=which(jarowinkler("parcelaciones pance",datos$Barrio)>0.8 & datos$Tipo=="Casa")
datos_sub=datos[pos2,]
head(datos_sub)
ID Zona piso Estrato precio_millon Area_contruida parqueaderos Banos Habitaciones Tipo Barrio cordenada_longitud Cordenada_latitud
38 38 Zona Sur 2 6 1500 980 6 5 3 Casa parcelaciones pance -76.46878 3.42561
3693 3693 Zona Sur NA 5 820 203 NA 5 4 Casa parcelaciones pance -76.52800 3.44000
4282 4282 Zona Sur 2 6 1800 430 1 6 5 Casa parcelaciones pance -76.53063 3.34678
4308 4308 Zona Sur NA 6 1900 1092 5 6 5 Casa parcelaciones pance -76.53085 3.33559
4379 4379 Zona Sur NA 6 1500 773 NA 5 4 Casa parcelaciones pance -76.53102 3.34121
4570 4570 Zona Sur 1 6 1680 503 6 5 4 Casa parcelaciones pance -76.53200 3.45200

paso 2. Presentar una Exploracion Inicial de datos con minimo 5 datos claves.

##Tabla de indicadores importantes

promedio_precio=mean(datos_sub$precio_millon,na.rm=TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm=TRUE)
promedio_area=mean(datos_sub$Area_contruida,na.rm=TRUE)
cantidad_ofertas=length(datos_sub$Zona)

resultado=data.frame(promedio_precio,mediana_precio,promedio_area,cantidad_ofertas)
resultado
promedio_precio mediana_precio promedio_area cantidad_ofertas
1113.953 970 455.2119 43

Pao 3. Visualización en Mapa Interactivo los resultados de las casas

require(leaflet)
## Loading required package: leaflet
leaflet()%>%addCircleMarkers(lng=datos_sub$cordenada_longitud,lat=datos_sub$Cordenada_latitud,radius=0.3,color="black",label=datos_sub$ID)%>%addTiles()
  1. Exploración Bivariada Entre Precio vS area Construida
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
g1=ggplot(data=datos_sub, aes(y=precio_millon,x=Area_contruida))+geom_point()+geom_smooth()
ggplotly(g1)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
pos3=which(datos_sub$Area_contruida<800)
datos_sub2=datos_sub[pos3,]

g2=ggplot(data=datos_sub2,aes(y=precio_millon,x=Area_contruida))+geom_point()+geom_smooth()
ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'