Paso 1. Filtrar solo casas, en un barrio de preferencia y tener en cuenta las variaciones que este puede presentar por ser un campo abierto.
library(readxl)
datos= read_excel("D:/GUIANCARLO_2022/MAESTRIA CIENCIA DE DATOS/Metodos y Simulacion Estadistica/Actividad 1_16_02_2022/Datos_Vivienda.xlsx")
ID=1:dim(datos)[1]
datos=data.frame(ID,datos)
pos=which(datos$Barrio=="pance")
datos_sub=datos[pos,]
require(RecordLinkage)
pos2=which(jarowinkler("parcelaciones pance",datos$Barrio)>0.8 & datos$Tipo=="Casa")
datos_sub=datos[pos2,]
head(datos_sub)
| ID | Zona | piso | Estrato | precio_millon | Area_contruida | parqueaderos | Banos | Habitaciones | Tipo | Barrio | cordenada_longitud | Cordenada_latitud | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 38 | 38 | Zona Sur | 2 | 6 | 1500 | 980 | 6 | 5 | 3 | Casa | parcelaciones pance | -76.46878 | 3.42561 |
| 3693 | 3693 | Zona Sur | NA | 5 | 820 | 203 | NA | 5 | 4 | Casa | parcelaciones pance | -76.52800 | 3.44000 |
| 4282 | 4282 | Zona Sur | 2 | 6 | 1800 | 430 | 1 | 6 | 5 | Casa | parcelaciones pance | -76.53063 | 3.34678 |
| 4308 | 4308 | Zona Sur | NA | 6 | 1900 | 1092 | 5 | 6 | 5 | Casa | parcelaciones pance | -76.53085 | 3.33559 |
| 4379 | 4379 | Zona Sur | NA | 6 | 1500 | 773 | NA | 5 | 4 | Casa | parcelaciones pance | -76.53102 | 3.34121 |
| 4570 | 4570 | Zona Sur | 1 | 6 | 1680 | 503 | 6 | 5 | 4 | Casa | parcelaciones pance | -76.53200 | 3.45200 |
paso 2. Presentar una Exploracion Inicial de datos con minimo 5 datos claves.
##Tabla de indicadores importantes
promedio_precio=mean(datos_sub$precio_millon,na.rm=TRUE)
mediana_precio=median(datos_sub$precio_millon,na.rm=TRUE)
promedio_area=mean(datos_sub$Area_contruida,na.rm=TRUE)
cantidad_ofertas=length(datos_sub$Zona)
resultado=data.frame(promedio_precio,mediana_precio,promedio_area,cantidad_ofertas)
resultado
| promedio_precio | mediana_precio | promedio_area | cantidad_ofertas |
|---|---|---|---|
| 1113.953 | 970 | 455.2119 | 43 |
Pao 3. Visualización en Mapa Interactivo los resultados de las casas
require(leaflet)
## Loading required package: leaflet
leaflet()%>%addCircleMarkers(lng=datos_sub$cordenada_longitud,lat=datos_sub$Cordenada_latitud,radius=0.3,color="black",label=datos_sub$ID)%>%addTiles()
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
g1=ggplot(data=datos_sub, aes(y=precio_millon,x=Area_contruida))+geom_point()+geom_smooth()
ggplotly(g1)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
pos3=which(datos_sub$Area_contruida<800)
datos_sub2=datos_sub[pos3,]
g2=ggplot(data=datos_sub2,aes(y=precio_millon,x=Area_contruida))+geom_point()+geom_smooth()
ggplotly(g2)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'