Limpieza de data y merge

Abrimos las bases de datos

Data 1: PEA_desocupada

library(rio)
PEA_desocupada = import("PEA_desocupada.xlsx")
PEA_desocupada <- PEA_desocupada[-1, ] #elimino la primera fila
names(PEA_desocupada)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
PEA_desocupada <- PEA_desocupada[-c(5, 6)] #elimino columnas que no deseo
names(PEA_desocupada)[5] <- "PEA_desocupada"  #renombro mi variable

Data 2: Población total

poblacion = import("poblacion_total.xlsx")
poblacion <- poblacion[-1, ] 
names(poblacion)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
poblacion <- poblacion[-c(2, 3, 4, 5, 6)]
names(poblacion)[2] <- "poblacion"  

Data 3: Educación

educacion = import("educacion.xlsx")
educacion <- educacion[-1, ] 
names(educacion)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
educacion <- educacion[-c(2, 3, 4, 5, 6)]
names(educacion)[2] <- "educacion"  

Data 4: bibliotecas

bibliotecas = import("bibliotecas.xlsx")
bibliotecas <- bibliotecas[-1, ] 
names(bibliotecas)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
bibliotecas <- bibliotecas[-c(2, 3, 4, 5, 6)]
names(bibliotecas)[2] <- "bibliotecas"  

Data 5: Hogares con dependencia

hogares_dependencia = import("hogares_dependencia.xlsx")
hogares_dependencia <- hogares_dependencia[-1, ] 
names(hogares_dependencia)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
hogares_dependencia <- hogares_dependencia[-c(2, 3, 4, 5, 6)]
names(hogares_dependencia)[2] <- "hogares_dependencia"  

Data 6: Planificación familiar

plan_familiar = import("planificacion_familiar.xlsx")
plan_familiar <- plan_familiar[-1, ] 
names(plan_familiar)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
plan_familiar <- plan_familiar[-c(2, 3, 4, 5, 6)]
names(plan_familiar)[2] <- "plan_familiar"  

Data 7: instituciones

instituciones = import("instituciones_educativas.xlsx")
instituciones <- instituciones[-1, ] 
names(instituciones)
## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"
instituciones <- instituciones[-c(2, 3, 4, 5, 6)]
names(instituciones)[2] <- "instituciones"  

Merge

# Creamos una lista
lista <- list(PEA_desocupada, poblacion, educacion, bibliotecas, instituciones, hogares_dependencia, plan_familiar)

# Haces el merge utilizando Reduce
data_final <- Reduce(function(x, y) merge(x, y, by = "Ubigeo"), lista)
str(data_final)
## 'data.frame':    1874 obs. of  11 variables:
##  $ Ubigeo             : chr  "010101" "010102" "010103" "010104" ...
##  $ Departamento       : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ Provincia          : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ Distrito           : chr  "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
##  $ PEA_desocupada     : num  601 12 10 3 0 19 3 64 33 40 ...
##  $ poblacion          : num  32589 262 1136 642 585 ...
##  $ educacion          : num  11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
##  $ bibliotecas        : chr  "1" "-" "-" "-" ...
##  $ instituciones      : chr  "57" "4" "19" "5" ...
##  $ hogares_dependencia: num  1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
##  $ plan_familiar      : chr  "1" "1" "-" "-" ...
data_final$instituciones = as.numeric(data_final$instituciones)
## Warning: NAs introducidos por coerción
data_final$bibliotecas <- as.factor(ifelse(data_final$bibliotecas == "1", "1", "0"))
data_final$plan_familiar <- as.factor(ifelse(data_final$plan_familiar == "1", "1", "0"))
str(data_final)
## 'data.frame':    1874 obs. of  11 variables:
##  $ Ubigeo             : chr  "010101" "010102" "010103" "010104" ...
##  $ Departamento       : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ Provincia          : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ Distrito           : chr  "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
##  $ PEA_desocupada     : num  601 12 10 3 0 19 3 64 33 40 ...
##  $ poblacion          : num  32589 262 1136 642 585 ...
##  $ educacion          : num  11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
##  $ bibliotecas        : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 2 1 ...
##  $ instituciones      : num  57 4 19 5 9 24 7 4 40 28 ...
##  $ hogares_dependencia: num  1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
##  $ plan_familiar      : Factor w/ 2 levels "0","1": 2 2 1 1 1 1 1 1 2 1 ...
data_final <- data_final[complete.cases(data_final),]

Descargamos nuestra base de datos final

library(openxlsx)
write.xlsx(data_final, file = "data_final.xlsx")