Abrimos las bases de datos
Data 1: PEA_desocupada
library(rio)
PEA_desocupada = import("PEA_desocupada.xlsx")
PEA_desocupada <- PEA_desocupada[-1, ] #elimino la primera fila
names(PEA_desocupada)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
PEA_desocupada <- PEA_desocupada[-c(5, 6)] #elimino columnas que no deseo
names(PEA_desocupada)[5] <- "PEA_desocupada" #renombro mi variable
Data 2: Población total
poblacion = import("poblacion_total.xlsx")
poblacion <- poblacion[-1, ]
names(poblacion)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
poblacion <- poblacion[-c(2, 3, 4, 5, 6)]
names(poblacion)[2] <- "poblacion"
Data 3: Educación
educacion = import("educacion.xlsx")
educacion <- educacion[-1, ]
names(educacion)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
educacion <- educacion[-c(2, 3, 4, 5, 6)]
names(educacion)[2] <- "educacion"
Data 4: bibliotecas
bibliotecas = import("bibliotecas.xlsx")
bibliotecas <- bibliotecas[-1, ]
names(bibliotecas)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
bibliotecas <- bibliotecas[-c(2, 3, 4, 5, 6)]
names(bibliotecas)[2] <- "bibliotecas"
Data 5: Hogares con dependencia
hogares_dependencia = import("hogares_dependencia.xlsx")
hogares_dependencia <- hogares_dependencia[-1, ]
names(hogares_dependencia)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
hogares_dependencia <- hogares_dependencia[-c(2, 3, 4, 5, 6)]
names(hogares_dependencia)[2] <- "hogares_dependencia"
Data 6: Planificación familiar
plan_familiar = import("planificacion_familiar.xlsx")
plan_familiar <- plan_familiar[-1, ]
names(plan_familiar)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
plan_familiar <- plan_familiar[-c(2, 3, 4, 5, 6)]
names(plan_familiar)[2] <- "plan_familiar"
Data 7: instituciones
instituciones = import("instituciones_educativas.xlsx")
instituciones <- instituciones[-1, ]
names(instituciones)
## [1] "Ubigeo" "Departamento" "Provincia" "Distrito"
## [5] "Indicador" "Unidad de medida" "2017"
instituciones <- instituciones[-c(2, 3, 4, 5, 6)]
names(instituciones)[2] <- "instituciones"
Merge
# Creamos una lista
lista <- list(PEA_desocupada, poblacion, educacion, bibliotecas, instituciones, hogares_dependencia, plan_familiar)
# Haces el merge utilizando Reduce
data_final <- Reduce(function(x, y) merge(x, y, by = "Ubigeo"), lista)
str(data_final)
## 'data.frame': 1874 obs. of 11 variables:
## $ Ubigeo : chr "010101" "010102" "010103" "010104" ...
## $ Departamento : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ Provincia : chr "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
## $ Distrito : chr "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
## $ PEA_desocupada : num 601 12 10 3 0 19 3 64 33 40 ...
## $ poblacion : num 32589 262 1136 642 585 ...
## $ educacion : num 11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
## $ bibliotecas : chr "1" "-" "-" "-" ...
## $ instituciones : chr "57" "4" "19" "5" ...
## $ hogares_dependencia: num 1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
## $ plan_familiar : chr "1" "1" "-" "-" ...
data_final$instituciones = as.numeric(data_final$instituciones)
## Warning: NAs introducidos por coerción
data_final$bibliotecas <- as.factor(ifelse(data_final$bibliotecas == "1", "1", "0"))
data_final$plan_familiar <- as.factor(ifelse(data_final$plan_familiar == "1", "1", "0"))
str(data_final)
## 'data.frame': 1874 obs. of 11 variables:
## $ Ubigeo : chr "010101" "010102" "010103" "010104" ...
## $ Departamento : chr "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
## $ Provincia : chr "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
## $ Distrito : chr "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
## $ PEA_desocupada : num 601 12 10 3 0 19 3 64 33 40 ...
## $ poblacion : num 32589 262 1136 642 585 ...
## $ educacion : num 11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
## $ bibliotecas : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 2 1 ...
## $ instituciones : num 57 4 19 5 9 24 7 4 40 28 ...
## $ hogares_dependencia: num 1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
## $ plan_familiar : Factor w/ 2 levels "0","1": 2 2 1 1 1 1 1 1 2 1 ...
data_final <- data_final[complete.cases(data_final),]