Limpieza de data y merge

Abrimos las bases de datos

Data 1: PEA_desocupada

library(rio)
PEA_desocupada = import("PEA_desocupada.xlsx")

PEA_desocupada <- PEA_desocupada[-1, ] #elimino la primera fila

names(PEA_desocupada)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

PEA_desocupada <- PEA_desocupada[-c(5, 6)] #elimino columnas que no deseo

names(PEA_desocupada)[5] <- "PEA_desocupada"  #renombro mi variable

Data 2: Población total

poblacion = import("poblacion_total.xlsx")

poblacion <- poblacion[-1, ]

names(poblacion)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

poblacion <- poblacion[-c(2, 3, 4, 5, 6)]

names(poblacion)[2] <- "poblacion"

Data 3: Educación

educacion = import("educacion.xlsx")

educacion <- educacion[-1, ]

names(educacion)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

educacion <- educacion[-c(2, 3, 4, 5, 6)]

names(educacion)[2] <- "educacion"

Data 4: bibliotecas

bibliotecas = import("bibliotecas.xlsx")

bibliotecas <- bibliotecas[-1, ]

names(bibliotecas)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

bibliotecas <- bibliotecas[-c(2, 3, 4, 5, 6)]

names(bibliotecas)[2] <- "bibliotecas"

Data 5: Hogares con dependencia

hogares_dependencia = import("hogares_dependencia.xlsx")

hogares_dependencia <- hogares_dependencia[-1, ]

names(hogares_dependencia)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

hogares_dependencia <- hogares_dependencia[-c(2, 3, 4, 5, 6)]

names(hogares_dependencia)[2] <- "hogares_dependencia"

Data 6: Planificación familiar

plan_familiar = import("planificacion_familiar.xlsx")

plan_familiar <- plan_familiar[-1, ]

names(plan_familiar)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

plan_familiar <- plan_familiar[-c(2, 3, 4, 5, 6)]

names(plan_familiar)[2] <- "plan_familiar"

Data 7: instituciones

instituciones = import("instituciones_educativas.xlsx")

instituciones <- instituciones[-1, ]

names(instituciones)

## [1] "Ubigeo"           "Departamento"     "Provincia"        "Distrito"        
## [5] "Indicador"        "Unidad de medida" "2017"

instituciones <- instituciones[-c(2, 3, 4, 5, 6)]

names(instituciones)[2] <- "instituciones"

Merge

# Creamos una lista
lista <- list(PEA_desocupada, poblacion, educacion, bibliotecas, instituciones, hogares_dependencia, plan_familiar)

# Haces el merge utilizando Reduce
data_final <- Reduce(function(x, y) merge(x, y, by = "Ubigeo"), lista)

str(data_final)

## 'data.frame':    1874 obs. of  11 variables:
##  $ Ubigeo             : chr  "010101" "010102" "010103" "010104" ...
##  $ Departamento       : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ Provincia          : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ Distrito           : chr  "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
##  $ PEA_desocupada     : num  601 12 10 3 0 19 3 64 33 40 ...
##  $ poblacion          : num  32589 262 1136 642 585 ...
##  $ educacion          : num  11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
##  $ bibliotecas        : chr  "1" "-" "-" "-" ...
##  $ instituciones      : chr  "57" "4" "19" "5" ...
##  $ hogares_dependencia: num  1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
##  $ plan_familiar      : chr  "1" "1" "-" "-" ...

data_final$instituciones = as.numeric(data_final$instituciones)

## Warning: NAs introducidos por coerción

data_final$bibliotecas <- as.factor(ifelse(data_final$bibliotecas == "1", "1", "0"))
data_final$plan_familiar <- as.factor(ifelse(data_final$plan_familiar == "1", "1", "0"))

str(data_final)

## 'data.frame':    1874 obs. of  11 variables:
##  $ Ubigeo             : chr  "010101" "010102" "010103" "010104" ...
##  $ Departamento       : chr  "AMAZONAS" "AMAZONAS" "AMAZONAS" "AMAZONAS" ...
##  $ Provincia          : chr  "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" "CHACHAPOYAS" ...
##  $ Distrito           : chr  "CHACHAPOYAS" "ASUNCION" "BALSAS" "CHETO" ...
##  $ PEA_desocupada     : num  601 12 10 3 0 19 3 64 33 40 ...
##  $ poblacion          : num  32589 262 1136 642 585 ...
##  $ educacion          : num  11 7.5 6.5 6.8 5.6 7.4 6 7.9 6.5 7.6 ...
##  $ bibliotecas        : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 2 1 ...
##  $ instituciones      : num  57 4 19 5 9 24 7 4 40 28 ...
##  $ hogares_dependencia: num  1.9 0 8.5 1.4 0 6.5 3.4 2.4 4.7 7.3 ...
##  $ plan_familiar      : Factor w/ 2 levels "0","1": 2 2 1 1 1 1 1 1 2 1 ...

data_final <- data_final[complete.cases(data_final),]

Descargamos nuestra base de datos final

library(openxlsx)
write.xlsx(data_final, file = "data_final.xlsx")

Poisson - Limpieza

Alfredo Aro Terleira

2024-09-04

Limpieza de data y merge

Abrimos las bases de datos

Data 1: PEA_desocupada

Data 2: Población total

Data 3: Educación

Data 4: bibliotecas

Data 5: Hogares con dependencia

Data 6: Planificación familiar

Data 7: instituciones

Merge

Descargamos nuestra base de datos final