Tipos de Uniones en R

Datos:

Vamos a utilizar las siguientes bases de datos de la ENAHO 2017:

Módulo 1: Características de la vivieda
Módulo 2: Características de los miembros del hogar
Módulo 3: Educación
Módulo 5: Empleo
Módulo sumarias

library(foreign)

enaho17.m1 <- read.spss("Enaho01-2017-100.sav", to.data.frame = T)
enaho17.m2 <- read.spss("Enaho01-2017-200.sav", to.data.frame = T)
enaho17.m3 <- read.spss("Enaho01A-2017-300.sav", to.data.frame = T)
enaho17.m5 <- read.spss("Enaho01A-2017-500.sav", to.data.frame = T)
enaho17.sum <- read.spss("Sumaria-2017.sav", to.data.frame = T)

Unión interna

Vamos a juntar las variables de tipo de acceso al agua (módulo 1) con el nivel de pobreza (sumarias)

Seleccionamos las variables que vamos a usar en cada módulos, las de identificación (comunes a ambos) y las de agua y pobreza:

df.1 <- enaho17.m1[, c(3:6, 8,9, 85, 314)]

df.2 <- enaho17.sum[, c(3:6, 156)]


new.df1 <- merge(df.1, df.2, by = c("CONGLOME", "VIVIENDA", "HOGAR"))

prop.table(xtabs(FACTOR07 ~ P111A + POBREZA, data = new.df1), 2)*100

##                                                                       POBREZA
## P111A                                                                  Pobre Extremo
##   Red pública de desagüe dentro de la vivienda                            16.1603488
##   Red pública de desagüe fuera de la vivienda pero dentro del edificio     1.4544381
##   Letrina                                                                 13.3556169
##   Pozo séptico                                                            27.7545173
##   Pozo ciego o negro                                                      14.2817031
##   Río, acequia o canal                                                     1.1560335
##   Otra                                                                     0.4563082
##   NO TIENE                                                                25.3810342
##                                                                       POBREZA
## P111A                                                                  Pobre No Extremo
##   Red pública de desagüe dentro de la vivienda                               42.3820637
##   Red pública de desagüe fuera de la vivienda pero dentro del edificio        3.8697852
##   Letrina                                                                     8.6540192
##   Pozo séptico                                                               17.5720137
##   Pozo ciego o negro                                                         11.6646376
##   Río, acequia o canal                                                        1.2301121
##   Otra                                                                        0.5251879
##   NO TIENE                                                                   14.1021805
##                                                                       POBREZA
## P111A                                                                    No Pobre
##   Red pública de desagüe dentro de la vivienda                         71.4892225
##   Red pública de desagüe fuera de la vivienda pero dentro del edificio  4.6340951
##   Letrina                                                               5.2738138
##   Pozo séptico                                                          6.6504284
##   Pozo ciego o negro                                                    5.3452515
##   Río, acequia o canal                                                  1.0378330
##   Otra                                                                  0.5869722
##   NO TIENE                                                              4.9823835

Unión externa

Todos los registros de ambas bases de datos:

new.df2 <- merge(df.1, df.2, by = c("CONGLOME", "VIVIENDA", "HOGAR"), all = TRUE)

Unión Izquierda

Queremos hacer una tabla de condición de ocupación (módulo 5) según idioma materno (módulo 3)

df.3 <- enaho17.m5[, c(3:6, 8:10, 20, 779)]
df.4 <- enaho17.m3[, c(3:7, 14)]

new.df3 <- merge(df.3, df.4, 
                 by = c("CONGLOME", "VIVIENDA", "HOGAR", "CODPERSO"),
                 all.x = TRUE)

prop.table(xtabs(FAC500A ~ P501 + P300A, data = new.df3), 2)*100

##     P300A
## P501  Quechua   Aymará Otra lengua nativa Castellano Portugués
##   Si 74.87869 74.04896           77.82385   65.55015  67.41748
##   No 25.12131 25.95104           22.17615   34.44985  32.58252
##     P300A
## P501 Otra lengua extranjera Es sordomudo/a, mudo/a
##   Si               43.53089               30.38271
##   No               56.46911               69.61729

Unión Derecha

Juntamos la autoidentificación étnica (módulo 5) con las características de los miembros del hogar

df.5 <- enaho17.m5[, c(3:6, 8:10, 311, 779)]

new.df4<- merge(df.5, enaho17.m2, 
                by = c("CONGLOME", "VIVIENDA", "HOGAR", "CODPERSO"), all.y = T)