1 Introducción
La encuesta Casen mide los ingresos de los hogares y de las personas. Para la comparación entre ambos (y la consiguiente comprobación de nuestra metodología) simplemente se suman todos los ingresos de los integrantes del hogar que los reciben (en éste ejemplo hemos tomado los ingresos del trabajo) y se dividen por sus integrantes, generándose un sólo registro por familia (un folio único) y el ingreso que recibe (en éste caso, conceptualmente ingreso per cápita y el ingreso familiar coinciden). Es así que podemos calcular sumas, promedios, desviaciones standard, para niveles de comuna, regiones y nacionales. Por otro lado, la determinación del ingreso de las personas es mucho mas fácil, calculamos sumas, promedios, desviaciones standard, para niveles de comuna, regiones y nacionales sin hacer ninguna intervención.
Nuestra tarea consiste en hacer esta comprobación entre ingresos del trabajo del hogar y personal
Si sumamos el ingreso de los hogares con el de las personas debiese existir plena conincidencia.
Haciendo el ejercicio para la Región de Tarapacá nos encontramos con diferencias que no debiesen existir, pero como demostraremos, son errores de la propia base de datos Casen 2020 en pandemia. Éstos errores son generalmente fallas humanas inevitables.
Estos errores a nivel de región se muestran en la siguiente tabla, cuyas columnas son la suma de los ingresos personales, suma de los ingresos de los hogares y sus diferencias.
<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2020.rds")
casen2020 <- mutate_if(casen2020, is.factor, as.character)
casen2020 <- unique(casen2020$region)
region_20
<- data.frame()
tabla_prom_reg
for (i in region_20) {
<- filter(casen2020, casen2020$region == i)
casen_fh <- casen_fh[,c("region","folio","ytrabajocor","ytrabajocorh")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh<- mutate_at(casen_fh, c("ytrabajocor"), ~replace(., is.na(.), 0))
casen_fh # construimos la tabla de frecuencias para familias
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
# unimos frecuencias con ingresos
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[!duplicated(repetidos2$folio ), ]
rr <- repetidos2
rrr # determ,inamos el promedio
<- data.frame(
tabla_reg region = i,
sumap = sum(casen_fh$ytrabajocor),
sumah = sum(rr$ytrabajocorh)
)<- rbind(tabla_prom_reg, tabla_reg)
tabla_prom_reg
}$diferencia <- tabla_prom_reg$sumap-tabla_prom_reg$sumah
tabla_prom_reg
<- tabla_prom_reg[order(tabla_prom_reg$diferencia, decreasing = T ),]
tabla_prom_reg
datatable(tabla_prom_reg, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
options = list(dom = 'Bfrtip',
buttons = list('colvis', list(extend = 'collection',
buttons = list(
list(extend='copy'),
list(extend='excel',
filename = 'hitStats'),
list(extend='pdf',
filename= 'hitStats')),
text = 'Download')), scrollX = TRUE))
Al principio creímos que la diferencia era sustantiva, pero en comparación con las magnitudes de los ingresos y verificándolo empíricamente nos dimos cuenta de que son muy menores.
Nótese la magnitud de la ordenada que está en billones imperiales.
<- plot_ly(tabla_prom_reg, width = 1200, x = ~region, y = ~sumap, name = 'suma ingreso personas', mode = 'markers') %>%
p add_lines()
<- p %>% add_lines(y = ~sumah, name = 'suma ingreso hogar', mode = 'markers')
p p
<- data.frame()
tabla_prom_com
for (i in unique(casen2020$comuna)) {
<- filter(casen2020, casen2020$comuna == i)
casen_fh <- casen_fh[,c("comuna","folio","ytrabajocor","ytrabajocorh")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh<- mutate_at(casen_fh, c("ytrabajocor"), ~replace(., is.na(.), 0))
casen_fh # construimos la tabla de frecuencias para familias
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
# unimos frecuencias con ingresos
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[!duplicated(repetidos2$folio ), ]
rr <- repetidos2
rrr # determ,inamos el promedio
<- data.frame(
tabla_reg comuna = i,
sumap = sum(casen_fh$ytrabajocor),
sumah = sum(rr$ytrabajocorh)
)<- rbind(tabla_prom_com, tabla_reg)
tabla_prom_com
}$diferencia <- tabla_prom_com$sumap-tabla_prom_com$sumah
tabla_prom_comdatatable(tabla_prom_com, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
options = list(dom = 'Bfrtip',
buttons = list('colvis', list(extend = 'collection',
buttons = list(
list(extend='copy'),
list(extend='excel',
filename = 'hitStats'),
list(extend='pdf',
filename= 'hitStats')),
text = 'Download')), scrollX = TRUE))
<- plot_ly(tabla_prom_com, width = 1200, x = ~comuna, y = ~sumap, name = 'suma ingreso personas', mode = 'markers') %>%
p add_lines()
<- p %>% add_lines(y = ~sumah, name = 'suma ingreso hogar', mode = 'markers')
p p
Se encontraron diferencias solamente en 28 comunas
<- filter(tabla_prom_com, tabla_prom_com$diferencia != 0)
diferencias <- diferencias[order(diferencias$diferencia, decreasing = T ),]
diferencias datatable( diferencias, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
options = list(dom = 'Bfrtip',
buttons = list('colvis', list(extend = 'collection',
buttons = list(
list(extend='copy'),
list(extend='excel',
filename = 'hitStats'),
list(extend='pdf',
filename= 'hitStats')),
text = 'Download')), scrollX = TRUE))
Definiciones básicas:
- Hogar
Se consideran miembros de un hogar a todas aquellas personas que, siendo residentes de una misma vivienda, pueden tener o no vínculos de parentesco entre sí y habitualmente hacen vida en común, es decir, se alojan y se alimentan juntas. Dicho de otra forma, habitan en la misma vivienda y tienen presupuesto de alimentación común. Un hogar puede estar constituido por una persona o un grupo de personas. Puede ocurrir que en una vivienda exista uno o más hogares. Sin embargo, un hogar no puede ocupar más de una vivienda. Se excluyen aquellas personas que estuvieron ausentes más de seis meses en el último año, exceptuándose el jefe del hogar y los niños menores de seis meses.
- Núcleo
Un núcleo familiar es una parte de un hogar (es decir, un subconjunto de sus miembros) y puede estar constituido por una persona sola o un grupo de personas. Comúnmente corresponden a parejas o adultos/as junto a una o más personas que dependen de ellos/as. Puede ocurrir que en un hogar exista uno o más núcleos familiares. Sin embargo, no puede darse que un núcleo familiar esté distribuido en más de un hogar.
2 El error
Aquí podemos apreciar el error con precisión.
El par de cuadros siguiente va haciendo la suma en el lado izquierdo de los hogares y en el lado derecho de las personas que deben coincidir exactamente. En el cuadro de la derecha que va sumando los ingresos personales vemos que hasta el folio 110110330501 coincide plenamente con el mismo registro del cuadro de la izquierda que va sumando los ingresos de los hogares hasta el folio 110110330601 donde aparece el primer error de la base de datos. El error consiste en lo siguiente: El cálculo de la derecha que suma los ingresos personales al registro 110110330601 lo hace bien pero en el cuadro de la izquierda la familia 110110330601 figura sin ingresos, lo que va generando valores acumulativos que provocan resultados diferentes. La tabla de las personas que es la de la derecha y es sobre la que hemos estado trabajando se aproxima mejor a la realidad que la de los hogares.
error-110110330601
Tablas origen de comparación
3 Conclusión
Podemos considerar que las diferencias son despreciables y que nuestra metodología es aceptada