La construcción de la variable Ingreso en la Casen 2017
Ingresos de los hogares versus el de las personas
Abstract
Hemos podido descomponer los ingresos de los hogares en 5 categorías que se van construyendo simplemente sumando algunas anteriores. Y las hemos propuesto como las variables necesarias y suficientes para la generación de tablas de contingencia (ttcc) de un conjunto de variables categóricas de la Casen (sexo, alfabetismo, etnia) sobre el promedio de la variable de ingreso de la categoría construída. Surge un problema cuando seleccionamos las variables de ingreso a nivel de hogares, y es que no podemos clasificar su promedio dentro de ttcc. Por ejemplo, no podríamos agrupar por sexo, si el valor del ingreso es considerado a nivel de hogar. Debemos encontrar las variables que identifiquen los ingresos de las personas. En éste trabajo iremos comparando los 5 ingresos propuestos entre personas y hogares para corroborar que las variables que hemos seleccionado a nivel de las personas sean correctas ahondando un poco más dentro de la lógica de construcción de los ingresos de la Casen.
Con un cálculo básico propusimos las variables de Ingreso en la Casen que deberíamos considerar y demostramos su descomposición como sumas simples. Pero lo hicimos a nivel de hogares. Debemos hacerlo a nivel de las personas para construir tablas de contigencia con sentido.
Ya tenemos una propuesta:
año | ||||
---|---|---|---|---|
2017 | ytotcor | yautcor | ytrabajocor | yoprcor |
2015 | ytotcor | yautcor | ytrabajocor | yoprcor |
2013 | ytotcor | yautcor | ytrabajocor | yoprcor |
2011 | ytotaj | yautaj | ytrabaj | yopraj |
2009 | ytotaj | yautaj | ytrabaj | yopraj |
2006 | ytotaj | yautaj | ytrabaj | yopraj |
Si el cálculo de la descomposición en forma de sumas simples es correcta para el año 2017, si estamos hablando de las mismas variables, es correcto para todos los años. Tenemos un trabajo que lo asegura.
Por lo mismo, el análisis que hacemos en éste documento es extensible al rango 2006-2017.
Iremos comparando las variables ytotcor, yautcor, ytrabajocor e yoprcor entre el nivel de personas y hogares e iremos verificando ciertos supuestos básicos que deben subyacer a las construcción de los ingresos.
Originalmente propusimos:
Consideraciones:
Tomamos siempre los ingresos corregidos (cor).
Haremos el análisis sobre los ingresos del hogar, luego sobre el de las personas y compararemos.
# Leemos la base de datos
dataset_2017 <- readRDS(file = "casen_2017_c.rds")
Compararemos ambos resultados en la Casen del 2017.
head(dataset_2017$ytotcorh,50)
## [1] 591667 591667 1267932 1267932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 1223990 1223990 1223990 1291133 1291133 1291133
## [19] 444167 885833 993000 800000 800000 5172105 5172105 1020000 1020000
## [28] 905000 905000 1771754 1771754 750000 2501561 2501561 2501561 544945
## [37] 544945 1412500 1412500 1248766 1248766 1248766 1248766 1248766 424932
## [46] 2850000 2850000 2850000 1433364 1433364
head(dataset_2017$ytotcor,50)
## [1] 272000 159667 786932 301000 220000 200000 NA 296634 11052
## [10] 500000 NA 22182 573990 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2022105 550000 170000
## [28] 500000 405000 130000 1191754 400000 404646 932629 814286 109578
## [37] 135367 962500 NA 595000 212675 180000 11091 NA 144932
## [46] 1250000 1000000 NA 1232464 NA
Si fuera así, el ingreso total del hogar siempre seria menor o igual al ingreso total personal: \[ ytotcor >= ytotcorh \]
pues en el hogar pueden existir miembros que no trabajen.
o bien en el caso de un hogar de dos personas que ganen aproximadamente los mismo: \[ ytotcor \approx ytotcorh \]
Si no son el promedio sospechamos que es la suma total, con lo que se cumpliria que:\[ ytotcor <<= ytotcorh \]
Para verificar lo anterior calculemos los promedios:
c <- as.data.frame(dataset_2017$ytotcor)
mean(c, na.rm=TRUE)
## [1] 415297.9
d <- as.data.frame(dataset_2017$ytotcorh)
mean(d, na.rm=TRUE)
## [1] 1164452
Verifiquémoslo de otra forma y veamos cuántos son los registros en los que ytotcor difiere de ytotcorh:
a <- dataset_2017$ytotcorh[!(dataset_2017$ytotcorh %in% dataset_2017$ytotcor)]
length(a)
## [1] 132617
difieren 132617 registros.
Si es cierto, siempre deberia cumplirse que: \[ yoprcorh < ytrabajocorh \]
Queremos saber si ingreso del trabajo de la ocupación principal personal es diferente al ingreso de la ocupación principal del hogar.
También queremos saber si son menores los ingresos del trabajo de personas que el de los hogares. Especulamos que el ingreso del trabajo del hogar debiese ser mayor y la suma del personal.
Si lo anterior es cierto, siempre debería cumplirse que: \[ ytrabajocor <= ytrabajocorh \]
Los ingresos de la ocupación principal de los hogares:
head(dataset_2017$yoprcorh,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
Los ingresos del trabajo de los hogares:
head(dataset_2017$ytrabajocorh,50)
## [1] 319667 319667 772000 772000 200000 200000 200000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 733333 0 0 0 4000000 4000000 0 0
## [28] 905000 905000 1191754 1191754 0 1746915 1746915 1746915 0
## [37] 0 0 0 345000 345000 345000 345000 345000 0
## [46] 2000000 2000000 2000000 752750 752750
Efectivamente, yoprcorh es una parte del ingreso del trabajo del hogar: ytrabajocorh, pero no tiene sentido que el trabajo de la ocupación principal personal sea diferente al ingreso de la ocupación principal del hogar, porque generalmente es una persona la que trabaja en un núcleo, y si fueran dos, de todas formas sería una la que tendría una ocupación principal en el hogar que también sería su ingreso personal principal. Corroboremos esto en la Casen:
Especulamos que los valores de éstos campos, debiesen ser los mismos.
head(dataset_2017$yoprcor,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
head(dataset_2017$yoprcorh,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
Al parecer ambos campos poseen la misma información.
a <- dataset_2017$yoprcor[!(dataset_2017$yoprcor %in% dataset_2017$yoprcorh)]
a
## numeric(0)
En esta columna, la Casen posee información redundante.
¿Son menores los ingresos del trabajo de personas que el de sus hogares?
Si lo anterior es cierto, siempre deberia cumplirse que: \[ ytrabajocor <= ytrabajocorh \]
a <- dataset_2017$ytrabajocorh[!(dataset_2017$ytrabajocorh %in% dataset_2017$ytrabajocor)]
head(a,10)
## [1] 953500 953500 953500 0 0 0 0 0 0
## [10] 1746915
Si. Los tres primeros registros y el decimo son diferentes.
Ingresos del trabajo de los hogares
head(dataset_2017$ytrabajocorh,50)
## [1] 319667 319667 772000 772000 200000 200000 200000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 733333 0 0 0 4000000 4000000 0 0
## [28] 905000 905000 1191754 1191754 0 1746915 1746915 1746915 0
## [37] 0 0 0 345000 345000 345000 345000 345000 0
## [46] 2000000 2000000 2000000 752750 752750
Ingresos del trabajo de las personas
head(dataset_2017$ytrabajocor,50)
## [1] 160000 159667 772000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 733333 NA NA NA 2000000 2000000 NA NA
## [28] 500000 405000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 345000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
y como es de esperar:
\[ ytrabajocor <<= ytrabajocorh \] Concluímos que el ingreso del trabajo de las personas en el hogar también (como ocurre en el caso de los ingresos totales) es la suma del ingreso del trabajo de las personas del hogar (y no como se podría pensar, el promedio).
Son los ingresos que generan las personas por su cuenta, excluyendo todo tipo de ayuda estatal.
Consiste en la suma del Ingreso del trabajo y otros Ingresos autónomos
Tiene sentido que el ingreso autónomo corregido de los hogares sea mayor al personal.
head(dataset_2017$yautcorh,50)
## [1] 428667 428667 992000 992000 420000 420000 420000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5150000 5150000 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2046915 2046915 2046915 0
## [37] 0 962500 962500 975000 975000 975000 975000 975000 140000
## [46] 2250000 2250000 2250000 1232464 1232464
head(dataset_2017$yautcor,50)
## [1] 269000 159667 772000 220000 220000 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2000000 550000 170000
## [28] 500000 405000 130000 1191754 400000 300000 932629 814286 NA
## [37] NA 962500 NA 595000 200000 180000 NA NA 140000
## [46] 1250000 1000000 NA 1232464 NA
Los ingresos monetarios son coloquialmente toda la plata que en definitiva llega al bolsillo de las personas o de los hogares.
Los ingresos monetarios son la suma de:
Ingreso monetario del hogar:
head(dataset_2017$ymonecorh,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
Ingreso monetario personal:
head(dataset_2017$ymonecor,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
Son iguales:
a <- dataset_2017$ymonecorh[!(dataset_2017$ymonecorh %in% dataset_2017$ymonecor)]
head(a,50)
## numeric(0)
no existe ninguna diferencia en los primeros 50 registros.
Recordemos:
Los ingresos monetarios son la suma de:
La columna de los subsidios tanto del hogar como de las personas es correcta:
Subsidios personales:
head(dataset_2017$ysub,50)
## [1] 3000 NA 14932 81000 NA NA NA 16634 11052 NA
## [11] NA 22182 20490 NA NA NA NA NA NA NA
## [21] NA NA NA NA 22105 NA NA NA NA NA
## [31] NA NA 104646 NA NA 109578 135367 NA NA NA
## [41] 12675 NA 11091 NA 4932 NA NA NA NA NA
Subsidios del hogar:
head(dataset_2017$ysubh,50)
## [1] 3000 3000 95932 95932 0 0 0 49868 49868 49868
## [11] 49868 49868 20490 20490 20490 0 0 0 0 0
## [21] 0 0 0 22105 22105 0 0 0 0 0
## [31] 0 0 104646 104646 104646 244945 244945 0 0 23766
## [41] 23766 23766 23766 23766 4932 0 0 0 0 0
La columna de los ingresos autónomos tanto del hogar como de las personas es correcta, como vimos en 4: “El ingreso autónomo”:
Ingresos autónomos de las personas:
head(dataset_2017$yautcor,50)
## [1] 269000 159667 772000 220000 220000 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2000000 550000 170000
## [28] 500000 405000 130000 1191754 400000 300000 932629 814286 NA
## [37] NA 962500 NA 595000 200000 180000 NA NA 140000
## [46] 1250000 1000000 NA 1232464 NA
Ingresos autónomos de los hogares:
head(dataset_2017$yautcorh,50)
## [1] 428667 428667 992000 992000 420000 420000 420000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5150000 5150000 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2046915 2046915 2046915 0
## [37] 0 962500 962500 975000 975000 975000 975000 975000 140000
## [46] 2250000 2250000 2250000 1232464 1232464
El ingreso monetario de las personas, está mal calculado.
Ingreso monetario de las personas:
head(dataset_2017$ymonecor,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
el tercer registro debiese ser: 786932, que es la suma: \[ ysub + yautcor \]
dataset_2017_ymonecor <- dataset_2017$ysub + dataset_2017$yautcor
dataset_2017_ymonecor[3]
## [1] 786932
Los valores del ingreso monetario para los hogares sin embargo, están bien, los cuales son la suma:
\[ ysubh + yautcorh \] Verifiquemoslo para el tercer registro:
dataset_2017_ymonecorh <- dataset_2017$ysubh + dataset_2017$yautcorh
dataset_2017_ymonecorh[3]
## [1] 1087932
Ingresos monetarios de los hogares:
head(dataset_2017$ymonecorh,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
Y vemos que el tercer registro coincide.
El valor correcto para el ingreso monetario individual, se presenta en la variable ytotcor, por lo que deducimos que en el cálculo del ingreso total de las personas no está considerado el alquiler imputado.
Ingreso total de las personas:
head(dataset_2017$ytotcor,50)
## [1] 272000 159667 786932 301000 220000 200000 NA 296634 11052
## [10] 500000 NA 22182 573990 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2022105 550000 170000
## [28] 500000 405000 130000 1191754 400000 404646 932629 814286 109578
## [37] 135367 962500 NA 595000 212675 180000 11091 NA 144932
## [46] 1250000 1000000 NA 1232464 NA
Ingreso total de los hogares:
Acá se suma al valor del ingreso monetario, el monto del alquiler imputado, lo que no deja de tener sentido:
head(dataset_2017$ytotcorh,50)
## [1] 591667 591667 1267932 1267932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 1223990 1223990 1223990 1291133 1291133 1291133
## [19] 444167 885833 993000 800000 800000 5172105 5172105 1020000 1020000
## [28] 905000 905000 1771754 1771754 750000 2501561 2501561 2501561 544945
## [37] 544945 1412500 1412500 1248766 1248766 1248766 1248766 1248766 424932
## [46] 2850000 2850000 2850000 1433364 1433364
Verifiquémoslo para el tercer registro:
dataset_2017_ytotcorh <- dataset_2017$ymonecorh + dataset_2017$yaimcorh
dataset_2017_ymonecorh[3]
## [1] 1087932
El alquiler imputado siempre es el mismo para las personas que para los hogares.
Alquiler imputado del hogar:
head(dataset_2017$yaimcorh,50)
## [1] 160000 160000 180000 180000 0 0 0 0 0 0
## [11] 0 0 250000 250000 250000 180300 180300 180300 180000 150000
## [21] 150000 300000 300000 0 0 300000 300000 0 0 450000
## [31] 450000 350000 350000 350000 350000 300000 300000 450000 450000 250000
## [41] 250000 250000 250000 250000 280000 600000 600000 600000 200900 200900
Alquiler imputado de las personas:
head(dataset_2017$yaimcor,50)
## [1] 160000 160000 180000 180000 0 0 0 0 0 0
## [11] 0 0 250000 250000 250000 180300 180300 180300 180000 150000
## [21] 150000 300000 300000 0 0 300000 300000 0 0 450000
## [31] 450000 350000 350000 350000 350000 300000 300000 450000 450000 250000
## [41] 250000 250000 250000 250000 280000 600000 600000 600000 200900 200900
Se propone utilizar las siguientes variables en la construcción de tablas de contingencia:
Con las variables que hemos elegido podemos deducir toda la estructura de ingresos de la encuesta Casen, tanto para personas como para hogares. La Casen calcula los ingresos individuales sin alquiler imputado, lo que no deja de tener sentido y con lo que las críticas sobre la consecuente infraestimación de la pobreza se desvanece, por lo menos, en éste sentido. Los ingresos del hogar representan su suma, no su promedio. Queda la tarea pendiente de encontrar el nombre exacto de éstas 4 variables en las versiones previas de la Casen.