La construcción de la variable Ingreso en la Casen 2017
Ingresos de hogares versus el de las personas
Abstract
Hemos podido descomponer los ingresos de los hogares en 5 categorías que se van construyendo con sumas simples en forma agrupada y las hemos propuesto como las variables idóneas a utilizar en la generación de tablas de contingencia (ttcc). Pero como éstas variables están consideradas como ingresos a nivel de hogar, no podríamos clasificar su promedio dentro de ttcc. Por ejemplo, no podríamos agrupar por sexo, si el valor del ingreso es considerado a nivel de hogar, agrupado. Debemos encontrar las variables que identifiquen los ingresos de las personas. Sospechamos sin embargo, que algunas variables referidas al ingreso coinciden tanto para personas como para hogares. Responderemos también a la pregunta: ¿el ingreso del hogar es el promedio de los ingresos de aquellos que lo componen o es su simple suma?
En una entrega previa propusimos las variables de ingreso que deberíamos considerar y demostramos su descomposición como sumas simples. Iremos analizando por separado estas mismas variables referidas a las personas, las iremos construyendo y comparando con la de los hogares.
Consideraciones:
Tomamos siempre los ingresos corregidos (cor).
Siempre primero haremos el análisis sobre los ingresos del hogar, luego el de las personas y compararemos.
dataset_2017 <- readRDS(file = "casen_2017_c.rds")
# head(dataset_2017,3)
La variable de ingresos que agrupa a todas las demás es ytotcorh, que suma el ingreso monetario más el alquiler imputado.
Observemos estos valores para hogares y personas:
head(dataset_2017$ytotcorh,50)
## [1] 591667 591667 1267932 1267932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 1223990 1223990 1223990 1291133 1291133 1291133
## [19] 444167 885833 993000 800000 800000 5172105 5172105 1020000 1020000
## [28] 905000 905000 1771754 1771754 750000 2501561 2501561 2501561 544945
## [37] 544945 1412500 1412500 1248766 1248766 1248766 1248766 1248766 424932
## [46] 2850000 2850000 2850000 1433364 1433364
head(dataset_2017$ytotcor,50)
## [1] 272000 159667 786932 301000 220000 200000 NA 296634 11052
## [10] 500000 NA 22182 573990 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2022105 550000 170000
## [28] 500000 405000 130000 1191754 400000 404646 932629 814286 109578
## [37] 135367 962500 NA 595000 212675 180000 11091 NA 144932
## [46] 1250000 1000000 NA 1232464 NA
Es imposible que el ingreso de los hogares sea el promedio del ingreso de sus integrantes, en cuyo caso siempre prevalecería la tendencia: \[ ytotcor >= ytotcorh \] o bien \[ ytotcor \approx ytotcorh \]
Los ingresos totales son la suma de todos los ingresos de los integrantes del hogar, con lo que \[ ytotcor <<= ytotcorh \]
Calculemos sus promedios:
c <- as.data.frame(dataset_2017$ytotcor)
mean(c, na.rm=TRUE)
## [1] 415297.9
d <- as.data.frame(dataset_2017$ytotcorh)
mean(d, na.rm=TRUE)
## [1] 1164452
Y obviamente el ingreso del hogar es la suma de los ingresos de sus integrantes.
Verifiquemoslo de otra forma y veamos cuántos son los registros en los que ytotcor difiere de ytotcorh:
a <- dataset_2017$ytotcorh[!(dataset_2017$ytotcorh %in% dataset_2017$ytotcor)]
length(a)
## [1] 132617
difieren 132617 registros, en los que en su gran mayoría:
\[ ytotcor <<= ytotcorh \]
El ingreso de la ocupación principal del hogar (yoprcorh) es una parte del ingreso del trabajo del hogar (ytrabajocorh), por lo que siempre \[ yoprcorh <= ytrabajocorh \]
head(dataset_2017$yoprcorh,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
head(dataset_2017$ytrabajocorh,50)
## [1] 319667 319667 772000 772000 200000 200000 200000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 733333 0 0 0 4000000 4000000 0 0
## [28] 905000 905000 1191754 1191754 0 1746915 1746915 1746915 0
## [37] 0 0 0 345000 345000 345000 345000 345000 0
## [46] 2000000 2000000 2000000 752750 752750
Efectivamente, yoprcorh es una parte del ingreso del trabajo del hogar ytrabajocorh, pero no tiene sentido que el trabajo de la ocupación principal personal sea diferente al ingreso de la ocupación principal del hogar. Corroboremos esto:
head(dataset_2017$yoprcor,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
head(dataset_2017$yoprcorh,50)
## [1] 160000 150000 600000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 480000 NA NA 150000 750000 NA
## [19] 260000 450000 NA NA NA 2000000 2000000 NA NA
## [28] 350000 355000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 340000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
Al parecer ambos campos poseen la misma información.
a <- dataset_2017$yoprcor[!(dataset_2017$yoprcor %in% dataset_2017$yoprcorh)]
a
## numeric(0)
No difiere ningún registro: son iguales. En éste sentido, la Casen posee información redundante.
¿Son diferentes los ingresos del trabajo de personas y hogares?
a <- dataset_2017$ytrabajocorh[!(dataset_2017$ytrabajocorh %in% dataset_2017$ytrabajocor)]
head(a,10)
## [1] 953500 953500 953500 0 0 0 0 0 0
## [10] 1746915
Si.
head(dataset_2017$ytrabajocorh,50)
## [1] 319667 319667 772000 772000 200000 200000 200000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 733333 0 0 0 4000000 4000000 0 0
## [28] 905000 905000 1191754 1191754 0 1746915 1746915 1746915 0
## [37] 0 0 0 345000 345000 345000 345000 345000 0
## [46] 2000000 2000000 2000000 752750 752750
head(dataset_2017$ytrabajocor,50)
## [1] 160000 159667 772000 NA NA 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 733333 NA NA NA 2000000 2000000 NA NA
## [28] 500000 405000 NA 1191754 NA NA 932629 814286 NA
## [37] NA NA NA 345000 NA NA NA NA NA
## [46] 1000000 1000000 NA 752750 NA
y como es de esperar:
\[ ytrabajocor <= ytrabajocorh \]
Tiene sentido que el ingreso autónomo corregido de los hogares sea mayor al personal.
head(dataset_2017$yautcorh,50)
## [1] 428667 428667 992000 992000 420000 420000 420000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5150000 5150000 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2046915 2046915 2046915 0
## [37] 0 962500 962500 975000 975000 975000 975000 975000 140000
## [46] 2250000 2250000 2250000 1232464 1232464
head(dataset_2017$yautcor,50)
## [1] 269000 159667 772000 220000 220000 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2000000 550000 170000
## [28] 500000 405000 130000 1191754 400000 300000 932629 814286 NA
## [37] NA 962500 NA 595000 200000 180000 NA NA 140000
## [46] 1250000 1000000 NA 1232464 NA
Acá nos encontramos con una columna mal calculada en la base de datos de la encuesta Casen 2017. Los ingresos monetarios del hogar no pueden ser iguales a los personales.
head(dataset_2017$ymonecorh,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
head(dataset_2017$ymonecor,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
Pero son iguales:
a <- dataset_2017$ymonecorh[!(dataset_2017$ymonecorh %in% dataset_2017$ymonecor)]
head(a,10)
## numeric(0)
La columna de los subsidios tanto del hogar como de las personas es correcta: ###
head(dataset_2017$ysub,50)
## [1] 3000 NA 14932 81000 NA NA NA 16634 11052 NA
## [11] NA 22182 20490 NA NA NA NA NA NA NA
## [21] NA NA NA NA 22105 NA NA NA NA NA
## [31] NA NA 104646 NA NA 109578 135367 NA NA NA
## [41] 12675 NA 11091 NA 4932 NA NA NA NA NA
head(dataset_2017$ysubh,50)
## [1] 3000 3000 95932 95932 0 0 0 49868 49868 49868
## [11] 49868 49868 20490 20490 20490 0 0 0 0 0
## [21] 0 0 0 22105 22105 0 0 0 0 0
## [31] 0 0 104646 104646 104646 244945 244945 0 0 23766
## [41] 23766 23766 23766 23766 4932 0 0 0 0 0
La columna de los ingresos autónomos tanto del hogar como de las personas es correcta:
head(dataset_2017$yautcor,50)
## [1] 269000 159667 772000 220000 220000 200000 NA 280000 NA
## [10] 500000 NA NA 553500 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2000000 550000 170000
## [28] 500000 405000 130000 1191754 400000 300000 932629 814286 NA
## [37] NA 962500 NA 595000 200000 180000 NA NA 140000
## [46] 1250000 1000000 NA 1232464 NA
head(dataset_2017$yautcorh,50)
## [1] 428667 428667 992000 992000 420000 420000 420000 780000 780000
## [10] 780000 780000 780000 953500 953500 953500 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5150000 5150000 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2046915 2046915 2046915 0
## [37] 0 962500 962500 975000 975000 975000 975000 975000 140000
## [46] 2250000 2250000 2250000 1232464 1232464
Pero el ingreso monetario de las personas, esta mal calculado!
head(dataset_2017$ymonecor,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
el tercer registro debiese ser: 786932, que es la suma: \[ ysub + yautcor \]
\[ 14932 + 772000 \]
Los valores del ingreso monetario para los hogares sin embargo, están bien:
head(dataset_2017$ymonecorh,50)
## [1] 431667 431667 1087932 1087932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 973990 973990 973990 1110833 1110833 1110833
## [19] 264167 735833 843000 500000 500000 5172105 5172105 720000 720000
## [28] 905000 905000 1321754 1321754 400000 2151561 2151561 2151561 244945
## [37] 244945 962500 962500 998766 998766 998766 998766 998766 144932
## [46] 2250000 2250000 2250000 1232464 1232464
El valor correcto para el ingreso monetario individual, se presenta en la variable ytotcor, por lo que deducimos que en éste cálculo no es considerado el alquiler imputado.
head(dataset_2017$ytotcor,50)
## [1] 272000 159667 786932 301000 220000 200000 NA 296634 11052
## [10] 500000 NA 22182 573990 400000 NA 250000 860833 NA
## [19] 264167 735833 843000 500000 NA 3150000 2022105 550000 170000
## [28] 500000 405000 130000 1191754 400000 404646 932629 814286 109578
## [37] 135367 962500 NA 595000 212675 180000 11091 NA 144932
## [46] 1250000 1000000 NA 1232464 NA
head(dataset_2017$ytotcorh,50)
## [1] 591667 591667 1267932 1267932 420000 420000 420000 829868 829868
## [10] 829868 829868 829868 1223990 1223990 1223990 1291133 1291133 1291133
## [19] 444167 885833 993000 800000 800000 5172105 5172105 1020000 1020000
## [28] 905000 905000 1771754 1771754 750000 2501561 2501561 2501561 544945
## [37] 544945 1412500 1412500 1248766 1248766 1248766 1248766 1248766 424932
## [46] 2850000 2850000 2850000 1433364 1433364
El alquiler imputado siempre es el mismo para las personas de un hogar.
head(dataset_2017$yaimcorh,50)
## [1] 160000 160000 180000 180000 0 0 0 0 0 0
## [11] 0 0 250000 250000 250000 180300 180300 180300 180000 150000
## [21] 150000 300000 300000 0 0 300000 300000 0 0 450000
## [31] 450000 350000 350000 350000 350000 300000 300000 450000 450000 250000
## [41] 250000 250000 250000 250000 280000 600000 600000 600000 200900 200900
Se propone utilizar las siguientes variables en la construcción de tablas de contingencia:
Con las variables que hemos elegido podemos deducir toda la estructura de ingresos de la encuesta Casen, tanto para personas como para hogares. La Casen calcula los ingresos individuales sin alquiler imputado, lo que no deja de tener sentido y con lo que las críticas sobre la consecuente infraestimación de la pobreza se desvanece, por lo menos, en éste sentido. Los ingresos del hogar representan su suma, no su promedio. Queda la tarea pendiente de encontrar el nombre exacto de éstas 4 variables en las versiones previas de la Casen.