La distribución del ingreso se analiza considerando dos tipos de ingresos: los autónomos y los monetarios.
Los ingresos autónomos corresponden a aquellos que generan los hogares por sus propios medios (sin incorporar las transferencias del Estado) e incluyen por lo tanto los ingresos del trabajo, los ingresos asociados a la posesión de bienes de capital (arriendos, intereses, rentas), aquellos provenientes de jubilaciones y pensiones contributivas, y otros ingresos de origen privado (transferencias de otros miembros de la familia, donaciones). El ingreso autónomo o ingreso primario, se define como todos los pagos que recibe el hogar como resultado de la posesión de factores productivos. Incluye sueldos y salarios, ganancias del trabajo independiente, la autoprovisión de bienes producidos por el hogar, rentas, intereses, pensiones y jubilaciones.
Los ingresos monetarios suman a los ingresos autónomos los subsidios de carácter monetario que distribuye el Estado a través de sus programas sociales. El ingreso monetario corresponde a la suma de los ingresos autónomos que generan los hogares más el conjunto de subsidios monetarios que el Estado transfiere directamente. Respecto de los subsidios monetarios, la Encuesta CASEN recoge información sobre subsidios focalizados y no focalizados. En los subsidios focalizados se incluyen: Pensiones Asistenciales (PASIS), Subsidio Familiar (SUF), Subsidio de Agua Potable (SAP) y los Bonos Chile Solidario. Por otra parte, dentro de los subsidios no focalizados la encuesta recoge información acerca del Subsidio de Cesantía y la Asignación Familiar. En definitiva, el ingreso monetario se define como la suma del ingreso autónomo del hogar y las transferencias monetarias que recibe el hogar desde el Estado.
Ajuste de ingresos
El ajuste de ingresos es realizado por la División de Estadísticas de CEPAL con el objetivo de evaluar la omisión y la subdeclaración de los ingresos reportados por los encuestados. Para esto, CEPAL utiliza la información de Cuentas Nacionales proporcionada por el Banco Central de Chile. La metodología utilizada es la misma que en las versiones anteriores de la Encuesta, lo que asegura la comparabilidad de las estimaciones.
Ingresos del trabajo: Corresponden a los ingresos que obtienen las personas en su ocupación por concepto de sueldos y salarios, monetarios y en especies, ganancias provenientes del trabajo independiente y la auto-provisión de bienes producidos por el hogar.
Y0101AJ Asalariados principal - Sueldos y salarios monetarios (ajustados) (pesos por mes)
Y0101HAJ Asalariados principal - Sueldos y salarios monetarios en el hogar (ajustado) (pesos por mes)
YFAMAJ Ingreso por Asignación familiar en las personas (pesos por mes)
YFAMHAJ Ingreso por Asignación familiar en el hogar (pesos por mes)
YJUBAJ Ingreso por pensión de vejez o jubilación (pesos por mes)
YJUBHAJ Ingreso por pensión de vejez o jubilación, en el hogar (pesos por mes)
YVITAJ Ingreso por renta vitalicia (pesos por mes)
YVITHAJ Ingreso por renta vitalicia, en el hogar (pesos por mes)
YINVAJ Ingreso por pensión de invalidez (pesos por mes)
YINVHAJ Ingreso por pensión de invalidez, en el hogar (pesos por mes)
YMONAJ Ingreso por montepío o pensión de viudez (pesos por mes)
YMONHAJ Ingreso por montepío o pensión de viudez, en el hogar (pesos por mes)
YORFAJ Ingreso por pensión de orfandad (pesos por mes)
YORFHAJ Ingreso por pensión de orfandad, en hogar (pesos por mes)
YOPRAJ Ingreso Ocupación Principal (ajustado) (pesos por mes) Ingreso que obtienen los ocupados en su ocupación principal, ya sea por concepto de trabajo dependiente en el caso de los asalariados, o por concepto de trabajo independiente en el caso de los patrones o empleadores y trabajadores por cuenta propia.
YOPRHAJ Ingreso Ocupación Principal en el hogar (ajustado) (pesos por mes)
YTRABAJ Ingreso del Trabajo (ajustado) (pesos por mes)
YTRABHAJ Ingreso del Trabajo en el hogar (ajustado) (pesos por mes)
YPASAJ PASIS, Pensión Asistencial (pesos por mes)
YPASHAJ PASIS, Pensión Asistencial en el hogar (pesos por mes)
YBSPSAJ Bonos del Sistema de Protección Social
YBSPSHAJ Bonos del Sistema de Protección Social en el hogar
YSUFAJ SUF, Subsidio Único Familiar
YSUFHAJ SUF, Subsidio Único Familiar en el hogar (pesos por mes)
YCESAJ Subsidio de Cesantía (pesos por mes)
YCESHAJ Subsidio de Cesantía en el hogar (pesos por mes)
Y1814HAJ Subsidio Agua Potable (pesos por mes)
YOTPAJ Otro Subsidio del Estado (pesos por mes)
YOTPHAJ Otro Subsidio del Estado en el hogar (pesos por mes)
YSUBAJ Subsidios monetarios (pesos por mes)
YSUBHAJ Subsidios monetarios en el hogar (pesos por mes)
YAUTAJ Ingreso Autónomo (ajustado) (pesos por mes)
YAUTHAJ Ingreso Autónomo del hogar (ajustado) (pesos por mes) Para cada hogar, es la suma de los ingresos autónomos de todos los miembros del hogar, excluido el servicio doméstico puertas adentro.
YTOTAJ Ingreso total (ajustado) (pesos por mes)
YTOTHAJ Ingreso total en el hogar (ajustado) (pesos por mes)
YMONEHAJ Ingreso Monetario del hogar (ajustado) (pesos por mes)
YAIMHAJ Alquiler imputado (ajustado) (pesos por mes)
Fuentes:
1 Casen 2006 Encuesta de Caracterizacion Socioeconomica Nacional. Manual de usuario. Base de datos.
2 SERIE ANÁLISIS DE RESULTADOS DE LA ENCUESTA DE CARACTERIZACIÓN SOCIOECONÓMICA NACIONAL (CASEN 2006) Nº 2 Distribución del Ingreso e Impacto Distributivo del Gasto Social 2006
http://observatorio.ministeriodesarrollosocial.gob.cl/casen/casen-documentos.php?c=107&m=2&a=2006
3 http://observatorio.ministeriodesarrollosocial.gob.cl/glosario.php
Hemos obtenido las frecuencias con las que aparece cierta combinación de categorías en la población, como por ejemplo, etnia, alfabetismo y sexo por comuna. Por nuestro trabajo, ya sabemos que en la comuna de Aisén, los hombres que vivían en zonas rurales y que tenían 89 años el año 2006 eran 8.
Ahora, en vez de frecuencias necesitamos obtener promedios.
Cobra relevancia conocer el promedio de los Ingresos totales ajustados en pesos por mes YTOTAJ que obtienen ciertas categorías de nuestras búsquedas. Y así deseamos saber el promedio de Ingresos totales ajustados que posee cada una de las categorías definidas por sexo, etnia y alfabetismo en las comunas de Chile para el 2006.
Se deberían generar éstas tablas para todas las definiciones de ingreso.
1 Leemos la data.
dataset2006 <- readRDS("dataset2009.rds")
2 Filtramos según nuestros requerimientos y obtenemos 33 registros.
iquique_2006 <- dataset2006[dataset2006$comuna == "iquique ",]
iquique_2006 <- iquique_2006[iquique_2006$sexo == "hombre",]
iquique_2006 <- iquique_2006[iquique_2006$t5 == "aymara",]
iquique_2006 <- iquique_2006[iquique_2006$e1 == "sí",]
nrow(iquique_2006)
## [1] 1
3 Existen unos NA que debemos eliminar y grabemos el resultado, que será con el que vamos a probar nuestro código al final.
data6 <- filter(iquique_2006, rowSums(is.na(iquique_2006)) != ncol(iquique_2006))
nrow(data6)
## [1] 0
write_xlsx(data6,'data6.xlsx')
colnames(iquique_2006)
## [1] "segmento" "idviv" "hogar" "o" "folio" "region"
## [7] "provincia" "comuna" "zona" "estrato" "expr_p" "expp_p"
## [13] "expc_p" "expr" "expp" "expc" "r0" "pco1"
## [19] "sexo" "edad" "ecivil" "nucleo" "pco2" "numper"
## [25] "r7" "r8" "r9" "r10a" "r10b" "r11a"
## [31] "r11b" "r11c" "r11d" "r11e" "r12" "r13a"
## [37] "r13b" "r14" "r15" "r16a" "r16b" "r17"
## [43] "r18a" "r18b" "r18c" "r18d" "r18e" "r18f"
## [49] "r18g" "r18h" "e1" "e2" "e3" "e4"
## [55] "e5" "e6" "e7c" "e7t" "depen" "e8_rbd"
## [61] "e8_dv" "e8_te" "e9" "e10" "e11pbu" "e11pbt"
## [67] "e11pda" "e11bu" "e11bt" "e11bd" "e11bm" "e11bda"
## [73] "e11mu" "e11mt" "e11mda" "e12a" "e12b" "e13t1"
## [79] "e13mb1" "e13t2" "e13mb2" "e14" "e15c1" "e15c2"
## [85] "e16" "e17c1" "e17c2" "o1" "o2" "o3"
## [91] "o4" "o5" "o6" "o7" "o8" "o9"
## [97] "o10" "o11" "c_o12" "c_o13" "o14" "o15"
## [103] "o16" "o17" "o18" "o19" "o20" "o21"
## [109] "o22" "o23" "o24" "o25" "o26" "o27"
## [115] "o28" "o29" "o30" "o31" "o32" "o33"
## [121] "y22ta" "y22tr1" "y22tb" "y22tr2" "y23t1" "y23tr1"
## [127] "y23m1" "y23t2" "y23tr2" "y23m2" "y23t3" "y23tr3"
## [133] "y23m3" "y23t4" "y23tr4" "y23m4" "s1" "s2a"
## [139] "s2b" "s3a1" "s3a2" "s3a3" "s3b1" "s3b2"
## [145] "s4" "s5" "s6" "s7" "s8" "s9"
## [151] "s10" "s11" "s12" "s13" "s14a" "s14b"
## [157] "s14c" "s14d" "s15a" "s15b" "s15c" "s15d"
## [163] "s16a" "s16b" "s16c" "s16d" "s17a" "s17b"
## [169] "s17c" "s17d" "s18a" "s18b" "s18c" "s18d"
## [175] "s19a" "s19b" "s19c" "s19d" "s20a" "s20b"
## [181] "s20c" "s20d" "s21" "s21a" "s21b" "s21c"
## [187] "s21d" "s22" "s22a" "s22b" "s22c" "s23"
## [193] "s24a" "s24b" "s24c" "s25" "s26" "s27"
## [199] "s28" "s29a" "s29b" "t1a" "t1b" "t1c"
## [205] "t2a" "t2b" "t2c" "t3a" "t3b" "t3c"
## [211] "t3d" "t3e" "t4" "t5" "t6" "t7"
## [217] "t8" "t8cod" "t9" "t9cod" "t10" "t10cod"
## [223] "t11" "t12" "t13" "t14" "t15pe" "t15pa"
## [229] "t15me" "t15ma" "t16pc" "t16pt" "t16mc" "t16mt"
## [235] "t17p" "t17m" "t18a" "t18b" "t19a" "t19b"
## [241] "t19c" "t19d" "t19e" "t19f" "t19g" "v1"
## [247] "v2" "v3" "v4" "v5" "v6" "v7a"
## [253] "v7b" "v7c" "v7d" "v7e" "v7f" "v7g"
## [259] "v7h" "v8" "v9" "v10" "v11" "v12a"
## [265] "v12b" "v13a" "v13b" "v14a" "v14b" "v15"
## [271] "v16" "v17" "v18" "v19" "v20" "v21"
## [277] "v22" "v23a" "v23b" "v23c" "v23d" "v23e"
## [283] "v23f" "v23g" "v23h" "v24" "v25" "v26e"
## [289] "v26p" "v26u" "v27" "v28" "v29" "v30"
## [295] "v31" "v32" "esc" "educ" "asiste" "activ"
## [301] "rama" "oficio" "corte" "dau" "daur" "qaut"
## [307] "qautr" "yopraj" "yoprhaj" "ytrabaj" "ytrabhaj" "ypensaj"
## [313] "ypenshaj" "ypresaj" "ypreshaj" "ysfamaj" "ysfamhaj" "y1813haj"
## [319] "ycesaj" "yceshaj" "ybpfeaj" "ybpfehaj" "yfamaj" "yfamhaj"
## [325] "ybpfaj" "ybpfhaj" "y2003haj" "yotpaj" "yotphaj" "yjubaj"
## [331] "yjubhaj" "yvitaj" "yvithaj" "yinvaj" "yinvhaj" "ymonaj"
## [337] "ymonhaj" "yorfaj" "yorfhaj" "ysubaj" "ysubhaj" "yautaj"
## [343] "yauthaj" "ytotaj" "ytothaj" "ymonehaj" "ypchmon" "yaimhaj"
## [349] "yoautaj" "yoauthaj" "indmat" "indsan" "cviv" "iai"
## [355] "iae" "hacinami1" "gradodis"
4 Por fin obtengamos nuestra media.
mean(iquique_2006$ytotaj, na.rm=TRUE)
## [1] NaN
5 Verificamos el número 23 de observaciones de nuestro data6 lanzando una tabla de contingencia con nuestras categorías. Despleguemos sólo las primeras 10 filas.
dataset2006 <- readRDS("dataset2009.rds")
m <- table(dataset2006$comuna, dataset2006$e1, dataset2006$sexo,dataset2006$t4)
tabla <- as.data.frame(m)
head(tabla,10)
## Var1 Var2 Var3 Var4 Freq
## 1 iquique sí hombre sí 7
## 2 alto hospicio sí hombre sí 10
## 3 pozo almonte sí hombre sí 7
## 4 camiña sí hombre sí 14
## 5 colchane sí hombre sí 9
## 6 huara sí hombre sí 7
## 7 pica sí hombre sí 10
## 8 antofagasta sí hombre sí 10
## 9 mejillones sí hombre sí 10
## 10 sierra gorda sí hombre sí 3
6 Generalizamos. Desplegamos las 10 primeras filas.
dataset2006 <- readRDS("dataset2017.rds")
promedios_grupales <-aggregate(dataset2006$ymonecorh, by=list(dataset2006$comuna,dataset2006$e1,dataset2006$r3,dataset2006$sexo), FUN = mean , na.rm = TRUE)
head(promedios_grupales,10)
## Group.1 Group.2 Group.3 Group.4
## 1 Iquique Sí, lee y escribe Aimara Hombre
## 2 Alto Hospicio Sí, lee y escribe Aimara Hombre
## 3 Pozo Almonte Sí, lee y escribe Aimara Hombre
## 4 Camiña Sí, lee y escribe Aimara Hombre
## 5 Huara Sí, lee y escribe Aimara Hombre
## 6 Pica Sí, lee y escribe Aimara Hombre
## 7 Antofagasta Sí, lee y escribe Aimara Hombre
## 8 Mejillones Sí, lee y escribe Aimara Hombre
## 9 Calama Sí, lee y escribe Aimara Hombre
## 10 San Pedro de Atacama Sí, lee y escribe Aimara Hombre
## mean.dataset2006$ymonecorh
## 1 1286252.0
## 2 821349.5
## 3 526931.7
## 4 689979.0
## 5 750289.4
## 6 846285.1
## 7 1187157.3
## 8 1504625.0
## 9 1336521.5
## 10 400000.0
7 Verifiquemos con el excel que guardamos. Volver
Regresión logística.
https://uc-r.github.io/logistic_regression]
dataset2006 <- readRDS("dataset2006.rds")
model1 <- glm(dataset2006$corte ~dataset2006$ytotaj, family = "binomial", data = dataset2006)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(model1)
##
## Call:
## glm(formula = dataset2006$corte ~ dataset2006$ytotaj, family = "binomial",
## data = dataset2006)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -4.3964 0.0202 0.0963 0.2919 0.5628
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.762e+00 1.790e-02 98.40 <2e-16 ***
## dataset2006$ytotaj 2.666e-05 4.271e-07 62.43 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 46508 on 161924 degrees of freedom
## Residual deviance: 36195 on 161923 degrees of freedom
## (106948 observations deleted due to missingness)
## AIC: 36199
##
## Number of Fisher Scoring iterations: 10
Las estimaciones de los coeficientes de la regresión logística caracterizan la relación entre el predictor y la variable de respuesta en una escala log-odds. Entonces, vemos que β1 = -0.00002666, esto indica que una disminución de 1 peso en ytotaj está asociado con un aumento en la probabilidad de ser pobre. Se asocia con un aumento en las probabilidades de ser pobre logarítmico de 0.00002666 unidades.
Podemos interpretar el coeficiente de ytotaj como: por cada aumento de un peso en ytotaj, las probabilidades de no ser pobre aumentan en un factor de 1,00002666.
Podemos medir los intervalos de confianza y la precisión de las estimaciones de los coeficientes calculando sus errores estándar.
β1 tiene un valor p <2e-16, lo que sugiere una relación estadísticamente significativa entre ytotaj y la probabilidad de ser pobre.
dataset2006 %>%
mutate(prob = ifelse(dataset2006$corte == "no pobre", 1, 0)) %>%
ggplot(aes(dataset2006$yauthaj, prob)) +
geom_point(alpha = .15) +
geom_smooth(method = "glm", method.args = list(family = "binomial")) +
ggtitle("Ajuste del modelo de regresión logístico.") +
xlab("ytotaj") +
ylab("Probability of ser pobre")
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 365 rows containing non-finite values (stat_smooth).
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
## Warning: Removed 365 rows containing missing values (geom_point).