fecha: 12-08-2021
1 Introducción
En Chile es extremadamente difícil encontar datos oficiales que específicamente desplieguen información sobre cada uno de los ingresos que calcula la Casen en las comunas. Éste trabajo se aproxima a los valores que se pudieron encontrar, pero yerra un porcentaje de 10% a 15%. Intentamos de manera estadistica determinar los valores reales para los promedios en las comunas. Nuestro esfuerzo actual se concentra en expandir corectamente las muestras
2 Los ingresos
Recordemos los cuatro datos cuantitativos fundamentales de la generación de los ingresos:
Tipo | Ingreso total | Ingreso autónomo | Ingreso del trabajo | Ingreso de la ocupación principal |
año | ||||
2020 | ytotcor | yautcor | ytrabajocor | yoprcor |
2017 | ytotcor | yautcor | ytrabajocor | yoprcor |
2015 | ytotcor | yautcor | ytrabajocor | yoprcor |
2013 | ytotcor | yautcor | ytrabajocor | yoprcor |
2011 | ytrabaj | yautaj | ytrabaj | yopraj |
2009 | ytrabaj | yautaj | ytrabaj | yopraj |
2006 | ytrabaj | yautaj | ytrabaj | yopraj |
Fué un error haber excluído los outlier a los ingresos, pues distorsióno los valores que pudiesemos obtener cercanos a los oficiales.
2.1 El ingreso autónomo per cápita del hogar
Uno de los datos oficiales que pudimos obtener fue el ingreso autónomo per cápita del hogar. Es un póco mas complejo de calcular pero tiene sentido sociológico, mediante dos vías distintas llegamos a ellas. Una es por una tabla bien extensa obtenida de (ver aquí)
Tabla de referencia
Y la otra con un paper (ver aquí)
Por dos instrumentos diferentes oficialmente llegaron a los mismos resultados y son a los cuales intentamos aproximarnos.
Comencemos con una definición del ingreso per cápita del hogar
Debemos hacer una manipulación de la base de datos creando una nueva columna que contenga la cantidad de personas que viven en el hogar para dividir este numero con el primero
Ingreso autónomo per cápita del hogar: Razón entre el ingreso autónomo del hogar y el número de personas que constituyen ese hogar, excluido el servicio doméstico puertas adentro.
Vamos a tomar por ejemplo 5 comunas y a los datos que queremos llegar son estos:
Comuna Ingreso autónomo percápita del hogar, CASEN 2011 ($ de noviembre de 2011)
Santiago 454.444
Cerrillos 197.710
Cerro Navia 148.263
Conchalí 195.703
El Bosque 144.495
Los primeros acercamientos se hará sobre la Casen del 2011, se intentara calcular el promedio del ingreso autónomo del hogar yauthaj y se verificar los resultados con los datos de referencia.
2.1.1 Lectura de casen 2011
<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2011_c.rds")
casen2011 <- mutate_if(casen2011, is.factor, as.character) casen2011
2.1.2 Subset de 5 comunas
<- c("Santiago","Cerrillos","Cerro Navia","Conchalí","El Bosque")
comuna_ing <- data.frame()
recptaculo for (cc in comuna_ing) {
<- filter(casen2011, casen2011$comuna == cc)
casen_fc <- rbind(recptaculo,casen_fc)
recptaculo }
2.1.3 Ejercicio comuna de Santiago
<- filter(recptaculo, recptaculo$comuna == "Santiago")
casen_fh # casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
<- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
<- repetidos2[!duplicated(repetidos2$folio), ]
rr
$ing_per_h <- rr$yauthaj/rr$freq_folio
rrmean(rr$ing_per_h)
## [1] 558701.2
head(rr,10)
## comuna folio freq_folio yauthaj expc_full ing_per_h
## 1 Santiago 131011001011 1 1653583 94 1653583.0
## 2 Santiago 131011001041 1 560401 94 560401.0
## 3 Santiago 131011001061 1 1044093 94 1044093.0
## 4 Santiago 131011001121 1 1430074 94 1430074.0
## 5 Santiago 131011001131 1 444180 94 444180.0
## 6 Santiago 131011001161 1 613347 94 613347.0
## 7 Santiago 131011001191 3 1235752 94 411917.3
## 10 Santiago 131011001201 1 1674543 94 1674543.0
## 11 Santiago 131011001211 1 295815 94 295815.0
## 12 Santiago 131011001221 2 3461482 94 1730741.0
Al numero que quisimos llegar fue 454444 y el que obtuvimos fue 5.5870116^{5}
2.1.4 Ejercicio comuna de Cerrillos
<- filter(recptaculo, recptaculo$comuna == "Cerrillos")
casen_fh # casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
<- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
<- repetidos2[!duplicated(repetidos2$folio), ]
rr
$ing_per_h <- rr$yauthaj/rr$freq_folio
rrmean(rr$ing_per_h)
## [1] 202794.2
head(rr,10)
## comuna folio freq_folio yauthaj expc_full ing_per_h
## 1 Cerrillos 131021001021 4 747250 68 186812.5
## 5 Cerrillos 131021001041 1 123060 68 123060.0
## 6 Cerrillos 131021001051 1 0 68 0.0
## 7 Cerrillos 131021001061 4 794850 68 198712.5
## 11 Cerrillos 131021001071 2 81530 68 40765.0
## 13 Cerrillos 131021001081 1 107000 68 107000.0
## 14 Cerrillos 131021001091 1 115000 68 115000.0
## 15 Cerrillos 131021001101 6 842835 68 140472.5
## 21 Cerrillos 131021001111 2 451295 68 225647.5
## 23 Cerrillos 131021001121 2 272000 68 136000.0
Al numero que quisimos llegar fue 197710 y el que obtuvimos fue 2.0279422^{5}
2.1.6 Ejercicio comuna de Conchalí
<- filter(recptaculo, recptaculo$comuna == "Conchalí")
casen_fh # casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
<- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
<- repetidos2[!duplicated(repetidos2$folio), ]
rr
$ing_per_h <- rr$yauthaj/rr$freq_folio
rrmean(rr$ing_per_h)
## [1] 187879
head(rr,10)
## comuna folio freq_folio yauthaj expc_full ing_per_h
## 1 Conchalí 131041001011 3 492620 97 164206.67
## 4 Conchalí 131041001031 4 1013657 97 253414.25
## 8 Conchalí 131041001041 6 439600 97 73266.67
## 14 Conchalí 131041001051 3 820712 97 273570.67
## 17 Conchalí 131041001061 3 639508 97 213169.33
## 20 Conchalí 131041001071 2 95970 97 47985.00
## 22 Conchalí 131041001081 5 696010 97 139202.00
## 27 Conchalí 131041002011 1 246120 102 246120.00
## 28 Conchalí 131041002021 4 1199085 102 299771.25
## 32 Conchalí 131041002041 6 1501296 102 250216.00
Al numero que quisimos llegar fue 195703 y el que obtuvimos fue 1.8787901^{5}
2.1.7 Ejercicio comuna de El Bosque
<- filter(recptaculo, recptaculo$comuna == "El Bosque")
casen_fh # casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
<- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh $folio <- as.character(casen_fh$folio)
casen_fh
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
<- repetidos2[!duplicated(repetidos2$folio), ]
rr
$ing_per_h <- rr$yauthaj/rr$freq_folio
rrmean(rr$ing_per_h)
## [1] 170325.7
head(rr,10)
## comuna folio freq_folio yauthaj expc_full ing_per_h
## 1 El Bosque 131051001011 1 261550 298 261550.00
## 2 El Bosque 131051001012 1 607588 298 607588.00
## 3 El Bosque 131051001021 2 1339581 298 669790.50
## 5 El Bosque 131051001031 5 653015 298 130603.00
## 10 El Bosque 131051001041 6 205147 298 34191.17
## 16 El Bosque 131051001051 3 599496 298 199832.00
## 19 El Bosque 131051001061 1 214305 298 214305.00
## 20 El Bosque 131051002011 2 246120 108 123060.00
## 22 El Bosque 131051002021 4 604667 108 151166.75
## 26 El Bosque 131051002031 3 429280 108 143093.33
Al numero que quisimos llegar fue 144495 y el que obtuvimos fue 1.7032571^{5}
2.1.8 Otras pruebas
Creemos que el error esta en la expanción, intentamos aplicarla
Intentamos expandir
<- filter(recptaculo, recptaculo$comuna == "Santiago")
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh # na.omit(casen_fh)
$folio <- as.character(casen_fh$folio)
casen_fh
<- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
<- repetidos2[!duplicated(repetidos2$folio), ]
rr
# rr$ing_per_h <- rr$yauthaj/rr$freq_folio
$ing_per_hexp <- (rr$yauthaj)*rr$expc_full
rr# rr$ing_per_h <- rr$yauthaj/(rr$freq_folio*rr$expc_full)
# rr$ing_per_h <- rr$yauthaj*(rr$freq_folio*rr$expc_full)
head(rr,10)
## comuna folio freq_folio yauthaj expc_full ing_per_hexp
## 1 Santiago 131011001011 1 1653583 94 155436802
## 2 Santiago 131011001041 1 560401 94 52677694
## 3 Santiago 131011001061 1 1044093 94 98144742
## 4 Santiago 131011001121 1 1430074 94 134426956
## 5 Santiago 131011001131 1 444180 94 41752920
## 6 Santiago 131011001161 1 613347 94 57654618
## 7 Santiago 131011001191 3 1235752 94 116160688
## 10 Santiago 131011001201 1 1674543 94 157407042
## 11 Santiago 131011001211 1 295815 94 27806610
## 12 Santiago 131011001221 2 3461482 94 325379308
Llegamos al mismo resultado que el punto 2.1.3
<- mean((rr$ing_per_hexp)/(rr$freq_folio*rr$expc_full))
promedio promedio
## [1] 558701.2
Al numero que quisimos llegar fue 454444 y el que obtuvimos fue 5.5870116^{5}
2.1.9 Lectura base de datos casen 2015
<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2015_c.rds")
casen2015 <- mutate_if(casen2015, is.factor, as.character)
casen2015 # head(casen2015,10)
unique(casen2015$region)
## [1] "Región de Valparaíso"
## [2] "Región Metropolitana de Santiago"
## [3] "Región del Biobío"
## [4] "Región de Atacama"
## [5] "Región de Tarapacá"
## [6] "Región de Los Lagos"
## [7] "Región de Coquimbo"
## [8] "Región de La Araucanía"
## [9] "Región de Antofagasta"
## [10] "Región de Arica y Parinacota"
## [11] "Región de Aysén del Gral. Carlos Ibáñez del Campo"
## [12] "Región del Maule"
## [13] "Región del Libertador Gral. Bernardo O Higgins"
## [14] "Región de Los Ríos"
## [15] "Región de Magallanes y de la Antártica Chilena"
2.1.10 Ejercicio con regiones
<- filter(casen2015, casen2015$region == "Región Metropolitana de Santiago")
casen_fh
<- casen_fh[,c("region","folio.x","o.x","ytrabajoCorh","expr_div")]
casen_fh $folio.x <- as.character(casen_fh$folio.x)
casen_fh
<- table(casen_fh$folio.x)
tabla <- as.data.frame(tabla)
tabla colnames(tabla) <- c("folio.x","freq_folio")
<- merge(x=casen_fh, y=tabla, by = "folio.x", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
repetidos2
# rr <- repetidos2
<- repetidos2[!duplicated(repetidos2$folio.x ), ]
rr
$ing_per_h <- rr$ytrabajoCorh*rr$freq_folio*rr$expr_div
rr
kbl(head(rr,30)) %>%
kable_styling(bootstrap_options = c("striped", "hover")) %>%
kable_paper() %>%
scroll_box(width = "100%", height = "300px")
region | folio.x | freq_folio | ytrabajoCorh | expr_div | ing_per_h | |
---|---|---|---|---|---|---|
1 | Región Metropolitana de Santiago | 131011001011 | 2 | 0 | 261 | 0 |
3 | Región Metropolitana de Santiago | 131011001021 | 1 | 1690000 | 387 | 654030000 |
4 | Región Metropolitana de Santiago | 131011001031 | 4 | 2270000 | 387 | 3513960000 |
8 | Región Metropolitana de Santiago | 131011001041 | 2 | 2160000 | 387 | 1671840000 |
10 | Región Metropolitana de Santiago | 131011001061 | 2 | 4272333 | 387 | 3306785742 |
12 | Región Metropolitana de Santiago | 131011001071 | 1 | 0 | 349 | 0 |
13 | Región Metropolitana de Santiago | 131011002011 | 2 | 1430000 | NA | NA |
15 | Región Metropolitana de Santiago | 131011002051 | 2 | 2088862 | NA | NA |
17 | Región Metropolitana de Santiago | 131011002071 | 1 | 804167 | 326 | 262158442 |
18 | Región Metropolitana de Santiago | 131011002101 | 1 | 1422000 | 313 | 445086000 |
19 | Región Metropolitana de Santiago | 131011002111 | 1 | 862500 | 223 | 192337500 |
20 | Región Metropolitana de Santiago | 131011002131 | 2 | 1370000 | 223 | 611020000 |
22 | Región Metropolitana de Santiago | 131011002141 | 3 | 2479167 | 313 | 2327937813 |
25 | Región Metropolitana de Santiago | 131011002171 | 1 | 900000 | 223 | 200700000 |
26 | Región Metropolitana de Santiago | 131011002191 | 1 | 2705000 | 313 | 846665000 |
27 | Región Metropolitana de Santiago | 131011002201 | 1 | 1015833 | 326 | 331161558 |
28 | Región Metropolitana de Santiago | 131011002221 | 2 | 2400000 | 313 | 1502400000 |
30 | Región Metropolitana de Santiago | 131011002231 | 4 | 657462 | 313 | 823142424 |
34 | Región Metropolitana de Santiago | 131011002281 | 3 | 3263334 | NA | NA |
37 | Región Metropolitana de Santiago | 131011002301 | 2 | 0 | 211 | 0 |
39 | Región Metropolitana de Santiago | 131011002321 | 1 | 120000 | 232 | 27840000 |
40 | Región Metropolitana de Santiago | 131011002341 | 2 | 1188333 | 223 | 529996518 |
42 | Región Metropolitana de Santiago | 131011003011 | 5 | 2900000 | NA | NA |
47 | Región Metropolitana de Santiago | 131011003031 | 3 | 3180000 | NA | NA |
50 | Región Metropolitana de Santiago | 131011003041 | 5 | 885000 | NA | NA |
55 | Región Metropolitana de Santiago | 131011003071 | 4 | 482000 | NA | NA |
59 | Región Metropolitana de Santiago | 131011003181 | 1 | 450000 | 703 | 316350000 |
60 | Región Metropolitana de Santiago | 131011003191 | 1 | 2179000 | 865 | 1884835000 |
61 | Región Metropolitana de Santiago | 131011003221 | 2 | 190000 | 616 | 234080000 |
63 | Región Metropolitana de Santiago | 131011003222 | 1 | 637500 | 616 | 392700000 |
Promedio para ingreso del trabajo del hogar
mean(rr$ytrabajoCorh)
## [1] 977917.8
total de muestas del calculo
-> 17723
Promedio para ingreso del trabajo del hogar de la tabla de referencia
-> 958,652
total de muestas de la tabla de referencia
-> 17723