Análisis propios de los ingresos de la Casen

VE-CC-AJ

DataIntelligence

fecha: 12-08-2021

1 Introducción

En Chile es extremadamente difícil encontar datos oficiales que específicamente desplieguen información sobre cada uno de los ingresos que calcula la Casen en las comunas. Éste trabajo se aproxima a los valores que se pudieron encontrar, pero yerra un porcentaje de 10% a 15%. Intentamos de manera estadistica determinar los valores reales para los promedios en las comunas. Nuestro esfuerzo actual se concentra en expandir corectamente las muestras

2 Los ingresos

Recordemos los cuatro datos cuantitativos fundamentales de la generación de los ingresos:

Tipo Ingreso total Ingreso autónomo Ingreso del trabajo Ingreso de la ocupación principal
año
2020 ytotcor yautcor ytrabajocor yoprcor
2017 ytotcor yautcor ytrabajocor yoprcor
2015 ytotcor yautcor ytrabajocor yoprcor
2013 ytotcor yautcor ytrabajocor yoprcor
2011 ytrabaj yautaj ytrabaj yopraj
2009 ytrabaj yautaj ytrabaj yopraj
2006 ytrabaj yautaj ytrabaj yopraj

Fué un error haber excluído los outlier a los ingresos, pues distorsióno los valores que pudiesemos obtener cercanos a los oficiales.

2.1 El ingreso autónomo per cápita del hogar

Uno de los datos oficiales que pudimos obtener fue el ingreso autónomo per cápita del hogar. Es un póco mas complejo de calcular pero tiene sentido sociológico, mediante dos vías distintas llegamos a ellas. Una es por una tabla bien extensa obtenida de (ver aquí)

Tabla de referencia

Y la otra con un paper (ver aquí)

Por dos instrumentos diferentes oficialmente llegaron a los mismos resultados y son a los cuales intentamos aproximarnos.

Comencemos con una definición del ingreso per cápita del hogar

Debemos hacer una manipulación de la base de datos creando una nueva columna que contenga la cantidad de personas que viven en el hogar para dividir este numero con el primero

Ingreso autónomo per cápita del hogar: Razón entre el ingreso autónomo del hogar y el número de personas que constituyen ese hogar, excluido el servicio doméstico puertas adentro.

Vamos a tomar por ejemplo 5 comunas y a los datos que queremos llegar son estos:

Comuna Ingreso autónomo percápita del hogar, CASEN 2011 ($ de noviembre de 2011)

Santiago 454.444
Cerrillos 197.710
Cerro Navia 148.263
Conchalí 195.703
El Bosque 144.495

Los primeros acercamientos se hará sobre la Casen del 2011, se intentara calcular el promedio del ingreso autónomo del hogar yauthaj y se verificar los resultados con los datos de referencia.

2.1.1 Lectura de casen 2011

casen2011 <- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2011_c.rds")
casen2011 <- mutate_if(casen2011, is.factor, as.character)

2.1.2 Subset de 5 comunas

comuna_ing <- c("Santiago","Cerrillos","Cerro Navia","Conchalí","El Bosque")
recptaculo <- data.frame()
for (cc in comuna_ing) {
  casen_fc <- filter(casen2011, casen2011$comuna ==  cc)
  recptaculo <- rbind(recptaculo,casen_fc)
}

2.1.3 Ejercicio comuna de Santiago

casen_fh <- filter(recptaculo, recptaculo$comuna == "Santiago") 
# casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ] 
 
rr$ing_per_h <- rr$yauthaj/rr$freq_folio
mean(rr$ing_per_h)
## [1] 558701.2
head(rr,10)
##      comuna        folio freq_folio yauthaj expc_full ing_per_h
## 1  Santiago 131011001011          1 1653583        94 1653583.0
## 2  Santiago 131011001041          1  560401        94  560401.0
## 3  Santiago 131011001061          1 1044093        94 1044093.0
## 4  Santiago 131011001121          1 1430074        94 1430074.0
## 5  Santiago 131011001131          1  444180        94  444180.0
## 6  Santiago 131011001161          1  613347        94  613347.0
## 7  Santiago 131011001191          3 1235752        94  411917.3
## 10 Santiago 131011001201          1 1674543        94 1674543.0
## 11 Santiago 131011001211          1  295815        94  295815.0
## 12 Santiago 131011001221          2 3461482        94 1730741.0

Al numero que quisimos llegar fue 454444 y el que obtuvimos fue 5.5870116^{5}

2.1.4 Ejercicio comuna de Cerrillos

casen_fh <- filter(recptaculo, recptaculo$comuna == "Cerrillos") 
# casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ] 
 
rr$ing_per_h <- rr$yauthaj/rr$freq_folio
mean(rr$ing_per_h)
## [1] 202794.2
 head(rr,10) 
##       comuna        folio freq_folio yauthaj expc_full ing_per_h
## 1  Cerrillos 131021001021          4  747250        68  186812.5
## 5  Cerrillos 131021001041          1  123060        68  123060.0
## 6  Cerrillos 131021001051          1       0        68       0.0
## 7  Cerrillos 131021001061          4  794850        68  198712.5
## 11 Cerrillos 131021001071          2   81530        68   40765.0
## 13 Cerrillos 131021001081          1  107000        68  107000.0
## 14 Cerrillos 131021001091          1  115000        68  115000.0
## 15 Cerrillos 131021001101          6  842835        68  140472.5
## 21 Cerrillos 131021001111          2  451295        68  225647.5
## 23 Cerrillos 131021001121          2  272000        68  136000.0

Al numero que quisimos llegar fue 197710 y el que obtuvimos fue 2.0279422^{5}

2.1.5 Ejercicio comuna de Cerro Navia

casen_fh <- filter(recptaculo, recptaculo$comuna == "Cerro Navia") 
# casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ]
 
rr$ing_per_h <- rr$yauthaj/rr$freq_folio
mean(rr$ing_per_h)
## [1] 149432.5
head(rr,10) 
##         comuna        folio freq_folio yauthaj expc_full ing_per_h
## 1  Cerro Navia 131031001021          1   84000       109  84000.00
## 2  Cerro Navia 131031001022          4  351680       109  87920.00
## 6  Cerro Navia 131031001031          2  242870       109 121435.00
## 8  Cerro Navia 131031001032          4  313215       109  78303.75
## 12 Cerro Navia 131031001033          3  203315       109  67771.67
## 15 Cerro Navia 131031001041          4 1158725       109 289681.25
## 19 Cerro Navia 131031001051          3  399800       109 133266.67
## 22 Cerro Navia 131031001061          5       0       109      0.00
## 27 Cerro Navia 131031001071          4  496748       109 124187.00
## 31 Cerro Navia 131031001081          3   41020       109  13673.33

Al numero que quisimos llegar fue 148263 y el que obtuvimos fue 1.494325^{5}

2.1.6 Ejercicio comuna de Conchalí

casen_fh <- filter(recptaculo, recptaculo$comuna == "Conchalí") 
# casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ]
 
rr$ing_per_h <- rr$yauthaj/rr$freq_folio
mean(rr$ing_per_h)
## [1] 187879
 head(rr,10)
##      comuna        folio freq_folio yauthaj expc_full ing_per_h
## 1  Conchalí 131041001011          3  492620        97 164206.67
## 4  Conchalí 131041001031          4 1013657        97 253414.25
## 8  Conchalí 131041001041          6  439600        97  73266.67
## 14 Conchalí 131041001051          3  820712        97 273570.67
## 17 Conchalí 131041001061          3  639508        97 213169.33
## 20 Conchalí 131041001071          2   95970        97  47985.00
## 22 Conchalí 131041001081          5  696010        97 139202.00
## 27 Conchalí 131041002011          1  246120       102 246120.00
## 28 Conchalí 131041002021          4 1199085       102 299771.25
## 32 Conchalí 131041002041          6 1501296       102 250216.00

Al numero que quisimos llegar fue 195703 y el que obtuvimos fue 1.8787901^{5}

2.1.7 Ejercicio comuna de El Bosque

casen_fh <- filter(recptaculo, recptaculo$comuna == "El Bosque") 
# casen_fh <- casen_fh[,c("comuna","ytothaj","yauthaj","ytrabhaj","yoprhaj")]
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ]
 
rr$ing_per_h <- rr$yauthaj/rr$freq_folio
mean(rr$ing_per_h)
## [1] 170325.7
head(rr,10)
##       comuna        folio freq_folio yauthaj expc_full ing_per_h
## 1  El Bosque 131051001011          1  261550       298 261550.00
## 2  El Bosque 131051001012          1  607588       298 607588.00
## 3  El Bosque 131051001021          2 1339581       298 669790.50
## 5  El Bosque 131051001031          5  653015       298 130603.00
## 10 El Bosque 131051001041          6  205147       298  34191.17
## 16 El Bosque 131051001051          3  599496       298 199832.00
## 19 El Bosque 131051001061          1  214305       298 214305.00
## 20 El Bosque 131051002011          2  246120       108 123060.00
## 22 El Bosque 131051002021          4  604667       108 151166.75
## 26 El Bosque 131051002031          3  429280       108 143093.33

Al numero que quisimos llegar fue 144495 y el que obtuvimos fue 1.7032571^{5}

2.1.8 Otras pruebas

Creemos que el error esta en la expanción, intentamos aplicarla

Intentamos expandir

casen_fh <- filter(recptaculo, recptaculo$comuna == "Santiago")  
casen_fh <- casen_fh[,c("comuna","folio","o","yauthaj","expc_full")]
# na.omit(casen_fh)
 
casen_fh$folio <- as.character(casen_fh$folio)
 
tabla <- table(casen_fh$folio)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
rr <- repetidos2[!duplicated(repetidos2$folio), ]

# rr$ing_per_h <- rr$yauthaj/rr$freq_folio
rr$ing_per_hexp <- (rr$yauthaj)*rr$expc_full
# rr$ing_per_h <- rr$yauthaj/(rr$freq_folio*rr$expc_full)
# rr$ing_per_h <- rr$yauthaj*(rr$freq_folio*rr$expc_full)
 head(rr,10)
##      comuna        folio freq_folio yauthaj expc_full ing_per_hexp
## 1  Santiago 131011001011          1 1653583        94    155436802
## 2  Santiago 131011001041          1  560401        94     52677694
## 3  Santiago 131011001061          1 1044093        94     98144742
## 4  Santiago 131011001121          1 1430074        94    134426956
## 5  Santiago 131011001131          1  444180        94     41752920
## 6  Santiago 131011001161          1  613347        94     57654618
## 7  Santiago 131011001191          3 1235752        94    116160688
## 10 Santiago 131011001201          1 1674543        94    157407042
## 11 Santiago 131011001211          1  295815        94     27806610
## 12 Santiago 131011001221          2 3461482        94    325379308

Llegamos al mismo resultado que el punto 2.1.3

promedio <- mean((rr$ing_per_hexp)/(rr$freq_folio*rr$expc_full))
promedio
## [1] 558701.2

Al numero que quisimos llegar fue 454444 y el que obtuvimos fue 5.5870116^{5}

2.1.9 Lectura base de datos casen 2015

casen2015 <- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2015_c.rds")
casen2015 <- mutate_if(casen2015, is.factor, as.character)
# head(casen2015,10)
unique(casen2015$region)
##  [1] "Región de Valparaíso"                             
##  [2] "Región Metropolitana de Santiago"                 
##  [3] "Región del Biobío"                                
##  [4] "Región de Atacama"                                
##  [5] "Región de Tarapacá"                               
##  [6] "Región de Los Lagos"                              
##  [7] "Región de Coquimbo"                               
##  [8] "Región de La Araucanía"                           
##  [9] "Región de Antofagasta"                            
## [10] "Región de Arica y Parinacota"                     
## [11] "Región de Aysén del Gral. Carlos Ibáñez del Campo"
## [12] "Región del Maule"                                 
## [13] "Región del Libertador Gral. Bernardo O Higgins"   
## [14] "Región de Los Ríos"                               
## [15] "Región de Magallanes y de la Antártica Chilena"

2.1.10 Ejercicio con regiones

casen_fh <- filter(casen2015, casen2015$region == "Región Metropolitana de Santiago")
 
casen_fh <- casen_fh[,c("region","folio.x","o.x","ytrabajoCorh","expr_div")]
casen_fh$folio.x <- as.character(casen_fh$folio.x)
  
tabla <- table(casen_fh$folio.x)
tabla <- as.data.frame(tabla)
colnames(tabla) <- c("folio.x","freq_folio")
repetidos2 <- merge(x=casen_fh, y=tabla, by = "folio.x", all.x = T)
repetidos2 <- repetidos2[,c(2,1,6,4,5)]
 
# rr <- repetidos2
rr <- repetidos2[!duplicated(repetidos2$folio.x ), ]

rr$ing_per_h <- rr$ytrabajoCorh*rr$freq_folio*rr$expr_div


kbl(head(rr,30)) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "300px")
region folio.x freq_folio ytrabajoCorh expr_div ing_per_h
1 Región Metropolitana de Santiago 131011001011 2 0 261 0
3 Región Metropolitana de Santiago 131011001021 1 1690000 387 654030000
4 Región Metropolitana de Santiago 131011001031 4 2270000 387 3513960000
8 Región Metropolitana de Santiago 131011001041 2 2160000 387 1671840000
10 Región Metropolitana de Santiago 131011001061 2 4272333 387 3306785742
12 Región Metropolitana de Santiago 131011001071 1 0 349 0
13 Región Metropolitana de Santiago 131011002011 2 1430000 NA NA
15 Región Metropolitana de Santiago 131011002051 2 2088862 NA NA
17 Región Metropolitana de Santiago 131011002071 1 804167 326 262158442
18 Región Metropolitana de Santiago 131011002101 1 1422000 313 445086000
19 Región Metropolitana de Santiago 131011002111 1 862500 223 192337500
20 Región Metropolitana de Santiago 131011002131 2 1370000 223 611020000
22 Región Metropolitana de Santiago 131011002141 3 2479167 313 2327937813
25 Región Metropolitana de Santiago 131011002171 1 900000 223 200700000
26 Región Metropolitana de Santiago 131011002191 1 2705000 313 846665000
27 Región Metropolitana de Santiago 131011002201 1 1015833 326 331161558
28 Región Metropolitana de Santiago 131011002221 2 2400000 313 1502400000
30 Región Metropolitana de Santiago 131011002231 4 657462 313 823142424
34 Región Metropolitana de Santiago 131011002281 3 3263334 NA NA
37 Región Metropolitana de Santiago 131011002301 2 0 211 0
39 Región Metropolitana de Santiago 131011002321 1 120000 232 27840000
40 Región Metropolitana de Santiago 131011002341 2 1188333 223 529996518
42 Región Metropolitana de Santiago 131011003011 5 2900000 NA NA
47 Región Metropolitana de Santiago 131011003031 3 3180000 NA NA
50 Región Metropolitana de Santiago 131011003041 5 885000 NA NA
55 Región Metropolitana de Santiago 131011003071 4 482000 NA NA
59 Región Metropolitana de Santiago 131011003181 1 450000 703 316350000
60 Región Metropolitana de Santiago 131011003191 1 2179000 865 1884835000
61 Región Metropolitana de Santiago 131011003221 2 190000 616 234080000
63 Región Metropolitana de Santiago 131011003222 1 637500 616 392700000

Promedio para ingreso del trabajo del hogar

mean(rr$ytrabajoCorh)
## [1] 977917.8

total de muestas del calculo

-> 17723

Promedio para ingreso del trabajo del hogar de la tabla de referencia

-> 958,652

total de muestas de la tabla de referencia

-> 17723