Tablas de contingencia sobre ingresos de personas y variables sobre las Casen 2006-2020

Por comunas

VE-CC

DataIntelligence
Fecha: 15-09-2021

1 Las variables de ingreso a utilizar serán:

Año Ingreso total Ingreso autónomo Ingreso del trabajo Ingreso ocupación principal
2006 YTOTAJ YAUTAJ YTRABAJ YOPRAJ
2009 YTOTAJ YAUTAJ YTRABAJ YOPRAJ
2011 ytotaj yautaj ytrabaj yopraj
2013 ytotcor yautcor ytrabajoCor yoprCor
2015 ytotcor yautcor ytrabajoCor yoprCor
2017 ytotcor yautcor ytrabajocor yoprcor
2020 ytotcor yautcor ytrabajocor yoprcor


Lectura de bases de datos Casen

dataset_06 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2006_c.rds")
dataset_06 <- mutate_if(dataset_06, is.factor, as.character)
dataset_09 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2009_c.rds")
dataset_09 <- mutate_if(dataset_09, is.factor, as.character)
dataset_11 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2011_c.rds")
dataset_11 <- mutate_if(dataset_11, is.factor, as.character)
dataset_13 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2013_c.rds")
dataset_13 <- mutate_if(dataset_13, is.factor, as.character)
dataset_15 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2015_c.rds")
dataset_15 <- mutate_if(dataset_15, is.factor, as.character)
dataset_17 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2017_c.rds")
dataset_17 <- mutate_if(dataset_17, is.factor, as.character)
dataset_20 <<- readRDS("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/casen/casen_2020.rds")
dataset_20 <- mutate_if(dataset_20, is.factor, as.character)

2 Introducción

La generación de ttcc que agrupa categorías y que después podemos expandir a la población total es independiente a la generación de ingresos que se les asocia pues es el simple promedio de las muestras y no de la población global.

Debido a algún motivo en la ttcc del año 2020 los ingresos se ven reducidos, por lo que se hizo un análisis en búsqueda de un posible error en la base de datos de la Casen 2020. Primero excluimos la variable de alfabetisto en todos los años para descartar un error asociado a ello. Se generó nuevamente la ttcc y el problema de ingreso continuó.

Haciendo un subset de los ingresos totales corregidos por año nos encontramos con múltiples NA y solamente en el año 2020 con 0

tab_ytotcor <- data.frame(
  ytotcor_06 = head(dataset_06$YTOTAJ,20), 
  ytotcor_09 = head(dataset_09$YTOTAJ,20), 
  ytotcor_11 = head(dataset_11$ytotaj,20), 
  ytotcor_13 = head(dataset_13$ytotcor,20), 
  ytotcor_15 = head(dataset_15$ytotcor,20), 
  ytotcor_17 = head(dataset_17$ytotcor,20), 
  ytotcor_20 = head(dataset_20$ytotcor,20)
)
datatable(tab_ytotcor, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
          options = list(dom = 'Bfrtip',
          buttons = list('colvis', list(extend = 'collection',
          buttons = list(
          list(extend='copy'),
          list(extend='excel',
            filename = 'tabla_etnia_ytotcor'),
          list(extend='pdf',
            filename= 'tabla_etnia_ytotcor')),
          text = 'Download')), scrollX = TRUE)) 

3 Generación de tablas de contingencia

df_tablas <- data.frame()

for (var2 in 1:1) {

 
funcion1 <- function(n){

  comunales<-switch(n,"codigos_comunales_2006.rds","codigos_comunales_2009.rds","codigos_comunales_2011-2017.rds","codigos_comunales_2011-2017.rds","codigos_comunales_2011-2017.rds","codigos_comunales_2011-2017.rds","codigos_comunales_2011-2017.rds")
 xx<-switch(n,"2006","2009","2011","2013","2015","2017","2020")
 tanio <<- xx

 
 

if(xx==2006) {
  
  ingreso <- switch(var2,"YTOTAJ","YAUTAJ","YTRABAJ","YOPRAJ")  
eliminated <- mutate_at(dataset_06, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated$YTOTAJ
b <- eliminated$COMUNA
c <- eliminated$SEXO
d <- eliminated$E1 #alfabetismo
e <- eliminated$T4 #etnia 
anio <- 2006
}

if(xx==2009) {

  ingreso <- switch(var2,"YTOTAJ","YAUTAJ","YTRABAJ","YOPRAJ") 
eliminated <- mutate_at(dataset_09, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$COMUNA
c <- eliminated$SEXO
d <- eliminated$E1 #alfabetismo
e <- eliminated$T5 #etnia 
anio <- 2009

}

if(xx==2011) {
  
  ingreso <- switch(var2,"ytotaj","yautaj","ytrabaj","yopraj") 
eliminated <- mutate_at(dataset_11, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$comuna
c <- eliminated$sexo
d <- eliminated$e1 #alfabetismo
e <- eliminated$r6 #etnia 
anio <- 2011

}

if(xx==2013) {
  
  ingreso <- switch(var2,"ytotcor","yautcor","ytrabajoCor","yoprCor") 
eliminated <- mutate_at(dataset_13, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$comuna
c <- eliminated$sexo
d <- eliminated$e1 #alfabetismo
e <- eliminated$r6 #etnia 
anio <- 2013

}
 

if(xx==2015) {
  
  ingreso <- switch(var2,"ytotcor","yautcor","ytrabajoCor","yoprCor") 
eliminated <- mutate_at(dataset_15, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$comuna
c <- eliminated$sexo
d <- eliminated$e1 #alfabetismo
e <- eliminated$r3 #etnia 
anio <- 2015
}

if(xx==2017) {
  
  ingreso <- switch(var2,"ytotcor","yautcor","ytrabajocor","yoprcor")
eliminated <- mutate_at(dataset_17, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$comuna
c <- eliminated$sexo
d <- eliminated$e1 #alfabetismo
e <- eliminated$r3 #etnia 
anio <- 2017
}

if(xx==2020) {
  
  ingreso <- switch(var2,"ytotcor","yautcor","ytrabajocor","yoprcor") 
eliminated <- mutate_at(dataset_20, c(ingreso), ~replace(., is.na(.), 0))
a <- eliminated[,c(ingreso)]
b <- eliminated$comuna
c <- eliminated$sexo
d <- eliminated$sexo #alfabetismo
e <- eliminated$r3 #etnia 
anio <- 2020
}

promedios_grupales <-aggregate(a, by=list(b,  c,  e ), FUN = mean , na.rm = TRUE)
promedios_grupales_sd <-aggregate(a, by=list(b, c,    e ), FUN = sd , na.rm = TRUE)
promedios_grupales_gini <-aggregate(a, by=list(b, c,     e ), FUN = gini , na.rm = TRUE)

promedios_grupales$sd = promedios_grupales_sd$sd.a
promedios_grupales$gini = promedios_grupales_gini$gini.a
df <- promedios_grupales

################ -- frecuencia
expan<-switch(n,"EXPC","EXPC","expc_full","expc","expc_todas","expc","expc")

tabla_matp <-xtabs(eliminated[,(expan)]~b+c +e , data = eliminated)
tabla_matp <- as.data.frame(tabla_matp)
tabla_matp <-tabla_matp[!(tabla_matp$Freq == 0),]
df$freq <- tabla_matp$Freq
df <- df[complete.cases(df), ]
################ 


names(df)[1] <- "Comuna"
names(df)[2] <- "Sexo"
# names(df)[3] <- "Alfabetismo"
names(df)[3] <- "Etnia"
names(df)[4] <- "Promedio del Ingreso"
names(df)[5] <- "Desviación standard"
names(df)[6] <- "Gini"
names(df)[7] <- "freq" 
df$Año = xx

direc_cod_com <- paste0("C:/Users/enamo/Desktop/Shiny-R/Casen_en_pandemia_2020/",comunales)
codigos_comunales <- readRDS(file = direc_cod_com)
names(codigos_comunales)[1] <- "Código"
names(codigos_comunales)[2] <- "Comuna"

tabla_df = merge( x = df, y = codigos_comunales, by = "Comuna", all.x = TRUE)
tabla_df <-tabla_df[!(tabla_df$Promedio == 0),]

tabla_df2 <<- tabla_df 

}

data_df3 <- data.frame()
for (n in 1:7){
  funcion1(n)

  data_df3 <- rbind(data_df3,tabla_df2)

} 
variable_i <- switch(var2,"ytotcor","yautcor","ytrabajocor","yoprcor")

data_df3$var_id <- paste0(variable_i,"_id")
assign(paste0("tabla_etnia_",variable_i),data_df3)
print(paste0("tabla_etnia_",variable_i))
 
 
}
## [1] "tabla_etnia_ytotcor"

3.0.1 Homologación de etnia

tabla_final <- tabla_etnia_ytotcor
tabla_final$Etnia[tabla_final$Etnia == "Aimara" ]  <- "Aymara"
tabla_final$Etnia[tabla_final$Etnia == "No pertenece a ninguno de estos pueblos indígenas" ]  <-  "No pertenece a ningún pueblo indígena"
tabla_final$Etnia[tabla_final$Etnia == "Mapuche"]  <- "Mapuche"
tabla_final$Etnia[tabla_final$Etnia == "Diaguita"]  <- "Diaguita"
tabla_final$Etnia[tabla_final$Etnia == "Atacameño" ]  <- "Atacameño"
tabla_final$Etnia[tabla_final$Etnia == "Atacameño (Likan-Antai)" ]  <- "Atacameño"
tabla_final$Etnia[tabla_final$Etnia == "Atacameño (Likán Antai)" ]  <- "Atacameño"
tabla_final$Etnia[tabla_final$Etnia == "Atacameño (Likán-Antai)" ]  <- "Atacameño"
tabla_final$Etnia[tabla_final$Etnia == "Quechua" ]  <- "Quechua"
tabla_final$Etnia[tabla_final$Etnia == "Yámana o Yagán" ]  <- "Yagán"
tabla_final$Etnia[tabla_final$Etnia == "Yagan" ]  <- "Yagán"
tabla_final$Etnia[tabla_final$Etnia == "Yagán (Yámana)" ]  <- "Yagán"
tabla_final$Etnia[tabla_final$Etnia == "Rapa-Nui o Pascuenses"]  <- "Pascuense"
tabla_final$Etnia[tabla_final$Etnia == "Rapa-Nui"]  <- "Pascuense"
tabla_final$Etnia[tabla_final$Etnia == "Rapa Nui (Pascuense)"]  <- "Pascuense"
tabla_final$Etnia[tabla_final$Etnia == "Rapa Nui"]  <- "Pascuense"
tabla_final$Etnia[tabla_final$Etnia == "Collas"]  <- "Coya"
tabla_final$Etnia[tabla_final$Etnia == "Kawashkar o Alacalufes" ]  <- "Alacalufe"
tabla_final$Etnia[tabla_final$Etnia == "Kawashkar" ]  <- "Alacalufe"
tabla_final$Etnia[tabla_final$Etnia == "Kawésqar (Alacalufes)" ]  <- "Alacalufe"
tabla_final$Etnia[tabla_final$Etnia == "Kawésqar" ]  <- "Alacalufe"
tabla_final$Etnia[tabla_final$Etnia == "Kawaskar" ]  <- "Alacalufe"
tabla_final$Etnia[tabla_final$Etnia == "Chango" ]  <- "Chango"
tabla_final$Etnia[tabla_final$Etnia ==  "Sin dato"]  <- NA
tabla_final$Etnia[tabla_final$Etnia ==  "NS/NR"   ]  <- NA
tabla_final$Etnia[tabla_final$Etnia == "No sabe/no responde" ]  <- NA

4 Ingreso total ytotcor

datatable(tabla_final, extensions = 'Buttons', escape = FALSE, rownames = FALSE,
          options = list(dom = 'Bfrtip',
          buttons = list('colvis', list(extend = 'collection',
          buttons = list(
          list(extend='copy'),
          list(extend='excel',
            filename = 'tabla_etnia_ytotcor'),
          list(extend='pdf',
            filename= 'tabla_etnia_ytotcor')),
          text = 'Download')), scrollX = TRUE))%>%
    formatRound(columns=c("Promedio del Ingreso","Desviación standard","Gini") ,mark = "", digits=3)

4.0.1 Comprobacion de las poblaciones por año a partir de la suma de las frecuencias

for (i in c(2006,2009,2011,2013,2015,2017)) {
 sum_freq <- filter(tabla_final,tabla_final$Año == i)
 print(paste0("Poblacion año ",i))
 print(sum(sum_freq$freq)) 
}
## [1] "Poblacion año 2006"
## [1] 16129516
## [1] "Poblacion año 2009"
## [1] 16581352
## [1] "Poblacion año 2011"
## [1] 16904160
## [1] "Poblacion año 2013"
## [1] 17204714
## [1] "Poblacion año 2015"
## [1] 17489500
## [1] "Poblacion año 2017"
## [1] 17734204

4.0.2 Prueba 1

El resultado que muestra el gráfico representa el promedio del ingreso de las tablas de contingencia asignándole el valor de 0 a los NA de las Casen del 2006 al 2017.

title

4.0.3 Prueba 2

En este gráfico se observa le diferencia que existe entre el promedio del ingreso del 2020 con registros con valor de 0 y sin los valores 0

title