Correlaciones entre variables del CENSO de Viviendas, Hogares y Personas e Ingresos promedios comunales de la CASEN 2017.

VE-CC-AJ

DataIntelligence

Jueves 15-07-2021


1 Nivel nacional URBANO (código 1)

1.1 Pregunta P18: Rama de actividad económica

Categorías de respuesta:

1 A Agricultura, ganadería, silvicultura y pesca
2 B Explotación de minas y canteras
3 C Industrias manufactureras
4 D Suministro de electricidad, gas, vapor y aire acondicionado
5 E Suministro de agua; evacuación de aguas residuales, gestión de desechos y descontaminación
6 F Construcción
7 G Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas
8 H Transporte y almacenamiento
9 I Actividades de alojamiento y de servicios de comidas
10 J Información y comunicaciones
11 K Actividades financieras y de seguros
12 L Actividades inmobiliarias
13 M Actividades profesionales, científicas y técnicas
14 N Actividades de servicios administrativos y de apoyo
15 O Administración pública y defensa; planes de seguridad social de afiliación obligatoria
16 P Enseñanza
17 Q Actividades de atención de la salud humana y de asistencia social
18 R Actividades artísticas, de entretenimiento y recreativas
19 S Otras actividades de servicios
20 T Actividades de los hogares como empleadores; actividades no diferenciadas de los hogares como productores de bienes y servicios para uso propio
21 U Actividades de organizaciones y órganos extraterritoriales
22 Z Rama no declarada

1.2 Generación de tabla de contingencia para la variable P18

tabla_con_clave <- readRDS("censos/censo_personas_con_clave_17")
tabla_con_clave_u <- filter(tabla_con_clave, tabla_con_clave$AREA == 1)
b <- tabla_con_clave_u$COMUNA
c <- tabla_con_clave_u$P18
cross_tab =  xtabs( ~ unlist(b) + unlist(c))
tabla <- as.data.frame(cross_tab)
d <-tabla[!(tabla$Freq == 0),]
d$anio <- "2017"
d <- mutate_if(d, is.factor, as.character)
letras <- c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "Z")
numeros <- seq(letras)
for (n in 1:22) {
  d$unlist.c.[d$unlist.c. == letras[n]] <- n
}

d_t <- filter(d,d$unlist.c. == 1)
for(i in 2:22){
  d_i <- filter(d,d$unlist.c. == i)
  d_t = merge( x = d_t, y = d_i, by = "unlist.b.", all.x = TRUE)
}
codigos <- d_t$unlist.b.
rango <- seq(1:nrow(d_t))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(4),6)
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
comuna_corr <- cbind(d_t,cadena)
comuna_corr <- comuna_corr[,-c(1),drop=FALSE] 
names(comuna_corr)[ncol(comuna_corr)] <- "código"
quitar <- seq(3,(ncol(comuna_corr)-1),3)
comuna_corr <- comuna_corr[,-c(quitar),drop=FALSE]
names(comuna_corr)[2] <- "Agricultura"
names(comuna_corr)[4] <- "Explotación"
names(comuna_corr)[6] <- "Industrias"
names(comuna_corr)[8] <- "Suministro de electricidad"
names(comuna_corr)[10] <- "Suministro de agua"
names(comuna_corr)[12] <- "Construcción"
names(comuna_corr)[14] <- "Comercio"
names(comuna_corr)[16] <- "Transporte"
names(comuna_corr)[18] <- "Actividades de alojamiento"
names(comuna_corr)[20] <- "Información"
names(comuna_corr)[22] <- "Actividades financieras"
names(comuna_corr)[24] <- "Actividades inmobiliarias"
names(comuna_corr)[26] <- "Actividades profesionales"
names(comuna_corr)[28] <- "Actividades de servicios"
names(comuna_corr)[30] <- "Administración pública"
names(comuna_corr)[32] <- "Enseñanza"
names(comuna_corr)[34] <- "salud humana"
names(comuna_corr)[36] <- "Actividades artísticas"
names(comuna_corr)[38] <- "Otras actividades"
names(comuna_corr)[40] <- "Actividades de los hogares"
names(comuna_corr)[42] <- "Actividades de organizaciones"
names(comuna_corr)[44] <- "Rama no declarada"
quitar <- seq(1,(ncol(comuna_corr)-1),2)
comuna_corr <- comuna_corr[,-c(quitar),drop=FALSE]
ingresos_expandidos_2017 <- readRDS("Ingresos_expandidos_urbano_17.rds")
df_2017_2 = merge( x = comuna_corr, y = ingresos_expandidos_2017, by = "código", all.x = TRUE)
union_final_urb <- df_2017_2[,-c(1,(ncol(df_2017_2)-1))]
write_xlsx(union_final_urb, "P18_urbano.xlsx")
data_sum <- summary(union_final_urb)
kbl(head(data_sum)) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "500px")
Agricultura Explotación Industrias Suministro de electricidad Suministro de agua Construcción Comercio Transporte Actividades de alojamiento Información Actividades financieras Actividades inmobiliarias Actividades profesionales Actividades de servicios Administración pública Enseñanza salud humana Actividades artísticas Otras actividades Actividades de los hogares Actividades de organizaciones Rama no declarada ingresos_expandidos
Min. : 7.0 Min. : 1.0 Min. : 8.0 Min. : 1.00 Min. : 1.00 Min. : 20.0 Min. : 22.0 Min. : 8 Min. : 11.0 Min. : 1.0 Min. : 1.0 Min. : 1.00 Min. : 1.0 Min. : 3.0 Min. : 31 Min. : 19.0 Min. : 8.0 Min. : 1.0 Min. : 1.00 Min. : 2.0 Min. : 1.00 Min. : 21 Min. :7.054e+08
1st Qu.: 177.0 1st Qu.: 11.0 1st Qu.: 130.5 1st Qu.: 7.00 1st Qu.: 10.00 1st Qu.: 192.5 1st Qu.: 279.5 1st Qu.: 133 1st Qu.: 80.0 1st Qu.: 12.0 1st Qu.: 8.0 1st Qu.: 3.00 1st Qu.: 32.0 1st Qu.: 71.5 1st Qu.: 167 1st Qu.: 172.5 1st Qu.: 81.5 1st Qu.: 11.0 1st Qu.: 26.25 1st Qu.: 66.5 1st Qu.: 1.00 1st Qu.: 332 1st Qu.:2.954e+09
Median : 374.0 Median : 42.5 Median : 381.0 Median : 21.00 Median : 25.00 Median : 509.0 Median : 827.0 Median : 375 Median : 206.0 Median : 34.0 Median : 25.0 Median : 11.00 Median : 95.0 Median : 244.0 Median : 312 Median : 371.0 Median : 219.0 Median : 32.0 Median : 68.00 Median : 175.0 Median : 4.00 Median : 925 Median :5.697e+09
Mean : 683.9 Mean : 342.9 Mean : 1430.3 Mean : 88.26 Mean : 84.93 Mean : 1789.4 Mean : 3646.0 Mean : 1556 Mean : 916.9 Mean : 453.9 Mean : 410.8 Mean : 138.90 Mean : 831.7 Mean : 1170.0 Mean : 1205 Mean : 1569.2 Mean : 1194.9 Mean : 208.0 Mean : 440.63 Mean : 775.4 Mean : 19.75 Mean : 3177 Mean :1.784e+10
3rd Qu.: 763.5 3rd Qu.: 235.8 3rd Qu.: 1411.0 3rd Qu.: 106.50 3rd Qu.: 88.00 3rd Qu.: 1880.5 3rd Qu.: 3437.5 3rd Qu.: 1366 3rd Qu.: 915.0 3rd Qu.: 241.0 3rd Qu.: 284.0 3rd Qu.: 92.25 3rd Qu.: 544.0 3rd Qu.: 997.5 3rd Qu.: 1161 3rd Qu.: 1479.5 3rd Qu.: 1074.5 3rd Qu.: 180.5 3rd Qu.: 332.50 3rd Qu.: 744.5 3rd Qu.: 12.00 3rd Qu.: 3140 3rd Qu.:1.857e+10
Max. :7524.0 Max. :10050.0 Max. :19283.0 Max. :1064.00 Max. :892.00 Max. :23826.0 Max. :48329.0 Max. :22774 Max. :19373.0 Max. :13901.0 Max. :9449.0 Max. :3604.00 Max. :18435.0 Max. :17771.0 Max. :15434 Max. :17807.0 Max. :15841.0 Max. :3868.0 Max. :6996.00 Max. :10570.0 Max. :485.00 Max. :40698 Max. :1.870e+11

Graficas:

library(plotly)

df_2017_fig <- df_2017_2[,-c((ncol(df_2017_2)-1))]

fig <- plot_ly(df_2017_fig, x = df_2017_fig$código, y = df_2017_fig[,2]
, name = colnames(df_2017_fig[2]), type = 'scatter', mode = 'lines',
                 width=7000, height=400) 

grafica_fn <- function(g){
  fig <<- fig %>% add_trace(y = ~df_2017_fig[,g]
, name = colnames(df_2017_fig[g]), mode = 'lines',
                 width=7000, height=400) 
}
for (g in 3:(ncol(df_2017_2)-1)) {
grafica_fn(g)

}

fig <- fig %>% layout(autosize = T )
fig 

2 Correlaciones

La distribución es asimétrica, poseyendo un sesgo positivo.

df_2017_2f <- filter(union_final_urb, union_final_urb$ingresos_expandidos != 'is.na')
III <- seq(1,(ncol(df_2017_2f)-1),1)
my_data <- df_2017_2f[, c(III)]
tabla <- cor(x=my_data, y=df_2017_2f$ingresos_expandidos, method=c("kendall"), use = "pairwise")
tabla <- as.data.frame(tabla)
tabla <- tabla %>% drop_na()
colnames(tabla) <- "Correlación"
saveRDS(tabla,"tablas_de_corr/C_P18_URB.rds")
tabla %>%
  rownames_to_column("Rama de actividad económica") %>%  
  mutate(Correlación = cell_spec(Correlación, background=ifelse(Correlación == max(Correlación), "#fc0303", "#5cb81f"))) %>% 
  kbl(booktabs = T, linesep = "", escape=FALSE) %>% 
    kable_paper(full_width = F) %>%
    column_spec(1, color = "black")%>%
    column_spec(2, color = "white")
Rama de actividad económica Correlación
Agricultura 0.380638112210999
Explotación 0.563746417299646
Industrias 0.790929528185341
Suministro de electricidad 0.730352966916346
Suministro de agua 0.787818448147303
Construcción 0.805492938442056
Comercio 0.857605299988133
Transporte 0.835944067755939
Actividades de alojamiento 0.801466541784338
Información 0.818093869235539
Actividades financieras 0.802975725465294
Actividades inmobiliarias 0.737045070483162
Actividades profesionales 0.816423326231991
Actividades de servicios 0.808127182650396
Administración pública 0.754548777746294
Enseñanza 0.837000487415407
salud humana 0.831217932660525
Actividades artísticas 0.780732303076189
Otras actividades 0.827109737093137
Actividades de los hogares 0.784601129150131
Actividades de organizaciones 0.456555518087976
Rama no declarada 0.82188206996958

## Kendall

i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "kendall"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"

2.1 Pearson

i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "pearson"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"

2.2 Spearman

i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "spearman"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"

3 Nivel nacional RURAL (código 2)

tabla_con_clave <- readRDS("censos/censo_personas_con_clave_17")
tabla_con_clave_u <- filter(tabla_con_clave, tabla_con_clave$AREA == 2)
b <- tabla_con_clave_u$COMUNA
c <- tabla_con_clave_u$P18
cross_tab =  xtabs( ~ unlist(b) + unlist(c))
tabla <- as.data.frame(cross_tab)
d <-tabla[!(tabla$Freq == 0),]
d$anio <- "2017"
d <- mutate_if(d, is.factor, as.character)
letras <- c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "Z")
numeros <- seq(letras)
for (n in 1:22) {
  d$unlist.c.[d$unlist.c. == letras[n]] <- n
}

d_t <- filter(d,d$unlist.c. == 1)
for(i in 2:22){
  d_i <- filter(d,d$unlist.c. == i)
  d_t = merge( x = d_t, y = d_i, by = "unlist.b.", all.x = TRUE)
}
codigos <- d_t$unlist.b.
rango <- seq(1:nrow(d_t))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(4),6)
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
comuna_corr <- cbind(d_t,cadena)
comuna_corr <- comuna_corr[,-c(1),drop=FALSE] 
names(comuna_corr)[ncol(comuna_corr)] <- "código"
quitar <- seq(3,(ncol(comuna_corr)-1),3)
comuna_corr <- comuna_corr[,-c(quitar),drop=FALSE]
names(comuna_corr)[2] <- "Agricultura"
names(comuna_corr)[4] <- "Explotación"
names(comuna_corr)[6] <- "Industrias"
names(comuna_corr)[8] <- "Suministro de electricidad"
names(comuna_corr)[10] <- "Suministro de agua"
names(comuna_corr)[12] <- "Construcción"
names(comuna_corr)[14] <- "Comercio"
names(comuna_corr)[16] <- "Transporte"
names(comuna_corr)[18] <- "Actividades de alojamiento"
names(comuna_corr)[20] <- "Información"
names(comuna_corr)[22] <- "Actividades financieras"
names(comuna_corr)[24] <- "Actividades inmobiliarias"
names(comuna_corr)[26] <- "Actividades profesionales"
names(comuna_corr)[28] <- "Actividades de servicios"
names(comuna_corr)[30] <- "Administración pública"
names(comuna_corr)[32] <- "Enseñanza"
names(comuna_corr)[34] <- "salud humana"
names(comuna_corr)[36] <- "Actividades artísticas"
names(comuna_corr)[38] <- "Otras actividades"
names(comuna_corr)[40] <- "Actividades de los hogares"
names(comuna_corr)[42] <- "Actividades de organizaciones"
names(comuna_corr)[44] <- "Rama no declarada"
quitar <- seq(1,(ncol(comuna_corr)-1),2)
comuna_corr <- comuna_corr[,-c(quitar),drop=FALSE]
ingresos_expandidos_2017 <- readRDS("Ingresos_expandidos_rural_17.rds")
df_2017_2 = merge( x = comuna_corr, y = ingresos_expandidos_2017, by = "código", all.x = TRUE)
union_final_urb <- df_2017_2[,-c(1,(ncol(df_2017_2)-1))]
write_xlsx(union_final_urb, "P18_rural.xlsx")
data_sum <- summary(union_final_urb)
kbl(head(data_sum)) %>%
  kable_styling(bootstrap_options = c("striped", "hover")) %>%
  kable_paper() %>%
  scroll_box(width = "100%", height = "500px")
Agricultura Explotación Industrias Suministro de electricidad Suministro de agua Construcción Comercio Transporte Actividades de alojamiento Información Actividades financieras Actividades inmobiliarias Actividades profesionales Actividades de servicios Administración pública Enseñanza salud humana Actividades artísticas Otras actividades Actividades de los hogares Actividades de organizaciones Rama no declarada ingresos_expandidos
Min. : 1.0 Min. : 1.00 Min. : 1.00 Min. : 1.00 Min. : 1.0 Min. : 1.00 Min. : 1.0 Min. : 1.0 Min. : 1.00 Min. : 1.00 Min. : 1.0 Min. : 1.000 Min. : 1.00 Min. : 1.00 Min. : 1.0 Min. : 1.00 Min. : 1.00 Min. : 1.00 Min. : 1.00 Min. : 1.00 Min. :1.000 Min. : 2.0 Min. :2.792e+08
1st Qu.: 247.2 1st Qu.: 4.50 1st Qu.: 46.75 1st Qu.: 2.25 1st Qu.: 6.5 1st Qu.: 78.75 1st Qu.: 86.5 1st Qu.: 40.0 1st Qu.: 31.00 1st Qu.: 3.00 1st Qu.: 2.0 1st Qu.: 2.000 1st Qu.: 10.00 1st Qu.: 32.00 1st Qu.: 43.0 1st Qu.: 41.25 1st Qu.: 23.00 1st Qu.: 3.50 1st Qu.: 6.00 1st Qu.: 27.25 1st Qu.:1.000 1st Qu.: 159.2 1st Qu.:1.807e+09
Median : 549.5 Median : 11.00 Median : 105.50 Median : 6.00 Median : 13.0 Median : 150.00 Median : 189.0 Median : 89.0 Median : 54.00 Median : 6.00 Median : 6.0 Median : 4.000 Median : 22.00 Median : 58.00 Median : 74.5 Median : 86.00 Median : 44.50 Median : 9.00 Median : 12.00 Median : 62.50 Median :1.000 Median : 331.0 Median :3.604e+09
Mean : 811.3 Mean : 85.94 Mean : 161.18 Mean : 10.05 Mean : 17.3 Mean : 216.84 Mean : 274.6 Mean : 132.9 Mean : 81.36 Mean : 15.22 Mean : 15.7 Mean : 9.908 Mean : 46.99 Mean : 86.59 Mean :102.9 Mean : 121.70 Mean : 70.19 Mean : 14.68 Mean : 19.21 Mean : 88.73 Mean :1.769 Mean : 431.6 Mean :8.223e+09
3rd Qu.:1109.5 3rd Qu.: 42.50 3rd Qu.: 217.00 3rd Qu.: 12.00 3rd Qu.: 23.0 3rd Qu.: 257.00 3rd Qu.: 347.2 3rd Qu.: 174.0 3rd Qu.: 99.00 3rd Qu.: 14.00 3rd Qu.: 14.0 3rd Qu.: 8.000 3rd Qu.: 45.00 3rd Qu.:104.00 3rd Qu.:122.2 3rd Qu.: 145.00 3rd Qu.: 79.25 3rd Qu.: 17.00 3rd Qu.: 23.00 3rd Qu.:109.75 3rd Qu.:2.000 3rd Qu.: 539.5 3rd Qu.:7.263e+09
Max. :4687.0 Max. :5048.00 Max. :1741.00 Max. :247.00 Max. :151.0 Max. :2271.00 Max. :2374.0 Max. :1282.0 Max. :622.00 Max. :281.00 Max. :417.0 Max. :249.000 Max. :970.00 Max. :643.00 Max. :906.0 Max. :1018.00 Max. :698.00 Max. :156.00 Max. :144.00 Max. :938.00 Max. :6.000 Max. :3147.0 Max. :7.585e+10

Graficas:

library(plotly)

df_2017_fig <- df_2017_2[,-c((ncol(df_2017_2)-1))]

fig <- plot_ly(df_2017_fig, x = df_2017_fig$código, y = df_2017_fig[,2]
, name = colnames(df_2017_fig[2]), type = 'scatter', mode = 'lines',
                 width=7000, height=400) 

grafica_fn <- function(g){
  fig <<- fig %>% add_trace(y = ~df_2017_fig[,g]
, name = colnames(df_2017_fig[g]), mode = 'lines',
                 width=7000, height=400) 
}
for (g in 3:(ncol(df_2017_2)-1)) {
grafica_fn(g)

}

fig <- fig %>% layout(autosize = T )
fig 

4 Correlaciones

La distribución es asimétrica, poseyendo un sesgo positivo.

df_2017_2f <- filter(union_final_urb, union_final_urb$ingresos_expandidos != 'is.na')
III <- seq(1,(ncol(df_2017_2f)-1),1)
my_data <- df_2017_2f[, c(III)]
tabla <- cor(x=my_data, y=df_2017_2f$ingresos_expandidos, method=c("kendall"), use = "pairwise")
tabla <- as.data.frame(tabla)
tabla <- tabla %>% drop_na()
colnames(tabla) <- "Correlación"
saveRDS(tabla,"tablas_de_corr/C_P18_UR.rds")
tabla %>%
  rownames_to_column("Rama de actividad económica") %>%  
  mutate(Correlación = cell_spec(Correlación, background=ifelse(Correlación == max(Correlación), "#fc0303", "#5cb81f"))) %>% 
  kbl(booktabs = T, linesep = "", escape=FALSE) %>% 
    kable_paper(full_width = F) %>%
    column_spec(1, color = "black")%>%
    column_spec(2, color = "white")
Rama de actividad económica Correlación
Agricultura 0.247620325619645
Explotación 0.287257067251342
Industrias 0.39059052554534
Suministro de electricidad 0.349944716698775
Suministro de agua 0.342822390361296
Construcción 0.321352411947203
Comercio 0.448528141446927
Transporte 0.468357701446061
Actividades de alojamiento 0.345282646574854
Información 0.44346042803529
Actividades financieras 0.468071984839144
Actividades inmobiliarias 0.389713790281042
Actividades profesionales 0.485368891657248
Actividades de servicios 0.402914121981236
Administración pública 0.260219032634769
Enseñanza 0.336339126461684
salud humana 0.431308759888783
Actividades artísticas 0.455575636652738
Otras actividades 0.46386408551492
Actividades de los hogares 0.363620365843461
Actividades de organizaciones 0.346771512231856
Rama no declarada 0.375956070801605
## Kendall
i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "kendall"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"

4.1 Pearson

i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "pearson"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"

4.2 Spearman

i <- 1
f <- 11
for (cc in 1:2) {
III <- seq(i,f)
print(paste0(i-1,"-",f-1))
df_2017_2_sub_subset <- union_final_urb[,c(III,ncol(union_final_urb))]
chart.Correlation(df_2017_2_sub_subset, histogram=TRUE, method = c( "spearman"), pch=20)

i <- i+10
f <- f+f
}
## [1] "0-10"

## [1] "10-21"