Correlaciones entre variables del Censo de Viviendas, Hogares y Personas e ingresos promedios comunales de la CASEN 2017.

VE-CC-AJ

DataIntelligence

Jueves 01-06-2021

Abstract

Calculamos correlaciones entre el ingreso promedio comunal multiplicado por la población comunal que llamaremos ingresos expandidos extraído de la Casen 2017 y las frecuencias de categorías de respuesta para todas las variables del Censo de viviendas, hogares y personas al 2017, también extraídas a nivel comunal.

Haremos las correlaciones tanto a nivel Urbano como rural.

Importante es aplicar la libreria dplyr para evitar que en los filtros se desplieguen series de tiempo.

2 Pregunta P15: Nivel del curso más alto aprobado, nivel Urbano

Area: urbano = 1 rural = 2

1 Sala cuna o jardín infantil
2 Prekínder
3 Kínder
4 Especial o diferencial
5 Educación básica
6 Primaria o preparatorio (sistema antiguo)
7 Científico-humanista
8 Técnica profesional
9 Humanidades (sistema antiguo)
10 Técnica comercial, industrial/normalista (sistema antiguo)
11 Técnico superior (1-3 años)
12 Profesional (4 o más años)
13 Magíster
14 Doctorado
98 No aplica
99 Missing

2.3.1 Cálculo de frecuencias

Leemos las respuestas a la pregunta P15 del censo de personas 2017 y obtenemos la tabla de frecuencias por categoría de respuesta:

tabla_con_clave <- readRDS("../censo_personas_con_clave_17")
tabla_con_clave <- filter(tabla_con_clave, tabla_con_clave$AREA == 1)

b <- tabla_con_clave$COMUNA
c <- tabla_con_clave$P15
cross_tab =  xtabs( ~ unlist(b) + unlist(c))
tabla <- as.data.frame(cross_tab)
d <-tabla[!(tabla$Freq == 0),]
d$anio <- "2017"

d_t <- filter(d,d$unlist.c. == 1)
for(i in 2:14){
  d_i <- filter(d,d$unlist.c. == i)
  d_t = merge( x = d_t, y = d_i, by = "unlist.b.", all.x = TRUE)
}

codigos <- d_t$unlist.b.
rango <- seq(1:nrow(d_t))
cadena <- paste("0",codigos[rango], sep = "")
cadena <- substr(cadena,(nchar(cadena)[rango])-(4),6)
codigos <- as.data.frame(codigos)
cadena <- as.data.frame(cadena)
comuna_corr <- cbind(d_t,cadena)
comuna_corr <- comuna_corr[,-c(1),drop=FALSE]

names(comuna_corr)[43] <- "código" 

ingresos_expandidos_2017 <- readRDS("Ingresos_expandidos_urbano_17.rds")

df_2017_2 = merge( x = comuna_corr, y = ingresos_expandidos_2017, by = "código", all.x = TRUE)

2.3.4 Renombre de columnas

names(df_2017_2)[3] <- "Sala cuna"
names(df_2017_2)[6] <- "Prekínder"
names(df_2017_2)[9] <- "Kínder"
names(df_2017_2)[12] <- "Especial"
names(df_2017_2)[15] <- "Educación básica"
names(df_2017_2)[18] <- "Primaria"
names(df_2017_2)[21] <- "Científico-humanista"
names(df_2017_2)[24] <- "Técnica profesional"
names(df_2017_2)[27] <- "Humanidades"
names(df_2017_2)[30] <- "Técnica comercial"
names(df_2017_2)[33] <- "Técnico superior "
names(df_2017_2)[36] <- "Profesional"
names(df_2017_2)[39] <- "Magíster"
names(df_2017_2)[42] <- "Doctorado"

2.3.5 Correlaciones

2.3.5.1 Pearson

my_data <- df_2017_2[, c(3,6,9,12,15,18,21,24,27,30,33,36,39,42,48)]
chart.Correlation(my_data, histogram=TRUE, method = c( "pearson"), pch=20)

2.3.5.2 Spearman

chart.Correlation(my_data, histogram=TRUE, method = c( "spearman"), pch=20)

2.3.5.3 Kendall

chart.Correlation(my_data, histogram=TRUE, method = c( "kendall"), pch=20)

1 Pregunta P15: Nivel del curso más alto aprobado, nivel Rural