library(readxl)
library(tidyverse)
library(janitor)
library(magrittr)
library(radiant)
Lectura de la Base datos:
db <- read_excel("Base de Datos Colegio de Procedencia Matriculados Primer Segundo semestre 2022.xlsx")
Limpieza de la Base de datos:
db %<>% clean_names()
db %>% str()
## tibble [13,367 × 21] (S3: tbl_df/tbl/data.frame)
## $ periodo : chr [1:13367] "2022-1S" "2022-1S" "2022-1S" "2022-1S" ...
## $ id_est : chr [1:13367] "0031|2018|3672" "2358|2017|3525" "0552|2022|3533" "0670|2018|3539" ...
## $ cod_sede : chr [1:13367] "1102" "1102" "1102" "1102" ...
## $ sede : chr [1:13367] "SEDE MEDELLÍN" "SEDE MEDELLÍN" "SEDE MEDELLÍN" "SEDE MEDELLÍN" ...
## $ cod_facultad : chr [1:13367] "3068" "3068" "3068" "3068" ...
## $ facultad : chr [1:13367] "FACULTAD DE MINAS" "FACULTAD DE MINAS" "FACULTAD DE MINAS" "FACULTAD DE MINAS" ...
## $ cod_plan : chr [1:13367] "3672" "3525" "3533" "3539" ...
## $ plan : chr [1:13367] "MAESTRÍA EN INGENIERÍA - INGENIERÍA QUÍMICA" "INGENIERÍA QUÍMICA" "INGENIERÍA DE PETRÓLEOS" "INGENIERÍA QUÍMICA" ...
## $ tipo_nivel : chr [1:13367] "POSGRADO" "PREGRADO" "PREGRADO" "PREGRADO" ...
## $ cod_nivel : chr [1:13367] "6" "3" "3" "3" ...
## $ nivel : chr [1:13367] "MAESTRIA" "PREGRADO" "PREGRADO" "PREGRADO" ...
## $ convocatoria : chr [1:13367] "2020-2S" "2018-1S" "2017-1S" "2022-1S" ...
## $ apertura : chr [1:13367] "2020-2S" "2018-1S" "2017-1S" "2022-1S" ...
## $ tipcolegio : chr [1:13367] "OFI" "PRV" "OFI" "OFI" ...
## $ modacademica : chr [1:13367] "Oficial" "No oficial" "Oficial" "Oficial" ...
## $ nombre_colegio : chr [1:13367] "LICEO CENTENARIO IGNACIANO" "COLEGIO MONSEÑOR ALFONSO URIBE JARAMILLO" "LICEO TOMAS EASTMAN" "INSTITUCION EDUCATIVA MADRE LAURA" ...
## $ cod_departamento_colegio: chr [1:13367] "5" "5" "5" "5" ...
## $ departamento_colegio : chr [1:13367] "ANTIOQUIA" "ANTIOQUIA" "ANTIOQUIA" "ANTIOQUIA" ...
## $ cod_municipio_colegio : chr [1:13367] "1" "615" "679" "45" ...
## $ municipio_colegio : chr [1:13367] "Medellín" "RIONEGRO" "SANTA BARBARA" "APARTADO" ...
## $ ano_terminacion_colegio : chr [1:13367] "2002" "2017" "2016" "2021" ...
# Variables no representativas:
db$periodo %>% table()
## .
## 2022-1S
## 13367
db$cod_sede %>% table()
## .
## 1102
## 13367
db$sede %>% table()
## .
## SEDE MEDELLÍN
## 13367
db$nivel %>% table() # Si es representativa?
## .
## DOCTORADO ESPECIALIZACION MAESTRIA PREGRADO
## 235 376 696 12060
Nueva base de datos con las variables que son representativas:
## filter and sort the dataset
db2 <- db %>%
select(-periodo, -cod_sede, -sede, -nivel)
register("db2", "db")
# dtab(db2, dec = 2, nr = 100) %>% render()
Variables que apriori se convierten en factor
## change variable type
db2 <- mutate_at(db2, .vars = vars(facultad, tipo_nivel, tipcolegio, modacademica, departamento_colegio, municipio_colegio), .funs = as_factor)
Filtros como tipo de depuración:
# Municipios del Valle de Aburrá
valle_aburra <- c("Medellín", "BELLO","ENVIGADO", "BARBOSA","ITAGUI", "SABANETA",
"LA ESTRELLA", "GIRARDOTA","CALDAS", "COPACABANA")
db2.f <- db2 %>% filter(.,tipo_nivel=="PREGRADO" & departamento_colegio=="ANTIOQUIA"
& municipio_colegio %in% valle_aburra)
result <- pivotr(
db2.f,
cvars = c("municipio_colegio", "modacademica"),
nr = Inf
)
# summary()
dtab(result) %>% render()
res1 <- result$tab
register("res1")
result <- pivotr(
db2.f,
cvars = c("modacademica", "nombre_colegio"),
nr = Inf
)
# summary()
dtab(result) %>% render()
nom_colegios <- result$tab
register("nom_colegios")