library(readxl)
library(tidyverse)
library(janitor)
library(magrittr)
library(radiant)

Lectura de la Base datos:

db <- read_excel("Base de Datos Colegio de Procedencia Matriculados Primer Segundo semestre 2022.xlsx")

Limpieza de la Base de datos:

db %<>% clean_names()

db %>%  str()
## tibble [13,367 × 21] (S3: tbl_df/tbl/data.frame)
##  $ periodo                 : chr [1:13367] "2022-1S" "2022-1S" "2022-1S" "2022-1S" ...
##  $ id_est                  : chr [1:13367] "0031|2018|3672" "2358|2017|3525" "0552|2022|3533" "0670|2018|3539" ...
##  $ cod_sede                : chr [1:13367] "1102" "1102" "1102" "1102" ...
##  $ sede                    : chr [1:13367] "SEDE MEDELLÍN" "SEDE MEDELLÍN" "SEDE MEDELLÍN" "SEDE MEDELLÍN" ...
##  $ cod_facultad            : chr [1:13367] "3068" "3068" "3068" "3068" ...
##  $ facultad                : chr [1:13367] "FACULTAD DE MINAS" "FACULTAD DE MINAS" "FACULTAD DE MINAS" "FACULTAD DE MINAS" ...
##  $ cod_plan                : chr [1:13367] "3672" "3525" "3533" "3539" ...
##  $ plan                    : chr [1:13367] "MAESTRÍA EN INGENIERÍA - INGENIERÍA QUÍMICA" "INGENIERÍA QUÍMICA" "INGENIERÍA DE PETRÓLEOS" "INGENIERÍA QUÍMICA" ...
##  $ tipo_nivel              : chr [1:13367] "POSGRADO" "PREGRADO" "PREGRADO" "PREGRADO" ...
##  $ cod_nivel               : chr [1:13367] "6" "3" "3" "3" ...
##  $ nivel                   : chr [1:13367] "MAESTRIA" "PREGRADO" "PREGRADO" "PREGRADO" ...
##  $ convocatoria            : chr [1:13367] "2020-2S" "2018-1S" "2017-1S" "2022-1S" ...
##  $ apertura                : chr [1:13367] "2020-2S" "2018-1S" "2017-1S" "2022-1S" ...
##  $ tipcolegio              : chr [1:13367] "OFI" "PRV" "OFI" "OFI" ...
##  $ modacademica            : chr [1:13367] "Oficial" "No oficial" "Oficial" "Oficial" ...
##  $ nombre_colegio          : chr [1:13367] "LICEO CENTENARIO IGNACIANO" "COLEGIO MONSEÑOR ALFONSO URIBE JARAMILLO" "LICEO TOMAS EASTMAN" "INSTITUCION EDUCATIVA MADRE LAURA" ...
##  $ cod_departamento_colegio: chr [1:13367] "5" "5" "5" "5" ...
##  $ departamento_colegio    : chr [1:13367] "ANTIOQUIA" "ANTIOQUIA" "ANTIOQUIA" "ANTIOQUIA" ...
##  $ cod_municipio_colegio   : chr [1:13367] "1" "615" "679" "45" ...
##  $ municipio_colegio       : chr [1:13367] "Medellín" "RIONEGRO" "SANTA BARBARA" "APARTADO" ...
##  $ ano_terminacion_colegio : chr [1:13367] "2002" "2017" "2016" "2021" ...
# Variables no representativas:
db$periodo %>% table()
## .
## 2022-1S 
##   13367
db$cod_sede %>% table()
## .
##  1102 
## 13367
db$sede %>% table()
## .
## SEDE MEDELLÍN 
##         13367
db$nivel %>%  table() # Si es representativa?
## .
##       DOCTORADO ESPECIALIZACION        MAESTRIA        PREGRADO 
##             235             376             696           12060

Nueva base de datos con las variables que son representativas:

## filter and sort the dataset
db2 <- db %>%
  select(-periodo, -cod_sede, -sede, -nivel)
register("db2", "db")
# dtab(db2, dec = 2, nr = 100) %>% render()

Variables que apriori se convierten en factor

## change variable type
db2 <- mutate_at(db2, .vars = vars(facultad, tipo_nivel, tipcolegio, modacademica, departamento_colegio, municipio_colegio), .funs = as_factor)

Filtros como tipo de depuración:

# Municipios del Valle de Aburrá
valle_aburra <- c("Medellín", "BELLO","ENVIGADO", "BARBOSA","ITAGUI", "SABANETA",
                  "LA ESTRELLA", "GIRARDOTA","CALDAS", "COPACABANA")

db2.f <- db2 %>% filter(.,tipo_nivel=="PREGRADO" & departamento_colegio=="ANTIOQUIA"
                        & municipio_colegio %in% valle_aburra)

Resumen 1:

result <- pivotr(
  db2.f, 
  cvars = c("municipio_colegio", "modacademica"), 
  nr = Inf
)
# summary()
dtab(result) %>% render()
res1 <- result$tab
register("res1")

Nombres de los Colegios Aplicando el filtro anterior:

result <- pivotr(
  db2.f, 
  cvars = c("modacademica", "nombre_colegio"), 
  nr = Inf
)
# summary()
dtab(result) %>% render()
nom_colegios <- result$tab
register("nom_colegios")