Neste arquivo é feita a leitura dos arquivpos via python (pandas), e via R, para cada tabela, temos o glimpse e uma tabela interativa considerando uma amostra de 1K de cada tabela (nenhuma seed está sendo especificada).

:: Libraries

if(!require("reticulate")){install.packages("reticulate")}
if(!require("DT")){install.packages("DT")}
if(!require("tidyverse")){install.packages("tidyverse")}

import pandas as pd

:: Read

from Py

df_alunos_raw = pd.read_excel('../data/raw/Base_Alunos.xlsb', engine='pyxlsb', sheet_name='Candidatos_Alunos')

df_matriculas_raw = pd.read_excel('../data/raw/Base_Alunos.xlsb', engine='pyxlsb', sheet_name='Matriculas')

df_notas_raw = pd.read_excel('../data/raw/Base_Alunos.xlsb', engine='pyxlsb', sheet_name='Notas')

df_v_alunos_raw = pd.read_excel('../data/raw/Base_Candidatos.xlsb', engine='pyxlsb', sheet_name='Candidatos')

df_v_rank_raw = pd.read_excel('../data/raw/Base_Candidatos.xlsb', engine='pyxlsb', sheet_name='Classificação')

df_v_notas_raw = pd.read_excel('../data/raw/Base_Candidatos.xlsb', engine='pyxlsb', sheet_name='Notas')

:: Glimpse

df_alunos_raw

py$df_alunos_raw %>%  glimpse()

## Rows: 999
## Columns: 5
## $ numero_inscricao_candidato <dbl> 15521, 15623, 16650, 16518, 16700, 12774, 3~
## $ numero_matricula_aluno     <dbl> 776, 755, 695, 677, 647, 465, 47, 59, 738, ~
## $ ano_ingresso_aluno         <dbl> 2018, 2018, 2018, 2018, 2018, 2019, 2021, 2~
## $ semestre_ingresso_aluno    <dbl> 61, 61, 61, 61, 61, 61, 62, 62, 61, 61, 61,~
## $ status_matricula_aluno     <chr> "Cancelado", "Cancelado", "Jubilado", "Canc~

py$df_alunos_raw %>%  DT::datatable()

df_matriculas_raw

py$df_matriculas_raw %>%  glimpse()

## Rows: 21,763
## Columns: 11
## $ numero_matricula_aluno      <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, ~
## $ ano                         <dbl> 2021, 2021, 2021, 2021, 2021, 2021, 2021, ~
## $ semestre                    <dbl> 61, 61, 61, 61, 61, 61, 62, 62, 62, 62, 62~
## $ codigo_disciplina           <dbl> 119, 135, 153, 157, 158, 182, 153, 155, 15~
## $ nome_disciplina             <chr> "Disciplina 119", "Disciplina 135", "Disci~
## $ codigo_turma                <chr> "TURMA_72", "TURMA_5", "TURMA_27", "TURMA_~
## $ status_matricula_disciplina <chr> "Aprovado", "Aprovado", "Rep Nota", "Rep N~
## $ codigo_professor            <dbl> 116, 99, 28, 31, 79, 137, 26, 45, 41, 27, ~
## $ nome_professor              <chr> "Professor 116", "Professor 99", "Professo~
## $ serie_aluno                 <dbl> 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 1, ~
## $ nota_final                  <list> 6.8, NaN, 3.29, 3.57, 5.46, 5.81, NaN, Na~

py$df_matriculas_raw %>% sample_n(1000) %>% DT::datatable()

df_notas_raw

py$df_notas_raw %>%  glimpse()

## Rows: 219,580
## Columns: 8
## $ numero_matricula_aluno <dbl> 909, 909, 909, 909, 909, 909, 909, 909, 909, 90~
## $ codigo_disciplina      <dbl> 177, 177, 177, 177, 177, 177, 177, 177, 177, 17~
## $ codigo_turma           <chr> "TURMA_135", "TURMA_135", "TURMA_135", "TURMA_1~
## $ ano                    <dbl> 2017, 2017, 2017, 2017, 2017, 2017, 2017, 2017,~
## $ semestre               <dbl> 61, 61, 61, 61, 61, 61, 61, 61, 61, 61, 61, 61,~
## $ codigo_avaliacao       <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 1, 2, 3, 4, ~
## $ nome_avaliacao         <chr> "Avaliação 1", "Avaliação 2", "Avaliação 3", "A~
## $ score                  <dbl> 1.000, 1.000, 1.000, 4.800, 1.800, NaN, 13.600,~

py$df_notas_raw %>% sample_n(1000) %>% DT::datatable()

df_v_alunos_raw

py$df_v_alunos_raw %>%  glimpse()

## Rows: 7,908
## Columns: 52
## $ numero_inscricao_candidato                    <dbl> 17022, 17029, 17032, 170~
## $ nome_candidato                                <chr> "Candidato 17022", "Cand~
## $ status_inscricao_candidato                    <chr> "Confirmado", "Confirmad~
## $ curso                                         <chr> "ADMINISTRAÇÃO", "ADMINI~
## $ codigo_vestibular                             <dbl> 2006, 2006, 2006, 2006, ~
## $ nome_vestibular                               <chr> "Vestibular 2006", "Vest~
## $ tipo_vestibular                               <chr> "Vestibular tradicional"~
## $ ano_vestibular                                <dbl> 2017, 2017, 2017, 2017, ~
## $ data_inscricao_vestibular                     <dbl> 42674.91, 42674.80, 4267~
## $ sexo_candidato                                <list> "M", "F", "M", "M", "F"~
## $ raca_candidato                                <list> "Branca", "Branca", "Br~
## $ nacionalidade_candidato                       <list> "BRASILEIRA", "BRASILEI~
## $ pais_nascimento_candidato                     <list> "BRASIL", "BRASIL", "BR~
## $ uf_nascimento_candidato                       <list> "SP", "MS", "SP", "SP",~
## $ cidade_nascimento_candidato                   <list> "SAO PAULO", "CAMPO GRA~
## $ candidato_treineiro                           <chr> "S", "N", "N", "N", "N",~
## $ semestre_conclusao_ensino_medio_candidato     <dbl> NaN, NaN, NaN, NaN, NaN,~
## $ ano_conclusao_ensino_medio_candidato          <dbl> NaN, 2015, 2016, 2016, 2~
## $ bairro_residencial_candidato                  <list> "VILA DOM PEDRO I", "vi~
## $ uf_residencial_candidato                      <list> "SP", "SP", "SP", "SP",~
## $ cidade_residencial_candidato                  <list> "SAO PAULO", "SAO PAULO~
## $ necessidade_especial_candidato                <list> NaN, NaN, NaN, NaN, NaN~
## $ necessidade_especial_detalhe_candidato        <list> NaN, NaN, NaN, NaN, NaN~
## $ tipo_escola_ensino_medio_candidato            <list> "Somente em escola part~
## $ cursou_escola_ensino_medio_exterior_candidato <list> "Não", "Não", "Não", "S~
## $ nome_escola_ensino_medio_exterior_candidato   <list> NaN, NaN, NaN, "East Ha~
## $ tipo_ensino_medio_candidato                   <list> "Comum", "Comum", "Comu~
## $ uf_escola_ensino_medio_candidato              <list> "SAO PAULO", "MATO GROS~
## $ cidade_escola_ensino_medio_candidato          <list> "SAO PAULO", "CAMPO GRA~
## $ nome_escola_ensino_medio_candidato            <list> "ETAPA (CAPITAL)", "OUT~
## $ curso_curso_pre_vestibular                    <list> "Não", "Não", "Não", "N~
## $ nome_curso_pre_vestibular                     <list> NaN, NaN, NaN, NaN, NaN~
## $ outra_faculdade_tentada_1                     <list> "USP", "Insper", "Inspe~
## $ outra_faculdade_tentada_curso_1               <list> "ADMINISTRAÇÃO", "ADMIN~
## $ outra_faculdade_tentada_2                     <list> "FGV", NaN, "FGV", "Ins~
## $ outra_faculdade_tentada_curso_2               <list> "ADMINISTRAÇÃO", NaN, "~
## $ outra_faculdade_tentada_3                     <list> NaN, NaN, NaN, NaN, "US~
## $ outra_faculdade_tentada_curso_3               <list> NaN, NaN, NaN, NaN, "OU~
## $ outra_faculdade_tentada_4                     <list> NaN, NaN, NaN, NaN, "UN~
## $ outra_faculdade_tentada_curso_4               <list> NaN, NaN, NaN, NaN, "OU~
## $ outra_faculdade_tentada_5                     <list> NaN, NaN, NaN, NaN, "UN~
## $ outra_faculdade_tentada_curso_5               <list> NaN, NaN, NaN, NaN, "OU~
## $ nivel_ingles_leitura_candidato                <list> "Bem", "Bem", "Bem", "B~
## $ nivel_ingles_compreensao_candidato            <list> "Bem", "Bem", "Bem", "B~
## $ nivel_ingles_fala_candidato                   <list> "Bem", "Bem", "Razoavel~
## $ nivel_ingles_escrita_candidato                <list> "Bem", "Bem", "Razoavel~
## $ situacao_profissional_mae_candidato           <list> "Funcionário Público", ~
## $ situacao_profissional_pai_candidato           <list> "Funcionário de Empresa~
## $ renda_mensal_familia_candidato                <list> "De R$ 25.001,00 a 30.0~
## $ quantidade_pessoas_familia_candidato          <list> 4, 4, 3, 3, 3, 1, "8 ou~
## $ bolsa_ensino_medio_candidato                  <list> "Sim", "Nao", "Nao", "N~
## $ bolsa_percentual_ensino_medio_candidato       <dbl> NaN, NaN, NaN, NaN, NaN,~

py$df_v_alunos_raw %>% sample_n(1000) %>% DT::datatable()

## Warning in instance$preRenderHook(instance): It seems your data is too big
## for client-side DataTables. You may consider server-side processing: https://
## rstudio.github.io/DT/server.html

df_v_rank_raw

py$df_v_rank_raw %>%  glimpse()

## Rows: 7,356
## Columns: 5
## $ numero_inscricao_candidato               <dbl> 17433, 17999, 17434, 17096, 1~
## $ codigo_vestibular                        <dbl> 2006, 2006, 2006, 2006, 2006,~
## $ classificacao_candidato_vestibular       <dbl> 8, 14, 20, 28, 41, 42, 44, 45~
## $ classificacao_candidato_curso_vestibular <dbl> 2, 3, 5, 7, 12, 13, 14, 15, 1~
## $ candidato_desclassificado                <chr> "N", "N", "N", "N", "N", "N",~

py$df_v_rank_raw %>% sample_n(1000) %>% DT::datatable()

df_v_notas_raw

py$df_v_notas_raw %>%  glimpse()

## Rows: 38,995
## Columns: 4
## $ numero_inscricao_candidato <dbl> 7, 8, 8, 8, 9, 12, 12, 12, 12, 12, 12, 17, ~
## $ codigo_prova               <chr> "PF1", "LC", "MATO", "PF1", "PF1", "CHP", "~
## $ prova                      <chr> "RESULTADO CONCURSO 1ª. FASE", "LINGUAGENS ~
## $ nota_prova                 <dbl> 0.00, 538.98, 534.54, 535.87, 0.00, 506.50,~

py$df_v_notas_raw %>% sample_n(1000) %>% DT::datatable()

Notas alunes Insper + read raw data + glimpse