Análise de Microdados ENADE 2017

Eliezer Tomé de Paula Neto

02/10/2021

Introdução

Os microdados do Inep se constituem no menor nível de desagregação de dados recolhidos por suas pesquisas estatísticas, avaliações e exames. Neste relatório, realizaremos uma análise descritiva dos Microdados do Exame Nacional de Desempenho dos Estudantes do ano de 2017, especificamente considerando o curso de Engenharia Civil.

Importação da base de dados ENADE/INEP no ano de 2017

enade2017 = read_csv2("MICRODADOS_ENADE_2017.txt") 
head(enade2017)
## # A tibble: 6 x 150
##   NU_ANO CO_IES CO_CATEGAD CO_ORGACAD CO_GRUPO CO_CURSO CO_MODALIDADE
##    <dbl>  <dbl>      <dbl>      <dbl>    <dbl>    <dbl>         <dbl>
## 1   2017      1          1      10028     5710        3             1
## 2   2017      1          1      10028     5710        3             1
## 3   2017      1          1      10028     5710        3             1
## 4   2017      1          1      10028     5710        3             1
## 5   2017      1          1      10028     5710        3             1
## 6   2017      1          1      10028     5710        3             1
## # ... with 143 more variables: CO_MUNIC_CURSO <dbl>, CO_UF_CURSO <dbl>,
## #   CO_REGIAO_CURSO <dbl>, NU_IDADE <dbl>, TP_SEXO <chr>, ANO_FIM_EM <dbl>,
## #   ANO_IN_GRAD <dbl>, CO_TURNO_GRADUACAO <dbl>, TP_INSCRICAO_ADM <dbl>,
## #   TP_INSCRICAO <dbl>, NU_ITEM_OFG <dbl>, NU_ITEM_OFG_Z <dbl>,
## #   NU_ITEM_OFG_X <dbl>, NU_ITEM_OFG_N <dbl>, NU_ITEM_OCE <dbl>,
## #   NU_ITEM_OCE_Z <dbl>, NU_ITEM_OCE_X <dbl>, NU_ITEM_OCE_N <dbl>,
## #   DS_VT_GAB_OFG_ORIG <chr>, DS_VT_GAB_OFG_FIN <chr>, ...

Considerando o dataframe importado, observamos um grande quantidade de variáveis a serem analisadas. Atentendo à necessidade expressa na solicitação de análise dos microdados em questão, selecionaremos apenas as seguintes variáveis do dataframe completo:

  • NT_OBJ_FG: Nota bruta na parte objetiva da formação geral. (valor de 0 a 100);
  • CO_GRUPO: Código da área de enquadramento do curso no Enade;
  • CO_REGIAO_CURSO: Código da região de funcionamento do curso;
  • QE_I02: Etnia do estudante;
  • CO_TURNO_GRADUACAO: Código do turno de graduação;
microdados_enade_filtrados= enade2017 %>% dplyr::select(CO_GRUPO,
                                                        CO_REGIAO_CURSO,
                                                        CO_TURNO_GRADUACAO,
                                                        QE_I02,
                                                        NT_OBJ_FG,
                                                        NT_GER
)
head(microdados_enade_filtrados)
## # A tibble: 6 x 6
##   CO_GRUPO CO_REGIAO_CURSO CO_TURNO_GRADUACAO QE_I02 NT_OBJ_FG NT_GER
##      <dbl>           <dbl>              <dbl> <chr>      <dbl>  <dbl>
## 1     5710               5                  3 A           87.5   52.6
## 2     5710               5                  3 D           87.5   63.1
## 3     5710               5                  3 D           87.5   33.7
## 4     5710               5                  3 A           75     58.1
## 5     5710               5                  3 A           75     46.3
## 6     5710               5                  3 F           87.5   64.2

Premissas

Conforme informado anteriormente, nosso objeto de análise consistirá basicamente no curso de Engenharia Civil, desta forma aplicaremos filtro no dataframe acima e ainda faremos os tratamentos iniciais das variáveis qualitativas, tornando-as mais legíveis.

Além do tratamento inicial, realizaremos a retirada das variáveis NA’s. Uma vez que detectamos, como demonstrado abaixo uma incidência dessas variáveis na base. Adicionalmente, avaliamos que a retirada não trará prejuízo nas análises, pelo contrário, tornará os resultados mais assertivos.

#Contabilizando os Na´s
resumo_nas=microdados_eng_civil %>%
  select(everything()) %>%  
  summarise_all(list(~sum(is.na(.))))

#Removendo Na´S De todas As variáveis que possuem NA
microdados_eng_civil_sem_NA=microdados_eng_civil %>% na.omit()

#Verificando de foram retirados os NA´S
resumo_nas_tratado=microdados_eng_civil_sem_NA %>%
  select(everything()) %>%  
  summarise_all(list(~sum(is.na(.))))

Resumo das NA’s na base original, após seleção das variáveis

resumo_nas
## # A tibble: 1 x 6
##   CO_GRUPO NT_OBJ_FG NT_GER Regiao Turno Etnia
##      <int>     <int>  <int>  <int> <int> <int>
## 1        0      4803   4803      0    42  3420

Resumo das NA’s, após o tratamento dos dados

resumo_nas_tratado
## # A tibble: 1 x 6
##   CO_GRUPO NT_OBJ_FG NT_GER Regiao Turno Etnia
##      <int>     <int>  <int>  <int> <int> <int>
## 1        0         0      0      0     0     0
head(microdados_eng_civil_sem_NA)
## # A tibble: 6 x 6
##   CO_GRUPO NT_OBJ_FG NT_GER Regiao       Turno    Etnia             
##      <dbl>     <dbl>  <dbl> <chr>        <chr>    <chr>             
## 1     5710      87.5   52.6 Centro-Oeste Integral Branca            
## 2     5710      87.5   63.1 Centro-Oeste Integral Parda             
## 3     5710      87.5   33.7 Centro-Oeste Integral Parda             
## 4     5710      75     58.1 Centro-Oeste Integral Branca            
## 5     5710      75     46.3 Centro-Oeste Integral Branca            
## 6     5710      87.5   64.2 Centro-Oeste Integral Não quero declarar

Análise das variáveis

Uma vez que as premissas foram estabelecidas e os tratamentos iniciais foram realizados, passaremos agora a observar em detalhes cada variável existente em nossa base atual.

  • CO_GRUPO - (Qualitativa nominal): Código da área de enquadramento do curso no Enade;
describe(microdados_eng_civil_sem_NA$CO_GRUPO)
## microdados_eng_civil_sem_NA$CO_GRUPO 
##        n  missing distinct     Info     Mean      Gmd 
##    47679        0        1        0     5710        0 
##                 
## Value       5710
## Frequency  47679
## Proportion     1
  • regiao - (Qualitativa nominal): Região de funcionamento do curso;
describe(microdados_eng_civil_sem_NA$Regiao)
## microdados_eng_civil_sem_NA$Regiao 
##        n  missing distinct 
##    47679        0        5 
## 
## lowest : Centro-Oeste Nordeste     Norte        Sudeste      Sul         
## highest: Centro-Oeste Nordeste     Norte        Sudeste      Sul         
##                                                                            
## Value      Centro-Oeste     Nordeste        Norte      Sudeste          Sul
## Frequency          4156         8879         2408        24941         7295
## Proportion        0.087        0.186        0.051        0.523        0.153
  • turno - (Qualitativa nominal): Turno de graduação;
describe(microdados_eng_civil_sem_NA$Turno)
## microdados_eng_civil_sem_NA$Turno 
##        n  missing distinct 
##    47679        0        4 
##                                                       
## Value        Integral   Matutino    Noturno Vespertino
## Frequency        7710       6484      31931       1554
## Proportion      0.162      0.136      0.670      0.033
  • etnia - (Qualitativa nominal): Etnia do estudante;
describe(microdados_eng_civil_sem_NA$Etnia)
## microdados_eng_civil_sem_NA$Etnia 
##        n  missing distinct 
##    47679        0        6 
## 
## lowest : Amarela            Branca             Indígena           Não quero declarar Parda             
## highest: Branca             Indígena           Não quero declarar Parda              Preta             
##                                                                    
## Value                 Amarela             Branca           Indígena
## Frequency                1374              28028                143
## Proportion              0.029              0.588              0.003
##                                                                    
## Value      Não quero declarar              Parda              Preta
## Frequency                1139              14112               2883
## Proportion              0.024              0.296              0.060
  • NT_OBJ_FG - (Quantitativa contínua): Nota bruta na parte objetiva da formação geral. (valor de 0 a 100);
describe(microdados_eng_civil_sem_NA$NT_OBJ_FG)
## microdados_eng_civil_sem_NA$NT_OBJ_FG 
##        n  missing distinct     Info     Mean      Gmd 
##    47679        0        9    0.972    55.24     24.3 
## 
## lowest :   0.0  12.5  25.0  37.5  50.0, highest:  50.0  62.5  75.0  87.5 100.0
##                                                                 
## Value        0.0  12.5  25.0  37.5  50.0  62.5  75.0  87.5 100.0
## Frequency    484  1824  4430  7606  9896 10015  7804  4245  1375
## Proportion 0.010 0.038 0.093 0.160 0.208 0.210 0.164 0.089 0.029

Estatística descritiva dos dados

Iniciaremos agora uma análise descritiva dos dados, focando nas notas brutas totais já tratadas com a mesma metodologia das variáveis anteriormente apresentadas.Vamos iniciar pelas medidas gerais.

Quantidade Mínimo Máximo Média Mediana Moda CV Assimetria Curtose
47.679 0 96,4 44,09 43,4 38,1 30,45 0,19 -0,14

Observamos, portanto, que nem todo o espectro de notas foi percorrido, com mínimo igual a 0 e máximo igual a 96,4. Além disso, observamos que mais de 50% dos alunos do curso de Engenharia Civil obtiveram nota inferior à média. (Média = 44,09 e Mediana = 43,4). Observando o Coeficiente de Variação, obtemos valor superior à 25%, ou seja, avaliamos uma maior heterogeneidade dos dados. Com relação a distribuição dos dados, considerando a Assimetria e Curtose, percebemos uma relação entre Média, Mediana e Moda (Média > Mediana > Moda), significando uma Assimetria Positiva ou à direita, confirmada pelo valor obtido, e Platicúrtica, respectivamente. Visualmente, podemos confirmar no gráfico abaixo.

Apenas por questões didáticas, uma vez que essa hipótese já foi descartada anteriormente, analisaremos se a distribuição das notas é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:

## 
##  Shapiro-Wilk normality test
## 
## data:  sample(microdados_eng_civil_sem_NA$NT_GER, 5000)
## W = 0.99741, p-value = 1.625e-07
## 
##  Shapiro-Francia normality test
## 
## data:  sample(microdados_eng_civil_sem_NA$NT_GER, 5000)
## W = 0.99747, p-value = 2.054e-07

Como esperado, ambos os testes rejeitaram a hisótese de que a distribuição dos dados seja Normal (Valor-P < 0,01%).

Análises estratificadas

Analisaremos agora em maiores detalhes o comportamento das notas dos alunos estratificadas nas diversas variáveis categóricas listadas anteriormente: Região, Turno e Etnia.

Análises estratificadas por Região

Regiao Quantidade Mínimo Máximo Média Mediana Moda CV Assimetria Curtose
Sul 7.295 0,0 88,6 47,99 47,70 49,9 27,24 0,05 -0,22
Nordeste 8.879 0,0 90,1 45,07 44,50 34,4 30,53 0,20 -0,15
Nordeste 8.879 0,0 90,1 45,07 44,50 41,5 30,53 0,20 -0,15
Centro-Oeste 4.156 0,0 85,6 44,58 44,05 42,9 30,14 0,09 -0,13
Sudeste 24.941 0,0 96,4 42,75 42,10 38,1 30,86 0,24 -0,06
Norte 2.408 5,1 93,2 41,63 40,90 38,1 30,84 0,29 -0,07

Observamos inicialmente que a Região Nordeste aparece duas vezes na tabela, uma vez que existem duas notas como as mais frequentes (Moda: 34,4 e 41,5). Os melhores desempenhos foram identificados na região Sul e Nordeste, com (Média 47,99 e Mediana 47,70) e (Média 45,07 e Mediana 44,50), ambos com mais de 50% dos alunos com nota superior à média nacional de 44,09. O que podemos confirmar visualmente, conforme gráfico abaixo. Observe que a concentração das notas do Sul se dá em valores estritamente maiores que a média nacional informada. No caso do Nordeste, esses valores estão mais próximos à média nacional, conforme valores na tabela anterior.

Análises estratificadas por Turno

Turno Quantidade Mínimo Máximo Média Mediana Moda CV Assimetria Curtose
Integral 7.710 0 96,4 54,10 54,8 52,3 25,63 -0,26 -0,18
Vespertino 1.554 0 85,0 45,51 45,2 38,1 29,66 0,09 -0,15
Matutino 6.484 0 92,8 45,36 45,1 47,3 28,17 0,16 -0,11
Noturno 31.931 0 90,1 41,34 41,0 38,1 29,48 0,13 -0,07

Analisando os turnos, observamos que o turno Integral, consistentemente, obteve o melhor desempenho, com bastante vantagem perante aos demais (Média 54,10 e Mediana 54,8).

Entendendo essa grande discrepância entre os dados do Turno Integral, vamos analisar em específico esse Turno. Inicialmente, observemos os quartis das notas dos alunos desse turno, conforme abaixo:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0    44.8    54.8    54.1    64.1    96.4

Através do gráfico de boxplot, podemos observar o destaque desse turno frente aos demais. Inclusive, quando comparamos com a média nacional (Linha horizontal contínua incluída no gráfico abaixo), onde o primeiro quartil se posiciona acima da média nacional, ou seja, mais de 75% dos alunos do turno integral tiveram desempenho melhor que a média nacional:

Análises estratificadas por Etnia

Etnia Quantidade Mínimo Máximo Média Mediana Moda CV Assimetria Curtose
Não quero declarar 1.139 5,3 90,1 47,91 47,6 55,8 30,29 0,05 -0,24
Branca 28.028 0,0 96,4 45,11 44,6 38,1 29,77 0,16 -0,16
Amarela 1.374 5,5 81,9 43,02 42,2 44,8 30,58 0,28 -0,07
Parda 14.112 0,0 93,2 42,50 41,9 38,1 30,94 0,24 -0,07
Preta 2.883 0,0 85,0 41,06 40,4 37,9 31,60 0,20 -0,08
Indígena 143 14,2 71,5 40,19 37,7 36,5 32,20 0,17 -0,64
Indígena 143 14,2 71,5 40,19 37,7 37,7 32,20 0,17 -0,64

Observamos inicialmente que a Etnia Indígena aparece duas vezes na tabela, uma vez que existem duas notas como as mais frequentes (Moda: 36,5 e 37,7). Os melhores desempenhos foram identificados na Etnia Branca e na classificação “Não quero declarar”, a qual não temos como inferir maiores informações, com (Média 45,11 e Mediana 44,6) e (Média 47,91 e Mediana 47,6), respectivamente, ambos com mais de 50% dos alunos com nota superior à média nacional de 44,09. O que podemos confirmar visualmente, conforme gráfico abaixo.

Análises cruzadas por Região e Turno

Conforme já mencionado anteriormente, o turno Integral demonstra uma grande vantagem sobre os demais turnos. Neste comparativo, podemos observar que independente da região, essa superioridade se mantém. Mesmo na região Norte, onde temos o pior resultado do turno Integral, ele se mostra superior aos demais turnos dessa região. Observamos ainda que nas demais regiões, excetuando a Norte, o valor do primeiro quartil do período Integral é superior à média nacional.

Um outro aspecto que salta aos olhos é a oposição de desempenho do turno Vespertino nas regiões Sudeste e Sul, geograficamente vizinhas. Na região Sudeste o valor do terceiro quartil do turno Vespertino é inferior à média nacional, sendo sua mediana inferior inclusive ao período Noturno, já na Região Sul, o valor do primeiro quartil é superior ao valor da média nacional. Seria interessante aprofundarmos essa análise em momento posterior para entendermos as práticas adotadas na Região Sul neste turno e buscar aplicá-las na região Sudeste.

O período Noturno demonstrou os piores desempenhos em todas as regiões, excetuando a região Sudeste, onde temos o turno Vespertino com pior desempenho, conforme informado anteriormente.

Análises cruzadas por Região e Etnia

Nesta análise, podemos observar que as etnias Preta e Parda demonstraram desempenho inferios às demais em quase a totalidade das regiões. Inclusive na região Sul, onde temos os melhores desempenhos, apenas na Parda a mediana das notas foi superior à média nacional. O mesmo não ocorreu com a etnia Preta, que permaneceu com mediana das notas inferior à média nacional.

Análises cruzadas por Turno e Etnia

Nesta análise, podemos ter uma indicação de um possível caminho para diminuição das disparidades apontadas na análise cruzada anterior por Região e Etnia. Observe que temos desempenhos das etnias Preta e Parda muito superiores no turno Integral relacionado aos demais turnos, apesar de ainda apresentarem desempenhos inferiores às demais etnias, mesmo no turno Integral. Verificamos ainda que o período Noturno apresenta um desempenho ruim em todas as etnias, com as medianas das notas de todas as etnias inferiores à média nacional.

Conclusão

  1. Entendemos que uma grande destaque da análise é o turno Integral. Todas as análises apontaram essa como uma boa prática a ser replicada como política pública.

  2. A etnia com melhor desempenho dos alunos, de um modo geral, foi a etnia Branca. Desconsiderando a classificação “Não quero declarar”.

  3. A região com melhor desempenho dos alunos, de um modo geral, foi a região Sul.

  4. As regiões Sul e Sudeste, mesmo sendo geograficamente vizinhas, tiveram desempenho diametralmente oposto no turno Vespertino. Seria interessante aprofundarmos essa análise em momento posterior para entendermos as práticas e políticas adotadas na Região Sul neste turno e buscar aplicá-las na região Sudeste.

  5. As etnias Preta e Parda precisam de uma atenção especial das autoridades educacionais. Vide o desempenho dessas etnias em todas as regiões do país.

  6. Podemos ter uma indicação de um possível caminho para diminuição das disparidades apontadas na análise cruzada por Região e Etnia. Observe que temos desempenhos das etnias Preta e Parda muito superiores no turno Integral relacionado aos demais turnos. Quais políticas podem ser realizadas para incentivar a inserção das etnias Pretas e Pardas no turno Integral ?

  7. O período Noturno apresenta um desempenho ruim em todas as etnias e em grande parte das regiões, com as medianas das notas de todas as etnias inferiores à média nacional. Como auxiliar os alunos desse turno a terem um melhor desempenho ?