Introdução
Os microdados do Inep se constituem no menor nível de desagregação de dados recolhidos por suas pesquisas estatísticas, avaliações e exames. Neste relatório, realizaremos uma análise descritiva dos Microdados do Exame Nacional de Desempenho dos Estudantes do ano de 2017, especificamente considerando o curso de Engenharia Civil.
Importação da base de dados ENADE/INEP no ano de 2017
enade2017 = read_csv2("MICRODADOS_ENADE_2017.txt")
head(enade2017)
## # A tibble: 6 x 150
## NU_ANO CO_IES CO_CATEGAD CO_ORGACAD CO_GRUPO CO_CURSO CO_MODALIDADE
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2017 1 1 10028 5710 3 1
## 2 2017 1 1 10028 5710 3 1
## 3 2017 1 1 10028 5710 3 1
## 4 2017 1 1 10028 5710 3 1
## 5 2017 1 1 10028 5710 3 1
## 6 2017 1 1 10028 5710 3 1
## # ... with 143 more variables: CO_MUNIC_CURSO <dbl>, CO_UF_CURSO <dbl>,
## # CO_REGIAO_CURSO <dbl>, NU_IDADE <dbl>, TP_SEXO <chr>, ANO_FIM_EM <dbl>,
## # ANO_IN_GRAD <dbl>, CO_TURNO_GRADUACAO <dbl>, TP_INSCRICAO_ADM <dbl>,
## # TP_INSCRICAO <dbl>, NU_ITEM_OFG <dbl>, NU_ITEM_OFG_Z <dbl>,
## # NU_ITEM_OFG_X <dbl>, NU_ITEM_OFG_N <dbl>, NU_ITEM_OCE <dbl>,
## # NU_ITEM_OCE_Z <dbl>, NU_ITEM_OCE_X <dbl>, NU_ITEM_OCE_N <dbl>,
## # DS_VT_GAB_OFG_ORIG <chr>, DS_VT_GAB_OFG_FIN <chr>, ...
Considerando o dataframe importado, observamos um grande quantidade de variáveis a serem analisadas. Atentendo à necessidade expressa na solicitação de análise dos microdados em questão, selecionaremos apenas as seguintes variáveis do dataframe completo:
- NT_OBJ_FG: Nota bruta na parte objetiva da formação geral. (valor de 0 a 100);
- CO_GRUPO: Código da área de enquadramento do curso no Enade;
- CO_REGIAO_CURSO: Código da região de funcionamento do curso;
- QE_I02: Etnia do estudante;
- CO_TURNO_GRADUACAO: Código do turno de graduação;
microdados_enade_filtrados= enade2017 %>% dplyr::select(CO_GRUPO,
CO_REGIAO_CURSO,
CO_TURNO_GRADUACAO,
QE_I02,
NT_OBJ_FG,
NT_GER
)
head(microdados_enade_filtrados)
## # A tibble: 6 x 6
## CO_GRUPO CO_REGIAO_CURSO CO_TURNO_GRADUACAO QE_I02 NT_OBJ_FG NT_GER
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl>
## 1 5710 5 3 A 87.5 52.6
## 2 5710 5 3 D 87.5 63.1
## 3 5710 5 3 D 87.5 33.7
## 4 5710 5 3 A 75 58.1
## 5 5710 5 3 A 75 46.3
## 6 5710 5 3 F 87.5 64.2
Premissas
Conforme informado anteriormente, nosso objeto de análise consistirá basicamente no curso de Engenharia Civil, desta forma aplicaremos filtro no dataframe acima e ainda faremos os tratamentos iniciais das variáveis qualitativas, tornando-as mais legíveis.
Além do tratamento inicial, realizaremos a retirada das variáveis NA’s. Uma vez que detectamos, como demonstrado abaixo uma incidência dessas variáveis na base. Adicionalmente, avaliamos que a retirada não trará prejuízo nas análises, pelo contrário, tornará os resultados mais assertivos.
#Contabilizando os Na´s
resumo_nas=microdados_eng_civil %>%
select(everything()) %>%
summarise_all(list(~sum(is.na(.))))
#Removendo Na´S De todas As variáveis que possuem NA
microdados_eng_civil_sem_NA=microdados_eng_civil %>% na.omit()
#Verificando de foram retirados os NA´S
resumo_nas_tratado=microdados_eng_civil_sem_NA %>%
select(everything()) %>%
summarise_all(list(~sum(is.na(.))))
Resumo das NA’s na base original, após seleção das variáveis
resumo_nas
## # A tibble: 1 x 6
## CO_GRUPO NT_OBJ_FG NT_GER Regiao Turno Etnia
## <int> <int> <int> <int> <int> <int>
## 1 0 4803 4803 0 42 3420
Resumo das NA’s, após o tratamento dos dados
resumo_nas_tratado
## # A tibble: 1 x 6
## CO_GRUPO NT_OBJ_FG NT_GER Regiao Turno Etnia
## <int> <int> <int> <int> <int> <int>
## 1 0 0 0 0 0 0
head(microdados_eng_civil_sem_NA)
## # A tibble: 6 x 6
## CO_GRUPO NT_OBJ_FG NT_GER Regiao Turno Etnia
## <dbl> <dbl> <dbl> <chr> <chr> <chr>
## 1 5710 87.5 52.6 Centro-Oeste Integral Branca
## 2 5710 87.5 63.1 Centro-Oeste Integral Parda
## 3 5710 87.5 33.7 Centro-Oeste Integral Parda
## 4 5710 75 58.1 Centro-Oeste Integral Branca
## 5 5710 75 46.3 Centro-Oeste Integral Branca
## 6 5710 87.5 64.2 Centro-Oeste Integral Não quero declarar
Análise das variáveis
Uma vez que as premissas foram estabelecidas e os tratamentos iniciais foram realizados, passaremos agora a observar em detalhes cada variável existente em nossa base atual.
- CO_GRUPO - (Qualitativa nominal): Código da área de enquadramento do curso no Enade;
describe(microdados_eng_civil_sem_NA$CO_GRUPO)
## microdados_eng_civil_sem_NA$CO_GRUPO
## n missing distinct Info Mean Gmd
## 47679 0 1 0 5710 0
##
## Value 5710
## Frequency 47679
## Proportion 1
- regiao - (Qualitativa nominal): Região de funcionamento do curso;
describe(microdados_eng_civil_sem_NA$Regiao)
## microdados_eng_civil_sem_NA$Regiao
## n missing distinct
## 47679 0 5
##
## lowest : Centro-Oeste Nordeste Norte Sudeste Sul
## highest: Centro-Oeste Nordeste Norte Sudeste Sul
##
## Value Centro-Oeste Nordeste Norte Sudeste Sul
## Frequency 4156 8879 2408 24941 7295
## Proportion 0.087 0.186 0.051 0.523 0.153
- turno - (Qualitativa nominal): Turno de graduação;
describe(microdados_eng_civil_sem_NA$Turno)
## microdados_eng_civil_sem_NA$Turno
## n missing distinct
## 47679 0 4
##
## Value Integral Matutino Noturno Vespertino
## Frequency 7710 6484 31931 1554
## Proportion 0.162 0.136 0.670 0.033
- etnia - (Qualitativa nominal): Etnia do estudante;
describe(microdados_eng_civil_sem_NA$Etnia)
## microdados_eng_civil_sem_NA$Etnia
## n missing distinct
## 47679 0 6
##
## lowest : Amarela Branca Indígena Não quero declarar Parda
## highest: Branca Indígena Não quero declarar Parda Preta
##
## Value Amarela Branca Indígena
## Frequency 1374 28028 143
## Proportion 0.029 0.588 0.003
##
## Value Não quero declarar Parda Preta
## Frequency 1139 14112 2883
## Proportion 0.024 0.296 0.060
- NT_OBJ_FG - (Quantitativa contínua): Nota bruta na parte objetiva da formação geral. (valor de 0 a 100);
describe(microdados_eng_civil_sem_NA$NT_OBJ_FG)
## microdados_eng_civil_sem_NA$NT_OBJ_FG
## n missing distinct Info Mean Gmd
## 47679 0 9 0.972 55.24 24.3
##
## lowest : 0.0 12.5 25.0 37.5 50.0, highest: 50.0 62.5 75.0 87.5 100.0
##
## Value 0.0 12.5 25.0 37.5 50.0 62.5 75.0 87.5 100.0
## Frequency 484 1824 4430 7606 9896 10015 7804 4245 1375
## Proportion 0.010 0.038 0.093 0.160 0.208 0.210 0.164 0.089 0.029
Estatística descritiva dos dados
Iniciaremos agora uma análise descritiva dos dados, focando nas notas brutas totais já tratadas com a mesma metodologia das variáveis anteriormente apresentadas.Vamos iniciar pelas medidas gerais.
| Quantidade | Mínimo | Máximo | Média | Mediana | Moda | CV | Assimetria | Curtose |
|---|---|---|---|---|---|---|---|---|
| 47.679 | 0 | 96,4 | 44,09 | 43,4 | 38,1 | 30,45 | 0,19 | -0,14 |
Observamos, portanto, que nem todo o espectro de notas foi percorrido, com mínimo igual a 0 e máximo igual a 96,4. Além disso, observamos que mais de 50% dos alunos do curso de Engenharia Civil obtiveram nota inferior à média. (Média = 44,09 e Mediana = 43,4). Observando o Coeficiente de Variação, obtemos valor superior à 25%, ou seja, avaliamos uma maior heterogeneidade dos dados. Com relação a distribuição dos dados, considerando a Assimetria e Curtose, percebemos uma relação entre Média, Mediana e Moda (Média > Mediana > Moda), significando uma Assimetria Positiva ou à direita, confirmada pelo valor obtido, e Platicúrtica, respectivamente. Visualmente, podemos confirmar no gráfico abaixo.
Apenas por questões didáticas, uma vez que essa hipótese já foi descartada anteriormente, analisaremos se a distribuição das notas é normal, através dos testes de Shapiro-Wilk e Shapiro-Franci, conforme abaixo:
##
## Shapiro-Wilk normality test
##
## data: sample(microdados_eng_civil_sem_NA$NT_GER, 5000)
## W = 0.99741, p-value = 1.625e-07
##
## Shapiro-Francia normality test
##
## data: sample(microdados_eng_civil_sem_NA$NT_GER, 5000)
## W = 0.99747, p-value = 2.054e-07
Como esperado, ambos os testes rejeitaram a hisótese de que a distribuição dos dados seja Normal (Valor-P < 0,01%).
Análises estratificadas
Analisaremos agora em maiores detalhes o comportamento das notas dos alunos estratificadas nas diversas variáveis categóricas listadas anteriormente: Região, Turno e Etnia.
Análises estratificadas por Região
| Regiao | Quantidade | Mínimo | Máximo | Média | Mediana | Moda | CV | Assimetria | Curtose |
|---|---|---|---|---|---|---|---|---|---|
| Sul | 7.295 | 0,0 | 88,6 | 47,99 | 47,70 | 49,9 | 27,24 | 0,05 | -0,22 |
| Nordeste | 8.879 | 0,0 | 90,1 | 45,07 | 44,50 | 34,4 | 30,53 | 0,20 | -0,15 |
| Nordeste | 8.879 | 0,0 | 90,1 | 45,07 | 44,50 | 41,5 | 30,53 | 0,20 | -0,15 |
| Centro-Oeste | 4.156 | 0,0 | 85,6 | 44,58 | 44,05 | 42,9 | 30,14 | 0,09 | -0,13 |
| Sudeste | 24.941 | 0,0 | 96,4 | 42,75 | 42,10 | 38,1 | 30,86 | 0,24 | -0,06 |
| Norte | 2.408 | 5,1 | 93,2 | 41,63 | 40,90 | 38,1 | 30,84 | 0,29 | -0,07 |
Observamos inicialmente que a Região Nordeste aparece duas vezes na tabela, uma vez que existem duas notas como as mais frequentes (Moda: 34,4 e 41,5). Os melhores desempenhos foram identificados na região Sul e Nordeste, com (Média 47,99 e Mediana 47,70) e (Média 45,07 e Mediana 44,50), ambos com mais de 50% dos alunos com nota superior à média nacional de 44,09. O que podemos confirmar visualmente, conforme gráfico abaixo. Observe que a concentração das notas do Sul se dá em valores estritamente maiores que a média nacional informada. No caso do Nordeste, esses valores estão mais próximos à média nacional, conforme valores na tabela anterior.
Análises estratificadas por Turno
| Turno | Quantidade | Mínimo | Máximo | Média | Mediana | Moda | CV | Assimetria | Curtose |
|---|---|---|---|---|---|---|---|---|---|
| Integral | 7.710 | 0 | 96,4 | 54,10 | 54,8 | 52,3 | 25,63 | -0,26 | -0,18 |
| Vespertino | 1.554 | 0 | 85,0 | 45,51 | 45,2 | 38,1 | 29,66 | 0,09 | -0,15 |
| Matutino | 6.484 | 0 | 92,8 | 45,36 | 45,1 | 47,3 | 28,17 | 0,16 | -0,11 |
| Noturno | 31.931 | 0 | 90,1 | 41,34 | 41,0 | 38,1 | 29,48 | 0,13 | -0,07 |
Analisando os turnos, observamos que o turno Integral, consistentemente, obteve o melhor desempenho, com bastante vantagem perante aos demais (Média 54,10 e Mediana 54,8).
Entendendo essa grande discrepância entre os dados do Turno Integral, vamos analisar em específico esse Turno. Inicialmente, observemos os quartis das notas dos alunos desse turno, conforme abaixo:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 44.8 54.8 54.1 64.1 96.4
Através do gráfico de boxplot, podemos observar o destaque desse turno frente aos demais. Inclusive, quando comparamos com a média nacional (Linha horizontal contínua incluída no gráfico abaixo), onde o primeiro quartil se posiciona acima da média nacional, ou seja, mais de 75% dos alunos do turno integral tiveram desempenho melhor que a média nacional:
Análises estratificadas por Etnia
| Etnia | Quantidade | Mínimo | Máximo | Média | Mediana | Moda | CV | Assimetria | Curtose |
|---|---|---|---|---|---|---|---|---|---|
| Não quero declarar | 1.139 | 5,3 | 90,1 | 47,91 | 47,6 | 55,8 | 30,29 | 0,05 | -0,24 |
| Branca | 28.028 | 0,0 | 96,4 | 45,11 | 44,6 | 38,1 | 29,77 | 0,16 | -0,16 |
| Amarela | 1.374 | 5,5 | 81,9 | 43,02 | 42,2 | 44,8 | 30,58 | 0,28 | -0,07 |
| Parda | 14.112 | 0,0 | 93,2 | 42,50 | 41,9 | 38,1 | 30,94 | 0,24 | -0,07 |
| Preta | 2.883 | 0,0 | 85,0 | 41,06 | 40,4 | 37,9 | 31,60 | 0,20 | -0,08 |
| Indígena | 143 | 14,2 | 71,5 | 40,19 | 37,7 | 36,5 | 32,20 | 0,17 | -0,64 |
| Indígena | 143 | 14,2 | 71,5 | 40,19 | 37,7 | 37,7 | 32,20 | 0,17 | -0,64 |
Observamos inicialmente que a Etnia Indígena aparece duas vezes na tabela, uma vez que existem duas notas como as mais frequentes (Moda: 36,5 e 37,7). Os melhores desempenhos foram identificados na Etnia Branca e na classificação “Não quero declarar”, a qual não temos como inferir maiores informações, com (Média 45,11 e Mediana 44,6) e (Média 47,91 e Mediana 47,6), respectivamente, ambos com mais de 50% dos alunos com nota superior à média nacional de 44,09. O que podemos confirmar visualmente, conforme gráfico abaixo.
Análises cruzadas por Região e Turno
Conforme já mencionado anteriormente, o turno Integral demonstra uma grande vantagem sobre os demais turnos. Neste comparativo, podemos observar que independente da região, essa superioridade se mantém. Mesmo na região Norte, onde temos o pior resultado do turno Integral, ele se mostra superior aos demais turnos dessa região. Observamos ainda que nas demais regiões, excetuando a Norte, o valor do primeiro quartil do período Integral é superior à média nacional.
Um outro aspecto que salta aos olhos é a oposição de desempenho do turno Vespertino nas regiões Sudeste e Sul, geograficamente vizinhas. Na região Sudeste o valor do terceiro quartil do turno Vespertino é inferior à média nacional, sendo sua mediana inferior inclusive ao período Noturno, já na Região Sul, o valor do primeiro quartil é superior ao valor da média nacional. Seria interessante aprofundarmos essa análise em momento posterior para entendermos as práticas adotadas na Região Sul neste turno e buscar aplicá-las na região Sudeste.
O período Noturno demonstrou os piores desempenhos em todas as regiões, excetuando a região Sudeste, onde temos o turno Vespertino com pior desempenho, conforme informado anteriormente.
Análises cruzadas por Região e Etnia
Nesta análise, podemos observar que as etnias Preta e Parda demonstraram desempenho inferios às demais em quase a totalidade das regiões. Inclusive na região Sul, onde temos os melhores desempenhos, apenas na Parda a mediana das notas foi superior à média nacional. O mesmo não ocorreu com a etnia Preta, que permaneceu com mediana das notas inferior à média nacional.
Análises cruzadas por Turno e Etnia
Nesta análise, podemos ter uma indicação de um possível caminho para diminuição das disparidades apontadas na análise cruzada anterior por Região e Etnia. Observe que temos desempenhos das etnias Preta e Parda muito superiores no turno Integral relacionado aos demais turnos, apesar de ainda apresentarem desempenhos inferiores às demais etnias, mesmo no turno Integral. Verificamos ainda que o período Noturno apresenta um desempenho ruim em todas as etnias, com as medianas das notas de todas as etnias inferiores à média nacional.
Conclusão
Entendemos que uma grande destaque da análise é o turno Integral. Todas as análises apontaram essa como uma boa prática a ser replicada como política pública.
A etnia com melhor desempenho dos alunos, de um modo geral, foi a etnia Branca. Desconsiderando a classificação “Não quero declarar”.
A região com melhor desempenho dos alunos, de um modo geral, foi a região Sul.
As regiões Sul e Sudeste, mesmo sendo geograficamente vizinhas, tiveram desempenho diametralmente oposto no turno Vespertino. Seria interessante aprofundarmos essa análise em momento posterior para entendermos as práticas e políticas adotadas na Região Sul neste turno e buscar aplicá-las na região Sudeste.
As etnias Preta e Parda precisam de uma atenção especial das autoridades educacionais. Vide o desempenho dessas etnias em todas as regiões do país.
Podemos ter uma indicação de um possível caminho para diminuição das disparidades apontadas na análise cruzada por Região e Etnia. Observe que temos desempenhos das etnias Preta e Parda muito superiores no turno Integral relacionado aos demais turnos. Quais políticas podem ser realizadas para incentivar a inserção das etnias Pretas e Pardas no turno Integral ?
O período Noturno apresenta um desempenho ruim em todas as etnias e em grande parte das regiões, com as medianas das notas de todas as etnias inferiores à média nacional. Como auxiliar os alunos desse turno a terem um melhor desempenho ?