O ENADE é um procedimento de avaliação, aplicado anualmente, que integra o Sistema Nacional de Avaliação da Educação Superior (SINAES). É realizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), autarquia vinculada ao Ministério da Educação (MEC), segundo diretrizes estabelecidas pela Comissão Nacional de Avaliação da Educação Superior (CONAES), órgão colegiado de coordenação e supervisão de SINAES.
O ENADE foi criado no ano 2004, com a necessidade de substituir o exame anterior, Exame Nacional de Cursos (ENC), popularmente conhecido como “Provão”. O exame tem como objetivo acompanhar o processo de aprendizagem e desempenho dos estudantes em relação aos conteúdos previstos nas diretrizes curriculares do respectivo curso de graduação, suas habilidades para se ajustar às exigências decorrentes da evolução do conhecimento e suas competências em sua formação.
Esta avaliação é composta por questões de conhecimento específicos e gerais sendo dividida em 25% para formação geral e 75% para formação específica. O conceito atribuído a cada curso varia de 1 a 5, avaliando o desempenho dos alunos ingressantes e concluintes. Antes do exame, o aluno deve preencher um questionário de avaliação do curso, que contém, além de informações pessoais, questões sobre a infraestrutura, instalações físicas e os recursos didático–pedagógicos do curso, que comporá o Relatório do ENADE, documento que contém os resultados dos alunos e as suas impressões sobre o exame. As questões, em geral, mudam a cada edição, bem como o procedimento de cálculo que levam em consideração tais indicadores.
Em 2019, o Enade foi realizado no dia 24 de novembro, quando foram avaliados os estudantes concluintes dos cursos que conferem diploma:
1 - Bacharel nas áreas de: Agronomia, Arquitetura e Urbanismo Biomedicina, Educação Física, Enfermagem, Engenharia Ambiental Engenharia Civil, Engenharia de Alimentos, Engenharia de Computação, Engenharia de Controle e Automação, Engenharia de Produção, Engenharia Elétrica, Engenharia Florestal, Engenharia Mecânica, Engenharia Química, Farmácia, Fisioterapia, Fonoaudiologia, Medicina Veterinária, Medicina, Nutrição, Odontologia e Zootecnia.
2 - Tecnológico nas áreas de: Tecnologia em Agronegócios, Tecnologia em Estética e Cosmética, Tecnologia em Gestão Ambiental, Tecnologia em Gestão Hospitalar, Tecnologia em Radiologia, Tecnologia em Segurança no Trabalho.
Utilizaremos neste projeto como base de dados, os microdados no ENADE do ano de 2019, estes dados são abertos para qualquer cidadão no portal do Inep. Com este dados, iremos analisar os alunos concluintes do Curso de Educação Física, fazendo uma comparação entre as regiões e estados do país.Tais análises serão compostas por gráficos, tabelas e informações extraídas da base de dados citada, visando descobrir informações úteis, informar conclusões e apoiar a tomada de decisões.
library(dplyr) # transformação de dados
library(tidyr) # manipulação de dados
library(ggplot2) # Gráficos
library(plotly) # Gráficos Interativos
library(DT) # Exibição de tabelas
Os Microdados do Enade 2019, estão disponíveis no portal do Inep no link: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enade. Nesse endereço, também é possível encontrar os dados de outras edições do Enade.
Quando realizamos o download dos microdados do Enade no portal do Inep, nos deparamos com um arquivo de extensão “.rar”. Dentro deste arquivo compactado, temos três pastas:
1 - LEIA-ME – Pasta que contém o manual do usuário e o dicionário de variáveis, neste dicionário, podemos encontrar o que significa cada variável da base de dados e suas categorias. Por exemplo: na variável “CO_GRUPO” são armazenadas os códigos dos cursos que realizaram a prova do Enade naquele ano. O código do curso de Educação Física é o 3501;
2 - INPUTS – Podemos localizar arquivos para leitura da base no R, em Sas e Sps. No arquivo “.r “, encontramos uma breve explicação de como podemos carregar estes dados no RStudio; e
3 - DADOS – Nesta pasta temos os dados brutos com as informações coletadas do Enade. É um arquivo no formato “.txt”, com mais de 200MB de tamanho.
Para carregar os dados, foi necessário o seguinte comando:
microdados_enade <- read.table("C:/Users/herde/OneDrive/Documentos/Projeto Microdados Enade 2019/Base de Dados/3.DADOS/microdados_enade_2019.txt",header = TRUE, sep=";", dec = ",", colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))
A carga resultou em um data frame com 433 mil 930 linhas e 137 colunas. Diante dessa grande quantidade de dados para análise, foram escolhidos alguns critérios para viabilizar a exploração dos dados. Neste link (https://docs.google.com/spreadsheets/d/1XB93yNYV3i5hR97xV60v2QE8jgC0ya5YBV3Mnxdkde8/edit#gid=0), é possível visualizar o dicionário de variáveis e os critérios escolhidos neste projeto. Foram utilizados os seguintes critérios para uma pré-seleção dos dados: CO_GRUPO == 3501, CO_MODALIDADE == 1, TP_INSCRICAO == 0, TP_PR_GER == 555
new_microdados2019 <- subset(microdados_enade,
microdados_enade$CO_GRUPO == 3501 & #Curso de Educação Física
microdados_enade$CO_MODALIDADE == 1 & #Modalidade Presencial
microdados_enade$TP_INSCRICAO == 0 & #Alunos Concluintes
microdados_enade$TP_PR_GER == 555) #Provas com Resultados Válidos
Com a biblioteca dplyr, foi possível selecionar apenas as colunas necessárias para a análise. Resultando em um data frame com 23 mil 147 linhas e 10 colunas.
edf <- new_microdados2019 %>% select(CO_GRUPO, CO_MODALIDADE, CO_UF_CURSO,
CO_REGIAO_CURSO, TP_SEXO, TP_INSCRICAO,
TP_PR_GER, NT_GER, NT_FG, NT_CE)
Também foi necessário alterar o nome das colunas e o conteúdo das variáveis para deixar o data frame entendível:
#Renomeado as colunas e conteúdos da Fonte de Dados Resultante:
names(edf) [1:10] <- c("Curso", "Modalidade_Curso", "UF", "Regiao", "Sexo", "Tipo_Inscricao",
"Presenca_Prova", "Nota_Geral", "Nota_FG", "Nota_CE")
edf$Curso[edf$Curso == 3501] <- "Ed_Fisica"
edf$Modalidade_Curso[edf$Modalidade_Curso == 1] <- "Presencial"
edf$Tipo_Inscricao[edf$Tipo_Inscricao == 0] <- "Concluinte"
edf$Presenca_Prova[edf$Presenca_Prova == 555] <- "Resultado_Valido"
edf$Sexo[edf$Sexo == "F"] <- "Feminino"
edf$Sexo[edf$Sexo == "M"] <- "Masculino"
edf$Regiao[edf$Regiao == 1] <- "Norte"
edf$Regiao[edf$Regiao == 2] <- "Nordeste"
edf$Regiao[edf$Regiao == 3] <- "Sudeste"
edf$Regiao[edf$Regiao == 4] <- "Sul"
edf$Regiao[edf$Regiao == 5] <- "Centro-Oeste"
edf$UF[edf$UF == 11 ] <- "RO"
edf$UF[edf$UF == 12 ] <- "AC"
edf$UF[edf$UF == 13 ] <- "AM"
edf$UF[edf$UF == 14 ] <- "RR"
edf$UF[edf$UF == 15 ] <- "PA"
edf$UF[edf$UF == 16 ] <- "AP"
edf$UF[edf$UF == 17 ] <- "TO"
edf$UF[edf$UF == 21 ] <- "MA"
edf$UF[edf$UF == 22 ] <- "PI"
edf$UF[edf$UF == 23 ] <- "CE"
edf$UF[edf$UF == 24 ] <- "RN"
edf$UF[edf$UF == 25 ] <- "PB"
edf$UF[edf$UF == 26 ] <- "PE"
edf$UF[edf$UF == 27 ] <- "AL"
edf$UF[edf$UF == 28 ] <- "SE"
edf$UF[edf$UF == 29 ] <- "BA"
edf$UF[edf$UF == 31 ] <- "MG"
edf$UF[edf$UF == 32 ] <- "ES"
edf$UF[edf$UF == 33 ] <- "RJ"
edf$UF[edf$UF == 35 ] <- "SP"
edf$UF[edf$UF == 41 ] <- "PR"
edf$UF[edf$UF == 42 ] <- "SC"
edf$UF[edf$UF == 43 ] <- "RS"
edf$UF[edf$UF == 50 ] <- "MS"
edf$UF[edf$UF == 51 ] <- "MT"
edf$UF[edf$UF == 52 ] <- "GO"
edf$UF[edf$UF == 53 ] <- "DF"
Como podemos ver acima, todos os códigos numéricos, foram trocados por registros de fácil entendimento. Por exemplo: onde tínhamos. UF com código 26, trocamos pelos caracteres “PE”, onde tínhamos Região com código 1, trocamos pela palavra “Norte”. Todos esses códigos e suas correspondências, podem ser vistos no dicionário de variáveis que está na pasta “LEIA-ME” da fonte de dados original (Microdados Enade 2019).
Iremos também verificar as dimensões de linhas e colunas e quais seus tipos. Com o comando str(edf), verificamos que o data frame resultante possui 7 colunas do tipo “chr” e 3 do tipo “num”.
str(edf) #Verificando as dimensões de linhas e colunas do data frame resultante
## 'data.frame': 23147 obs. of 10 variables:
## $ Curso : chr "Ed_Fisica" "Ed_Fisica" "Ed_Fisica" "Ed_Fisica" ...
## $ Modalidade_Curso: chr "Presencial" "Presencial" "Presencial" "Presencial" ...
## $ UF : chr "SP" "SP" "SP" "SP" ...
## $ Regiao : chr "Sudeste" "Sudeste" "Sudeste" "Sudeste" ...
## $ Sexo : chr "Masculino" "Masculino" "Feminino" "Masculino" ...
## $ Tipo_Inscricao : chr "Concluinte" "Concluinte" "Concluinte" "Concluinte" ...
## $ Presenca_Prova : chr "Resultado_Valido" "Resultado_Valido" "Resultado_Valido" "Resultado_Valido" ...
## $ Nota_Geral : num 38.3 32.5 26.8 55.8 64.9 53 59 27.3 62.9 59.1 ...
## $ Nota_FG : num 44 19.2 29.7 21.6 35.9 21.6 29.9 3 57.2 28.5 ...
## $ Nota_CE : num 36.4 36.9 25.8 67.2 74.6 63.4 68.7 35.4 64.8 69.3 ...
Por via de regra, sempre é importante verificar a existência de registros NAs em qualquer base dados antes de explorar os dados, estes registros podem prejudicar a análise, trazendo resultados não tão precisos. Para verificar a existência de NAs, foi executado o comando abaixo, ele nos retornou a existência de apenas 12 registros NAs em toda base de dados. Isso corresponde a aproximadamente 0.005% do total de registros, pois a base conta com um total de 231 mil 470 registros.
table(is.na(edf)) #Quantidade de NAs na base de dados
##
## FALSE TRUE
## 231458 12
prop.table(table(is.na(edf))) * 100 #Proporção de NAs na base de dados
##
## FALSE TRUE
## 99.994815743 0.005184257
Para remoção dos registros e consequentemente das linhas que possuem NAs, foi executado o comando abaixo da biblioteca tidyr:
edf.final <- edf %>% drop_na() #data frame final, após remoção de Nas
Foi executado mais uma vez os comandos abaixo, para garantir que não havia mais a existência de NAs no data frame final (edf.final). E realmente, o comando não retornou nenhuma ocorrência de NA na nossa base.
table(is.na(edf.final))
##
## FALSE
## 231430
prop.table(table(is.na(edf.final))) * 100
##
## FALSE
## 100
Agora com o processo de limpeza e preparação totalmente concluído, podemos realizar a exploração desses dados. Nosso data frame (edf.final), ficou com um total de 23 mil 143 linhas e 10 colunas. Abaixo, temos o conjunto final de dados de forma condensada:
edf.final %>%
head() %>%
DT::datatable()
Esta análise faz uma comparação envolvendo as regiões e estados do país no Enade do ano de 2019. O curso analisado foi o de Educação Física. Vale salientar que foram considerados para esta análise, apenas os alunos concluintes dos cursos presenciais que tiveram resultados válidas nas provas.
Neste gráfico, podemos ver que a região Sudeste do país concentra mais da metade dos alunos participantes nesta edição do Enade:
Podemos ver que o sexo masculino predomina neste curso, em todas as regiões o percentual de homens foi maior que o de mulheres:
Na média da Nota Geral para as região, o destaque ficou com a região Sul, obtendo a melhor média.
OBS: A nota geral do aluno é dada pela Média ponderada da formação geral (25%) e componente específico (75%).(valor de 0 a 100).
Na parte da prova que contempla a formação geral do aluno, mais uma vez a região Sul do país ficou na frente, levando uma leve vantagem sobre a região Centro-Oeste.
OBS: A nota do aluno na formação geral é dada pela Média ponderada da parte objetiva (60%) e discursiva (40%) na formação geral. (valor de 0 a 100).
Na parte da prova do Componente Específico, a região Sul também ficou na frente das outras regiões.
OBS: A nota do aluno no componente específico é dada pela Média ponderada da parte objetiva (85%) e discursiva (15%) no componente específico. (valor de 0 a 100).
A tabela abaixo mostra a quantidade de alunos participantes por estado.
Vendo a nota geral por estado, notamos que o Amapá (AP) ficou a frente dos demais.
OBS:O estado de Roraima não aparece no gráfico, pois não teve nenhum participante com nota válida.
Destaque para DF e PE, pois ficaram com as maiores médias neste quesito.
OBS:O estado de Roraima não aparece no gráfico, pois não teve nenhum participante com nota válida.
Neste quesito, o estado do TO ficou com a menor média.
OBS:O estado de Roraima não aparece no gráfico, pois não teve nenhum participante com nota válida.
Com a análise realizada neste trabalho, podemos ter um retrato do desempenho dos alunos do curso de Educação Física das diferentes regiões e estados do Brasil. Podemos visualizar através da leitura de gráficos, quais as regiões e estados que se destacaram na edição do Enade de 2019, bem como ter a visão da quantidade de estudantes que se formam em um determinado ano por região e estado no país. Para tal análise exploratória, foi necessário a interpretação dos dados brutos. Esses dados eram compostos em sua maioria por códigos numéricos, por tanto, se fez necessário uma conversão para valores literais para facilitar o entendimento dos usuários. As correspondências dos códigos estão nos dicionários de variáveis, que ficam disponíveis nas pastas do arquivo baixado do portal do Inep.
Por se tratar de uma base dados com muitas variáveis e registros, podemos ter inúmeras possibilidades para exploração dos dados. A análise realizada neste projeto, envolveu apenas um curso, fazendo alguns comparativos entre regiões e estados. A análise de outros cursos seguindo está mesma linha, também seria uma boa sugestão de projeto a ser realizado. Além disso, a base de dados bruta, tem outras partes interessantes para serem descobertas: As variáveis do questionário dos estudantes, as variáveis do questionário de percepção da prova e outras variáveis que podem ser combinadas.