As Universidades Públicas são instituições de grande relevância em nossa sociedade. Seus principais campos de atuação estão na produção de conhecimento formal acadêmico, pesquisa, extensão e na formação de profissionais voltados ao mercado de trabalho. A forma de ingresso é efetuada, geralmente, através das provas de vestibular. Estudantes dedicam-se durante muitos meses para a devida preparação, tendo em vista o alto nível de concorrência e rigorosidade das avaliações. Após o ingresso na instituição, os alunos enfrentam as mais diversas adversidades: fatores econômicos, dificuldade de locomoção, alto nível de exigência dos programas, falta de alinhamento com as expectativas criadas, entre tantos outros motivos que podem fazer o aluno desistir da vaga conquistada. No ano de 2020 houve uma paralisação das aulas presenciais na universidade, por virtude do cenário pandêmico. Essa situação exigiu que os cursos tivessem aulas na modalidade remota, adicionando mais dificuldades para alguns alunos. Podemos citar, no campo físico, a falta de computadores/notebooks para acompanhar as aulas e a dificuldade de conexão com internet de alta velocidade. No campo social e psicológico, a comunidade em geral pode ter passado por momentos de aflição, incerteza, ansiedade e até solidão, causada pela falta de contato interpessoal.
Este trabalho dedica-se à análise de dados de evasão dos alunos de graduação da UFPR, no período anterior e durante a pandemia de COVID-19. Iremos correlacionar a taxa de evasão dos cursos com a dificuldade de ingresso nos mesmos, representada aqui pela concorrência candidato/vaga presente no vestibular. Outra variável que pretende explicar a evasão está relacionada à modalidade do curso, diferenciando os de bacharelado dos de licenciatura, de formação profissional ou múltipla titulação. Logicamente, pretendemos nos debruçar sobre o fator pandêmico, buscando saber se este episódio contribuiu para a permanência ou evasão dos discentes. Para tanto, se apresenta um modelo econométrico que dê conta deste arranjo.
Esta análise é puramente quantitativa e não possui vinculação com os fatores motivacionais individuais que levaram esses alunos a evadirem de seus respectivos cursos. Não foram encontradas bases de dados que levassem em consideração esses aspectos qualitativos. Pretende-se estabelecer um início de debate sobre o tema, levantando informações relevantes para a tomada de decisão dos colegiados superiores e servindo como base para o aperfeiçoamento de rotinas internas e novos arranjos institucionais que garantam a diminuição dos índices de evasão. Podemos interpretar que as desistências dos alunos nos cursos de graduação representam uma ineficiência do gasto público. Houve investimento de recursos no processo, porém o objetivo – retorno de um graduado para a sociedade – não foi atingido.
Para o desenvolvimento do trabalho serão seguidas as diretrizes consolidadas na academia, em obras de referência em econometria. Para tanto, serão utilizados os modelos de regressão linear múltipla, observando os pressupostos:
Observados esses detalhes, após a determinação do modelo de regressão, teremos o efeito explicativo das variáveis regressoras em relação ao regressando. Nos debruçaremos ao poder explicativo do modelo de regressão, também conhecido como coeficiente de ajuste R2, que representa a fração da variância da amostra Y prevista, pelas variáveis explicativas X.
A base de dados utilizada foi retirada do próprio site da instituição, que pode ser encontrada nesta URL. Os anos considerados foram os de 2019 e 2020. Foram desprezados os cursos que não tiveram novos ingressantes em 2020, por terem ficado sem medida de comparação. Os cursos com relação de candidato/vaga inferior a 1 também foram desprezados na análise. Dessa forma, temos:
Para efeitos de análise, foram estabelecidos 100 cursos de graduação para cada ano, resultando em 200 os dados totais. Além de tentar explicar a variável prevista pelas variáveis controle, iremos debater se a pandemia teve impacto positivo nos índices de evasão. Para tanto, iremos efetuar os testes de multicolinearidade, heterocedasticidade e autocorrelação dos resíduos.
Para iniciar nossa análise, utilizaremos o Rstudio Cloud. Importaremos os dados da planilha de excel e rodaremos o modelo de regressão linear múltipla.
#leitura tabela excel
DADOS_RLM <- read_excel("database/DADOS_RLM.xlsx")
Apresentamos as variáveis utilizadas no modelo, sendo que Tx-evasão é nossa variável dependente, Cand-vaga, Bacharelado e Covid são nossas variáveis independentes.
#mostrando nomes das variaveis
names(DADOS_RLM)
## [1] "CURSO" "TX-EVASAO" "CAND-VAGA" "BACHARELADO" "COVID"
#visualizando parte dos dados
kable(head(DADOS_RLM, 20), col.names = c("CURSO", "TX-EVASAO", "CAND-VAGA", "BACHARELADO", "COVID")) %>%
kable_styling(full_width = F, bootstrap_options = c("striped", "hover", "condensed", "responsive"))
| CURSO | TX-EVASAO | CAND-VAGA | BACHARELADO | COVID |
|---|---|---|---|---|
| Administração | 0.1186441 | 5.55 | 1 | 0 |
| Administração | 0.0760534 | 7.60 | 1 | 0 |
| Administração | 0.0452128 | 4.55 | 1 | 1 |
| Administração | 0.0094340 | 4.67 | 1 | 1 |
| Agroecologia | 0.1395349 | 1.68 | 0 | 0 |
| Agroecologia | 0.0196078 | 0.76 | 0 | 1 |
| Agronomia | 0.0595855 | 3.58 | 1 | 0 |
| Agronomia | 0.0672000 | 3.70 | 1 | 0 |
| Agronomia | 0.0279070 | 3.51 | 1 | 1 |
| Agronomia | 0.0439122 | 3.00 | 1 | 1 |
| Análise e Desenvolvimento de Sistemas | 0.1504587 | 6.50 | 0 | 0 |
| Análise e Desenvolvimento de Sistemas | 0.1632653 | 2.81 | 0 | 0 |
| Análise e Desenvolvimento de Sistemas | 0.0155642 | 5.35 | 0 | 1 |
| Análise e Desenvolvimento de Sistemas | 0.0071174 | 3.85 | 0 | 1 |
| Arquitetura e Urbanismo | 0.0301659 | 18.10 | 1 | 0 |
| Arquitetura e Urbanismo | 0.0066007 | 13.04 | 1 | 1 |
| Artes | 0.1406250 | 2.13 | 0 | 0 |
| Artes | 0.0198020 | 1.08 | 0 | 1 |
| Artes Visuais | 0.1313869 | 10.46 | 1 | 0 |
| Artes Visuais | 0.1142857 | 5.08 | 0 | 0 |
i) Regressão Linear Múltipla:
Rodando o modelo de regressão linear múltipla, de fato:
#efetuando RLM do modelo, atribuindo nome de evasão
evasao <- lm(formula = DADOS_RLM$`TX-EVASAO` ~ DADOS_RLM$`CAND-VAGA` + DADOS_RLM$BACHARELADO +
DADOS_RLM$COVID)
Apresentando os dados obtidos na estimação do modelo de linear de regressão, pelo método dos mínimos quadrados ordinários:
#apresentado resultados da regressão
summary(evasao)
##
## Call:
## lm(formula = DADOS_RLM$`TX-EVASAO` ~ DADOS_RLM$`CAND-VAGA` +
## DADOS_RLM$BACHARELADO + DADOS_RLM$COVID)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.11499 -0.04285 -0.01153 0.02947 0.25890
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.1812338 0.0089470 20.256 < 2e-16 ***
## DADOS_RLM$`CAND-VAGA` -0.0020420 0.0005157 -3.959 0.000105 ***
## DADOS_RLM$BACHARELADO -0.0325152 0.0096076 -3.384 0.000862 ***
## DADOS_RLM$COVID -0.1014260 0.0088980 -11.399 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06278 on 196 degrees of freedom
## Multiple R-squared: 0.4511, Adjusted R-squared: 0.4427
## F-statistic: 53.69 on 3 and 196 DF, p-value: < 2.2e-16
De fato, as variáveis explicativas possuem grau de significância para a estimação do modelo, como se pode observar pela verificação do teste Fcalculado<0,05, localizado no campo Pr(>t).
Podemos destacar ainda, observando o valor de R2, o alto poder explicativo da variável prevista pelas 3 variáveis provisoras, cerca de 45%.
ii) Multicolinearidade:
Isto posto, iremos verificar se há problema de multicolinearidade em nosso modelo, rodando a função vif, que verifica o fator de inflação da variação:
#testando multicolinearidade
vif(evasao)
## DADOS_RLM$`CAND-VAGA` DADOS_RLM$BACHARELADO DADOS_RLM$COVID
## 1.062182 1.058388 1.004346
De fato, como os resultados se aproximam muito de 1, isso indica que não há correlação entre as variáveis preditoras do modelo. Encerram-se as possíveis dúvidas acerca da multicolinearidade.
iii) Heterocedasticidade:
Para verificação da heterocedasticidade, iremos aplicar o teste de Breusch-Pagan:
#testando heterocedasticidade
bptest(evasao)
##
## studentized Breusch-Pagan test
##
## data: evasao
## BP = 19.327, df = 3, p-value = 0.000234
A estatística do teste apresenta um valor de 19,327 em contraponto com o valor p<0.05. Aceitamos a hipótese nula que indica a heterocedasticidade no modelo.
iv) Normalidade dos resíduos:
Agora, vamos nos debruçar nos resíduos da regressão, testando primeiramente a normalidade deles:
#testando normalidade nos resíduos
hist(evasao$residuals)
De fato, os resíduos apresentam normalidade, com leve deslocamento para a direita.
v) Autocorrelação dos resíduos:
Analisando a autocorrelação dos resíduos via aplicação do teste de Durbin-Watson e via análise gráfica:
#verificando autocorrelação nos resíduos
durbinWatsonTest(evasao)
## lag Autocorrelation D-W Statistic p-value
## 1 0.1755134 1.648465 0.016
## Alternative hypothesis: rho != 0
A estatística do teste nos retornou um resultado de 1,6484; enquanto o p-valor calculado ficou em 0,01, menor que 0,05, rejeitando assim a hipótese nula em que os resíduos estão autocorrelacionados.
plot(evasao$residuals)
Podemos nos debruçar sobre o gráfico plotado, facilmente podemos verificar que os resíduos estão bem dispersos e sem correlações.
Após a estimação do modelo de regressão linear múltipla e análise de seus resultados, podem-se estabelecer alguns pontos importantes:
A taxa de evasão dos cursos de graduação pôde ser explicada com significativa relevância pelas correlações propostas com a relação candidato/vaga, modalidade do curso e o impacto da pandemia e das aulas remotas. Cerca de 55% dessas alterações ficaram à caráter dos resíduos.
A relação candidato/vaga possui correlação negativa com a taxa de evasão, confirmando que os cursos mais concorridos possuem menor número de desistentes.
Os cursos de modalidade bacharelado também apresentaram correlação negativa com a adesão, atestando que há maior incidência nos cursos de modalidade licenciatura, profissional ou múltipla.
A hipótese de que as dificuldades impostas pelo cenário pandêmico poderiam agravar os índices de evasão foram descartadas, tendo em vista a correlação negativa (de grande significância, diga-se de passagem) com as taxas de evasão.
Este trabalho se propôs a fazer uma breve análise sobre o tema. O indicado seria elaborar uma base de dados mais robusta com série histórica mais longa, para verificar o comportamento das variáveis ao longo do tempo, observando possíveis alterações mais significativas. Seria muito interessante adicionar ao estudo as variáveis qualitativas que ajudariam a explicar as taxas de evasão. Podemos salientar aqui os motivos pessoais de cada desistência, separados em grupos. Caberia a unidade responsável elaborar e disponibilizar esse tipo de relatório, à cargo da Pró-Reitoria de Graduação da UFPR.
Munidos de um relatório mais robusto e consistente, poderiam-se estabelecer algumas sugestões de ação para o gabinete da Reitoria. Com o uso de indicadores e replicação do modelo nos anos posteriores, haveria como comparar a efetividade das políticas utilizadas. Estamos certos de que esse compromisso deve ser responsabilidade de toda comunidade acadêmica.
FAVERO, Luiz P. Manual de Análise de Dados - Estatística e Modelagem Multivariada com Excel®, SPSS® e Stata®. Grupo GEN, 2017. 9788595155602. Disponível nesta URL.
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. AMGH; 5ª edição (10 março 2011): Grupo A, 2011. 9788580550511. Disponível nesta URL.
WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna – Tradução da 6ª edição norte-americana. Cengage Learning Brasil, 2018. 9788522126996. Disponível nesta URL.