Dados da CAPES sobre avaliação da pós-graduação

A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).

Usaremos dados da penúltima avaliação da CAPES:

Produção e produtividade de artigos

Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.

Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um terceiro C=A+B)

Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.

EDA

Data summary
Name cacc
Number of rows 73
Number of columns 8
_______________________
Column type frequency:
numeric 8
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
docentes 0 1 20.63 12.27 8.25 11.25 16.75 25.75 67.25 ▇▃▁▁▁
producao 0 1 58.03 65.44 0.00 18.00 42.00 67.00 355.00 ▇▂▁▁▁
produtividade 0 1 2.36 1.37 0.00 1.40 2.27 3.20 5.66 ▆▇▇▅▂
mestrados 0 1 75.79 63.23 0.00 39.00 58.00 103.00 433.00 ▇▃▁▁▁
doutorados 0 1 14.96 30.98 0.00 0.00 0.00 14.00 152.00 ▇▁▁▁▁
mestrados_pprof 0 1 3.66 1.81 0.00 2.57 3.58 4.88 8.19 ▂▇▇▃▂
doutorados_pprof 0 1 0.43 0.73 0.00 0.00 0.00 0.57 2.69 ▇▁▁▁▁
nivel 0 1 3.84 1.17 3.00 3.00 3.00 4.00 7.00 ▇▅▁▁▁

Se quisermos modelar o efeito do tamanho do programa em termos de docentes (permanentes) na quantidade de artigos publicados, podemos usar regressão.

Importante: sempre queremos ver os dados antes de fazermos qualquer modelo ou sumário:

Pelo correlograma, vemos que a variável com maior correlação com produtividade é producao, mas como produtividade é calculada considerando producao e docentes, iremos utilizar as outras variáveis no nosso modelo, ficando atentos para nivel, que mostra uma correlação positiva razoavelmente alta com produtividade.

Como visualizar um dado com muitas dimensões não é tarefa trivial, precisariamos de reduzir essa dimensionalidade utilizando técnicas como o PCA, mas, como não é escopo do exercício, vejamos como se comporta o gráfico de dispersão considerando a variável nivel:

Como a variável nivel possui um intervalo pequeno de valores, fica difícil deduzir uma relação só com o gráfico. Vamos, então, criar nosso modelo:

term estimate std.error statistic p.value conf.low conf.high
(Intercept) -0.5232957 0.6496066 -0.8055579 0.4233476 -1.8199159 0.7733244
mestrados -0.0040026 0.0045775 -0.8744098 0.3850188 -0.0131392 0.0051341
doutorados 0.0034647 0.0125411 0.2762652 0.7831948 -0.0215675 0.0284968
doutorados_pprof 0.2847886 0.4309373 0.6608585 0.5109691 -0.5753659 1.1449431
mestrados_pprof 0.0240656 0.0897828 0.2680422 0.7894904 -0.1551417 0.2032729
nivel 0.7636584 0.1907169 4.0041462 0.0001584 0.3829859 1.1443310
r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC deviance df.residual
0.5300459 0.4949748 0.9752697 15.11343 0 6 -98.62401 211.248 227.2812 63.72711 67

Se considerarmos que temos apenas uma amostra de todos os programas de pós em CC no Brasil, o que podemos inferir a partir desse modelo sobre a relação entre número de docentes permanentes e produtividade em programas de pós?


Regressão múltipla foi utilizada para analisar se o número de docentes, mestrados, doutorados_pprof (Doutorados por docente) tem uma associação com a produtividade de um programa de pós graduação no Brasil. Os resultados da regressão indicam que um modelo com os 5 preditores no formato produtividade = 0.43 + 0.67 * (nivel) + 0.13 * (mestrados_pprof) + 0.02 * (doutorados) - 0.01 * (mestrados) - 0.34 * (doutorados_pprof) explicam 55% da variância da produtividade (R2=0.5506004). O número de mestrados e doutorados tem uma relação muito pequena com a produtividade (b=[-0.0220, -0.0008], IC com 95%) e (b=[-0.0035, 0.0501], IC com 95%) respectivamente, assim como o número de mestrados por docente (b=[-0.1365, 0.4076], IC com 95%). A variável doutorados_pprof (doutorados por docente) tem uma relação negativa um pouco maior com a produtividade (b=[-1.1815, 0.4965], IC com 95%). No entanto, a variável nivel tem uma relação positiva significativa com a produtividade (b=[0.2734, 1.0727], IC com 95%). O aumento de 1 unidade no nível do curso aumenta em 0.67 o índice de produtividade do curso, enquanto o número de doutorados por docentes diminui 0.34 nesse mesmo índice. As outras variáveis não parecem influenciar tanto a produtividade do curso. Considerando que o intervalo do índice de produtividade vai de 0 a 5.6 aproximadamente, o nível do programa parece ter muita influencia na produtividade do mesmo.