Dados da CAPES sobre avaliação da pós-graduação
A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).
Usaremos dados da penúltima avaliação da CAPES:
Produção e produtividade de artigos
Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.
cacc = cacc_tudo %>%
transmute(
docentes = `Docentes permanentes`,
producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
produtividade = producao / docentes,
mestrados = Dissertacoes,
doutorados = Teses,
mestrados_pprof = mestrados / docentes,
doutorados_pprof = doutorados / docentes,
nivel = Nível
)Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um terceiro C=A+B)
Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.
EDA
| Name | cacc |
| Number of rows | 73 |
| Number of columns | 8 |
| _______________________ | |
| Column type frequency: | |
| numeric | 8 |
| ________________________ | |
| Group variables | None |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| docentes | 0 | 1 | 20.63 | 12.27 | 8.25 | 11.25 | 16.75 | 25.75 | 67.25 | ▇▃▁▁▁ |
| producao | 0 | 1 | 58.03 | 65.44 | 0.00 | 18.00 | 42.00 | 67.00 | 355.00 | ▇▂▁▁▁ |
| produtividade | 0 | 1 | 2.36 | 1.37 | 0.00 | 1.40 | 2.27 | 3.20 | 5.66 | ▆▇▇▅▂ |
| mestrados | 0 | 1 | 75.79 | 63.23 | 0.00 | 39.00 | 58.00 | 103.00 | 433.00 | ▇▃▁▁▁ |
| doutorados | 0 | 1 | 14.96 | 30.98 | 0.00 | 0.00 | 0.00 | 14.00 | 152.00 | ▇▁▁▁▁ |
| mestrados_pprof | 0 | 1 | 3.66 | 1.81 | 0.00 | 2.57 | 3.58 | 4.88 | 8.19 | ▂▇▇▃▂ |
| doutorados_pprof | 0 | 1 | 0.43 | 0.73 | 0.00 | 0.00 | 0.00 | 0.57 | 2.69 | ▇▁▁▁▁ |
| nivel | 0 | 1 | 3.84 | 1.17 | 3.00 | 3.00 | 3.00 | 4.00 | 7.00 | ▇▅▁▁▁ |
cacc %>%
ggplot(aes(x = produtividade)) +
geom_histogram(bins = 15, fill = paleta[3]) +
hrbrthemes::theme_ipsum_rc()Se quisermos modelar o efeito do tamanho do programa em termos de docentes (permanentes) na quantidade de artigos publicados, podemos usar regressão.
Importante: sempre queremos ver os dados antes de fazermos qualquer modelo ou sumário:
corr <- cor(cacc, use = "pairwise.complete.obs")
ggcorr(cacc,
palette = "RdYlBu",
nbreaks = 10,
label = TRUE,
label_round = 2,
label_size = 3,
hjust = 0.75,
size = 4,
color = "black",
angle = -65) +
hrbrthemes::theme_ipsum_rc()Pelo correlograma, vemos que a variável com maior correlação com produtividade é producao, mas como produtividade é calculada considerando producao e docentes, iremos utilizar as outras variáveis no nosso modelo, ficando atentos para nivel, que mostra uma correlação positiva razoavelmente alta com produtividade.
Como visualizar um dado com muitas dimensões não é tarefa trivial, precisariamos de reduzir essa dimensionalidade utilizando técnicas como o PCA, mas, como não é escopo do exercício, vejamos como se comporta o gráfico de dispersão considerando a variável nivel:
Como a variável nivel possui um intervalo pequeno de valores, fica difícil deduzir uma relação só com o gráfico. Vamos, então, criar nosso modelo:
modelo = lm(produtividade ~ mestrados + doutorados + doutorados_pprof + mestrados_pprof + nivel,
data = cacc)
ti <- tidy(modelo, conf.int = TRUE, conf.level = 0.95)
kable(ti, format = 'html') %>%
kable_styling(bootstrap_options = c('hover', 'striped'))| term | estimate | std.error | statistic | p.value | conf.low | conf.high |
|---|---|---|---|---|---|---|
| (Intercept) | -0.5232957 | 0.6496066 | -0.8055579 | 0.4233476 | -1.8199159 | 0.7733244 |
| mestrados | -0.0040026 | 0.0045775 | -0.8744098 | 0.3850188 | -0.0131392 | 0.0051341 |
| doutorados | 0.0034647 | 0.0125411 | 0.2762652 | 0.7831948 | -0.0215675 | 0.0284968 |
| doutorados_pprof | 0.2847886 | 0.4309373 | 0.6608585 | 0.5109691 | -0.5753659 | 1.1449431 |
| mestrados_pprof | 0.0240656 | 0.0897828 | 0.2680422 | 0.7894904 | -0.1551417 | 0.2032729 |
| nivel | 0.7636584 | 0.1907169 | 4.0041462 | 0.0001584 | 0.3829859 | 1.1443310 |
gl <- glance(modelo)
kable(gl, format = 'html') %>%
kable_styling(bootstrap_options = c('hover', 'striped'))| r.squared | adj.r.squared | sigma | statistic | p.value | df | logLik | AIC | BIC | deviance | df.residual |
|---|---|---|---|---|---|---|---|---|---|---|
| 0.5300459 | 0.4949748 | 0.9752697 | 15.11343 | 0 | 6 | -98.62401 | 211.248 | 227.2812 | 63.72711 | 67 |
Se considerarmos que temos apenas uma amostra de todos os programas de pós em CC no Brasil, o que podemos inferir a partir desse modelo sobre a relação entre número de docentes permanentes e produtividade em programas de pós?
Regressão múltipla foi utilizada para analisar se o número de docentes, mestrados, doutorados_pprof (Doutorados por docente) tem uma associação com a produtividade de um programa de pós graduação no Brasil. Os resultados da regressão indicam que um modelo com os 5 preditores no formato
produtividade= 0.43 + 0.67 * (nivel) + 0.13 * (mestrados_pprof) + 0.02 * (doutorados) - 0.01 * (mestrados) - 0.34 * (doutorados_pprof) explicam 55% da variância da produtividade (R2=0.5506004). O número de mestrados e doutorados tem uma relação muito pequena com a produtividade (b=[-0.0220, -0.0008], IC com 95%) e (b=[-0.0035, 0.0501], IC com 95%) respectivamente, assim como o número de mestrados por docente (b=[-0.1365, 0.4076], IC com 95%). A variáveldoutorados_pprof(doutorados por docente) tem uma relação negativa um pouco maior com a produtividade (b=[-1.1815, 0.4965], IC com 95%). No entanto, a variávelniveltem uma relação positiva significativa com a produtividade (b=[0.2734, 1.0727], IC com 95%). O aumento de 1 unidade no nível do curso aumenta em 0.67 o índice de produtividade do curso, enquanto o número de doutorados por docentes diminui 0.34 nesse mesmo índice. As outras variáveis não parecem influenciar tanto a produtividade do curso. Considerando que o intervalo do índice de produtividade vai de 0 a 5.6 aproximadamente, o nível do programa parece ter muita influencia na produtividade do mesmo.