A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).
Usaremos dados da penúltima avaliação da CAPES:
cacc_tudo = read_projectdata()
glimpse(cacc_tudo)
## Rows: 73
## Columns: 31
## $ Instituição <chr> "UNIVERSIDADE FEDERAL DO AMAZONAS", "UNI…
## $ Programa <chr> "INFORMÁTICA (12001015012P2)", "CIÊNCIA …
## $ Nível <int> 5, 4, 3, 3, 3, 5, 4, 3, 3, 3, 5, 3, 3, 3…
## $ Sigla <chr> "UFAM", "UFPA", "UFMA", "UEMA", "FUFPI",…
## $ `Tem doutorado` <chr> "Sim", "Sim", "Não", "Não", "Não", "Sim"…
## $ `Docentes colaboradores` <dbl> 0.25, 5.50, 3.00, 6.25, 1.75, 2.00, 1.00…
## $ `Docentes permanentes` <dbl> 24.75, 14.00, 10.00, 14.00, 9.50, 20.75,…
## $ `Docentes visitantes` <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.75, 0.50…
## $ `Resumos em conf` <int> 20, 23, 15, 5, 4, 10, 6, 136, 0, 24, 27,…
## $ `Resumos expandidos em conf` <int> 25, 24, 7, 10, 1, 68, 9, 13, 4, 6, 16, 5…
## $ `Artigos em conf` <int> 390, 284, 115, 73, 150, 269, 179, 0, 120…
## $ Dissertacoes <int> 108, 77, 50, 25, 31, 75, 60, 129, 45, 3,…
## $ Teses <int> 14, 0, 0, 0, 0, 24, 5, 0, 0, 0, 29, 0, 0…
## $ periodicos_A1 <int> 15, 19, 5, 1, 7, 21, 21, 0, 3, 8, 44, 0,…
## $ periodicos_A2 <int> 19, 21, 11, 1, 4, 32, 13, 0, 9, 2, 23, 2…
## $ periodicos_B1 <int> 19, 38, 7, 3, 6, 26, 16, 2, 6, 4, 32, 4,…
## $ periodicos_B2 <int> 1, 12, 2, 6, 0, 0, 11, 0, 0, 2, 1, 0, 0,…
## $ periodicos_B3 <int> 3, 16, 2, 2, 3, 16, 15, 0, 4, 6, 9, 0, 2…
## $ periodicos_B4 <int> 0, 4, 0, 3, 3, 0, 1, 3, 1, 6, 0, 0, 4, 5…
## $ periodicos_B5 <int> 10, 16, 8, 4, 12, 4, 16, 2, 6, 2, 11, 0,…
## $ periodicos_C <int> 9, 34, 12, 5, 2, 3, 11, 9, 5, 10, 16, 1,…
## $ periodicos_NA <int> 7, 15, 8, 11, 12, 6, 19, 31, 7, 14, 19, …
## $ per_comaluno_A1 <int> 4, 1, 0, 0, 1, 7, 5, 0, 1, 0, 10, 0, 0, …
## $ per_comaluno_A2 <int> 5, 5, 5, 0, 2, 15, 3, 0, 3, 0, 3, 0, 0, …
## $ per_comaluno_B1 <int> 4, 2, 5, 2, 2, 14, 6, 0, 2, 0, 17, 0, 1,…
## $ per_comaluno_B2 <int> 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0…
## $ per_comaluno_B3 <int> 2, 2, 0, 1, 0, 7, 9, 0, 2, 0, 4, 0, 0, 1…
## $ per_comaluno_B4 <int> 0, 0, 0, 0, 2, 0, 1, 0, 1, 3, 0, 0, 2, 0…
## $ per_comaluno_B5 <int> 5, 0, 4, 0, 8, 3, 6, 0, 4, 0, 4, 0, 2, 5…
## $ per_comaluno_C <int> 6, 5, 3, 1, 2, 3, 7, 1, 2, 4, 8, 0, 11, …
## $ per_comaluno_NA <int> 6, 14, 2, 2, 9, 3, 6, 4, 5, 1, 10, 0, 17…
Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.
cacc = cacc_tudo %>%
transmute(
docentes = `Docentes permanentes`,
producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
produtividade = producao / docentes,
mestrados = Dissertacoes,
doutorados = Teses,
tem_doutorado = tolower(`Tem doutorado`) == "sim",
mestrados_pprof = mestrados / docentes,
doutorados_pprof = doutorados / docentes
)
cacc_md = cacc %>%
filter(tem_doutorado)
skimr::skim(cacc)
| Name | cacc |
| Number of rows | 73 |
| Number of columns | 8 |
| _______________________ | |
| Column type frequency: | |
| logical | 1 |
| numeric | 7 |
| ________________________ | |
| Group variables | None |
Variable type: logical
| skim_variable | n_missing | complete_rate | mean | count |
|---|---|---|---|---|
| tem_doutorado | 0 | 1 | 0.47 | FAL: 39, TRU: 34 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| docentes | 0 | 1 | 20.63 | 12.27 | 8.25 | 11.25 | 16.75 | 25.75 | 67.25 | ▇▃▁▁▁ |
| producao | 0 | 1 | 58.03 | 65.44 | 0.00 | 18.00 | 42.00 | 67.00 | 355.00 | ▇▂▁▁▁ |
| produtividade | 0 | 1 | 2.36 | 1.37 | 0.00 | 1.40 | 2.27 | 3.20 | 5.66 | ▆▇▇▅▂ |
| mestrados | 0 | 1 | 75.79 | 63.23 | 0.00 | 39.00 | 58.00 | 103.00 | 433.00 | ▇▃▁▁▁ |
| doutorados | 0 | 1 | 14.96 | 30.98 | 0.00 | 0.00 | 0.00 | 14.00 | 152.00 | ▇▁▁▁▁ |
| mestrados_pprof | 0 | 1 | 3.66 | 1.81 | 0.00 | 2.57 | 3.58 | 4.88 | 8.19 | ▂▇▇▃▂ |
| doutorados_pprof | 0 | 1 | 0.43 | 0.73 | 0.00 | 0.00 | 0.00 | 0.57 | 2.69 | ▇▁▁▁▁ |
cacc %>%
ggplot(aes(x = docentes)) +
geom_histogram(bins = 15, fill = paleta[1])
cacc %>%
ggplot(aes(x = producao)) +
geom_histogram(bins = 15, fill = paleta[2])
cacc %>%
ggplot(aes(x = produtividade)) +
geom_histogram(bins = 15, fill = paleta[3])
Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um tercero C=A+B)
Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.
Antes de tudo, vejamos como as outras variáveis se relacionam com a produtividade.
cor_matrix <- cacc %>% cor()
ggcorrplot(cor_matrix,
hc.order = TRUE,
type = "upper",
outline.col = "white",
ggtheme = theme_ipsum_rc(),
colors = c("#F4743B", "white", "#2D3142"))
Observamos que a maioria das variáveis possui correlação forte e positiva com a produtividade, com exceção de mestrados_pprof. Criaremos nosso modelo utilizando as variáveis mestrados_pprof, doutorados_pprof e tem_doutorado pois estas variáveis não são função linear da variável resposta e, ou não possuem correlação forte entre si ou condensam informações de outras variáveis.
cacc_mult = cacc %>%
select(produtividade,
mestrados_pprof,
doutorados_pprof,
tem_doutorado) %>%
mutate(tem_doutorado = ifelse(tem_doutorado, 1, 0))
Vejamos como se comportam os dados quando a produtividade está em função dessas variáveis.
cacc_mult %>%
ggplot(aes(x = mestrados_pprof,
y = produtividade,
size = doutorados_pprof,
colour = as.factor(tem_doutorado))) +
geom_point() +
scale_colour_manual(values = c("0" = paleta[3],
"1" = paleta[5]),
labels = c("FALSE", "TRUE")) +
labs(title = "Produtividade em função das variáveis selecionadas",
colour = "tem_doutorado")
Assim como quantificado no correlograma anterior, notamos a existência de uma relação positiva mas não tão forte da produtividade com mestrados_pprof, que programas que possuem doutorado com mais professores possuem maior produtividade e que nenhum programa que possui apenas mestrado possui produtividade maior que 4.
Criaremos agora nosso modelo com as variáveis selecionadas anteriormente.
modelo_mult = lm(produtividade ~ mestrados_pprof + doutorados_pprof + tem_doutorado,
data = cacc_mult)
tidy(modelo_mult,
conf.int = TRUE,
conf.level = 0.95)
glance(modelo_mult)
Utilizamos um modelo de Regressão múltipla para analisar se produtividade tem uma associação significativa com mestrados_pprof, doutorados_pprof e tem_doutorado. Os resultados da regressão indicam que um modelo com os 3 preditores no formato \(produtividade = 0.0179 \cdot mestrados\_pprof + 0.7303 \cdot doutorados\_pprof + 1.0997 \cdot tem\_doutorado\) explicam 51,33% da variância da variável de resposta (R2 = 0,5133). A variável mestrados_pprof tem uma relação irrelevante (o zero está presente no intervalo) com a produtividade (b = [-0,1094; 0,1453], IC com 95%), doutorados_pprof possui relação significativa com a produtividade (b = [-0,3229; 1,1377], IC com 95%) assim como tem_doutorado [que vale 1 caso o programa possua doutorado e 0 caso contrário] (b = [0,5080; 1,6913], IC com 95%). O aumento de 1 unidade de mestrados_pprof produz uma mudança de 0.0179 na produtividade, o aumento de 1 unidade de doutorados_pprof produz uma mudança de 0.7303 na produtividade e a existência do doutorado em um programa (tem_doutorado = 1) produz uma mudança de 1.0997 na produtividade. Esses resultados indicam que a produtividade de programas de pós-graduação são mais afetadas pela existência do curso de doutorado.