## ── Attaching packages ────────────────────────────────────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.1 ✔ purrr 0.3.2
## ✔ tibble 2.1.1 ✔ dplyr 0.8.0.1
## ✔ tidyr 0.8.3 ✔ stringr 1.4.0
## ✔ readr 1.3.1 ✔ forcats 0.4.0
## ── Conflicts ───────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
##
## Attaching package: 'modelr'
## The following object is masked from 'package:broom':
##
## bootstrap
Dados da CAPES sobre avaliação da pós-graduação
A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).
Usaremos dados da penúltima avaliação da CAPES:
## Observations: 73
## Variables: 31
## $ Instituição <chr> "UNIVERSIDADE FEDERAL DO AMAZONAS",…
## $ Programa <chr> "INFORMÁTICA (12001015012P2)", "CIÊ…
## $ Nível <int> 5, 4, 3, 3, 3, 5, 4, 3, 3, 3, 5, 3,…
## $ Sigla <chr> "UFAM", "UFPA", "UFMA", "UEMA", "FU…
## $ `Tem doutorado` <chr> "Sim", "Sim", "Não", "Não", "Não", …
## $ `Docentes colaboradores` <dbl> 0.25, 5.50, 3.00, 6.25, 1.75, 2.00,…
## $ `Docentes permanentes` <dbl> 24.75, 14.00, 10.00, 14.00, 9.50, 2…
## $ `Docentes visitantes` <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.75,…
## $ `Resumos em conf` <int> 20, 23, 15, 5, 4, 10, 6, 136, 0, 24…
## $ `Resumos expandidos em conf` <int> 25, 24, 7, 10, 1, 68, 9, 13, 4, 6, …
## $ `Artigos em conf` <int> 390, 284, 115, 73, 150, 269, 179, 0…
## $ Dissertacoes <int> 108, 77, 50, 25, 31, 75, 60, 129, 4…
## $ Teses <int> 14, 0, 0, 0, 0, 24, 5, 0, 0, 0, 29,…
## $ periodicos_A1 <int> 15, 19, 5, 1, 7, 21, 21, 0, 3, 8, 4…
## $ periodicos_A2 <int> 19, 21, 11, 1, 4, 32, 13, 0, 9, 2, …
## $ periodicos_B1 <int> 19, 38, 7, 3, 6, 26, 16, 2, 6, 4, 3…
## $ periodicos_B2 <int> 1, 12, 2, 6, 0, 0, 11, 0, 0, 2, 1, …
## $ periodicos_B3 <int> 3, 16, 2, 2, 3, 16, 15, 0, 4, 6, 9,…
## $ periodicos_B4 <int> 0, 4, 0, 3, 3, 0, 1, 3, 1, 6, 0, 0,…
## $ periodicos_B5 <int> 10, 16, 8, 4, 12, 4, 16, 2, 6, 2, 1…
## $ periodicos_C <int> 9, 34, 12, 5, 2, 3, 11, 9, 5, 10, 1…
## $ periodicos_NA <int> 7, 15, 8, 11, 12, 6, 19, 31, 7, 14,…
## $ per_comaluno_A1 <int> 4, 1, 0, 0, 1, 7, 5, 0, 1, 0, 10, 0…
## $ per_comaluno_A2 <int> 5, 5, 5, 0, 2, 15, 3, 0, 3, 0, 3, 0…
## $ per_comaluno_B1 <int> 4, 2, 5, 2, 2, 14, 6, 0, 2, 0, 17, …
## $ per_comaluno_B2 <int> 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0,…
## $ per_comaluno_B3 <int> 2, 2, 0, 1, 0, 7, 9, 0, 2, 0, 4, 0,…
## $ per_comaluno_B4 <int> 0, 0, 0, 0, 2, 0, 1, 0, 1, 3, 0, 0,…
## $ per_comaluno_B5 <int> 5, 0, 4, 0, 8, 3, 6, 0, 4, 0, 4, 0,…
## $ per_comaluno_C <int> 6, 5, 3, 1, 2, 3, 7, 1, 2, 4, 8, 0,…
## $ per_comaluno_NA <int> 6, 14, 2, 2, 9, 3, 6, 4, 5, 1, 10, …
Produção e produtividade de artigos
Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.
cacc = cacc_tudo %>%
transmute(
docentes = `Docentes permanentes`,
producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
produtividade = producao / docentes,
mestrados = Dissertacoes,
doutorados = Teses,
tem_doutorado = tolower(`Tem doutorado`) == "sim",
mestrados_pprof = mestrados / docentes,
doutorados_pprof = doutorados / docentes
)
cacc_md = cacc %>%
filter(tem_doutorado)EDA
| variable | type | stat | level | value | formatted |
|---|---|---|---|---|---|
| docentes | numeric | missing | .all | 0.0000000 | 0 |
| docentes | numeric | complete | .all | 73.0000000 | 73 |
| docentes | numeric | n | .all | 73.0000000 | 73 |
| docentes | numeric | mean | .all | 20.6301370 | 20.63 |
| docentes | numeric | sd | .all | 12.2697622 | 12.27 |
| docentes | numeric | p0 | .all | 8.2500000 | 8.25 |
| docentes | numeric | p25 | .all | 11.2500000 | 11.25 |
| docentes | numeric | p50 | .all | 16.7500000 | 16.75 |
| docentes | numeric | p75 | .all | 25.7500000 | 25.75 |
| docentes | numeric | p100 | .all | 67.2500000 | 67.25 |
| docentes | numeric | hist | .all | NA | ▇▅▂▁▁▁▁▁ |
| producao | integer | missing | .all | 0.0000000 | 0 |
| producao | integer | complete | .all | 73.0000000 | 73 |
| producao | integer | n | .all | 73.0000000 | 73 |
| producao | integer | mean | .all | 58.0273973 | 58.03 |
| producao | integer | sd | .all | 65.4359255 | 65.44 |
| producao | integer | p0 | .all | 0.0000000 | 0 |
| producao | integer | p25 | .all | 18.0000000 | 18 |
| producao | integer | p50 | .all | 42.0000000 | 42 |
| producao | integer | p75 | .all | 67.0000000 | 67 |
| producao | integer | p100 | .all | 355.0000000 | 355 |
| producao | integer | hist | .all | NA | ▇▅▁▁▁▁▁▁ |
| produtividade | numeric | missing | .all | 0.0000000 | 0 |
| produtividade | numeric | complete | .all | 73.0000000 | 73 |
| produtividade | numeric | n | .all | 73.0000000 | 73 |
| produtividade | numeric | mean | .all | 2.3644155 | 2.36 |
| produtividade | numeric | sd | .all | 1.3723604 | 1.37 |
| produtividade | numeric | p0 | .all | 0.0000000 | 0 |
| produtividade | numeric | p25 | .all | 1.4035088 | 1.4 |
| produtividade | numeric | p50 | .all | 2.2686567 | 2.27 |
| produtividade | numeric | p75 | .all | 3.1965812 | 3.2 |
| produtividade | numeric | p100 | .all | 5.6626506 | 5.66 |
| produtividade | numeric | hist | .all | NA | ▃▆▆▇▃▃▂▂ |
| mestrados | integer | missing | .all | 0.0000000 | 0 |
| mestrados | integer | complete | .all | 73.0000000 | 73 |
| mestrados | integer | n | .all | 73.0000000 | 73 |
| mestrados | integer | mean | .all | 75.7945205 | 75.79 |
| mestrados | integer | sd | .all | 63.2332452 | 63.23 |
| mestrados | integer | p0 | .all | 0.0000000 | 0 |
| mestrados | integer | p25 | .all | 39.0000000 | 39 |
| mestrados | integer | p50 | .all | 58.0000000 | 58 |
| mestrados | integer | p75 | .all | 103.0000000 | 103 |
| mestrados | integer | p100 | .all | 433.0000000 | 433 |
| mestrados | integer | hist | .all | NA | ▇▇▂▁▁▁▁▁ |
| doutorados | integer | missing | .all | 0.0000000 | 0 |
| doutorados | integer | complete | .all | 73.0000000 | 73 |
| doutorados | integer | n | .all | 73.0000000 | 73 |
| doutorados | integer | mean | .all | 14.9589041 | 14.96 |
| doutorados | integer | sd | .all | 30.9822702 | 30.98 |
| doutorados | integer | p0 | .all | 0.0000000 | 0 |
| doutorados | integer | p25 | .all | 0.0000000 | 0 |
| doutorados | integer | p50 | .all | 0.0000000 | 0 |
| doutorados | integer | p75 | .all | 14.0000000 | 14 |
| doutorados | integer | p100 | .all | 152.0000000 | 152 |
| doutorados | integer | hist | .all | NA | ▇▁▁▁▁▁▁▁ |
| tem_doutorado | logical | missing | .all | 0.0000000 | 0 |
| tem_doutorado | logical | complete | .all | 73.0000000 | 73 |
| tem_doutorado | logical | n | .all | 73.0000000 | 73 |
| tem_doutorado | logical | mean | .all | 0.4657534 | 0.47 |
| tem_doutorado | logical | count | FALSE | 39.0000000 | FAL: 39 |
| tem_doutorado | logical | count | TRUE | 34.0000000 | TRU: 34 |
| tem_doutorado | logical | count | NA | 0.0000000 | NA: 0 |
| mestrados_pprof | numeric | missing | .all | 0.0000000 | 0 |
| mestrados_pprof | numeric | complete | .all | 73.0000000 | 73 |
| mestrados_pprof | numeric | n | .all | 73.0000000 | 73 |
| mestrados_pprof | numeric | mean | .all | 3.6612986 | 3.66 |
| mestrados_pprof | numeric | sd | .all | 1.8132698 | 1.81 |
| mestrados_pprof | numeric | p0 | .all | 0.0000000 | 0 |
| mestrados_pprof | numeric | p25 | .all | 2.5747126 | 2.57 |
| mestrados_pprof | numeric | p50 | .all | 3.5752212 | 3.58 |
| mestrados_pprof | numeric | p75 | .all | 4.8780488 | 4.88 |
| mestrados_pprof | numeric | p100 | .all | 8.1904762 | 8.19 |
| mestrados_pprof | numeric | hist | .all | NA | ▂▃▅▇▅▃▁▂ |
| doutorados_pprof | numeric | missing | .all | 0.0000000 | 0 |
| doutorados_pprof | numeric | complete | .all | 73.0000000 | 73 |
| doutorados_pprof | numeric | n | .all | 73.0000000 | 73 |
| doutorados_pprof | numeric | mean | .all | 0.4285450 | 0.43 |
| doutorados_pprof | numeric | sd | .all | 0.7313863 | 0.73 |
| doutorados_pprof | numeric | p0 | .all | 0.0000000 | 0 |
| doutorados_pprof | numeric | p25 | .all | 0.0000000 | 0 |
| doutorados_pprof | numeric | p50 | .all | 0.0000000 | 0 |
| doutorados_pprof | numeric | p75 | .all | 0.5663717 | 0.57 |
| doutorados_pprof | numeric | p100 | .all | 2.6930693 | 2.69 |
| doutorados_pprof | numeric | hist | .all | NA | ▇▁▁▁▁▁▁▁ |
Análise da produtividade
Agora o objetivo é medir a produtividade, ou seja, produzido / utilizado. Abaixo será gerado um modelo com 3 fatores que foram julgados por mim importantes para se relacionarem com a produtividade de cada programa.
Modelo
- Será levado em consideração apenas programas que possuem mestrado e doutorado.
- O modelo criado terá como objeto de estudo os seguintes fatores: (ii.i) Número de artigos dividio pelo numero de docentes (ii.ii) Número de mestrandos (ii.iii) Número de docentes (ii.iv) Caso o programa contém ou nn programa de doutorado
Abaixo é realizado a EDA dos fatores citados acima:
cacc %>%
ggplot(aes(x = tem_doutorado, fill = tem_doutorado)) +
geom_histogram(bins = 15, stat = "count")## Warning: Ignoring unknown parameters: binwidth, bins, pad
Abaixo é gerado o modelo:
modelo_4_fatores = lm(produtividade ~ mestrados + docentes + tem_doutorado,
data = cacc)
tidy(modelo_4_fatores, conf.int = TRUE, conf.level = 0.95) %>% select(-statistic, -p.value, - std.error)| term | estimate | conf.low | conf.high |
|---|---|---|---|
| (Intercept) | 1.0826767 | 0.6136079 | 1.5517454 |
| mestrados | 0.0001215 | -0.0061623 | 0.0064054 |
| docentes | 0.0314233 | -0.0037478 | 0.0665943 |
| tem_doutoradoTRUE | 1.3403224 | 0.7702601 | 1.9103848 |
| r.squared |
|---|
| 0.47701 |
Implicações do modelo:
Regressão múltipla foi utilizada para analisar se o número de mestrandos, docentes e o caso de se existir ou não um programa de doutorado têm uma associação significativa com a produtividade. Os resultados da regressão indicam que um modelo com os 3 preditores no formato produtividade = 1.0826 + mestrandos.0,0001215 + docentes.0,03142 + tem_doutorado.1,3403 explicam 47,701% da variância da variável de resposta (R2 = 0,47701). Mestrandos, medida em número de alunos de mestrado, não tem uma relação significativa com o erro (b = [-0,00616; 0,006405], IC com 95%), assim como docentes, medida em número de professores permanentes (b = [-0,003747; 0,06659], IC com 95%). O fato de existir programa de doutorado, entretanto, tem uma relação a ser considerada com o erro (b = [0,7702; 1,9103], IC com 95%).