## ── Attaching packages ─────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.0 ✔ purrr 0.3.2
## ✔ tibble 2.1.1 ✔ dplyr 0.8.5
## ✔ tidyr 1.0.2 ✔ stringr 1.4.0
## ✔ readr 1.3.1 ✔ forcats 0.4.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
##
## Attaching package: 'modelr'
## The following object is masked from 'package:broom':
##
## bootstrap
##
## Attaching package: 'GGally'
## The following object is masked from 'package:dplyr':
##
## nasa
A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).
Usaremos dados da penúltima avaliação da CAPES:
cacc_tudo = read_projectdata()
glimpse(cacc_tudo)
## Observations: 73
## Variables: 31
## $ Instituição <chr> "UNIVERSIDADE FEDERAL DO AMAZONAS",…
## $ Programa <chr> "INFORMÁTICA (12001015012P2)", "CIÊ…
## $ Nível <int> 5, 4, 3, 3, 3, 5, 4, 3, 3, 3, 5, 3,…
## $ Sigla <chr> "UFAM", "UFPA", "UFMA", "UEMA", "FU…
## $ `Tem doutorado` <chr> "Sim", "Sim", "Não", "Não", "Não", …
## $ `Docentes colaboradores` <dbl> 0.25, 5.50, 3.00, 6.25, 1.75, 2.00,…
## $ `Docentes permanentes` <dbl> 24.75, 14.00, 10.00, 14.00, 9.50, 2…
## $ `Docentes visitantes` <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.75,…
## $ `Resumos em conf` <int> 20, 23, 15, 5, 4, 10, 6, 136, 0, 24…
## $ `Resumos expandidos em conf` <int> 25, 24, 7, 10, 1, 68, 9, 13, 4, 6, …
## $ `Artigos em conf` <int> 390, 284, 115, 73, 150, 269, 179, 0…
## $ Dissertacoes <int> 108, 77, 50, 25, 31, 75, 60, 129, 4…
## $ Teses <int> 14, 0, 0, 0, 0, 24, 5, 0, 0, 0, 29,…
## $ periodicos_A1 <int> 15, 19, 5, 1, 7, 21, 21, 0, 3, 8, 4…
## $ periodicos_A2 <int> 19, 21, 11, 1, 4, 32, 13, 0, 9, 2, …
## $ periodicos_B1 <int> 19, 38, 7, 3, 6, 26, 16, 2, 6, 4, 3…
## $ periodicos_B2 <int> 1, 12, 2, 6, 0, 0, 11, 0, 0, 2, 1, …
## $ periodicos_B3 <int> 3, 16, 2, 2, 3, 16, 15, 0, 4, 6, 9,…
## $ periodicos_B4 <int> 0, 4, 0, 3, 3, 0, 1, 3, 1, 6, 0, 0,…
## $ periodicos_B5 <int> 10, 16, 8, 4, 12, 4, 16, 2, 6, 2, 1…
## $ periodicos_C <int> 9, 34, 12, 5, 2, 3, 11, 9, 5, 10, 1…
## $ periodicos_NA <int> 7, 15, 8, 11, 12, 6, 19, 31, 7, 14,…
## $ per_comaluno_A1 <int> 4, 1, 0, 0, 1, 7, 5, 0, 1, 0, 10, 0…
## $ per_comaluno_A2 <int> 5, 5, 5, 0, 2, 15, 3, 0, 3, 0, 3, 0…
## $ per_comaluno_B1 <int> 4, 2, 5, 2, 2, 14, 6, 0, 2, 0, 17, …
## $ per_comaluno_B2 <int> 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0,…
## $ per_comaluno_B3 <int> 2, 2, 0, 1, 0, 7, 9, 0, 2, 0, 4, 0,…
## $ per_comaluno_B4 <int> 0, 0, 0, 0, 2, 0, 1, 0, 1, 3, 0, 0,…
## $ per_comaluno_B5 <int> 5, 0, 4, 0, 8, 3, 6, 0, 4, 0, 4, 0,…
## $ per_comaluno_C <int> 6, 5, 3, 1, 2, 3, 7, 1, 2, 4, 8, 0,…
## $ per_comaluno_NA <int> 6, 14, 2, 2, 9, 3, 6, 4, 5, 1, 10, …
Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.
cacc = cacc_tudo %>%
transmute(
docentes = `Docentes permanentes`,
producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
produtividade = producao / docentes,
mestrados = Dissertacoes,
doutorados = Teses,
tem_doutorado = tolower(`Tem doutorado`) == "sim",
mestrados_pprof = mestrados / docentes,
doutorados_pprof = doutorados / docentes
)
cacc_md = cacc %>%
filter(tem_doutorado)
Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um tercero C=A+B)
Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.
cacc %>%
select(-tem_doutorado) %>%
ggpairs()
A partir das correlações na matriz acima, é possível ver que as variáveis mais correlacionadas com a produtividade são producao, doutorados_pprof e doutorados. Entretanto, não iremos considerar a produção pois ela está relacionada diretamente com a produtividade e em relação as variáveis referentes ao doutorado, iremos escolher apenas doutorados_pprof. Neste caso, iremos considerar mestrados, doutorados_pprof e docentes para analisar a relação delas com a produtividade.
cacc %>%
ggplot(aes(x = produtividade, y = docentes, color = doutorados_pprof, size = mestrados))+
geom_point()
Analisando a visualização acima, é possível ver que existe uma relação entre produtividade e docentes, ou seja, quando o número de docentes é maior a produtividade aumenta. O mesmo acontece com os mestrados. Também existe uma relação entre a produtividade e a variável doutorados_pprof, em que quanto mais o programa tem doutorados (teses produzidas) por docentes maior a produtividade.
A partir da análise anterior, iremos criar um modelo multivariado para analisar a associação entre a produtividade e os docentes, mestrados e doutorados_pprof. Além disso, iremos acrescentar a variável tem_doutorado, que identifica se o programa possui doutorado ou não. Essa variável, tem_doutorado, pode interferir significativamente na produtividade.
modelo3 = lm(produtividade ~ docentes + mestrados + doutorados_pprof + tem_doutorado, data = cacc)
tidy(modelo3, conf.int = TRUE, conf.level = 0.95)
glance(modelo3)
Regressão múltipla foi utilizada para analisar se o número de docentes, mestrados, doutorados_pprof (Doutorados por docente) e ter doutorado ou não (tem_doutorado) tem uma associação com a produtividade de um programa de pós graduação no Brasil. Os resultados da regressão indicam que um modelo com os 4 preditores no formato produtividade = 1.33 + 0.021.docentes -0.0019.mestrados + 0.64.doutorados_pprof + 1.0.tem_doutorado explicam 52,4% da variância da produtividade (R2=0.524). O número de docentes tem uma relação muito pequena com a produtividade (b=[-0.013 0.056], IC com 95%), assim como o número de mestrados (b=[-0.008, 0.0043], IC com 95%). A variável doutorados_pprof (doutorados por docente) tem uma relação um pouco maior com a produtividade (b=[0.14, 1.13], IC com 95%). No entanto, a variável tem_doutorado, medida como 1, tem uma relação significativa com a produtividade (para tem_doutorado=TRUE b=[0.39,1.60,], IC com 95%). O aumento de 1 unidade dos docentes produz uma mudança de 0.021 na produtividade, enquanto um aumento de uma unidade de mestrados produz uma mudança de -0.0019 na produtividade, um aumento de uma unidade de doutorados por docentes (doutorados_pprof) produz uma mudança de 0.64 na produtividade e um novo programa com doutorado produz uma mudança de 1.0 na produtividade. Portanto, vemos que possuir doutorado no programa de pós graduação aumenta consideravelmente a produtividade dele.