Regressão linear na prática

Dados da CAPES sobre avaliação da pós-graduação

A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).

Usaremos dados da penúltima avaliação da CAPES:

cacc_tudo = read_projectdata()

Produção e produtividade de artigos

Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.

cacc = cacc_tudo %>%
  transmute(
    docentes = `Docentes permanentes`,
    producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
    produtividade = producao / docentes,
    mestrados = Dissertacoes,
    doutorados = Teses,
    mestrados_pprof = mestrados / docentes,
    doutorados_pprof = doutorados / docentes,
    nivel = Nível
  )

Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um terceiro C=A+B)

Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.

EDA

skimr::skim(cacc)

Data summary

Name	cacc
Number of rows	73
Number of columns	8
_______________________
Column type frequency:
numeric	8
________________________
Group variables	None

Variable type: numeric

skim_variable	complete_rate	mean	sd	p0	p25	p50	p75	p100	hist
docentes	1	20.63	12.27	8.25	11.25	16.75	25.75	67.25	▇▃▁▁▁
producao	1	58.03	65.44	0.00	18.00	42.00	67.00	355.00	▇▂▁▁▁
produtividade	1	2.36	1.37	0.00	1.40	2.27	3.20	5.66	▆▇▇▅▂
mestrados	1	75.79	63.23	0.00	39.00	58.00	103.00	433.00	▇▃▁▁▁
doutorados	1	14.96	30.98	0.00	0.00	0.00	14.00	152.00	▇▁▁▁▁
mestrados_pprof	1	3.66	1.81	0.00	2.57	3.58	4.88	8.19	▂▇▇▃▂
doutorados_pprof	1	0.43	0.73	0.00	0.00	0.00	0.57	2.69	▇▁▁▁▁
nivel	1	3.84	1.17	3.00	3.00	3.00	4.00	7.00	▇▅▁▁▁

cacc %>% 
  ggplot(aes(x = produtividade)) + 
  geom_histogram(bins = 15, fill = paleta[3]) +
  hrbrthemes::theme_ipsum_rc()

Se quisermos modelar o efeito do tamanho do programa em termos de docentes (permanentes) na quantidade de artigos publicados, podemos usar regressão.

Importante: sempre queremos ver os dados antes de fazermos qualquer modelo ou sumário:

corr <- cor(cacc, use = "pairwise.complete.obs")
ggcorr(cacc,
    palette = "RdYlBu",
    nbreaks = 10,
    label = TRUE,
    label_round = 2,
    label_size = 3,
    hjust = 0.75,
    size = 4,
    color = "black",
    angle = -65) +
    hrbrthemes::theme_ipsum_rc()

Pelo correlograma, vemos que a variável com maior correlação com produtividade é producao, mas como produtividade é calculada considerando producao e docentes, iremos utilizar as outras variáveis no nosso modelo, ficando atentos para nivel, que mostra uma correlação positiva razoavelmente alta com produtividade.

Como visualizar um dado com muitas dimensões não é tarefa trivial, precisariamos de reduzir essa dimensionalidade utilizando técnicas como o PCA, mas, como não é escopo do exercício, vejamos como se comporta o gráfico de dispersão considerando a variável nivel:

cacc %>% 
  ggplot(aes(x = nivel, y = produtividade)) + 
  geom_point() + 
  hrbrthemes::theme_ipsum_rc()

Como a variável nivel possui um intervalo pequeno de valores, fica difícil deduzir uma relação só com o gráfico. Vamos, então, criar nosso modelo:

modelo = lm(produtividade ~ mestrados + doutorados + doutorados_pprof + mestrados_pprof + nivel, 
             data = cacc)

ti <- tidy(modelo, conf.int = TRUE, conf.level = 0.95)
kable(ti, format = 'html') %>%
  kable_styling(bootstrap_options = c('hover', 'striped'))

term	estimate	std.error	statistic	p.value	conf.low	conf.high
(Intercept)	-0.5232957	0.6496066	-0.8055579	0.4233476	-1.8199159	0.7733244
mestrados	-0.0040026	0.0045775	-0.8744098	0.3850188	-0.0131392	0.0051341
doutorados	0.0034647	0.0125411	0.2762652	0.7831948	-0.0215675	0.0284968
doutorados_pprof	0.2847886	0.4309373	0.6608585	0.5109691	-0.5753659	1.1449431
mestrados_pprof	0.0240656	0.0897828	0.2680422	0.7894904	-0.1551417	0.2032729
nivel	0.7636584	0.1907169	4.0041462	0.0001584	0.3829859	1.1443310

gl <- glance(modelo)
kable(gl, format = 'html') %>%
  kable_styling(bootstrap_options = c('hover', 'striped'))

r.squared	adj.r.squared	sigma	statistic	p.value	df	logLik	AIC	BIC	deviance	df.residual
0.5300459	0.4949748	0.9752697	15.11343	0	6	-98.62401	211.248	227.2812	63.72711	67

Se considerarmos que temos apenas uma amostra de todos os programas de pós em CC no Brasil, o que podemos inferir a partir desse modelo sobre a relação entre número de docentes permanentes e produtividade em programas de pós?

Regressão múltipla foi utilizada para analisar se o número de docentes, mestrados, doutorados_pprof (Doutorados por docente) tem uma associação com a produtividade de um programa de pós graduação no Brasil. Os resultados da regressão indicam que um modelo com os 5 preditores no formato produtividade = 0.43 + 0.67 * (nivel) + 0.13 * (mestrados_pprof) + 0.02 * (doutorados) - 0.01 * (mestrados) - 0.34 * (doutorados_pprof) explicam 55% da variância da produtividade (R2=0.5506004). O número de mestrados e doutorados tem uma relação muito pequena com a produtividade (b=[-0.0220, -0.0008], IC com 95%) e (b=[-0.0035, 0.0501], IC com 95%) respectivamente, assim como o número de mestrados por docente (b=[-0.1365, 0.4076], IC com 95%). A variável doutorados_pprof (doutorados por docente) tem uma relação negativa um pouco maior com a produtividade (b=[-1.1815, 0.4965], IC com 95%). No entanto, a variável nivel tem uma relação positiva significativa com a produtividade (b=[0.2734, 1.0727], IC com 95%). O aumento de 1 unidade no nível do curso aumenta em 0.67 o índice de produtividade do curso, enquanto o número de doutorados por docentes diminui 0.34 nesse mesmo índice. As outras variáveis não parecem influenciar tanto a produtividade do curso. Considerando que o intervalo do índice de produtividade vai de 0 a 5.6 aproximadamente, o nível do programa parece ter muita influencia na produtividade do mesmo.