Regressão linear na prática

library(tidyverse)

## -- Attaching packages ----------------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.0     v purrr   0.3.3
## v tibble  2.1.3     v dplyr   0.8.5
## v tidyr   1.0.2     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0

## -- Conflicts -------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(broom)
library(modelr)

## 
## Attaching package: 'modelr'

## The following object is masked from 'package:broom':
## 
##     bootstrap

library(ggplot2)
library(GGally)

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

## 
## Attaching package: 'GGally'

## The following object is masked from 'package:dplyr':
## 
##     nasa

source(here::here("code/lib.R"), encoding = "UTF-8")
theme_set(theme_bw())

knitr::opts_chunk$set(tidy = FALSE,
                      fig.width = 6,
                      fig.height = 5)

paleta = c("#404E4D",
           "#92DCE5",
           "#938BA1",
           "#2D3142",
           "#F4743B")

Dados da CAPES sobre avaliação da pós-graduação

A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).

Usaremos dados da penúltima avaliação da CAPES:

cacc_tudo = read_projectdata()

glimpse(cacc_tudo)

## Observations: 73
## Variables: 31
## $ Instituição                  <chr> "UNIVERSIDADE FEDERAL DO AMAZONAS", "U...
## $ Programa                     <chr> "INFORMÁTICA (12001015012P2)", "CIÊNCI...
## $ Nível                        <int> 5, 4, 3, 3, 3, 5, 4, 3, 3, 3, 5, 3, 3,...
## $ Sigla                        <chr> "UFAM", "UFPA", "UFMA", "UEMA", "FUFPI...
## $ `Tem doutorado`              <chr> "Sim", "Sim", "Não", "Não", "Não", "Si...
## $ `Docentes colaboradores`     <dbl> 0.25, 5.50, 3.00, 6.25, 1.75, 2.00, 1....
## $ `Docentes permanentes`       <dbl> 24.75, 14.00, 10.00, 14.00, 9.50, 20.7...
## $ `Docentes visitantes`        <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.75, 0....
## $ `Resumos em conf`            <int> 20, 23, 15, 5, 4, 10, 6, 136, 0, 24, 2...
## $ `Resumos expandidos em conf` <int> 25, 24, 7, 10, 1, 68, 9, 13, 4, 6, 16,...
## $ `Artigos em conf`            <int> 390, 284, 115, 73, 150, 269, 179, 0, 1...
## $ Dissertacoes                 <int> 108, 77, 50, 25, 31, 75, 60, 129, 45, ...
## $ Teses                        <int> 14, 0, 0, 0, 0, 24, 5, 0, 0, 0, 29, 0,...
## $ periodicos_A1                <int> 15, 19, 5, 1, 7, 21, 21, 0, 3, 8, 44, ...
## $ periodicos_A2                <int> 19, 21, 11, 1, 4, 32, 13, 0, 9, 2, 23,...
## $ periodicos_B1                <int> 19, 38, 7, 3, 6, 26, 16, 2, 6, 4, 32, ...
## $ periodicos_B2                <int> 1, 12, 2, 6, 0, 0, 11, 0, 0, 2, 1, 0, ...
## $ periodicos_B3                <int> 3, 16, 2, 2, 3, 16, 15, 0, 4, 6, 9, 0,...
## $ periodicos_B4                <int> 0, 4, 0, 3, 3, 0, 1, 3, 1, 6, 0, 0, 4,...
## $ periodicos_B5                <int> 10, 16, 8, 4, 12, 4, 16, 2, 6, 2, 11, ...
## $ periodicos_C                 <int> 9, 34, 12, 5, 2, 3, 11, 9, 5, 10, 16, ...
## $ periodicos_NA                <int> 7, 15, 8, 11, 12, 6, 19, 31, 7, 14, 19...
## $ per_comaluno_A1              <int> 4, 1, 0, 0, 1, 7, 5, 0, 1, 0, 10, 0, 0...
## $ per_comaluno_A2              <int> 5, 5, 5, 0, 2, 15, 3, 0, 3, 0, 3, 0, 0...
## $ per_comaluno_B1              <int> 4, 2, 5, 2, 2, 14, 6, 0, 2, 0, 17, 0, ...
## $ per_comaluno_B2              <int> 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,...
## $ per_comaluno_B3              <int> 2, 2, 0, 1, 0, 7, 9, 0, 2, 0, 4, 0, 0,...
## $ per_comaluno_B4              <int> 0, 0, 0, 0, 2, 0, 1, 0, 1, 3, 0, 0, 2,...
## $ per_comaluno_B5              <int> 5, 0, 4, 0, 8, 3, 6, 0, 4, 0, 4, 0, 2,...
## $ per_comaluno_C               <int> 6, 5, 3, 1, 2, 3, 7, 1, 2, 4, 8, 0, 11...
## $ per_comaluno_NA              <int> 6, 14, 2, 2, 9, 3, 6, 4, 5, 1, 10, 0, ...

Produção e produtividade de artigos

Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.

cacc = cacc_tudo %>%
  transmute(
    docentes = `Docentes permanentes`,
    producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
    produtividade = producao / docentes,
    mestrados = Dissertacoes,
    doutorados = Teses,
    tem_doutorado = tolower(`Tem doutorado`) == "sim",
    mestrados_pprof = mestrados / docentes,
    doutorados_pprof = doutorados / docentes
  )

cacc_md = cacc %>% 
  filter(tem_doutorado)

Agora produtividade

Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um tercero C=A+B)

Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.

Correlação

Para decidir quais variáveis usar, vamos calcular as correlações entre as variáveis e ver quais as mais fortemente relacionadas com produtividade.

cacc %>% 
    select(-tem_doutorado) %>% 
    ggpairs()

É possível ver que as variáveis fortemente correlacionadas com produtividade são producao, doutorados e doutorados_pprof. Não deve se considerar a produção pois a mesma está diretamente relacionada com a produtividade. Quanto as variáveis do doutorado, iremos usar apenas doutorados_pprof que tem a maior correlação. Por fim, será considerado para análise da relação com a produtividade: docentes, mestrados, ter_doutorado e doutorados_pprof (doutorados por docente).

Regressão Linear Múltipla

modelo_prod = lm(produtividade ~ docentes + mestrados + doutorados_pprof + tem_doutorado, data = cacc)
tidy(modelo_prod, conf.int = TRUE, conf.level = 0.95)

glance(modelo_prod)

Regressão múltipla foi utilizada para analisar se o número de docentes, mestrados, doutorados_pprof (doutorados por docente) e tem_doutorado tem uma associação com a produtividade de um programa de pós-graduação. Os resultados da regressão indicam que um modelo com os 4 preditores no formato produtividade = 1.33 + 0.021*docentes - 0.0019*mestrados + 0.64*doutorados_pprof + 1.0*tem_doutorado explicam 52,4% da variância da produtividade (R2 = 0.524). O número de docentes (b = [-0.013; 0.056], IC com 95%) e mestrados (b = [-0.008; 0.0043], IC com 95%) tem uma relação muito pequena com a produtividade. A variável doutorados_pprof (doutorados por docente) tem uma relação um pouco maior com a produtividade (b = [0.14; 1.13], IC com 95%). No entanto, a variável tem_doutorado com valor = 1, tem uma relação forte com a produtividade (para tem_doutorado=TRUE b=[0.39; 1.60,], IC com 95%). Logo, podemos concluir que possuir doutorado no programa de pós-graduação gera mais impacto na produtividade.

Regressão linear na prática

Lucas Fernandes de Oliveira

Dados da CAPES sobre avaliação da pós-graduação

Produção e produtividade de artigos

Agora produtividade

Correlação

Regressão Linear Múltipla