Regressão linear na prática

## ── Attaching packages ───────────────────────────────────────────────────────────────────────────── tidyverse 1.2.1 ──

## ✔ ggplot2 3.1.0     ✔ purrr   0.2.5
## ✔ tibble  3.0.0     ✔ dplyr   0.8.5
## ✔ tidyr   1.0.2     ✔ stringr 1.3.1
## ✔ readr   1.2.1     ✔ forcats 0.3.0

## ── Conflicts ──────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

## 
## Attaching package: 'modelr'

## The following object is masked from 'package:broom':
## 
##     bootstrap

## 
## Attaching package: 'GGally'

## The following object is masked from 'package:dplyr':
## 
##     nasa

Dados da CAPES sobre avaliação da pós-graduação

A CAPES é um órgão do MEC que tem a atribuição de acompanhar a pós-graduação na universidade brasileira. Uma das formas que ela encontrou de fazer isso e pela qual ela é bastante criticada é através de uma avaliação quantitativa a cada x anos (era 3, mudou para 4).

Usaremos dados da penúltima avaliação da CAPES:

cacc_tudo = read_projectdata()

glimpse(cacc_tudo)

## Rows: 73
## Columns: 31
## $ Instituição                  <chr> "UNIVERSIDADE FEDERAL DO AMAZONAS",…
## $ Programa                     <chr> "INFORMÁTICA (12001015012P2)", "CIÊ…
## $ Nível                        <int> 5, 4, 3, 3, 3, 5, 4, 3, 3, 3, 5, 3,…
## $ Sigla                        <chr> "UFAM", "UFPA", "UFMA", "UEMA", "FU…
## $ `Tem doutorado`              <chr> "Sim", "Sim", "Não", "Não", "Não", …
## $ `Docentes colaboradores`     <dbl> 0.25, 5.50, 3.00, 6.25, 1.75, 2.00,…
## $ `Docentes permanentes`       <dbl> 24.75, 14.00, 10.00, 14.00, 9.50, 2…
## $ `Docentes visitantes`        <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.75,…
## $ `Resumos em conf`            <int> 20, 23, 15, 5, 4, 10, 6, 136, 0, 24…
## $ `Resumos expandidos em conf` <int> 25, 24, 7, 10, 1, 68, 9, 13, 4, 6, …
## $ `Artigos em conf`            <int> 390, 284, 115, 73, 150, 269, 179, 0…
## $ Dissertacoes                 <int> 108, 77, 50, 25, 31, 75, 60, 129, 4…
## $ Teses                        <int> 14, 0, 0, 0, 0, 24, 5, 0, 0, 0, 29,…
## $ periodicos_A1                <int> 15, 19, 5, 1, 7, 21, 21, 0, 3, 8, 4…
## $ periodicos_A2                <int> 19, 21, 11, 1, 4, 32, 13, 0, 9, 2, …
## $ periodicos_B1                <int> 19, 38, 7, 3, 6, 26, 16, 2, 6, 4, 3…
## $ periodicos_B2                <int> 1, 12, 2, 6, 0, 0, 11, 0, 0, 2, 1, …
## $ periodicos_B3                <int> 3, 16, 2, 2, 3, 16, 15, 0, 4, 6, 9,…
## $ periodicos_B4                <int> 0, 4, 0, 3, 3, 0, 1, 3, 1, 6, 0, 0,…
## $ periodicos_B5                <int> 10, 16, 8, 4, 12, 4, 16, 2, 6, 2, 1…
## $ periodicos_C                 <int> 9, 34, 12, 5, 2, 3, 11, 9, 5, 10, 1…
## $ periodicos_NA                <int> 7, 15, 8, 11, 12, 6, 19, 31, 7, 14,…
## $ per_comaluno_A1              <int> 4, 1, 0, 0, 1, 7, 5, 0, 1, 0, 10, 0…
## $ per_comaluno_A2              <int> 5, 5, 5, 0, 2, 15, 3, 0, 3, 0, 3, 0…
## $ per_comaluno_B1              <int> 4, 2, 5, 2, 2, 14, 6, 0, 2, 0, 17, …
## $ per_comaluno_B2              <int> 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0,…
## $ per_comaluno_B3              <int> 2, 2, 0, 1, 0, 7, 9, 0, 2, 0, 4, 0,…
## $ per_comaluno_B4              <int> 0, 0, 0, 0, 2, 0, 1, 0, 1, 3, 0, 0,…
## $ per_comaluno_B5              <int> 5, 0, 4, 0, 8, 3, 6, 0, 4, 0, 4, 0,…
## $ per_comaluno_C               <int> 6, 5, 3, 1, 2, 3, 7, 1, 2, 4, 8, 0,…
## $ per_comaluno_NA              <int> 6, 14, 2, 2, 9, 3, 6, 4, 5, 1, 10, …

Produção e produtividade de artigos

Uma das maneiras de avaliar a produção dos docentes que a CAPES utiliza é quantificando a produção de artigos pelos docentes. Os artigos são categorizados em extratos ordenados (A1 é o mais alto), e separados entre artigos em conferências e periódicos. Usaremos para esse lab a produção em periódicos avaliados com A1, A2 e B1.

cacc = cacc_tudo %>%
  transmute(
    docentes = `Docentes permanentes`,
    producao = (periodicos_A1 + periodicos_A2 + periodicos_B1),
    produtividade = producao / docentes,
    mestrados = Dissertacoes,
    doutorados = Teses,
    tem_doutorado = tolower(`Tem doutorado`) == "sim",
    mestrados_pprof = mestrados / docentes,
    doutorados_pprof = doutorados / docentes
  )

cacc_md = cacc %>% 
  filter(tem_doutorado)

Agora produtividade

Diferente de medirmos produção (total produzido), é medirmos produtividade (produzido / utilizado). Abaixo focaremos nessa análise. Para isso crie um modelo que investiga como um conjunto de fatores que você julga que são relevantes se relacionam com a produtividade dos programas. Crie um modelo que avalie como pelo menos 3 fatores se relacionam com a produtividade de um programa. Pode reutilizar fatores que já definimos e analizamos para produção. Mas cuidado para não incluir fatores que sejam função linear de outros já incluídos (ex: incluir A, B e um tercero C=A+B)

Produza abaixo o modelo e um texto que comente (i) o modelo, tal como os que fizemos antes, e (ii) as implicações - o que aprendemos sobre como funcionam programas de pós no brasil?.

Antes de escolhermos o modelo, é necessário verificar a correlação entre as variáveis presentes na nossa base de dados. Para visualizarmos as correlações a variável tem_doutorado teve que ser retirada, pois é uma variável categórica, mas ela estará presente no modelo a ser feito.

ggpairs(cacc %>% 
            select(-tem_doutorado))

Após analisar o gráfico acima, pode ser afirmado que a variável produtividade tem uma relação mais forte com Produção (0.785), Doutorados (0.594) e Docentes (0.557). Sendo assim, iremos utilizar estas 3 variáveis para construírmos o modelo. No entanto, para concluirmos com mais confianca é interessante visualizarmos a distribuição das variáveis escolhidas.

cacc %>% 
    ggplot(mapping = aes(x = produtividade, y = producao)) +
    geom_point(color = "darkblue") + 
    labs(x = "Produtividade",
         y = "Produção",
         title = "Distribuição (Produtividade x Produção)") + 
    theme(plot.title = element_text(hjust = 0.5))

cacc %>%
    ggplot(mapping = aes(x = produtividade, y = doutorados)) + 
    geom_point(color = "orange") + 
    labs(x = "Produtividade",
         y = "Doutorados",
         title = "Distribuição (Produtividade x Doutorados)") + 
    theme(plot.title = element_text(hjust = 0.5))

cacc %>%
    ggplot(mapping = aes(x = produtividade, y = docentes)) +
    geom_point(color = "darkred") + 
    labs(x = "Produtividade",
         y = "Docentes",
         title = "Distribuição (Produtividade x Docents)") + 
    theme(plot.title = element_text(hjust = 0.5))

Observando os gráficos acima, podemos confirmar que há uma correlação aparentemente positiva nas 3 variáveis. No entanto, destaca-se uma boa concentração nos dados com valor 0 no eixo y na variável de Doutorados. Seguindo em frente, faremos a construção do nosso modelo com 95% de confiança.

modeloProdutividade = lm(produtividade ~ producao + tem_doutorado + docentes, data = cacc)

tidy(modeloProdutividade, conf.int = TRUE, conf.level = 0.95)

glance(modeloProdutividade)

Descrição do modelo: A regressão múltiplica foi utilizada para analisar se a produção, número de docentes e ter doutorado ou não no programa caracteriza uma associação significativa com a produtividade de um programa de pós-graduação. Ao analisar os resultados obtidos podemos afirmar que a produtividade pode ser descrita pelo modelo com os 3 preditores escolhidos no formato seguinte formato: produtividade = 0.95 tem_doutorado + 0.03 produção -0.1 docentes e explica 82.1% da variância da variável de resposta (R² = 0.8210189). Calculando os intervalos de confiança com 95% de confiança podemos afirmar que o fato do programa ter doutorado tem uma relação significativa com a produtividade (IC = [0.61129368, 1.29137422]), tratando da variável de produção temos uma relação menor do que tem_doutorado (IC = [0.02409595, 0.03419328]), e por fim temos o menor índice de relação dentre as três variáveis com o número de docentes (IC = [-0.12609679, -0.07299648]).

Tendo em vista os resultados obtidos, podemos afirmar que o aumenteo de uma unidade de programa com doutorado produz uma mudança de 0.95, enquanto o aumento de uma unidade na produção resultado em uma mudança de 0.03 e o aumento de uma unidade dos docentes produz uma mudança de -0.1 no cálculo da produtividade.

Implicações: Como mencionado anteriormente, o fato do programa possuir doutorado ou não, a produção e o número de docentes explicam 82.1% usando um modelo linear. Esse coeficiente é considerado alto, e por isso podemos concluir que o fato de um programa ter doutorado parece ser um indicativo que ele é mais produtivo do que um que ainda não o possui, pois aumentando um novo programa com doutorado produz uma mudança de 0.95 na produtividade, diferente das outras variáveis analisadas.