Instalando o tidyverse e carregando pacotes

#install.packages("tidyverse") ou, se já estiver instalado,
require(tidyverse)

## Carregando pacotes exigidos: tidyverse

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──

## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.5     ✓ dplyr   1.0.7
## ✓ tidyr   1.1.4     ✓ stringr 1.4.0
## ✓ readr   2.0.2     ✓ forcats 0.5.1

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

require(rmdformats)

## Carregando pacotes exigidos: rmdformats

# Vendo o diretório do arquivo atual
getwd()

## [1] "/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Analytics Descritiva/Projeto"

#Estabelecendo que iremos trabalhar a partir desse diretório.
setwd("/Volumes/GoogleDrive-117377906867629323582/Meu Drive/Analytics Descritiva/Projeto")

Dados

Fazendo a leitura da fonte de dados.

dados <- read_csv("BD_ExpedicaoDiploma.csv")

## New names:
## * `` -> ...50
## * `` -> ...63
## * `` -> ...64
## * `` -> ...65

## Warning: One or more parsing issues, see `problems()` for details

## Rows: 3432 Columns: 65

## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (43): ID, URGENCIA, COLACAO, PROCESSO, DATA_ABERTURA_PROCESSO, DATA_ADIC...
## dbl (16): ANO_DEFESA, ANO_NASCIMENTO, ANO_DIPLOMA, ANO_PORTARIA, ANO_DOU_POR...
## lgl  (6): COTUTELA, PARECER, ...50, ...63, ...64, ...65

## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

#Vendo os títulos das colunas.
#View(dados)
names(dados)

##  [1] "ID"                               "URGENCIA"                        
##  [3] "COLACAO"                          "COTUTELA"                        
##  [5] "PROCESSO"                         "DATA_ABERTURA_PROCESSO"          
##  [7] "DATA_ADICAO_BD"                   "DATA_LIBERACAO_IMPRESSAO"        
##  [9] "DATA_IMPRESSAO"                   "LISTA"                           
## [11] "DATA_ENVIO_GABINETE"              "DATA_RETORNO_GABINETE"           
## [13] "DATA_REGISTRO"                    "DATA_INFORMADO_PPG"              
## [15] "DATA_RETIRADA_PPG"                "CENTRO"                          
## [17] "PROGRAMA_NIVEL"                   "NOME_EGRESSO"                    
## [19] "NOME_CURSO"                       "SEMESTRE_DEFESA"                 
## [21] "ANO_DEFESA"                       "DIA_COLACAO"                     
## [23] "MES_COLACAO"                      "ANO_COLACAO"                     
## [25] "TITULACAO"                        "TIPO_DOCUMENTO"                  
## [27] "NUMERO_DOCUMENTO"                 "ORGAO_EXPEDIDOR_E_ESTADO_EMISSAO"
## [29] "NATURAL"                          "DIA_NASCIMENTO"                  
## [31] "MES_NASCIMENTO"                   "ANO_NASCIMENTO"                  
## [33] "NACIONALIDADE"                    "DIA_DIPLOMA"                     
## [35] "MES_DIPLOMA"                      "ANO_DIPLOMA"                     
## [37] "AREA_CONCENTRACAO"                "PORTARIA_CURSO"                  
## [39] "PARECER"                          "DIA_PORTARIA"                    
## [41] "MES_PORTARIA"                     "ANO_PORTARIA"                    
## [43] "DIA_DOU_PORTARIA"                 "MES_DOU_PORTARIA"                
## [45] "ANO_DOU_PORTARIA"                 "APOSTILAMENTO_PARTE_1"           
## [47] "APOSTILAMENTO_PARTE_2"            "SEGUNDA_VIA"                     
## [49] "DESCRICAO_SEGUNDA_VIA"            "...50"                           
## [51] "prazo para add ao BD"             "prazo para liberação"            
## [53] "prazo para impressão"             "prazo para envio ao gabinete"    
## [55] "prazo para envio à DRD"           "prazo para retorno da DRD"       
## [57] "prazo para informar ao PPG"       "prazo de retirada do PPG"        
## [59] "contador"                         "ano do processo"                 
## [61] "ano da adição no BD"              "ano da impressão"                
## [63] "...63"                            "...64"                           
## [65] "...65"

Limpeza dos Dados

Excluindo colunas desnecessárias

colunasParaExcluir <- c("...50","prazo para add ao BD","prazo para liberação","prazo para impressão","prazo para envio ao gabinete","prazo para envio à DRD","prazo para retorno da DRD","prazo para informar ao PPG","prazo de retirada do PPG","contador","ano do processo","ano da adição no BD", "ano da impressão","...63","...64","...65")

dados2 <- dados[,!(names(dados)%in% colunasParaExcluir)]

Excluindo linhas desnecessárias (sem número de processo e/ou que os diplomas não foram expedidos), se houver

dados2 = subset(dados2, PROCESSO != "NA")
dados2 = subset(dados2, DATA_REGISTRO != "NA")

corrigindo campos de categoria com erros ortográficos

dados2$TITULACAO[dados2$TITULACAO == "MESTRE "] <-"MESTRE"
dados2$TITULACAO[dados2$TITULACAO == "MESTRA "] <-"MESTRA"
dados2$TITULACAO[dados2$TITULACAO == "DOUTOR "] <-"DOUTOR"
dados2$TITULACAO[dados2$TITULACAO == "DOUTORA "] <-"DOUTORA"
dados2$CENTRO[dados2$CENTRO == "CIn"] <-"CIN"
dados2$TIPO_DOCUMENTO[dados2$TIPO_DOCUMENTO == "de cédula de identidade nº "] <-"de cédula de identidade nº"
dados2$TIPO_DOCUMENTO[dados2$TIPO_DOCUMENTO == "do passaporte nº "] <-"do passaporte nº"

dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "1ª "] <-"1º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "2ª "] <-"2º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "1°"] <-"1º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "2°"] <-"2º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "1º"] <-"1º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "2º"] <-"2º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "          1º"] <-"1º"
dados2$SEMESTRE_DEFESA[dados2$SEMESTRE_DEFESA == "          2º"] <-"2º"

incluindo novas colunas pra facilitar a vida do cidadão

dados2 <- mutate (dados2, SEXO = NA)
dados2 <- mutate (dados2, NIVEL = NA)
dados2 <- mutate (dados2, DOCUMENTO = NA)

melhorando alguns dados

#ajeitando a coluna COLACAO
dados2$COLACAO[dados2$DIA_COLACAO == "-"] <-"sem colação"
dados2$COLACAO[is.na(dados2$DIA_COLACAO)] <- "sem colação"

dados2$COLACAO[dados2$COLACAO == "C"] <-"com colação"

#ajeitando a coluna URGENCIA
dados2$URGENCIA[dados2$URGENCIA == "U"] <-"urgente"
dados2$URGENCIA[dados2$URGENCIA == "UU"] <-"urgentíssimo"
dados2$URGENCIA[is.na(dados2$URGENCIA)] <- "não urgente"

#preenchendo a coluna SEXO
dados2$SEXO[dados2$TITULACAO == "MESTRE"] <-"masculino"
dados2$SEXO[dados2$TITULACAO == "DOUTOR"] <-"masculino"
dados2$SEXO[dados2$TITULACAO == "MESTRA"] <-"feminino"
dados2$SEXO[dados2$TITULACAO == "DOUTORA"] <-"feminino"

#preenchendo a coluna NIVEL
dados2$NIVEL[dados2$TITULACAO == "MESTRE"] <-"mestrado"
dados2$NIVEL[dados2$TITULACAO == "MESTRA"] <-"mestrado"
dados2$NIVEL[dados2$TITULACAO == "DOUTORA"] <-"doutorado"
dados2$NIVEL[dados2$TITULACAO == "DOUTOR"] <-"doutorado"

#preenchendo a coluna DOCUMENTO
dados2$DOCUMENTO[dados2$TIPO_DOCUMENTO == "de cédula de identidade nº"] <-"identidade"
dados2$DOCUMENTO[dados2$TIPO_DOCUMENTO == "do passaporte nº"] <-"passaporte"
dados2$DOCUMENTO[dados2$TIPO_DOCUMENTO == "do RNE nº"] <-"RNE"

#ajeitando a coluna COTUTELA
dados2$COTUTELA[dados2$COTUTELA == "S"] <-"regime de cotutela"
dados2$COTUTELA[dados2$COTUTELA == "C"] <-"regime de cotutela"
dados2$COTUTELA[is.na(dados2$COTUTELA)] <- "regime normal"

Salvando o BD em novo arquivo CSV depois dos ajustes e exclusão das colunas e linhas desnecessárias

write.csv(dados2, "BD_ExpedicaoDiplomasAjustado.csv", row.names = FALSE)

Abrindo nova fonte de dados bonitinha

BD_Diplomas <- read_csv("BD_ExpedicaoDiplomasAjustado.csv")

## Rows: 3364 Columns: 52

## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (46): ID, URGENCIA, COLACAO, COTUTELA, PROCESSO, DATA_ABERTURA_PROCESSO,...
## dbl  (5): ANO_DEFESA, ANO_NASCIMENTO, ANO_DIPLOMA, ANO_PORTARIA, ANO_DOU_POR...
## lgl  (1): PARECER

## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

#Verificando os tipos das variáveis
str(BD_Diplomas)

## spec_tbl_df [3,364 × 52] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ ID                              : chr [1:3364] "0001" "0002" "0003" "0004" ...
##  $ URGENCIA                        : chr [1:3364] "não urgente" "não urgente" "não urgente" "não urgente" ...
##  $ COLACAO                         : chr [1:3364] "com colação" "sem colação" "sem colação" "sem colação" ...
##  $ COTUTELA                        : chr [1:3364] "regime normal" "regime normal" "regime normal" "regime normal" ...
##  $ PROCESSO                        : chr [1:3364] "034307/2019-44" "054673/2019-10" "063772/2020-70" "064112/2020-08" ...
##  $ DATA_ABERTURA_PROCESSO          : chr [1:3364] "18/07/2019" "29/10/2019" "06/11/2020" "09/11/2020" ...
##  $ DATA_ADICAO_BD                  : chr [1:3364] "25/11/2020" "10/11/2020" "10/11/2020" "10/11/2020" ...
##  $ DATA_LIBERACAO_IMPRESSAO        : chr [1:3364] "25/11/2020" "11/11/2020" "06/12/2020" "09/12/2020" ...
##  $ DATA_IMPRESSAO                  : chr [1:3364] "25/11/2020" "11/11/2020" "06/12/2020" "09/12/2020" ...
##  $ LISTA                           : chr [1:3364] "0" NA "0" "0" ...
##  $ DATA_ENVIO_GABINETE             : chr [1:3364] "09/12/2020" "11/11/2020" "09/12/2020" "09/12/2020" ...
##  $ DATA_RETORNO_GABINETE           : chr [1:3364] "18/12/2020" "13/11/2020" "18/12/2020" "18/12/2020" ...
##  $ DATA_REGISTRO                   : chr [1:3364] "08/01/2021" "13/11/2020" "13/01/2021" "13/01/2021" ...
##  $ DATA_INFORMADO_PPG              : chr [1:3364] "12/01/2021" "13/11/2020" "25/01/2021" "20/01/2021" ...
##  $ DATA_RETIRADA_PPG               : chr [1:3364] "27/01/2021" "13/11/2020" "03/02/2021" "20/01/2021" ...
##  $ CENTRO                          : chr [1:3364] "CE" "CFCH" "CB" "CB" ...
##  $ PROGRAMA_NIVEL                  : chr [1:3364] "EDUCAÇÃO" "SOCIOLOGIA" "BIOTECNOLOGIA" "CIÊNCIAS BIOLÓGICAS" ...
##  $ NOME_EGRESSO                    : chr [1:3364] "MAGNA SALES BARRETO" "DEMÉTRIUS RODRIGUES DE FREITAS FERREIRA" "EDNA BARBOZA DE LIMA" "ERIKA KETLEM GOMES TRINDADE" ...
##  $ NOME_CURSO                      : chr [1:3364] "EDUCAÇÃO" "SOCIOLOGIA" "BIOTECNOLOGIA" "CIÊNCIAS BIOLÓGICAS" ...
##  $ SEMESTRE_DEFESA                 : chr [1:3364] "2º" "1º" "2º" "2º" ...
##  $ ANO_DEFESA                      : num [1:3364] 2016 2019 2020 2019 2018 ...
##  $ DIA_COLACAO                     : chr [1:3364] "23" "-" "-" NA ...
##  $ MES_COLACAO                     : chr [1:3364] "3" "-" "-" NA ...
##  $ ANO_COLACAO                     : chr [1:3364] "2017" "-" "-" NA ...
##  $ TITULACAO                       : chr [1:3364] "DOUTORA" "DOUTOR" "DOUTORA" "DOUTORA" ...
##  $ TIPO_DOCUMENTO                  : chr [1:3364] "de cédula de identidade nº" "de cédula de identidade nº" "de cédula de identidade nº" "de cédula de identidade nº" ...
##  $ NUMERO_DOCUMENTO                : chr [1:3364] "5.283.684" "7210128" "7747112" "7710959" ...
##  $ ORGAO_EXPEDIDOR_E_ESTADO_EMISSAO: chr [1:3364] "SDS-PE" "SDS-PE" "SDS-PE" "SDS-PE" ...
##  $ NATURAL                         : chr [1:3364] "PERNAMBUCO" "PERNAMBUCO" "PERNAMBUCO" "PERNAMBUCO" ...
##  $ DIA_NASCIMENTO                  : chr [1:3364] "19" "23" "17" "01" ...
##  $ MES_NASCIMENTO                  : chr [1:3364] "ABRIL" "FEVEREIRO" "JANEIRO" "SETEMBRO" ...
##  $ ANO_NASCIMENTO                  : num [1:3364] 1980 1988 1989 1990 1994 ...
##  $ NACIONALIDADE                   : chr [1:3364] "BRASILEIRA" "BRASILEIRA" "BRASILEIRA" "BRASILEIRA" ...
##  $ DIA_DIPLOMA                     : chr [1:3364] "25" "10" "06" "09" ...
##  $ MES_DIPLOMA                     : chr [1:3364] "novembro" "novembro" "novembro" "novembro" ...
##  $ ANO_DIPLOMA                     : num [1:3364] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
##  $ AREA_CONCENTRACAO               : chr [1:3364] "EDUCAÇÃO" "MUDANÇA SOCIAL" "BIOTECNOLOGIA EM RECURSOS NATURAIS" "BIOTECNOLOGIA" ...
##  $ PORTARIA_CURSO                  : chr [1:3364] "Nº 656/2017 DO MEC" "Nº 656/2017 DO MEC" "Nº 656/2017 DO MEC" "Nº 656/2017 DO MEC" ...
##  $ PARECER                         : logi [1:3364] NA NA NA NA NA NA ...
##  $ DIA_PORTARIA                    : chr [1:3364] "22" "22" "22" "22" ...
##  $ MES_PORTARIA                    : chr [1:3364] "05" "05" "05" "05" ...
##  $ ANO_PORTARIA                    : num [1:3364] 2017 2017 2017 2017 2017 ...
##  $ DIA_DOU_PORTARIA                : chr [1:3364] "27" "27" "27" "27" ...
##  $ MES_DOU_PORTARIA                : chr [1:3364] "7" "7" "7" "7" ...
##  $ ANO_DOU_PORTARIA                : num [1:3364] 2017 2017 2017 2017 2017 ...
##  $ APOSTILAMENTO_PARTE_1           : chr [1:3364] NA NA NA NA ...
##  $ APOSTILAMENTO_PARTE_2           : chr [1:3364] NA NA NA NA ...
##  $ SEGUNDA_VIA                     : chr [1:3364] NA NA NA NA ...
##  $ DESCRICAO_SEGUNDA_VIA           : chr [1:3364] NA NA NA NA ...
##  $ SEXO                            : chr [1:3364] "feminino" "masculino" "feminino" "feminino" ...
##  $ NIVEL                           : chr [1:3364] "doutorado" "doutorado" "doutorado" "doutorado" ...
##  $ DOCUMENTO                       : chr [1:3364] "identidade" "identidade" "identidade" "identidade" ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   ID = col_character(),
##   ..   URGENCIA = col_character(),
##   ..   COLACAO = col_character(),
##   ..   COTUTELA = col_character(),
##   ..   PROCESSO = col_character(),
##   ..   DATA_ABERTURA_PROCESSO = col_character(),
##   ..   DATA_ADICAO_BD = col_character(),
##   ..   DATA_LIBERACAO_IMPRESSAO = col_character(),
##   ..   DATA_IMPRESSAO = col_character(),
##   ..   LISTA = col_character(),
##   ..   DATA_ENVIO_GABINETE = col_character(),
##   ..   DATA_RETORNO_GABINETE = col_character(),
##   ..   DATA_REGISTRO = col_character(),
##   ..   DATA_INFORMADO_PPG = col_character(),
##   ..   DATA_RETIRADA_PPG = col_character(),
##   ..   CENTRO = col_character(),
##   ..   PROGRAMA_NIVEL = col_character(),
##   ..   NOME_EGRESSO = col_character(),
##   ..   NOME_CURSO = col_character(),
##   ..   SEMESTRE_DEFESA = col_character(),
##   ..   ANO_DEFESA = col_double(),
##   ..   DIA_COLACAO = col_character(),
##   ..   MES_COLACAO = col_character(),
##   ..   ANO_COLACAO = col_character(),
##   ..   TITULACAO = col_character(),
##   ..   TIPO_DOCUMENTO = col_character(),
##   ..   NUMERO_DOCUMENTO = col_character(),
##   ..   ORGAO_EXPEDIDOR_E_ESTADO_EMISSAO = col_character(),
##   ..   NATURAL = col_character(),
##   ..   DIA_NASCIMENTO = col_character(),
##   ..   MES_NASCIMENTO = col_character(),
##   ..   ANO_NASCIMENTO = col_double(),
##   ..   NACIONALIDADE = col_character(),
##   ..   DIA_DIPLOMA = col_character(),
##   ..   MES_DIPLOMA = col_character(),
##   ..   ANO_DIPLOMA = col_double(),
##   ..   AREA_CONCENTRACAO = col_character(),
##   ..   PORTARIA_CURSO = col_character(),
##   ..   PARECER = col_logical(),
##   ..   DIA_PORTARIA = col_character(),
##   ..   MES_PORTARIA = col_character(),
##   ..   ANO_PORTARIA = col_double(),
##   ..   DIA_DOU_PORTARIA = col_character(),
##   ..   MES_DOU_PORTARIA = col_character(),
##   ..   ANO_DOU_PORTARIA = col_double(),
##   ..   APOSTILAMENTO_PARTE_1 = col_character(),
##   ..   APOSTILAMENTO_PARTE_2 = col_character(),
##   ..   SEGUNDA_VIA = col_character(),
##   ..   DESCRICAO_SEGUNDA_VIA = col_character(),
##   ..   SEXO = col_character(),
##   ..   NIVEL = col_character(),
##   ..   DOCUMENTO = col_character()
##   .. )
##  - attr(*, "problems")=<externalptr>

Realizando mais algumas mudanças na fonte de dados

Algumas mudanças iniciais nos dados ainda são interessantes.

As colunas “DATA_ABERTURA_PROCESSO”,”DATA_ADICAO_BD”, ”DATA_LIBERACAO_IMPRESSAO”,”DATA_IMPRESSAO”,”DATA_ENVIO_GABINETE”, ”DATA_RETORNO_GABINETE”,”DATA_REGISTRO”,”DATA_INFORMADO_PPG”, ”DATA_RETIRADA_PPG” devem ser do tipo “Date”
Várias colunas categóricas podem ser passadas para “factor”.

library(lubridate)

## 
## Attaching package: 'lubridate'

## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union

colunasTipoData = c("DATA_ABERTURA_PROCESSO","DATA_ADICAO_BD","DATA_LIBERACAO_IMPRESSAO","DATA_IMPRESSAO","DATA_ENVIO_GABINETE","DATA_RETORNO_GABINETE","DATA_REGISTRO","DATA_INFORMADO_PPG","DATA_RETIRADA_PPG")

# Passando as colunas para o formato Date

BD_Diplomas$DATA_ABERTURA_PROCESSO <- as.Date(parse_date_time(BD_Diplomas$DATA_ABERTURA_PROCESSO,"dmy"))

BD_Diplomas$DATA_ADICAO_BD <- as.Date(parse_date_time(BD_Diplomas$DATA_ADICAO_BD,"dmy"))

BD_Diplomas$DATA_LIBERACAO_IMPRESSAO <- as.Date(parse_date_time(BD_Diplomas$DATA_LIBERACAO_IMPRESSAO,"dmy"))

BD_Diplomas$DATA_IMPRESSAO <- as.Date(parse_date_time(BD_Diplomas$DATA_IMPRESSAO,"dmy"))

BD_Diplomas$DATA_ENVIO_GABINETE <- as.Date(parse_date_time(BD_Diplomas$DATA_ENVIO_GABINETE,"dmy"))

BD_Diplomas$DATA_RETORNO_GABINETE <- as.Date(parse_date_time(BD_Diplomas$DATA_RETORNO_GABINETE,"dmy"))

BD_Diplomas$DATA_REGISTRO <- as.Date(parse_date_time(BD_Diplomas$DATA_REGISTRO,"dmy"))

BD_Diplomas$DATA_INFORMADO_PPG <- as.Date(parse_date_time(BD_Diplomas$DATA_INFORMADO_PPG,"dmy"))

BD_Diplomas$DATA_RETIRADA_PPG <- as.Date(parse_date_time(BD_Diplomas$DATA_RETIRADA_PPG,"dmy"))

summary(BD_Diplomas$DATA_ABERTURA_PROCESSO)

##         Min.      1st Qu.       Median         Mean      3rd Qu.         Max. 
## "2018-09-10" "2020-03-09" "2020-10-25" "2020-10-16" "2021-06-01" "2021-12-29"

colunasCategoricas <- c("URGENCIA","COLACAO","COTUTELA","CENTRO","PROGRAMA_NIVEL","NOME_CURSO","SEMESTRE_DEFESA","ANO_DEFESA","TITULACAO","TIPO_DOCUMENTO","ORGAO_EXPEDIDOR_E_ESTADO_EMISSAO","NATURAL","MES_NASCIMENTO","NACIONALIDADE","MES_DIPLOMA","SEXO","NIVEL","DOCUMENTO")

BD_Diplomas[colunasCategoricas] <- lapply(BD_Diplomas[colunasCategoricas], as_factor)

#sapply(BD_Diplomas, class)

Gerando alguns gráficos sobre o BD

Consultando o número de diplomas de Mestrado e Doutorado expedidos.

graficoNivel = BD_Diplomas %>%
  group_by(NIVEL) %>%
  summarise(
    quantidade = n()
  )

graficoNivel %>%
  ggplot(aes(x = NIVEL, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 5)

Consultando o número de diplomas pelo sexo da pessoa.

graficoSexo = BD_Diplomas %>%
  group_by(SEXO) %>%
  summarise(
    quantidade = n()
  )

graficoSexo %>%
  ggplot(aes(x = SEXO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 5)

Consultando o número de diplomas urgentes.

graficoSexo = BD_Diplomas %>%
  group_by(URGENCIA) %>%
  summarise(
    quantidade = n()
  )

graficoSexo %>%
  ggplot(aes(x = URGENCIA, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 5)

Consultando o número de diplomas por PPG clusterizadas por centro.

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CAA") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CAC") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CAV") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 4) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CB") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

CCEN

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CCEN") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 3) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CCJ") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 5) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CCM") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 3) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CCS") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

CCSA

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CCSA") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CE") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 4) +
  coord_flip()

CFCH

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CFCH") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CIN") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 5) +
  coord_flip()

graficoCAA = BD_Diplomas %>%
  filter(CENTRO == "CTG") %>%
  group_by(NOME_CURSO) %>%
  summarise(
    quantidade = n()
  )

graficoCAA %>%
  ggplot(aes(x = NOME_CURSO, y = quantidade, label = quantidade)) +
  geom_bar(stat = "identity") +
  geom_label(size = 2) +
  coord_flip()

TABELA RESUMO DOS DIPLOMAS POR PGG

library(DT)

graficoPPG = BD_Diplomas %>%
  group_by(PROGRAMA_NIVEL) %>%
  summarise(
    quantidade = n()
  )

datatable(graficoPPG)

Analisando o BD de Diplomas stricto sensu da UFPE (novembro de 2020 à janeiro de 2022)

Habacuque Rocha

15/01/2022

Instalando o tidyverse e carregando pacotes

Dados

Fazendo a leitura da fonte de dados.

Limpeza dos Dados

Salvando o BD em novo arquivo CSV depois dos ajustes e exclusão das colunas e linhas desnecessárias

Abrindo nova fonte de dados bonitinha

Realizando mais algumas mudanças na fonte de dados

Gerando alguns gráficos sobre o BD

Consultando o número de diplomas de Mestrado e Doutorado expedidos.

Consultando o número de diplomas pelo sexo da pessoa.

Consultando o número de diplomas urgentes.

Consultando o número de diplomas por PPG clusterizadas por centro.

TABELA RESUMO DOS DIPLOMAS POR PGG