Importacao de arquivos de base de dados

Vamos importar a base de dados do INEP http://inep.gov.br/microdados usando o pacote readr um dos pacoetes usados quando usa o tidyverse.

Nessa aula vamos usar o Censo de Educação Superior no ano de 2016.

# library(readr)
# 
# Base3 <- read_delim("Dados/DM_DOCENTE.CSV", 
#                     "|", escape_double = FALSE, col_types = cols(CO_CATEGORIA_ADMINISTRATIVA = col_character(), 
#                                                                  CO_DOCENTE = col_character(), CO_DOCENTE_IES = col_character(), 
#                                                                  CO_ESCOLARIDADE_DOCENTE = col_character(), 
#                                                                  CO_MUNICIPIO_NASCIMENTO = col_character(), 
#                                                                  CO_NACIONALIDADE_DOCENTE = col_character(), 
#                                                                  CO_ORGANIZACAO_ACADEMICA = col_character(), 
#                                                                  CO_PAIS_DOCENTE = col_character(), 
#                                                                  CO_SITUACAO_DOCENTE = col_character(), 
#                                                                  CO_UF_NASCIMENTO = col_character()), 
#                     locale = locale(encoding = "ISO-8859-1"), 
#                     trim_ws = TRUE)
# 
# str(Base3)

suppressMessages(library(tidyverse))
UF Categoria n
26 Pública Federal 237
26 Privada com fins lucrativos 164
26 Privada sem fins lucrativos 157
26 Pública Estadual 59
26 Pública Municipal 38
26 Especial 6

Aula do dia 19-03-2018

library(DT)

pernambuco <- base5perc %>% 
  select(NO_IES, DS_CATEGORIA_ADMINISTRATIVA, CO_MUNICIPIO_NASCIMENTO) %>%
  transmute(Nome = NO_IES, 
            Categoria = DS_CATEGORIA_ADMINISTRATIVA,
            Codigo = as.character(CO_MUNICIPIO_NASCIMENTO)) %>% 
  mutate (UF = str_sub(string = Codigo, start=1, end=2)) %>% 
  group_by(UF, Categoria) %>% 
  summarise(n = n()) %>% 
  mutate(freq = n/sum(n)) %>% 
  #count() %>% 
  filter(UF == "26") %>% 
  arrange(desc(n))


pernambuco %>% datatable()
#Cores pelo color brew


pernambuco %>% 
  ggplot(aes(x = reorder(Categoria, n), y= n, fill= Categoria)) +
  geom_bar(stat = "identity") +
  guides(fill = "none") +
  coord_flip() +
  labs(x = "Categoria", y = "Total", title = "Numero de instituicoes por categoria", subtitle = "Estado de Pernambuco") +
  geom_label(aes(label = paste(round(100*freq), "%", sep = ""))) +
  scale_fill_brewer(palette = "Reds")

PE_PB <- base5perc %>% 
  select(NO_IES, DS_CATEGORIA_ADMINISTRATIVA, CO_MUNICIPIO_NASCIMENTO) %>%
  transmute(Nome = NO_IES, 
            Categoria = DS_CATEGORIA_ADMINISTRATIVA,
            Codigo = as.character(CO_MUNICIPIO_NASCIMENTO)) %>% 
  mutate (UF = str_sub(string = Codigo, start=1, end=2)) %>% 
  group_by(UF, Categoria) %>% 
  summarise(n = n()) %>% 
  mutate(freq = n/sum(n)) %>% 
  #count() %>% 
  filter(UF == "26" | UF == "25") %>% 
  arrange(desc(n))
PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>% 
  ggplot(aes(x = reorder(Categoria,n), y= n, fill=Estado)) + geom_bar(stat = "identity") + coord_flip() 

PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>% 
  ggplot(aes(x = reorder(Categoria,n), y= n, fill=Estado)) + geom_bar(stat = "identity", position = "dodge") + coord_flip() 

PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>% 
  ggplot(aes(x = reorder(Categoria,n), y= n, fill=UF)) + geom_bar(stat = "identity", position = "dodge") + coord_flip() + facet_wrap(~Estado) + guides(fill="none")

#Dentro do facetwrap, o scale free coloca uma escala pra cada um. Sem o scale free, eh a mesma escala para todos e eh melhor para comparar.