Vamos importar a base de dados do INEP http://inep.gov.br/microdados usando o pacote readr um dos pacoetes usados quando usa o tidyverse.
Nessa aula vamos usar o Censo de Educação Superior no ano de 2016.
# library(readr)
#
# Base3 <- read_delim("Dados/DM_DOCENTE.CSV",
# "|", escape_double = FALSE, col_types = cols(CO_CATEGORIA_ADMINISTRATIVA = col_character(),
# CO_DOCENTE = col_character(), CO_DOCENTE_IES = col_character(),
# CO_ESCOLARIDADE_DOCENTE = col_character(),
# CO_MUNICIPIO_NASCIMENTO = col_character(),
# CO_NACIONALIDADE_DOCENTE = col_character(),
# CO_ORGANIZACAO_ACADEMICA = col_character(),
# CO_PAIS_DOCENTE = col_character(),
# CO_SITUACAO_DOCENTE = col_character(),
# CO_UF_NASCIMENTO = col_character()),
# locale = locale(encoding = "ISO-8859-1"),
# trim_ws = TRUE)
#
# str(Base3)
suppressMessages(library(tidyverse))
| UF | Categoria | n |
|---|---|---|
| 26 | Pública Federal | 237 |
| 26 | Privada com fins lucrativos | 164 |
| 26 | Privada sem fins lucrativos | 157 |
| 26 | Pública Estadual | 59 |
| 26 | Pública Municipal | 38 |
| 26 | Especial | 6 |
library(DT)
pernambuco <- base5perc %>%
select(NO_IES, DS_CATEGORIA_ADMINISTRATIVA, CO_MUNICIPIO_NASCIMENTO) %>%
transmute(Nome = NO_IES,
Categoria = DS_CATEGORIA_ADMINISTRATIVA,
Codigo = as.character(CO_MUNICIPIO_NASCIMENTO)) %>%
mutate (UF = str_sub(string = Codigo, start=1, end=2)) %>%
group_by(UF, Categoria) %>%
summarise(n = n()) %>%
mutate(freq = n/sum(n)) %>%
#count() %>%
filter(UF == "26") %>%
arrange(desc(n))
pernambuco %>% datatable()
#Cores pelo color brew
pernambuco %>%
ggplot(aes(x = reorder(Categoria, n), y= n, fill= Categoria)) +
geom_bar(stat = "identity") +
guides(fill = "none") +
coord_flip() +
labs(x = "Categoria", y = "Total", title = "Numero de instituicoes por categoria", subtitle = "Estado de Pernambuco") +
geom_label(aes(label = paste(round(100*freq), "%", sep = ""))) +
scale_fill_brewer(palette = "Reds")
PE_PB <- base5perc %>%
select(NO_IES, DS_CATEGORIA_ADMINISTRATIVA, CO_MUNICIPIO_NASCIMENTO) %>%
transmute(Nome = NO_IES,
Categoria = DS_CATEGORIA_ADMINISTRATIVA,
Codigo = as.character(CO_MUNICIPIO_NASCIMENTO)) %>%
mutate (UF = str_sub(string = Codigo, start=1, end=2)) %>%
group_by(UF, Categoria) %>%
summarise(n = n()) %>%
mutate(freq = n/sum(n)) %>%
#count() %>%
filter(UF == "26" | UF == "25") %>%
arrange(desc(n))
PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>%
ggplot(aes(x = reorder(Categoria,n), y= n, fill=Estado)) + geom_bar(stat = "identity") + coord_flip()
PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>%
ggplot(aes(x = reorder(Categoria,n), y= n, fill=Estado)) + geom_bar(stat = "identity", position = "dodge") + coord_flip()
PE_PB %>% mutate(Estado = if_else(UF == "26", "Pernambuco", "Paraiba")) %>%
ggplot(aes(x = reorder(Categoria,n), y= n, fill=UF)) + geom_bar(stat = "identity", position = "dodge") + coord_flip() + facet_wrap(~Estado) + guides(fill="none")
#Dentro do facetwrap, o scale free coloca uma escala pra cada um. Sem o scale free, eh a mesma escala para todos e eh melhor para comparar.