library(ggplot2)
library(dplyr)
library(tidyr)
library(scales)
dados_ceap <- read.csv("dadosCEAP.csv")
dados_ceap <- rename(dados_ceap, valorLiquido = valorLÃ.quido)

Respostas

1 - Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso?

Foram escolhidos os 10 partidos com os maiores valores em ambas as perguntas.

gastos_count <- dados_ceap %>%
  group_by(sgPartido) %>%
  summarise(n = n()) %>%
  arrange(desc(n))

Mesmas perguntas conisderando valores em R$.

gastos <- dados_ceap %>%
  group_by(sgPartido) %>%
  filter(valorLiquido > 0) %>%
  summarise(soma = sum(valorLiquido)) %>%
  arrange(desc(soma))

5 maiores valores e 5 menores valores

maiores_gastos_count <- rbind(head(gastos_count, 5), tail(gastos_count, 5))

maiores_gastos <- rbind(head(gastos, 5), tail(gastos, 5))

Gráficos

ggplot(maiores_gastos_count, aes(x=reorder(sgPartido, n), y=n, fill=sgPartido)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Quantidade de usos da CEAP por partido, 5 maiores e 5 menores",
       x = "Sigla do Partido", y = "Quantidade de usos", fill = "Partido") +
  geom_text(aes(label=n), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) +
  theme(axis.text.y =element_blank())

ggplot(maiores_gastos, aes(x=reorder(sgPartido, soma), y=soma, fill=sgPartido)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Gastos por partido (em reais), 5 maiores e 5 menores",
       x = "Sigla do Partido", y = "Valor somado dos gastos", fill = "Partido") +
  geom_text(aes(label=dollar(maiores_gastos$soma)), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) + 
  theme(axis.text.y =element_blank())

2 - Quais os tipos de despesa mais comuns no uso da CEAP?

tipodespesa_count <- dados_ceap %>%
  group_by(tipoDespesa) %>%
  summarise(n = n()) %>%
  arrange(desc(n))

Mesma pergunta considerando valores em R$.

tipodespesa_gasto <- dados_ceap %>%
  group_by(tipoDespesa) %>%
  filter(valorLiquido > 0) %>%
  summarise(soma = sum(valorLiquido)) %>%
  arrange(desc(soma))

Filtrando para os 3 maiores valores e para os 3 menores valores

maiores_despesascount <- rbind(head(tipodespesa_count, 3), tail(tipodespesa_count, 3))
maiores_despesasgasto <- rbind(head(tipodespesa_gasto, 3), tail(tipodespesa_gasto, 3))

Graficos

ggplot(maiores_despesascount, aes(x=reorder(tipoDespesa, n), y=n, fill=tipoDespesa)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Quantidade de usos da CEAP por partido, 5 maiores e 5 menores",
       x = "Sigla do Partido", y = "Quantidade de usos", fill = "Partido") +
  geom_text(aes(label=n), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) + 
    theme(axis.text.x = element_text(angle = 90, hjust = 1)) +  scale_x_discrete(label=abbreviate)
## Warning in f(...): abbreaviate usado com caracteres não-ASCII

ggplot(maiores_despesasgasto, aes(x=reorder(tipoDespesa, soma), y=soma, fill=tipoDespesa)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Gastos por partido (em reais), 5 maiores e 5 menores",
       x = "Despesas", y = "Valor somado dos gastos", fill = "Partido") +
  geom_text(aes(label=dollar(maiores_despesasgasto$soma)), vjust=0.5, color="black",
            position = position_dodge(0.5), size=3, angle = 60,check_overlap = TRUE) + 
      theme(
        axis.text.x = element_text(angle = 90, hjust = 1)) +  scale_x_discrete(label=abbreviate) 
## Warning in f(...): abbreaviate usado com caracteres não-ASCII

3 - Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso? Mesmas perguntas considerando gastos em R$. Por que você acha isso?

Percebe-se que os estados com maior número de deputados lideram tanto na quantidade absoluta de usos da CEAP quanto na soma total dos gastos.

Filtrando estados por quantidade de gastos

gastosestado_count <- dados_ceap %>%
  group_by(sgUF) %>%
  summarise(n = n()) %>%
  arrange(desc(n))

Filtrando estados por valor de gastos

gastosestado_valor <- dados_ceap %>%
  group_by(sgUF) %>%
  filter(valorLiquido > 0) %>%
  summarise(soma = sum(valorLiquido)) %>%
  arrange(desc(soma))

Escolhendo 5 maiores e 5 menores de cada filtro

maioresestados_count <- rbind(head(gastosestado_count, 5), tail(gastosestado_count, 5))
maioresestados_valor <- rbind(head(gastosestado_valor, 5), tail(gastosestado_valor, 5))

Gráficos

ggplot(maioresestados_count, aes(x=reorder(sgUF, n), y=n, fill=sgUF)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Quantidade de usos da CEAP por estado, 5 maiores e 5 menores",
       x = "Sigla do estado", y = "Quantidade de usos", fill = "Estado") +
  geom_text(aes(label=n), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) +
  theme(axis.text.y =element_blank())

ggplot(maioresestados_valor, aes(x=reorder(sgUF, soma), y=soma, fill=sgUF)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Gastos por estado (em reais), 5 maiores e 5 menores",
       x = "Sigla do estado", y = "Valor somado dos gastos", fill = "Estado") +
  geom_text(aes(label=dollar(maiores_gastos$soma)), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) + 
  theme(axis.text.y =element_blank())

4 - Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

Separando e contando gastos por parlamentar

parlamentar_count <- dados_ceap %>%
  group_by(nomeParlamentar) %>%
  summarise(n = n()) %>%
  arrange(desc(n))

Cortando 5 maiores e 5 menores valores

maioresparlamentares_count <- rbind(head(parlamentar_count, 5), tail(parlamentar_count, 5))

Gráfico

ggplot(maioresparlamentares_count, aes(x=reorder(nomeParlamentar, n), y=n, fill=nomeParlamentar)) +
  geom_bar(stat="identity") + theme_minimal() + labs(title = "Quantidade de usos da CEAP por parlamentar, 5 maiores e 5 menores",
       x = "Parlamentar", y = "Quantidade de usos", fill = "Parlamentar") +
  geom_text(aes(label=n), vjust=1.6, color="black",
            position = position_dodge(0.9), size=2.5) + 
    theme(axis.text.x = element_text(angle = 90, hjust = 1)) +  scale_x_discrete(label=abbreviate)
## Warning in f(...): abbreaviate usado com caracteres não-ASCII

5 - Existe correlação entre a quantidade de gastos no exterior e o valor restituição da CEAP?

qte_gastos_exterior <- dados_ceap %>%
  filter(tipoDocumento == 2) %>%
  group_by(nomeParlamentar) %>%
  summarise(n = n()) %>%
  arrange(desc(n))
valor_restituido <- dados_ceap %>%
  group_by(nomeParlamentar) %>%
  filter(tipoDocumento == 2) %>%
  summarise(soma = sum(valorGlosa)) %>%
  arrange(desc(soma))
glosa_valor <- na.omit(inner_join(qte_gastos_exterior, valor_restituido, "nomeParlamentar"))
ggplot(glosa_valor, aes(x=n, y=soma)) +
    geom_point(shape=1) +
    geom_smooth(method=lm) + 
  labs(title = "Correlação entre valor restitumdo e quantidade de usos da CEAP no exterior", x = "Usos no exterior", y = "Valor total restituído")

correlacao <- cor(glosa_valor$n, glosa_valor$soma)
print (correlacao)
## [1] 0.1454613