library(tidyr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
dados <- read.csv("dadosCEAP.csv")
limites <- read.csv("limiteMensalCEAP.csv")

QUESTAO 1

Quais partidos mais fazem uso da CEAP?

Para ter uma visão geral da quantidade de vezes que cada partido fez uso da CEAP, vamos resumir os dados e plotar um boxplot para ter uma ideia da distribuição do dados. Como podemos ver, o partido que mais fez uso fez 25824 vezes, que é representado pelo outlier do boxplot. Em média, cada partido usou a CEAP 6996 vezes.

agrupado_por_partido_count <- dados %>% na.omit() %>% group_by(sgPartido) %>% summarise(frequencia = n())

summary(agrupado_por_partido_count$frequencia)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       2    1450    4326    6996   10382   25824
boxplot(agrupado_por_partido_count$frequencia, ylab = "Nº de vezes que o partido fez uso")

Agora vamos usar um gráfico de barras para mostrar os partidos que de fato mais usaram e menos usaram. Como podemos ver, os partidos maiores (PT, PMDB e PSDB) são os que mais fazem uso, o que é algo lógico devido ao número de deputados destes partidos. PRP, PMN e PTdoB são os que menos fazem uso (2, 4 e 9 respectivamente).

ggplot(data = agrupado_por_partido_count, aes(x = reorder(sgPartido, frequencia), y = frequencia)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso do CEAP por partido") + xlab("Partido") + ylab("Numero de vezes que o CEAP foi utilizado")

Agora será mostrado um gráfico de barras que mostra os partidos que mais usam a CEAP considerando o valor em reais. Apesar do PT ser o partido que mais usa em termos de quantidade, o PMDB é o campeão quando considera-se o valor gasto, totalizando R$ 6 349 537,80. Os três últimos são os mesmos três levando em conta a quantidade de vezes, com mudanças apenas na ordem.

agrupado_por_partido_valor <- dados %>% na.omit() %>% group_by(sgPartido) %>% summarise(valorTotal = sum(valorLíquido))

ggplot(data = agrupado_por_partido_valor, aes(x = reorder(sgPartido, valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso do CEAP por partido") + xlab("Partido") + ylab("Valor total gasto em reais")

QUESTAO 2

Quais os tipos de despesa mais comuns no uso da CEAP?

Mais uma vez tendo uma visão geral dos dados e observando a distribuição dos dados pelo boxplot, podemos ver que existem dois tipos de despesa que destoam dos demais, sendo portanto outliers.

agrupado_por_despesa_count <- dados %>% group_by(tipoDespesa) %>% summarise(frequencia = n())

summary(agrupado_por_despesa_count)
##                                         tipoDespesa   frequencia    
##  ASSINATURA DE PUBLICAÇÕES                    : 1   Min.   :    65  
##  COMBUSTÍVEIS E LUBRIFICANTES.                : 1   1st Qu.:  2570  
##  CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.: 1   Median : 16376  
##  DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.         : 1   Mean   : 53525  
##  Emissão Bilhete Aéreo                        : 1   3rd Qu.: 74736  
##  FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR   : 1   Max.   :300185  
##  (Other)                                      :12
boxplot(agrupado_por_despesa_count$frequencia, ylab = "Nº de vezes que a despesa foi usada")

O gráfico abaixo nos permite ver que os tipos de despesa mais comuns são a emissão de bilhete aéreo e gastos com combustíveis e lubrificantes. Participação em cursos/palestras, e locação e fretamento de aeronaves e embarcações são os que menos aparecem.

ggplot(data = agrupado_por_despesa_count, aes(x = reorder(tipoDespesa, frequencia), y = frequencia)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso da CEAP por despesa") + xlab("Tipo de despesa") + ylab("Numero de vezes que o CEAP foi utilizado para despesa")

Observando agora o valor gasto em cada tipo de despesa, podemos notar uma surpresa. O tipo de despesa com maior valor gasto é o de divulgação de atividade parlamentar, apesar dele ser apenas o oitavo considerando a quantidade de vezes que aquela despesa foi utilizada. Gastos para divulgação com atividade parlamentar são solicitados poucas vezes, mas com valores alto em cada observação.

Gastos com combustíveis e lubrificantes, por sua vez, é a segunda despesa mais comum, mas apenas a sexta em termos de valor gasto. A situação é a aposta da divulgação com atividade parlamentar, já que um deputado pode, por exemplo, usar em um posto várias vezes pequenas quantias. Não há supresas nas últimas colocações. Participação em cursos/palestras, e locação e fretamento de aeronaves e embarcações representam os menores gastos também.

agrupado_por_despesa_valor <- dados %>% group_by(tipoDespesa) %>% summarise(valorTotal = sum(valorLíquido))


ggplot(data = agrupado_por_despesa_valor, aes(x = reorder(tipoDespesa, valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso da CEAP por despesa") + xlab("Tipo de despesa") + ylab("Valor gasto por despesa (reais)")

QUESTAO 3

Quais os estados que mais fazem uso da CEAP?

Como podemos ver pela distribuição, dois estados se destacam e são outliers do boxplot. Em média, cada estado usou a CEAP 7256 vezes.

agrupado_por_estado_count <- dados %>% group_by(sgUF) %>% summarise(frequencia = n()) %>% na.omit()

summary(agrupado_por_estado_count)
##       sgUF      frequencia    
##  AC     : 1   Min.   :  6179  
##  AL     : 1   1st Qu.: 11840  
##  AM     : 1   Median : 15567  
##  AP     : 1   Mean   : 35601  
##  BA     : 1   3rd Qu.: 47521  
##  CE     : 1   Max.   :154289  
##  (Other):21
boxplot(agrupado_por_estado_count$frequencia, ylab = "Nº de vezes que o estado usou a CEAP")

Agora, com as barras, podemos ver os estados que mais usam a CEAP. São Paulo e Minas Gerais são os estados que mais se destoam dos demais e os últimos são Amazonas, Amapá e Distrito Federal.

ggplot(data = agrupado_por_estado_count, aes(x = reorder(sgUF, frequencia), y = frequencia)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso do CEAP por estado") + xlab("Estado") + ylab("Numero de vezes que o CEAP foi utilizado para o estado")

Levando em conta os gastos em reais, temos uma inversão nas posições de São Paulo e Minas Gerais, mas os dois continuam no topo. Distrito Federal e Amazonas seguem nas últimas posições, que agora também conta com o Mato Grosso.

Esperava-se realmente que estados mais ricos e com mais deputados realmente ocupassem o topo, porém tendo informação dos limites mensais que os deputados de um dado estado podem usar, temos que MG e SP estão nas últimas posições, possuindo então limites menores, o que torna um pouco estranho o fato deles liderarem esse quesito.

agrupado_por_estado_valor <- dados %>% group_by(sgUF) %>% summarise(valorTotal = sum(valorLíquido)) %>% na.omit()

ggplot(data = agrupado_por_estado_valor, aes(x = reorder(sgUF, valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso do CEAP por estado") + xlab("Estado") + ylab("Valor gasto por estado")

QUESTAO 4

Quais os parlamentares que mais gastam e menos gastam com a CEAP?

Observando a distribuição geral dos dados, temos que o deputado que mais gastou, gastou cerca de 1,6 mi de reais. A mediana apresentou um valor bem elevado, sendo superior à média. 50% dos deputados gastou mais que 955 mil reais.

agrupado_por_deputado <- dados %>% filter (valorLíquido >= 0) %>% group_by(nomeParlamentar, sgPartido, sgUF) %>%
  summarise(valorTotal = sum(valorLíquido))

summary(agrupado_por_deputado$valorTotal)
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##       0.6   36313.9  955270.4  721634.6 1210662.7 1648665.8
boxplot(agrupado_por_deputado$valorTotal, ylab = "Valor gasto")

Agora vamos usar um gráfico de barras para mostrar os 10 deputados que mais gastaram e os 10 que menos gastaram.

deputados_ordenados_decrescente <- agrupado_por_deputado[order(decreasing = TRUE, agrupado_por_deputado$valorTotal),]

deputados_ordenados_crescente <- agrupado_por_deputado[order(agrupado_por_deputado$valorTotal),]

O deputado que mais gastou foi Edio Lopes, do partido PR de Roraima, seguido de Rocha, do PSDB do Acre. Fato curioso é que dos 10 deputados que mais gastam, 4 são do estado de Roraima (O já citado Edio Lopes, Abel Mesquita, Jhonathan de Jesus e Remídio Monai).

mais_gastam <- deputados_ordenados_decrescente %>% head(10)

ggplot(data = mais_gastam, aes(x = reorder(sprintf("%s - %s/%s", nomeParlamentar, sgPartido, sgUF), valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("10 deputados que mais gastam com CEAP") + xlab("Deputado") + ylab("Valor total gasto (em reais)")

O que deputado que menos gastou no período observado foi Camilo Cola, do PMDB do ES, com incríveis 62 centavos. Aqui, dos 10 que menos gastam, 4 são do PMDB (O já citado Camilo Cola, Eliseu Padilha, Marcelo Almeida e Renan Filho).

menos_gastam <- deputados_ordenados_crescente %>% head(10)

ggplot(data = menos_gastam, aes(x = reorder(sprintf("%s - %s/%s", nomeParlamentar, sgPartido, sgUF), -valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("10 deputados que menos gastam com CEAP") + xlab("Deputado") + ylab("Valor total gasto (em reais)")

QUESTAO 5

Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP?

O gráfico de dispersão abaixo relaciona as variáveis quantidade de gastos que os deputados fizeram no exterior (Apenas 69 deputados possuem esse tipo de gasto) e o valor total restituído pela CEAP, independente do tipo de gasto. Como podemos ver, não existe correlação entre as duas. O deputado que mais vezes gastou no exterior (Afonso Motta), tem um valor total restituído de 1,2 mi, não estando sequer no top 20.

Muitos deputados apresentam valor total restituído muito alto, mas praticamente não gastaram no exterior.

Calculando a correlação exata entre as duas variáveis, obtém-se um valor de -0.03486, comprovando que é uma relação muito fraca.

agrupado_deputado_valor_total <- dados %>% filter (valorLíquido >= 0) %>% group_by(nomeParlamentar) %>% summarise(valorTotal = sum(valorLíquido))

#agrupado_deputado_gasto_exterior <- dados %>% filter (tipoDocumento == 2) %>%
#  group_by(nomeParlamentar) %>% summarise(valorExterior = sum(valorLíquido))

agrupado_deputado_quant_exterior <- dados %>% filter (tipoDocumento == 2) %>%
  group_by(nomeParlamentar) %>% summarise(quantExterior = n())

#result <- merge(agrupado_deputado_valor_total, agrupado_deputado_gasto_exterior)
result2 <- merge(agrupado_deputado_valor_total, agrupado_deputado_quant_exterior)

#ggplot(data = result, aes(x = valorTotal, y = valorExterior)) + geom_point(stat = "identity", fill="steelblue") +
#  coord_flip() + ggtitle("Valor total x Valor gasto exterior") + xlab("Valor Total") + #ylab("Valor no exterior")

ggplot(data = result2, aes(x = valorTotal, y = quantExterior)) + geom_point(stat = "identity", fill="steelblue") + ggtitle("Valor total x Quantidade exterior") + xlab("Valor Total") + ylab("Quantidade exterior")

#cor(result$valorTotal, result$valorExterior)
cor(result2$valorTotal, result2$quantExterior)
## [1] -0.03486702

Opcional 1

Quais os estados cujos deputados gastam mais no exterior? Quais os estados cujos deputados gastam menos no exterior?

Dos 27 estados, apenas 22 possuem deputados que gastaram algo no exterior. Minas Gerais e São Paulo lideram o ranking, assim como lideravam o ranking considerando os gastos com qualquer tipo de despesa mostrado na questão 3.

Amapá, Distrito Federal, Goiás, Mato Grosso do Sul, Rio Grande do Norte não aparecem na lista, então seus deputados totalizam 0 reais em gastos no exterior.

agrupado_estado_exterior <- dados %>% filter(tipoDocumento == 2, valorLíquido >= 0) %>% group_by(sgUF, tipoDocumento) %>% summarise(valorTotal = sum(valorLíquido))

ggplot(data = agrupado_estado_exterior, aes(x = reorder(sgUF, valorTotal), y = valorTotal)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Uso do CEAP por estado para gastos no exterior") + xlab("Estado") + ylab("Valor gasto por estado (reais)")

Opcional 2

Quais os deputados que mais ultrapassam o limite de CEAP do seu estado?

Filtrando apenas os deputados paraibanos, podemos agrupar pelos meses observados nos dados (envolvendo 2015, 2016 e 2017) e ver em quais meses cada deputado ultrapassou o limite pré-definido. No fim, temos quantas vezes os deputados do gráfico ultrapassaram o limite.

O deputados que não aparecem no gráfico não ultrapassaram o limite em nenhum mês. São eles: Major Fábio, Marcondes Gadelha, Nilda Gondim, Pedro Cunha Lima e Ruy Carneiro.

Os líderes são Rômulo Gouveia, que ultrapassou o limite em 20 meses e Veneziano Vital, que ultrapassou em 16 meses.

dados_com_mes <- dados %>% mutate(mes = substr(dataEmissao, 1, 7))
agrupado_deputado_mes <- dados_com_mes %>% filter(sgUF == "PB") %>% group_by(nomeParlamentar, mes, sgUF, sgPartido) %>%
  summarise(valorGasto = sum(valorLíquido))

colnames(limites)[1] <- "sgUF"

deputados_mes_limites <- merge(x = agrupado_deputado_mes, y = limites, by = "sgUF")

dif_deputados_mes_limites <- deputados_mes_limites %>% mutate(diferenca = valorGasto - limite_mensal)

deputado_quant_vezes_ultrapassaram <- dif_deputados_mes_limites %>% filter (diferenca > 0) %>% group_by(nomeParlamentar, sgPartido) %>% summarise(quantVezesUltr = n())

ggplot(data = deputado_quant_vezes_ultrapassaram, aes(x = reorder(sprintf("%s - %s", nomeParlamentar, sgPartido), quantVezesUltr), y = quantVezesUltr)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Deputados da PB que ultrapassaram a cota") + xlab("Nome do deputado") + ylab("Numero de meses que ultrapassou a cota")

Levando em consideração não a quantidade de meses que o deputado ultrapassou, mas sim o valor total ultrapassado, nós temos que o deputado Wellington Roberto foi quem mais ultrapassou, apesar dele ter ultrapassado o limite em “apenas” 9 meses. O deputado Rômulo Gouveia foi o que ultrapassou o limite mais vezes (20 vezes), mas é apenas o 7º levando em conta o valor ultrapassado.

deputado_quanto_ultrapassaram <- dif_deputados_mes_limites %>% filter (diferenca > 0) %>%
  group_by(nomeParlamentar, sgPartido) %>% summarise(valorUltrapassado = sum(diferenca))

ggplot(data = deputado_quanto_ultrapassaram, aes(x = reorder(sprintf("%s - %s", nomeParlamentar, sgPartido), valorUltrapassado), y = valorUltrapassado)) + geom_bar(stat = "identity", fill="steelblue") +
  coord_flip() + ggtitle("Deputados da PB que ultrapassaram a cota") + xlab("Nome do deputado") + ylab("Valor total ultrapassado")