library(readr)
library(knitr)
library(tidyverse)

IntroduĂ§Ă£o

Esta anĂ¡lise serĂ¡ feita utilizando os dados de gastos da Cota Parlamentar dos deputados dos anos de 2015, 2016 e 2017. Abaixo temos 5 perguntas que iremos responder a partir dos nossos dados.

Antes, iremos importar a nossa base de dados.

dadosCEAP <- read_csv(unz("../database/dadosCEAP.csv.zip", "dadosCEAP.csv")) %>%
  mutate(diaMesAno = as.Date(stringr::str_sub(dataEmissao, 1, 10)))
  
dadosCEAP$valorGlosa <- as.numeric(sub(",", ".", dadosCEAP$valorGlosa, fixed = TRUE)) 
limiteMensalCEAP <- read_csv("../database/limiteMensalCEAP.csv")

Perguntas

1. Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso? Mesmas perguntas considerando valores em R$.

Abaixo temos um grĂ¡fico dos partidos por uso da CEAP.

dadosCEAP %>%
  filter(!sgPartido %in% NA) %>%
  group_by(sgPartido) %>%
  summarise(n = n()) %>%
  ggplot(aes(x = reorder(sgPartido, n), y = n)) + 
  xlab("Partido") +
  ylab("UtilizaĂ§Ă£o da CEAP") +
  geom_bar(stat = "identity") + 
  coord_flip()

Analisando o grĂ¡fico acima temos que os maiores gastos advĂ©m do PT, PMDB e PSDB. Temos que considerar tambĂ©m o nĂºmero de deputados que cada partido possui. Esses trĂªs partidos possuem um nĂºmero muito maior de deputados em relaĂ§Ă£o aos demais partidos.

Analisando agora o grĂ¡fico dos gastos dos partidos por uso da CEAP, temos:

dadosCEAP %>%
  filter(!sgPartido %in% NA) %>%
  group_by(sgPartido) %>%
  summarise(valorGastos = sum(valorDocumento)) %>%
  ggplot(aes(x = reorder(sgPartido, valorGastos), y = valorGastos)) + 
  xlab("Partido") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()

O partido que mais gastou com a CEAP foi o PMDB, seguido pelo PT e seguido pelo PSDB e PP com uma diferença muito ínfima entre os dois.

Podemos analisar a distribuiĂ§Ă£o atravĂ©s de um boxplot dos partidos:

gastos_partido <- dadosCEAP %>%
  filter(valorDocumento > 0 & !sgPartido %in% NA) %>%
  ggplot(aes(x = sgPartido, y = valorDocumento)) + 
  xlab("Partido") +
  ylab("Valor do documento (em reais)") +
  geom_boxplot(outlier.alpha = 0) + 
  coord_flip()

gastos_partido

Os dados estĂ£o muito concentrados em valores prĂ³ximos Ă  0, por isso nĂ£o Ă© possĂ­vel determinar com precisĂ£o a distribuiĂ§Ă£o. Por essa razĂ£o, vamos determinar uma faixa de valores para melhorar a nossa visualizaĂ§Ă£o:

gastos_partido +
  scale_y_continuous(limits = c(0, 500))
## Warning: Removed 245789 rows containing non-finite values (stat_boxplot).

Podemos perceber que os valores tendem a estar entre 0 e 200 reais, com algumas exceções de distribuições com maior variaĂ§Ă£o, tais como ocorre no PRP. A mediana dos valores Ă© aproximadamente 100 reais.

2. Quais os tipos de despesa mais comuns no uso da CEAP? Mesma pergunta considerando valores em R$.

Analisando agora o grĂ¡fico dos tipos de despesa da CEAP por utilizaĂ§Ă£o, temos:

dadosCEAP %>%
  group_by(tipoDespesa) %>%
  summarise(n = n()) %>%
  ggplot(aes(x = reorder(tipoDespesa, n), y = n)) + 
  xlab("Tipo de despesa") +
  ylab("UtilizaĂ§Ă£o da CEAP") +
  geom_bar(stat = "identity") + 
  coord_flip()

A emissĂ£o de bilhete aĂ©reo Ă© o grande responsĂ¡vel pelos gastos dos deputados, seguidos de combustĂ­veis e lubrificante. Essa medida se dĂ¡ em valor absoluto das solicitações de uso da CEAP.

Analisando agora o grĂ¡fico dos tipos de despesa da CEAP pelo valor dos gastos, temos:

dadosCEAP %>%
  group_by(tipoDespesa) %>%
  summarise(valorGastos = sum(valorDocumento)) %>%
  ggplot(aes(x = reorder(tipoDespesa, valorGastos), y = valorGastos)) + 
  xlab("Tipo de despesa") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat = "identity") + 
  coord_flip()

A divulgaĂ§Ă£o da atividade parlamentar Ă© a maior responsĂ¡vel pelos gastos na CEAP, seguida pela emissĂ£o de bilhete aĂ©reo.

Se dermos uma olhada na distribuiĂ§Ă£o dos gastos atravĂ©s de um boxplot, temos:

tipos_gastos <- dadosCEAP %>%
  ggplot(aes(x = tipoDespesa, y = valorDocumento)) + 
  xlab("Tipo de despesa") +
  ylab("Valor do documento (em reais)") +
  geom_boxplot(outlier.alpha = 0) + 
  coord_flip()
tipos_gastos

Mais uma vez os valores estĂ£o muito concentrados em 0, de forma que precisamos delimitar o intervalo de exibiĂ§Ă£o.

tipos_gastos + scale_y_continuous(limits = c(0, 1000))
## Warning: Removed 172403 rows containing non-finite values (stat_boxplot).

ParticipaĂ§Ă£o em curso, palestra ou evento similar apresenta uma grande variaĂ§Ă£o nos preços. Ou seja, os deputados participam de palestras que vĂ£o de 100 atĂ© 750 reais, geralmente.

3. Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso? Mesmas perguntas considerando gastos em R$.

Analisando agora o GrĂ¡fico de utilizaĂ§Ă£o por estado da CEAP, temos:

dadosCEAP %>%
  filter(!sgUF %in% NA) %>%
  group_by(sgUF) %>%
  summarise(n = n()) %>%
  ggplot(aes(x = reorder(sgUF, n),y = n)) + 
  xlab("Estado") +
  ylab("UtilizaĂ§Ă£o da CEAP") +
  geom_bar(stat = "identity") + 
  coord_flip()

Pelo grĂ¡fico podemos perceber que SP possui o maior nĂºmero de requisições da CEAP em valores absolutos dos dados analisados. Em segundo lugar, Minas Gerais. Os estados que fazem menos uso sĂ£o AmapĂ¡, Amazonas e Roraima. O Distrito Federal aparece em Ăºltimo, mas nĂ£o Ă© considerado estado.

Analisando agora o GrĂ¡fico dos gastos por estado da CEAP, temos:

dadosCEAP %>%
  filter(!sgUF %in% NA) %>%
  group_by(sgUF) %>%
  summarise(valorGastos = sum(valorLĂ­quido)) %>%
  ggplot(aes(x = reorder(sgUF, valorGastos), y = valorGastos)) + 
  xlab("Estado") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()

SĂ£o Paulo continua na liderança dos gastos seguido de Minas Gerais e Rio de Janeiro.

Por que vocĂª acha isso?

Acredito que a quantidade de deputados de SP influencia nos gastos, pois o nĂºmero de deputados por estado Ă© equivalente Ă  sua populaĂ§Ă£o. Dado isso, SP tem 70 deputados e por isso Ă© o que possui mais gastos.

4. Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

Separando os dados, temos:

dados <- dadosCEAP %>%
  group_by(nomeParlamentar) %>%
  summarise(valorGastos = sum(valorLĂ­quido))

Plotando os deputados que mais gastaram, temos:

# Os que mais gastaram
dados[order(-dados$valorGastos),] %>%
  head(10) %>%
  ggplot(aes(x = reorder(nomeParlamentar, valorGastos), y = valorGastos)) + 
  xlab("Deputado") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()

Os que menos gastaram, temos:

# Os que menos gastaram
dados[order(dados$valorGastos),] %>%
  filter(valorGastos > 0) %>%
  head(10) %>%
  ggplot(aes(x = reorder(nomeParlamentar, -valorGastos), y = valorGastos)) + 
  xlab("Deputado") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()

Lembrando que essa anĂ¡lise foi feita considerando os valores absolutos, entĂ£o podem existir deputados que ficaram pouco tempo na cĂ¢mara enquanto outros estĂ£o lĂ¡ atĂ© hoje e continuam se utilizando da CEAP.

5. Existe correlaĂ§Ă£o entre a quantidade de gastos no exterior e o valor restituĂ­do da CEAP?

O valor restituĂ­do da CEAP Ă© o valor lĂ­quido, que Ă© repassado para o deputado apĂ³s a comprovaĂ§Ă£o da nota fiscal e do valor do documento ser conferido. Dessa forma, o valor Ă© devolvido ao deputado e o gasto Ă© contabilizado em sua cota parlamentar. Agora, verificaremos se hĂ¡ correlaĂ§Ă£o entre o nĂºmero de solicitações de uso da CEAP e o valor lĂ­quido.

gastos_deputados_exterior <- dadosCEAP %>%
  filter(tipoDocumento==2) %>%
  group_by(nomeParlamentar) %>%
  summarise(numeroGastos = n())

gastos_deputados <- dadosCEAP %>%
  group_by(nomeParlamentar) %>%
  summarise(somaGastos = sum(valorLĂ­quido))

gastos_deputados_exterior %>%
  left_join(gastos_deputados, by="nomeParlamentar") %>%
  select(somaGastos, numeroGastos) %>%
  cor() %>%
  kable()
somaGastos numeroGastos
somaGastos 1.0000000 -0.0037931
numeroGastos -0.0037931 1.0000000

De acordo com o cĂ¡lculo acima, nĂ£o existe qualquer correlaĂ§Ă£o entre as duas variĂ¡veis.

Perguntas bĂ´nus

Quais os estados cujos deputados gastam mais no exterior? Quais os estados cujos deputados gastam menos no exterior?

AtravĂ©s de vĂ¡rios grĂ¡ficos podemos responder essa pergunta.

# Quantidade
estados_custos_exterior <- dadosCEAP %>%
  group_by(tipoDocumento, sgUF) %>%
  filter(tipoDocumento==2) %>%
  summarise(n = n())

# Reais
estados_custos_reais_exterior <- dadosCEAP %>%
  filter(tipoDocumento==2) %>%
  group_by(sgUF) %>%
  summarise(gastos=sum(valorDocumento))

Quem mais solicitou a CEAP no exterior:

# Quantidade (mais)
estados_custos_exterior[order(-estados_custos_exterior$n),] %>%
  head(10) %>%
  ggplot(aes(x = reorder(sgUF, n), y = n)) + 
  xlab("Estado") +
  ylab("UtilizaĂ§Ă£o da CEAP") +
  geom_bar(stat="identity") + 
  coord_flip()

Quem menos solicitou a CEAP no exterior:

# Quantidade (menos)
estados_custos_exterior[order(estados_custos_exterior$n),] %>%
  head(10) %>%
  ggplot(aes(x = reorder(sgUF, -n), y = n)) + 
  xlab("Estado") +
  ylab("UtilizaĂ§Ă£o da CEAP") +
  geom_bar(stat="identity") + 
  coord_flip()

Quem gastou mais com CEAP:

# Reais (mais)
estados_custos_reais_exterior[order(-estados_custos_reais_exterior$gastos),] %>%
  head(10) %>%
  ggplot(aes(x = reorder(sgUF, gastos), y = gastos)) + 
  xlab("Estado") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()

Quem gastou menos com CEAP:

# Reais (menos)
estados_custos_reais_exterior[order(estados_custos_reais_exterior$gastos),] %>%
  head(10) %>%
  ggplot(aes(x = reorder(sgUF, -gastos), y = gastos)) + 
  xlab("Estado") +
  ylab("Gastos totais (em reais)") +
  geom_bar(stat="identity") + 
  coord_flip()