Carregando os dados

library(readr)
library(plyr)
library(dplyr)
library(ggplot2)
library(knitr)

dadosCEAP <- read_csv("dadosCEAP.csv")

Pergunta 1

Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso?

Para responder essa perguntas, iremos agrupar os dados por partido e observar a quantidade de lançamentos.

dadosPartido <- summarise(group_by(dadosCEAP, sgPartido), Quantidade = n())
dadosPartido <- filter(dadosPartido, !is.na(sgPartido))
dadosPartido <- arrange(dadosPartido, desc(Quantidade))

ggplot(dadosPartido, aes(reorder(sgPartido, Quantidade), Quantidade)) + geom_bar(aes(sgPartido), stat = "identity") + coord_flip() + labs(title="Partidos que utilizam o sistema", x="Partidos", y="Quantidade")

Podemos filtrar apenas os 4 que mais fazem uso e os 4 que menos fazem uso para uma melhor visualização.

Como podemos observar os partidos que mais utilizam a CEAP são:
1. PT : 124.920 Lançamentos.
2. PMDB : 107.120 Lançamentos.
3. PSDB : 94.251 Lançamentos.
4. PP : 85.175 Lançamentos.

E os que menos utilizam são:
1. PTdoB: 41 Lançamentos.
2. PMN : 55 Lançamentos.
3. PRTB : 242 Lançamentos.
4. PRP : 536 Lançamentos.

Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso? Considerando valores em R$.

Neste caso, iremos considerar a coluna de Valor Líquido e observar a soma dos valores por Partido.

dadosPartidoComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgPartido","valorLíquido"))

Para responder essa questão, é interessante vermos as distribuição das médias dos valores gastos em um boxplot.

ggplot(dadosPartidoComReal, aes(y = valorLíquido, x = reorder(sgPartido, valorLíquido))) +
  geom_boxplot(na.rm = TRUE) +
  labs(title="Valores gastos na CEAP", x="Partidos", y="Distribuição") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Podemos filtrar apenas os 4 que mais gastam e os 4 que menos gastam para uma melhor visualização.

Como podemos observar os partidos que mais gastam são:
1. PMDB : R$ 74.723.117,00
2. PT : R$ 70.407.745,00
3. PSDB : R$ 54.703.811,00
4. PP : R$ 54.669.134,00

E os que menos gastam são:
1. PTdoB: R$ 22.505,34
2. PMN : R$ 88.950,34
3. PRTB : R$ 171.759,78
4. PRP : R$ 763.571,39

Pergunta 2

Quais os tipos de despesa mais comuns no uso da CEAP?

dadosTiposDespesa <- summarise(group_by(dadosCEAP, tipoDespesa), Quantidade = n())
dadosTiposDespesa <- arrange(dadosTiposDespesa, desc(Quantidade))
Tipos de Despesa mais frenquentes na CEAP
Tipo de Despesa Quantidade Porcentagem
Emissão Bilhete Aéreo 254464 27.7
COMBUSTÍVEIS E LUBRIFICANTES. 196848 21.4
TELEFONIA 89322 9.7
SERVIÇOS POSTAIS 79904 8.7
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR 74754 8.1
SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO 74680 8.1
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR 61804 6.7
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR. 29230 3.1
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES 16610 1.8
HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL. 16140 1.7
Other 23958 3.0

Quais os tipos de despesa mais comuns no uso da CEAP? Considerando valores em R$.

dadosTiposDespesaComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("tipoDespesa","valorLíquido"))
dadosTiposDespesaComReal <- aggregate(dadosTiposDespesaComReal$valorLíquido, by=list(TipoDespesa = dadosTiposDespesaComReal$tipoDespesa), FUN=sum)
dadosTiposDespesaComReal <- arrange(dadosTiposDespesaComReal, desc(x))
Tipos de Despesas que mais gastam na CEAP
Tipo de Despesa Valor em R$ Porcentagem
Emissão Bilhete Aéreo 154891282 25.5
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR. 136771780 22.5
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES 69980977 11.5
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR 63332136 10.4
CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS. 58268029 9.6
COMBUSTÍVEIS E LUBRIFICANTES. 48970132 8.0
TELEFONIA 30244587 4.9
SERVIÇOS POSTAIS 10512444 1.7
LOCAÇÃO OU FRETAMENTO DE AERONAVES 8129414 1.3
PASSAGENS AÉREAS 7172392 1.1
Other 18621518 3.5

Pergunta 3

Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso?

dadosEstado <- summarise(group_by(dadosCEAP, sgUF), Quantidade = n())
dadosEstado <- filter(dadosEstado, !is.na(sgUF))
dadosEstado <- arrange(dadosEstado, desc(Quantidade))

ggplot(dadosEstado, aes(reorder(sgUF, Quantidade), Quantidade)) + geom_jitter() + labs(title="Estado que fazem uso da CEAP", x="Partido", y="Lançamentos da CEAP")

Os estados que mais utilizam são:
1. SP : 148.949 Lançamentos
2. MG : 115.977 Lançamentos
3. RS : 78.707 Lançamentos
4. RJ : 78.461 Lançamentos

Os estados que menos utilizam são:
1. RR : 8.767 Lançamentos
2. AM : 8.601 Lançamentos
3. AP : 8.203 Lançamentos
4. DF : 6.171 Lançamentos

Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso? Considerando valores em R$.

dadosEstadoReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgUF","valorLíquido"))
dadosEstadoReal <- aggregate(dadosEstadoReal$valorLíquido, by=list(Estado = dadosEstadoReal$sgUF), FUN=sum)
dadosEstadoReal <- arrange(dadosEstadoReal, desc(x))


ggplot(dadosEstadoReal, aes(reorder(Estado,x), x)) + geom_jitter() + labs(title="Valores gastos por Partido", x="Partido", y="Valor em R$")

Os estados que mais gastaram são:
1. SP : R$ 74.870.178
2. MG : R$ 59.920.733
3. RJ : R$ 50.381.128
4. BA : R$ 46.569.529

Os que menos gastaram são:
1. SE : R$ 9.688.663
2. AM : R$ 9.537.026
3. MT : R$ 9.329.848
4. DF : R$ 6.896.664

Porque você acha isso?

Alguns estados tem cotas maiores que outros, como também o número de deputados é variável.

Pergunta 4

Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

dadosParlamentar <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","valorLíquido"))
dadosParlamentar <- aggregate(dadosParlamentar$valorLíquido, by=list(Parlamentar = dadosParlamentar$nomeParlamentar), FUN=sum)
dadosParlamentar <- arrange(dadosParlamentar, desc(x))

ggplot(head(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que mais gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggplot(tail(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que menos gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

Pergunta 5

Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP?

#Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP? 
dadosCorrelacao <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))

dadosCorrelacaoExterior <- filter(dadosCorrelacao, tipoDocumento == 2)
dadosCorrelacaoExterior <- aggregate(dadosCorrelacaoExterior$valorLíquido, by=list(Parlamentar = dadosCorrelacaoExterior$nomeParlamentar), FUN=sum)
names(dadosCorrelacaoExterior)[2]<-"GastosExterior"
dadosCorrelacaoParlamentar <- dadosParlamentar
names(dadosCorrelacaoParlamentar)[2]<-"GastosTotal"

dadosCorrelacaoResultado <- join(dadosCorrelacaoExterior, dadosCorrelacaoParlamentar, by="Parlamentar", type="inner")

ggplot(dadosCorrelacaoResultado, aes(x=GastosTotal, y=GastosExterior)) +
    geom_point(shape=1) +
    geom_smooth(method=lm) + 
  labs(title = "Correlação entre Gastos no Exterior e Total", x = "Gastos Totais", y = "Gastos no Exterior")

cor(dadosCorrelacaoResultado$GastosExterior, dadosCorrelacaoResultado$GastosTotal)
## [1] 0.004787562

Bônus 1

Quais os estados cujos deputados gastam mais no exterior? Quais os estados cujos deputados gastam menos no exterior?

dadosExterior <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))
dadosExterior <- filter(dadosExterior, tipoDocumento == 2)
dadosExterior <- aggregate(dadosExterior$valorLíquido, by=list(Parlamentar = dadosExterior$nomeParlamentar), FUN=sum)
dadosExterior <- arrange(dadosExterior, desc(x))

ggplot(head(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que mais gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggplot(tail(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que menos gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))