Análise de Gastos de Deputados: Nossas Perguntas

Carregando os dados

library(readr)
library(plyr)
library(dplyr)
library(ggplot2)
library(knitr)

dadosCEAP <- read_csv("dadosCEAP.csv")

Pergunta 1

Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso?

Para responder essa perguntas, iremos agrupar os dados por partido e observar a quantidade de lançamentos.

dadosPartido <- summarise(group_by(dadosCEAP, sgPartido), Quantidade = n())
dadosPartido <- filter(dadosPartido, !is.na(sgPartido))
dadosPartido <- arrange(dadosPartido, desc(Quantidade))

ggplot(dadosPartido, aes(reorder(sgPartido, Quantidade), Quantidade)) + geom_bar(aes(sgPartido), stat = "identity") + coord_flip() + labs(title="Partidos que utilizam o sistema", x="Partidos", y="Quantidade")

Podemos filtrar apenas os 4 que mais fazem uso e os 4 que menos fazem uso para uma melhor visualização.

Como podemos observar os partidos que mais utilizam a CEAP são:
1. PT : 124.920 Lançamentos.
2. PMDB : 107.120 Lançamentos.
3. PSDB : 94.251 Lançamentos.
4. PP : 85.175 Lançamentos.

E os que menos utilizam são:
1. PTdoB: 41 Lançamentos.
2. PMN : 55 Lançamentos.
3. PRTB : 242 Lançamentos.
4. PRP : 536 Lançamentos.

Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso? Considerando valores em R$.

Neste caso, iremos considerar a coluna de Valor Líquido e observar a soma dos valores por Partido.

dadosPartidoComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgPartido","valorLíquido"))

Para responder essa questão, é interessante vermos as distribuição das médias dos valores gastos em um boxplot.

ggplot(dadosPartidoComReal, aes(y = valorLíquido, x = reorder(sgPartido, valorLíquido))) +
  geom_boxplot(na.rm = TRUE) +
  labs(title="Valores gastos na CEAP", x="Partidos", y="Distribuição") +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))

Podemos filtrar apenas os 4 que mais gastam e os 4 que menos gastam para uma melhor visualização.

Como podemos observar os partidos que mais gastam são:
1. PMDB : R$ 74.723.117,00
2. PT : R$ 70.407.745,00
3. PSDB : R$ 54.703.811,00
4. PP : R$ 54.669.134,00

E os que menos gastam são:
1. PTdoB: R$ 22.505,34
2. PMN : R$ 88.950,34
3. PRTB : R$ 171.759,78
4. PRP : R$ 763.571,39

Pergunta 2

Quais os tipos de despesa mais comuns no uso da CEAP?

dadosTiposDespesa <- summarise(group_by(dadosCEAP, tipoDespesa), Quantidade = n())
dadosTiposDespesa <- arrange(dadosTiposDespesa, desc(Quantidade))

Tipos de Despesa mais frenquentes na CEAP
Tipo de Despesa	Quantidade	Porcentagem
Emissão Bilhete Aéreo	254464	27.7
COMBUSTÍVEIS E LUBRIFICANTES.	196848	21.4
TELEFONIA	89322	9.7
SERVIÇOS POSTAIS	79904	8.7
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR	74754	8.1
SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO	74680	8.1
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR	61804	6.7
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.	29230	3.1
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES	16610	1.8
HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL.	16140	1.7
Other	23958	3.0

Quais os tipos de despesa mais comuns no uso da CEAP? Considerando valores em R$.

dadosTiposDespesaComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("tipoDespesa","valorLíquido"))
dadosTiposDespesaComReal <- aggregate(dadosTiposDespesaComReal$valorLíquido, by=list(TipoDespesa = dadosTiposDespesaComReal$tipoDespesa), FUN=sum)
dadosTiposDespesaComReal <- arrange(dadosTiposDespesaComReal, desc(x))

Tipos de Despesas que mais gastam na CEAP
Tipo de Despesa	Valor em R$	Porcentagem
Emissão Bilhete Aéreo	154891282	25.5
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.	136771780	22.5
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES	69980977	11.5
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR	63332136	10.4
CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.	58268029	9.6
COMBUSTÍVEIS E LUBRIFICANTES.	48970132	8.0
TELEFONIA	30244587	4.9
SERVIÇOS POSTAIS	10512444	1.7
LOCAÇÃO OU FRETAMENTO DE AERONAVES	8129414	1.3
PASSAGENS AÉREAS	7172392	1.1
Other	18621518	3.5

Pergunta 3

Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso?

dadosEstado <- summarise(group_by(dadosCEAP, sgUF), Quantidade = n())
dadosEstado <- filter(dadosEstado, !is.na(sgUF))
dadosEstado <- arrange(dadosEstado, desc(Quantidade))

ggplot(dadosEstado, aes(reorder(sgUF, Quantidade), Quantidade)) + geom_jitter() + labs(title="Estado que fazem uso da CEAP", x="Partido", y="Lançamentos da CEAP")

Os estados que mais utilizam são:
1. SP : 148.949 Lançamentos
2. MG : 115.977 Lançamentos
3. RS : 78.707 Lançamentos
4. RJ : 78.461 Lançamentos

Os estados que menos utilizam são:
1. RR : 8.767 Lançamentos
2. AM : 8.601 Lançamentos
3. AP : 8.203 Lançamentos
4. DF : 6.171 Lançamentos

Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso? Considerando valores em R$.

dadosEstadoReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgUF","valorLíquido"))
dadosEstadoReal <- aggregate(dadosEstadoReal$valorLíquido, by=list(Estado = dadosEstadoReal$sgUF), FUN=sum)
dadosEstadoReal <- arrange(dadosEstadoReal, desc(x))


ggplot(dadosEstadoReal, aes(reorder(Estado,x), x)) + geom_jitter() + labs(title="Valores gastos por Partido", x="Partido", y="Valor em R$")

Os estados que mais gastaram são:
1. SP : R$ 74.870.178
2. MG : R$ 59.920.733
3. RJ : R$ 50.381.128
4. BA : R$ 46.569.529

Os que menos gastaram são:
1. SE : R$ 9.688.663
2. AM : R$ 9.537.026
3. MT : R$ 9.329.848
4. DF : R$ 6.896.664

Porque você acha isso?

Alguns estados tem cotas maiores que outros, como também o número de deputados é variável.

Pergunta 4

Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

dadosParlamentar <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","valorLíquido"))
dadosParlamentar <- aggregate(dadosParlamentar$valorLíquido, by=list(Parlamentar = dadosParlamentar$nomeParlamentar), FUN=sum)
dadosParlamentar <- arrange(dadosParlamentar, desc(x))

ggplot(head(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que mais gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggplot(tail(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que menos gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

Pergunta 5

Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP?

#Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP? 
dadosCorrelacao <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))

dadosCorrelacaoExterior <- filter(dadosCorrelacao, tipoDocumento == 2)
dadosCorrelacaoExterior <- aggregate(dadosCorrelacaoExterior$valorLíquido, by=list(Parlamentar = dadosCorrelacaoExterior$nomeParlamentar), FUN=sum)
names(dadosCorrelacaoExterior)[2]<-"GastosExterior"
dadosCorrelacaoParlamentar <- dadosParlamentar
names(dadosCorrelacaoParlamentar)[2]<-"GastosTotal"

dadosCorrelacaoResultado <- join(dadosCorrelacaoExterior, dadosCorrelacaoParlamentar, by="Parlamentar", type="inner")

ggplot(dadosCorrelacaoResultado, aes(x=GastosTotal, y=GastosExterior)) +
    geom_point(shape=1) +
    geom_smooth(method=lm) + 
  labs(title = "Correlação entre Gastos no Exterior e Total", x = "Gastos Totais", y = "Gastos no Exterior")

cor(dadosCorrelacaoResultado$GastosExterior, dadosCorrelacaoResultado$GastosTotal)

## [1] 0.004787562

Bônus 1

Quais os estados cujos deputados gastam mais no exterior? Quais os estados cujos deputados gastam menos no exterior?

dadosExterior <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))
dadosExterior <- filter(dadosExterior, tipoDocumento == 2)
dadosExterior <- aggregate(dadosExterior$valorLíquido, by=list(Parlamentar = dadosExterior$nomeParlamentar), FUN=sum)
dadosExterior <- arrange(dadosExterior, desc(x))

ggplot(head(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que mais gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

ggplot(tail(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que menos gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

Análise de Gastos de Deputados: Nossas Perguntas - Lab 1

Julie Pessoa