library(readr)
library(plyr)
library(dplyr)
library(ggplot2)
library(knitr)
dadosCEAP <- read_csv("dadosCEAP.csv")
Para responder essa perguntas, iremos agrupar os dados por partido e observar a quantidade de lançamentos.
dadosPartido <- summarise(group_by(dadosCEAP, sgPartido), Quantidade = n())
dadosPartido <- filter(dadosPartido, !is.na(sgPartido))
dadosPartido <- arrange(dadosPartido, desc(Quantidade))
ggplot(dadosPartido, aes(reorder(sgPartido, Quantidade), Quantidade)) + geom_bar(aes(sgPartido), stat = "identity") + coord_flip() + labs(title="Partidos que utilizam o sistema", x="Partidos", y="Quantidade")
Podemos filtrar apenas os 4 que mais fazem uso e os 4 que menos fazem uso para uma melhor visualização.
Como podemos observar os partidos que mais utilizam a CEAP são:
1. PT : 124.920 Lançamentos.
2. PMDB : 107.120 Lançamentos.
3. PSDB : 94.251 Lançamentos.
4. PP : 85.175 Lançamentos.
E os que menos utilizam são:
1. PTdoB: 41 Lançamentos.
2. PMN : 55 Lançamentos.
3. PRTB : 242 Lançamentos.
4. PRP : 536 Lançamentos.
Neste caso, iremos considerar a coluna de Valor Líquido e observar a soma dos valores por Partido.
dadosPartidoComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgPartido","valorLíquido"))
Para responder essa questão, é interessante vermos as distribuição das médias dos valores gastos em um boxplot.
ggplot(dadosPartidoComReal, aes(y = valorLíquido, x = reorder(sgPartido, valorLíquido))) +
geom_boxplot(na.rm = TRUE) +
labs(title="Valores gastos na CEAP", x="Partidos", y="Distribuição") +
theme(axis.text.x = element_text(angle = 90, hjust = 1))
Podemos filtrar apenas os 4 que mais gastam e os 4 que menos gastam para uma melhor visualização.
Como podemos observar os partidos que mais gastam são:
1. PMDB : R$ 74.723.117,00
2. PT : R$ 70.407.745,00
3. PSDB : R$ 54.703.811,00
4. PP : R$ 54.669.134,00
E os que menos gastam são:
1. PTdoB: R$ 22.505,34
2. PMN : R$ 88.950,34
3. PRTB : R$ 171.759,78
4. PRP : R$ 763.571,39
dadosTiposDespesa <- summarise(group_by(dadosCEAP, tipoDespesa), Quantidade = n())
dadosTiposDespesa <- arrange(dadosTiposDespesa, desc(Quantidade))
Tipo de Despesa | Quantidade | Porcentagem |
---|---|---|
Emissão Bilhete Aéreo | 254464 | 27.7 |
COMBUSTÍVEIS E LUBRIFICANTES. | 196848 | 21.4 |
TELEFONIA | 89322 | 9.7 |
SERVIÇOS POSTAIS | 79904 | 8.7 |
FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR | 74754 | 8.1 |
SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO | 74680 | 8.1 |
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR | 61804 | 6.7 |
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR. | 29230 | 3.1 |
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES | 16610 | 1.8 |
HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL. | 16140 | 1.7 |
Other | 23958 | 3.0 |
dadosTiposDespesaComReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("tipoDespesa","valorLíquido"))
dadosTiposDespesaComReal <- aggregate(dadosTiposDespesaComReal$valorLíquido, by=list(TipoDespesa = dadosTiposDespesaComReal$tipoDespesa), FUN=sum)
dadosTiposDespesaComReal <- arrange(dadosTiposDespesaComReal, desc(x))
Tipo de Despesa | Valor em R$ | Porcentagem |
---|---|---|
Emissão Bilhete Aéreo | 154891282 | 25.5 |
DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR. | 136771780 | 22.5 |
LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES | 69980977 | 11.5 |
MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR | 63332136 | 10.4 |
CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS. | 58268029 | 9.6 |
COMBUSTÍVEIS E LUBRIFICANTES. | 48970132 | 8.0 |
TELEFONIA | 30244587 | 4.9 |
SERVIÇOS POSTAIS | 10512444 | 1.7 |
LOCAÇÃO OU FRETAMENTO DE AERONAVES | 8129414 | 1.3 |
PASSAGENS AÉREAS | 7172392 | 1.1 |
Other | 18621518 | 3.5 |
dadosEstado <- summarise(group_by(dadosCEAP, sgUF), Quantidade = n())
dadosEstado <- filter(dadosEstado, !is.na(sgUF))
dadosEstado <- arrange(dadosEstado, desc(Quantidade))
ggplot(dadosEstado, aes(reorder(sgUF, Quantidade), Quantidade)) + geom_jitter() + labs(title="Estado que fazem uso da CEAP", x="Partido", y="Lançamentos da CEAP")
Os estados que mais utilizam são:
1. SP : 148.949 Lançamentos
2. MG : 115.977 Lançamentos
3. RS : 78.707 Lançamentos
4. RJ : 78.461 Lançamentos
Os estados que menos utilizam são:
1. RR : 8.767 Lançamentos
2. AM : 8.601 Lançamentos
3. AP : 8.203 Lançamentos
4. DF : 6.171 Lançamentos
dadosEstadoReal <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("sgUF","valorLíquido"))
dadosEstadoReal <- aggregate(dadosEstadoReal$valorLíquido, by=list(Estado = dadosEstadoReal$sgUF), FUN=sum)
dadosEstadoReal <- arrange(dadosEstadoReal, desc(x))
ggplot(dadosEstadoReal, aes(reorder(Estado,x), x)) + geom_jitter() + labs(title="Valores gastos por Partido", x="Partido", y="Valor em R$")
Os estados que mais gastaram são:
1. SP : R$ 74.870.178
2. MG : R$ 59.920.733
3. RJ : R$ 50.381.128
4. BA : R$ 46.569.529
Os que menos gastaram são:
1. SE : R$ 9.688.663
2. AM : R$ 9.537.026
3. MT : R$ 9.329.848
4. DF : R$ 6.896.664
Alguns estados tem cotas maiores que outros, como também o número de deputados é variável.
dadosParlamentar <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","valorLíquido"))
dadosParlamentar <- aggregate(dadosParlamentar$valorLíquido, by=list(Parlamentar = dadosParlamentar$nomeParlamentar), FUN=sum)
dadosParlamentar <- arrange(dadosParlamentar, desc(x))
ggplot(head(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que mais gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(tail(dadosParlamentar, 10), aes(reorder(Parlamentar, x), x)) + geom_bar(aes(Parlamentar), stat = "identity") + coord_flip() + labs(title="Parlamentar que menos gastam", x="Parlamentar", y="Valor em R$") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
#Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP?
dadosCorrelacao <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))
dadosCorrelacaoExterior <- filter(dadosCorrelacao, tipoDocumento == 2)
dadosCorrelacaoExterior <- aggregate(dadosCorrelacaoExterior$valorLíquido, by=list(Parlamentar = dadosCorrelacaoExterior$nomeParlamentar), FUN=sum)
names(dadosCorrelacaoExterior)[2]<-"GastosExterior"
dadosCorrelacaoParlamentar <- dadosParlamentar
names(dadosCorrelacaoParlamentar)[2]<-"GastosTotal"
dadosCorrelacaoResultado <- join(dadosCorrelacaoExterior, dadosCorrelacaoParlamentar, by="Parlamentar", type="inner")
ggplot(dadosCorrelacaoResultado, aes(x=GastosTotal, y=GastosExterior)) +
geom_point(shape=1) +
geom_smooth(method=lm) +
labs(title = "Correlação entre Gastos no Exterior e Total", x = "Gastos Totais", y = "Gastos no Exterior")
cor(dadosCorrelacaoResultado$GastosExterior, dadosCorrelacaoResultado$GastosTotal)
## [1] 0.004787562
dadosExterior <- subset(dadosCEAP, !is.na(dadosCEAP$valorLíquido), select = c("nomeParlamentar","tipoDocumento", "valorLíquido"))
dadosExterior <- filter(dadosExterior, tipoDocumento == 2)
dadosExterior <- aggregate(dadosExterior$valorLíquido, by=list(Parlamentar = dadosExterior$nomeParlamentar), FUN=sum)
dadosExterior <- arrange(dadosExterior, desc(x))
ggplot(head(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que mais gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(tail(dadosExterior, 10), aes(reorder(Parlamentar,x), x)) + geom_bar(stat = "identity") + coord_flip() + labs(title="Parlamentares que menos gastam no Exterior", x="Parlamentar", y="Gastos no Exterior") + theme(axis.text.x = element_text(angle = 90, hjust = 1))