Primeiramente precisamos ter a noção de quantos deputados cada partido possui registrados nos dados. Após a obtenção dessa informação, vamos dividir o total gasto por partido pelo número de deputados que possui.
gastoPartido <- ceap %>% group_by(sgPartido) %>% summarise(gasto = sum(valorLíquido))
gastoPartido$sgPartido <- as.factor(gastoPartido$sgPartido)
gastoPartido <- gastoPartido[complete.cases(gastoPartido), ]
depsPorPartido <- ceap %>%
group_by(nomeParlamentar, sgPartido) %>%
summarise(count = n()) %>%
group_by(sgPartido) %>%
summarise(deputados = length(sgPartido))
depsPorPartido <- depsPorPartido[complete.cases(depsPorPartido), ]
gastoPropPartido <- cbind(depsPorPartido, gastoPartido = gastoPartido$gasto)
gastoPropPartido <- gastoPropPartido %>% mutate(gastoProp = div(gastoPartido, deputados))
head(gastoPropPartido)
## sgPartido deputados gastoPartido gastoProp
## 1 AVANTE 6 5779091 963181.9
## 2 DEM 46 32725849 711431.5
## 3 PCdoB 21 14056494 669356.9
## 4 PDT 34 23010698 676785.2
## 5 PEN 3 3412488 1137495.9
## 6 PHS 7 7567635 1081090.7
Agora veremos quais os partidos que mais gastam proporcionalmente ao número de deputados eleitos.
ggplot(gastoPropPartido, aes(x=reorder(sgPartido, -gastoProp), y=gastoProp, fill = gastoProp)) +
theme_bw() +
geom_bar(stat = 'identity') +
scale_fill_gradient(low = "green", high = "red", guide = FALSE) +
scale_y_continuous(labels=comma, breaks=seq(0, 70000000, by = 125000)) + coord_flip() +
labs(title = "Gasto por partido proporcional ao número de deputados", x = "", y = "")
Como podemos ver, o resultado foi surpreendente. Esperava-se que o padrão se mantivesse, ou seja, que os partidos que mais gastam continuassem na frente. Pelo gráfico vemos que o PEN, PHS e o PODE, apesar de terem poucos parlamentares eleitos gastam MUITO por deputado. E o mais surpreendente é que o PMDB ficou lá atrás, mostrando que apesar de ser muito gastador, quando analisamos de maneira proporcional à quantidade de parlamentares, o seu gasto não é tão exorbitante.
Para responder essa pergunta, vamos um usar histograma que irá nos mostrar quais as despesas mais comuns de cada estado e em quantos estados essas despesas aparecem como a mais comum.
expenseNames <- c("CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS."="CONSULTORIAS E PESQUISAS",
"DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR."="DIVULGAÇÃO ATIVIDADE PARLAMENTAR",
"Emissão Bilhete Aéreo"="Passagem Aérea",
"FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR"="Alimentação",
"HOSPEDAGEM ,EXCETO DO PARLAMENTAR NO DISTRITO FEDERAL."="HOSPEDAGEM",
"LOCAÇÃO OU FRETAMENTO DE AERONAVES"="ALUGUEL DE AERONAVES",
"LOCAÇÃO OU FRETAMENTO DE EMBARCAÇÕES"="ALUGUEL DE EMBARCAÇÕES",
"LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES"="ALUGUEL DE VEÍCULOS",
"MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR"="ESCRITÓRIO PARLAMENTAR",
"PARTICIPAÇÃO EM CURSO, PALESTRA OU EVENTO SIMILAR"="CURSOS, PALESTRAS",
"PASSAGENS TERRESTRES, MARÍTIMAS OU FLUVIAIS"="PASSAGENS NÃO AERÉAS",
"SERVIÇO DE SEGURANÇA PRESTADO POR EMPRESA ESPECIALIZADA."="SERVIÇO DE SEGURANÇA",
"SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO"="TÁXI, PEDÁGIO E ESTACIONAMENTO",
"COMBUSTÍVEIS E LUBRIFICANTES."="Combustível")
despesaComuns <- ceap %>%
group_by(tipoDespesa, sgUF) %>%
summarise(frequencia = n()) %>%
arrange(frequencia) %>% group_by(sgUF) %>%
top_n(1, frequencia)
despesaComuns <- despesaComuns[complete.cases(despesaComuns$sgUF), ]
ggplot(despesaComuns, aes(x = tipoDespesa)) +
theme_bw() +
geom_histogram(stat='count', aes(fill = sgUF), binwidth=1500) +
stat_count(geom="text", colour="white", size=3.5, position = position_stack(vjust = 0.5),
aes(label=sgUF, group=sgUF, y=(..count..))) + guides(fill=FALSE) +
scale_x_discrete(labels=expenseNames) +
labs(title="Tipos de despesas mais comuns por estado", x = "", y = "Quantidade de estados") +
scale_y_continuous(breaks=seq(0, 26, 1))
## Warning: Ignoring unknown parameters: binwidth, bins, pad
Como podemos ver, apenas dois tipos de despesas assumem a liderança entre os estados: gastos com combustíveis e com passagens aéreas. Era de se esperar que as passagens aéreas fossem as mais frequentes visto que no lab anterior, concluímos que este tipo de gasto era o mais frequente de uma maneira geral.
Agruparemos os gastos pelos fornecedores e visualizaremos quais destes estão se beneficiando mais da CEAP. Primeiramente vamos tratar os casos onde o valor líquido é negativo, pois não podemos contabilizar isso como um gasto.
gastosFornecedor <- ceap %>% group_by(fornecedor) %>%
filter(valorLíquido > 0) %>%
summarise(gasto = sum(valorLíquido)) %>%
arrange(-gasto) %>% top_n(10)
## Selecting by gasto
ggplot(gastosFornecedor, aes(x=reorder(fornecedor, gasto), y=gasto, fill = -gasto)) +
theme_bw() +
geom_bar(stat = 'identity') +
scale_fill_gradient(guide = FALSE) +
scale_y_continuous(labels=comma, breaks=seq(0, 70000000, by = 15000000)) +
labs(title = "Total recebido por fornecedores", x = "", y = "") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Como era de se esperar, os fornecedores de serviços utilizados na divulgação da atividade parlamentar e companhias aéreas são os que mais lucram com o gasto da CEAP. Entretanto, podemos notar coisas estranhans como civis sendo pagos mais de 1,5 mi, como o DOUGLAS CUNHA DA SILVA, que é advogado.