Minhas perguntas

Algumas perguntas já foram feitas e respondidas anteriormente. Entretanto, alguns pontos passaram em branco. Primeiramente, conseguimos perceber que grande parte dos gastos dos parlamentares eram com passagens aéreas, mas isso abre espaço para a primeira das perguntas: Qual o período do ano que os parlamentares mais viajam?

Para responder essa pergunta, precisamos inicialmente tratar as datas presentes nos dados, de modo a ignorar o ano e considerar apenas o mês e o dia:

dadosCEAP$dataEmissao <- format(as.Date(dadosCEAP$dataEmissao), format="%d/%m")

Tendo isso feito, o próximo passo é agrupar o valor gasto em cada dia, criando um novo conjunto de dados, que relaciona o dia com o valor gasto nele:

gastosAno <- aggregate(valorLíquido ~ dataEmissao, dadosCEAP, sum)
gastosAno$dataEmissao <- as.Date(gastosAno$dataEmissao, "%d/%m")

Agora, é possível visualizar os gastos feitos em cada dia e tentar inferir um período de maior gasto:

ggplotly(ggplot(gastosAno, aes(x=dataEmissao, y=valorLíquido)) + geom_line()  + labs(x="Data de Emissão", y = "Valor Líquido") + scale_x_date(labels=date_format("%d/%m"), date_breaks = "1 month")  + scale_y_continuous(labels = scales::comma))

A partir do gráfico, podemos observar que no início de cada mês o gasto é bem maior que no restante dele. Além disso, é importante observar que em alguns dos feriados conseguimos ter os menores valores emitidos, como é o exemplo dos dias 21 de Abril, 7 de Setembro, 12 de Outubro, e 24 e 25 de Dezembro. Os ápices de valores emitidos encontram-se nos primeiros dias dos meses, como podemos observar nos dias 1° de Fevereiro, 2 e 3 de Março, 1° de Abril, e assim por diante.

Com isso, é possível inferir que os parlamentares gastam sempre que podem, isto é, sempre que o limite dos seus gastos se renova a cada mês.

Nas perguntas anteriores, pode ter passado batido um fator: quando alguém gasta, outro recebe. No caso dos gastos dos parlamentares, quem recebe é quem prestou o serviço, isto é, o fornecedor. Com isso, poderia ser questionado “para cada tipo de gasto, qual fornecedor mais recebeu?”. Entretanto, muitos dos tipos de gasto não fazem volume no total de gastos da CEAP. Assim é interessante focar ainda mais a pergunta: Sendo a Emissão de Bilhete Aéreo, a Divulgação da Atividade Parlamentar e a Manutenção de Escritório de Apoio à Atividade Parlamentar três das atividades onde os gastos são maiores: quais as empresas que mais lucram com tais atividades?

Para responder essa pergunta, é necessário criar um novo conjunto de dados, agrupando os fornecedores e os diferentes tipos de gasto:

emissao <- subset(dadosCEAP, tipoDespesa == "Emissão Bilhete Aéreo")
divulgacao <- subset(dadosCEAP, tipoDespesa == "DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.")
manutencao <- subset(dadosCEAP, tipoDespesa == "MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE PARLAMENTAR")

A partir de agora, trataremos cada um dos tipos de gasto individualmente. Quanto a Emissão de Bilhete Aéreo, é esperado que os fornecedores sejam empresas de transporte aéreo: Azul, Latam, Tam, Gol, etc. Vejamos o que ocorre na prática:

emissaoFornecedores <- aggregate(valorLíquido ~ fornecedor, emissao, sum)
ggplotly(ggplot(emissaoFornecedores, aes(x=reorder(fornecedor, valorLíquido), y=valorLíquido)) + geom_bar(stat="identity") + labs(x="Fornecedor", y="Valor Líquido") + theme(axis.text.x = element_text(angle = 45, hjust = 1)) + scale_y_continuous(labels = scales::comma))

A TAM e a GOL são as empresas que mais lucram fornecendo esse serviço, chegando a somar um valor próximo de 110 milhões de reais recebidos.

Quanto a Divulgação da Atividade Parlamentar, espera-se que empresas ou grupos de Marketing e Publicidade estejam no topo. Vejamos na prática:

divulgacaoFornecedores <- aggregate(valorLíquido ~ fornecedor, divulgacao, sum)
top10divulgacao <- head(arrange(divulgacaoFornecedores, desc(valorLíquido)), n=10)
ggplotly(ggplot(top10divulgacao, aes(x=reorder(fornecedor, valorLíquido), y=valorLíquido)) + geom_bar(stat="identity") + labs(x="Fornecedor", y="Valor Líquido") + theme(axis.text.x = element_text(angle = 45, hjust = 1, size=7)) + scale_y_continuous(labels = scales::comma))

Diferentemente das Emissões de Bilhete Aéreo, os gastos com divulgação se dividem entre Pessoas Físicas e Pessoas Jurídicas. É importante notar que, mesmo sendo a InCine Video LTDA que mais recebe, do top 10 fornecedores, 4 são pessoas físicas, que juntos recebem R$3.442261910^{6} da CEAP.

Quanto à Manutenção de Escritórios de Apoio, espera-se que haja uma maioria de fornecedores relacionado à imobiliárias e também papelarias. Assim, temos:

manutencaoFornecedores <- aggregate(valorLíquido ~ fornecedor, manutencao, sum)
top10manutencao <- head(arrange(manutencaoFornecedores, desc(valorLíquido)), n=10)
ggplotly(ggplot(top10manutencao, aes(x=reorder(fornecedor, valorLíquido), y=valorLíquido)) + geom_bar(stat="identity") + labs(x="Fornecedor", y="Valor Líquido") + theme(axis.text.x = element_text(angle = 45, hjust = 1, size=7)) + scale_y_continuous(labels = scales::comma))

Nesse quesito, a soma total é bem menor. Entretanto, ainda surpreende que existam Pessoas Físicas entre o top 10 fornecedores, quando eram esperadas mais imobiliárias e papelarias.