Introdução

Esta análise explanatória será feita utilizando dados sobre as despesas de deputados federais da legislatura atual com a atividade parlamentar. Logo abaixo será respondido 2 perguntas tomando como base os dados fornecidos.

Antes de tudo, será importado as nossas bibliotecas que serão utilizadas para a plotagem dos gráficos para responder as perguntas.

knitr::opts_chunk$set(warning = FALSE)
library(plotly)
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.4.4
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(dplyr)
## Warning: package 'dplyr' was built under R version 3.4.4
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Logo após, será importado a nossa base de dados.

dadosCEAP <- read.csv("/Users/mattheusbrito/Downloads/AD2/dadosCEAP.csv")
dadosCEAP$valorGlosa <- as.numeric(sub(",", ".", dadosCEAP$valorGlosa, fixed = TRUE))
dadosLimiteCEAP <- read.csv("/Users/mattheusbrito/Downloads/AD2/limiteMensalCEAP.csv")
dadosCEAP %>% full_join(dadosLimiteCEAP, by=c("sgUF" = "UF")) -> dadosCEAP

Antes de partir para as perguntas, é preciso entender o que cada coluna da nossa base de dados significa:

Perguntas

1 - Quais os meses cujos parlamentares mais usam CEAP? Quais são os que menos usam? Mesmas perguntas considerando valores em R$.

Para responder a pergunta acima, teremos que agrupar os dados por mês e somar as despesas de cada mês segundo a CEAP para assim concluir quais os meses em que houve mais gasto e os que houve menos gasto dinheiro da CEAP

gastoMes <- dadosCEAP %>%
mutate(mes = substr(dataEmissao, 6, 7)) %>%
  group_by(mes) %>%
  filter(valorLíquido >= 0) %>%
  summarise(totalGasto = sum(valorLíquido), vezesGasto = n()) %>%
  na.omit()

Dessa forma, para afirmar qual o mês que mais teve mais gasto em questão de quantidade de gastos deve-se calcular quantas vezes houve gasto em cada mês. Plotando um gráfico de linhas com pontos, sendo x = mês do gasto e y = quantidade total do gasto. Levando em conta que: 01 = Janeiro, 02 = Fevereiro, 03 = Março, 04 = Abril, 05 = Maio, 06 = Junho, 07 = Julho, 08 = Agosto, 09 = Setembro, 10 = Outubro, 11 = Novembro e 12 = Dezembro

gastoMes <- gastoMes[order(gastoMes$vezesGasto, decreasing = TRUE),]
gastoMes$indexGasto <- factor(gastoMes$mes, levels = gastoMes$mes)

gastoMes %>%
  plot_ly(x= ~indexGasto, y= ~vezesGasto,type= "scatter", mode= "lines+markers") %>%
  layout(title="Quantidade de gastos em cada mês", 
         xaxis=list(title="Mês"), 
         yaxis=list(title="Quantidade de vezes que ocorreu gasto"), barmode="stack")

Após observar o gráfico, pode-se afirmar que o mês em que houve mais gasto de dinheiro da CEAP geralmente é Março, teve um total de 98 mil gastos. Já o mês que ocorreu menos gasto foi o de Janeiro, sendo gasto uma quantidade de 50 mil gastos. O que é sucetível, pois em Janeiro geralmente há mudança de parlamentares na Câmara, então há menos gastos devido à essa troca.

Por outro lado, para afirmar qual o mês que mais teve mais gasto em questão de valores de gastos deve-se calcular a soma do gasto em cada mês. Plotando um gráfico de barras, sendo x = mês do gasto e y = valor total do gasto. Levando em conta que: 01 = Janeiro, 02 = Fevereiro, 03 = Março, 04 = Abril, 05 = Maio, 06 = Junho, 07 = Julho, 08 = Agosto, 09 = Setembro, 10 = Outubro, 11 = Novembro e 12 = Dezembro. Tendo cara mês diferenciado pela sua cor.

gastoMes <- gastoMes[order(gastoMes$totalGasto, decreasing = TRUE),]
gastoMes$indexGasto <- factor(gastoMes$mes, levels = gastoMes$mes)

gastoMes %>%
  plot_ly(x=~indexGasto, y =~totalGasto, type="bar", color = ~mes) %>%
  layout(title = "Gastos (em R$) em cada mês",
         xaxis = list(title="Mês"),
         yxaxis = list(title="Valor (em R$) gasto"))

Já utilizando como base os valores dos gastos, vimos que Março continua no topo dos meses que há mais gasto, seguido de maio. O que era de se esperar visto o primeiro gráfico plotado. Já nos meses onde há menos gastos Janeiro continua como mês mais “econômico”, mas vimos que Dezembro deixa de ser o 11º colocado para ser o 7º. Ou seja, por mais que Dezembro tenha poucos gastos, os seus valores são altos.

2 - Quais os fornecedores cujos parlamentares mais usam CEAP? Mesma pergunta considerando valores em R$.

Para responder a pergunta acima, teremos que agrupar os dados por fornecedor e somar as despesas de cada fornecedor segundo a CEAP para assim concluir quais os fornecedores em que houve mais uso pelos parlamentares com dinheiro da CEAP

gastoFornecedores <- dadosCEAP %>%
  group_by(fornecedor) %>%
  filter(valorLíquido >= 0) %>%
  summarise(vezesGasto = n(), totalGasto = sum(valorLíquido)) %>%
  na.omit()

Sendo assim, para responder quais os fornecedores que mais forneceram aos parlamentares, deve-se calcular quantas vezes houve fornecimento por cada fornecedor. Plotando um gráfico de barras, sendo x = fornecedor do gasto e y = quantidade de fornecimentos.

gastoFornecedores <- gastoFornecedores[order(gastoFornecedores$vezesGasto, decreasing = TRUE),]
gastoFornecedores$indexGasto <- factor(gastoFornecedores$fornecedor, levels = gastoFornecedores$fornecedor)


gastoFornecedores %>%
  plot_ly(x=~indexGasto, y =~vezesGasto, type="bar") %>%
  layout(title = "Fornecedores que mais forneceram para os gastos do dinheiro da CEAP",
         xaxis = list(title="Fornecedor", range= c(0,10)),
         yxaxis = list(title="Vezes em que houve gasto", range = c(0,10)))

Após a plotagem do esboço, pode-se afirmar que os primeiros fornecedores em que houve mais gasto de dinheiro da CEAP todos são Companhias Aéreas. O que já era de se esperar visto que os maiores gastos dos parlamentares são com passagens aéreas.

Para finalizar, agora considerando os valores (em R$). Deve-se calcular a soma de cada gasto por fornecedor.

gastoFornecedores <- gastoFornecedores[order(gastoFornecedores$totalGasto, decreasing = TRUE),]
gastoFornecedores$indexGasto <- factor(gastoFornecedores$fornecedor, levels = gastoFornecedores$fornecedor)


gastoFornecedores %>%
  plot_ly(x=~indexGasto, y =~totalGasto, type="bar") %>%
  layout(title = "Fornecedores que mais forneceram gastos da CEAP",
         xaxis = list(title="Fornecedor", range= c(0,10)),
         yxaxis = list(title="Valor gasto (em R$) pelos fornecedores", range = c(0,10)))

Por outro lado, utilizando como base os valores dos gastos, podemos ver que as companhias aéreas continuam no topo da lista de fornecedores onde se concentram os maiores gastos do dinheiro da CEAP. O resultado é o esperado, pois além de ter como base o gráfico anterior, ainda há o fato de que coisas relacionadas à aviões custam caro.