library(readr)
library(knitr)
library(tidyverse)
Esta anĂ¡lise serĂ¡ feita utilizando os dados de gastos da Cota Parlamentar dos deputados dos anos de 2015, 2016 e 2017. Abaixo temos 5 perguntas que iremos responder a partir dos nossos dados.
Antes, iremos importar a nossa base de dados.
dadosCEAP <- read_csv(unz("../database/dadosCEAP.csv.zip", "dadosCEAP.csv")) %>%
mutate(diaMesAno = as.Date(stringr::str_sub(dataEmissao, 1, 10)))
dadosCEAP$valorGlosa <- as.numeric(sub(",", ".", dadosCEAP$valorGlosa, fixed = TRUE))
limiteMensalCEAP <- read_csv("../database/limiteMensalCEAP.csv")
Abaixo temos um grĂ¡fico dos partidos por uso da CEAP.
dadosCEAP %>%
filter(!sgPartido %in% NA) %>%
group_by(sgPartido) %>%
summarise(n = n()) %>%
ggplot(aes(x = reorder(sgPartido, n), y = n)) +
xlab("Partido") +
ylab("UtilizaĂ§Ă£o da CEAP") +
geom_bar(stat = "identity") +
coord_flip()
Analisando o grĂ¡fico acima temos que os maiores gastos advĂ©m do PT, PMDB e PSDB. Temos que considerar tambĂ©m o nĂºmero de deputados que cada partido possui. Esses trĂªs partidos possuem um nĂºmero muito maior de deputados em relaĂ§Ă£o aos demais partidos.
Analisando agora o grĂ¡fico dos gastos dos partidos por uso da CEAP, temos:
dadosCEAP %>%
filter(!sgPartido %in% NA) %>%
group_by(sgPartido) %>%
summarise(valorGastos = sum(valorDocumento)) %>%
ggplot(aes(x = reorder(sgPartido, valorGastos), y = valorGastos)) +
xlab("Partido") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()
O partido que mais gastou com a CEAP foi o PMDB, seguido pelo PT e seguido pelo PSDB e PP com uma diferença muito Ănfima entre os dois.
Podemos analisar a distribuiĂ§Ă£o atravĂ©s de um boxplot dos partidos:
gastos_partido <- dadosCEAP %>%
filter(valorDocumento > 0 & !sgPartido %in% NA) %>%
ggplot(aes(x = sgPartido, y = valorDocumento)) +
xlab("Partido") +
ylab("Valor do documento (em reais)") +
geom_boxplot(outlier.alpha = 0) +
coord_flip()
gastos_partido
Os dados estĂ£o muito concentrados em valores prĂ³ximos Ă 0, por isso nĂ£o Ă© possĂvel determinar com precisĂ£o a distribuiĂ§Ă£o. Por essa razĂ£o, vamos determinar uma faixa de valores para melhorar a nossa visualizaĂ§Ă£o:
gastos_partido +
scale_y_continuous(limits = c(0, 500))
## Warning: Removed 245789 rows containing non-finite values (stat_boxplot).
Podemos perceber que os valores tendem a estar entre 0 e 200 reais, com algumas exceções de distribuições com maior variaĂ§Ă£o, tais como ocorre no PRP. A mediana dos valores Ă© aproximadamente 100 reais.
Analisando agora o grĂ¡fico dos tipos de despesa da CEAP por utilizaĂ§Ă£o, temos:
dadosCEAP %>%
group_by(tipoDespesa) %>%
summarise(n = n()) %>%
ggplot(aes(x = reorder(tipoDespesa, n), y = n)) +
xlab("Tipo de despesa") +
ylab("UtilizaĂ§Ă£o da CEAP") +
geom_bar(stat = "identity") +
coord_flip()
A emissĂ£o de bilhete aĂ©reo Ă© o grande responsĂ¡vel pelos gastos dos deputados, seguidos de combustĂveis e lubrificante. Essa medida se dĂ¡ em valor absoluto das solicitações de uso da CEAP.
Analisando agora o grĂ¡fico dos tipos de despesa da CEAP pelo valor dos gastos, temos:
dadosCEAP %>%
group_by(tipoDespesa) %>%
summarise(valorGastos = sum(valorDocumento)) %>%
ggplot(aes(x = reorder(tipoDespesa, valorGastos), y = valorGastos)) +
xlab("Tipo de despesa") +
ylab("Gastos totais (em reais)") +
geom_bar(stat = "identity") +
coord_flip()
A divulgaĂ§Ă£o da atividade parlamentar Ă© a maior responsĂ¡vel pelos gastos na CEAP, seguida pela emissĂ£o de bilhete aĂ©reo.
Se dermos uma olhada na distribuiĂ§Ă£o dos gastos atravĂ©s de um boxplot, temos:
tipos_gastos <- dadosCEAP %>%
ggplot(aes(x = tipoDespesa, y = valorDocumento)) +
xlab("Tipo de despesa") +
ylab("Valor do documento (em reais)") +
geom_boxplot(outlier.alpha = 0) +
coord_flip()
tipos_gastos
Mais uma vez os valores estĂ£o muito concentrados em 0, de forma que precisamos delimitar o intervalo de exibiĂ§Ă£o.
tipos_gastos + scale_y_continuous(limits = c(0, 1000))
## Warning: Removed 172403 rows containing non-finite values (stat_boxplot).
ParticipaĂ§Ă£o em curso, palestra ou evento similar apresenta uma grande variaĂ§Ă£o nos preços. Ou seja, os deputados participam de palestras que vĂ£o de 100 atĂ© 750 reais, geralmente.
Analisando agora o GrĂ¡fico de utilizaĂ§Ă£o por estado da CEAP, temos:
dadosCEAP %>%
filter(!sgUF %in% NA) %>%
group_by(sgUF) %>%
summarise(n = n()) %>%
ggplot(aes(x = reorder(sgUF, n),y = n)) +
xlab("Estado") +
ylab("UtilizaĂ§Ă£o da CEAP") +
geom_bar(stat = "identity") +
coord_flip()
Pelo grĂ¡fico podemos perceber que SP possui o maior nĂºmero de requisições da CEAP em valores absolutos dos dados analisados. Em segundo lugar, Minas Gerais. Os estados que fazem menos uso sĂ£o AmapĂ¡, Amazonas e Roraima. O Distrito Federal aparece em Ăºltimo, mas nĂ£o Ă© considerado estado.
Analisando agora o GrĂ¡fico dos gastos por estado da CEAP, temos:
dadosCEAP %>%
filter(!sgUF %in% NA) %>%
group_by(sgUF) %>%
summarise(valorGastos = sum(valorLĂquido)) %>%
ggplot(aes(x = reorder(sgUF, valorGastos), y = valorGastos)) +
xlab("Estado") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()
SĂ£o Paulo continua na liderança dos gastos seguido de Minas Gerais e Rio de Janeiro.
Acredito que a quantidade de deputados de SP influencia nos gastos, pois o nĂºmero de deputados por estado Ă© equivalente Ă sua populaĂ§Ă£o. Dado isso, SP tem 70 deputados e por isso Ă© o que possui mais gastos.
Separando os dados, temos:
dados <- dadosCEAP %>%
group_by(nomeParlamentar) %>%
summarise(valorGastos = sum(valorLĂquido))
Plotando os deputados que mais gastaram, temos:
# Os que mais gastaram
dados[order(-dados$valorGastos),] %>%
head(10) %>%
ggplot(aes(x = reorder(nomeParlamentar, valorGastos), y = valorGastos)) +
xlab("Deputado") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()
Os que menos gastaram, temos:
# Os que menos gastaram
dados[order(dados$valorGastos),] %>%
filter(valorGastos > 0) %>%
head(10) %>%
ggplot(aes(x = reorder(nomeParlamentar, -valorGastos), y = valorGastos)) +
xlab("Deputado") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()
Lembrando que essa anĂ¡lise foi feita considerando os valores absolutos, entĂ£o podem existir deputados que ficaram pouco tempo na cĂ¢mara enquanto outros estĂ£o lĂ¡ atĂ© hoje e continuam se utilizando da CEAP.
O valor restituĂdo da CEAP Ă© o valor lĂquido, que Ă© repassado para o deputado apĂ³s a comprovaĂ§Ă£o da nota fiscal e do valor do documento ser conferido. Dessa forma, o valor Ă© devolvido ao deputado e o gasto Ă© contabilizado em sua cota parlamentar. Agora, verificaremos se hĂ¡ correlaĂ§Ă£o entre o nĂºmero de solicitações de uso da CEAP e o valor lĂquido.
gastos_deputados_exterior <- dadosCEAP %>%
filter(tipoDocumento==2) %>%
group_by(nomeParlamentar) %>%
summarise(numeroGastos = n())
gastos_deputados <- dadosCEAP %>%
group_by(nomeParlamentar) %>%
summarise(somaGastos = sum(valorLĂquido))
gastos_deputados_exterior %>%
left_join(gastos_deputados, by="nomeParlamentar") %>%
select(somaGastos, numeroGastos) %>%
cor() %>%
kable()
| somaGastos | numeroGastos | |
|---|---|---|
| somaGastos | 1.0000000 | -0.0037931 |
| numeroGastos | -0.0037931 | 1.0000000 |
De acordo com o cĂ¡lculo acima, nĂ£o existe qualquer correlaĂ§Ă£o entre as duas variĂ¡veis.
AtravĂ©s de vĂ¡rios grĂ¡ficos podemos responder essa pergunta.
# Quantidade
estados_custos_exterior <- dadosCEAP %>%
group_by(tipoDocumento, sgUF) %>%
filter(tipoDocumento==2) %>%
summarise(n = n())
# Reais
estados_custos_reais_exterior <- dadosCEAP %>%
filter(tipoDocumento==2) %>%
group_by(sgUF) %>%
summarise(gastos=sum(valorDocumento))
Quem mais solicitou a CEAP no exterior:
# Quantidade (mais)
estados_custos_exterior[order(-estados_custos_exterior$n),] %>%
head(10) %>%
ggplot(aes(x = reorder(sgUF, n), y = n)) +
xlab("Estado") +
ylab("UtilizaĂ§Ă£o da CEAP") +
geom_bar(stat="identity") +
coord_flip()
Quem menos solicitou a CEAP no exterior:
# Quantidade (menos)
estados_custos_exterior[order(estados_custos_exterior$n),] %>%
head(10) %>%
ggplot(aes(x = reorder(sgUF, -n), y = n)) +
xlab("Estado") +
ylab("UtilizaĂ§Ă£o da CEAP") +
geom_bar(stat="identity") +
coord_flip()
Quem gastou mais com CEAP:
# Reais (mais)
estados_custos_reais_exterior[order(-estados_custos_reais_exterior$gastos),] %>%
head(10) %>%
ggplot(aes(x = reorder(sgUF, gastos), y = gastos)) +
xlab("Estado") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()
Quem gastou menos com CEAP:
# Reais (menos)
estados_custos_reais_exterior[order(estados_custos_reais_exterior$gastos),] %>%
head(10) %>%
ggplot(aes(x = reorder(sgUF, -gastos), y = gastos)) +
xlab("Estado") +
ylab("Gastos totais (em reais)") +
geom_bar(stat="identity") +
coord_flip()