library(readr)
library(ggplot2)
library(dplyr)
setwd("C:/Users/dimit/Desktop/Projetos/AD2")
dadosCEAP <- read_csv("dadosCEAP.csv")
limiteMensalCEAP <- read_csv("limiteMensalCEAP.csv")
options(scipen = 4)
Visualizando o gráfico a seguir podemos ver facilmente quais partidos fazem mais uso dos CEAP, em relação a frequência de uso e em valor total.
valLiquidoPorPartido <- aggregate(valorLíquido ~ sgPartido, dadosCEAP, sum)
valLiquidoPorPartido$sgPartido <- factor(valLiquidoPorPartido$sgPartido, levels = valLiquidoPorPartido$sgPartido[order(valLiquidoPorPartido$valorLíquido)])
valLiquidoPorPartido$valorLíquido <- as.numeric(valLiquidoPorPartido$valorLíquido)
qntPorPartido <- count(dadosCEAP, sgPartido)
qntPorPartido$sgPartido <- factor(qntPorPartido$sgPartido, levels = qntPorPartido$sgPartido[order(qntPorPartido$n)])
qntPorPartido <- filter(qntPorPartido, sgPartido != "NA")
ggplot(qntPorPartido, aes(y = qntPorPartido$n, x = qntPorPartido$sgPartido, fill = as.factor(sgPartido))) +
geom_bar(stat="identity") +
labs(title = "Frequência de uso da CEAP por despesa", x = "Partido", y = "Frequência", fill = "Partido") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=9), axis.title=element_text(size=14,face="bold"))
ggplot(valLiquidoPorPartido, aes(y = valLiquidoPorPartido$valorLíquido, x = valLiquidoPorPartido$sgPartido, fill = as.factor(sgPartido))) +
geom_bar(stat="identity") +
labs(title = "Valor de uso da CEAP por partido", x = "Partido", y = "Valor(R$)", fill = "Partido") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=9), axis.title=element_text(size=14,face="bold"))
O gráfico a seguir mostra a utilização da CEAP em relação ao tipo de despesa.
valorPorDespesa <- aggregate(valorLíquido ~ tipoDespesa, dadosCEAP, sum)
valorPorDespesa$tipoDespesa <- factor(valorPorDespesa$tipoDespesa, levels = valorPorDespesa$tipoDespesa[order(valorPorDespesa$valorLíquido)])
qntPorDespesa <- count(dadosCEAP, tipoDespesa)
qntPorDespesa$tipoDespesa <- factor(qntPorDespesa$tipoDespesa, levels = qntPorDespesa$tipoDespesa[order(qntPorDespesa$n)])
ggplot(qntPorDespesa, aes(y = qntPorDespesa$n, x = qntPorDespesa$tipoDespesa)) +
geom_bar(stat="identity") +
labs(title = "Frequência de uso da CEAP por despesa", x = "Despesa", y = "Frequência") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"), title=element_text(size=8,face="bold")) +
coord_flip()
ggplot(valorPorDespesa, aes(y = valorPorDespesa$valorLíquido, x = valorPorDespesa$tipoDespesa)) +
geom_bar(stat="identity") +
labs(title = "Valor de uso da CEAP por despesa", x = "Despesa", y = "Valor(R$)") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold")) +
coord_flip()
O gráfico a seguir mostra a utilização da CEAP em relação ao estado pelo qual o deputado se elegeu.
#valorPorEstado <- aggregate(valorLíquido ~ sgUF, dadosCEAP, sum)
#valorPorEstado$sgUF <- factor(valorPorEstado$sgUF, levels = valorPorEstado$sgUF[order(valorPorEstado$valorLíquido)])
#ggplot(valorPorEstado, aes(y = valorPorEstado$valorLíquido, x = valorPorEstado$sgUF)) +
# geom_bar(stat="identity") +
# labs(title = "Valor de uso da CEAP por estado", x = "Estado", y = "Valor(R$)") +
# theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
# theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
qntPorEstado <- count(dadosCEAP, sgUF)
qntPorEstado$sgUF <- factor(qntPorEstado$sgUF, levels = qntPorEstado$sgUF[order(qntPorEstado$n)])
qntPorEstado <- filter(qntPorEstado, sgUF != "NA")
ggplot(qntPorEstado, aes(y = qntPorEstado$n, x = qntPorEstado$sgUF)) +
geom_bar(stat="identity") +
labs(title = "Frequência de uso da CEAP por estado", x = "Estado", y = "Frequência") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
valorPorEstado <- select(dadosCEAP, sgUF, valorLíquido)
valorPorEstado <- valorPorEstado[valorPorEstado$valorLíquido < quantile(valorPorEstado$valorLíquido, 0.95), ]
valorPorEstado <- valorPorEstado[valorPorEstado$valorLíquido > quantile(valorPorEstado$valorLíquido, 0.05), ]
valorPorEstado_media <- with(valorPorEstado, reorder(sgUF, valorLíquido, median, na.rm = TRUE))
ggplot(valorPorEstado, aes(y = valorPorEstado$valorLíquido, x = valorPorEstado_media, fill = as.factor(sgUF))) +
geom_boxplot(na.rm = TRUE) +
labs(title = "Valor de uso da CEAP por estado", x = "Estado", y = "Valor(R$)", fill = "Estado") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
Os gráfico a seguir ajudam a visualizar quanto cada deputado gasta com CEAP, no segundo são mostrados apenas os 15 primeiros e os 15 últimos, dessa forma facilitando a identificação geral e mostrando apenas os extremos dos dados.
valorPorDeputado <- aggregate(valorLíquido ~ nomeParlamentar, dadosCEAP, sum)
valorPorDeputado <- arrange(valorPorDeputado, valorLíquido)
valorPorDeputado$nomeParlamentar <- factor(valorPorDeputado$nomeParlamentar, levels = valorPorDeputado$nomeParlamentar[order(valorPorDeputado$valorLíquido)])
top20_last20 <- bind_rows(head(valorPorDeputado, 15), tail(valorPorDeputado, 15))
top20_last20 <- arrange(top20_last20, valorLíquido)
top20_last20$nomeParlamentar <- factor(top20_last20$nomeParlamentar, levels = top20_last20$nomeParlamentar[order(top20_last20$valorLíquido)])
ggplot(valorPorDeputado, aes(y = valorPorDeputado$valorLíquido, x = valorPorDeputado$nomeParlamentar)) +
geom_bar(stat="identity") +
labs(title = "Valor de uso da CEAP por deputado", x = "Deputado", y = "Valor(R$)") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=3), axis.title=element_text(size=12,face="bold"))
ggplot(top20_last20, aes(y = top20_last20$valorLíquido, x = top20_last20$nomeParlamentar)) +
geom_bar(stat="identity") +
labs(title = "Valor de uso da CEAP por deputado", x = "Deputado", y = "Valor(R$)") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
Como mostrado a correlação foi de 0.24, o que significa que a correlação entre as duas variáveis é fraca, ou seja o fato do gasto ser no exterior não parece estar relacionado com o valor restituído da CEAP.
gastosExterior <- dadosCEAP %>%
filter(tipoDocumento == 2) %>%
mutate(valorGlosa = valorGlosa /100)
gastosExteriorL <- aggregate(valorLíquido ~ nomeParlamentar, gastosExterior, sum)
gastosExteriorG <- aggregate(valorGlosa ~ nomeParlamentar, gastosExterior, sum)
gastosExteriorL_G <- na.omit(inner_join(gastosExteriorL, gastosExteriorG, "nomeParlamentar"))
correlacao <- cor(gastosExterior$valorLíquido, gastosExterior$valorGlosa)
ggplot(gastosExteriorL_G, aes(x=gastosExteriorL_G$valorLíquido, y=gastosExteriorL_G$valorGlosa)) +
geom_point(shape=1) +
geom_smooth(method=lm) +
labs(title = "Correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP", x = "Gastos no exterior(R$)", y = "Valor restituído da CEAP(R$)") +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
sprintf("- Valor da correlação: %s", correlacao)
## [1] "- Valor da correlação: 0.246901859141284"
O gráfico a seguir mostra a utilização da CEAP em gastos no exterior relacionados ao estado pelo qual o deputado se elegeu.
valorPorEstadoExterior <- dadosCEAP %>%
filter(tipoDocumento == 2)
valorPorEstadoExterior <- aggregate(valorLíquido ~ sgUF, valorPorEstadoExterior, sum)
valorPorEstadoExterior$sgUF <- factor(valorPorEstadoExterior$sgUF, levels = valorPorEstadoExterior$sgUF[order(valorPorEstadoExterior$valorLíquido)])
ggplot(valorPorEstadoExterior, aes(y = valorPorEstadoExterior$valorLíquido, x = valorPorEstadoExterior$sgUF, fill = as.factor(sgUF))) +
geom_bar(stat="identity") +
labs(title = "Valor de uso da CEAP em gastos no exterior por estado", x = "Estado", y = "Valor(R$)", fill = "Estado") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=8), axis.title=element_text(size=12,face="bold"))
O gráfico a seguir mostra os 20 deputados ultrapassaram mais frequentemente o limite da CEAP em seu estado.
valorPorData <- select(dadosCEAP, nomeParlamentar, sgUF, dataEmissao, valorLíquido)
valorPorData$dataEmissao <- format(valorPorData$dataEmissao, format="%Y-%m")
valorPorData <- valorPorData %>%
group_by(nomeParlamentar, sgUF, dataEmissao) %>%
summarise(valorLiqMensal = sum(valorLíquido))
valorPorData <- na.omit(valorPorData)
ultrapassaram <- data.frame(nome= character(0))
for (deputadoIdx in 1:nrow(valorPorData)) {
for (limiteIdx in 1:nrow(limiteMensalCEAP)) {
if (valorPorData[deputadoIdx, "sgUF"] == limiteMensalCEAP[limiteIdx, "UF"]){
if (valorPorData[deputadoIdx, "valorLiqMensal"] > limiteMensalCEAP[limiteIdx, "limite_mensal"]){
ultrapassaram <- add_row(ultrapassaram, nome=valorPorData$nomeParlamentar[deputadoIdx])
break
}
}
}
}
ultrapassaram <- count(ultrapassaram, nome)
ultrapassaram <- arrange(ultrapassaram, n)
ultrapassaramTop20 <- bind_rows(tail(ultrapassaram, 20))
ultrapassaramTop20$nome <- factor(ultrapassaramTop20$nome, levels = ultrapassaramTop20$nome[order(ultrapassaramTop20$n)])
ggplot(ultrapassaramTop20, aes(y = ultrapassaramTop20$n, x = ultrapassaramTop20$nome)) +
geom_bar(stat="identity") +
labs(title = "Deputados que ultrapassam o limite de CEAP do seu estado", x = "Nome", y = "Número de vezes") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
theme(axis.text=element_text(size=10), axis.title=element_text(size=12,face="bold")) +
coord_flip()
link para download do dataset(pré processado): https://canvas.instructure.com/courses/1234747/files/56674660/download?verifier=295RQJHGYmDb1TncoNZ8N7QoF6usRvKjz6hyBFIh&wrap=1