Lab1-CEAP

library(ggplot2)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(plotly)

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

library(tidyr)

df<- read.csv("dadosCEAP.csv")
colnames(df)[13] <- "val_liquido"
df$valorGlosa <- as.numeric(sub(",", ".", df$valorGlosa, fixed = TRUE))

a <- df %>% group_by(sgPartido) %>% summarise(qntPartido = n(), totalgasto= sum(val_liquido))

1.Quais os partidos que mais fazem uso da CEAP? Quais os partidos que menos fazem uso? Mesmas perguntas conisderando valores em R$.

Para responder essa primeira pergunta,teremos que consultar quantas vezes um dado número de partidos aparece na lista da CEAP, ou seja, a quantidade em que o nome do partido é listado, por qualquer que seja o serviço ou qualquer outro parâmetro presente na lista.

a<-a[!is.na(a$sgPartido),]
a<- a[order(a$qntPartido,decreasing = TRUE),]
a$indexQNT <- factor(a$sgPartido,levels = a$sgPartido)

p <- plot_ly(a, x = ~indexQNT, y = ~qntPartido, type = 'bar', name = 'Partidos por frequencia') %>%
    layout(title = "Partidos por frequencia", xaxis = list(title = "Partido"),yaxis = list(title = "Quantas vezes cada partido aparece"),barmode='stack')
p

Já quando se trata dos partidos que mai usam dinheiro, o gráfico não parece ter muita diferença. Apenas uma leve mudança entre um partido e outro.

a <- a[order(a$totalgasto,decreasing = TRUE),]
a$indexGasto <- factor(a$sgPartido,levels=a$sgPartido)


p <- plot_ly(a, x = ~indexGasto, 
             y = ~totalgasto,
             text = paste0("Partido: ", a$sgPartido,
                           "<br>Valor gasto: R$", a$totalgasto), 
             hoverinfo = 'text',
             name = 'Partidos por gasto') %>%
    layout(title = "Partidos por gasto", 
           xaxis = list(title = "Partido"), 
           yaxis = list(title = "Gasto de cada partido"), 
           barmode = 'stack')
  
p

## No trace type specified:
##   Based on info supplied, a 'bar' trace seems appropriate.
##   Read more about this trace type -> https://plot.ly/r/reference/#bar

O que podemos tirar de conclusão desses dois gráficos é que, certamente, os partidos que mais gastam são também os que mais fazem uso da CEAP

2.Quais os tipos de despesa mais comuns no uso da CEAP? Mesma pergunta considerando valores em R$.

Para responder a segunda questão, vamos mostrar quantas vezes cada tipo de despesa aparece:

b<- df %>% group_by(tipoDespesa)%>%
  summarise(quantasDespesas=n(),totalgastoDespesas = sum(val_liquido))

p <- plot_ly(b,labels=~tipoDespesa,values=~quantasDespesas,type='pie') %>%
    layout(title = 'Maiores despesas do CEAP',
         xaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE),
         yaxis = list(showgrid = FALSE, zeroline = FALSE, showticklabels = FALSE))

p

Podemos ver no gráfico que: As duas maiores depsesas são: Emissão de Billhete Aéreo e Combustíveis e lubrificantes, 31.2% e 20.4% respectivamente

As duas menores despesas são:Participação em curso,palesta ou evento similiare locação ou fretamento de embarcações,0.00675% e 0.00965% respectivamente

Fazendo isso também em função dos gastos para cada tipo de despesa,podemos ver as três despesas que mais gastas e as três que menos gastam, que são:

b2<-b[order(b$totalgastoDespesas,decreasing = TRUE),]

despesas_frame_gastos<- rbind(head(b2,3),tail(b2,3))



despesas_frame_gastos<- despesas_frame_gastos[order(despesas_frame_gastos$totalgastoDespesas,decreasing = TRUE),]
despesas_frame_gastos$indexDespesas <- factor(despesas_frame_gastos$tipoDespesa,levels = despesas_frame_gastos$tipoDespesa)

p <- plot_ly(despesas_frame_gastos, x = ~indexDespesas, y = ~totalgastoDespesas, type = 'bar', name = 'Partidos por gasto') %>%
    layout(title = "Despesas por Gasto", xaxis = list(title = "Despesas"),yaxis = list(title = "Gasto a cada despesa"),barmode='stack')
p

3.Levando em conta o estado pelo qual o deputado se elegeu, quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso? Mesmas perguntas considerando gastos em R$. Por que você acha isso?

Para a terceira questão, vamos agrupar os dados apenas pelos estados, já que os dados que tem os estados já é cada estado em que o parlamentar foi eleito

c<- df %>% group_by(sgUF)%>%
  summarise(totalEstados = n())

Após isso, podemos visualizar as vezes que cada estado apareceu, mostrando exatamente o número de parlamentares que usam o CEAP no seu estado

c<-c[order(c$totalEstados,decreasing = TRUE),]
c$indexUF <- factor(c$sgUF,levels = c$sgUF)


p <- plot_ly(c, x = ~indexUF, y = ~totalEstados, type = 'bar', name = 'Chamadas do CEAP por estado') %>%
    layout(title = "Chamadas do CEAP por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Frequência dos estados"),barmode='stack')
p

## Warning: Ignoring 1 observations

Podemos perceber que SP é o extremo do gráfico, ficando como estado que mais aciona o CEAP. Já o estado do TO, fica em último lugar no gráfico

Podemos observar isso também do ponto de vista financeiro,separando os estados pela sua cota de valor líquido:

cGasto<- df%>%group_by(sgUF)%>%
  summarise(totalEstadoLiquido = sum(val_liquido))

E apresentamos os dados:

cGasto<-cGasto[!is.na(cGasto$sgUF),]
cGasto<-cGasto[order(cGasto$totalEstadoLiquido,decreasing = TRUE),]

cGasto$indexGasto <- factor(cGasto$sgUF,levels =cGasto$sgUF)

p <- plot_ly(cGasto, x = ~indexGasto, y = ~totalEstadoLiquido, type = 'bar', name = 'Gasto por estado') %>%
    layout(title = "Gasto por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Gastos"),barmode='stack')
p

Mas por que São Paulo apresenta uma diferença tão grande? Podemos mostrar em um gráfico que SP é o estado que tem mais parlamentares eleitos, operando o seguinte frame:

dfSP <- df %>% group_by(nomeParlamentar,sgUF) %>%
  summarise()

Logo depois, podemos ver o número de parlamentares por cada estado

dfSP1 <- dfSP %>% group_by(sgUF) %>%
  summarise(contaEstados = n())
 
dfSP1 <- dfSP1[!is.na(dfSP1$sgUF),]
dfSP1<- dfSP1[order(dfSP1$contaEstados,decreasing = TRUE),]
dfSP1$index_contaEstados <- factor(dfSP1$sgUF,levels = dfSP1$sgUF)

p <- plot_ly(dfSP1, x = ~index_contaEstados, y = ~contaEstados, type = 'scatter',mode='lines', name = 'Número de deputados por estado') %>%
    layout(title = "Número de deputados por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Número de deputados"),barmode='stack')
p

4.Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

some

d<- df %>% group_by(nomeParlamentar) %>%
  summarise(valorLiqTotal = sum(val_liquido))

d <- d[order(d$valorLiqTotal,decreasing = TRUE),]

despesas_gastos_total<- rbind(head(d,3),tail(d,3))



despesas_gastos_total <- despesas_gastos_total[order(despesas_gastos_total$valorLiqTotal,decreasing = TRUE),]

despesas_gastos_total$index_gasto_total <- factor(despesas_gastos_total$nomeParlamentar,levels = despesas_gastos_total$nomeParlamentar)

p <- plot_ly(despesas_gastos_total, x = ~index_gasto_total, y = ~valorLiqTotal, type = 'bar', name = 'Gasto por estado') %>%
    layout(title = "Gasto por estado", xaxis = list(title = "Estados"),yaxis = list(title = "Gastos"),barmode='stack')
p

Existe correlação entre a quantidade de gastos no exterior e o valor restituído da CEAP?

Para responder a quinta questão, teremos que usar o conceito de correlação, onde vamos procurar saber se teremos uma correlação forte ou fraca entre os dados que iremos apresentar(onde esses dados serão agrupados pelo parlamentar que usou do valor) que são: Quantidade de gastos no exterior e o valor restituído da CEAP

gastosExt <- df %>% filter(tipoDocumento == 2) %>% group_by(nomeParlamentar) %>%
  summarise(valorGastoExt = n())

gastoLiq <- df %>%  group_by(nomeParlamentar) %>%
  summarise(valorGastoLiq = sum(val_liquido))

gastos_liq_exterior <-(inner_join(gastosExt,gastoLiq,"nomeParlamentar"))

ggplot(gastos_liq_exterior, aes(x=valorGastoExt, y=valorGastoLiq)) +
    geom_point(shape=1) +
    geom_smooth(method=lm)

Já podemos ver pelo gráfico que a correlação de uma com a outra é bem baixa. Para confirmar isso, podemos mostrar pela função que mostra a correlação em números. Vendo que essa correlação é -0.003793119,vemos que ela realmente é bem baixa

correlacao <- cor(gastos_liq_exterior$valorGastoExt, gastos_liq_exterior$valorGastoLiq)
correlacao