Laboratório 1: Análise de Dados 2

Análise de Gastos de Deputados

Neste laboratório realizaremos uma análise exploratória sobre as despesas com a atividade parlamentar de deputados federais da atual legislatura (2015-2017), respondendo uma série de perguntas sobre estes dados.

A CEAP (Cota para o Exercício da Atividade Parlamentar) é uma cota única mensal destinada a custear os gastos dos deputados exclusivamente vinculados ao exercício da atividade parlamentar. Exemplos de despesa desse tipo são: passagens aéreas, telefonia, serviços postais, aluguel de veículos, embarcações, aeronaves, manutenção de escritórios de apoio, assinatura de publicações, alimentação, hospedagem, táxi, pedágio, estacionamento e passagens terrestres.

Os dados foram coletados do site de transparência da Câmara, tratados, e podem ser baixados neste link.

Lendo os dados

observations <- read.csv("~/Documentos/AD2/dadosCEAP.csv", stringsAsFactors=FALSE)

observations$valorGlosa <- as.numeric(sub(",", ".", observations$valorGlosa, fixed = TRUE))

Quais partidos que mais fazem uso da CEAP? Quais os que menos fazem?

Primeiro vamos agrupar as observações pela sigla do partido. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da frequência de cada partido nas observações.

partiesFrequency <- observations %>%
  group_by(sgPartido) %>% 
  summarise(count = n()) %>%
  filter(!is.na(sgPartido))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = partiesFrequency, type="bar", x = ~count, y = ~sgPartido, orientation="h") %>%
  layout(title="Frequência de uso da CEAP por Partido", margin=list(l=100),
         xaxis=list(title="Frequência de uso da CEAP"),
         yaxis=list(title="Sigla do Partido", categoryarray=arrange(partiesFrequency, count)$sgPartido))

Partidos que mais fazem uso da CEAP (esquerda). Partidos que menos fazem o uso da CEAP (direita).
Sigla do Partido	Quantidade de Observações	Sigla do Partido	Quantidade de Observações
PT	129.587	PTdoB	50
PMDB	112.875	PMN	61
PSDB	98.241	PRTB	253
PP	89.919	PRP	551

Quais partidos mais gastam com a CEAP? Quais menos gastam?

Primeiro vamos agrupar as observações pela sigla do partido. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da soma dos valores debitados na cota parlamentar.

partiesCost <- observations %>%
  group_by(sgPartido) %>% 
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(sgPartido), !is.na(valorGasto))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = partiesCost, type="bar", x = ~valorGasto, y = ~sgPartido, orientation="h") %>%
  layout(title="Valor gasto da CEAP por Partido", margin=list(l=100),
         xaxis=list(title="Valor gasto em R$"),
         yaxis=list(title="Sigla do Partido", categoryarray=arrange(partiesCost, valorGasto)$sgPartido))

Partidos que mais gastam a CEAP (esquerda). Partidos que menos gastam a CEAP (direita).
Sigla do Partido	Valor gasto em R$	Sigla do Partido	Valor gasto em R$
PMDB	71.502.438,62	PTdoB	15.596,45
PT	67.878.749,33	PMN	84.402,11
PSDB	52.649.824,02	PRTB	167.413,30
PP	52.047.435,13	PRP	7.604.934,50

Quais os tipos de despesas mais comuns na CEAP?

Primeiro vamos agrupar as observações pelo tipo de despesa. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da frequência de cada tipo de despesa.

expenseTypeFrequency <- observations %>% 
  group_by(tipoDespesa) %>% 
  summarise(count = n()) %>%
  filter(!is.na(tipoDespesa))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = expenseTypeFrequency, type="bar", x = ~count, y = ~tipoDespesa, orientation="h") %>%
  layout(title="Frequência do tipo de despesa da CEAP", margin=list(l=270),
         xaxis=list(title="Frequência"),
         yaxis=list(title="Tipo de despesa",
                    categoryarray=arrange(expenseTypeFrequency, count)$tipoDespesa))

Tipos de despesa mais comuns da CEAP.
Tipo de Despesa	Frequência
Bilhete Aéreo	300.185
Combustíveis e Lubrificantes	196.858
Telefonia	89.322
Serviços Postais	79.905

Quais os tipos de despesas mais comuns na CEAP considerando valores em R$?

Primeiro vamos agrupar as observações pelo tipo de despesa. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo soma dos valores de gasto da CEAP para cada tipo de despesa.

expenseTypeCost <- observations %>% 
  group_by(tipoDespesa) %>% 
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(tipoDespesa), !is.na(valorGasto))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = expenseTypeCost, type="bar", x = ~valorGasto, y = ~tipoDespesa, orientation="h") %>%
  layout(title="Gastos por tipo de despesa CEAP", margin=list(l=250),
         xaxis=list(title="Valor gasto em R$"),
         yaxis=list(title="Tipo de despesa",
                    categoryarray=arrange(expenseTypeCost, valorGasto)$tipoDespesa))

Tipos de despesa que mais gastam a CEAP.
Tipo de Despesa	Valor Gasto em R$
Divulgação Atividade Parlamentar	136.771.779,60
Bilhete Aéreo	131.029.914,20
Aluguel de Veículos	69.972.777,40
Escritório Parlamentar	63.332.056,50

Quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso?

Primeiro vamos agrupar as observações pelo estado do deputado que submeteu o documento. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da quantidade de ocorrência de cada estado nas observações.

freqByState <- observations %>% 
  group_by(sgUF) %>%
  summarise(count = n()) %>%
  filter(!is.na(sgUF))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = freqByState, type="bar", x = ~count, y = ~sgUF, orientation="h") %>%
  layout(title="Frequência de uso da CEAP por Estado",
         xaxis=list(title="Frequência"),
         yaxis=list(title="Sigla do estado",
                    categoryarray=arrange(freqByState, count)$sgUF))

Estados que mais usam a CEAP (esquerda). Estados que menos usam a CEAP (direita).
Estado	Frequência de uso	Estado	Frequência de uso
São Paulo	154.289	Distrito Federal	6179
Minas Gerais	120.389	Amapá	8561
Rio de Janeiro	85.180	Amazonas	9138
Rio Grande do Sul	81.343	Roraima	9452

Quais os estados que mais fazem gastam a CEAP em R$? Quais os que menos gastam? Por que você acha isso?

Primeiro vamos agrupar as observações pelo estado do deputado que submeteu o documento. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da soma dos valores debitados na CEAP por estado.

costByState <- observations %>% 
  group_by(sgUF) %>%
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(sgUF), !is.na(valorGasto))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = costByState, type="bar", x = ~valorGasto, y = ~sgUF, orientation="h") %>%
  layout(title="Despesa CEAP por Estado",
         xaxis=list(title="Valor gasto em R$"),
         yaxis=list(title="Sigla do estado",
                    categoryarray=arrange(costByState, valorGasto)$sgUF))

Estados que mais gastam a CEAP (esquerda). Estados que menos gastam a CEAP (direita).
Estado	Valor gasto em R$	Estado	Valor gasto em R$
São Paulo	72.033.580,00	Distrito Federal	6.890.112,00
Minas Gerais	57.908.980,00	Mato Grosso	9.151.821,00
Rio de Janeiro	46.614.650,00	Amazonas	9.156.178,00
Bahia	44.717.880,00	Sergipe	9.425.833,00

Pelo fato dos estados mais populosos possuirem mais deputados, então, é razoável afirmar que os estados com maior população utilizam mais a CEAP tanto em valor como em frequência.

Os 4 estados mais populosos do Brasil são: São Paulo, Minas Gerais, Rio de Janeiro e Bahia. Como tomamos como verdadeira a afirmação de que os estados com maior população são os que mais gastam, então, a afirmação contra-positiva também deve ser verdadeira, os estados que menos gastam a CEAP, em valor e frequência, possuem uma população pequena.

Os 4 estados com menor população no Brasil são: Roraima, Amapá, Acre e Tocantins, mas não constam na lista de estados que menos gastam a CEAP. Isto se dá pelo fato de que os estados que possuem uma população pequena tem um número igual de deputados, 8, logo a diferença entre os gastos desses estados é influenciada por outras variáveis.

Apesar de não conhecermos, ainda, essas variáveis influenciadores, intuitivamente podemos afirmar que uma influência importante é a distância do Distrito Federal até o estado do Deputado.

No gráfico é possível observar que a diferença dos valores entre os estados com menor população e os estados que menos gastam é pequena, em média aproximada R$ 1.500.000,00, excluindo o Distrito Federal, pelo fato de ser um caso particular.

Assim, nossa desconfiança de que os estados com maior população utilizam mais a CEAP e os estados com menor população utilizam menos a CEAP parece ser razoavelmente correta.

Porque o Distrito Federal é o estado que menos usa e menos gasta a CEAP?

Os deputados não precisam de passagens aéreas para realizar o deslocamento da Câmara dos Deputados para casa e nem vice-versa.
Não há custo com hospedagem, pois, os deputados já moram no Distrito Federal.

Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

Primeiro vamos agrupar as observações pelo nome do parlamentar que submeteu o documento. Após o agrupamento, vamos realizar um resumo nas observações para o cálculo da soma dos valores debitados na CEAP por parlamentar

costByParliamentary <- observations %>% 
  group_by(nomeParlamentar) %>%
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(nomeParlamentar), !is.na(valorGasto))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = costByParliamentary, type="bar", x = ~valorGasto, y = ~nomeParlamentar, orientation="h") %>%
  layout(title="Despesa CEAP por Parlamentar", margin=list(l=270),
         xaxis=list(title="Valor gasto em R$"),
         yaxis=list(title="Nome do Parlamentar",
                    categoryarray=arrange(costByParliamentary, valorGasto)$nomeParlamentar))

Pelo fato de existirem muitas observações de parlamentares, prejudicando a visualização, vamos pegar os 10 parlamentares que mais gastam e os 10 parlamentares que menos gastam.

size <- length(costByParliamentary$nomeParlamentar)

mostExpensiveParliamentary <- arrange(costByParliamentary, -valorGasto)[c(1:10), ]

lessExpensiveParliamentary <- arrange(costByParliamentary, valorGasto)[c(1:10), ]

p1 <- plot_ly(data = mostExpensiveParliamentary, type="bar", x = ~valorGasto, y = ~nomeParlamentar, orientation="h", name="mais gastam") %>%
  layout(yaxis=list(title="Nome do Parlamentar", categoryarray=arrange(mostExpensiveParliamentary, valorGasto)$nomeParlamentar))

p2 <- plot_ly(data = lessExpensiveParliamentary, type="bar", x = ~valorGasto, y = ~nomeParlamentar, orientation="h", name="menos gastam") %>%
  layout(xaxis=list(title="Valor gasto"), 
         yaxis=list(title="Nome do Parlamentar", categoryarray=arrange(lessExpensiveParliamentary, valorGasto)$nomeParlamentar))

subplot(p1, p2, nrows=2, shareY=TRUE) %>%
  layout(title="Despesa CEAP por Parlamentar",
         margin=list(l=200),
         legend=list(x=0.05, y=0.3))

Parlamentares que mais gastam a CEAP (esquerda). Parlamentares que menos gastam a CEAP (direita).
Parlamentar	Valor gasto em R$	Parlamentar	Valor gasto em R$
Edio Lopes	1.485.079,00	João Caldas Andrade	-1.791,51
Hiran Gonçalves	1.430.398,00	Eliseu Padilha	-1.487,52
Jhonatas de Jesus	1.428.402,00	Rui Costa	-376,99
Vinicius Gurgel	1.423.538,00	Antônio Andrade	-167,37

Quais os estados que mais gastam no exterior e quais os que menos gastam?

Primeiro vamos selecionar as observações onde o tipo de documento é o tipo 2 (indicando gasto no exterior). Após a seleção é realizado o agrupamento por estado e o resumo que calcula o somatório do valor gasto por estado.

costStateExterior <- observations[which(observations$tipoDocumento == 2), ] %>%
  group_by(sgUF) %>%
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(sgUF), !is.na(valorGasto))

Agora vamos construir o gráfico com o resultado do agrupamento e resumo.

plot_ly(data = costStateExterior, type="bar", x = ~valorGasto, y = ~sgUF, orientation="h") %>%
  layout(title="Despesa CEAP no exterior por Estado",
         xaxis=list(title="Valor gasto em R$"),
         yaxis=list(title="Sigla do estado",
                    categoryarray=arrange(costStateExterior, valorGasto)$sgUF))

Estados que mais gastam a CEAP no exterior (esquerda). Estados que menos gastam a CEAP no exterior (direita).
Estado	Valor gasto em R$	Estado	Valor gasto em R$
São Paulo	102.333,30	Maranhão	40,99
Minas Gerais	79.767,77	Paraíba	2.288,29
Pernambuco	70.915,94	Pará	5.628,88
Roraima	59.702,72	Sergipe	6.839,79

Quais os deputados que mais ultrapassam o limite de CEAP do seu estado?

Primeiro vamos ler os dados e realizar um adequamento da data de emissão para posterior processamento.

monthStateLimit <- read.csv("~/Documentos/AD2/limiteMensalCEAP.csv", stringsAsFactors=FALSE)

cpObservations <- observations
cpObservations['dataEmissao'] <- format(as.Date(cpObservations$dataEmissao), "%b %Y")

Após a leitura vamos agrupar as observações pelo nome do parlamentar, data de emissão e estado, resumindo o valor líquido de cada documento como o total gasto por cada parlamentar em cada mês observado. Depois dessa primeira etapa de agrupamento é criada uma nova coluna onde indica se o deputado ultrapassou o limite para aquele mês observado, com isso podemos resumir novamente o dataframe agrupando com o nome do parlamentar e a quantidade de vezes que ele ultrapassou o limite imposto para a CEAP no mês.

politicalFreqMonthExceed <- cpObservations %>% 
  group_by(nomeParlamentar, dataEmissao, sgUF) %>%
  summarise(valorGasto = sum(valorLíquido)) %>%
  filter(!is.na(nomeParlamentar), !is.na(dataEmissao), !is.na(valorGasto)) %>% 
  mutate(exceed = as.numeric(valorGasto > monthStateLimit['limite_mensal'][which(monthStateLimit$UF==sgUF), ][1])) %>%
  group_by(nomeParlamentar) %>%
  summarise(freqHighCost = sum(exceed)) %>%
  filter(!is.na(nomeParlamentar), !is.na(freqHighCost))

Agora vamos construir o gráfico.

plot_ly(data = politicalFreqMonthExceed, type="bar", x = ~freqHighCost, y = ~nomeParlamentar, orientation="h") %>%
  layout(title="Frequência de gasto mensal da CEAP maior que o limite imposto", 
         margin=list(l=200),
         xaxis=list(title="Frequência"),
         yaxis=list(title="Nome do Parlamentar",
                    categoryarray=arrange(politicalFreqMonthExceed, freqHighCost)$nomeParlamentar))

Novamente temos o problema do resumo possuir muitas observações, então, vamos selecionar os 15 deputados que mais ultrapassaram o limite de gasto imposto.

top10 <- arrange(politicalFreqMonthExceed, -freqHighCost)[c(1:15), ]

plot_ly(data=top10, type="bar", x = ~freqHighCost, y = ~nomeParlamentar, orientation="h") %>%
  layout(title="Frequência de gasto mensal da CEAP maior que o limite imposto", 
         margin=list(l=200),
         xaxis=list(title="Frequência"),
         yaxis=list(title="Nome do Parlamentar",
                    categoryarray=arrange(top10, freqHighCost)$nomeParlamentar))

Deputados que mais ultrapassam os limites da CEAP definido por seu estado.
Nome do Parlamentar	Frequência
Eduardo Barbosa	21
Rômulo Gouveia	20
Vanderlei Macris	19
Ságuas Moraes	19

Laboratório 1: Análise de Dados 2

Paulo Felipe Feitosa da Silva

25 de outubro de 2017

Análise de Gastos de Deputados

Lendo os dados

Quais partidos que mais fazem uso da CEAP? Quais os que menos fazem?

Quais partidos mais gastam com a CEAP? Quais menos gastam?

Quais os tipos de despesas mais comuns na CEAP?

Quais os tipos de despesas mais comuns na CEAP considerando valores em R$?

Quais os estados que mais fazem uso da CEAP? Quais os que menos fazem uso?

Quais os estados que mais fazem gastam a CEAP em R$? Quais os que menos gastam? Por que você acha isso?

Quais os parlamentares que mais gastam com CEAP e quais os que menos gastam?

Quais os estados que mais gastam no exterior e quais os que menos gastam?

Quais os deputados que mais ultrapassam o limite de CEAP do seu estado?