7 Days of Code - Dia 1

Author

pabsantos

Carregando Pacotes

library(tidyverse)

Carregando Dados do CEAPS

Download dos dados de 2008 à 2021. A primeira linha possui metadados, então foi removida. Por padrão, os dados são lidos em UTF-8, o que causa um erro em strings com acento.

urls <- c(
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2021.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2020.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2019.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2018.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2017.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2016.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2015.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2014.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2013.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2012.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2011.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2010.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2009.csv",
  "https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2008.csv"
)

if (file.exists("data/despesa_ceaps.rds")) {
  ceaps <- readRDS("data/despesa_ceaps.rds")
} else {
  cols <- cols(
    ANO = col_number(),
    MES = col_number(),
    SENADOR = col_character(),
    TIPO_DESPESA = col_character(),
    CNPJ_CPF = col_character(),
    FORNECEDOR = col_character(),
    DOCUMENTO = col_character(),
    DATA = col_character(),
    DETALHAMENTO = col_character(),
    VALOR_REEMBOLSADO = col_number(),
    COD_DOCUMENTO = col_number()
  )
  ceaps <- map(urls, ~read_csv2(.x, skip = 1, col_types = cols))
  ceaps <- reduce(ceaps, bind_rows)
  #saveRDS(ceaps, "data/despesa_ceaps.rds")
}

Variáveis

skimr::skim(ceaps)
Data summary
Name ceaps
Number of rows 104047
Number of columns 11
_______________________
Column type frequency:
character 7
numeric 4
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
SENADOR 0 1.00 8 29 0 160 0
TIPO_DESPESA 0 1.00 Inf -Inf 0 7 0
CNPJ_CPF 0 1.00 14 18 0 10301 0
FORNECEDOR 0 1.00 2 117 0 12239 0
DOCUMENTO 4364 0.96 1 50 0 82363 0
DATA 0 1.00 10 10 0 1937 0
DETALHAMENTO 34786 0.67 1 613 0 38306 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
ANO 0 1 2018.70 1.40 2017.0 2017.00 2019.00 2020.00 2021 ▇▇▆▅▅
MES 0 1 6.56 3.35 1.0 4.00 7.00 9.00 12 ▇▆▆▆▇
VALOR_REEMBOLSADO 0 1 1181.69 2880.67 -243.4 135.01 349.68 1254.47 270000 ▇▁▁▁▁
COD_DOCUMENTO 0 1 2115134.76 33794.98 2056214.0 2085710.50 2114458.00 2144667.50 2177425 ▇▇▇▇▇

Variáveis com valores vazios: DOCUMENTO, DETALHAMENTO, CNPJ_CPF, FORNECEDOR, DATA.

Verificando os valores únicos de TIPO_DESPESA:

unique(ceaps$TIPO_DESPESA)
[1] "Aluguel de im\xf3veis para escrit\xf3rio pol\xedtico, compreendendo despesas concernentes a eles."                                                                                                                                          
[2] "Divulga\xe7\xe3o da atividade parlamentar"                                                                                                                                                                                                  
[3] "Passagens a\xe9reas, aqu\xe1ticas e terrestres nacionais"                                                                                                                                                                                   
[4] "Locomo\xe7\xe3o, hospedagem, alimenta\xe7\xe3o, combust\xedveis e lubrificantes"                                                                                                                                                            
[5] "Contrata\xe7\xe3o de consultorias, assessorias, pesquisas, trabalhos t\xe9cnicos e outros servi\xe7os de apoio ao exerc\xedcio do mandato parlamentar"                                                                                      
[6] "Aquisi\xe7\xe3o de material de consumo para uso no escrit\xf3rio pol\xedtico, inclusive aquisi\xe7\xe3o ou loca\xe7\xe3o de software, despesas postais, aquisi\xe7\xe3o de publica\xe7\xf5es, loca\xe7\xe3o de m\xf3veis e de equipamentos."
[7] "Servi\xe7os de Seguran\xe7a Privada"                                                                                                                                                                                                        

Modificando Valores

Modificação de valores para facilitar a análise:

  • Limpar o nome das variaveis;
  • Modificar enconding das strings para “latin1”;
  • Modificar os tipos em TIPO_DESPESA;

  • Modificar a variável DATA para o formato dd/mm/yyyy.

ceaps <- ceaps %>% 
  janitor::clean_names() %>% 
  mutate(across(where(is.character), ~str_conv(.x, "latin1"))) %>% 
  mutate(tipo_despesa = case_when(
    str_starts(tipo_despesa, "Aluguel") ~ "Aluguel de Imóveis",
    str_starts(tipo_despesa, "Passagens") ~ 
      "Passagens de transporte",
    str_starts(tipo_despesa, "Contratação") ~ "Contratações",
    str_starts(tipo_despesa, "Aquisição") ~ 
      "Materiais e equipamentos",
    TRUE ~ tipo_despesa
    ),
    data = lubridate::dmy(data)
  )

knitr::kable(head(ceaps))
ano mes senador tipo_despesa cnpj_cpf fornecedor documento data detalhamento valor_reembolsado cod_documento
2021 1 ACIR GURGACZ Aluguel de Imóveis 05.914.650/0001-66 ENERGISA 023.489.627 2021-01-21 Pagamento de energia elétrica para uso do escritório de apoio do Senador Acir Gurgacz 75.29 2158003
2021 1 ACIR GURGACZ Aluguel de Imóveis 062.135.728-64 FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA SILVINO 01/2021 2021-01-05 Despesa com pagamento de aluguel de imóvel para uso do Escritório de apoio do Senador Acir Gurgacz, em Porto Velho/RO. 1000.00 2157367
2021 1 ACIR GURGACZ Aluguel de Imóveis 004.948.028-63 GILBERTO PISELO DO NASCIMENTO 001/21 2021-01-06 Despesa com aluguel de imóvel para uso do escritório de apoio do Senador Acir Gurgacz 6000.00 2156383
2021 1 ACIR GURGACZ Divulgação da atividade parlamentar 26.320.603/0001-64 INFORMANAHORA 10 2021-01-25 Divulgação da atividade parlamentar 1500.00 2154509
2021 1 ACIR GURGACZ Divulgação da atividade parlamentar 13.659.201/0001-47 LINHA PURPURA FOTO E VIDEO LTDA 44 2021-01-07 Divulgação da atividade parlamentar 6000.00 2154507
2021 1 ACIR GURGACZ Passagens de transporte 17.872.428/0001-27 AMERICA VIAGENS E TURISMO LTDA - ME VVEWKR 2021-01-21 Companhia Aérea: LATAM, Localizador: VVEWKR. Passageiros: ACIR MARCOS GURGACZ (Matrícula 225736, PARLAMENTAR), Voo: 3033 - CWBBSB - 25/01/2021; 1486.46 2154508

Salvando a nova versão

#saveRDS(ceaps, "data/despesa_ceaps_corrigido.rds")