library(tidyverse)7 Days of Code - Dia 1
Carregando Pacotes
Carregando Dados do CEAPS
Download dos dados de 2008 à 2021. A primeira linha possui metadados, então foi removida. Por padrão, os dados são lidos em UTF-8, o que causa um erro em strings com acento.
urls <- c(
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2021.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2020.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2019.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2018.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2017.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2016.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2015.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2014.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2013.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2012.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2011.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2010.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2009.csv",
"https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_2008.csv"
)
if (file.exists("data/despesa_ceaps.rds")) {
ceaps <- readRDS("data/despesa_ceaps.rds")
} else {
cols <- cols(
ANO = col_number(),
MES = col_number(),
SENADOR = col_character(),
TIPO_DESPESA = col_character(),
CNPJ_CPF = col_character(),
FORNECEDOR = col_character(),
DOCUMENTO = col_character(),
DATA = col_character(),
DETALHAMENTO = col_character(),
VALOR_REEMBOLSADO = col_number(),
COD_DOCUMENTO = col_number()
)
ceaps <- map(urls, ~read_csv2(.x, skip = 1, col_types = cols))
ceaps <- reduce(ceaps, bind_rows)
#saveRDS(ceaps, "data/despesa_ceaps.rds")
}Variáveis
skimr::skim(ceaps)| Name | ceaps |
| Number of rows | 104047 |
| Number of columns | 11 |
| _______________________ | |
| Column type frequency: | |
| character | 7 |
| numeric | 4 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| SENADOR | 0 | 1.00 | 8 | 29 | 0 | 160 | 0 |
| TIPO_DESPESA | 0 | 1.00 | Inf | -Inf | 0 | 7 | 0 |
| CNPJ_CPF | 0 | 1.00 | 14 | 18 | 0 | 10301 | 0 |
| FORNECEDOR | 0 | 1.00 | 2 | 117 | 0 | 12239 | 0 |
| DOCUMENTO | 4364 | 0.96 | 1 | 50 | 0 | 82363 | 0 |
| DATA | 0 | 1.00 | 10 | 10 | 0 | 1937 | 0 |
| DETALHAMENTO | 34786 | 0.67 | 1 | 613 | 0 | 38306 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| ANO | 0 | 1 | 2018.70 | 1.40 | 2017.0 | 2017.00 | 2019.00 | 2020.00 | 2021 | ▇▇▆▅▅ |
| MES | 0 | 1 | 6.56 | 3.35 | 1.0 | 4.00 | 7.00 | 9.00 | 12 | ▇▆▆▆▇ |
| VALOR_REEMBOLSADO | 0 | 1 | 1181.69 | 2880.67 | -243.4 | 135.01 | 349.68 | 1254.47 | 270000 | ▇▁▁▁▁ |
| COD_DOCUMENTO | 0 | 1 | 2115134.76 | 33794.98 | 2056214.0 | 2085710.50 | 2114458.00 | 2144667.50 | 2177425 | ▇▇▇▇▇ |
Variáveis com valores vazios: DOCUMENTO, DETALHAMENTO, CNPJ_CPF, FORNECEDOR, DATA.
Verificando os valores únicos de TIPO_DESPESA:
unique(ceaps$TIPO_DESPESA)[1] "Aluguel de im\xf3veis para escrit\xf3rio pol\xedtico, compreendendo despesas concernentes a eles."
[2] "Divulga\xe7\xe3o da atividade parlamentar"
[3] "Passagens a\xe9reas, aqu\xe1ticas e terrestres nacionais"
[4] "Locomo\xe7\xe3o, hospedagem, alimenta\xe7\xe3o, combust\xedveis e lubrificantes"
[5] "Contrata\xe7\xe3o de consultorias, assessorias, pesquisas, trabalhos t\xe9cnicos e outros servi\xe7os de apoio ao exerc\xedcio do mandato parlamentar"
[6] "Aquisi\xe7\xe3o de material de consumo para uso no escrit\xf3rio pol\xedtico, inclusive aquisi\xe7\xe3o ou loca\xe7\xe3o de software, despesas postais, aquisi\xe7\xe3o de publica\xe7\xf5es, loca\xe7\xe3o de m\xf3veis e de equipamentos."
[7] "Servi\xe7os de Seguran\xe7a Privada"
Modificando Valores
Modificação de valores para facilitar a análise:
- Limpar o nome das variaveis;
- Modificar enconding das strings para “latin1”;
Modificar os tipos em TIPO_DESPESA;
Modificar a variável DATA para o formato dd/mm/yyyy.
ceaps <- ceaps %>%
janitor::clean_names() %>%
mutate(across(where(is.character), ~str_conv(.x, "latin1"))) %>%
mutate(tipo_despesa = case_when(
str_starts(tipo_despesa, "Aluguel") ~ "Aluguel de Imóveis",
str_starts(tipo_despesa, "Passagens") ~
"Passagens de transporte",
str_starts(tipo_despesa, "Contratação") ~ "Contratações",
str_starts(tipo_despesa, "Aquisição") ~
"Materiais e equipamentos",
TRUE ~ tipo_despesa
),
data = lubridate::dmy(data)
)
knitr::kable(head(ceaps))| ano | mes | senador | tipo_despesa | cnpj_cpf | fornecedor | documento | data | detalhamento | valor_reembolsado | cod_documento |
|---|---|---|---|---|---|---|---|---|---|---|
| 2021 | 1 | ACIR GURGACZ | Aluguel de Imóveis | 05.914.650/0001-66 | ENERGISA | 023.489.627 | 2021-01-21 | Pagamento de energia elétrica para uso do escritório de apoio do Senador Acir Gurgacz | 75.29 | 2158003 |
| 2021 | 1 | ACIR GURGACZ | Aluguel de Imóveis | 062.135.728-64 | FERNANDO WALDEIR PACINI e ANA LUCIA DA SILVA SILVINO | 01/2021 | 2021-01-05 | Despesa com pagamento de aluguel de imóvel para uso do Escritório de apoio do Senador Acir Gurgacz, em Porto Velho/RO. | 1000.00 | 2157367 |
| 2021 | 1 | ACIR GURGACZ | Aluguel de Imóveis | 004.948.028-63 | GILBERTO PISELO DO NASCIMENTO | 001/21 | 2021-01-06 | Despesa com aluguel de imóvel para uso do escritório de apoio do Senador Acir Gurgacz | 6000.00 | 2156383 |
| 2021 | 1 | ACIR GURGACZ | Divulgação da atividade parlamentar | 26.320.603/0001-64 | INFORMANAHORA | 10 | 2021-01-25 | Divulgação da atividade parlamentar | 1500.00 | 2154509 |
| 2021 | 1 | ACIR GURGACZ | Divulgação da atividade parlamentar | 13.659.201/0001-47 | LINHA PURPURA FOTO E VIDEO LTDA | 44 | 2021-01-07 | Divulgação da atividade parlamentar | 6000.00 | 2154507 |
| 2021 | 1 | ACIR GURGACZ | Passagens de transporte | 17.872.428/0001-27 | AMERICA VIAGENS E TURISMO LTDA - ME | VVEWKR | 2021-01-21 | Companhia Aérea: LATAM, Localizador: VVEWKR. Passageiros: ACIR MARCOS GURGACZ (Matrícula 225736, PARLAMENTAR), Voo: 3033 - CWBBSB - 25/01/2021; | 1486.46 | 2154508 |
Salvando a nova versão
#saveRDS(ceaps, "data/despesa_ceaps_corrigido.rds")