Trabalho da Fase 2 - Victor Hugo Guedes e Lorran Moura Prof. Adriano Projeto de Análise de Dados Programador: Victor Hugo Guedes Instituição: Centro Universitário Celso Lisboa
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(readxl)
library(readr)
eval = FALSE
Importamos a Planilha do site GOV sobre: Cartão de Pagamento do Governo Federal (CPGF) Link: https://portaldatransparencia.gov.br/download-de-dados/cpgf
cartão_pagamento <- read_xlsx("Cartão de Pagamento do Governo.xlsx")
Estaremos selecionando as colunas que usaremos para analizar os dados. Contexto: Selecionar as colunas que serão utilizadas nos graficos, utilizar o distinct para que os dados não se repitam.
Nome do Orgão pagador
cartão_pagamento %>%
select(`NOME ÓRGÃO SUPERIOR`)%>%
distinct()
## # A tibble: 28 × 1
## `NOME ÓRGÃO SUPERIOR`
## <chr>
## 1 Advocacia-Geral da União
## 2 Banco Central do Brasil - Orçamento Fiscal e
## 3 Controladoria-Geral da União
## 4 Ministério da Agricultura e Pecuária
## 5 Ministério da Ciência, Tecnologia e Inovaç
## 6 Ministério da Cultura
## 7 Ministério da Defesa
## 8 Ministério da Educação
## 9 Ministério da Fazenda
## 10 Ministério da Gestão e da Inovação em Ser
## # ℹ 18 more rows
Nome do portador de realizar o pagamento
cartão_pagamento %>%
select(`NOME PORTADOR`)%>%
distinct()
## # A tibble: 1,610 × 1
## `NOME PORTADOR`
## <chr>
## 1 VIVIANE CORREA LIMA
## 2 CARLOS EPAMINONDAS GOMES DA SILVA
## 3 ANTONIO CARLOS MELO DOS SANTOS
## 4 CLAUDELI CONCEICAO DOS SANTOS
## 5 JONAS SCHOTTZ DA SILVA
## 6 CARLOS ALBERTO FANTE
## 7 CAMILA BATISTA DOS SANTOS
## 8 LOURDES DE FATIMA TRUZZI DE ALMEIDA
## 9 HELENICE PINTO DE MELLO
## 10 MARCELO FLORENTINO FRAGA
## # ℹ 1,600 more rows
Nome dos favorecidos ao pagamento
cartão_pagamento %>%
select(`NOME FAVORECIDO`)%>%
distinct()
## # A tibble: 3,870 × 1
## `NOME FAVORECIDO`
## <chr>
## 1 ELETRUS COMERCIO DE MATERIAIS DE CONSTRUCAO LTDA
## 2 CROI COMPUTADORES LTDA
## 3 CIBREL COMERCIAL BRASILEIRA DE REFRIGERACAO LIMITADA
## 4 PAGAR.ME INSTITUICAO DE PAGAMENTO S.A
## 5 SOLUCAO ELETRICA LTDA
## 6 LFC FERRAGENS LTDA
## 7 HBL CARIMBOS E PLACAS INDUSTRIA E COMERCIO LTDA
## 8 DISMONZA DISTRIBUIDORA DE TINTAS E ABRASIVOS LTDA
## 9 I V SANTOS TOOLS COMERCIO
## 10 NAO SE APLICA
## # ℹ 3,860 more rows
Data da transação de pagamento
cartão_pagamento %>%
select(`DATA TRANSAÇÃO`)%>%
distinct()
## # A tibble: 34 × 1
## `DATA TRANSAÇÃO`
## <dttm>
## 1 2024-12-12 00:00:00
## 2 2024-11-27 00:00:00
## 3 2024-12-02 00:00:00
## 4 2024-11-26 00:00:00
## 5 2024-12-05 00:00:00
## 6 2024-12-17 00:00:00
## 7 2024-12-16 00:00:00
## 8 2024-12-13 00:00:00
## 9 2024-11-25 00:00:00
## 10 2024-12-18 00:00:00
## # ℹ 24 more rows
Valores de pagamento
cartão_pagamento %>%
select(`VALOR TRANSAÇÃO`)%>%
distinct()
## # A tibble: 4,232 × 1
## `VALOR TRANSAÇÃO`
## <dbl>
## 1 50.3
## 2 575
## 3 184.
## 4 205
## 5 1750
## 6 18
## 7 95
## 8 1760
## 9 27
## 10 120.
## # ℹ 4,222 more rows
Demonstrar os orgãos superiores que possuem maior qauntidade de pagamentos registrados
Tratando os dados
dados_coluna <- cartão_pagamento %>%
group_by(`NOME ÓRGÃO SUPERIOR`)%>%
summarise(total_pagamentos = n())%>%
arrange(desc(total_pagamentos))%>%
slice(1:10)
dados_coluna
## # A tibble: 10 × 2
## `NOME ÓRGÃO SUPERIOR` total_pagamentos
## <chr> <int>
## 1 Ministério do Planejamento e Orçamento 2027
## 2 Ministério da Defesa 1919
## 3 Ministério da Justiça e Segurança Pública 1447
## 4 Ministério da Educação 1382
## 5 Ministério do Desenvolvimento Agrário e Agr 891
## 6 Presidência da República 472
## 7 Ministério da Fazenda 336
## 8 Ministério da Agricultura e Pecuária 295
## 9 Ministério da Saúde 256
## 10 Ministério do Trabalho e Emprego 240
Construção do Gráfico
ggplot(dados_coluna,
aes(x = reorder(`NOME ÓRGÃO SUPERIOR`, total_pagamentos),
y = total_pagamentos)) +
geom_col(fill = "steelblue") +
coord_flip() +
labs(
title = "Orgãos com Mais Pagamentos",
x = "Orgão Superior",
y = "Quantidade de Pagamento"
)
Verificar a quantidade de transaçoes realizadas ao longo do tempo
Tratando os dados
dados_linha <- cartão_pagamento %>%
group_by(`DATA TRANSAÇÃO`) %>%
summarise(total_transacoes = n())
dados_linha
## # A tibble: 34 × 2
## `DATA TRANSAÇÃO` total_transacoes
## <dttm> <int>
## 1 2024-11-23 00:00:00 11
## 2 2024-11-24 00:00:00 12
## 3 2024-11-25 00:00:00 122
## 4 2024-11-26 00:00:00 627
## 5 2024-11-27 00:00:00 570
## 6 2024-11-28 00:00:00 564
## 7 2024-11-29 00:00:00 586
## 8 2024-11-30 00:00:00 117
## 9 2024-12-01 00:00:00 56
## 10 2024-12-02 00:00:00 480
## # ℹ 24 more rows
Construção do Gráfico
ggplot(dados_linha,
aes(x = `DATA TRANSAÇÃO`,
y = total_transacoes,
group = 1)) +
geom_line(color = "blue", linewidth = 1) +
labs(
title = "Quantidade de Transações por Data",
x = "Data da Transação",
y = "Quantidade de Transações"
)
## Warning: Removed 1 row containing missing values (`geom_line()`).
Vizualizar a distribuição dos valores das transações.
Construção do Gráfico
cartão_pagamento$`VALOR TRANSAÇÃO` <- as.numeric(
gsub(",", ".", cartão_pagamento$`VALOR TRANSAÇÃO`)
)
ggplot(cartão_pagamento,
aes(x = `VALOR TRANSAÇÃO`)) +
geom_histogram(
bins = 30,
fill = "darkgreen",
color = "white"
) +
labs(
title = "Distribuição dos Valores das Transações",
x = "Valor da Transação",
y = "Frequência"
)
Identificar pagamentos muito acima ou abaixo do padrão.
Construção do Gráfico
ggplot(cartão_pagamento,
aes(y = `VALOR TRANSAÇÃO`)) +
geom_boxplot(fill = "orange") +
labs(
title = "Boxplot dos Valores das Transações",
y = "Valor da Transação"
)
Durante o desenvolvimento deste trabalho foi possível aplicar conceitos importantes de análise de dados utilizando R.
Foram utilizadas funções de: - importação de dados; - manipulação de tabelas; - agrupamento de informações; - resumo estatístico com summarise(); - visualização gráfica com ggplot2.
Os gráficos permitiram compreender: - quais órgãos realizaram mais pagamentos; - como as transações variam ao longo do tempo; - a distribuição dos valores financeiros; - a existência de possíveis outliers.
Dessa forma, o trabalho demonstrou a importância da análise de dados para interpretação de informações públicas e tomada de decisão baseada em dados.