0. Configuração Inicial

0.1. Apresentação

Este script foi desenvolvido como material de apoio para a aula de introdução à análise de dados macroeconômicos com R. Passaremos por todas as etapas do processo, desde a importação e manipulação de dados até a coleta de séries de fontes oficiais brasileiras e a visualização final.

0.2. Instalação de Pacotes

Para executar este script, é necessário ter alguns pacotes instalados. O código abaixo instala os pacotes que vamos utilizar.

library(tidyverse)
library(rbcb)
library(readxl)
library(writexl)

1. Tipos e Estruturas de Dados no R

1.1. Vetores

Vetores são a estrutura de dados mais fundamental do R. Eles armazenam elementos do mesmo tipo.

Vetor numérico

vetor_numerico <- c(10.5, 5, -3, 8.2)
print(vetor_numerico)
## [1] 10.5  5.0 -3.0  8.2
class(vetor_numerico) # Verifica a classe do objeto
## [1] "numeric"

Vetor de caracteres (texto)

vetor_texto <- c("PIB", "IPCA", "Selic")
print(vetor_texto)
## [1] "PIB"   "IPCA"  "Selic"
class(vetor_texto)
## [1] "character"

Vetor lógico (Booleano)

vetor_logico <- c(TRUE, FALSE, TRUE, TRUE)
print(vetor_logico)
## [1]  TRUE FALSE  TRUE  TRUE
class(vetor_logico)
## [1] "logical"

1.2. Data Frames

Data frames são a estrutura mais comum para armazenar dados tabulares no R. São como tabelas, onde as colunas podem ter tipos de dados diferentes.

df_exemplo <- data.frame(
  Ano = c(2022, 2023, 2024),
  PIB_nominal = c(9.9, 10.9, 11.5), # em trilhões de R$ (hipotético)
  Pais = c("Brasil", "Brasil", "Brasil")
)

print(df_exemplo)
##    Ano PIB_nominal   Pais
## 1 2022         9.9 Brasil
## 2 2023        10.9 Brasil
## 3 2024        11.5 Brasil
str(df_exemplo) # Mostra a estrutura do data frame
## 'data.frame':    3 obs. of  3 variables:
##  $ Ano        : num  2022 2023 2024
##  $ PIB_nominal: num  9.9 10.9 11.5
##  $ Pais       : chr  "Brasil" "Brasil" "Brasil"
summary(df_exemplo) # Fornece um resumo estatístico
##       Ano        PIB_nominal        Pais          
##  Min.   :2022   Min.   : 9.90   Length:3          
##  1st Qu.:2022   1st Qu.:10.40   Class :character  
##  Median :2023   Median :10.90   Mode  :character  
##  Mean   :2023   Mean   :10.77                     
##  3rd Qu.:2024   3rd Qu.:11.20                     
##  Max.   :2024   Max.   :11.50

1.3. Tibbles

Tibbles são a versão moderna de data frames, parte do tidyverse. Eles possuem uma impressão (print) mais amigável e algumas regras mais estritas que evitam erros comuns.

tibble_exemplo <- tibble(
  Ano = c(2022, 2023, 2024),
  PIB_nominal = c(9.9, 10.9, 11.5),
  Pais = c("Brasil", "Brasil", "Brasil")
)

print(tibble_exemplo)
## # A tibble: 3 × 3
##     Ano PIB_nominal Pais  
##   <dbl>       <dbl> <chr> 
## 1  2022         9.9 Brasil
## 2  2023        10.9 Brasil
## 3  2024        11.5 Brasil

2. Importação e Exportação de Dados

2.1. Criando dados de exemplo para exportar

Vamos criar um data frame e salvá-lo como CSV e Excel para simular a importação de arquivos externos.

dados_para_exportar <- data.frame(
  Data = seq(as.Date("2023-01-01"), by = "month", length.out = 12),
  Vendas = round(runif(12, 100, 500)),
  Produto = rep(c("A", "B"), each = 6)
)

Exportando para CSV

O readr (parte do tidyverse) usa a função write_csv()

write_csv(dados_para_exportar, "exemplo_vendas.csv")

Exportando para Excel

Usaremos o pacote writexl

write_xlsx(dados_para_exportar, "exemplo_vendas.xlsx")

2.2. Importando de CSV

A função read_csv() do pacote readr é rápida e eficiente.

dados_csv <- read_csv("exemplo_vendas.csv")
## Rows: 12 Columns: 3
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (1): Produto
## dbl  (1): Vendas
## date (1): Data
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
head(dados_csv)
## # A tibble: 6 × 3
##   Data       Vendas Produto
##   <date>      <dbl> <chr>  
## 1 2023-01-01    260 A      
## 2 2023-02-01    402 A      
## 3 2023-03-01    245 A      
## 4 2023-04-01    421 A      
## 5 2023-05-01    473 A      
## 6 2023-06-01    248 A

2.3. Importando de Excel

A função read_excel() do pacote readxl lê arquivos .xls e .xlsx.

dados_excel <- read_excel("exemplo_vendas.xlsx")
head(dados_excel)
## # A tibble: 6 × 3
##   Data                Vendas Produto
##   <dttm>               <dbl> <chr>  
## 1 2023-01-01 00:00:00    260 A      
## 2 2023-02-01 00:00:00    402 A      
## 3 2023-03-01 00:00:00    245 A      
## 4 2023-04-01 00:00:00    421 A      
## 5 2023-05-01 00:00:00    473 A      
## 6 2023-06-01 00:00:00    248 A

3. Manipulação de Dados com dplyr

O dplyr oferece um conjunto de “verbos” para manipulação de dados. Vamos usar o tibble criado na seção 1.3 e o dados_csv importado.

3.1. O Operador Pipe (%>%)

O pipe permite encadear múltiplas operações de forma legível, passando o resultado da operação anterior como o primeiro argumento da próxima. Lê-se como “e então”.

3.2. filter(): Filtrando linhas

Seleciona linhas com base em condições lógicas. Exemplo: pegar apenas os dados do Produto “A”

vendas_produto_A <- dados_csv %>%
  filter(Produto == "A")

print(vendas_produto_A)
## # A tibble: 6 × 3
##   Data       Vendas Produto
##   <date>      <dbl> <chr>  
## 1 2023-01-01    260 A      
## 2 2023-02-01    402 A      
## 3 2023-03-01    245 A      
## 4 2023-04-01    421 A      
## 5 2023-05-01    473 A      
## 6 2023-06-01    248 A

3.3. select(): Selecionando colunas

Seleciona colunas pelo nome. Exemplo: selecionar apenas as colunas Data e Vendas

vendas_selecionadas <- dados_csv %>%
  select(Data, Vendas)

head(vendas_selecionadas)
## # A tibble: 6 × 2
##   Data       Vendas
##   <date>      <dbl>
## 1 2023-01-01    260
## 2 2023-02-01    402
## 3 2023-03-01    245
## 4 2023-04-01    421
## 5 2023-05-01    473
## 6 2023-06-01    248

Podemos remover uma coluna usando o sinal de menos (-)

vendas_sem_produto <- dados_csv %>%
  select(-Produto)

head(vendas_sem_produto)
## # A tibble: 6 × 2
##   Data       Vendas
##   <date>      <dbl>
## 1 2023-01-01    260
## 2 2023-02-01    402
## 3 2023-03-01    245
## 4 2023-04-01    421
## 5 2023-05-01    473
## 6 2023-06-01    248

3.4. arrange(): Ordenando linhas

Ordena as linhas do data frame com base nos valores de uma ou mais colunas. Exemplo: ordenar por vendas, da maior para a menor

vendas_ordenadas <- dados_csv %>%
  arrange(desc(Vendas))

head(vendas_ordenadas)
## # A tibble: 6 × 3
##   Data       Vendas Produto
##   <date>      <dbl> <chr>  
## 1 2023-05-01    473 A      
## 2 2023-09-01    431 B      
## 3 2023-04-01    421 A      
## 4 2023-10-01    403 B      
## 5 2023-02-01    402 A      
## 6 2023-12-01    383 B

3.5. mutate(): Criando novas colunas

Cria novas colunas (ou modifica existentes) a partir de outras. Exemplo: criar uma coluna com as vendas em milhares

vendas_com_meta <- dados_csv %>%
  mutate(
    Vendas_milhares = Vendas / 1000,
    Atingiu_meta = ifelse(Vendas > 300, "Sim", "Não")
  )

head(vendas_com_meta)
## # A tibble: 6 × 5
##   Data       Vendas Produto Vendas_milhares Atingiu_meta
##   <date>      <dbl> <chr>             <dbl> <chr>       
## 1 2023-01-01    260 A                 0.26  Não         
## 2 2023-02-01    402 A                 0.402 Sim         
## 3 2023-03-01    245 A                 0.245 Não         
## 4 2023-04-01    421 A                 0.421 Sim         
## 5 2023-05-01    473 A                 0.473 Sim         
## 6 2023-06-01    248 A                 0.248 Não

3.6. summarise() e group_by(): Agregando dados

summarise() resume os dados em um único valor (e.g., média, soma). group_by() permite que a sumarização seja feita por grupos. Exemplo: calcular a venda total e a venda média por produto

vendas_por_produto <- dados_csv %>%
  group_by(Produto) %>%
  summarise(
    Venda_Total = sum(Vendas),
    Venda_Media = mean(Vendas),
    Numero_Meses = n() # n() conta o número de observações no grupo
  )

print(vendas_por_produto)
## # A tibble: 2 × 4
##   Produto Venda_Total Venda_Media Numero_Meses
##   <chr>         <dbl>       <dbl>        <int>
## 1 A              2049        342.            6
## 2 B              1825        304.            6

4. Acesso a Dados Macroeconômicos com APIs (rbcb)

APIs (Application Programming Interfaces) são formas de sistemas computacionais conversarem entre si. O Banco Central do Brasil (BCB) oferece uma API para acesso ao seu vasto banco de dados de séries temporais (SGS).

4.1. O pacote rbcb

Este pacote facilita enormemente a busca por dados no SGS do BCB.

4.2. Obtendo as séries de interesse

Precisamos saber os códigos das séries no sistema SGS.

  • PIB Mensal (IBC-Br, índice): 24363

  • IPCA (Variação % mensal): 433

Criando um vetor nomeado com os códigos. Os nomes serão usados nas colunas.

codigos_bcb <- c(
  PIB_IBCBr = 24363,
  IPCA = 433
)

Usando a função get_series para baixar os dados Vamos buscar os dados a partir de 01/01/2003

dados_pib <- get_series(codigos_bcb[1], start_date = "2003-01-01")
dados_ipca <- get_series(codigos_bcb[2], start_date = "2003-01-01")
dados_macro <- full_join(dados_pib, dados_ipca, by = "date")

# Inspecionando os dados baixados
head(dados_macro)
## # A tibble: 6 × 3
##   date       PIB_IBCBr  IPCA
##   <date>         <dbl> <dbl>
## 1 2003-01-01      67.5  2.25
## 2 2003-02-01      69.3  1.57
## 3 2003-03-01      72.6  1.23
## 4 2003-04-01      71.7  0.97
## 5 2003-05-01      70.4  0.61
## 6 2003-06-01      69.2 -0.15
tail(dados_macro)
## # A tibble: 6 × 3
##   date       PIB_IBCBr  IPCA
##   <date>         <dbl> <dbl>
## 1 2025-02-01      107.  1.31
## 2 2025-03-01      114.  0.56
## 3 2025-04-01      112.  0.43
## 4 2025-05-01      108.  0.26
## 5 2025-06-01      107.  0.24
## 6 2025-07-01       NA   0.26

4.3. Manipulando os dados macroeconômicos

Vamos renomear as colunas para português e ajustar o formato da data.

dados_macro <- dados_macro %>%
  rename(
    Data = date
  ) %>%
  mutate(
    Data = as.Date(Data) # Garantindo que a coluna Data é do tipo Date
  )

head(dados_macro)
## # A tibble: 6 × 3
##   Data       PIB_IBCBr  IPCA
##   <date>         <dbl> <dbl>
## 1 2003-01-01      67.5  2.25
## 2 2003-02-01      69.3  1.57
## 3 2003-03-01      72.6  1.23
## 4 2003-04-01      71.7  0.97
## 5 2003-05-01      70.4  0.61
## 6 2003-06-01      69.2 -0.15

5. Breve Exemplo de Visualização com ggplot2

O ggplot2 é baseado na “Gramática dos Gráficos”, permitindo a construção de gráficos complexos de forma intuitiva, camada por camada.

A estrutura básica é:

ggplot(data = <DADOS>, mapping = aes(<MAPEAMENTOS ESTÉTICOS>)) +
   <CAMADA GEOMÉTRICA>()

Vamos criar um gráfico de linhas para uma das séries que baixamos.

# Código para plotar no formato "largo"
ggplot(dados_macro, aes(x = Data, y = PIB_IBCBr)) +
  geom_line() + # Adiciona a camada de linha para criar o gráfico de série temporal
  labs(
    title = "Série Temporal do PIB IBC-Br",
    x = "Data",
    y = "PIB IBC-Br"
  ) +
  theme_minimal() # Um tema limpo para o gráfico (opcional)

---
title: "Introdução à manipulação de dados em R"
author: "Bruno Melo de Oliveira Santos"
date: "`r Sys.Date()`"
output:
  html_document:
    toc: true
    toc_float: true
    theme: lumen
    highlight: tango
    code_folding: show
    code_download: true 
---

# 0. Configuração Inicial

## 0.1. Apresentação

Este script foi desenvolvido como material de apoio para a aula de introdução à análise de dados macroeconômicos com R. Passaremos por todas as etapas do processo, desde a importação e manipulação de dados até a coleta de séries de fontes oficiais brasileiras e a visualização final.

## 0.2. Instalação de Pacotes

Para executar este script, é necessário ter alguns pacotes instalados. O código abaixo instala os pacotes que vamos utilizar.

```{r pacotes, results='hide', message=FALSE}
library(tidyverse)
library(rbcb)
library(readxl)
library(writexl)
```

# 1. Tipos e Estruturas de Dados no R

## 1.1. Vetores

Vetores são a estrutura de dados mais fundamental do R. Eles armazenam elementos do mesmo tipo.

**Vetor numérico**

```{r vetor numérico}
vetor_numerico <- c(10.5, 5, -3, 8.2)
print(vetor_numerico)
class(vetor_numerico) # Verifica a classe do objeto
```

**Vetor de caracteres (texto)**

```{r vetor texto}
vetor_texto <- c("PIB", "IPCA", "Selic")
print(vetor_texto)
class(vetor_texto)
```

**Vetor lógico (Booleano)**

```{r vetor lógico}
vetor_logico <- c(TRUE, FALSE, TRUE, TRUE)
print(vetor_logico)
class(vetor_logico)
```

## 1.2. Data Frames

Data frames são a estrutura mais comum para armazenar dados tabulares no R. São como tabelas, onde as colunas podem ter tipos de dados diferentes.

```{r data frame}
df_exemplo <- data.frame(
  Ano = c(2022, 2023, 2024),
  PIB_nominal = c(9.9, 10.9, 11.5), # em trilhões de R$ (hipotético)
  Pais = c("Brasil", "Brasil", "Brasil")
)

print(df_exemplo)
str(df_exemplo) # Mostra a estrutura do data frame
summary(df_exemplo) # Fornece um resumo estatístico
```

## 1.3. Tibbles

Tibbles são a versão moderna de data frames, parte do `tidyverse`. Eles possuem uma impressão (print) mais amigável e algumas regras mais estritas que evitam erros comuns.

```{r tibble}
tibble_exemplo <- tibble(
  Ano = c(2022, 2023, 2024),
  PIB_nominal = c(9.9, 10.9, 11.5),
  Pais = c("Brasil", "Brasil", "Brasil")
)

print(tibble_exemplo)
```

# 2. Importação e Exportação de Dados

## 2.1. Criando dados de exemplo para exportar

Vamos criar um data frame e salvá-lo como CSV e Excel para simular a importação de arquivos externos.

```{r df exemplo import export}
dados_para_exportar <- data.frame(
  Data = seq(as.Date("2023-01-01"), by = "month", length.out = 12),
  Vendas = round(runif(12, 100, 500)),
  Produto = rep(c("A", "B"), each = 6)
)
```

**Exportando para CSV**

O `readr` (parte do tidyverse) usa a função `write_csv()`

```{r export csv}
write_csv(dados_para_exportar, "exemplo_vendas.csv")
```

**Exportando para Excel**

Usaremos o pacote `writexl`

```{r export xlsx}
write_xlsx(dados_para_exportar, "exemplo_vendas.xlsx")
```

## 2.2. Importando de CSV

A função `read_csv()` do pacote `readr` é rápida e eficiente.

```{r import csv}
dados_csv <- read_csv("exemplo_vendas.csv")
head(dados_csv)
```

## 2.3. Importando de Excel

A função `read_excel()` do pacote `readxl` lê arquivos .xls e .xlsx.

```{r import xlsx}
dados_excel <- read_excel("exemplo_vendas.xlsx")
head(dados_excel)
```

# 3. Manipulação de Dados com dplyr

O `dplyr` oferece um conjunto de "verbos" para manipulação de dados. Vamos usar o `tibble` criado na seção 1.3 e o `dados_csv` importado.

## 3.1. O Operador Pipe (`%>%`)

O pipe permite encadear múltiplas operações de forma legível, passando o resultado da operação anterior como o primeiro argumento da próxima. Lê-se como "e então".

## 3.2. `filter()`: Filtrando linhas

Seleciona linhas com base em condições lógicas. Exemplo: pegar apenas os dados do Produto "A"

```{r filtro A}
vendas_produto_A <- dados_csv %>%
  filter(Produto == "A")

print(vendas_produto_A)
```

## 3.3. `select()`: Selecionando colunas

Seleciona colunas pelo nome. Exemplo: selecionar apenas as colunas Data e Vendas

```{r selecionando colunas}
vendas_selecionadas <- dados_csv %>%
  select(Data, Vendas)

head(vendas_selecionadas)
```

Podemos remover uma coluna usando o sinal de menos (-)

```{r}
vendas_sem_produto <- dados_csv %>%
  select(-Produto)

head(vendas_sem_produto)
```

## 3.4. `arrange()`: Ordenando linhas

Ordena as linhas do data frame com base nos valores de uma ou mais colunas. Exemplo: ordenar por vendas, da maior para a menor

```{r}
vendas_ordenadas <- dados_csv %>%
  arrange(desc(Vendas))

head(vendas_ordenadas)
```

## 3.5. `mutate()`: Criando novas colunas

Cria novas colunas (ou modifica existentes) a partir de outras. Exemplo: criar uma coluna com as vendas em milhares

```{r}
vendas_com_meta <- dados_csv %>%
  mutate(
    Vendas_milhares = Vendas / 1000,
    Atingiu_meta = ifelse(Vendas > 300, "Sim", "Não")
  )

head(vendas_com_meta)
```

## 3.6. `summarise()` e `group_by()`: Agregando dados

`summarise()` resume os dados em um único valor (e.g., média, soma). `group_by()` permite que a sumarização seja feita por grupos. Exemplo: calcular a venda total e a venda média por produto

```{r}
vendas_por_produto <- dados_csv %>%
  group_by(Produto) %>%
  summarise(
    Venda_Total = sum(Vendas),
    Venda_Media = mean(Vendas),
    Numero_Meses = n() # n() conta o número de observações no grupo
  )

print(vendas_por_produto)
```

# 4. Acesso a Dados Macroeconômicos com APIs (rbcb)

APIs (Application Programming Interfaces) são formas de sistemas computacionais conversarem entre si. O Banco Central do Brasil (BCB) oferece uma API para acesso ao seu vasto banco de dados de séries temporais (SGS).

## 4.1. O pacote `rbcb`

Este pacote facilita enormemente a busca por dados no SGS do BCB.

## 4.2. Obtendo as séries de interesse

Precisamos saber os códigos das séries no sistema SGS.

-   PIB Mensal (IBC-Br, índice): 24363

-   IPCA (Variação % mensal): 433

Criando um vetor nomeado com os códigos. Os nomes serão usados nas colunas.

```{r}
codigos_bcb <- c(
  PIB_IBCBr = 24363,
  IPCA = 433
)
```

Usando a função `get_series` para baixar os dados Vamos buscar os dados a partir de 01/01/2003

```{r}
dados_pib <- get_series(codigos_bcb[1], start_date = "2003-01-01")
dados_ipca <- get_series(codigos_bcb[2], start_date = "2003-01-01")
dados_macro <- full_join(dados_pib, dados_ipca, by = "date")

# Inspecionando os dados baixados
head(dados_macro)
tail(dados_macro)
```

## 4.3. Manipulando os dados macroeconômicos

Vamos renomear as colunas para português e ajustar o formato da data.

```{r}
dados_macro <- dados_macro %>%
  rename(
    Data = date
  ) %>%
  mutate(
    Data = as.Date(Data) # Garantindo que a coluna Data é do tipo Date
  )

head(dados_macro)
```

# 5. Breve Exemplo de Visualização com ggplot2

O `ggplot2` é baseado na "Gramática dos Gráficos", permitindo a construção de gráficos complexos de forma intuitiva, camada por camada.

A estrutura básica é:

```{r, eval=FALSE}
ggplot(data = <DADOS>, mapping = aes(<MAPEAMENTOS ESTÉTICOS>)) +
   <CAMADA GEOMÉTRICA>()
```

Vamos criar um gráfico de linhas para uma das séries que baixamos.

```{r, warning=FALSE}
# Código para plotar no formato "largo"
ggplot(dados_macro, aes(x = Data, y = PIB_IBCBr)) +
  geom_line() + # Adiciona a camada de linha para criar o gráfico de série temporal
  labs(
    title = "Série Temporal do PIB IBC-Br",
    x = "Data",
    y = "PIB IBC-Br"
  ) +
  theme_minimal() # Um tema limpo para o gráfico (opcional)
```
