Extrair Tabelas em PDF

Tabelas em pdf

Não sei se já aconteceu com você, mas no meu antigo estágio, eu tinha que pegar os valores dos demosntrativos financeiros de algumas empresas e passa - los para planilhas. Isso era um trabalho tedioso, já que era um grande copie e cole. Por isso aprendi no R uma maneira mais facil de resolver esse problema. Com o código abaixo, consigo extrair a tabela de um PDF e depois de algumas transformações, deixa - la como um data frame e exportar para o excel se eu quiser.Para que quiser repetir o exemplo, aqui está o link do pdf. Segue o código!

# Pacote
library(tabulizer)
library(dplyr)
library(stringr)
# Extraindo tabela
df1 <- extract_tables("/cloud/project/Conteudo Comunidade/Conteudos/Extraindo_PDF/Viracopos.pdf", # Caminho onde está o pdf
                      pages = 9, # Pagina que está a tabela
                      output = "data.frame") # output que eu quero

# Pegando dataframe do objeto lista
df1 <- df1[[1]]

# Retirando coluna de notas de observação
df1 <- df1 %>% select(-Notas)

# Transformando valores com espaço nulo em NA
df1[df1 == ""] <-NA

# Retirando NA`s
df1 <- df1 %>% na.omit()

# Retirando caracter X dos cabeçalhos
names(df1) <- str_replace_all(names(df1),"X","")

# Colocando nome na primeira coluna
names(df1)[1] <- "Rubrica" 

# Pegando apenas as colunas importantes (no meu caso)
df1 <- df1[,1:3]

# Exportando para o excel
library(xlsx)
write.xlsx(df1,"dfViracopos.xlsx")

Formato Final

library(DT)
datatable(df1)

Não se esqueçam que as tabelas podem não vir iguais sempre e talvez requeiram de outro tipo de tratamento.

Extrair Tabelas em PDF

Lucas Mendes

05/06/2019

Tabelas em pdf

Formato Final