Pipeline de captura

Etapas

  1. Criação do dataset com informações das proposições de um intervalo de tempo definido
  2. Download do arquivo contendo o Inteiro Teor de cada proposição
  3. Extração do texto e justificativa dos arquivos PDFs.

Criação do dataset principal

Os datasets são obtidos do site dos Dados Abertos da Câmara Federal e contém informações sobre as proposições apresentadas para deliberação em um ano específico. Cada registro contém os identificadores de uma proposição, informações sobre sua tramitação, proposições a que se relacionam e um endereço que leva ao arquivo de seu Inteiro Teor. O script concatena_pdfs.py baixa e une os datasets referentes ao intervalo dos anos especificados.

Como não consideraremos todos os tipos de proposições nos nossos experimentos, não faremos o download de todas as proposições no dataset final. Estes tipos serão identificados durante a descrição da etapa de download dos arquivos.

Extrator

Aqui exploraremos um pouco o texto de proposições legislativas. Extraímos o texto a partir dos arquivos PDFs contendo o Inteiro Teor de proposições apresentadas à Câmara dos Deputados durante o ano de 2019 e os primeiros cinco meses de 2020.

Eficiência do extrator

No geral, dos 31130 arquivos baixados, conseguimos extrair texto de 30506 (98% do total).

Justificativas

Conseguimos extrair justificativas de 25577 proposições, o que representa 82.47% de todas as proposições que são justificadas.

Quantidade de palavras

Palavras frequentes

Texto

Justificativas

Temas