Etapas
Os datasets são obtidos do site dos Dados Abertos da Câmara Federal e contém informações sobre as proposições apresentadas para deliberação em um ano específico. Cada registro contém os identificadores de uma proposição, informações sobre sua tramitação, proposições a que se relacionam e um endereço que leva ao arquivo de seu Inteiro Teor. O script concatena_pdfs.py baixa e une os datasets referentes ao intervalo dos anos especificados.
Como não consideraremos todos os tipos de proposições nos nossos experimentos, não faremos o download de todas as proposições no dataset final. Estes tipos serão identificados durante a descrição da etapa de download dos arquivos.
Aqui exploraremos um pouco o texto de proposições legislativas. Extraímos o texto a partir dos arquivos PDFs contendo o Inteiro Teor de proposições apresentadas à Câmara dos Deputados durante o ano de 2019 e os primeiros cinco meses de 2020.
No geral, dos 31130 arquivos baixados, conseguimos extrair texto de 30506 (98% do total).
Conseguimos extrair justificativas de 25577 proposições, o que representa 82.47% de todas as proposições que são justificadas.