Rotina criada para obtenção e estruturação de dados sobre assentamentos e beneficiados do Programa Nacional de Reforma Agrária. Os dados são compilados do Sistema de Informaçoes de Projeto de Rural Agrário (SIPRA) e divulgados em formato pdf na pagina do INCRA (Instituto Nacional de Colonizaçao e Reforma Agraria).
Para executar essa rotina, é necessário ter instalado o aplicativo ‘xpdf’, disponível neste portal. Em seguida, é necessário transferir o arquivo ‘pdftotext.exe’ para a mesma pasta onde está o diretório do R.
Não foi encontrada documentação na página oficial sobre como os relatórios em pdf são alimentados
Dos relatórios são divulgados em formato pdf, os que foram obtidos neste exercicios estao separados em dois grupos: i) dados sobre os projetos de assentamento e ii) informações sobre os beneficiados. Os dados dos projetos são divulgados em um único arquivo pdf. Já os relatórios de beneficiados são separados por cada superintendência do INCRA.
Os arquivos foram obtidos com auxílio do software R. O download do relatório de projetos foi executado diretamente através da funçao download.file. Para os arquivos referentes aos beneficiários, foi elaborada uma relação entre cada superintendência e sua sigla, combinação que determina unicamente a url que leva ao arquivo correspondente. A relação está no Apêncide desta documentação.
Os dados obtidos foram transformandos de pdf para txt com o auxílio da função pdftotext, disponível no aplicativo xpdf. Os arquivos convertidos foram carregados no software R e estruturados em formato csv. Cada tipo de base seguiu estratégia de estruturação própria.
Na base de projetos, as colunas foram separadas com base na existência de espaços múltiplos entre dois conjuntos de caracteres. Essa operação resultaou em uma coluna que concatenava o código com o nome do projeto, e que também continha a UF do assentamento. A separação destes itens foi feita com base nos padrões específicos de caracteres nessa coluna, resultando em três novas:
Logo após, foi elaborado um ‘de-para’ associando o código do projeto às informações do município-sede, precisamente o código IBGE do município, da microrregião e da messorregião, todos presentes na tabela de Divisão Territorial do Brasil (DTB). A príncípio, essa associação foi feita com base na combinação ‘nome do município - UF’. Os códigos remanescentes, onde a associação automática não foi eficaz, os códigos foram associados manualmente às informações correspondentes da DTB.
A base de beneficiários, por sua vez, foi obtida dos arquivos convertidos sem partição prévia de colunas. As variáveis foram definidas pela busca de padrões na coluna de caracteres esperados para colunas específicas, cosideradas relevantes:
Esse procedimento resultou no descarte da coluna com o nome do projeto, já presente na base estruturada de projetos, e da coluna com o(s) nome(s) do(s) beneficiário(s).
Na base de projetos constam as seguintes colunas:
A base de beneficiários, por sua vez. contém as seguintes colunas:
Os relatórios de beneficiados contém, dentre as informações mais relevantes, o códido identificador do projeto e a data de titulação.
A superintendência de código SR-OO é chamada de Superintendência Regional de Santarém/PA no relatório de projetos, e de Unidade Avançada de Altamira na base de beneficiados. Essa divergência se reflete nos códigos do projetos: aqueles que começam com “SM” na relação de projetos correspondem aos códigos que iniciam com “AT” no relatório de beneficiários.
Na base de projetos ocorrem linhas em que parte das colunas é vazia, o que causa deslocamentos no conteúdo restante, fazendo com que determinadas colunas contenham valores que, na verade, referem-se a outra variável. Na base de beneficiários, ocorrem valores vazios nas variáveis. As ocorrências destes casos em cada base são computadas abaixo.
superintendencia | nome | sigla |
---|---|---|
SR-01 | Pará | sr-01_pa.pdf |
SR-02 | Cerá | sr-02_ce.pdf |
SR-03 | Pernanbuco | sr-03_pe.pdf |