Descritivo

Rotina criada para obtenção e estruturação de dados sobre assentamentos e beneficiados do Programa Nacional de Reforma Agrária. Os dados são compilados do Sistema de Informaçoes de Projeto de Rural Agrário (SIPRA) e divulgados em formato pdf na pagina do INCRA (Instituto Nacional de Colonizaçao e Reforma Agraria).

ATENÇÃO!!!!

Para executar essa rotina, é necessário ter instalado o aplicativo ‘xpdf’, disponível neste portal. Em seguida, é necessário transferir o arquivo ‘pdftotext.exe’ para a mesma pasta onde está o diretório do R.

Metodologia da base

Não foi encontrada documentação na página oficial sobre como os relatórios em pdf são alimentados

Forma de divulgaçao

Dos relatórios são divulgados em formato pdf, os que foram obtidos neste exercicios estao separados em dois grupos: i) dados sobre os projetos de assentamento e ii) informações sobre os beneficiados. Os dados dos projetos são divulgados em um único arquivo pdf. Já os relatórios de beneficiados são separados por cada superintendência do INCRA.

Obtenção e estruturação da base

Obtenção

Os arquivos foram obtidos com auxílio do software R. O download do relatório de projetos foi executado diretamente através da funçao download.file. Para os arquivos referentes aos beneficiários, foi elaborada uma relação entre cada superintendência e sua sigla, combinação que determina unicamente a url que leva ao arquivo correspondente. A relação está no Apêncide desta documentação.

Estruturação

Os dados obtidos foram transformandos de pdf para txt com o auxílio da função pdftotext, disponível no aplicativo xpdf. Os arquivos convertidos foram carregados no software R e estruturados em formato csv. Cada tipo de base seguiu estratégia de estruturação própria.

Na base de projetos, as colunas foram separadas com base na existência de espaços múltiplos entre dois conjuntos de caracteres. Essa operação resultaou em uma coluna que concatenava o código com o nome do projeto, e que também continha a UF do assentamento. A separação destes itens foi feita com base nos padrões específicos de caracteres nessa coluna, resultando em três novas:

  • Código do projeto: padrão ‘duas letras + 7 dígitos numéricos’;
  • Nome do projeto: tudo o que não segue o padrão anterior;
  • uf_prov: coluna provisória, elaborada apenas para agilizar a associação do código do projeto ao código IBGE do município-sede. Foi obtida extraindo-se o padrão ‘UF: +duas letras’ do cabeçalho das tabelas, e repetida nas linhas seguintes até a ocorrência seguinte deste padrão;

Logo após, foi elaborado um ‘de-para’ associando o código do projeto às informações do município-sede, precisamente o código IBGE do município, da microrregião e da messorregião, todos presentes na tabela de Divisão Territorial do Brasil (DTB). A príncípio, essa associação foi feita com base na combinação ‘nome do município - UF’. Os códigos remanescentes, onde a associação automática não foi eficaz, os códigos foram associados manualmente às informações correspondentes da DTB.

A base de beneficiários, por sua vez, foi obtida dos arquivos convertidos sem partição prévia de colunas. As variáveis foram definidas pela busca de padrões na coluna de caracteres esperados para colunas específicas, cosideradas relevantes:

  • situacao: primeiro, padrão ‘dd/mm/aaaa nomes’. Depois, tirando ‘dd/mm/aaaa’ do resultado anterior;
  • data: padrão ‘dd/mm/aaaa’;
  • Código do beneficiário: padrão duas letras + 12 dígitos numéricos;
  • Código do projeto: padrão duas letras + 7 dígitos numéricos.

Esse procedimento resultou no descarte da coluna com o nome do projeto, já presente na base estruturada de projetos, e da coluna com o(s) nome(s) do(s) beneficiário(s).

Informações disponíveis

Na base de projetos constam as seguintes colunas:

A base de beneficiários, por sua vez. contém as seguintes colunas:

Os relatórios de beneficiados contém, dentre as informações mais relevantes, o códido identificador do projeto e a data de titulação.

Limitações e ressalvas

A superintendência de código SR-OO é chamada de Superintendência Regional de Santarém/PA no relatório de projetos, e de Unidade Avançada de Altamira na base de beneficiados. Essa divergência se reflete nos códigos do projetos: aqueles que começam com “SM” na relação de projetos correspondem aos códigos que iniciam com “AT” no relatório de beneficiários.

Na base de projetos ocorrem linhas em que parte das colunas é vazia, o que causa deslocamentos no conteúdo restante, fazendo com que determinadas colunas contenham valores que, na verade, referem-se a outra variável. Na base de beneficiários, ocorrem valores vazios nas variáveis. As ocorrências destes casos em cada base são computadas abaixo.

  1. Base de projetos - ocorrência de linhas deslocadas: 0.1205083 % da base
  2. Base de beneficiários - ocorrência de NA: 1.470202 % da base.

Informacoes adicionais:

  1. Versao do fluxo de dados: versao 2 beta
  2. Data da ultima atualizacao (dd/mm/aaaa): 05/05/2016
  3. Agenda de divulgacao (provavel): Nao há informaçoes

Anexos:

1. Relação de superintendências e siglas nas urls

superintendencia nome sigla
SR-01 Pará sr-01_pa.pdf
SR-02 Cerá sr-02_ce.pdf
SR-03 Pernanbuco sr-03_pe.pdf