Descritivo

Rotina criada para obtenção e estruturação de dados sobre assentamentos e beneficiados do Programa Nacional de Reforma Agrária. Os dados são compilados do Sistema de Informaçoes de Projeto de Rural Agrário (SIPRA) e divulgados em formato pdf na pagina do INCRA (Instituto Nacional de Colonizaçao e Reforma Agraria).

ATENÇÃO!!!!

Para executar essa rotina, é necessário ter instalado o aplicativo ‘xpdf’, disponível neste portal. Em seguida, é necessário transferir o arquivo ‘pdftotext.exe’ para a mesma pasta onde está o diretório do R.

Metodologia da base

Não foi encontrada documentação na página oficial sobre como os relatórios em pdf são alimentados

Forma de divulgaçao

Dos relatórios são divulgados em formato pdf, os que foram obtidos neste exercicios estao separados em dois grupos: i) dados sobre os projetos de assentamento e ii) informações sobre os beneficiados. Os dados dos projetos são divulgados em um único arquivo pdf. Já os relatórios de beneficiados são separados por cada superintendência do INCRA.

Obtenção e estruturação da base

Obtenção

Os arquivos foram obtidos com auxílio do software R. O download do relatório de projetos foi executado diretamente através da funçao download.file. Para os arquivos referentes aos beneficiários, foi elaborada uma relação entre cada superintendência e sua sigla, combinação que determina unicamente a url que leva ao arquivo correspondente. A relação está no Apêncide desta documentação.

Estruturação

Os dados obtidos foram transformandos de pdf para txt com o auxílio da função pdftotext, disponível no aplicativo xpdf. Os arquivos convertidos foram carregados no software R e estruturados em formato csv. Cada tipo de base seguiu estratégia de estruturação própria.

Na base de projetos, as colunas foram separadas com base na existência de espaços múltiplos entre dois conjuntos de caracteres. Essa operação resultaou em uma coluna que concatenava o código com o nome do projeto, e que também continha a UF do assentamento. A separação destes itens foi feita com base nos padrões específicos de caracteres nessa coluna, resultando em três novas:

Código do projeto: padrão ‘duas letras + 7 dígitos numéricos’;
Nome do projeto: tudo o que não segue o padrão anterior;
uf_prov: coluna provisória, elaborada apenas para agilizar a associação do código do projeto ao código IBGE do município-sede. Foi obtida extraindo-se o padrão ‘UF: +duas letras’ do cabeçalho das tabelas, e repetida nas linhas seguintes até a ocorrência seguinte deste padrão;

Logo após, foi elaborado um ‘de-para’ associando o código do projeto às informações do município-sede, precisamente o código IBGE do município, da microrregião e da messorregião, todos presentes na tabela de Divisão Territorial do Brasil (DTB). A príncípio, essa associação foi feita com base na combinação ‘nome do município - UF’. Os códigos remanescentes, onde a associação automática não foi eficaz, os códigos foram associados manualmente às informações correspondentes da DTB.

A base de beneficiários, por sua vez, foi obtida dos arquivos convertidos sem partição prévia de colunas. As variáveis foram definidas pela busca de padrões na coluna de caracteres esperados para colunas específicas, cosideradas relevantes:

situacao: primeiro, padrão ‘dd/mm/aaaa nomes’. Depois, tirando ‘dd/mm/aaaa’ do resultado anterior;
data: padrão ‘dd/mm/aaaa’;
Código do beneficiário: padrão duas letras + 12 dígitos numéricos;
Código do projeto: padrão duas letras + 7 dígitos numéricos.

Esse procedimento resultou no descarte da coluna com o nome do projeto, já presente na base estruturada de projetos, e da coluna com o(s) nome(s) do(s) beneficiário(s).

Informações disponíveis

Na base de projetos constam as seguintes colunas:

cod_projeto: Codigo do projeto
nome_projeto: Nome do projeto de assentamento
uf_prov: UF provisoria, construida para agilizar na elaboraçao da relaçaoo projeto X codigo IBGE do municipio
municipio: Nome do municipio
area: Area do assentamento (em hectares)
fam_capacidade: Capacidade de familias no assentamento
fam_assentadas: Numero de famílias assentadas
fase: Fase do projeto de assentamento
ato_tipo: Tipo de ato de criaçaoo (resoluçao, portaria, etc.)
ato_n: Numero do ato de criaçao
ato_data: Data do ato de criaçao
obtencao_forma: Forma de obtençao
obtencao_data: Data de obtençao
deslocadas: Coluna indicadora de colunas vazias, para critica da base

A base de beneficiários, por sua vez. contém as seguintes colunas:

cod_projeto: Codigo do projeto
cod_beneficiario: Codigo do beneficiario
data_homologa: Data de homologaçao
situacao: Situaçao do beneficiario

Os relatórios de beneficiados contém, dentre as informações mais relevantes, o códido identificador do projeto e a data de titulação.

Limitações e ressalvas

A superintendência de código SR-OO é chamada de Superintendência Regional de Santarém/PA no relatório de projetos, e de Unidade Avançada de Altamira na base de beneficiados. Essa divergência se reflete nos códigos do projetos: aqueles que começam com “SM” na relação de projetos correspondem aos códigos que iniciam com “AT” no relatório de beneficiários.

Na base de projetos ocorrem linhas em que parte das colunas é vazia, o que causa deslocamentos no conteúdo restante, fazendo com que determinadas colunas contenham valores que, na verade, referem-se a outra variável. Na base de beneficiários, ocorrem valores vazios nas variáveis. As ocorrências destes casos em cada base são computadas abaixo.

Base de projetos - ocorrência de linhas deslocadas: 0.1205083 % da base
Base de beneficiários - ocorrência de NA: 1.470202 % da base.

Informacoes adicionais:

Versao do fluxo de dados: versao 2 beta
Data da ultima atualizacao (dd/mm/aaaa): 05/05/2016
Agenda de divulgacao (provavel): Nao há informaçoes

Anexos:

1. Relação de superintendências e siglas nas urls

Url padrão: http://www.incra.gov.br/sites/default/files/uploads/reforma-agraria/rela-o-de-benefici-rios-rb-da-reforma-agr-ria . O caminho para cada arquivo é obtido acrescentando-se ‘/’ mais algum componente da coluna ‘sigla’

superintendencia	nome	sigla
SR-01	Pará	sr-01_pa.pdf
SR-02	Cerá	sr-02_ce.pdf
SR-03	Pernanbuco	sr-03_pe.pdf

Obtençao e Estruturaçao Relatorios SIPRA (pdf)

Wesley Silva

23 de abril de 2016