Planejamento amostral para linhas de base dos projetos FIDA

06 de junho de 2017

Contexto e visão geral

Atuação do FIDA no Brasil

Foco no Semi-Árido
Público-alvo: agricultores familiares, assentados de reforma agrária e trabalhadores rurais
Parceria com governos estaduais e com o governo federal
Projetos parceiros
- Paraíba: PROCASE (Projeto de Desenvolvimento Sustentável do Cariri, Seridó e Curimatu);
- Piauí: Projeto Viva o Semiárido;
- Ceará: Projeto Paulo Freire;
- Sergipe: Projeto Dom Távora;
- Bahia: Projeto Pró-semiárido ;
- Semiárido: Projeto Dom Helder Camara II, em sete estados

Atuação do FIDA no Brasil

Parceria FIDA & IPC-IG

Objetivo do FIDA: construir um sistema M&A
- Questionário e estrutura de dados padronizados
- Indicadores de processo e marco lógico
Papel do IPC-IG
- Proposta de indicadores de impacto;
- Análise de inconsistência interna das bases já levantadas;
- Elaboração de planos amostrais das linhas de base para avaliação de impacto.

Sergipe

Projeto Dom Távora

O projeto

Objetivo Geral: promover a redução da pobreza rural em 15 municípios no semiárido sergipano
Meta: reduzir a pobreza extrema de 10 mil famílias
Ações:
- desenvolvimento produtivo, sustentável e com acesso ao mercado;
- desenvolvimento social e de capital humano;
- desenvolvimento institucional;
Público-alvo: famílias organizadas em associações, comunidades quilombolas ou assentamentos

Área de Atuação

Implementação

Instrumento de ação: planos de negócios (300, no total)

Passo-a-passo:
- Organização em associação ou cooperativa;
- Elaboração do plano de negócio (conta com orientação técnica);
- Encaminhamento da proposta de financiamento

Informações disponíveis

Relação de cooperativas/associações beneficiadas e os respectivos totais de famílias
Relação de setores censitários onde as comunidades beneficiadas estão localizadas
Relação de setores censitários dos municípios de controle
Informações por setor censitário (IBGE, Censo 2010)
Polígonos de uso da terra (IBGE)
Polígonos de zonas climáticas (IBGE)

Limitantes:
- Tamanhos pré-estabelecidos: 1200 entrevistas, 600 para tratamento, 600 para controle;
- Ausência de relação de comunidades no grupo controle
- Setor censitário é a menor divisão geográfica com informações disponíveis
- Solução: parear setores censitários das comunidades tratadas com setores dos municípios de controle via Propensity Score Matching (PSM)

PSM (Sergipe)

Pareamento tratamento - controle

Variáveis

Variáveis Geográficas.
- Latitude/Longitude: É a localização geográfica, inserida com o intuito de elencar setores que, além de similares do ponto de vista socioeconômico, estejam relativamente próximas entre si.
- percentual da área coberta por 'corpo d'água continental'
- número médio de meses com seca por ano
- percentual da área do setor coberta por vegetação natural
- percentual da área do setor utilizada por atividade rural (incluindo área agrícola, pastagem, etc.)
- percentual da área do setor com áreas artificiais, isto é, construções, prédios, etc..
Variáveis Demográficas.
- Percentual da população do setor censitário na PEA.
- Densidade demográfica (habitantes/m²).

Variáveis

Estrutura domiciliar.
- Percentual de domicílios com abastecimento de água adequado.
- Percentual de domicílios com esgotamento sanitário adequado.
- Tipo de setor censitário (urbano ou rural).
Renda.
- Percentual de domicílios com renda per capita inferior a ¼ de salário mínimo
- Renda per capita média.

Tratamento prévio dos dados

Remoção de setor censitário com 0 famílias (Associação de Sambambira)
Variáveis geográficas: intersecções de polígonos e percentuais de áreas

Estimativa de componentes pricipais (PCA's) ortogonais das variáveis padronizadas

Implementação

Para cada setor tratado, seleciona-se 3 setores não tratados cadidatos a setor "gêmeo";
Dentre os 3, o par é aquele mais parecido de acordo a Distância Euclidiana $D_e(X^{trat},X^{contr})$ entre as componentes principais estimadas;

Sendo que \[D_e(X^{trat},X^{contr}) = ||X^{trat} - X^{contr}|| = \sqrt{\sum\limits_{k = 1}^ {p}(X^{trat}_{k} - X^{contr}_{k})^2}\]

Observação: distância entre as componentes principais equivale à Distância de Mahalanobis, que não sofre influência de escala ou de correlações

Resultado

Alocação da amostra (Sergipe)

Plano amostral

Amostragem aleatória estratificada

Especficiações
- Estratos: setores censitários (de tratamento e de controle);
- Unidade de observação: domicílios;
- População: totais de famílias das associações beneficiadas no setor;
- Alocação ótima: proporcional ao tamanho e à variabilidade, inversamente proporcional ao custo: \[w_h = \frac{N_h \times \sqrt{\frac{S^2_h}{C_h}}}{\sum\limits_{h = 1}^{H}\left(N_h \times \sqrt{\frac{S^2_h}{C_h}}\right)} \]
- Para cada setor, \[n_h = n \times w_h\]

Plano amostral

Importante:
- Alocação de 600 entrevistas entre os setores de tratamento;
- Para cada setor de tratamento, o mesmo tamanho amostral foi aplicado no setor "gêmeo" de comparação;
- $S^2_h$ de renda domiciliar disponibilizado no Censo 2010;
- Custo constante por setor
- Tamanho final da amostra (após arredondamentos): 1254 domicílios distribuídos em $50 \times 2$ setores censitários.

Erro amostral estimado

Especificações técnicas
- Parâmetro para exemplo: renda domiciliar per capita
- Nível de significância: $\alpha = 5\%$
- Estimador do parâmetro [@cochran]: \[ \bar{y}_{strat} = \sum_h^{100} \frac{n_h \times y_h }{n}\]
- Variância do estimador [@cochran]: \[ V(\bar{y}_{strat}) = \sum_h^{100}W_H^{2}\frac{S^2_h}{n_h}\left[1-\frac{n_h}{N_h}\right]\]
- Margem de erro: $z_{1-\frac{\alpha}{2}} \times \sqrt{V(\bar{y}_{strat})}$

Erro amostral estimado

A margem de erro ao nível de $95\%$ de confiança é de R$ 57.14 para mais ou para menos.
O coeficiente de variação do estimador (CV) é 6.43%, onde \[CV = \frac{\sqrt{V(\bar{y}_{strat})}}{\bar{y}_{strat}}\]

Instruções para campo

No tratamento
1. Localizar a(s) comunidade(s) tratada(s) no setor censitário;
2. Obter o cadastro de famílias atendidas que permita localizá-las;
3. Atualizar o número de domicílios informados pelo cadastro inicial das associações com o encontrado na data da pesquisa.
4. Atribuir identificadores numéricos às famílias no cadastro e sortear, de acordo com uma amostra aleatória simples, uma quantidade destes identificadores igual ao tamanho da amostra estabelecido pelo plano amostral.
5. Entrevistar todas as famílias sorteadas.

Instruções para campo

No grupo de comparação
- Localizar o setor censitário não tratado;
- Identificar comunidades/associações;
- Listar domicílios e obter o número atualizado da quantidade no setor censitário;
- Estabelecer um intervalo de seleção, $K = N_h/n_h$ (isto é, a razão entre o número de domicílios e o tamanho de amostra determinado);
- No setor, selecionar aleatoriamente o primeiro domicílio entre os $k$ primeiros para ser entrevistado.
- Pular $k$ domicílios e entrevistar o segundo, e assim sucessivamente, de acordo com o método sistemático de coleta [@cochran], até completar os $n_h$ determinados na amostra.

Problemas no município de Lagarto

Lagarto: um dos municípios de controle
Ocorrência de chacinas na região. Necessitou substituição
Total de 3 setores censitários para substituiçao
- Cada setor tem um par no grupo de tratamento
- O setor correspondente, pelo PSM, considerou 3 gêmeos candidatos do controle
- Reformulação dos "gêmeos" nao-tratados: setores candidatos fora de Lagarto

Bahia

Projeto Pró-Semiárido

O projeto

Objetivo Geral: Contribuir para a redução da pobreza rural em 30 municípios do semiárido da Bahia
Meta: beneficiar aproximadamente 70 mil famílias
Componentes:
- Desenvolvimento do capital humano e Social
- Desenvolvimento produtivo, acesso a mercados e sustentabilidade ambiental
- Gestão, monitoramento e avaliação
Público-alvo: famílias organizadas em associações, comunidades quilombolas ou assentamentos
Metodologia: desenvolvimento participativo

Implementação :
- Consoliação de empreendimentos associativos do Projeto Gente de Valor;
- Trabalho com comunidades e organizações econômicas (selecionadas pelo critério de renda)

Mais Detalhes

O projeto

Fonte: Companhia de Desenvolvimento e Ação Regional (CAR)

Área de Atuação

Fonte: Companhia de Desenvolvimento e Ação Regional (CAR)

Informações disponibilizadas

Levantamento de informações (CAR) sobre 2.369 comunidades, tratadas e não tratadas;

- Território
- Tipologia
- Faixas de números de famílias:
- Área Plantada
- Produtos explorados
- Localização geográfica
- Criação predominante
- etc.

Grupo	Total de Comunidades
Tratamento	408
Comparação	1.961

Informações disponibilizadas

Estratos de comunidades:

Informações disponibilizadas

Tamanhos amostrais pré-determinados
- Entre 300 e 400 comunidades
- Cerca de 2000 famílias
- Previsão de amostra controle $3\times$ maior que amostra de tratamento para PSM posterior

Alternativa proposta: PSM prévio a nível de comunidade

PSM (Bahia)

Pareamento tratamento - controle

Variáveis

Estruturais e de organização social
- Uso e acesso à energia elétrica
- Consumo de água
- Existência de organização social
Demográficas
- Número de famílias
- Classes de grau de dispersão

Variáveis

Geográficas
- Dummies de identidade do território:

Território de identidade	Comunidades
Bacia do Jacuípe	62
Siasal	149
Piemonte da Diamantina	494
Pimonte Norte do Itapicuru	679
Sertão de São Francisco	985

Demais variáveis
- Dummies de tipologia

Tratamento prévio dos dados

Foram desconsideradas as comunidades com menos de 10 famílias
Desconsiderados os estratos com 2 comunidades;
Cadastro final: 1.831 comunidades:

Grupo	Total de Comunidades
Tratamento	341
Comparação	1.490

Implementação

PCA e PSM por estrato
Determinação (dentro do estrato) de 1 comunidade não-tratadas "gêmea" de cada comunidade tratada
Seleção: melhor distância

Resultados:
- 341 comunidades de tratamento;
- a mesma quantidade no controle
- total: 682

Alocação da amostra (Bahia)

Plano amostral

Amostragem aleatória dois estagios

Especficiações
- Estratos: identidades socioculturais das comunidades
- PSU (Primary Sampling Unit): comunidades;
- SSU (Secondary Sampling Unit): domicílios;
- População: totais de famílias das comunidades beneficiadas + familias das comunidades gemeas;
- Seleçao do PSU: probabilidade proporcional ao tamanho (PPS)
- Seleçao do SSU: total alocado para manter a amostra auto-ponderada
- Total de PSUs: $300$ (metadae para tratamento)
- Total de SSUs: $2000$ (metadae para tratamento)

Plano amostral

Resultado: (após arredondamentos)
- 312 comunidades
- 2.149 famílias
- Média de 7 famílias por comunidade

Plano amostral

Passo-a-passo
- alocação de 300/2 comunidades de tratamento entre os estratos proporcional ao número de famílias
- alocação de 2000/2 famílias entre os estratos de forma proporcional ao número de famílias
- Para cada estrato de tratamento, cálculo da probabilidade $z_{hi}$ de seleção do PSU $i$ no estrato $h$
- No mesmo estrato, seleção de comunidades tratadas usando $z_{hi}$ como probabilidade (função sample do R)
- Identificar as comunidades gêmeas
- Calcular fator fixo $f_0 = m_h/M_h$ e recalcular $z_{hi}$ para controle e tratamento
- Estabelecer $m_{hi}$ em função de $f_0 = m_h/M_h$ e $z_{hi}$ para manter a amostra auto-ponderada [@cochran]: \[m_{hi} = \frac{f_0 \times M_{hi}}{n_h \times z_{hi}}\]

Plano amostral

Detalhes
- \[z_{hi} = \frac{M_{hi}}{M_h}\]
- $M_{hi}$: número de famílias na PSU $i$, estrato $h$
- $M_{h}$: número total de famílias no estrato $h$
- Sendo $z_{hi} = \frac{M_{hi}}{M_h}$, então \[m_{hi} = \frac{f_0 \times M_{hi}}{n_h} \times \frac{M_h}{M_{hi}} = \frac{f_0 \times M_{h}}{n_h} = constante \]
- Em outras palavras, se o PSU é selecionado (sem reposição) com PPS, a amostra é auto-ponderada quando o tamanho de amostra é constante

Plano amostral

Instruções para campo: estágio 1 (comunidade)

Localizar e acessar a comunidade sorteada.
Buscar no município ou;
Utilizar as coordenadas disponibilizadas.
Construir cadastro de famílias:
Um mapa ou desenho esquematico dos domicilios da comunidade, que permita visualizar ou definir um ordenamento logico;
Uma lista de familias que habitam a comunidade
OBSERVAÇÃO: após esta construção, registrar o total atualizado de famílias/domicílios na comunidade

Estágio 2 (famílias)

Do cadastro elaborado, sortear famílias
- as famílias/domicílios devem ser literalmente sorteadas
Cenário 1: cadastro é uma lista de famílias
1. Enumerar as famílias cadastradas
2. Usar um gerador de números aleatórios
3. Entrevistar as famílias enumeradas com os números sorteados
Cenário 2: cadastro é um mapa ou esquema
1. Obter o intervalo de seleção, $k = Total_{comunidade}/AMOSTRA$ e arredondar;
2. Na comunidade, selecionar aleatoriamente o primeiro domicílio entre os $k$ primeiros para entrevista;
3. Pular $k$ domicílios e entrevistar o segundo, e assim sucessivamente;
  - isso configura o método sistemático de coleta

Erro amostral estimado

Variância de um estimador de proporção $\hat{\pi}_{ppz}$ para PPS em dois estágios

\[ V(\hat{\pi}_{ppz}) = \frac{1}{M_0²}\sum\limits_{i=1}^{N}\frac{z_{i}}{n}\left(\frac{Y_{i}}{z_{i}}-Y \right)^2 + \sum\limits_{i=1}^{N} \frac{M_{i}^2(1-f_{2i})S^2_{2i}}{m_{i}z_{i}n} \]

Com $z_i = \frac{M_i}{M_0}$, é possível mostrar que

\[ V(\hat{\pi}_{ppz}) = \frac{1}{n}\left[\sum\limits_{i=1}^{N}\frac{M_{i}}{M_0}\left(\bar{Y_{i}} - \bar{Y} \right)^2 + \sum\limits_{i=1}^{N} \frac{M_{i}}{M_0}\frac{S^2_{2i}}{m_{i}}(1-f_{2i})\right] \]

Assim sendo, a margem de erro é dadar por $z_{1-\frac{\alpha}{2}} \times \sqrt{V(\hat{\pi}_{ppz})}$

Contexto e visão geral

Atuação do FIDA no Brasil

Atuação do FIDA no Brasil

Parceria FIDA & IPC-IG

Sergipe

Projeto Dom Távora

O projeto

Área de Atuação

Implementação

Informações disponíveis

PSM (Sergipe)

Pareamento tratamento - controle

Variáveis

Variáveis

Tratamento prévio dos dados

Implementação

Resultado

Alocação da amostra (Sergipe)

Plano amostral

Plano amostral

Erro amostral estimado

Erro amostral estimado

Instruções para campo

Instruções para campo

Problemas no município de Lagarto

Bahia

Projeto Pró-Semiárido

O projeto

O projeto

Área de Atuação

Informações disponibilizadas

Informações disponibilizadas

Informações disponibilizadas

Informações disponibilizadas

PSM (Bahia)

Pareamento tratamento - controle

Variáveis

Variáveis

Tratamento prévio dos dados

Implementação

Alocação da amostra (Bahia)

Plano amostral

Plano amostral

Plano amostral

Plano amostral

Plano amostral

Instruções para campo: estágio 1 (comunidade)

Estágio 2 (famílias)

Erro amostral estimado

Erro amostral estimado

Obrigado!