Simbolo Colorido

O processo de ajustes dos dados consiste em garantir a melhor qualidade, segurança e utilidade dos dados para que estes possam ser analisados depois. Esse processo também pode ser chamado de data cleaning, data cleansing, data munging, data wrangling.

Por que esse processo é necessário? Pois muitos dados brutos vêm do campo com informações pessoais, sem um identificador único¹, com duplicações, erros e violações, e nessas condições os dados não estão prontos para serem analisados.

Assim, para um trabalho eficiente e transparente é preciso organizar um fluxo de trabalho desde antes da aquisição dos dados, criando um identificador único, conforme a Figura 1. Durante a coleta dos dados, se possível, é importante que haja uma checagem frequente para verificar algum erro nos dados para poder corrigi-los a tempo. Logo após a coleta também é importante fazer uma outra checagem, para detectar fraude e fazer correções que melhorem a qualidade dos dados.

Depois dos checks podemos trabalhar com o dados brutos, começando por anonimizá-los. Se a coleta for ao nível do indivíduo e forem perguntadas informações pessoais, como nome, a base bruta conterá essas informações pessoais. Sendo assim, é preciso desidentificar essa base. Quando os dados estiverem anonimizados, aí sim é possível limpá-los. Caso os dados não precisem ser anonimizados, assim que chegarem os dados brutos o passo seguinte será limpa-los.

Durante todo o processo de ajuste dos dados é importante documentar o processo e as decisões tomadas ao longo dele. Saber no futuro o que aconteceu, o que foi decidido e o porquê foi decidido, pode ser necessário e se não houverem esses registros será muito difícil, ou até impossível, saber tudo o que ocorreu.

Para além desse interesse num projeto passado, a Lei Geral de Proteção de Dados (LGPD)² requer um registro das atividades, ou seja, precisamos documentar todo o processo. A LGPD também exige que os dados pessoais não sejam de acesso público. Isso quer dizer que, um dos primeiros passos a se tomar quando temos uma base com dados pessoais é anonimizar.

Por fim, ao ler a documentação, alguém não familiarizado com o projeto deve ser capaz de compreender o conteúdo dos conjuntos de dados de análise, as etapas executadas para criá-los, e o processo de tomada de decisão por meio de sua documentação.

Figura 1 - Fluxo do processo de ajuste dos dados

Identificador único

Antes de entrevistar alguém ou avaliar algo ou alguém tem-se uma lista desse grupo. A partir dessa lista criamos o identificador que deve ser único. Note que mesmo que não alcancemos todos, é importante saber quem pertencia a amostra potencial³.

Como deve ser o identificador O identificador deve ser uma sequência de números e somente números. Exemplo: 201823129081001501001.

Como construir esse identificador? Os primeiros dígitos do identificador correspondem ao ano da coleta seguido pelo código de município da coleta e este código de município deve ser o código de município do IBGE de 7 dígitos. Para saber qual o código do IBGE do seu município acesse https://www.ibge.gov.br/explica/codigos-dos-municipios.php.

Em seguida, é preciso identificar a unidade de análise. A unidade de análise pode ser pessoa, escola, domicílio, bairro, município, estado, país… Para cada unidade de análise existe seu código correspondente.

Códigos da unidade de análise:

Pessoa ou indivíduo - 1
Turma - 2
Escola ou domicílio - 3
Bairro ou outra unidade geográfica menor que município - 4
Município - 5
Estado - 6
País - 7

Por fim, depois de ano, municipio e unidade, os dígitos seguintes devem ser contruídos segundo a lógica de “funil” com base nas informações da unidade de análise.

Sobre a lógica de funil: os primeiros dígitos correspondem uma informação mais agregada, como uma escola. Os dígitos seguintes correspondem a uma informação menos agregada, como por exemplo o ano escolar. Os próximos dígitos seguem a mesma ideia, até chegar no nível do indivíduo (ou unidade de análise). Para todos esse níveis de agregação haverá um código e somente no último nível que não haverá um código mas sim números sequenciais, essa parte que dará a anonimização. Siga com os exemplos abaixos para uma melhor compreensão de como funciona essa lógica.

Um exemplo sobre a lógica de funil: para o caso em que a unidade de análise é o aluno, podemos ter a escola, série ou ano escolar e turma como as informações do “funil.” Para seguir com a lógica, definimos primeiro os códigos para escola e depois para o ano escolar⁴.

Já para o código das turmas precisamos ter atenção pois para cada escola e cada ano escolar dessa escolar haverá algumas turmas e para essas turmas nós criamos uma sequência de códigos. Para essa mesma escola porém outro ano escolar haverá uma outras turmas e , para essas turmas, criamos uma nova sequência de códigos (começamos do início de novo).

Já para o código de aluno, seguimos a mesma lógica das turmas sendo que agora temos mais um nível para levar em consideração. Assim, para a escola X, do ano escolar Y e para a turma Z cria-se uma sequência de códigos para cada aluno.

Note que, dessa forma os números dos códigos não identificam qual escola é, ou turma ou aluno, mas podem identificar quantas escolas têm, quantas turmas e quantos alunos têm também.

Veja uma ilustração da lógica de funil:

Figura 2 - Ilustração da lógica de funil

Veja um exemplo de identificador criado:

Observe que os códigos são compostos por zeros à esquerda e esses zeros estão ai pois indicam quantas casas esse código compõe. Nesse caso, há mais de cem escolas e alunos, ou então há quase noventa alunos ou escolas. Caso não tenha informação de algum dos níveis, substitua por 99 ou 999 ou 9999, conforme o número de casas houver. Porém se atente que não pode haver 998 alunos ou escolas, senão o significado⁵ do 999 se esvairá!

Ainda, caso o seu projeto ou dados forem longitudinal, utilize a informação de ano do momento em que a unidade de análise entrou na amostra. Assim, se um aluno entrou em 2018 na coleta mas também participou em 2019, seu identificador ficará para 2018 e para as suas informações de 2018 (escola, ano escolar e turma) e o identificador não mudará com os anos!. Agora, se um aluno entrou na amostra em 2019, seu identificador ficará com o ano de 2019 e suas informações desse mesmo ano.

Base cadastro

Ao criar o identificador único, ao mesmo tempo cria-se a base cadastro. Primeiro, o que é essa base cadastro? Ela é uma base que possui o identificador único + informações utilizadas para construção do identificador + informações pessoais (cpf, e-mail, data de nascimento…).

Essa base tem o objetivo de identificar toda a amostra que a pesquisa pretende atingir e também ser uma base conectora ou “tomada,” ou seja, uma base que permite unir a base de dados com o identificador único.

Note que, ao unir a base de dados com a base cadastro, caso exista alguma observação sem identificador único, é possível criar um identificador único para essa observação com as informações disponíveis para o preenchimento do identificador e, por fim, adicionar essa observação a base cadastro.

Em suma, na base cadastro é preciso conter as seguintes colunas: identificador, as colunas com os códigos que compõe o identificador, nome do aluno, informações pessoais, e, por fim, as colunas que identificam os códigos do identificador. Por exemplo: se tem código da escola, também precisa ter uma coluna com o nome da escola.

Checks de qualidade

Ao coletar dados, é de suma importância garantir a qualidade dos dados, ou seja, garantir que a resposta está fidedigna a realidade. Uma forma de garantir a qualidade é checando como eles estão durante a coleta. Caso encontre erro e seja possível e viável, refaça a coleta dos casos com erro.

Um dos problemas ao coletar dados é a falsificação dos dados, como por exemplo, é possível que um aplicador de uma entrevista preencha ele mesmo as respostas sem ter feito nenhuma entrevista. Outro exemplo possível, é um aplicador que não foi na escola levar o questionário para alunos responderem e falsificar as respostas destes alunos.

Ainda, para garantir a qualidade dos dados precisamos compreender os tipos de coleta de dados possíveis:

Entrevista: quando o entrevistador faz uma série de perguntas e anota as respostas. A entrevista pode ser pessoalmente, por telefone ou chamada de vídeo.
Observação: consiste em ver, ouvir e examinar fatos ou fenômenos
Questionário Auto-relato: o próprio indivíduo preenche o questionário com perguntas sobre ele mesmo, com ou sem ajuda de outra pessoa.
Questionário Hétero-relato: o próprio indivíduo preenche o questionário com perguntas sobre terceiros, com ou sem ajuda de outra pessoa.

Diante da possibilidade desses problemas, para garantir a qualidade precisamos nos questionar:

Como podem fraudar/falsificar as respostas?
- Como podemos verificar fraude?
Como verificar se o questionário foi compreendido pelo aplicador?
- Como podemos verificar que o aplicador está entrevistando/aplicando direito o instrumento?

Perante esses problemas, é preciso identificar como solucioná-los para o caso do seu projeto. Para verificar se o questionário foi entendido pelo aplicador, por exemplo, é possível fazer checagem das respostas durante a coleta. Além disso, durante a coleta é preciso que seja feito um acompanhamento dos aplicadores, por exemplo, caso o aplicador tenha que ir em uma escola é preciso ligar para a escola e verificar se ele de fato foi.

Durante o campo

A checagem dos dados durante o campo é de suma importância pois permite que seja possível identificar problemas e corrigí-los a tempo.

Entrevista e observação

Durante o campo, uma das formas de checar se o aplicador entendeu o instrumento ou verificar se ele está aplicando corretamente é procurar por violações e o percentual de missing ou “não sei” por aplicador. Ver o percentual de “não sei” ou missing por aplicador ajuda a identificar se o aplicador entendeu o instrumento ou se ele está aplicando direito o mesmo. Ver o percentual de “não sei” ou missing por questão ajuda a identificar se a questão está bem formulada ou está sendo compreendida.

Ainda, durante o campo, é importante checar se existem violações para que essas possam ser verificadas e corrigidas a tempo. Como por exemplo, pode ser que mais de uma observação seja feita na mesma escola e tenham-se respostas contraditórias ou é até possível que tenham-se respostas contraditórias dentro de uma mesma observação e/ou entrevista.

Questionário

Quando a coleta de dados não é feita por uma entrevista ou observação, ou seja, a própria pessoa responde o questionário a verificação da qualidade dos dados se dá de uma forma diferente. Nesse caso, uma forma de verificar se as pessoas estão entendendo alguma questão é verificar o percentual de missing ou de “não sei”. Identificar isso a tempo permite que para as novas aplicações tenha uma orientação que esclareça melhor essa questão.

Já em relação a identificação de fraudes, é possível identificar se as respostas estão em blocos, ou seja, um grupo de perguntas possuem todas a mesma resposta “A” e o grupo seguinte uma mesma resposta “C” e assim por diante. A lógica por traz dessas respostas em bloco está em quem não quer responder o questionário tende a responder tudo igual e, também, o aplicador que deseja fraudar as respostar tende a responder tudo igual⁶ Vale ressaltar que isso é um INDICATIVO de fraude ou mentira e serve como um alerta para acompanhar a qualidade dos dados dessa turma/escola e/ou aplicador.

Refazer a coleta

Caso seja necessário refazer a coleta, é preciso que essa necessidade seja identificada e a coleta seja refeita o quanto antes.

Organização dos dados

Após todos os checks serem feitos e a coleta terminada, o próximo passo é organizar a base bruta⁷. Uma base organizada é uma base em que cada linha é uma observação (ou indivíduo).

Como organizar uma base bruta? O objetivo é ter uma base em que cada linha é uma observação, para isso é preciso ver se há duplicações do identificador único da base. Ainda, é possível que a base de dados contenha informações de mais de um nível, como por exemplo de domicílios e de moradores. Diante disso, é preciso separar a base para cada nível. Por fim, em cada uma dessas bases é preciso identificar também se há duplicações no identificador único.

Duplicações

É comum encontrarmos duplicações nos dados brutos porém a questão é: como tratá-los? Não podemos simplesmente excluir todas as duplicações, é preciso investigar mais antes de admitir que não conseguimos ou podemos usar essas informações.

Primeiro, checamos se há duplicações exatas, ou seja, linhas iguais. Nesse caso podemos excluir uma das linhas. Mas ATENÇÃO, É MUITO IMPORTANTE DEIXAR COMENTADO NO SEU PROGRAMA O POR QUÊ ESTÁ EXCLUINDO ESSA(S) LINHA(S)!
Segundo, checamos se há duplicação em que uma linha está preenchida e a outra vazia (com missing). Nesse caso, opta-se por excluir a linha/observação vazia. Mas lembre-se É MUITO IMPORTANTE DEIXAR COMENTADO NO SEU PROGRAMA O POR QUÊ ESTÁ EXCLUINDO ESSA(S) LINHA(S)!
Terceiro, se há duplicações em que há respostas diferentes é preciso identificar se é a mesma pessoa (ou unidade de análise). Para fazer essa identificação, é preciso observar os dados das informações pessoais como data de nascimento, raça, sexo… ou então, observar os dados das informações mais pessoais possíveis que tiver. Ao análisar esses dados você pode chegar em dois casos⁸:
- As observações são da mesma pessoa. Nesse caso, opta-se por uma observação e exclui-se a outra.
- As observações são de pessoas diferentes. Nesse caso, se a sua coleta for longitudinal ou tiver acontecido em vários dias, pode-se optar por excluir ambas observações. Nessa situação é possível exlcuir pois, não será possível parear essa informação. Caso a sua coleta seja uma cross-section e tenha ocorrido somente em um dia, é possível manter ambas observações porém, não será possível reconhecer a quem estas respostas pertencem.
Por fim, ainda é possível buscar informações sobre os dados em arquivos externos, como por exemplo no arquivo de cronograma do campo ou de acompanhamento de campo. Esses arquivos, em geral, contém informações do que aconteceu durante o campo, quando e onde algum problema ocorreu. Assim, caso tenha uma duplicação no indivíduo com datas de aplicação diferentes, é possível recorrer ao cronograma e verificar quando este indivíduo provavelmente foi alcançado.

É muito importante tentar recuperar (ou não perder) o máximo de informações possível!

Anonimização dos dados

Assim que os dados forem organizados e que cada linha represente uma observação, o próximo passo é anonimizar os dados. Lembrando que é impossível anonimizar completamente os dados, pois sempre haverá uma chance de reconhecer um indivíduo nos dados.

Como anonimizar os dados? A anonimização dos dados consiste em retirar as informações pessoais da base e separá-las numa outra base, chamada base de dados pessoais. A base de dados pessoais e a base anonimizada se conectam pelo identificador único. Assim, no lugar de uma informação pessoal para identificar as observações estará o identificador único. Essa técnica de anonimização é a pseudonimização, já a técnica em que retiram-se as informações pessoais da base de dados é a supressão (PDPC 2018).

Ainda, é possível transformar a informação pessoal de forma a categorizá-la. Por exemplo, para a informação de data de nascimento, é possível calcular a idade da pessoa e em seguida criar categorias de faixas etárias.

Um outro método possível de ser aplicado é a generalização, que deve ser utilizada quando for possível generalizar a informação e quando a informação generalizada ainda for útil (PDPC 2018). Por exemplo, para a informação de endereço pode transformar a respostas de rua, número e complemento em somente rua ou ainda bairro: Rua Primeiro de Março, 66 ficaria Rua Primeiro de Março ou Centro.

O que são informações pessoais? Informações pessoais são informações que permitem identificar os indivíduos como o nome, data de nascimento, endereço, e-mail, número de telefone ou celular… É importante ressaltar que informação pessoal é diferente de informação sensível. Informação sensível diz respeito a uma informação que pode gerar uma discriminação, como raça, religião, entre outros.

Além das informações pessoais, é preciso retirar da base as informações administrativas, como a informação do entrevistado. Essas informações que serão retiradas da base bruta devem ficar na base de dados pessoais.

Sumarizando: Quais são os resultados desse passo? Uma base de dados anonimizada e uma base de dados pessoais.

Limpeza dos dados

Os dados brutos em sua grande maioria vêm com alguns erros e por isso é importante “limpá-los” para poder analisá-los porém, é importante manter os dados mais próximo possível dos brutos ou originais. Por isso, somente corrija os erros e faça as alterações necessárias.

Essa etapa também costuma ser longa e é de suma importância que todos os passos até aqui, inclusive este de limpeza, sejam feitos com atenção pois eles que vão garantir a qualidade dos dados e a confiabilidade dos resultados. Também, se feitos com atenção, evitam que trabalhos precisem ser refeitos.

Ainda, lembre-se sempre de comentar no seu script todas as mudanças que estão sendo feitas nos dados. Comente sempre o quê está sendo feito e por quê isso está sendo feito. Essa documentação é MUITO importante, pois deixa claro as decisões da pesquisa. Então, deixe seu código sempre muito bem comentado.

Alguns aspectos sobre a limpeza de dados são ajustes de como tratar variáveis categóricas, questões abertas, questões com mais de uma resposta, cadernos e entre outros. Outro aspecto sobre a limpeza é a correção de dados relacionado a como lidar com uma violação.

Variáveis categóricas

Em relação as variáveis categóricas, ou variáveis de multipla escolha, é preciso transformar a resposta de letra para numérica. Por exemplo, quando as opções de uma variável for A,B,C e D, ao transformar para númerico ficam 1, 2, 3 e 4. Caso os dados brutos já venham assim, então não há mudança a se fazer.

Questão aberta

Nas perguntas abertas em que o entrevistado tem um espaço para livre resposta e a resposta é um texto (uma frase, palavra ou parágrafo) não será feito nenhuma mudança, ou seja, essa variável será mantida conforme o dado bruto.

Mais de uma resposta (na mesma questão)

É comum a alguns questionários a presença de perguntas em que é possível mais de uma resposta, como no exemplo da Figura 2 abaixo. Nesse tipo de questão, caso as respostas estejam em um formato não numérico, é preciso transformá-las para numérico.

Note que na questão da Figura 2 há 11 opções de respostas, se elas tiverem na base com letras do alfabeto é preciso transformar para números. Se alguma resposta for: A,B,G, ela deve ficar 1,2,7.

Figura 3 - Exemplo que pergunta com mais de uma resposta

Duas questões na mesma coluna (cadernos)

Outra situação comum a muitos questionários são a criação de cadernos. Estes costumam ser aleatorizados na amostra e seus conteúdos podem ser diferentes entre si ou iguais. Ou seja, um caderno A pode conter as mesmas questões que o caderno B mas as questões podem estar em uma ordem diferente, ou então, os cadernos A e B contém questões diferentes.

No primeiro caso, em que as questões são iguais mas em ordem diferente, é preciso reordenar as questões dos cadernos de tal forma que seja possível “colocar uma base de dados em cima da outra”⁹. Note como isso é exemplificado na Figura 4 abaixo.

Figura 4 - Exemplo cadernos com respostas iguais

Caso os cadernos contenham questões diferentes entre si não é possível colocar as respostas correspondendo a mesma coluna, ou seja, é preciso criar uma coluna para cada caderno, conforme na Figura 5 abaixo. Note que é preciso criar uma coluna que indique qual caderno foi respondido e essa coluna também precisa ser criada para o caso anterior.

Figura 5 - Exemplo cadernos com respostas diferentes

Violações

O que são violações? Violações são erros comuns de ocorrerem em bases de dados e por serem comum foi possível identificar esse padrão entre eles e nomeá-los. Dois tipos de violações comuns são a violação de fluxo e a violação de suporte.

Violação de fluxo ocorre quando tem uma questão que é condicional a outra e essa segunda questão só deve ser respondida para uma resposta da primeira questão. Por exemplo na Figura - abaixo, uma violação de fluxo seria se alguém respondese qualquer resposta sem ser 7 e 8 na questão 9 e na questão 10 respondesse qualquer resposta diferente de 1 ou não aplicável. Já na Figura - , ocorreria uma violação de fluxo quando alguém responder B ou não e responder qualquer uma (basta uma) das questões 45 a 53.

Como tratar: deixar a variável original como está e inlcuir uma coluna flag¹⁰ indicando violação de fluxo. Assim, no exemplo da Figura 6, a coluna da questão 9 ficaria como na base bruta, ou seja, com a resposta 7 ou 8 e uma coluna chamada flag seria criada e para essa observação haveria o código 98

. Já no exemplo da Figura 7, a coluna da questão 9 ficaria como na base bruta, ou seja, com a resposta B e uma coluna chamada flag seria criada e para essa observação haveria o código 98 (código de violação de fluxo).

Figura 6 - Exemplo de uma questão de fluxo

Figura 7 - Outro exemplo de uma questão de fluxo

Como ficaria o exemplo da Figura - (gangue) antes e depois da correção:

**Antes**
Q44	Q45
1	0
1	1
0	1
0	NA
NA	NA

**Depois**
Q44	Q45	F_Q45
1	0	NA
1	1	NA
0	1	98
0	NA	99
NA	NA	99

Violação de suporte ocorre quando em uma questão há uma resposta que foge do escopo das respostas. Por exemplo, se alguém respondesse a questão 9 da Figura - acima com 14 ou 15 ou qualquer outra resposta que não se apresenta como uma opção. Note que qualquer resposta sem ser de 1 a 13 foge do suporte.

Como tratar: nesse caso, a resposta que for fora de suporte será alterada para missing e será criada uma flag para essa variável em que na resposta que estava fora de suporte admitirá o código 97 (código de violação de suporte).

Renomeação das variáveis

Após a limpeza dos dados e que todas correções já tenham sido feitas, o passo seguinte é a renomeação das variáveis, ou seja, a renoemação das colunas dessa base de dados. O LEPES criou sua forma própria de renomear as variáveis e documentou isso no Protocolo de Renomeação de Variável.

Esse protocolo tem por objetivo organizar e padronizar a forma como renomeamos nossas variáveis. A ideia de criar e seguir as mesmas regras em todos os projetos aqui é para evitar nomes de variáveis sem significado aparente e pouco intuitivos na nossa renomeação e também para integrar o laboratório, facilitando o entendimento e inserção dentro de cada projeto com maior facilidade, além de claro, estabelecer um padrão LEPES.

Com isso, a chance de perder tempo buscando informações do que significaria tal coluna e em casos mais extremos, por falta de informação, perder até mesmo o próprio dado coletado reduz bastante e nossos bancos ficam mais organizados.

Assim, busque no Banco de questões se a sua variável já existe. Caso exista, seguirá utilizando o nome já definido para ela. Caso contrário, será preciso criar um nome para ela, conforme o Protocolo de Renomeação de Variável.

Organização da base

Depois de variáveis criadas e bases unidas (mergeadas ou empilhadas) é preciso organizar a base, ou seja, organizar as variáveis. Opte por ordenar as questões conforme o questionário aplicado.Em relação as variáveis criadas, coloque-as ao lado da variável “fonte”. Por exemplo, uma base com 3 questões em que a segunda é uma questão com mais de uma resposta, em que dummies foram criadas, a ordem deve ser Q1, Q2, Q2_1, Q2_2, (…). 3¹¹ Outro exemplo é quando se cria flag, nesse caso a flag também deve ficar ao lado da questão “fonte.”

Revise os dados

Assim que terminar a limpeza da base, é uma ótima prática revisar sua base. Procure por valores fora do suporte (valores ou respostas estranhas) e veja se o que você criou está correto e funcionando como esperado¹². Sempre é possível encontrar algo fora do normal ou algum erro, por isso é importante revisar. Após a revisão, se a base estiver ok e limpa, o próximo passo é salvar. Caso encontre algum problema, solucione-o e em seguida revise novamente. Quando a base estiver ok e limpa já pode salvá-la.

Alinhamento

A amostragem de um estudo consiste em selecionar uma parcela da população, a amostra, que pode representar o total da população do estudo a partir de critérios estatísticos e metodológicos. Para que os resultados da pesquisa sejam similares ao existente na população, uma das etapas é garantir que a amostra tenha um perfil similar à população. Essa questão será garantida por meio da amostragem, a qual não será uma etapa explicada nesse tópico.

O alinhamento corresponde ao caso em que a amostragem foi realizada antes da coleta e, após a coleta, é necessário construir uma base de dados oficial que corresponda ao quantitativo planejado inicialmente. É recomendado que essa etapa seja feita após a limpeza dos dados, de forma que tenhamos todos os dados limpos e seja possível utilizá-los para diferentes perfis da amostra, caso seja necessário posteriormente.

O exemplo a seguir pode auxiliar na explicação de como esse alinhamento é feito:

O exemplo acima ilustra o caso de uma coleta de turmas de creche e pré-escola, a amostra de turmas foi dividida entre faixas etárias e entre os tipos de unidades educacionais, sendo elas: Centro de Educação Infantil da rede direta, Centro de Educação Infantil da rede conveniada e Escolas Municipais com Ensino Fundamental que possuem turma de pré-escola. O objetivo final da coleta desse projeto foi obter exatamente esse quantitativo de turmas em cada perfil.

A primeira coluna se refere a cada estrato, isto é, os perfis, a segunda corresponde ao quantitativo da amostra planejado antes da coleta, a terceira coluna possui a quantidade de turmas coletadas de cada perfil e, por fim, a última coluna possui o quantitativo de cada estrato após o alinhamento da amostra.

Durante a coleta, se alguma turma selecionada do sorteio não pôde receber a pesquisa ou teve sua coleta invalidada por algum motivo, foi necessário substituir essa turma por outra de mesmo perfil. Então, após a coleta, é necessário selecionar, de forma aleatória, as turmas que irão compor a amostra oficial.

Pela tabela é possível observar que os estratos se encaixam em três situações: foi coletado exatamente a quantidade de turmas necessárias (ex: ‘2 anos, CEI Conveniada’), as turmas coletadas são mais numerosas do que a amostra prevista (ex: ‘5 anos, CEI Direta’) e a amostra prevista foi superior ao coletado (ex: ‘3 anos, CEI Direta’). No primeiro caso, a amostra oficial será composta exatamente pelas turmas coletadas, no segundo caso é necessário sortear aleatoriamente o número de turmas necessário para o perfil. No terceiro caso, serão utilizadas todas as turmas coletadas desse estrato e ainda faltará 1, a substituição dessa será feita de acordo com a ordem de prioridade de manutenção da amostra, isto é, no caso de ‘3 anos, CEI Direta,’ a prioridade é primeiro a manutenção dentro do quantitativo da faixa etária e depois o quantitativo de creche e pré-escola, portanto, prioriza-se repor essa turma dentro dos perfis de 3 anos e, se não existir, dentro do estrato ‘2 anos, CEI Direta,’ mantendo a classificação da UE. Quando esse processo é feito para cada estrato, temos, então, base de dados com a amostra oficial com o total de turmas planejado.

Formato dos dados

Os dados gerados na limpeza devem ser exportados (salvos) no formato CSV com o ponto e vírgula (;) como separador e o ponto (.) como decimal.

Nota: caso utilize o software R, utilize o comando na = ““ para salvar o missing como vazio.

Dicionário

O dicionário (ou codebook) é uma planilha com o objetivo de descrever o conteúdo de uma base de dados, assim, é importante que todos os valores de uma base de dados estejam encobertos no dicionário.

Como construir? O dicionário deve ser construído numa tabela do excel ou algum programa similar seguindo o formato de tabela mas que a primeira linha seja mesclada¹³ contendo o logo do LEPES e o texto de “Dicionário da/do …” completado com a sua respectiva base de dados. Em seguida, cada coluna levará cada um dos 10 elementos listados abaixo. Por fim, preencher essa tabela com cada variável da base de dados. Note na Figura 8 como deve ser um dicionário.

Elementos do dicionário:

Código da variável: nome da variável (coluna) que está na base de dados;
Posição: posição na base de dados que está essa variável, ou seja, em qual coluna está;
Tipo da variável: tipo de valores da variável, como lógico, numérico, inteiro, complexo, string;
Tamanho: tamanho máximo em caracteres das respostas dessa variável;
Descrição da variável: qual a pergunta dessa variável ou o que ela representa;
Valores: quais valores possíveis nessa variável;
Descrição dos valores: o que significam os valores possíveis dessa variável;
Percentual de missing: percentual de missing (respostas ausentes) da variável;
Taxa de concentração da moda: taxa de concentração da resposta mais frequente, ou seja, da moda;
Média ou frequência das respostas: média, para as variáveis númericas e frequência das respostas, para as variáveis categóricas.

Figura 8 - Exemplo de dicionário

Para a criação do dicionário, a Equipe de Dados criou uma aplicação que faz parte do trabalho de criação de um dicionário. Essa aplicação está no app Praticidados ¹⁴ e ela extrai as seguintes informações/colunas: código da variável, posição, tipo da variável, tamanho, valores, percentual de missing e taxa de concentração da moda. Note que depois de passar pelo Praticidados, será preciso ainda preencher as outras informações e formatar para o visual padronizado na Figura 8 acima.

Documentação

É de suma importância documentar o todo o processo de ajuste dos dados, e em especial a limpeza dos dados. É importante ter tudo o que foi feito em arquivos acessíveis por vários motivos: para facilitar a divulgação dos dados, para facilitar a publicação de pesquisa, e, para no futuro, conseguir reviver o que foi feito e decisões que foram tomadas. Uma forma de documentar as decisões tomadas e o motivo dessas decisões é comentar tudo isso no seu script¹⁵.

A Equipe de Dados criou uma aplicação que permite que se extraia todos os comentários de um script e salva-os em um arquivo de texto (.txt). Essa aplicação está no app Praticidados. Você poude utilizar essa facilidade para ajudar a construir a sua documentação do que foi feito sem precisar ficar relendo todo o script novamente.

Leia-me

Para documentar a limpeza e todas as outras etapas do Processo de Ajuste dos Dados foram criados arquivos padronizados no formato Leia-me, conforme o Protocolo de Documentação dos Dados.

Sumário de códigos

Códigos para respostas específicas e para cada tipo de missing:

Não sei ou não quis responder recebe o valor do último item da questão;

97 - violação de suporte;

98 - violação de fluxo;

99 - missing padrão (valor ausente).

Códigos da unidade de análise:

1 - Pessoa ou indivíduo

2 - Escola ou domicílio

3 - Bairro ou outra unidade geográfica menor que município

4 - Município

5 - Estado

6 - País

Contato

Laboratório de Estudos e Pesquisas em Economia Social (LEPES).

Rua das Paineiras, casa 11. Campus da USP-RP

www.lepes.fearp.usp.br

contato.lepes@usp.br

3315-3918

Acompanhe-nos:

Referências

PDPC. 2018. “Guide to Basic Data Anonymisation Techniques.” Personal Data Protection Commission Singapore (PDPC).

Variável ou coluna com informação única para cada unidade de análise.↩︎
A LGPD (Lei Nº 13.709) está relacionada ao tratamento de dados pessoais.↩︎
Amostra pontencial significa a amostra que quer-se atingir. Amostra efetiva significa a amostra que de fato foi atingida↩︎
Como ano escolar já é um número por si só, é possível manter somente o número ao invés de criar um código para cada ano. Por exemplo, para o 5º ano pode ficar somente 5 ao invés de criar um código como 1.↩︎
Significa que não há informação (missing)↩︎
Em outras palavras, não espera-se de alguém que queria mentir ou fraudar invista muito tempo em um método de resposta “inquebrável.”↩︎
O termo “bruto” diz respeito a algo não modificado↩︎
Caso ainda não esteja claro se são ou não a mesma pessoa, utilize algum artifício da sua base de dados para identificar se é a mesma pessoa ou não. Por exemplo, para uma coleta de dados em papel, é provável que a cada unidade coleta (ex: escolas) tenha-se um bloco de respostas. Assim, talvez seja possível identificar se o aluno pertence a uma escola ou outra (o que indica que são pessoas diferente), ou são da mesma escola (o que indicaria que é a mesma pessoa)↩︎
No R isso seria um rbind. No Stata seria um append↩︎
Flags são colunas criadas durante a limpeza para informar sobre os missings.↩︎
2_1 e 2_2 são os exemplos de dummy criada para as opções de respostas da questão 2.↩︎
Uma forma simples de revisar no R é fazer um table de todas as variáveis. Isso pode ser feito por meio de um loop(for).↩︎
Terminologia do excel para união de células.↩︎
Aplicativo criado em Shiny pela Equipe de Dados do LEPES com objetivo de sumarizar funções criadas que poupam e facilitam o trabalho feito pela equipe em um único ambiente e de fácil acessibilidade.↩︎
Lembre que comentar no script não altera o resultado dele ou o que está sendo feito nele.↩︎

Processo de ajuste de dados