Simbolo Colorido

Esse protocolo tem por objetivo padronizar a forma como renomeamos nossas variáveis, ou seja, as colunas dos bancos de dados quando fazemos a limpeza e o tratamento deles no LEPES.

A ideia de criar e seguir as mesmas regras em todos os projetos aqui é para evitar nomes de variáveis sem significado aparente e pouco intuitivos na nossa renomeação e também para integrar o laboratório, facilitando o entendimento e inserção de novas pessoas dentro de cada projeto com maior facilidade, além de claro, estabelecer um padrão LEPES.

Com isso, a chance de perder tempo buscando informações do que significaria tal coluna e em casos mais extremos, por falta de informação, perder até mesmo o próprio dado coletado reduz bastante e nossos bancos ficam mais organizados.

Começando a definir nossa padronização, estabelecemos os três tipos de caracteres que poderão constar no nome das variáveis:

  • letras maiúsculas

  • números

  • underline

Agora, vamos explicar cada uma das informações que conterá no nome para você compreender a lógica da construção da regra de renomeação de variável e portanto ficará mais fácil sua aplicação posteriormente quando for trabalhar com essa parte em sua limpeza de dados.

Identificação - Tipo de variável

Estamos definindo os tipos gerais de variáveis e fixando uma sigla para cada uma. Serão essas siglas que irão compor inicialmente o nome da variável para identificar qual seu tipo.

  • Variável (V) - dado referente a informações medidas em uma população. Há variáveis qualitativas (nominais e ordinais) e quantitativas (contínuas e discretas).

  • Variável Derivada (VD) - variável que é gerada dentro do banco de dados a partir de outra variável, tida como principal.

  • Flag (F) - variável que tem a função de informar o tipo de dados faltantes, os chamados ‘missings’ e será criada quando houver violações (de suporte ou de fluxo).

  • Item (I) - Compõem um conjunto de itens que tem a finalidade de nos informar sobre algum tema mais geral e que portanto necessita de uma série de informações para que consigamos transmitir algum resultado.

  • Escore (E) - número gerado a partir de um cálculo que representa alguma informação em níveis individuais

  • Escore externo (EX) - número gerado a partir de um cálculo externo que representa alguma informação em níveis individuais

  • Escore padronizado (Z) - número convertido em escala padronizada

Teremos as seguintes exceções para as colunas que irão conter os seguintes dados. Nesses casos, as renomeações serão uma sigla padrão única.

  • Identificador (ID) - Identificador único

  • Caderno (CADERNO) - Identificação dos cadernos utilizados

  • Ano (ANO) - Ano em que os dados foram coletados

  • Check de atenção (CHECK_ATN) - Variável que checa se as pessoas estão de fato prestando atenção e preenchendo o instrumento de maneira correta.

Identificação - Tema da variável

Nessa parte do nome da variável, dois números serão para identificar de qual tema principal aquela questão dentro do instrumento de coleta era e principalmente, o tema para o qual ela queria medir ou coletar algum tipo de informação específica.

Além disso, teremos um número para identificar o subtema da variável, caso haja, dentro da nossa classificação. Quando não houver subtema específico, colocaremos o número “0” (zero), identificando que naquele tema não há.

Abaixo, deixamos uma tabela com os códigos e temas mapeados dentro dos principais assuntos que o LEPES pesquisa e que abrange todos os instrumentos que trabalhamos aqui.

Banco de Questões

O Banco de Questões do LEPES reúne todos os itens dos instrumentos e questionários que trabalhamos aqui. Ele é separado por cada tema e subtema, apresentados acima e uma vez proposto um nome para cada variável, a ideia é que continuemos a utilizar o mesmo independente da base de dados da qual aquela mesma variável está inserida.

Portanto, o banco de questões deverá ser sempre consultado e alimentado com novas questões e/ ou atualizações de questões. Cada uma das variáveis serão enumeradas de acordo com a sequência que se encontram nesse banco.

Regras

Nossa estrutura principal para renomeação de variáveis é composta primeiramente por uma sigla que identifica o tipo de variável, seguido de dois números que representam o tema principal da questão do instrumento de pesquisa e um número que vai sinalizar o subtema da questão, caso houver. Por fim, teremos três números para identificar a posição da questão no banco de questões do LEPES.


Tipo variável (1) + Código de identificação de TEMA e SUBTEMA da variável (2) + Número no banco de questões (3)


De forma mais detalhada, abaixo iremos apresentar como construir a renomeação de cada tipo de variável:

1. Variável

V + Código do TEMA e SUBTEMA + Número no banco de questões

Podemos entender variáveis como sendo informações coletadas que conseguimos fazer análises e interpretar por si só, sem necessidade de haver um conjunto de variáveis para entender alguns aspectos ou dimensões. Na tabela acima, iremos apresentar um exemplo de construção do nome de uma variável. Para começar, usaremos a sigla “V” para indicar que é uma variável. Após isso, precisamos identificar através dos códigos qual o tema e subtema (se houver). Nesse exemplo, o tema é Contextual com código 02 e como não há subtema, colocamos o número zero para indicar isso. Por fim, os três últimos números seguem a sequência no banco de questões. Assim, nossa variável ficará renomeada da seguinte forma: “V + 02 + 0 + 002”.


2. Item

I + Identificação por TEMA e SUBTEMA + Número no banco de questões

O que denominamos por “Itens” são um conjunto de questões que precisam estar agrupados para conseguir nos informar sobre alguma dimensão. Assim, para construimos o nome de nossa variável, começaremos com a sigla “I”, dois códigos para o tema do item, no nosso caso, o código 05 que representa Competências Socioemocionais, o número seguinte representa o subtema, que não temos neste caso e os três números seguintes nos indica a posição que esse item se encontra no nosso banco de questões. Portanto, a renomeação ficará da seguinte forma: “I + 05 + 0 + 039”.


3. Variável Derivada - tipo padrão

VD + Identificação por TEMA e SUBTEMA + Número no banco de questões

Chamamos aqui de variável derivada - tipo padrão todas as variáveis produzidas dentro da base de dados a partir de uma variável bruta e que não são variáveis dummies, ou seja, essa regra exclui todas variáveis binárias (dummies).

Neste exemplo, estamos criando uma variável derivada que calcula a idade com base na variável original coletada com a data de nascimento do indivíduo. Assim, essa variável será renomeada da seguinte forma: “VD + 02 + 0 + 001”.


4. Variável Derivada - tipo dummy

VD + Identificação por TEMA e SUBTEMA + Número no banco de questões + _ + Código da resposta

Variáveis dummies são variáveis de questões de múltipla escolha onde na base, os dados são geralmente apresentados em conjunto. Portanto, para que as informações coletadas sejam úteis devemos transformar em variáveis binárias (dummies). Aqui, iremos quebrar nossas informações que estão agrupadas em individuais. No exemplo acima, entendemos havia 6 possibilidades de respostas. Assim, foram criadas seis novas colunas, em formato de variáveis binárias para deixar essas informações mais fáceis de serem analisadas. Assim, para criar novas variáveis dummies a partir de outra variável basta mudar a sigla, indicando agoa que é “VD”, o tema, subtema e código do banco de questões da variável e por fim adicionar o underline “_” e o código de respostas daquela questão. Então, se a questão possui seis alternativas, nós devemos criar seis novas colunas.


5. Flag

F + Nome da Variável

O objetivo das flags é indicar alguma violação que houve durante a coleta de dados, sendo elas de suporte ou de fluxo. Assim, só haverá colunas de flags caso os dados de alguma variável contenham erros. No exemplo acima, stamos analisando a variável derivada que indica a idade dos(as) professores(as). Aqui temos um suporte dessa variável que a idade da professora vai do valor mínimo de 18 anos até o valor máximo de 80 anos (esses valores foram estabelicidos para nosso exemplo. Pode ser que seu projeto os valores mudem). Assim, as respostas 12, 106 e 98 estão fora de suporte e portanto estão incorretas. Nesse caso, vamos criar uma nova coluna, chamada de “flag” em que todos os valores fora de suporte serão codificados com 97, os dados faltantes, aqueles que não foram coletados, ficaram com o código 99 e as respostas que estão corretas ficaram “NA” na coluna flag. Para renomear essa nova coluna, basta adicionar o “F_” e o nome da variável que ela já possui. No nosso caso, antes a variável tinha o seguinte nome “VD020001” e agora sua flag terá o seguinte nome - “F_VD020001”.


6. Escores internos

E + Identificação por TEMA e SUBTEMA + Construto + Dimensão + Faceta

Os escores são separados por internos e oficiais. São considerados “internos” aqueles em que a forma de calcular foi criada aqui dentro do LEPES.

7. Escores oficiais

E + Identificação por TEMA e SUBTEMA + Construto + Dimensão + Faceta + _ + “EX”

Já os escores dito “oficiais” são os escores em que já são aceitos pela literatura e são externos ao LEPES.


8. Escores padronizados

Z + Identificação por TEMA e SUBTEMA + Construto + Dimensão + Faceta


9. Escores padronizados oficiais

Z + Identificação por TEMA e SUBTEMA + Construto + Dimensão + Faceta + _ + “EX”


10. Mudança de enunciado

Tipo variável + Identificação por TEMA e SUBTEMA + Número no banco de questões + Sinalização de mudança no enunciado

Como apresentamos acima, temos um banco que contém todas as questões, com seu nome de variável e labels. Caso houver alguma mudança de enunciado das questões, iremos sinalizar, adicionando uma letra do alfabeto ao final do nome da variável no banco de dados (por sequência). No nosso exemplo a variavél “V020071” passou a ser “V020071A” onde o “A” significa que houve modificação na forma de se perguntar a questão.


11. Questão aplicada mais de uma vez na mesma coleta

Tipo variável + Identificação por TEMA e SUBTEMA + Número no banco de questões + _ + T + Sequência que foi aplicada

Quando houver uma variável que será coletada mais de uma vez em um mesmo campo, iremos acrescentar ao final do nome de cada uma a expressão “(nome_variave)_T1, …_T2, …_T3”, assim será possóvel identificar em sequência em que momento aquele dado foi coletado, ou seja, se foi a primeira vez, ou a segunda vez e assim por diante.

Contato

Laboratório de Estudos e Pesquisas em Economia Social (LEPES).

Rua das Paineiras, casa 11. Campus da USP-RP

www.lepes.fearp.usp.br

  1. 3315-3918

Acompanhe-nos:
Facebook Instagram Linkedin YouTube Twitter