Este documento descreve a base utilizada na análise: microdados da RAIS (Relação Anual de Informações Sociais), disponibilizados no PDET / Ministério do Trabalho e Emprego (MTE).
No exemplo deste relatório, estamos olhando os dados de 2023 por meio dos arquivos locais. Ainda assim, a base RAIS possui série histórica com dados disponíveis para download desde 1985.
Fontes oficiais e de apoio:
Arquivos analisados nesta pasta de trabalho:
RAIS_ESTAB_PUB.COMT (microdados de
estabelecimentos)RAIS_VINC_PUB_NORDESTE.COMT (microdados de
vínculos/trabalhadores para a região Nordeste)Na base desta análise, os dados estão em arquivos .COMT,
lidos como texto delimitado por vírgula, com codificação
Latin-1.
Exemplo de leitura em R:
library(data.table)
vinc <- fread(
"RAIS_VINC_PUB_NORDESTE.COMT",
sep = ",",
encoding = "Latin-1",
quote = "\""
)
estab <- fread(
"RAIS_ESTAB_PUB.COMT",
sep = ",",
encoding = "Latin-1",
quote = "\""
)
Conforme a página oficial de microdados do MTE, os microdados RAIS/CAGED são disponibilizados para download e os arquivos são acessados via FTP (PDET).
Para microdados RAIS, não existe API oficial pública na documentação utilizada aqui. O acesso é orientado por arquivos para download.
Sem API oficial de consulta dos microdados, as alternativas práticas são:
Observação: para perguntas no nível de microdado (vínculo/estabelecimento), em geral ainda é necessário baixar os arquivos de origem em algum ponto do pipeline.
Na prática, o tópico seguinte (Base dos Dados) detalha justamente a alternativa mais viável dentro desse contexto: consultar por SQL somente o recorte necessário, em vez de transferir sempre arquivos completos.
Neste documento, estamos analisando os arquivos locais de
2023 (RAIS_ESTAB_PUB.COMT e
RAIS_VINC_PUB_NORDESTE.COMT) para exemplificar estrutura e
variáveis.
Para ampliar a análise histórica (ex.: desde 1985) com menor custo operacional, uma alternativa mais viável é usar o conjunto da RAIS na Base dos Dados e consultar apenas o recorte necessário via SQL.
Referências:
Benefícios práticos dessa abordagem:
Crie um projeto no Google Cloud para executar queries no BigQuery (modo sandbox é suficiente para começar).
install.packages("basedosdados")
library(basedosdados)
# Substitua pelo ID do seu projeto no Google Cloud
set_billing_id("seu-project-id")
library(basedosdados)
query_tabelas <- "
SELECT table_name
FROM `basedosdados.br_me_rais.INFORMATION_SCHEMA.TABLES`
ORDER BY table_name
"
tabelas_rais <- download(query_tabelas, billing_project_id = "seu-project-id")
query_colunas <- "
SELECT column_name, data_type
FROM `basedosdados.br_me_rais.INFORMATION_SCHEMA.COLUMNS`
WHERE table_name = 'NOME_DA_TABELA'
ORDER BY ordinal_position
"
colunas_rais <- download(query_colunas, billing_project_id = "seu-project-id")
query_pe <- "
SELECT
ano,
id_municipio,
cnae_2,
natureza_juridica,
tamanho_estabelecimento,
quantidade_vinculos_ativos
FROM `basedosdados.br_me_rais.NOME_DA_TABELA`
WHERE ano BETWEEN 2018 AND 2024
AND SUBSTR(CAST(id_municipio AS STRING), 1, 2) = '26'
"
rais_pe <- download(query_pe, billing_project_id = "seu-project-id")
saveRDS(rais_pe, "rais_pe_2018_2024.rds")
Boas práticas de custo/performance no BigQuery:
SELECT *.ano) e geografia (PE).Total de variáveis identificadas: 23.
kable(tab_estab, caption = "Variáveis em RAIS_ESTAB_PUB.COMT")
| ordem | variavel |
|---|---|
| 1 | Bairros SP - Código |
| 2 | Bairros Fortaleza - Código |
| 3 | Bairros RJ - Código |
| 4 | CNAE 2.0 Classe - Código |
| 5 | CNAE 95 Classe - Código |
| 6 | Distritos SP - Código |
| 7 | Qtd Vínculos CLT |
| 8 | Qtd Vínculos Ativos |
| 9 | Qtd Vínculos Estatutários |
| 10 | Ind Atividade Ano - Código |
| 11 | Ind CEI Vinculado - Código |
| 12 | Ind Estab Participante PAT - Código |
| 13 | Ind RAIS Negativa - Código |
| 14 | Ind Estab Participante SIMPLES - Código |
| 15 | Município - Código |
| 16 | Natureza Jurídica - Código |
| 17 | Região Adm DF - Código |
| 18 | CNAE 2.0 Subclasse - Código |
| 19 | Tamanho Estabelecimento - Código |
| 20 | Tipo Estabelecimento - Código |
| 21 | UF - Código |
| 22 | IBGE Subsetor - Código |
| 23 | CEP Estab |
Total de variáveis identificadas: 61.
kable(tab_vinc, caption = "Variáveis em RAIS_VINC_PUB_NORDESTE.COMT")
| ordem | variavel |
|---|---|
| 1 | Bairros SP - Código |
| 2 | Bairros Fortaleza - Código |
| 3 | Bairros RJ - Código |
| 4 | Causa Afastamento 1 - Código |
| 5 | Causa Afastamento 2 - Código |
| 6 | Causa Afastamento 3 - Código |
| 7 | Motivo Desligamento - Código |
| 8 | CBO 2002 Ocupação - Código |
| 9 | CNAE 2.0 Classe - Código |
| 10 | CNAE 95 Classe - Código |
| 11 | Distritos SP - Código |
| 12 | Ind Vínculo Ativo 31/12 - Código |
| 13 | Faixa Etária - Código |
| 14 | Faixa Rem Média (SM) - Código |
| 15 | Faixa Hora Contrat - Código |
| 16 | Faixa Rem Dez (SM) - Código |
| 17 | Faixa Tempo Emprego - Código |
| 18 | Escolaridade Após 2005 - Código |
| 19 | Qtd Hora Contr |
| 20 | Idade |
| 21 | Ind CEI Vinculado - Código |
| 22 | Ind Estabelecimento Participante SIMPLES - Código |
| 23 | Mês Admissão - Código |
| 24 | Mês Desligamento - Código |
| 25 | Município Trab - Código |
| 26 | Município - Código |
| 27 | Nacionalidade - Código |
| 28 | Natureza Jurídica - Código |
| 29 | Ind Portador Defic - Código |
| 30 | Qtd Dias Afastamento |
| 31 | Raça Cor - Código |
| 32 | Região Adm DF - Código |
| 33 | Vl Rem Dezembro Nom |
| 34 | Vl Rem Dezembro (SM) |
| 35 | Vl Rem Média Nom |
| 36 | Vl Rem Média (SM) |
| 37 | CNAE 2.0 Subclasse - Código |
| 38 | Sexo - Código |
| 39 | Tamanho Estabelecimento - Código |
| 40 | Tempo Emprego |
| 41 | Tipo Admissão Trabalhador - Código |
| 42 | Tipo Estabelecimento - Código |
| 43 | Tipo Estabelecimento - Nome |
| 44 | Tipo Deficiência - Código |
| 45 | Tipo Vínculo - Código |
| 46 | IBGE Subsetor - Código |
| 47 | Vl Rem Janeiro SC |
| 48 | Vl Rem Fevereiro SC |
| 49 | Vl Rem Março SC |
| 50 | Vl Rem Abril SC |
| 51 | Vl Rem Maio SC |
| 52 | Vl Rem Junho SC |
| 53 | Vl Rem Julho SC |
| 54 | Vl Rem Agosto SC |
| 55 | Vl Rem Setembro SC |
| 56 | Vl Rem Outubro SC |
| 57 | Vl Rem Novembro SC |
| 58 | Ano Chegada Brasil |
| 59 | Ind Trabalho Intermitente - Código |
| 60 | Ind Trabalho Parcial - Código |
| 61 | Ind Vínculo Abandonado - Código |
Para um recorte de empreendedorismo em Pernambuco, é importante combinar dimensões de localização, estrutura empresarial, setor econômico e dinâmica de emprego/remuneração.
UF - Código == 26 (quando disponível)Município - Código iniciado por 26
(código IBGE do município em Pernambuco)vars_relevantes <- tibble::tribble(
~arquivo, ~variavel, ~por_que_importa,
"ESTAB", "Município - Código", "Recorte espacial municipal em Pernambuco (IBGE 26xxxx).",
"ESTAB", "UF - Código", "Filtro direto para PE (26).",
"ESTAB", "CNAE 2.0 Classe - Código", "Identifica o setor de atividade do estabelecimento.",
"ESTAB", "CNAE 2.0 Subclasse - Código", "Maior granularidade setorial para mapear nichos empreendedores.",
"ESTAB", "Natureza Jurídica - Código", "Distingue perfis institucionais dos negócios.",
"ESTAB", "Tamanho Estabelecimento - Código", "Proxy de porte empresarial.",
"ESTAB", "Qtd Vínculos Ativos", "Escala de emprego formal gerado pelo estabelecimento.",
"ESTAB", "Qtd Vínculos CLT", "Estrutura de emprego celetista.",
"ESTAB", "Ind Estab Participante SIMPLES - Código", "Sinaliza aderência a regime tributário típico de pequenos negócios.",
"ESTAB", "Ind RAIS Negativa - Código", "Ajuda a qualificar ausência/presença de vínculos no período.",
"VINC", "Município - Código", "Localização do estabelecimento para o vínculo.",
"VINC", "Município Trab - Código", "Local de trabalho efetivo do vínculo.",
"VINC", "CNAE 2.0 Classe - Código", "Setor da atividade econômica associada ao vínculo.",
"VINC", "CBO 2002 Ocupação - Código", "Perfil ocupacional da força de trabalho.",
"VINC", "Tipo Vínculo - Código", "Natureza do vínculo empregatício.",
"VINC", "Tipo Admissão Trabalhador - Código", "Forma de entrada no emprego formal.",
"VINC", "Mês Admissão - Código", "Sazonalidade de contratação.",
"VINC", "Mês Desligamento - Código", "Sazonalidade de desligamento/rotatividade.",
"VINC", "Motivo Desligamento - Código", "Compreensão da dinâmica de saída do emprego.",
"VINC", "Ind Vínculo Ativo 31/12 - Código", "Estoque de vínculos ao fim do ano.",
"VINC", "Vl Rem Média Nom", "Rendimento médio nominal do vínculo.",
"VINC", "Vl Rem Dezembro Nom", "Remuneração de fim de ano.",
"VINC", "Faixa Rem Média (SM) - Código", "Comparabilidade em faixas salariais.",
"VINC", "Tempo Emprego", "Estabilidade e permanência no posto de trabalho.",
"VINC", "Escolaridade Após 2005 - Código", "Qualificação da força de trabalho associada aos setores.",
"VINC", "Sexo - Código", "Recortes de diversidade no emprego formal.",
"VINC", "Raça Cor - Código", "Recortes de desigualdade e inclusão no mercado formal.",
"VINC", "Faixa Etária - Código", "Estrutura etária dos trabalhadores por atividade.",
"VINC", "Ind Trabalho Intermitente - Código", "Evidencia formas mais flexíveis de contratação.",
"VINC", "Ind Trabalho Parcial - Código", "Complementa leitura sobre formatos de vínculo.")
kable(vars_relevantes, caption = "Variáveis prioritárias para análise de empreendedorismo em PE")
| arquivo | variavel | por_que_importa |
|---|---|---|
| ESTAB | Município - Código | Recorte espacial municipal em Pernambuco (IBGE 26xxxx). |
| ESTAB | UF - Código | Filtro direto para PE (26). |
| ESTAB | CNAE 2.0 Classe - Código | Identifica o setor de atividade do estabelecimento. |
| ESTAB | CNAE 2.0 Subclasse - Código | Maior granularidade setorial para mapear nichos empreendedores. |
| ESTAB | Natureza Jurídica - Código | Distingue perfis institucionais dos negócios. |
| ESTAB | Tamanho Estabelecimento - Código | Proxy de porte empresarial. |
| ESTAB | Qtd Vínculos Ativos | Escala de emprego formal gerado pelo estabelecimento. |
| ESTAB | Qtd Vínculos CLT | Estrutura de emprego celetista. |
| ESTAB | Ind Estab Participante SIMPLES - Código | Sinaliza aderência a regime tributário típico de pequenos negócios. |
| ESTAB | Ind RAIS Negativa - Código | Ajuda a qualificar ausência/presença de vínculos no período. |
| VINC | Município - Código | Localização do estabelecimento para o vínculo. |
| VINC | Município Trab - Código | Local de trabalho efetivo do vínculo. |
| VINC | CNAE 2.0 Classe - Código | Setor da atividade econômica associada ao vínculo. |
| VINC | CBO 2002 Ocupação - Código | Perfil ocupacional da força de trabalho. |
| VINC | Tipo Vínculo - Código | Natureza do vínculo empregatício. |
| VINC | Tipo Admissão Trabalhador - Código | Forma de entrada no emprego formal. |
| VINC | Mês Admissão - Código | Sazonalidade de contratação. |
| VINC | Mês Desligamento - Código | Sazonalidade de desligamento/rotatividade. |
| VINC | Motivo Desligamento - Código | Compreensão da dinâmica de saída do emprego. |
| VINC | Ind Vínculo Ativo 31/12 - Código | Estoque de vínculos ao fim do ano. |
| VINC | Vl Rem Média Nom | Rendimento médio nominal do vínculo. |
| VINC | Vl Rem Dezembro Nom | Remuneração de fim de ano. |
| VINC | Faixa Rem Média (SM) - Código | Comparabilidade em faixas salariais. |
| VINC | Tempo Emprego | Estabilidade e permanência no posto de trabalho. |
| VINC | Escolaridade Após 2005 - Código | Qualificação da força de trabalho associada aos setores. |
| VINC | Sexo - Código | Recortes de diversidade no emprego formal. |
| VINC | Raça Cor - Código | Recortes de desigualdade e inclusão no mercado formal. |
| VINC | Faixa Etária - Código | Estrutura etária dos trabalhadores por atividade. |
| VINC | Ind Trabalho Intermitente - Código | Evidencia formas mais flexíveis de contratação. |
| VINC | Ind Trabalho Parcial - Código | Complementa leitura sobre formatos de vínculo. |
Os dois arquivos analisados são complementares: ESTAB
descreve o perfil do estabelecimento e
VINC detalha a dinâmica do trabalho formal
vinculada a esse universo produtivo.
Para empreendedorismo em Pernambuco, uma estratégia robusta é:
UF = 26 e/ou
município iniciado por 26).Apesar de termos dados relevantes de empresas e empregados, a RAIS não oferece variáveis específicas para medir diretamente alguns aspectos de maturidade e inovação empresarial, como:
Mesmo com essas limitações, ainda há análises valiosas possíveis com correlações entre variáveis disponíveis, por exemplo: