Relatório Completo

1 - Origem dos dados

Este documento descreve a base utilizada na análise: microdados da RAIS (Relação Anual de Informações Sociais), disponibilizados no PDET / Ministério do Trabalho e Emprego (MTE).

No exemplo deste relatório, estamos olhando os dados de 2023 por meio dos arquivos locais. Ainda assim, a base RAIS possui série histórica com dados disponíveis para download desde 1985.

Fontes oficiais e de apoio:

Arquivos analisados nesta pasta de trabalho:

  • RAIS_ESTAB_PUB.COMT (microdados de estabelecimentos)
  • RAIS_VINC_PUB_NORDESTE.COMT (microdados de vínculos/trabalhadores para a região Nordeste)

2 - Como os dados são obtidos e processados

Formato dos arquivos

Na base desta análise, os dados estão em arquivos .COMT, lidos como texto delimitado por vírgula, com codificação Latin-1.

Exemplo de leitura em R:

library(data.table)

vinc <- fread(
  "RAIS_VINC_PUB_NORDESTE.COMT",
  sep = ",",
  encoding = "Latin-1",
  quote = "\""
)

estab <- fread(
  "RAIS_ESTAB_PUB.COMT",
  sep = ",",
  encoding = "Latin-1",
  quote = "\""
)

Forma de acesso

Conforme a página oficial de microdados do MTE, os microdados RAIS/CAGED são disponibilizados para download e os arquivos são acessados via FTP (PDET).

Existe API oficial?

Para microdados RAIS, não existe API oficial pública na documentação utilizada aqui. O acesso é orientado por arquivos para download.

Alternativas para analisar sem baixar tudo localmente

Sem API oficial de consulta dos microdados, as alternativas práticas são:

  1. Consumir recortes já agregados em painéis/estatísticas oficiais do PDET (quando a pergunta analítica permitir agregados).
  2. Montar uma camada intermediária (ex.: banco SQL local/remoto) para evitar reprocessar arquivos brutos em toda execução.
  3. Automatizar pipeline de download e transformação para formato colunar (Parquet), reduzindo custo de leitura nas análises seguintes.

Observação: para perguntas no nível de microdado (vínculo/estabelecimento), em geral ainda é necessário baixar os arquivos de origem em algum ponto do pipeline.

Na prática, o tópico seguinte (Base dos Dados) detalha justamente a alternativa mais viável dentro desse contexto: consultar por SQL somente o recorte necessário, em vez de transferir sempre arquivos completos.

Alternativa mais viável: consulta da RAIS via Base dos Dados (BigQuery)

Neste documento, estamos analisando os arquivos locais de 2023 (RAIS_ESTAB_PUB.COMT e RAIS_VINC_PUB_NORDESTE.COMT) para exemplificar estrutura e variáveis.

Para ampliar a análise histórica (ex.: desde 1985) com menor custo operacional, uma alternativa mais viável é usar o conjunto da RAIS na Base dos Dados e consultar apenas o recorte necessário via SQL.

Referências:

Benefícios práticos dessa abordagem:

  1. Evita download anual de arquivos completos de vários GB.
  2. Permite filtrar por ano, estado/município e colunas já na origem.
  3. Reduz armazenamento local e tempo de processamento.
  4. Facilita a construção de séries longas (1985+), com extração incremental.
  5. Oferece integração com R por SQL, mantendo rastreabilidade das queries.

Passo a passo para consultar apenas o necessário

Passo 1: Criar projeto no Google Cloud

Crie um projeto no Google Cloud para executar queries no BigQuery (modo sandbox é suficiente para começar).

Passo 2: Instalar e configurar o pacote no R
install.packages("basedosdados")
library(basedosdados)

# Substitua pelo ID do seu projeto no Google Cloud
set_billing_id("seu-project-id")
Passo 3: Identificar tabelas da RAIS no dataset
library(basedosdados)

query_tabelas <- "
SELECT table_name
FROM `basedosdados.br_me_rais.INFORMATION_SCHEMA.TABLES`
ORDER BY table_name
"

tabelas_rais <- download(query_tabelas, billing_project_id = "seu-project-id")
Passo 4: Inspecionar colunas da tabela escolhida
query_colunas <- "
SELECT column_name, data_type
FROM `basedosdados.br_me_rais.INFORMATION_SCHEMA.COLUMNS`
WHERE table_name = 'NOME_DA_TABELA'
ORDER BY ordinal_position
"

colunas_rais <- download(query_colunas, billing_project_id = "seu-project-id")
Passo 5: Consultar recorte de Pernambuco e anos de interesse
query_pe <- "
SELECT
  ano,
  id_municipio,
  cnae_2,
  natureza_juridica,
  tamanho_estabelecimento,
  quantidade_vinculos_ativos
FROM `basedosdados.br_me_rais.NOME_DA_TABELA`
WHERE ano BETWEEN 2018 AND 2024
  AND SUBSTR(CAST(id_municipio AS STRING), 1, 2) = '26'
"

rais_pe <- download(query_pe, billing_project_id = "seu-project-id")
Passo 6: Salvar resultado para reuso local
saveRDS(rais_pe, "rais_pe_2018_2024.rds")

Boas práticas de custo/performance no BigQuery:

  1. Evitar SELECT *.
  2. Selecionar somente colunas necessárias.
  3. Sempre filtrar por período (ano) e geografia (PE).
  4. Processar em lotes de anos quando o recorte for muito grande.

3 - Quais dados aparecem nos arquivos analisados

Tabela de variáveis do arquivo de estabelecimentos

Total de variáveis identificadas: 23.

kable(tab_estab, caption = "Variáveis em RAIS_ESTAB_PUB.COMT")
Variáveis em RAIS_ESTAB_PUB.COMT
ordem variavel
1 Bairros SP - Código
2 Bairros Fortaleza - Código
3 Bairros RJ - Código
4 CNAE 2.0 Classe - Código
5 CNAE 95 Classe - Código
6 Distritos SP - Código
7 Qtd Vínculos CLT
8 Qtd Vínculos Ativos
9 Qtd Vínculos Estatutários
10 Ind Atividade Ano - Código
11 Ind CEI Vinculado - Código
12 Ind Estab Participante PAT - Código
13 Ind RAIS Negativa - Código
14 Ind Estab Participante SIMPLES - Código
15 Município - Código
16 Natureza Jurídica - Código
17 Região Adm DF - Código
18 CNAE 2.0 Subclasse - Código
19 Tamanho Estabelecimento - Código
20 Tipo Estabelecimento - Código
21 UF - Código
22 IBGE Subsetor - Código
23 CEP Estab

Tabela de variáveis do arquivo de vínculos

Total de variáveis identificadas: 61.

kable(tab_vinc, caption = "Variáveis em RAIS_VINC_PUB_NORDESTE.COMT")
Variáveis em RAIS_VINC_PUB_NORDESTE.COMT
ordem variavel
1 Bairros SP - Código
2 Bairros Fortaleza - Código
3 Bairros RJ - Código
4 Causa Afastamento 1 - Código
5 Causa Afastamento 2 - Código
6 Causa Afastamento 3 - Código
7 Motivo Desligamento - Código
8 CBO 2002 Ocupação - Código
9 CNAE 2.0 Classe - Código
10 CNAE 95 Classe - Código
11 Distritos SP - Código
12 Ind Vínculo Ativo 31/12 - Código
13 Faixa Etária - Código
14 Faixa Rem Média (SM) - Código
15 Faixa Hora Contrat - Código
16 Faixa Rem Dez (SM) - Código
17 Faixa Tempo Emprego - Código
18 Escolaridade Após 2005 - Código
19 Qtd Hora Contr
20 Idade
21 Ind CEI Vinculado - Código
22 Ind Estabelecimento Participante SIMPLES - Código
23 Mês Admissão - Código
24 Mês Desligamento - Código
25 Município Trab - Código
26 Município - Código
27 Nacionalidade - Código
28 Natureza Jurídica - Código
29 Ind Portador Defic - Código
30 Qtd Dias Afastamento
31 Raça Cor - Código
32 Região Adm DF - Código
33 Vl Rem Dezembro Nom
34 Vl Rem Dezembro (SM)
35 Vl Rem Média Nom
36 Vl Rem Média (SM)
37 CNAE 2.0 Subclasse - Código
38 Sexo - Código
39 Tamanho Estabelecimento - Código
40 Tempo Emprego
41 Tipo Admissão Trabalhador - Código
42 Tipo Estabelecimento - Código
43 Tipo Estabelecimento - Nome
44 Tipo Deficiência - Código
45 Tipo Vínculo - Código
46 IBGE Subsetor - Código
47 Vl Rem Janeiro SC
48 Vl Rem Fevereiro SC
49 Vl Rem Março SC
50 Vl Rem Abril SC
51 Vl Rem Maio SC
52 Vl Rem Junho SC
53 Vl Rem Julho SC
54 Vl Rem Agosto SC
55 Vl Rem Setembro SC
56 Vl Rem Outubro SC
57 Vl Rem Novembro SC
58 Ano Chegada Brasil
59 Ind Trabalho Intermitente - Código
60 Ind Trabalho Parcial - Código
61 Ind Vínculo Abandonado - Código

4 - Quais variáveis são mais relevantes para empreendedorismo em Pernambuco

Para um recorte de empreendedorismo em Pernambuco, é importante combinar dimensões de localização, estrutura empresarial, setor econômico e dinâmica de emprego/remuneração.

Recorte geográfico (Pernambuco)

  • Preferir filtros por código geográfico:
    • UF - Código == 26 (quando disponível)
    • ou Município - Código iniciado por 26 (código IBGE do município em Pernambuco)

Variáveis-chave recomendadas

vars_relevantes <- tibble::tribble(
  ~arquivo, ~variavel, ~por_que_importa,
  "ESTAB", "Município - Código", "Recorte espacial municipal em Pernambuco (IBGE 26xxxx).",
  "ESTAB", "UF - Código", "Filtro direto para PE (26).",
  "ESTAB", "CNAE 2.0 Classe - Código", "Identifica o setor de atividade do estabelecimento.",
  "ESTAB", "CNAE 2.0 Subclasse - Código", "Maior granularidade setorial para mapear nichos empreendedores.",
  "ESTAB", "Natureza Jurídica - Código", "Distingue perfis institucionais dos negócios.",
  "ESTAB", "Tamanho Estabelecimento - Código", "Proxy de porte empresarial.",
  "ESTAB", "Qtd Vínculos Ativos", "Escala de emprego formal gerado pelo estabelecimento.",
  "ESTAB", "Qtd Vínculos CLT", "Estrutura de emprego celetista.",
  "ESTAB", "Ind Estab Participante SIMPLES - Código", "Sinaliza aderência a regime tributário típico de pequenos negócios.",
  "ESTAB", "Ind RAIS Negativa - Código", "Ajuda a qualificar ausência/presença de vínculos no período.",
  "VINC", "Município - Código", "Localização do estabelecimento para o vínculo.",
  "VINC", "Município Trab - Código", "Local de trabalho efetivo do vínculo.",
  "VINC", "CNAE 2.0 Classe - Código", "Setor da atividade econômica associada ao vínculo.",
  "VINC", "CBO 2002 Ocupação - Código", "Perfil ocupacional da força de trabalho.",
  "VINC", "Tipo Vínculo - Código", "Natureza do vínculo empregatício.",
  "VINC", "Tipo Admissão Trabalhador - Código", "Forma de entrada no emprego formal.",
  "VINC", "Mês Admissão - Código", "Sazonalidade de contratação.",
  "VINC", "Mês Desligamento - Código", "Sazonalidade de desligamento/rotatividade.",
  "VINC", "Motivo Desligamento - Código", "Compreensão da dinâmica de saída do emprego.",
  "VINC", "Ind Vínculo Ativo 31/12 - Código", "Estoque de vínculos ao fim do ano.",
  "VINC", "Vl Rem Média Nom", "Rendimento médio nominal do vínculo.",
  "VINC", "Vl Rem Dezembro Nom", "Remuneração de fim de ano.",
  "VINC", "Faixa Rem Média (SM) - Código", "Comparabilidade em faixas salariais.",
  "VINC", "Tempo Emprego", "Estabilidade e permanência no posto de trabalho.",
  "VINC", "Escolaridade Após 2005 - Código", "Qualificação da força de trabalho associada aos setores.",
  "VINC", "Sexo - Código", "Recortes de diversidade no emprego formal.",
  "VINC", "Raça Cor - Código", "Recortes de desigualdade e inclusão no mercado formal.",
  "VINC", "Faixa Etária - Código", "Estrutura etária dos trabalhadores por atividade.",
  "VINC", "Ind Trabalho Intermitente - Código", "Evidencia formas mais flexíveis de contratação.",
  "VINC", "Ind Trabalho Parcial - Código", "Complementa leitura sobre formatos de vínculo.")

kable(vars_relevantes, caption = "Variáveis prioritárias para análise de empreendedorismo em PE")
Variáveis prioritárias para análise de empreendedorismo em PE
arquivo variavel por_que_importa
ESTAB Município - Código Recorte espacial municipal em Pernambuco (IBGE 26xxxx).
ESTAB UF - Código Filtro direto para PE (26).
ESTAB CNAE 2.0 Classe - Código Identifica o setor de atividade do estabelecimento.
ESTAB CNAE 2.0 Subclasse - Código Maior granularidade setorial para mapear nichos empreendedores.
ESTAB Natureza Jurídica - Código Distingue perfis institucionais dos negócios.
ESTAB Tamanho Estabelecimento - Código Proxy de porte empresarial.
ESTAB Qtd Vínculos Ativos Escala de emprego formal gerado pelo estabelecimento.
ESTAB Qtd Vínculos CLT Estrutura de emprego celetista.
ESTAB Ind Estab Participante SIMPLES - Código Sinaliza aderência a regime tributário típico de pequenos negócios.
ESTAB Ind RAIS Negativa - Código Ajuda a qualificar ausência/presença de vínculos no período.
VINC Município - Código Localização do estabelecimento para o vínculo.
VINC Município Trab - Código Local de trabalho efetivo do vínculo.
VINC CNAE 2.0 Classe - Código Setor da atividade econômica associada ao vínculo.
VINC CBO 2002 Ocupação - Código Perfil ocupacional da força de trabalho.
VINC Tipo Vínculo - Código Natureza do vínculo empregatício.
VINC Tipo Admissão Trabalhador - Código Forma de entrada no emprego formal.
VINC Mês Admissão - Código Sazonalidade de contratação.
VINC Mês Desligamento - Código Sazonalidade de desligamento/rotatividade.
VINC Motivo Desligamento - Código Compreensão da dinâmica de saída do emprego.
VINC Ind Vínculo Ativo 31/12 - Código Estoque de vínculos ao fim do ano.
VINC Vl Rem Média Nom Rendimento médio nominal do vínculo.
VINC Vl Rem Dezembro Nom Remuneração de fim de ano.
VINC Faixa Rem Média (SM) - Código Comparabilidade em faixas salariais.
VINC Tempo Emprego Estabilidade e permanência no posto de trabalho.
VINC Escolaridade Após 2005 - Código Qualificação da força de trabalho associada aos setores.
VINC Sexo - Código Recortes de diversidade no emprego formal.
VINC Raça Cor - Código Recortes de desigualdade e inclusão no mercado formal.
VINC Faixa Etária - Código Estrutura etária dos trabalhadores por atividade.
VINC Ind Trabalho Intermitente - Código Evidencia formas mais flexíveis de contratação.
VINC Ind Trabalho Parcial - Código Complementa leitura sobre formatos de vínculo.

5 - Considerações finais

Os dois arquivos analisados são complementares: ESTAB descreve o perfil do estabelecimento e VINC detalha a dinâmica do trabalho formal vinculada a esse universo produtivo.

Para empreendedorismo em Pernambuco, uma estratégia robusta é:

  1. Filtrar PE por códigos geográficos (UF = 26 e/ou município iniciado por 26).
  2. Segmentar por CNAE e porte do estabelecimento.
  3. Medir geração e estabilidade de emprego por admissões, desligamentos, vínculos ativos e remuneração.
  4. Incluir recortes de qualificação e perfil demográfico para avaliar qualidade e inclusão do crescimento empreendedor.

Apesar de termos dados relevantes de empresas e empregados, a RAIS não oferece variáveis específicas para medir diretamente alguns aspectos de maturidade e inovação empresarial, como:

  1. Índice TRL (Technology Readiness Level).
  2. Investimento recebido (rodadas, venture capital etc.).
  3. Grau de inovação tecnológica da empresa.
  4. Classificação explícita de deeptech.

Mesmo com essas limitações, ainda há análises valiosas possíveis com correlações entre variáveis disponíveis, por exemplo:

  1. Sobrevivência de empresas ao longo do tempo (com aproximações por persistência de estabelecimento na base).
  2. Localização das empresas comparada à massa salarial local.
  3. Rotatividade de empregados (turnover), usando admissões, desligamentos e estoque de vínculos.