Desenho da Base
Variáveis de
Interesse
- Ano
- Trimestre
- UF
- V4010 - Código da ocupação (cargo ou função)
- É utilizada a Classificação de Ocupações para as Pesquisas
Domiciliares – COD
- VD4002 - Ocupados/Desocupados
- VD4009 - Posição na ocupação e categoria do emprego
- 1 - Empregado no setor privado com carteira de trabalho
assinada
- 9 - Conta-própria #VD4010 - Grupamentos de atividade principal do
empreendimento do trabalho
- VD4016 - Rendimento mensal habitual do trabalho principal
- VD4010 - Grupamentos de atividade principal do empreendimento do
trabalho principal
- Ex.: Agricultura, Indústria, Construção etc
- V4039 - “Quantas horas … trabalhava normalmente, por semana, nesse
trabalho principal?”
- V4019 - “Esse negócio/empresa era registrado no Cadastro Nacional da
Pessoa Jurídica - CNPJ?”
- VD4004A - Subocupação por insuficiência de horas habitualmente
trabalhadas em todos os trabalhos
- VD3004 - Escolaridade
- VD3005 - Anos de Estudo
- V2007 - Sexo
- V2010 - Cor/Raça
- V2009 - Idade
- VD4011 - Grupamento Ocupacional
- VD4012 - Contribuição para instituto de previdência em qualquer
trabalho da semana de referência para pessoas de 14 anos ou mais de
idade
Pré-Processamento
#Temas para Rmarkdown - https://rpubs.com/ranydc/rmarkdown_themes
library(tidyverse)
library(readxl)
library(DT)
library(PNADcIBGE)
library(survey)
library(srvyr)
library(scales)
library(jtools) #função summ - parte inferencial
Sys.setlocale("LC_ALL", "pt_BR.UTF-8") #problemas com encoding
Será feita uma consulta somente à base de dados de 2024 - 3º
Trimestre, tendo em vista a limitação de capacidade de
processamento.
O código abaixo fará o download dos dados e salvará em um objeto do
tipo .rds para uma pasta local.
##########RODAR SOMENTE A PRIMEIRA VEZ###############
# variaveis_selecionadas <- c("Ano", "Trimestre", "UF","V4010",
# "VD4002","VD4009","VD4010","VD4016",
# "V4039","V4019", "VD4004A", "VD3004", "VD3005",
# "V2007", "V2010", "V2009", "VD4012", "VD4011")
#
# pnadc <- get_pnadc(year=2024, quarter=3,
# vars=variaveis_selecionadas, design = T, labels = F)
# class(pnadc)
# #TRANSFORMAR PARA TIBBLE PARA USAR A GRAMÁTICA TIDYVERSE
# pnad_srvyr <- as_survey(pnadc)
# class(pnad_srvyr)
# #PRIMEIRO FILTRO - SOMENTE OCUPADOS
# ocupados <- pnad_srvyr |>
# filter(VD4002 == 1) |>
# mutate(V1028 = as.numeric(V1028))
# class(ocupados)
# rm(pnad_srvyr)
# rm(pnadc)
# #SALVAR PARA USAR OFFLINE
# saveRDS(ocupados, file = "c:/Users/raphael.rsl/Desktop/R/pjclt/ocupados3.rds")
Preparação da Base de
Dados
Aqui será realizada a junção entre a PNADc pura e a tabela COD das
profissões.
ocupados <- readRDS("c:/Users/raphael.rsl/Desktop/R/pjclt/ocupados3.rds")
#class(ocupados)
#LER A TABELA DE OCUPAÇÕES
cod <- read_xls("c:/Users/raphael.rsl/Desktop/R/pjclt/Estrutura_Ocupacao_COD.xls") |>
rename(grande_grupo = `Grande Grupo`,
subgrupo_principal = `Subgrupo principal`,
subgrupo = Subgrupo,
grupo_base = `Grupo de base`,
denominacao = Denominação) |>
mutate( #NÃO TRAZER NAs, ou seja, se não for NA traz "denominacao"
denom_subgrupo_principal = if_else(!is.na(subgrupo_principal), denominacao, NA_character_),
denom_subgrupo = if_else(!is.na(subgrupo), denominacao, NA_character_),
denom_grupo_base = if_else(!is.na(grupo_base), denominacao, NA_character_)) |>
fill(grande_grupo, subgrupo_principal, denom_subgrupo_principal,
subgrupo, denom_subgrupo, grupo_base, denom_grupo_base, .direction = "down")
#propaga os valores para baixo
#RETIRANDO NAs e possíveis duplicados
cod_map <- cod |>
filter(!is.na(grupo_base)) |>
select(grupo_base, denom_grupo_base, subgrupo, denom_subgrupo,
subgrupo_principal, denom_subgrupo_principal, grande_grupo) |>
distinct()
#aplicando a base COD na base geral
ocupados2 <- ocupados |>
mutate(V4010 = as.character(V4010),
subgrupo_cod = substr(V4010, 1, 3),
# busca grupo_base e subgrupo e faz o match
grupo_base = cod_map$denom_grupo_base[match(V4010, cod_map$grupo_base)],
subgrupo = cod_map$denom_subgrupo[match(subgrupo_cod, cod_map$subgrupo)])
# Retirados indivíduos classificados como subocupados
ocupados2 <- ocupados2 |>
filter(is.na(VD4004A) | VD4004A != 1)
#É necessário manter NA por conta da estrutura do tbl_svy
#outliers - retira 1% superior e 1% inferior
ocupados2 <- ocupados2 |>
filter(VD4016 >= quantile(VD4016, 0.01, na.rm = TRUE),
VD4016 <= quantile(VD4016, 0.99, na.rm = TRUE),
V4039 >= quantile(V4039, 0.01, na.rm = TRUE),
V4039 <= quantile(V4039, 0.99, na.rm = TRUE))
Gráficos Exploratórios
#VERIFICAR SE É O CASO DE RETIRAR MAIS OUTLIERS A PARTIR DOS BOXPLOTS
# Boxplot para Rendimento
ggplot(ocupados2, aes(x = "", y = VD4016)) +
geom_boxplot(outlier.color = "red") +
labs(title = "Boxplot de Rendimento", y = "Rendimento") +
theme_minimal()

# Boxplot para Jornada
ggplot(ocupados2, aes(x = "", y = V4039)) +
geom_boxplot(outlier.color = "red") +
labs(title = "Boxplot de Jornada", y = "Horas") +
theme_minimal()

Salário-Hora
Criou-se uma variável auxiliar: salario_hora com a
seguinte composição
Para formais, consideramos: - 12 salários mensais habituais; - 13º
salário (1 salário adicional); - 1/3 adicional de férias; - 8% de FGTS;
- Apenas 11 meses de trabalho efetivo (pois 1 mês é de férias).
A fórmula do salário-hora é:
\[
\text{Salário-hora}_{formal} =
\frac{(12 + 1 + \tfrac{1}{3}) \cdot \text{Salário Mensal Habitual} \cdot
(1 + \text{FGTS})}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12} \cdot 11}
\]
Para trabalhadores autônomos registrados como MEI,
consideramos:
- Rendimento mensal habitual declarado;
- Desconto fixo da guia DAS (imposto mensal do
MEI);
- Jornada habitual semanal multiplicada por \(52/12\) (para obter as horas mensais).
A fórmula do salário-hora é:
\[
\text{Salário-hora}_{MEI} =
\frac{\text{Salário Mensal Habitual} - \text{DAS}}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12}}
\]
Autônomos acima do limite MEI
Para trabalhadores por conta própria com rendimento acima do
limite MEI, consideramos:
- Contribuição proporcional: aplica-se 11%
diretamente sobre o rendimento mensal, considerado o valor declarado
como pro-labore.
\[
\text{Salário-hora}_{CP}^{prop} =
\frac{\text{Salário Mensal Habitual} \cdot (1 - 11\%)}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12}}
\]
Além disso, foi criada uma variável auxiliar chamada
categoria_emprego para facilitar a filtragem de formal,
cnpj e outros.
# Parâmetros
sal_min <- 1412 # salário-mínimo em 2024
mei_mensal <- 81000 / 12 # R$ 6750 por mês
mei_das <- 71.60 # DAS-MEI 2025
fgts <- 0.08 # 8% FGTS
semana_mes <- 52/12 # ~4.333
opcao_inss <- "NOT_fixed_min_wage_11pct" # regra usada para contribuição direta no salário minimo - não usada
#ou 20% segundo teste foi para 20%
inss_valor <- 0.11
# --- converter campos para numeric / proteger divisões ---
ocupados2 <- ocupados2 |>
mutate(VD4016 = as.numeric(as.character(VD4016)),
V4039 = as.numeric(as.character(V4039)),
VD4009 = as.character(VD4009))
# --- cálculo atualizado ---
ocupados3 <- ocupados2 |>
mutate(
# horas efetivamente trabalhadas no mês
horas_mes = if_else(!is.na(V4039) & V4039 > 0, V4039 * semana_mes, NA_real_),
# salário-hora
salario_hora = case_when(
# Formal com férias, 13º e FGTS (11 meses de trabalho no ano)
VD4009 == "1" & !is.na(horas_mes) ~ {
sal_anual <- VD4016 * (12 + 1 + 1/3) # 12 salários + 13º + 1/3 férias
horas_ano <- horas_mes * 11 # só 11 meses de trabalho, tendo em vista férias
(sal_anual * (1 + fgts)) / horas_ano},
# Autônomo / MEI até limite mensal = desconta DAS fixo
VD4009 != "1" & !is.na(horas_mes) & VD4016 <= mei_mensal ~
pmax((VD4016 - mei_das) / horas_mes, 0), #pmax garante que não vem valor negativo
# Autônomo / CNPJ acima do limite MEI = aplica regra do INSS
VD4009 != "1" & !is.na(horas_mes) & VD4016 > mei_mensal ~ {
if (opcao_inss == "fixed_min_wage_11pct") {
inss_val <- sal_min * inss_valor
pmax((VD4016 - inss_val) / horas_mes, 0)}
else {
pmax((VD4016 * (1 - inss_valor)) / horas_mes, 0)}},
TRUE ~ NA_real_ ))
# --- categorias de emprego ---
ocupados3$variables <- ocupados3$variables |>
mutate(categoria_emprego = case_when(
VD4009 == "01" ~ "formal",
VD4009 == "09" & V4019 == "1" ~ "cnpj",
TRUE ~ "outros"))
rm(ocupados)
ggplot(ocupados3, aes(x = "", y = salario_hora)) +
geom_boxplot(outlier.color = "red") +
labs(title = "Boxplot de Salário-Hora", y = "Horas") +
theme_minimal()

#retirar outliers de salario_hora
ocupados3 <- ocupados3 |>
filter(salario_hora >= quantile(salario_hora, 0.01, na.rm = TRUE),
salario_hora <= quantile(salario_hora, 0.99, na.rm = TRUE))
Análise Descritiva
Iniciais - Por
Categoria
Salário-Hora
resumo_sal <- ocupados3 |>
group_by(categoria_emprego) |>
summarise(n = survey_total(na.rm = TRUE),
mediana = survey_median(salario_hora, na.rm = TRUE),
.groups = "drop") |>
mutate(n_label = paste0("n = ", scales::comma(n)),
mediana_label = paste0("Mediana = R$ ", round(mediana, 2)))
ggplot(ocupados3, aes(x = categoria_emprego, y = salario_hora, fill = categoria_emprego)) +
geom_boxplot(alpha = 0.7, outlier.colour = "red") +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
coord_cartesian(ylim = c(0, 50)) +
labs(title = "Distribuição do Salário-Hora por Categoria de Emprego \n (até R$ 50)",
x = "Categoria de Emprego",
y = "Salário-Hora") +
theme_minimal(base_size = 14) +
theme(legend.position = "none") +
geom_text(data = resumo_sal,
aes(x = categoria_emprego, y = 5, label = n_label), # coloca o texto no topo
inherit.aes = FALSE,
vjust = -0.5,
size = 4) +
geom_text(data = resumo_sal,
aes(x = categoria_emprego, y = mediana, label = round(mediana, 1)),
inherit.aes = FALSE,
vjust = -0.5,
fontface = "bold",
size = 4,
color = "blue")

Escolaridade
ocupados3 <- ocupados3 |>
mutate(escolaridade = factor(VD3004,
levels = 1:7,
labels = c("Sem instrução",
"Fundamental incompleto",
"Fundamental completo",
"Médio incompleto",
"Médio completo",
"Superior incompleto","Superior completo")))
resumo_escolaridade <- ocupados3 |>
filter(!is.na(escolaridade)) |>
group_by(categoria_emprego, escolaridade) |>
summarise(n = survey_total(na.rm = TRUE)) |>
group_by(categoria_emprego) |>
mutate(freq_relativa = n / sum(n) * 100)
ggplot(resumo_escolaridade, aes(x = categoria_emprego, y = freq_relativa, fill = escolaridade)) +
geom_bar(stat = "identity", position = "stack") +
scale_y_continuous(labels = scales::percent_format(scale = 1)) +
labs(title = "Distribuição Percentual da Escolaridade \n por Categoria de Emprego",
x = "Categoria de Emprego",
y = "Frequência Relativa (%)",
fill = "Faixa de Escolaridade") +
theme_minimal()

E a questão
regional?
ufs_labels <- c(
"11" = "RO", "12" = "AC", "13" = "AM", "14" = "RR", "15" = "PA",
"16" = "AP", "17" = "TO", "21" = "MA", "22" = "PI", "23" = "CE",
"24" = "RN", "25" = "PB", "26" = "PE", "27" = "AL", "28" = "SE",
"29" = "BA", "31" = "MG", "32" = "ES", "33" = "RJ", "35" = "SP",
"41" = "PR", "42" = "SC", "43" = "RS", "50" = "MT", "51" = "MS",
"52" = "GO", "53" = "DF")
ocupados3 <- ocupados3 |>
mutate(uf_sigla = ufs_labels[as.character(UF)])
# Filtro apenas para duas categorias para não ficar poluído
dados_plot_uf <- ocupados3 |>
filter(categoria_emprego %in% c("formal", "cnpj")) |>
mutate(UF_label = factor(ufs_labels[as.character(UF)], levels = ufs_labels))
# Selecionar só UFs que tenham os dois grupos: formal e cnpj
ufs_completas <- dados_plot_uf |>
group_by(UF_label, categoria_emprego) |>
summarise(contagem = n(), .groups = 'drop') |>
pivot_wider(names_from = categoria_emprego, values_from = contagem, values_fill = 0) |>
filter(formal > 0 & cnpj > 0) |>
pull(UF_label)
# Filtrar pelos UFs completos e criar fator para categoria de emprego
dados_plot_uf <- dados_plot_uf |>
filter(UF_label %in% ufs_completas) |>
mutate(categoria_emprego = factor(categoria_emprego, levels = c("formal", "cnpj")))
# Calcular medianas por UF e categoria de emprego para mostrar no gráfico
medianas_uf <- dados_plot_uf |>
group_by(UF_label, categoria_emprego) |>
summarise(mediana = survey_median(salario_hora, na.rm = TRUE), .groups = 'drop')
# Boxplot com facet_wrap por UF
ggplot(dados_plot_uf, aes(x = categoria_emprego, y = salario_hora, fill = categoria_emprego)) +
geom_boxplot(alpha = 0.7, outlier.colour = "red") +
geom_text(data = medianas_uf,
aes(x = categoria_emprego,
y = mediana,
label = paste0("R$ ", round(mediana, 2))),
vjust = -0.5, color = "black", fontface = "bold", size = 4) +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
coord_cartesian(ylim = c(0, 75)) +
labs(title = "Distribuição do Salário-Hora por Categoria de Emprego e UF\n(visualização até R$ 75)",
x = "Categoria de Emprego",
y = "Salário-Hora") +
facet_wrap(~ UF_label, scales = "free_x", ncol = 5) +
theme_minimal(base_size = 14) +
theme(legend.position = "none")

Contribuição
Previdenciária
resumo_contribuinte <- ocupados3 |>
filter(categoria_emprego %in% c("formal", "cnpj")) |>
mutate(contribuinte_cat = case_when(VD4012 == 1 ~ "Contribuinte",
VD4012 == 2 ~ "Não contribuinte",
TRUE ~ "Não aplicável")) |>
group_by(categoria_emprego, contribuinte_cat) |>
summarise(n = survey_total(na.rm = TRUE)) |>
group_by(categoria_emprego) |>
mutate(prop = n / sum(n)) |>
ungroup()
ggplot(resumo_contribuinte, aes(x = categoria_emprego, y = prop, fill = contribuinte_cat)) +
geom_col(position = "fill") +
scale_y_continuous(labels = scales::percent_format()) +
labs(title = "Proporção de Contribuintes por Categoria de Emprego",
x = "Categoria de Emprego",
y = "Proporção (%)",
fill = "Categoria de Contribuinte") +
theme_minimal()

Grupo-Base -
Profissões
Para a análise das profissões foram criados três objetos.
tab_total que sumariza o total por profissão
(grupo_base).
tab_formal que sumariza por trabalhadores
formais
tab_cnpj que sumariza por trabalhadores por
conta-própria que possuem CNPJ
Foram criadas duas variáveis auxiliares para análise: a
dif_perc_cnpj_formal que consiste em verificar a
relação percentual da média entre o salário-hora do CNPJ e o
salário-hora do formal e a *dif_perc_medianas_cnpj_formal** para
verificar a mesma relação, mas a partir da mediana.
Uma análise adequada a partir das profissões deve considerar as duas
variáveis em conjunto.
tab_total <- ocupados3 |>
group_by(grupo_base) |>
summarise(total = survey_total(na.rm = TRUE),
salario_hora = survey_mean(salario_hora, na.rm = TRUE))
tab_total <- tab_total |>
mutate(total_cv = 100 * total_se / total)
tab_formal <- ocupados3 |>
filter(categoria_emprego == "formal") |>
group_by(grupo_base) |>
summarise(total_formal = survey_total(),
salario_hora_formal = survey_mean(salario_hora, na.rm = TRUE, vartype = "se"))
tab_formal <- tab_formal |>
mutate(total_formal_cv = 100 * total_formal_se / total_formal)
tab_cnpj <- ocupados3 |>
filter(categoria_emprego == "cnpj") |>
group_by(grupo_base) |>
summarise(total_cnpj = survey_total(),
salario_hora_cnpj = survey_mean(salario_hora, na.rm = TRUE, vartype = "se"))
tab_cnpj <- tab_cnpj |>
mutate(total_cnpj_cv = 100 * total_cnpj_se / total_cnpj)
tab_geral <- tab_total |>
full_join(tab_formal, by = "grupo_base") |>
full_join(tab_cnpj, by = "grupo_base")
#Variável Auxiliar - Diferença entre CNPJ e Formal
#Se CNPJ > Formal = positivo
tab_geral <- tab_geral |>
mutate(dif_perc_cnpj_formal = 100 * (salario_hora_cnpj - salario_hora_formal) / salario_hora_formal)
# Indicadores de precisão - Coeficiente de variação acima de 25%
tab_geral <- tab_geral |>
mutate(low_precision_formal = total_formal_cv > 25, #indicadores de baixa precisão - coeficiente de variação acima de 25%
low_precision_cnpj = total_cnpj_cv > 25,
total_formal_exib = if_else(low_precision_formal, "NS", format(round(total_formal, 0), big.mark = ",")),
total_cnpj_exib = if_else(low_precision_cnpj, "NS", format(round(total_cnpj, 0), big.mark = ",")),
salario_hora_formal_exib = if_else(low_precision_formal, "NS", format(round(salario_hora_formal, 2))),
salario_hora_cnpj_exib = if_else(low_precision_cnpj, "NS", format(round(salario_hora_cnpj, 2))),
dif_perc_cnpj_formal = if_else(
low_precision_formal | low_precision_cnpj,
NA_real_,
100 * (salario_hora_cnpj - salario_hora_formal) / salario_hora_formal))
Medianas
medianas_formal <- ocupados3 |>
filter(categoria_emprego == "formal") |>
group_by(grupo_base) |>
summarise(mediana_salario_hora_formal = survey_median(salario_hora, na.rm = TRUE, vartype = "se"),
mediana_salario_hora_formal_se = attr(mediana_salario_hora_formal, "se"))
medianas_cnpj <- ocupados3 |>
filter(categoria_emprego == "cnpj") |>
group_by(grupo_base) |>
summarise(mediana_salario_hora_cnpj = survey_median(salario_hora, na.rm = TRUE, vartype = "se"),
mediana_salario_hora_cnpj_se = attr(mediana_salario_hora_cnpj, "se"))
# Indicadores de precisão para medianas
tab_geral <- tab_geral |>
left_join(medianas_formal, by = "grupo_base") |>
left_join(medianas_cnpj, by = "grupo_base") |>
mutate(
# CV das medianas
mediana_formal_cv = 100 * mediana_salario_hora_formal_se / mediana_salario_hora_formal,
mediana_cnpj_cv = 100 * mediana_salario_hora_cnpj_se / mediana_salario_hora_cnpj,
# Indicadores de baixa precisão
low_precision_median_formal = mediana_formal_cv > 25,
low_precision_median_cnpj = mediana_cnpj_cv > 25,
# Exibição condicional para medianas
mediana_salario_hora_formal_exib = if_else(low_precision_median_formal, "NS", format(round(mediana_salario_hora_formal, 2))),
mediana_salario_hora_cnpj_exib = if_else(low_precision_median_cnpj, "NS", format(round(mediana_salario_hora_cnpj, 2))),
# Diferença % medianas condicionada à precisão
dif_perc_medianas_cnpj_formal = if_else(
low_precision_median_formal | low_precision_median_cnpj,
NA_real_,
100 * (mediana_salario_hora_cnpj - mediana_salario_hora_formal) / mediana_salario_hora_formal))
Tabela de Resultados
- Grupo-Base de Profissões
A tabela abaixo apresenta os resultados a partir do dado mais
granular: as profissões.
É importante fazer uma leitura que considere os números ponderados,
as médias e também as medianas.
tab_geral_sem_se <- tab_geral |>
select(
grupo_base,
total,
total_formal,
total_cnpj,
salario_hora,
salario_hora_formal,
salario_hora_cnpj,
dif_perc_cnpj_formal,
mediana_salario_hora_formal_exib,
mediana_salario_hora_cnpj_exib,
dif_perc_medianas_cnpj_formal) |>
arrange(desc(total_cnpj))
colnames(tab_geral_sem_se) <- c(
"Profissão",
"Total da Profissão",
"Total Formal",
"Total CNPJ",
"Salário-hora - Profissão (Média)",
"Salário-hora Formal (Média)",
"Salário-hora CNPJ (Média)",
"Dif. % Média CNPJ vs. Formal",
"Mediana Formal",
"Mediana CNPJ",
"Dif. % Mediana CNPJ vs. Formal")
# Atualizar o datatable para exibir e formatar as novas colunas
datatable(tab_geral_sem_se,
options = list(
pageLength = 20,
columnDefs = list(
list(targets = 0, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
list(targets = 3, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
list(targets = 7, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
list(targets = 10, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}"))
#list(targets = 10, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}"))
)
),
rownames = FALSE,
class = 'cell-border stripe',
caption = htmltools::tags$caption(
style = 'caption-side: top; text-align: left; font-size: 16px; font-weight: bold;',
"Tabela Comparativa por Profissões com Médias e Medianas",
htmltools::tags$div(
style = 'font-size: 12px; font-weight: normal; color: gray; margin-top: 4px;',
"Nota: Valores com coeficiente de variação acima de 25% foram retirados --- A ordenação-padrão está em ordem decrescente para o Total de CNPJ"
))
) |>
formatCurrency(columns = c('Salário-hora - Profissão (Média)', 'Salário-hora Formal (Média)', 'Salário-hora CNPJ (Média)',
'Dif. % Média CNPJ vs. Formal', 'Mediana Formal',
'Mediana CNPJ', 'Dif. % Mediana CNPJ vs. Formal'), currency = "", digits = 2, interval = 3, mark = "."
) |>
formatRound(
columns = c('Total da Profissão', 'Total Formal', 'Total CNPJ'),
digits = 0, mark = "."
) |>
formatStyle(
columns = 1:ncol(tab_geral_sem_se),
fontFamily = "Calibri, sans-serif")
Conclusões
Parciais
Uma análise a partir das profissões nos permite avaliar distintas
questões:
Em números absolutos, as 5 profissões com mais trabalhadores
são:
- Escriturário Geral (ou seja, trabalhadores de apoio administrativo
geral)
- Balconistas e vendedores de lojas
- Trabalhadores dos serviços domésticos em geral
- Comerciantes de lojas
- Trabalhadores de limpeza de interior de edifícios, escritórios,
hotéis e outros estabelecimentos
Em números absolutos, as 5 profissões com mais trabalhadores
formalizados são:
- Balconistas e vendedores de lojas
- Escriturários gerais
- Trabalhadores de limpeza de interior de edifícios, escritórios,
hotéis e outros estabelecimentos
- Condutores de caminhões pesados
- Guardas de segurança
Em números absolutos, as 5 profissões com mais trabalhadores
por cont-própria que possuem CNPJ são:
- Comerciantes de lojas
- Cabeleireiros
- Especialistas em tratamento de beleza e afins
- Condutores de automóveis, taxis e caminhonetes
- Pedreiros
Uma análise da tabela com uma desagregação muito grande deve
considerar os valores de salário-hora a partir do número ponderado de
profissionais.
Assim, as cinco maiores médias de salário-hora de formalizados, que
considere somente acima de 20 mil profissionais, são as seguintes
profissões:
- Médicos especialistas - R$ 54.14
- Engenheiros mecânicos - R$ 45.17
- Dirigentes de serviços de tecnologia da informação e comunicações -
R$ 45.11
- Engenheiros industriais e de produção - R$ 42.21
- Engenheiros não classificados anteriormente - R$ 38.74
Por sua vez, as cinco maiores médias de salário-hora de conta-própria
com CNPJ, que considere somente acima de 20 mil profissionais, são as
seguintes profissões:
- Médicos especialistas - R$ 50.89
- Analistas de sistemas - R$ 43.11
- Advogados e juristas - R$ 34.99
- Engenheiros civis - R$ 34.46
- Analista de Gestão e Administração - R$ 33.51
Dado o objetivo do estudo, entretanto, é relevante direcionar o olhar
para a diferença entre profissionais de ocupação
semelhante. Nesse sentido, é importante sempre olhar a diferença a
partir de uma análise coordenada de média e mediana. A partir do qual
pode-se concluir:
As maiores diferenças em que é o PJ recebe mais que o formalizado
encontram-se nas seguintes profissões
- Agentes imobiliários - onde um PJ (~89 mil) recebe
uma média de R$ 30,50 e o CLT (~29 mil) recebe uma média de R$ 16,09. A
análise da mediana também indica uma diferença relevante com formal a R$
11.69 e PJ a R$ 24,72. É importante destacar, entretanto que a maioria
dos profissionais (cerca de 63%) não estão em nenhuma dessas duas
classificações.
Análise semelhante deve ser feita para Especialistas em
tratamento de beleza e afins que apresenta diferença
significativa entre as duas categorias (82% a mais para PJ na média e
56% a mais na mediana), mas tem-se cerca de 75% de todos os
profissionais fora dessas duas categorias.
As demais diferenças que podem ser destacadas estão nas seguintes
profissões:
- Trabalhadores de agências de viagem
- Condutores de automóveis, taxis e caminhonetes
- Representantes comerciais
- Lavadores de veículos
- Condutores de caminhões pesados
Grupamentos de
Atividade
vd4010_labels <- c(
"01" = "Agricultura, pecuária, produção florestal, pesca e aquicultura",
"02" = "Indústria geral",
"03" = "Construção",
"04" = "Comércio, reparação de veículos automotores e motocicletas",
"05" = "Transporte, armazenagem e correio",
"06" = "Alojamento e alimentação",
"07" = "Informação, comunicação e atividades financeiras, imobiliárias, profissionais e administrativas",
"08" = "Administração pública, defesa e seguridade social",
"09" = "Educação, saúde humana e serviços sociais",
"10" = "Outros Serviços",
"11" = "Serviços domésticos",
"12" = "Atividades mal definidas")
ocupados3 <- ocupados3 |>
mutate(VD4010_label = vd4010_labels[as.character(VD4010)])
resumo_salario <- ocupados3 |>
group_by(VD4010_label, categoria_emprego) |>
summarise(salario_medio = mean(salario_hora, na.rm = TRUE),
n = survey_total(na.rm = TRUE)) |>
ungroup() |>
mutate(n_label = paste0("n = ", scales::comma(round(as.numeric(n)))))
# Gráfico de barras com facet
ggplot(resumo_salario, aes(x = categoria_emprego, y = salario_medio, fill = categoria_emprego)) +
geom_col(position = "dodge") +
geom_text(aes(label = paste0("n=", scales::comma(round(n))), y = salario_medio + max(salario_medio, na.rm = TRUE) * 0.03),
position = position_dodge(width = 0.9), size = 4, color = "black") +
facet_wrap(~ VD4010_label, scales = "free_y", ncol = 3,
labeller = labeller(VD4010_label = label_wrap_gen(width = 40))) +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
labs(title = "Média do Salário-Hora por Categoria de Emprego e Atividade\n(n ponderado por barra)",
x = "Categoria de Emprego",
y = "Salário-Hora Médio") +
theme_minimal(base_size = 13) +
theme(axis.text.x = element_text(angle = 0, hjust = 0.5), legend.position = "none")

max_salario <- 50 # ponto próximo da borda direita do gráfico, tendo em vista outliers
#Boxplot
ggplot(ocupados3, aes(x = salario_hora, y = categoria_emprego, fill = categoria_emprego)) +
geom_boxplot(alpha = 0.7, outlier.colour = "red") +
facet_wrap(~ VD4010_label, scales = "free_y", ncol = 3,
labeller = labeller(VD4010_label = label_wrap_gen(width = 40))) +
scale_x_continuous(labels = dollar_format(prefix = "R$ ")) +
coord_cartesian(xlim = c(0, 60)) +
labs(
title = "Distribuição do Salário-Hora por Categoria de Emprego e Atividade\n(Limite de visualização: R$ 60)",
x = "Salário-Hora",
y = "Categoria de Emprego") +
theme_minimal(base_size = 13) +
theme(legend.position = "none") +
geom_text(
data = resumo_salario,
mapping = aes(x = max_salario, y = categoria_emprego, label = n_label),
inherit.aes = FALSE,
hjust = 0,
size = 3)

Grupamentos
Ocupacionais
# Dicionário dos rótulos das ocupações - VD4011
vd4011_labels <- c(
"01" = "Diretores e gerentes",
"02" = "Profissionais das ciências e intelectuais",
"03" = "Técnicos e profissionais de nível médio",
"04" = "Trabalhadores de apoio administrativo",
"05" = "Trabalhadores dos serviços, vendedores dos comércios e mercados",
"06" = "Trabalhadores qualificados da agropecuária, florestais, da caça e da pesca",
"07" = "Trabalhadores qualificados, operários e artesões da construção, das artes mecânicas e outros ofícios",
"08" = "Operadores de instalações e máquinas e montadores",
"09" = "Ocupações elementares",
"10" = "Membros das forças armadas, policiais e bombeiros militares",
"11" = "Ocupações maldefinidas")
ocupados3 <- ocupados3 |>
mutate(VD4011_label = vd4011_labels[as.character(VD4011)] |> factor(levels = vd4011_labels))
resumo_salario2 <- ocupados3 |>
group_by(VD4011_label, categoria_emprego) |>
summarise(salario_medio = mean(salario_hora, na.rm = TRUE),
n = survey_total(na.rm = TRUE)) |>
ungroup() |>
mutate(n_label = paste0("n = ", scales::comma(round(as.numeric(n)))))
# Gráfico de barras com facet
ggplot(resumo_salario2, aes(x = categoria_emprego, y = salario_medio, fill = categoria_emprego)) +
geom_col(position = "dodge") +
geom_text(aes(label = paste0("n=", scales::comma(round(n))), y = salario_medio + max(salario_medio, na.rm = TRUE) * 0.03),
position = position_dodge(width = 0.9), size = 4, color = "black") +
facet_wrap(~ VD4011_label, scales = "free_y", ncol = 3,
labeller = labeller(VD4011_label = label_wrap_gen(width = 40))) +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
labs(title = "Média do Salário-Hora por Categoria de Emprego e Grupo Ocupacional\n(n ponderado por barra)",
x = "Grupo Ocupacional",
y = "Salário-Hora Médio") +
theme_minimal(base_size = 13) +
theme(axis.text.x = element_text(angle = 0, hjust = 0.5), legend.position = "none")

# Plot boxplot horizontal com n como texto
ggplot(ocupados3, aes(x = salario_hora, y = categoria_emprego, fill = categoria_emprego)) +
geom_boxplot(alpha = 0.7, outlier.colour = "red") +
facet_wrap(~ VD4011_label, scales = "free_y", ncol = 3,
labeller = labeller(VD4011_label = label_wrap_gen(width = 40))) +
scale_x_continuous(labels = dollar_format(prefix = "R$ ")) +
coord_cartesian(xlim = c(0, 60)) +
labs(title = "Distribuição do Salário-Hora por Categoria de Emprego e Grupamento Ocupacional\n(Limite de visualização: R$ 100)",
x = "Salário-Hora",
y = "Categoria de Emprego") +
theme_minimal(base_size = 13) +
theme(legend.position = "none") +
geom_text(data = resumo_salario2,
mapping = aes(x = max_salario, y = categoria_emprego, label = n_label),
inherit.aes = FALSE,
hjust = 0,
size = 3)

Análise
Inferencial
Mincer
Existe uma diferença salarial entre a condição “Conta-Própria com
CNPJ” e “Formal - CLT”.
A pergunta que se coloca, entretanto, é: o quanto essa
diferença salarial deve-se à condição PJ/Formal?
Para isso, vamos fazer um modelo de regressão a partir das equações
de Mincer.
Recodificação de
Variáveis
No código abaixo foi criado o log(salario_hora), colocados os rótulos
para sexo e raça/cor.
Além disso, será criada a variável
idade_centralizada que consiste em
\[
\text{Idade_Centralizada}_{i} = Idade_{i} - \overline{Idade}
\] Essa variável permite diminuir a multicolinearidade entre
idade e idade^2
Para uma aproximação da variavel experiência será
feito o seguinte cálculo
\[
\text{Experiência} = Idade - Anos de Escolaridade - 5
\]
ocupados3 <- ocupados3 |>
mutate(
# log do salário-hora (apenas se válido)
ln_salario_hora = if_else(salario_hora > 0, log(salario_hora), NA_real_),
# Sexo
sexo = factor(V2007,
levels = c(1, 2),
labels = c("Homem", "Mulher")),
# Raça
raca = factor(V2010,
levels = c(1, 2, 3, 4, 5, 9),
labels = c("Branca", "Preta", "Amarela", "Parda", "Indígena", "Ignorado")),
# Idade
idade = as.numeric(V2009),
# Anos de escolaridade (converter de character p/ numeric)
anos_escolaridade = as.numeric(VD3005)) |>
mutate(
# Idade centralizada pela média
idade_centralizada = idade - mean(idade, na.rm = TRUE),
# Experiência potencial
experiencia = idade - anos_escolaridade - 5,
# Experiência centralizada pela média
experiencia_c = experiencia - mean(experiencia, na.rm = TRUE))
Regressões
A equação de Mincer pode ser expressa como:
\[
\ln(w_i) = \beta_0 +
\beta_1 Escolaridade_i +
\beta_2 Experiência_i +
\beta_3 Experiência_i^2 +
\varepsilon_i
\] O modelo estimado é dado por:
\[
\begin{aligned}
\ln(\text{SalárioHora}_i) =\ & \beta_0
+ \beta_1 \text{Categoria de Emprego}_i
+ \beta_2 \overline{Experiência}_i \\
&+ \beta_3 \overline{Experiência}_i^2
+ \beta_4 \text{Raça}_i \\
&+ \beta_5 \text{Sexo}_i
+ \beta_6 \text{SetorAtividade}_i
+ \varepsilon_i
\end{aligned}
\]
Foram realizados dois testes:
1 - O primeiro que utiliza idade_centralizada + idade_centralizada^2
2 - O segundo que utiliza o proxy
experiencia_centralizada
Em ambos os modelos o poder explicativo ficou em 25%. Assim, para
manter fidelidade com o modelo de Mincer optou-se por seguir
#Não substituir UF e VD4010 pelos labels porque o tempo de processamento aumenta demais
library(jtools)
modelo_mincer <- summ(
svyglm(ln_salario_hora ~ categoria_emprego + anos_escolaridade + experiencia_c + I(experiencia_c^2) + raca + sexo + VD4010,
design = ocupados3,
family = gaussian()),
digits = 2, confint = FALSE)
coefs <- modelo_mincer$coeftable |>
as.data.frame() |>
rownames_to_column("term")
# filtrar para p <= 0.05 e sem o intercepto
sig_coefs <- coefs |>
filter(p <= 0.05, term != "(Intercept)") |>
pull(term)
plot_summs(modelo_mincer, coefs = sig_coefs)

#Referências
#CNPJ
#Escolaridade - Sem Instrução
#Raça - Branca
#Sexo - Masculino
#VD4010 1 - Agricultura, pecuária, produção florestal, pesca e aquicultura
#Percentual
library(broom)
resultados <- broom::tidy(modelo_mincer) |>
mutate(efeito_pct = (exp(estimate) - 1) * 100, # transformar log em %
signif = ifelse(p.value < 0.05, "Significativo", "Não significativo"))
#apenas significativos
resultados_sig <- resultados |>
filter(signif == "Significativo") |>
select(term, estimate, efeito_pct, std.error, statistic, p.value)
# renomear colunas
resultados_sig <- resultados_sig |>
rename(Variável = term,
Coef_Log = estimate,
`Efeito (%)` = efeito_pct,
`Erro Padrão` = std.error,
`t valor` = statistic,
`p-valor` = p.value)
library(kableExtra)
resultados_sig |>
kable(digits = 2, caption = "Efeitos percentuais significativos no salário-hora (modelo Mincer)") |>
kable_styling(full_width = FALSE, position = "center")
Efeitos percentuais significativos no salário-hora (modelo Mincer)
|
Variável
|
Coef_Log
|
Efeito (%)
|
Erro Padrão
|
t valor
|
p-valor
|
|
(Intercept)
|
1.84
|
532.77
|
0.02
|
109.93
|
0.00
|
|
categoria_empregoformal
|
-0.19
|
-17.37
|
0.01
|
-18.79
|
0.00
|
|
categoria_empregooutros
|
-0.26
|
-22.95
|
0.01
|
-24.87
|
0.00
|
|
anos_escolaridade
|
0.08
|
8.22
|
0.00
|
89.07
|
0.00
|
|
experiencia_c
|
0.01
|
1.16
|
0.00
|
68.89
|
0.00
|
|
I(experiencia_c^2)
|
0.00
|
-0.02
|
0.00
|
-23.57
|
0.00
|
|
racaPreta
|
-0.18
|
-16.33
|
0.01
|
-28.67
|
0.00
|
|
racaParda
|
-0.18
|
-16.66
|
0.00
|
-44.07
|
0.00
|
|
racaIndígena
|
-0.20
|
-18.26
|
0.03
|
-6.80
|
0.00
|
|
sexoMulher
|
-0.19
|
-16.95
|
0.00
|
-48.13
|
0.00
|
|
VD401002
|
0.21
|
22.77
|
0.01
|
19.07
|
0.00
|
|
VD401003
|
0.17
|
19.07
|
0.01
|
16.11
|
0.00
|
|
VD401004
|
0.08
|
8.09
|
0.01
|
7.02
|
0.00
|
|
VD401005
|
0.20
|
21.61
|
0.01
|
16.56
|
0.00
|
|
VD401006
|
0.04
|
3.84
|
0.01
|
3.11
|
0.00
|
|
VD401007
|
0.31
|
36.41
|
0.01
|
28.22
|
0.00
|
|
VD401008
|
0.54
|
72.18
|
0.01
|
44.64
|
0.00
|
|
VD401009
|
0.40
|
49.58
|
0.01
|
35.17
|
0.00
|
|
VD401010
|
0.13
|
14.20
|
0.01
|
10.46
|
0.00
|
|
VD401011
|
0.02
|
2.51
|
0.01
|
2.05
|
0.04
|
Colinearidade
Muita colinearidade para UF
# usa os dados que estão dentro do design survey
data_svy <- ocupados3$variables
# monta a matrix de regressors como o modelo que você citou
mm <- model.matrix(~ categoria_emprego + anos_escolaridade + experiencia_c + I(experiencia_c^2) + sexo + raca + VD4010,
data = data_svy)
# remove a coluna do intercepto
preds <- as.data.frame(mm[, -1, drop = FALSE])
# obtém os pesos de amostra do design (tipo "sampling")
wt <- weights(ocupados3, type = "sampling")
# função para R2 ponderado (usaremos em lm com weights)
weighted_R2 <- function(y, yhat, w) {
# soma dos quadrados dos resíduos ponderados
sse <- sum(w * (y - yhat)^2, na.rm = TRUE)
# soma total ponderada
ybar_w <- stats::weighted.mean(y, w, na.rm = TRUE)
sst <- sum(w * (y - ybar_w)^2, na.rm = TRUE)
1 - sse / sst
}
# calcula VIF para cada coluna da matrix de regressors
vif_table <- data.frame(variable = character(), R2 = numeric(), VIF = numeric(), stringsAsFactors = FALSE)
for (j in seq_len(ncol(preds))) {
y <- preds[[j]]
Xother <- preds[, -j, drop = FALSE]
# monta data frame temporário
df_tmp <- cbind(y = y, Xother)
# regressão ponderada com lm (resposta y contra os demais)
fit <- lm(y ~ ., data = df_tmp, weights = wt)
# prediz e calcula R2 ponderado
yhat <- predict(fit, newdata = df_tmp)
R2w <- weighted_R2(y, yhat, wt)
vif_j <- 1 / (1 - R2w)
vif_table <- rbind(vif_table, data.frame(variable = colnames(preds)[j], R2 = R2w, VIF = vif_j))
}
# ordena e mostra
vif_table[order(-vif_table$VIF), ]
O modelo explica cerca de 32% da diferença
salarial.
Formais ganham, em média, cerca de 19% menos que o conta-própria com
CNPJ, mantendo escolaridade, idade, raça, sexo, e setor econômico
fixos.
Mas qual variável conta mais?
Comparar modelos
Testando função para ver o incremento
# Função compacta para calcular pseudo-R² para svyglm (Gaussian)
pseudo_r2 <- function(model) {
y <- model$y
yhat <- model$fitted.values
ss_res <- sum((y - yhat)^2)
ss_tot <- sum((y - mean(y))^2)
1 - ss_res / ss_tot}
# Ajuste incremental, reutilizando o objeto de design e limpando explicitamente
r2s <- numeric(0)
formulas <- list(
ln_salario_hora ~ categoria_emprego,
ln_salario_hora ~ categoria_emprego + sexo,
ln_salario_hora ~ categoria_emprego + sexo + raca,
ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010,
ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade,
ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade + experiencia_c,
ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade + experiencia_c + I(experiencia_c^2)
)
for (f in formulas) {
modelo <- svyglm(f, design = ocupados3, family = gaussian())
r2s <- c(r2s, pseudo_r2(modelo))
rm(modelo) # remove objeto grande
gc() # força o garbage collector a liberar memória
}
names(r2s) <- c("categoria_emprego", "+sexo", "+raça", "+grupo_ativ", "+escolaridade", "+experiencia", "+experiencia2")
print(r2s)
## categoria_emprego +sexo +raça +grupo_ativ
## 0.01351587 0.01244125 0.05583003 0.20438819
## +escolaridade +experiencia +experiencia2
## 0.28018363 0.31889390 0.32297245
Conclusões
Parciais
Ainda que exista uma diferença entre as categorias de emprego
percebe-se que o fator que mais influencia o salário-hora é a
escolaridade e o grupo de atividade.
A categoria emprego sozinha explica cerca de 1% da variação
salarial.
Propensity Score
Matching
Propensity Score Matching cria um grupo de controle artificial para
comparar com o grupo de tratamento, com o objetivo de eliminar
vieses.
A escolha por esse teste permite responder à pergunta:
“Dados dois trabalhadores com perfis semelhantes (mesma escolaridade,
experiência, sexo e raça), como fica a diferença salário-hora entre
aquele formalizado e conta-própria com CNPJ?”
library(MatchIt)
# Variável de tratamento
ocupados_psm <- ocupados3$variables |>
filter(categoria_emprego %in% c("formal", "cnpj")) |>
mutate(formal = if_else(categoria_emprego == "formal", 1, 0),
formal = factor(formal, levels = c(0, 1), labels = c("Conta própria", "Formal")))
ocupados_psm <- as.data.frame(ocupados_psm)
# Matching com logit
# Foi retirado VD4010 pois demorava cerca de 40 minutos.
system.time({
psm_model <- matchit(formal ~ sexo + raca + anos_escolaridade + experiencia_c + I(experiencia_c^2),
data = ocupados_psm,
method = "nearest",
distance = "logit")
})
## usuário sistema decorrido
## 47.97 2.63 51.64
matched_data <- match.data(psm_model)
library(cobalt)
love.plot(psm_model, binary = "std") # gráfico de diferenças padronizadas

Teste t
t_test <- t.test(salario_hora ~ formal, data = matched_data, weights = weights)
t_test
##
## Welch Two Sample t-test
##
## data: salario_hora by formal
## t = 74.234, df = 12181, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Conta própria and group Formal is not equal to 0
## 95 percent confidence interval:
## 10.77835 11.36300
## sample estimates:
## mean in group Conta própria mean in group Formal
## 20.512122 9.441448
# Visualizar balanceamento (standardized mean differences)
#plot(psm_model, type = "jitter", interactive = FALSE)
#plot(psm_model, type = "qq")
#plot(psm_model, type = "hist")
matched_data$final_weights <- matched_data$weights * matched_data$V1028
options(survey.lonely.psu = "adjust")
design_psm <- svydesign(
ids = ~1, # ignora cluster
weights = ~final_weights,
data = matched_data
)
# Teste t ponderado
svy_test <- svyttest(salario_hora ~ formal, design = design_psm)
svy_test
##
## Design-based t-test
##
## data: salario_hora ~ formal
## t = -53.95, df = 21342, p-value < 2.2e-16
## alternative hypothesis: true difference in mean is not equal to 0
## 95 percent confidence interval:
## -11.76878 -10.94361
## sample estimates:
## difference in mean
## -11.35619
O test t indica R$ 20,51 para conta própria e R$ 9,44 para o
formalizado (cerca de R$ 11,07 a menos) O test t para objeto do tipo
survey indica uma diferença de cerca de -R$ 11,35 para o formalizado
Quantílica com
PSM
Como já foi possível visualizar, especialmente na parte de análise
descritiva, as variáveis que envolvem salários tem boxplots com o
terceiro quartil mais alongado e o quarto quartil com muitos
outliers.
Assim, a pergunta seguinte é:
A diferença salário-hora entre formais e PJs se mantêm entre
todos os níveis salariais?
Para responder essa pergunta será feita uma análise quantílica. Ou
seja, o salário-hora será dividido em dez partes e será observado o
comportamento diferencial entre cada decil.
library(quantreg)
taus <- seq(0.0, 1.0, by = 0.1)
rq_model_all <- rq(salario_hora ~ formal,
data = matched_data,
tau = taus,
weights = weights)
system.time({
rq_summary <- summary(rq_model_all, se = "boot", R = 50)
})
## usuário sistema decorrido
## 108.61 0.22 109.98
Resultados
#Sys.setlocale("LC_ALL", "pt_BR.UTF-8")
results <- do.call(rbind, lapply(rq_summary, function(s) {
data.frame(
tau = s$tau,
coef = s$coefficients["formalFormal", 1],
se = s$coefficients["formalFormal", 2]
)}))
#erros-padrão
results <- results |>
mutate(lower = coef - 1.96 * se,
upper = coef + 1.96 * se,
type = "Quantílico")
#resultados dos dois tests t - adicionados
mean_effects <- data.frame(
tau = c(0.5, 0.5),
coef = c(t_test$estimate[2] - t_test$estimate[1], svy_test$estimate), # Formal - Conta própria
lower = c(-t_test$conf.int[2], svy_test$conf.int[1]), # Inverta upper (vai para lower)
upper = c(-t_test$conf.int[1], svy_test$conf.int[2]), # Inverta lower (vai para upper)
type = c("T-test", "Svy T-test"))
plot_data <- bind_rows(results, mean_effects)
g1 <- ggplot() +
# efeitos quantílicos
geom_line(data = results, aes(x = tau, y = coef, color = type), size = 1) +
geom_point(data = results, aes(x = tau, y = coef, color = type), size = 2) +
geom_ribbon(data = results, aes(x = tau, ymin = lower, ymax = upper, fill = type), alpha = 0.15) +
# rótulos nos efeitos quantílicos
geom_text(data = results,
aes(x = tau, y = coef, label = round(coef, 1), color = type),
vjust = -1, size = 3.5, show.legend = FALSE) +
# médias destacadas
geom_point(data = mean_effects, aes(x = tau, y = coef, shape = type, color = type), size = 4) +
geom_errorbar(data = mean_effects, aes(x = tau, ymin = lower, ymax = upper, color = type),
width = 0.05, size = 1) +
# rótulos nas médias
geom_text(data = mean_effects,
aes(x = tau, y = coef, label = round(coef, 1), color = type),
vjust = -1.2, size = 4, fontface = "bold", show.legend = FALSE) +
# linha de referência
geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
# eixo de 0% a 100%
scale_x_continuous(breaks = seq(0, 1, 0.1), # decil a decil
labels = scales::percent) +
labs(x = "Quantil da distribuição salarial",
y = "Diferença (Formal - Conta própria)",
title = "Diferença Salário-Hora (Formal vs PJ) por Decil - Usando PSM \n Efeitos médios (t-test / survey t-test) vs quantílicos") +
theme_minimal(base_size = 14)
g1

Composição dos
Quantis
library(Hmisc)
# Calcular os cortes de salário-hora ponderados
quantile_cuts <- Hmisc::wtd.quantile(matched_data$salario_hora,
weights = matched_data$final_weights,
probs = taus)
quantile_cuts
## 0% 10% 20% 30% 40% 50% 60% 70%
## 1.284923 6.873846 7.491608 8.016084 9.065035 10.493846 12.592615 15.358741
## 80% 90% 100%
## 20.603497 30.218462 82.153846
# Classificar cada indivíduo no seu intervalo de quantil
matched_data <- matched_data |>
mutate(quantil = cut(salario_hora,
breaks = quantile_cuts,
labels = c("0-10%", "10-20%", "20-30%", "30-40%", "40-50%",
"50-60%", "60-70%", "70-80%", "80-90%", "90-100%"),
right = TRUE,
include.lowest = TRUE))
dist_quantis <- matched_data |>
group_by(quantil, formal) |>
summarise(n_ponderado = sum(final_weights, na.rm = TRUE), .groups = "drop") |>
filter(!is.na(quantil)) |>
mutate(prop_total = n_ponderado / sum(n_ponderado))
g2 <- ggplot(dist_quantis, aes(x = quantil, y = prop_total, fill = formal)) +
geom_col(position = position_dodge(width = 0.8), width = 0.7) +
geom_text(aes(label = scales::percent(prop_total, accuracy = 0.1)),
position = position_dodge(width = 0.8),
vjust = -0.3, size = 3.5) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
labs(title = "Proporção de Formal vs Conta Própria \n por Quantil (com PSM)",
x = "Quantis do salário-hora", y = "Proporção do total geral",
fill = "Categoria de emprego") +
theme_minimal(base_size = 14)
g2

Média salarial
medias_decis <- matched_data |>
group_by(quantil, formal) |>
summarise(media_salario = weighted.mean(salario_hora, w = final_weights, na.rm = TRUE),
.groups = "drop")
# se os quantis estão como fator, converter para numérico para alinhar no eixo
medias_decis <- medias_decis |>
mutate(quantil_num = as.numeric(gsub("(%|\\-).*", "", quantil)) / 100) #ponto médio
medias_decis <- medias_decis |> filter(!is.na(quantil))
g3 <- ggplot(medias_decis, aes(x = quantil, y = media_salario, fill = formal)) +
geom_col(position = "dodge", alpha = 0.8) +
geom_text(aes(label = round(media_salario, 1)),
position = position_dodge(width = 0.9),
vjust = -0.1, size = 3.5) +
labs(
title = "Salário-Hora Médio por Decil da Distribuição",
subtitle = "Comparação entre trabalhadores formais e conta própria \n com PSM",
x = "Quantil da distribuição salarial",
y = "Salário-hora médio (R$)",
fill = "Categoria") +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ", big.mark = ".", decimal.mark = ",")) +
theme_minimal(base_size = 14)
g3

Quantílica sem
PSM
Resultados
t_test <- t.test(salario_hora ~ formal, data = ocupados_psm, weights = V1028)
t_test
##
## Welch Two Sample t-test
##
## data: salario_hora by formal
## t = 44.486, df = 12230, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Conta própria and group Formal is not equal to 0
## 95 percent confidence interval:
## 6.341628 6.926236
## sample estimates:
## mean in group Conta própria mean in group Formal
## 20.51212 13.87819
rq_model_all_SEMPSM <- rq(salario_hora ~ formal,
data = ocupados_psm,
tau = taus,
weights = V1028)
#boot com R = 50 para diminuir o tempo de processamento. Diminuiu de 1h20 para 30m
system.time({
rq_summary_SEMPSM <- summary(rq_model_all_SEMPSM, se = "boot", R=50)
})
## usuário sistema decorrido
## 1131.08 1.33 1135.28
results_SEMPSM <- do.call(rbind, lapply(rq_summary_SEMPSM, function(s) {
data.frame(
tau = s$tau,
coef = s$coefficients["formalFormal", 1],
se = s$coefficients["formalFormal", 2])}))
results_SEMPSM <- results_SEMPSM |>
mutate(lower = coef - 1.96 * se,
upper = coef + 1.96 * se,
type = "Quantílico")
g4 <- ggplot() +
# efeitos quantílicos
geom_line(data = results_SEMPSM, aes(x = tau, y = coef, color = type), size = 1) +
geom_point(data = results_SEMPSM, aes(x = tau, y = coef, color = type), size = 2) +
geom_ribbon(data = results_SEMPSM, aes(x = tau, ymin = lower, ymax = upper, fill = type),
alpha = 0.15) +
# rótulos nos efeitos quantílicos
geom_text(data = results_SEMPSM,
aes(x = tau, y = coef, label = round(coef, 1), color = type),
vjust = -0.3, size = 3.5, show.legend = FALSE) +
# linha de referência
geom_hline(yintercept = 0, linetype = "dashed", color = "red") +
# eixo de 0% a 100%
scale_x_continuous(breaks = seq(0, 1, 0.1), # decil a decil
labels = scales::percent) +
labs(x = "Quantil da distribuição salarial",
y = "Diferença (Formal - Conta própria)",
title = "Diferença Salário-Hora (Formal vs PJ) por Decil - Sem PSM") +
theme_minimal(base_size = 14)
library(patchwork)
g1 / g4

Composição dos
Quantis
quantile_cuts_puro <- Hmisc::wtd.quantile(ocupados_psm$salario_hora,
weights = ocupados_psm$V1028,
probs = taus)
ocupados_psm <- ocupados_psm |>
mutate(quantil = cut(salario_hora,
breaks = quantile_cuts_puro,
labels = c("0-10%", "10-20%", "20-30%", "30-40%", "40-50%",
"50-60%", "60-70%", "70-80%", "80-90%", "90-100%"),
include.lowest = TRUE))
dist_quantis_puro <- ocupados_psm |>
group_by(quantil, formal) |>
summarise(n_ponderado = sum(V1028, na.rm = TRUE), .groups = "drop") |>
filter(!is.na(quantil)) |>
mutate(prop_total = n_ponderado / sum(n_ponderado))
g5 <- ggplot(dist_quantis_puro, aes(x = quantil, y = prop_total, fill = formal)) +
geom_col(position = position_dodge(width = 0.8), width = 0.7) +
geom_text(aes(label = scales::percent(prop_total, accuracy = 0.1)),
position = position_dodge(width = 0.8),
vjust = -0.3, size = 3.5) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
labs(title = "Proporção de Formal vs Conta Própria \n por Quantil (sem PSM)",
x = "Quantis do salário-hora", y = "Proporção do total geral",
fill = "Categoria de emprego") +
theme_minimal(base_size = 14)
## Comparação lado a lado
g2 / g5

table(matched_data$formal)
##
## Conta própria Formal
## 10672 10672
table(ocupados_psm$formal)
##
## Conta própria Formal
## 10672 67340
prop.table(table(matched_data$formal))
##
## Conta própria Formal
## 0.5 0.5
prop.table(table(ocupados_psm$formal))
##
## Conta própria Formal
## 0.1367995 0.8632005
Média Salarial
medias_sempsm <- ocupados_psm |>
group_by(quantil, formal) |>
summarise(media_salario = weighted.mean(salario_hora, w = V1028, na.rm = TRUE),
.groups = "drop") |>
filter(!is.na(quantil)) |>
mutate(tipo = "Sem PSM")
g6 <- ggplot(medias_sempsm, aes(x = quantil, y = media_salario, fill = formal)) +
geom_col(position = "dodge", alpha = 0.8) +
geom_text(aes(label = round(media_salario, 1)),
position = position_dodge(width = 0.9),
vjust = -0.1, size = 3.5) +
labs(
title = "Salário-Hora Médio por Decil da Distribuição",
subtitle = "Comparação entre trabalhadores formais e conta própria \n sem PSM",
x = "Quantil da distribuição salarial",
y = "Salário-hora médio (R$)",
fill = "Categoria") +
scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ", big.mark = ".", decimal.mark = ",")) +
theme_minimal(base_size = 14)
g3 / g6

Conclusões
Parciais
A formalidade estabiliza (menos dispersão), mas no topo implica em
salários-hora consistentemente mais baixos.
O efeito não é constante: é pequeno na base e grande no topo.
Isso indica que a formalidade atua como uma “âncora” salarial:
protege contra rendas muito baixas, mas também limita a chance de rendas
muito altas.
No percentil 10, a diferença é positiva para formais, a medida que o
salário-hora sobe a diferença se inverte, mas é gradual.
Isso confirma que a formalidade cresce ao longo da distribuição:
quanto mais alto o decil, maior a perda relativa dos formais.
Já os pontos de t-test e survey t-test ficam próximos de -13 R$/h,
refletindo a diferença média encontrada antes, mas demonstrando como a
análise quantílica é relevante.
O resultado médio mascara a heterogeneidade: ser formal implica, em
média, salário-hora menor, mas a magnitude depende fortemente da posição
na distribuição.
---
title: "Uma análise comparada entre Trabalhadores Formais e Trabalhadores por Conta-Própria com CNPJ"
author: "Raphael Santos Lapa"
output:
  html_document:
    theme: journal
    toc: true
    toc_depth: 4
    toc_float: 
      collapsed: false
      smooth_scroll: true
    number_sections: yes
    df_print: paged
    self_contained: no
    code_folding: show
    code_download: yes
css: estilo.css
editor_options:
  markdown:
    wrap: 72
---

------------------------------------------------------------------------

# Objetivo Geral

<br>

-   Apresentar um cenário comparativo a partir do **salário-hora** entre
    **trabalhadores formais** e **trabalhadores por conta-própria que
    possuem CNPJ**, a partir da pesquisa PNADc

<br>

# Escolhas Metodológicas

<br>

-   A base de dados utilizada foi a Pesquisa Nacional por Amostra de
    Domicílios Contínua - PNADc

-   O recorte temporal foi o 3º trimestre/2024. Essa escolha ocorre
    tendo em vista as volatilidades do mercado de trabalho no início e
    fim de ano.

-   A comparação de salário-hora não é direta. Para formalizados foram
    inseridos valores de 13º, férias, 1/3 de férias e FGTS. Para
    trabalhadores por conta-própria com PJ que recebem abaixo de R\$
    81.000,00 foi retirada a contribuição de R\$ 70,00 referente ao MEI.
    Para os demais PJs foram retirados 20% do valor do salário-mínimo.
    As fórmulas estão disponíveis na seção "**Salário-Hora**"

-   Foram retirados **outliers** abaixo de 1% e acima de 99% a partir
    das variáveis de rendimento e de horas trabalhadas. Depois do
    cálculo de salário-hora foram retirados também outliers a partir
    dessa variável

-   Foram retirados trabalhadores caracterizados como **subocupados**
    por insuficiência de horas.

-   Tendo em vista que se trata de pesquisa amostral, quando foram
    analisados os valores totais (com peso pós-estratificado) qualquer
    valor total dos grupos (formal e conta-própria) que estivesse com
    **coeficiente de variação acima de 25% foi retirado da tabela de
    resultados**.

-   A PNADc utiliza a Classificação de Ocupações para as Pesquisas
    Domiciliares – COD
    (<https://ftp.ibge.gov.br/Censos/Censo_Demografico_2010/metodologia/anexos/anexo_7_ocupacao_cod.pdf>)
    que tem a seguinte estrutura:

<br>

```{r, echo= F}
knitr::include_graphics("c:/Users/raphael.rsl/Desktop/R/pjclt/cod.jpg")
```

<br>

------------------------------------------------------------------------

# Desenho da Base 

## Variáveis de Interesse

-   Ano
-   Trimestre
-   UF
-   V4010 - Código da ocupação (cargo ou função)
    -   É utilizada a Classificação de Ocupações para as Pesquisas
        Domiciliares – COD
-   VD4002 - Ocupados/Desocupados
-   VD4009 - Posição na ocupação e categoria do emprego
    -   1 - Empregado no setor privado com carteira de trabalho assinada
    -   9 - Conta-própria #VD4010 - Grupamentos de atividade principal
        do empreendimento do trabalho
-   VD4016 - Rendimento mensal habitual do trabalho principal
-   VD4010 - Grupamentos de atividade principal do empreendimento do
    trabalho principal
    -   Ex.: Agricultura, Indústria, Construção etc
-   V4039 - "Quantas horas ... trabalhava normalmente, por semana, nesse
    trabalho principal?"
-   V4019 - "Esse negócio/empresa era registrado no Cadastro Nacional da
    Pessoa Jurídica - CNPJ?"
-   VD4004A - Subocupação por insuficiência de horas habitualmente
    trabalhadas em todos os trabalhos
-   VD3004 - Escolaridade
-   VD3005 - Anos de Estudo
-   V2007 - Sexo
-   V2010 - Cor/Raça
-   V2009 - Idade
-   VD4011 - Grupamento Ocupacional
-   VD4012 - Contribuição para instituto de previdência em qualquer
    trabalho da semana de referência para pessoas de 14 anos ou mais de
    idade

</br>

## Pré-Processamento 

```{r, warning = F, results = 'hide', message = F}
#Temas para Rmarkdown - https://rpubs.com/ranydc/rmarkdown_themes

library(tidyverse)
library(readxl)
library(DT)
library(PNADcIBGE)
library(survey)
library(srvyr)
library(scales)
library(jtools) #função summ - parte inferencial

Sys.setlocale("LC_ALL", "pt_BR.UTF-8") #problemas com encoding
```

Será feita uma consulta somente à base de dados de 2024 - 3º Trimestre,
tendo em vista a limitação de capacidade de processamento.

O código abaixo fará o download dos dados e salvará em um objeto do tipo
.rds para uma pasta local.

```{r}
##########RODAR SOMENTE A PRIMEIRA VEZ###############

# variaveis_selecionadas <- c("Ano", "Trimestre", "UF","V4010",
#                             "VD4002","VD4009","VD4010","VD4016",
#                             "V4039","V4019", "VD4004A", "VD3004", "VD3005",
#                             "V2007", "V2010", "V2009", "VD4012", "VD4011")
# 
# pnadc <- get_pnadc(year=2024, quarter=3,
#                    vars=variaveis_selecionadas, design = T, labels = F)
# class(pnadc)

# #TRANSFORMAR PARA TIBBLE PARA USAR A GRAMÁTICA TIDYVERSE
# pnad_srvyr <- as_survey(pnadc)
# class(pnad_srvyr)

# #PRIMEIRO FILTRO - SOMENTE OCUPADOS
# ocupados <- pnad_srvyr |>
#   filter(VD4002 == 1) |>
#   mutate(V1028 = as.numeric(V1028))
# class(ocupados)

# rm(pnad_srvyr)
# rm(pnadc)

# #SALVAR PARA USAR OFFLINE
# saveRDS(ocupados, file = "c:/Users/raphael.rsl/Desktop/R/pjclt/ocupados3.rds")
```

## Preparação da Base de Dados

Aqui será realizada a junção entre a PNADc pura e a tabela COD das
profissões.

```{r}
ocupados <- readRDS("c:/Users/raphael.rsl/Desktop/R/pjclt/ocupados3.rds")
#class(ocupados)

#LER A TABELA DE OCUPAÇÕES
cod <- read_xls("c:/Users/raphael.rsl/Desktop/R/pjclt/Estrutura_Ocupacao_COD.xls") |>
  rename(grande_grupo = `Grande Grupo`,
         subgrupo_principal = `Subgrupo principal`,
         subgrupo = Subgrupo,
         grupo_base = `Grupo de base`,
         denominacao = Denominação) |>
  mutate( #NÃO TRAZER NAs, ou seja, se não for NA traz "denominacao"
    denom_subgrupo_principal = if_else(!is.na(subgrupo_principal), denominacao, NA_character_),
    denom_subgrupo = if_else(!is.na(subgrupo), denominacao, NA_character_),
    denom_grupo_base = if_else(!is.na(grupo_base), denominacao, NA_character_)) |>
  fill(grande_grupo, subgrupo_principal, denom_subgrupo_principal, 
       subgrupo, denom_subgrupo, grupo_base, denom_grupo_base, .direction = "down")
       #propaga os valores para baixo

#RETIRANDO NAs e possíveis duplicados
cod_map <- cod |>
  filter(!is.na(grupo_base)) |>
  select(grupo_base, denom_grupo_base, subgrupo, denom_subgrupo,
         subgrupo_principal, denom_subgrupo_principal, grande_grupo) |>
  distinct()

#aplicando a base COD na base geral
ocupados2 <- ocupados |> 
  mutate(V4010 = as.character(V4010),
         subgrupo_cod = substr(V4010, 1, 3),
         # busca grupo_base e subgrupo e faz o match
         grupo_base = cod_map$denom_grupo_base[match(V4010, cod_map$grupo_base)],
         subgrupo = cod_map$denom_subgrupo[match(subgrupo_cod, cod_map$subgrupo)])

# Retirados indivíduos classificados como subocupados
ocupados2 <- ocupados2 |> 
  filter(is.na(VD4004A) | VD4004A != 1)
#É necessário manter NA por conta da estrutura do tbl_svy

#outliers - retira 1% superior e 1% inferior
ocupados2 <- ocupados2 |> 
  filter(VD4016 >= quantile(VD4016, 0.01, na.rm = TRUE),
         VD4016 <= quantile(VD4016, 0.99, na.rm = TRUE),
         V4039 >= quantile(V4039, 0.01, na.rm = TRUE),
         V4039 <= quantile(V4039, 0.99, na.rm = TRUE)) 
```

Gráficos Exploratórios

```{r}
#VERIFICAR SE É O CASO DE RETIRAR MAIS OUTLIERS A PARTIR DOS BOXPLOTS

# Boxplot para Rendimento
ggplot(ocupados2, aes(x = "", y = VD4016)) +
  geom_boxplot(outlier.color = "red") +
  labs(title = "Boxplot de Rendimento", y = "Rendimento") +
  theme_minimal()

# Boxplot para Jornada
ggplot(ocupados2, aes(x = "", y = V4039)) +
  geom_boxplot(outlier.color = "red") +
  labs(title = "Boxplot de Jornada", y = "Horas") +
  theme_minimal()  
```

## Salário-Hora <a id="salario-hora"></a>

Criou-se uma variável auxiliar: **salario_hora** com a seguinte
composição

Para formais, consideramos: - 12 salários mensais habituais; - 13º
salário (1 salário adicional); - 1/3 adicional de férias; - 8% de
FGTS; - Apenas 11 meses de trabalho efetivo (pois 1 mês é de férias).

A fórmula do salário-hora é:

$$
\text{Salário-hora}_{formal} = 
\frac{(12 + 1 + \tfrac{1}{3}) \cdot \text{Salário Mensal Habitual} \cdot (1 + \text{FGTS})}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12} \cdot 11}
$$

Para trabalhadores autônomos registrados como **MEI**, consideramos:\
- Rendimento mensal habitual declarado;\
- Desconto fixo da guia **DAS** (imposto mensal do MEI);\
- Jornada habitual semanal multiplicada por $52/12$ (para obter as horas
mensais).

A fórmula do salário-hora é:

$$
\text{Salário-hora}_{MEI} = 
\frac{\text{Salário Mensal Habitual} - \text{DAS}}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12}}
$$

Autônomos acima do limite MEI

Para trabalhadores por conta própria com rendimento **acima do limite
MEI**, consideramos:

-   **Contribuição proporcional:** aplica-se 11% diretamente sobre o
    rendimento mensal, considerado o valor declarado como pro-labore.

$$
\text{Salário-hora}_{CP}^{prop} = 
\frac{\text{Salário Mensal Habitual} \cdot (1 - 11\%)}
{\text{Horas Semanais Habitual} \cdot \tfrac{52}{12}}
$$

Além disso, foi criada uma variável auxiliar chamada
**categoria_emprego** para facilitar a filtragem de formal, cnpj e
outros.

```{r, fig.width = 8, fig.height = 10}
# Parâmetros
sal_min <- 1412          # salário-mínimo em 2024
mei_mensal <- 81000 / 12  # R$ 6750 por mês
mei_das <- 71.60          # DAS-MEI 2025
fgts <- 0.08         # 8% FGTS
semana_mes <- 52/12  # ~4.333
opcao_inss <- "NOT_fixed_min_wage_11pct" # regra usada para contribuição direta no salário minimo - não usada
#ou 20% segundo teste foi para 20%
inss_valor <- 0.11

# --- converter campos para numeric / proteger divisões ---
ocupados2 <- ocupados2  |> 
  mutate(VD4016 = as.numeric(as.character(VD4016)),  
         V4039  = as.numeric(as.character(V4039)),   
         VD4009 = as.character(VD4009))

# --- cálculo atualizado ---
ocupados3 <- ocupados2 |>
  mutate(
    # horas efetivamente trabalhadas no mês
    horas_mes = if_else(!is.na(V4039) & V4039 > 0, V4039 * semana_mes, NA_real_),

    # salário-hora
    salario_hora = case_when(
      # Formal com férias, 13º e FGTS (11 meses de trabalho no ano)
      VD4009 == "1" & !is.na(horas_mes) ~ {
        sal_anual <- VD4016 * (12 + 1 + 1/3)      # 12 salários + 13º + 1/3 férias
        horas_ano <- horas_mes * 11               # só 11 meses de trabalho, tendo em vista férias
        (sal_anual * (1 + fgts)) / horas_ano},

      # Autônomo / MEI até limite mensal = desconta DAS fixo
      VD4009 != "1" & !is.na(horas_mes) & VD4016 <= mei_mensal ~
        pmax((VD4016 - mei_das) / horas_mes, 0), #pmax garante que não vem valor negativo

      # Autônomo / CNPJ acima do limite MEI = aplica regra do INSS
      VD4009 != "1" & !is.na(horas_mes) & VD4016 > mei_mensal ~ {
        if (opcao_inss == "fixed_min_wage_11pct") {
          inss_val <- sal_min * inss_valor
          pmax((VD4016 - inss_val) / horas_mes, 0)} 
        else {
          pmax((VD4016 * (1 - inss_valor)) / horas_mes, 0)}},
      TRUE ~ NA_real_  ))

# --- categorias de emprego ---
ocupados3$variables <- ocupados3$variables |>
  mutate(categoria_emprego = case_when(
    VD4009 == "01" ~ "formal",
    VD4009 == "09" & V4019 == "1" ~ "cnpj",
    TRUE ~ "outros"))

rm(ocupados)

ggplot(ocupados3, aes(x = "", y = salario_hora)) +
  geom_boxplot(outlier.color = "red") +
  labs(title = "Boxplot de Salário-Hora", y = "Horas") +
  theme_minimal()  

#retirar outliers de salario_hora
ocupados3 <- ocupados3 |>
  filter(salario_hora >= quantile(salario_hora, 0.01, na.rm = TRUE),
         salario_hora <= quantile(salario_hora, 0.99, na.rm = TRUE))
```

# Análise Descritiva

## Iniciais - Por Categoria

### Salário-Hora

```{r, class.source = "fold-hide"}
resumo_sal <- ocupados3 |>
  group_by(categoria_emprego) |>
  summarise(n = survey_total(na.rm = TRUE),
            mediana = survey_median(salario_hora, na.rm = TRUE),
            .groups = "drop") |>
  mutate(n_label = paste0("n = ", scales::comma(n)),
         mediana_label = paste0("Mediana = R$ ", round(mediana, 2)))

ggplot(ocupados3, aes(x = categoria_emprego, y = salario_hora, fill = categoria_emprego)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red") +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
  coord_cartesian(ylim = c(0, 50)) +
  labs(title = "Distribuição do Salário-Hora por Categoria de Emprego \n (até R$ 50)",
       x = "Categoria de Emprego",
       y = "Salário-Hora") +
  theme_minimal(base_size = 14) +
  theme(legend.position = "none") +
  geom_text(data = resumo_sal,
            aes(x = categoria_emprego, y = 5, label = n_label), # coloca o texto no topo
            inherit.aes = FALSE,
            vjust = -0.5,
            size = 4) +
  geom_text(data = resumo_sal,
            aes(x = categoria_emprego, y = mediana, label = round(mediana, 1)),
            inherit.aes = FALSE,
            vjust = -0.5,
            fontface = "bold",
            size = 4,
            color = "blue")
```

### Escolaridade

```{r, class.source = "fold-hide"}
ocupados3 <- ocupados3 |> 
  mutate(escolaridade = factor(VD3004,
                               levels = 1:7,
                               labels = c("Sem instrução",
                                          "Fundamental incompleto",
                                          "Fundamental completo",
                                          "Médio incompleto",
                                          "Médio completo",
                                          "Superior incompleto","Superior completo")))


resumo_escolaridade <- ocupados3 |>
  filter(!is.na(escolaridade)) |>
  group_by(categoria_emprego, escolaridade) |>
  summarise(n = survey_total(na.rm = TRUE)) |>
  group_by(categoria_emprego) |>
  mutate(freq_relativa = n / sum(n) * 100)

ggplot(resumo_escolaridade, aes(x = categoria_emprego, y = freq_relativa, fill = escolaridade)) +
  geom_bar(stat = "identity", position = "stack") +
  scale_y_continuous(labels = scales::percent_format(scale = 1)) +
  labs(title = "Distribuição Percentual da Escolaridade \n por Categoria de Emprego",
       x = "Categoria de Emprego",
       y = "Frequência Relativa (%)",
       fill = "Faixa de Escolaridade") +
  theme_minimal()
```

### E a questão regional?

```{r, fig.height = 14, class.source = "fold-hide"}
ufs_labels <- c(
  "11" = "RO", "12" = "AC", "13" = "AM", "14" = "RR", "15" = "PA",
  "16" = "AP", "17" = "TO", "21" = "MA", "22" = "PI", "23" = "CE",
  "24" = "RN", "25" = "PB", "26" = "PE", "27" = "AL", "28" = "SE",
  "29" = "BA", "31" = "MG", "32" = "ES", "33" = "RJ", "35" = "SP",
  "41" = "PR", "42" = "SC", "43" = "RS", "50" = "MT", "51" = "MS",
  "52" = "GO", "53" = "DF")

ocupados3 <- ocupados3 |>
  mutate(uf_sigla = ufs_labels[as.character(UF)])

# Filtro apenas para duas categorias para não ficar poluído
dados_plot_uf <- ocupados3 |>
  filter(categoria_emprego %in% c("formal", "cnpj")) |>
  mutate(UF_label = factor(ufs_labels[as.character(UF)], levels = ufs_labels))

# Selecionar só UFs que tenham os dois grupos: formal e cnpj
ufs_completas <- dados_plot_uf |>
  group_by(UF_label, categoria_emprego) |>
  summarise(contagem = n(), .groups = 'drop') |>
  pivot_wider(names_from = categoria_emprego, values_from = contagem, values_fill = 0) |>
  filter(formal > 0 & cnpj > 0) |>
  pull(UF_label)

# Filtrar pelos UFs completos e criar fator para categoria de emprego
dados_plot_uf <- dados_plot_uf |>
  filter(UF_label %in% ufs_completas) |>
  mutate(categoria_emprego = factor(categoria_emprego, levels = c("formal", "cnpj")))

# Calcular medianas por UF e categoria de emprego para mostrar no gráfico
medianas_uf <- dados_plot_uf |>
  group_by(UF_label, categoria_emprego) |>
  summarise(mediana = survey_median(salario_hora, na.rm = TRUE), .groups = 'drop')

# Boxplot com facet_wrap por UF
ggplot(dados_plot_uf, aes(x = categoria_emprego, y = salario_hora, fill = categoria_emprego)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red") +
  geom_text(data = medianas_uf, 
            aes(x = categoria_emprego, 
                y = mediana, 
                label = paste0("R$ ", round(mediana, 2))),
            vjust = -0.5, color = "black", fontface = "bold", size = 4) +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
  coord_cartesian(ylim = c(0, 75)) +
  labs(title = "Distribuição do Salário-Hora por Categoria de Emprego e UF\n(visualização até R$ 75)",
       x = "Categoria de Emprego",
       y = "Salário-Hora") +
  facet_wrap(~ UF_label, scales = "free_x", ncol = 5) +
  theme_minimal(base_size = 14) +
  theme(legend.position = "none")
```

### Contribuição Previdenciária

```{r, class.source = "fold-hide"}
resumo_contribuinte <- ocupados3 |>
  filter(categoria_emprego %in% c("formal", "cnpj")) |>
  mutate(contribuinte_cat = case_when(VD4012 == 1 ~ "Contribuinte",
                                      VD4012 == 2 ~ "Não contribuinte",
                                      TRUE ~ "Não aplicável")) |>
  group_by(categoria_emprego, contribuinte_cat) |>
  summarise(n = survey_total(na.rm = TRUE)) |>
  group_by(categoria_emprego) |>
  mutate(prop = n / sum(n)) |>
  ungroup()

ggplot(resumo_contribuinte, aes(x = categoria_emprego, y = prop, fill = contribuinte_cat)) +
  geom_col(position = "fill") +
  scale_y_continuous(labels = scales::percent_format()) +
  labs(title = "Proporção de Contribuintes por Categoria de Emprego",
       x = "Categoria de Emprego",
       y = "Proporção (%)",
       fill = "Categoria de Contribuinte") +
  theme_minimal()
```

## Grupo-Base - Profissões

Para a análise das profissões foram criados três objetos.

**tab_total** que sumariza o total por profissão (**grupo_base**).

**tab_formal** que sumariza por trabalhadores formais

**tab_cnpj** que sumariza por trabalhadores por conta-própria que
possuem CNPJ

Foram criadas duas variáveis auxiliares para análise: a
**dif_perc_cnpj_formal** que consiste em verificar a relação percentual
da média entre o salário-hora do CNPJ e o salário-hora do formal e a
\*dif_perc_medianas_cnpj_formal\*\* para verificar a mesma relação, mas
a partir da mediana.

Uma análise adequada a partir das profissões deve considerar as duas
variáveis em conjunto.

```{r, warning = F}

tab_total <- ocupados3 |> 
  group_by(grupo_base) |> 
  summarise(total = survey_total(na.rm = TRUE),
            salario_hora = survey_mean(salario_hora, na.rm = TRUE))

tab_total <- tab_total |> 
  mutate(total_cv = 100 * total_se / total)

tab_formal <- ocupados3 |> 
  filter(categoria_emprego == "formal") |>
  group_by(grupo_base) |> 
  summarise(total_formal = survey_total(),
            salario_hora_formal = survey_mean(salario_hora, na.rm = TRUE, vartype = "se"))

tab_formal <- tab_formal |> 
  mutate(total_formal_cv = 100 * total_formal_se / total_formal)

tab_cnpj <- ocupados3 |> 
  filter(categoria_emprego == "cnpj") |>
  group_by(grupo_base) |> 
  summarise(total_cnpj = survey_total(),
            salario_hora_cnpj = survey_mean(salario_hora, na.rm = TRUE, vartype = "se"))

tab_cnpj <- tab_cnpj |> 
  mutate(total_cnpj_cv = 100 * total_cnpj_se / total_cnpj)

tab_geral <- tab_total |> 
  full_join(tab_formal, by = "grupo_base") |> 
  full_join(tab_cnpj, by = "grupo_base")

#Variável Auxiliar - Diferença entre CNPJ e Formal
#Se CNPJ > Formal = positivo
tab_geral <- tab_geral |> 
  mutate(dif_perc_cnpj_formal = 100 * (salario_hora_cnpj - salario_hora_formal) / salario_hora_formal)

# Indicadores de precisão - Coeficiente de variação acima de 25%
tab_geral <- tab_geral |> 
  mutate(low_precision_formal = total_formal_cv > 25, #indicadores de baixa precisão - coeficiente de variação acima de 25%
    low_precision_cnpj = total_cnpj_cv > 25,
    total_formal_exib = if_else(low_precision_formal, "NS", format(round(total_formal, 0), big.mark = ",")),
    total_cnpj_exib = if_else(low_precision_cnpj, "NS", format(round(total_cnpj, 0), big.mark = ",")),
    salario_hora_formal_exib = if_else(low_precision_formal, "NS", format(round(salario_hora_formal, 2))),
    salario_hora_cnpj_exib = if_else(low_precision_cnpj, "NS", format(round(salario_hora_cnpj, 2))),
    dif_perc_cnpj_formal = if_else(
      low_precision_formal | low_precision_cnpj,
      NA_real_,
      100 * (salario_hora_cnpj - salario_hora_formal) / salario_hora_formal))
```

Medianas

```{r, warning=F}
medianas_formal <- ocupados3 |> 
  filter(categoria_emprego == "formal") |>
  group_by(grupo_base) |> 
  summarise(mediana_salario_hora_formal = survey_median(salario_hora, na.rm = TRUE, vartype = "se"),
            mediana_salario_hora_formal_se = attr(mediana_salario_hora_formal, "se"))

medianas_cnpj <- ocupados3 |> 
  filter(categoria_emprego == "cnpj") |>
  group_by(grupo_base) |> 
  summarise(mediana_salario_hora_cnpj = survey_median(salario_hora, na.rm = TRUE, vartype = "se"),
            mediana_salario_hora_cnpj_se = attr(mediana_salario_hora_cnpj, "se"))

# Indicadores de precisão para medianas
tab_geral <- tab_geral |> 
  left_join(medianas_formal, by = "grupo_base") |>
  left_join(medianas_cnpj, by = "grupo_base") |>
  mutate(
    # CV das medianas
    mediana_formal_cv = 100 * mediana_salario_hora_formal_se / mediana_salario_hora_formal,
    mediana_cnpj_cv = 100 * mediana_salario_hora_cnpj_se / mediana_salario_hora_cnpj,
    
    # Indicadores de baixa precisão
    low_precision_median_formal = mediana_formal_cv > 25,
    low_precision_median_cnpj = mediana_cnpj_cv > 25,
    
    # Exibição condicional para medianas
    mediana_salario_hora_formal_exib = if_else(low_precision_median_formal, "NS", format(round(mediana_salario_hora_formal, 2))),
    mediana_salario_hora_cnpj_exib = if_else(low_precision_median_cnpj, "NS", format(round(mediana_salario_hora_cnpj, 2))),
    
    # Diferença % medianas condicionada à precisão
    dif_perc_medianas_cnpj_formal = if_else(
      low_precision_median_formal | low_precision_median_cnpj,
      NA_real_,
      100 * (mediana_salario_hora_cnpj - mediana_salario_hora_formal) / mediana_salario_hora_formal))

```

## Tabela de Resultados - Grupo-Base de Profissões

A tabela abaixo apresenta os resultados a partir do dado mais granular:
as profissões.

É importante fazer uma leitura que considere os números ponderados, as
médias e também as medianas.

```{r, class.source = "fold-hide"}
tab_geral_sem_se <- tab_geral |> 
  select(
    grupo_base,
    total,
    total_formal,
    total_cnpj,
    salario_hora,
    salario_hora_formal,
    salario_hora_cnpj,
    dif_perc_cnpj_formal,
    mediana_salario_hora_formal_exib,
    mediana_salario_hora_cnpj_exib,
    dif_perc_medianas_cnpj_formal) |> 
  arrange(desc(total_cnpj))

colnames(tab_geral_sem_se) <- c(
  "Profissão",
  "Total da Profissão",
  "Total Formal",
  "Total CNPJ",
  "Salário-hora - Profissão (Média)",
  "Salário-hora Formal (Média)",
  "Salário-hora CNPJ (Média)",
  "Dif. % Média CNPJ vs. Formal",
  "Mediana Formal",
  "Mediana CNPJ",
  "Dif. % Mediana CNPJ vs. Formal")

# Atualizar o datatable para exibir e formatar as novas colunas
datatable(tab_geral_sem_se,
  options = list(
    pageLength = 20,
    columnDefs = list(
      list(targets = 0, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
      list(targets = 3, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
      list(targets = 7, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}")),
      list(targets = 10, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}"))
      #list(targets = 10, createdCell = JS("function(td){$(td).css({'border-right': '4px double #333'});}"))
    )
  ),
  rownames = FALSE,
  class = 'cell-border stripe',
  caption = htmltools::tags$caption(
    style = 'caption-side: top; text-align: left; font-size: 16px; font-weight: bold;',
    "Tabela Comparativa por Profissões com Médias e Medianas",
    htmltools::tags$div(
      style = 'font-size: 12px; font-weight: normal; color: gray; margin-top: 4px;',
      "Nota: Valores com coeficiente de variação acima de 25% foram retirados --- A ordenação-padrão está em ordem decrescente para o Total de CNPJ" 
    ))
) |> 
  formatCurrency(columns = c('Salário-hora - Profissão (Média)', 'Salário-hora Formal (Média)', 'Salário-hora CNPJ (Média)', 
                            'Dif. % Média CNPJ vs. Formal', 'Mediana Formal', 
                            'Mediana CNPJ', 'Dif. % Mediana CNPJ vs. Formal'), currency = "", digits = 2, interval = 3, mark = "."
  ) |> 
  formatRound(
    columns = c('Total da Profissão', 'Total Formal', 'Total CNPJ'),
    digits = 0, mark = "."
  ) |>
  formatStyle(
    columns = 1:ncol(tab_geral_sem_se),
    fontFamily = "Calibri, sans-serif")
```

### Conclusões Parciais

Uma análise a partir das profissões nos permite avaliar distintas
questões:

**Em números absolutos, as 5 profissões com mais trabalhadores são:**

-   Escriturário Geral (ou seja, trabalhadores de apoio administrativo
    geral)
-   Balconistas e vendedores de lojas
-   Trabalhadores dos serviços domésticos em geral\
-   Comerciantes de lojas
-   Trabalhadores de limpeza de interior de edifícios, escritórios,
    hotéis e outros estabelecimentos

**Em números absolutos, as 5 profissões com mais trabalhadores
formalizados são:**

-   Balconistas e vendedores de lojas
-   Escriturários gerais\
-   Trabalhadores de limpeza de interior de edifícios, escritórios,
    hotéis e outros estabelecimentos\
-   Condutores de caminhões pesados\
-   Guardas de segurança

**Em números absolutos, as 5 profissões com mais trabalhadores por
cont-própria que possuem CNPJ são:**

-   Comerciantes de lojas
-   Cabeleireiros
-   Especialistas em tratamento de beleza e afins
-   Condutores de automóveis, taxis e caminhonetes\
-   Pedreiros

Uma análise da tabela com uma desagregação muito grande deve considerar
os valores de salário-hora a partir do número ponderado de
profissionais.

Assim, as cinco maiores médias de salário-hora de formalizados, que
considere somente acima de 20 mil profissionais, são as seguintes
profissões:

-   Médicos especialistas - R\$ 54.14\
-   Engenheiros mecânicos - R\$ 45.17\
-   Dirigentes de serviços de tecnologia da informação e comunicações -
    R\$ 45.11\
-   Engenheiros industriais e de produção - R\$ 42.21
-   Engenheiros não classificados anteriormente - R\$ 38.74

Por sua vez, as cinco maiores médias de salário-hora de conta-própria
com CNPJ, que considere somente acima de 20 mil profissionais, são as
seguintes profissões:

-   Médicos especialistas - R\$ 50.89
-   Analistas de sistemas - R\$ 43.11
-   Advogados e juristas - R\$ 34.99
-   Engenheiros civis - R\$ 34.46
-   Analista de Gestão e Administração - R\$ 33.51

Dado o objetivo do estudo, entretanto, é relevante direcionar o olhar
para a **diferença** entre profissionais de ocupação semelhante. Nesse
sentido, é importante sempre olhar a diferença a partir de uma análise
coordenada de média e mediana. A partir do qual pode-se concluir:

As maiores diferenças em que é o PJ recebe mais que o formalizado
encontram-se nas seguintes profissões

-   **Agentes imobiliários** - onde um PJ (\~89 mil) recebe uma média de
    R\$ 30,50 e o CLT (\~29 mil) recebe uma média de R\$ 16,09. A
    análise da mediana também indica uma diferença relevante com formal
    a R\$ 11.69 e PJ a R\$ 24,72. É importante destacar, entretanto que
    a maioria dos profissionais (cerca de 63%) não estão em nenhuma
    dessas duas classificações.

Análise semelhante deve ser feita para **Especialistas em tratamento de
beleza e afins** que apresenta diferença significativa entre as duas
categorias (82% a mais para PJ na média e 56% a mais na mediana), mas
tem-se cerca de 75% de todos os profissionais fora dessas duas
categorias.

As demais diferenças que podem ser destacadas estão nas seguintes
profissões:

-   Trabalhadores de agências de viagem\
-   Condutores de automóveis, taxis e caminhonetes\
-   Representantes comerciais
-   Lavadores de veículos
-   Condutores de caminhões pesados

## Grupamentos de Atividade

```{r, fig.width = 10, fig.height = 12, class.source = "fold-hide"}

vd4010_labels <- c(
  "01" = "Agricultura, pecuária, produção florestal, pesca e aquicultura",
  "02" = "Indústria geral",
  "03" = "Construção",
  "04" = "Comércio, reparação de veículos automotores e motocicletas",
  "05" = "Transporte, armazenagem e correio",
  "06" = "Alojamento e alimentação",
  "07" = "Informação, comunicação e atividades financeiras, imobiliárias, profissionais e administrativas",
  "08" = "Administração pública, defesa e seguridade social",
  "09" = "Educação, saúde humana e serviços sociais",
  "10" = "Outros Serviços",
  "11" = "Serviços domésticos",
  "12" = "Atividades mal definidas")

ocupados3 <- ocupados3 |>
  mutate(VD4010_label = vd4010_labels[as.character(VD4010)])

resumo_salario <- ocupados3 |>
  group_by(VD4010_label, categoria_emprego) |>
  summarise(salario_medio = mean(salario_hora, na.rm = TRUE),
            n = survey_total(na.rm = TRUE)) |>
  ungroup() |>
  mutate(n_label = paste0("n = ", scales::comma(round(as.numeric(n)))))

# Gráfico de barras com facet
ggplot(resumo_salario, aes(x = categoria_emprego, y = salario_medio, fill = categoria_emprego)) +
  geom_col(position = "dodge") +
  geom_text(aes(label = paste0("n=", scales::comma(round(n))), y = salario_medio + max(salario_medio, na.rm = TRUE) * 0.03),
            position = position_dodge(width = 0.9), size = 4, color = "black") +
  facet_wrap(~ VD4010_label, scales = "free_y", ncol = 3,
             labeller = labeller(VD4010_label = label_wrap_gen(width = 40))) +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
  labs(title = "Média do Salário-Hora por Categoria de Emprego e Atividade\n(n ponderado por barra)",
       x = "Categoria de Emprego",
       y = "Salário-Hora Médio") +
  theme_minimal(base_size = 13) +
  theme(axis.text.x = element_text(angle = 0, hjust = 0.5), legend.position = "none")

max_salario <- 50 # ponto próximo da borda direita do gráfico, tendo em vista outliers

#Boxplot
ggplot(ocupados3, aes(x = salario_hora, y = categoria_emprego, fill = categoria_emprego)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red") +
  facet_wrap(~ VD4010_label, scales = "free_y", ncol = 3,
             labeller = labeller(VD4010_label = label_wrap_gen(width = 40))) +
  scale_x_continuous(labels = dollar_format(prefix = "R$ ")) +
  coord_cartesian(xlim = c(0, 60)) +
  labs(
    title = "Distribuição do Salário-Hora por Categoria de Emprego e Atividade\n(Limite de visualização: R$ 60)",
    x = "Salário-Hora",
    y = "Categoria de Emprego") +
  theme_minimal(base_size = 13) +
  theme(legend.position = "none") +
  geom_text(
    data = resumo_salario,
    mapping = aes(x = max_salario, y = categoria_emprego, label = n_label),
    inherit.aes = FALSE,
    hjust = 0,
    size = 3)
```

## Grupamentos Ocupacionais

```{r, fig.width = 10, fig.height = 12, class.source = "fold-hide"}
# Dicionário dos rótulos das ocupações - VD4011
vd4011_labels <- c(
  "01" = "Diretores e gerentes",
  "02" = "Profissionais das ciências e intelectuais",
  "03" = "Técnicos e profissionais de nível médio",
  "04" = "Trabalhadores de apoio administrativo",
  "05" = "Trabalhadores dos serviços, vendedores dos comércios e mercados",
  "06" = "Trabalhadores qualificados da agropecuária, florestais, da caça e da pesca",
  "07" = "Trabalhadores qualificados, operários e artesões da construção, das artes mecânicas e outros ofícios",
  "08" = "Operadores de instalações e máquinas e montadores",
  "09" = "Ocupações elementares",
  "10" = "Membros das forças armadas, policiais e bombeiros militares",
  "11" = "Ocupações maldefinidas")

ocupados3 <- ocupados3 |>
  mutate(VD4011_label = vd4011_labels[as.character(VD4011)] |> factor(levels = vd4011_labels))

resumo_salario2 <- ocupados3 |>
  group_by(VD4011_label, categoria_emprego) |>
  summarise(salario_medio = mean(salario_hora, na.rm = TRUE),
            n = survey_total(na.rm = TRUE)) |>
  ungroup() |>
  mutate(n_label = paste0("n = ", scales::comma(round(as.numeric(n)))))

# Gráfico de barras com facet
ggplot(resumo_salario2, aes(x = categoria_emprego, y = salario_medio, fill = categoria_emprego)) +
  geom_col(position = "dodge") +
  geom_text(aes(label = paste0("n=", scales::comma(round(n))), y = salario_medio + max(salario_medio, na.rm = TRUE) * 0.03),
            position = position_dodge(width = 0.9), size = 4, color = "black") +
  facet_wrap(~ VD4011_label, scales = "free_y", ncol = 3,
             labeller = labeller(VD4011_label = label_wrap_gen(width = 40))) +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ")) +
  labs(title = "Média do Salário-Hora por Categoria de Emprego e Grupo Ocupacional\n(n ponderado por barra)",
       x = "Grupo Ocupacional",
       y = "Salário-Hora Médio") +
  theme_minimal(base_size = 13) +
  theme(axis.text.x = element_text(angle = 0, hjust = 0.5), legend.position = "none")

# Plot boxplot horizontal com n como texto
ggplot(ocupados3, aes(x = salario_hora, y = categoria_emprego, fill = categoria_emprego)) +
  geom_boxplot(alpha = 0.7, outlier.colour = "red") +
  facet_wrap(~ VD4011_label, scales = "free_y", ncol = 3,
             labeller = labeller(VD4011_label = label_wrap_gen(width = 40))) +
  scale_x_continuous(labels = dollar_format(prefix = "R$ ")) +
  coord_cartesian(xlim = c(0, 60)) +
  labs(title = "Distribuição do Salário-Hora por Categoria de Emprego e Grupamento Ocupacional\n(Limite de visualização: R$ 100)",
       x = "Salário-Hora",
       y = "Categoria de Emprego") +
  theme_minimal(base_size = 13) +
  theme(legend.position = "none") +
  geom_text(data = resumo_salario2,
            mapping = aes(x = max_salario, y = categoria_emprego, label = n_label),
            inherit.aes = FALSE,
            hjust = 0,
            size = 3)
```

# Análise Inferencial

## Mincer

Existe uma diferença salarial entre a condição "Conta-Própria com CNPJ"
e "Formal - CLT".

A pergunta que se coloca, entretanto, é: **o quanto essa diferença
salarial deve-se à condição PJ/Formal?**

Para isso, vamos fazer um modelo de regressão a partir das equações de
Mincer.

### Recodificação de Variáveis

No código abaixo foi criado o log(salario_hora), colocados os rótulos
para sexo e raça/cor.

Além disso, será criada a variável **idade_centralizada** que consiste
em

$$
\text{Idade_Centralizada}_{i} = Idade_{i} - \overline{Idade}
$$ Essa variável permite diminuir a multicolinearidade entre idade e
idade\^2

Para uma aproximação da variavel **experiência** será feito o seguinte
cálculo

$$
\text{Experiência} = Idade - Anos de Escolaridade - 5
$$

```{r, class.source = "fold-hide"}
ocupados3 <- ocupados3 |>
  mutate(
    # log do salário-hora (apenas se válido)
    ln_salario_hora = if_else(salario_hora > 0, log(salario_hora), NA_real_),
    
    # Sexo
    sexo = factor(V2007,
      levels = c(1, 2),
      labels = c("Homem", "Mulher")),
    
    # Raça
    raca = factor(V2010,
      levels = c(1, 2, 3, 4, 5, 9),
      labels = c("Branca", "Preta", "Amarela", "Parda", "Indígena", "Ignorado")),
    
    # Idade
    idade = as.numeric(V2009),

    # Anos de escolaridade (converter de character p/ numeric)
    anos_escolaridade = as.numeric(VD3005)) |>
  mutate(
    # Idade centralizada pela média
    idade_centralizada = idade - mean(idade, na.rm = TRUE),

    # Experiência potencial
    experiencia = idade - anos_escolaridade - 5,
    
    # Experiência centralizada pela média
    experiencia_c = experiencia - mean(experiencia, na.rm = TRUE))
```

### Regressões

A equação de Mincer pode ser expressa como:

$$
\ln(w_i) = \beta_0 + 
\beta_1 Escolaridade_i + 
\beta_2 Experiência_i + 
\beta_3 Experiência_i^2 + 
\varepsilon_i
$$ O modelo estimado é dado por:

$$
\begin{aligned}
\ln(\text{SalárioHora}_i) =\ & \beta_0
+ \beta_1 \text{Categoria de Emprego}_i
+ \beta_2 \overline{Experiência}_i \\
&+ \beta_3 \overline{Experiência}_i^2
+ \beta_4 \text{Raça}_i \\
&+ \beta_5 \text{Sexo}_i
+ \beta_6 \text{SetorAtividade}_i
+ \varepsilon_i
\end{aligned}
$$

Foram realizados dois testes:

1 - O primeiro que utiliza idade_centralizada + idade_centralizada\^2
2 - O segundo que utiliza o proxy **experiencia_centralizada**

Em ambos os modelos o poder explicativo ficou em 25%. Assim, para manter
fidelidade com o modelo de Mincer optou-se por seguir

```{r class.source = "fold-hide", warning=F, message=F}
#Não substituir UF e VD4010 pelos labels porque o tempo de processamento aumenta demais
library(jtools)
modelo_mincer <- summ(
  svyglm(ln_salario_hora ~ categoria_emprego + anos_escolaridade + experiencia_c + I(experiencia_c^2) + raca + sexo + VD4010,
  design = ocupados3,
  family = gaussian()),
  digits = 2, confint = FALSE)

coefs <- modelo_mincer$coeftable |> 
  as.data.frame() |> 
  rownames_to_column("term")

# filtrar para p <= 0.05 e sem o intercepto
sig_coefs <- coefs |>
  filter(p <= 0.05, term != "(Intercept)") |>
  pull(term)

plot_summs(modelo_mincer, coefs = sig_coefs)
#Referências
#CNPJ
#Escolaridade - Sem Instrução
#Raça - Branca
#Sexo - Masculino
#VD4010 1 - Agricultura, pecuária, produção florestal, pesca e aquicultura 

#Percentual

library(broom)
resultados <- broom::tidy(modelo_mincer) |>
  mutate(efeito_pct = (exp(estimate) - 1) * 100,   # transformar log em %
         signif = ifelse(p.value < 0.05, "Significativo", "Não significativo"))

#apenas significativos
resultados_sig <- resultados |>
  filter(signif == "Significativo") |>
  select(term, estimate, efeito_pct, std.error, statistic, p.value)

# renomear colunas
resultados_sig <- resultados_sig |>
  rename(Variável = term,
         Coef_Log = estimate,
         `Efeito (%)` = efeito_pct,
         `Erro Padrão` = std.error,
         `t valor` = statistic,
         `p-valor` = p.value)

library(kableExtra)

resultados_sig |>
  kable(digits = 2, caption = "Efeitos percentuais significativos no salário-hora (modelo Mincer)") |>
  kable_styling(full_width = FALSE, position = "center")

```

Colinearidade

Muita colinearidade para UF

```{r}

# usa os dados que estão dentro do design survey
data_svy <- ocupados3$variables

# monta a matrix de regressors como o modelo que você citou
mm <- model.matrix(~ categoria_emprego + anos_escolaridade + experiencia_c + I(experiencia_c^2) + sexo + raca + VD4010,
                   data = data_svy)

# remove a coluna do intercepto
preds <- as.data.frame(mm[, -1, drop = FALSE])

# obtém os pesos de amostra do design (tipo "sampling")
wt <- weights(ocupados3, type = "sampling")

# função para R2 ponderado (usaremos em lm com weights)
weighted_R2 <- function(y, yhat, w) {
  # soma dos quadrados dos resíduos ponderados
  sse <- sum(w * (y - yhat)^2, na.rm = TRUE)
  # soma total ponderada
  ybar_w <- stats::weighted.mean(y, w, na.rm = TRUE)
  sst <- sum(w * (y - ybar_w)^2, na.rm = TRUE)
  1 - sse / sst
}

# calcula VIF para cada coluna da matrix de regressors
vif_table <- data.frame(variable = character(), R2 = numeric(), VIF = numeric(), stringsAsFactors = FALSE)

for (j in seq_len(ncol(preds))) {
  y <- preds[[j]]
  Xother <- preds[, -j, drop = FALSE]

  # monta data frame temporário
  df_tmp <- cbind(y = y, Xother)

  # regressão ponderada com lm (resposta y contra os demais)
  fit <- lm(y ~ ., data = df_tmp, weights = wt)

  # prediz e calcula R2 ponderado
  yhat <- predict(fit, newdata = df_tmp)
  R2w <- weighted_R2(y, yhat, wt)

  vif_j <- 1 / (1 - R2w)
  vif_table <- rbind(vif_table, data.frame(variable = colnames(preds)[j], R2 = R2w, VIF = vif_j))
}

# ordena e mostra
vif_table[order(-vif_table$VIF), ]


```

**O modelo explica cerca de 32% da diferença salarial.**

Formais ganham, em média, cerca de 19% menos que o conta-própria com
CNPJ, mantendo escolaridade, idade, raça, sexo, e setor econômico fixos.

Mas qual variável conta mais?

## Comparar modelos

Testando função para ver o incremento

```{r}

# Função compacta para calcular pseudo-R² para svyglm (Gaussian)
pseudo_r2 <- function(model) {
  y <- model$y
  yhat <- model$fitted.values
  ss_res <- sum((y - yhat)^2)
  ss_tot <- sum((y - mean(y))^2)
  1 - ss_res / ss_tot}

# Ajuste incremental, reutilizando o objeto de design e limpando explicitamente
r2s <- numeric(0)

formulas <- list(
  ln_salario_hora ~ categoria_emprego,
  ln_salario_hora ~ categoria_emprego + sexo,
  ln_salario_hora ~ categoria_emprego + sexo + raca,
  ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010,
  ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade,
  ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade + experiencia_c,
  ln_salario_hora ~ categoria_emprego + sexo + raca + VD4010 + anos_escolaridade + experiencia_c + I(experiencia_c^2)
)

for (f in formulas) {
  modelo <- svyglm(f, design = ocupados3, family = gaussian())
  r2s <- c(r2s, pseudo_r2(modelo))
  rm(modelo) # remove objeto grande
  gc() # força o garbage collector a liberar memória
}

names(r2s) <- c("categoria_emprego", "+sexo", "+raça", "+grupo_ativ", "+escolaridade", "+experiencia", "+experiencia2")
print(r2s)
```

### Conclusões Parciais

Ainda que exista uma diferença entre as categorias de emprego percebe-se
que o fator que mais influencia o salário-hora é a escolaridade e o
grupo de atividade.

A categoria emprego sozinha explica cerca de 1% da variação salarial.

## Propensity Score Matching

Propensity Score Matching cria um grupo de controle artificial para
comparar com o grupo de tratamento, com o objetivo de eliminar vieses.

A escolha por esse teste permite responder à pergunta:

“Dados dois trabalhadores com perfis semelhantes (mesma escolaridade,
experiência, sexo e raça), como fica a diferença salário-hora entre
aquele formalizado e conta-própria com CNPJ?”

```{r, warning=F, message = F}
library(MatchIt)

# Variável de tratamento
ocupados_psm <- ocupados3$variables |>
  filter(categoria_emprego %in% c("formal", "cnpj")) |>
  mutate(formal = if_else(categoria_emprego == "formal", 1, 0),
         formal = factor(formal, levels = c(0, 1), labels = c("Conta própria", "Formal")))

ocupados_psm <- as.data.frame(ocupados_psm)

# Matching com logit 
# Foi retirado VD4010 pois demorava cerca de 40 minutos.
system.time({
psm_model <- matchit(formal ~ sexo + raca + anos_escolaridade + experiencia_c + I(experiencia_c^2),
                     data = ocupados_psm,
                     method = "nearest",
                     distance = "logit")
})

matched_data <- match.data(psm_model)

library(cobalt)
love.plot(psm_model, binary = "std")  # gráfico de diferenças padronizadas

```

### Teste t

```{r}
t_test <- t.test(salario_hora ~ formal, data = matched_data, weights = weights)
t_test

# Visualizar balanceamento (standardized mean differences)
#plot(psm_model, type = "jitter", interactive = FALSE)
#plot(psm_model, type = "qq")
#plot(psm_model, type = "hist")

matched_data$final_weights <- matched_data$weights * matched_data$V1028

options(survey.lonely.psu = "adjust")

design_psm <- svydesign(
  ids = ~1,  # ignora cluster
  weights = ~final_weights,
  data = matched_data
)

# Teste t ponderado
svy_test <- svyttest(salario_hora ~ formal, design = design_psm)
svy_test

```

O test t indica R\$ 20,51 para conta própria e R\$ 9,44 para o
formalizado (cerca de R\$ 11,07 a menos) O test t para objeto do tipo
survey indica uma diferença de cerca de -R\$ 11,35 para o formalizado

## Quantílica com PSM

Como já foi possível visualizar, especialmente na parte de análise
descritiva, as variáveis que envolvem salários tem boxplots com o
terceiro quartil mais alongado e o quarto quartil com muitos outliers.

Assim, a pergunta seguinte é:

**A diferença salário-hora entre formais e PJs se mantêm entre todos os
níveis salariais?**

Para responder essa pergunta será feita uma análise quantílica. Ou seja,
o salário-hora será dividido em dez partes e será observado o
comportamento diferencial entre cada decil.

```{r, warning=F, message=F}

library(quantreg)

taus <- seq(0.0, 1.0, by = 0.1)
rq_model_all <- rq(salario_hora ~ formal, 
                   data = matched_data, 
                   tau = taus, 
                   weights = weights)

system.time({
rq_summary <- summary(rq_model_all, se = "boot", R = 50)
})
```

### Resultados

```{r, fig.width=8, fig.height=6, warning=F}
#Sys.setlocale("LC_ALL", "pt_BR.UTF-8")

results <- do.call(rbind, lapply(rq_summary, function(s) {
  data.frame(
    tau = s$tau,
    coef = s$coefficients["formalFormal", 1],
    se   = s$coefficients["formalFormal", 2]
  )}))

#erros-padrão
results <- results |>
  mutate(lower = coef - 1.96 * se,
         upper = coef + 1.96 * se,
         type = "Quantílico")

#resultados dos dois tests t - adicionados
mean_effects <- data.frame(
  tau = c(0.5, 0.5),
  coef = c(t_test$estimate[2] - t_test$estimate[1], svy_test$estimate),     # Formal - Conta própria
  lower = c(-t_test$conf.int[2], svy_test$conf.int[1]),                     # Inverta upper (vai para lower)
  upper = c(-t_test$conf.int[1], svy_test$conf.int[2]),                     # Inverta lower (vai para upper)
  type = c("T-test", "Svy T-test"))

plot_data <- bind_rows(results, mean_effects)

g1 <- ggplot() +
  # efeitos quantílicos
  geom_line(data = results, aes(x = tau, y = coef, color = type), size = 1) +
  geom_point(data = results, aes(x = tau, y = coef, color = type), size = 2) +
  geom_ribbon(data = results, aes(x = tau, ymin = lower, ymax = upper, fill = type), alpha = 0.15) +

  # rótulos nos efeitos quantílicos
  geom_text(data = results, 
            aes(x = tau, y = coef, label = round(coef, 1), color = type), 
            vjust = -1, size = 3.5, show.legend = FALSE) +

  # médias destacadas
  geom_point(data = mean_effects, aes(x = tau, y = coef, shape = type, color = type), size = 4) +
  geom_errorbar(data = mean_effects, aes(x = tau, ymin = lower, ymax = upper, color = type), 
                width = 0.05, size = 1) +

  # rótulos nas médias
  geom_text(data = mean_effects, 
            aes(x = tau, y = coef, label = round(coef, 1), color = type), 
            vjust = -1.2, size = 4, fontface = "bold", show.legend = FALSE) +

  # linha de referência
  geom_hline(yintercept = 0, linetype = "dashed", color = "red") +

  # eixo de 0% a 100%
  scale_x_continuous(breaks = seq(0, 1, 0.1),  # decil a decil
                     labels = scales::percent) +

  labs(x = "Quantil da distribuição salarial",
       y = "Diferença (Formal - Conta própria)",
       title = "Diferença Salário-Hora (Formal vs PJ) por Decil - Usando PSM \n Efeitos médios (t-test / survey t-test) vs quantílicos") +
  theme_minimal(base_size = 14)

g1
```

### Composição dos Quantis

```{r, warning=F, message=F, fig.width=8, fig.height=6}

library(Hmisc)

# Calcular os cortes de salário-hora ponderados
quantile_cuts <- Hmisc::wtd.quantile(matched_data$salario_hora,
                                     weights = matched_data$final_weights,
                                     probs = taus)

quantile_cuts

# Classificar cada indivíduo no seu intervalo de quantil
matched_data <- matched_data |>
  mutate(quantil = cut(salario_hora,
                       breaks = quantile_cuts,
                       labels = c("0-10%", "10-20%", "20-30%", "30-40%", "40-50%", 
                                  "50-60%", "60-70%", "70-80%", "80-90%", "90-100%"),
                       right = TRUE,
                       include.lowest = TRUE))

dist_quantis <- matched_data |>
  group_by(quantil, formal) |>
  summarise(n_ponderado = sum(final_weights, na.rm = TRUE), .groups = "drop") |>
  filter(!is.na(quantil)) |>
  mutate(prop_total = n_ponderado / sum(n_ponderado))

g2 <- ggplot(dist_quantis, aes(x = quantil, y = prop_total, fill = formal)) +
  geom_col(position = position_dodge(width = 0.8), width = 0.7) +
  geom_text(aes(label = scales::percent(prop_total, accuracy = 0.1)),
            position = position_dodge(width = 0.8),
            vjust = -0.3, size = 3.5) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(title = "Proporção de Formal vs Conta Própria \n por Quantil (com PSM)",
       x = "Quantis do salário-hora", y = "Proporção do total geral",
       fill = "Categoria de emprego") +
  theme_minimal(base_size = 14)

g2
```

### Média salarial

```{r, fig.width=10, fig.height=6}

medias_decis <- matched_data |>
  group_by(quantil, formal) |>
  summarise(media_salario = weighted.mean(salario_hora, w = final_weights, na.rm = TRUE),
            .groups = "drop")

# se os quantis estão como fator, converter para numérico para alinhar no eixo
medias_decis <- medias_decis |>
  mutate(quantil_num = as.numeric(gsub("(%|\\-).*", "", quantil)) / 100) #ponto médio

medias_decis <- medias_decis |> filter(!is.na(quantil))

g3 <- ggplot(medias_decis, aes(x = quantil, y = media_salario, fill = formal)) +
  geom_col(position = "dodge", alpha = 0.8) +
  geom_text(aes(label = round(media_salario, 1)),
            position = position_dodge(width = 0.9),
            vjust = -0.1, size = 3.5) +
  labs(
    title = "Salário-Hora Médio por Decil da Distribuição",
    subtitle = "Comparação entre trabalhadores formais e conta própria \n com PSM",
    x = "Quantil da distribuição salarial",
    y = "Salário-hora médio (R$)",
    fill = "Categoria") +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ", big.mark = ".", decimal.mark = ",")) +
  theme_minimal(base_size = 14)

g3
```

## Quantílica sem PSM

### Resultados

```{r, fig.width=12, fig.height=12}

t_test <- t.test(salario_hora ~ formal, data = ocupados_psm, weights = V1028)
t_test

rq_model_all_SEMPSM <- rq(salario_hora ~ formal, 
                   data = ocupados_psm, 
                   tau = taus, 
                   weights = V1028)

#boot com R = 50 para diminuir o tempo de processamento. Diminuiu de 1h20 para 30m
system.time({
rq_summary_SEMPSM <- summary(rq_model_all_SEMPSM, se = "boot", R=50)
})

results_SEMPSM <- do.call(rbind, lapply(rq_summary_SEMPSM, function(s) {
  data.frame(
    tau = s$tau,
    coef = s$coefficients["formalFormal", 1],
    se   = s$coefficients["formalFormal", 2])}))

results_SEMPSM <- results_SEMPSM |>
  mutate(lower = coef - 1.96 * se,
         upper = coef + 1.96 * se,
         type = "Quantílico")

g4 <- ggplot() +
  # efeitos quantílicos
  geom_line(data = results_SEMPSM, aes(x = tau, y = coef, color = type), size = 1) +
  geom_point(data = results_SEMPSM, aes(x = tau, y = coef, color = type), size = 2) +
  geom_ribbon(data = results_SEMPSM, aes(x = tau, ymin = lower, ymax = upper, fill = type), 
              alpha = 0.15) +

  # rótulos nos efeitos quantílicos
  geom_text(data = results_SEMPSM, 
            aes(x = tau, y = coef, label = round(coef, 1), color = type), 
            vjust = -0.3, size = 3.5, show.legend = FALSE) +

  # linha de referência
  geom_hline(yintercept = 0, linetype = "dashed", color = "red") +

  # eixo de 0% a 100%
  scale_x_continuous(breaks = seq(0, 1, 0.1),  # decil a decil
                     labels = scales::percent) +
  
  labs(x = "Quantil da distribuição salarial",
       y = "Diferença (Formal - Conta própria)",
       title = "Diferença Salário-Hora (Formal vs PJ) por Decil - Sem PSM") +
  theme_minimal(base_size = 14)

library(patchwork)
g1 / g4
```

### Composição dos Quantis

```{r, fig.width=12, fig.height=12}
quantile_cuts_puro <- Hmisc::wtd.quantile(ocupados_psm$salario_hora,
                                          weights = ocupados_psm$V1028,
                                          probs = taus)

ocupados_psm <- ocupados_psm |>
  mutate(quantil = cut(salario_hora,
                       breaks = quantile_cuts_puro,
                       labels = c("0-10%", "10-20%", "20-30%", "30-40%", "40-50%", 
                                  "50-60%", "60-70%", "70-80%", "80-90%", "90-100%"),
                       include.lowest = TRUE))

dist_quantis_puro <- ocupados_psm |>
  group_by(quantil, formal) |>
  summarise(n_ponderado = sum(V1028, na.rm = TRUE), .groups = "drop") |>
  filter(!is.na(quantil)) |>
  mutate(prop_total = n_ponderado / sum(n_ponderado))

g5 <- ggplot(dist_quantis_puro, aes(x = quantil, y = prop_total, fill = formal)) +
  geom_col(position = position_dodge(width = 0.8), width = 0.7) +
  geom_text(aes(label = scales::percent(prop_total, accuracy = 0.1)),
            position = position_dodge(width = 0.8),
            vjust = -0.3, size = 3.5) +
  scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
  labs(title = "Proporção de Formal vs Conta Própria \n por Quantil (sem PSM)",
       x = "Quantis do salário-hora", y = "Proporção do total geral",
       fill = "Categoria de emprego") +
  theme_minimal(base_size = 14)


## Comparação lado a lado
g2 / g5

table(matched_data$formal)
table(ocupados_psm$formal)

prop.table(table(matched_data$formal))
prop.table(table(ocupados_psm$formal))
```

### Média Salarial

```{r, fig.width=12, fig.height=12}

medias_sempsm <- ocupados_psm |>
  group_by(quantil, formal) |>
  summarise(media_salario = weighted.mean(salario_hora, w = V1028, na.rm = TRUE),
            .groups = "drop") |>
  filter(!is.na(quantil)) |>
  mutate(tipo = "Sem PSM")


g6 <- ggplot(medias_sempsm, aes(x = quantil, y = media_salario, fill = formal)) +
  geom_col(position = "dodge", alpha = 0.8) +
  geom_text(aes(label = round(media_salario, 1)),
            position = position_dodge(width = 0.9),
            vjust = -0.1, size = 3.5) +
  labs(
    title = "Salário-Hora Médio por Decil da Distribuição",
    subtitle = "Comparação entre trabalhadores formais e conta própria \n sem PSM",
    x = "Quantil da distribuição salarial",
    y = "Salário-hora médio (R$)",
    fill = "Categoria") +
  scale_y_continuous(labels = scales::dollar_format(prefix = "R$ ", big.mark = ".", decimal.mark = ",")) +
  theme_minimal(base_size = 14)


g3 / g6
```

### Conclusões Parciais

A formalidade estabiliza (menos dispersão), mas no topo implica em
salários-hora consistentemente mais baixos.

O efeito não é constante: é pequeno na base e grande no topo.

Isso indica que a formalidade atua como uma “âncora” salarial: protege
contra rendas muito baixas, mas também limita a chance de rendas muito
altas.

No percentil 10, a diferença é positiva para formais, a medida que o
salário-hora sobe a diferença se inverte, mas é gradual.

Isso confirma que a formalidade cresce ao longo da distribuição: quanto
mais alto o decil, maior a perda relativa dos formais.

Já os pontos de t-test e survey t-test ficam próximos de -13 R\$/h,
refletindo a diferença média encontrada antes, mas demonstrando como a
análise quantílica é relevante.

O resultado médio mascara a heterogeneidade: ser formal implica, em
média, salário-hora menor, mas a magnitude depende fortemente da posição
na distribuição.
