Este é um relatório desenvolvido em R e Markdown com o objetivo de apresentar uma análise inicial sobre a base de dados de simulação de testes do IPEA. A base de dados possui 10 milhões de registros fictícios sobre trabalhadores alocados em estabelecimentos públicos e privados.
Abaixo temos uma amostra do dataset utilizado nas análises:
#importando as bibliotecas utilizadas
library(tidyverse)
library(data.table)
#importando o dataset
dados <- fread("data/simulacao_ipea_v2.csv")
head(dados)
## ano orgao idade sexo uf escolaridade raca remuneracao
## 1: 1990 Univale 77 M MG 4 Branco 3249.88
## 2: 2017 Abic 48 F MS 3 Branco 1829.91
## 3: 2017 IITA 42 F MS 3 3191.28
## 4: 2005 Nafta 31 M AM 2 Preto 4070.18
## 5: 1999 ABC 22 M BA 2 Indigena 9387.33
## 6: 2000 ABA 23 M DF 3 3177.49
Plot do gráfico de séries temporais contendo uma série de 1985 até 2019, que trate sobre a diferença de sexo e raça. Nesta análise utilzamos a variável renda como varável quantitativa/contínua. Obs: para este estudo concentramos nossas análises apenas para a realidade da instituição IPEA.
5.1 Plotando o gráfico de série temporal com das médias salariais em função das variáveis Sexo e Raça
Para a realização desta série temporal, inicialmente construímos uma tabela auxiliar com as médias salariais por órgão. A tabela agrega as variáveis ano, sexo, raça, escolaridade ao qual o sujeito pertence e as respectivas médias salariais.
#fazendo a tabela de análise com as médias salariais
q5 <- data.frame(
dados %>%
filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
filter(raca !="" & sexo != "") %>% #retirando as observações sem raça e sexo declarado
group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando o dataset
summarise(media_salarial = mean(remuneracao))) #grando a variável com as médias salariais
Utilizamos a metáfora gráfica de uma série utilizando a suavização da curva por meio da função geom_smooth.
#plotando o gráfico de série temporal com as médias salariais
q5 %>%
filter(orgao =="Ipea") %>%
ggplot(aes(ano, media_salarial, color=sexo)) +
geom_smooth()+
ggtitle("Figura 1: Série temporal da média salarial") +
facet_wrap(~raca)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Na tabela abaixo temos uma visualização dos salários médios das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.
q5 %>%
filter(orgao =="Ipea") %>%
select(sexo, raca, media_salarial) %>% #selecionando as variáveis de interesse
group_by(sexo, raca) %>% #agrupando por sexo e raça
summarise(Média_Salário = mean(media_salarial), #criando as variaveis Média_Salário e Desvio_Padrão
Desvio_Padrão = sd(media_salarial))
## # A tibble: 10 x 4
## # Groups: sexo [2]
## sexo raca Média_Salário Desvio_Padrão
## <chr> <chr> <dbl> <dbl>
## 1 F Amarelo 5587. 1673.
## 2 F Branco 5405. 967.
## 3 F Indigena 5546. 1735.
## 4 F Pardo 5290. 987.
## 5 F Preto 5375. 1287.
## 6 M Amarelo 5285. 1564.
## 7 M Branco 5414. 667.
## 8 M Indigena 5435. 1619.
## 9 M Pardo 5527. 772.
## 10 M Preto 5263. 1063.
Discussão: Em relação as médias salariais, podemos observar que para a categoria de raça amarelo o sexo masculino tem predominância em relação as demais raças, nesta categoria as mulheres permanecem com salários acima do sexo masculino durante os anos de 1995 a 2028, apenas no ano de 2019 essa realidade tende a se inverter e o sexo masculino inicia um aumento salarial em relação ao sexo feminino. Nas demais categorias de raça (Branco, Indígena, Pardo e Preto) essa realidade não é presente.
Para a categoria Preto a partir do ano de 1995 inicia um distanciamento salarial entre ambos os sexos, os salários referentes ao sexo masculino tente a ter um decaimento, permanecendo abaixo do salário do sexo feminino até o ano 2015, onde essa situação se reverte, embora ambos os sexos, para a categoria Preto tiveram decaimentos consideráveis nos últimos cinco anos. Outra destaque importante é em relação a categoria de raça Pardo onde as mulheres apresentam média salarial sempre abaixo dos homens durante todos os anos.
A categoria que apresentou a série temporal salarial de maior similaridade ao longo dos anos foi para a categoria Branco. É perceptível que ao longo de todos os anos, não existe uma diferença considerável entre os sexos, embora alguns decaimentos aconteceram, em específico entre os anos de 2005 e 2010 para as mulheres e entre 2015 e 2019 para os homens. É importante destacarmos que as mulheres consideradas brancas tiveram um aumento salarial a partir de 2015. Esta realidade de aumento salarial também foi presente para as mulheres indígenas, que a partir de 2005 apresentam aumento considerável da média salarial.
5.2 Plotando o gráfico de série temporal com das médias de idades em função das variáveis Sexo e Raça
Para o desenvolvimento desta série temporal utilizamos como variável central a idade média de todos os trabalhadores, em função da sua raça e sexo.
q6 <- data.frame( #criando o dataset q6
dados %>%
filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
filter(raca !="" & sexo != "") %>% #retirando os valores faltantes de raca e sexo
group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando por ano, sexo, raca, escolaridade, orgao
summarise(media_idades = mean(idade))) #calculando os valores médios das idades
q6 %>%
ggplot(aes(ano, media_idades, color=sexo)) + #plotando a série temporal em função das idades médias
ggtitle("Figura 2: Série temporal da idade média") +
geom_smooth()+ #aplicando a função smooth pra suavizar as curvas da série
facet_wrap(~raca) #plotando cada tipo de raca em uma faceta
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Na tabela abaixo temos uma visualização das idades médias das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.
q6 %>%
filter(orgao =="Ipea") %>%
select(sexo, raca, media_idades) %>% #selecionando as variáveis de interesse
group_by(sexo, raca) %>% #agrupando por sexo e raça
summarise(Média_Idades = mean(media_idades), #criando as variáveis Média_Idades e Desvio_Idades
Desvio_Idades = sd(media_idades))
## # A tibble: 10 x 4
## # Groups: sexo [2]
## sexo raca Média_Idades Desvio_Idades
## <chr> <chr> <dbl> <dbl>
## 1 F Amarelo 47.2 9.32
## 2 F Branco 46.5 5.47
## 3 F Indigena 46.0 10.5
## 4 F Pardo 45.9 6.93
## 5 F Preto 45.9 8.28
## 6 M Amarelo 46.6 9.45
## 7 M Branco 47.1 4.62
## 8 M Indigena 46.1 9.39
## 9 M Pardo 46.5 6.17
## 10 M Preto 47.0 6.58
Discussão: Em relação as médias de idades, podemos observar que para a categoria de raça Amarelo a partir do ano de 1995 inicia uma acensão de mulheres com idades acima das idades dos homens, essa diferença permanece até 2015, quando a realidade se inverte e começam a prevalecer as maiores idades em função dos homens. Embora essa relação existe, nos últimos cinco anos, para esta categoria de raça, vem decaindo as idades médias dos trabalhadores, para ambos os sexos.
Para a categoria de raça indígena é interessante mencionar que entre os alunos 1994 e 2007 existia uma diferença significativa entre os sexos, mulheres com idades aproximadas de 43 anos e homens com idades aproximadas de 48 anos. Essa realidade começa a se inverter após 2007 quando começa a ser mais recorrente a presença de mulheres com idades cima dos homens, onde essa diferença começa a diminuir nos últimos anos. Para as categorias Pardo e Preto a presença de mulheres mais velhas do que os homens é bem mais constante durante toda a série histórica.
Vale salientar que essas afirmações precisam ser melhor investigadas, tendo em vista que outros variáveis devem ser estudadas com mais profundidade, tais como o estado ao qual estes indivíduos fazem parte, bem como a relação com o órgão ao qual são vinculados.