Sobre o relatório

Este é um relatório desenvolvido em R e Markdown com o objetivo de apresentar uma análise inicial sobre a base de dados de simulação de testes do IPEA. A base de dados possui 10 milhões de registros fictícios sobre trabalhadores alocados em estabelecimentos públicos e privados.

Abaixo temos uma amostra do dataset utilizado nas análises:

#importando as bibliotecas utilizadas
library(tidyverse)
library(data.table)
#importando o dataset
dados <- fread("data/simulacao_ipea_v2.csv")
head(dados)
##     ano   orgao idade sexo uf escolaridade     raca remuneracao
## 1: 1990 Univale    77    M MG            4   Branco     3249.88
## 2: 2017    Abic    48    F MS            3   Branco     1829.91
## 3: 2017    IITA    42    F MS            3              3191.28
## 4: 2005   Nafta    31    M AM            2    Preto     4070.18
## 5: 1999     ABC    22    M BA            2 Indigena     9387.33
## 6: 2000     ABA    23    M DF            3              3177.49

5. Plotando o gráfico de série temporal com as médias salariais.

Plot do gráfico de séries temporais contendo uma série de 1985 até 2019, que trate sobre a diferença de sexo e raça. Nesta análise utilzamos a variável renda como varável quantitativa/contínua. Obs: para este estudo concentramos nossas análises apenas para a realidade da instituição IPEA.

5.1 Plotando o gráfico de série temporal com das médias salariais em função das variáveis Sexo e Raça

Para a realização desta série temporal, inicialmente construímos uma tabela auxiliar com as médias salariais por órgão. A tabela agrega as variáveis ano, sexo, raça, escolaridade ao qual o sujeito pertence e as respectivas médias salariais.

#fazendo a tabela de análise com as médias salariais
q5 <- data.frame(
  dados %>% 
  filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
  filter(raca !="" & sexo != "") %>% #retirando as observações sem raça e sexo declarado
  group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando o dataset
  summarise(media_salarial = mean(remuneracao))) #grando a variável com as médias salariais

Utilizamos a metáfora gráfica de uma série utilizando a suavização da curva por meio da função geom_smooth.

#plotando o gráfico de série temporal com as médias salariais
q5 %>% 
  filter(orgao =="Ipea") %>% 
  ggplot(aes(ano, media_salarial, color=sexo)) +
  geom_smooth()+
  ggtitle("Figura 1: Série temporal da média salarial") +
  facet_wrap(~raca)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Na tabela abaixo temos uma visualização dos salários médios das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.

q5 %>%
  filter(orgao =="Ipea") %>% 
  select(sexo, raca, media_salarial) %>% #selecionando as variáveis de interesse 
  group_by(sexo, raca) %>% #agrupando por sexo e raça
  summarise(Média_Salário = mean(media_salarial), #criando as variaveis Média_Salário e Desvio_Padrão
            Desvio_Padrão = sd(media_salarial))
## # A tibble: 10 x 4
## # Groups:   sexo [2]
##    sexo  raca     Média_Salário Desvio_Padrão
##    <chr> <chr>            <dbl>         <dbl>
##  1 F     Amarelo          5587.         1673.
##  2 F     Branco           5405.          967.
##  3 F     Indigena         5546.         1735.
##  4 F     Pardo            5290.          987.
##  5 F     Preto            5375.         1287.
##  6 M     Amarelo          5285.         1564.
##  7 M     Branco           5414.          667.
##  8 M     Indigena         5435.         1619.
##  9 M     Pardo            5527.          772.
## 10 M     Preto            5263.         1063.

Discussão: Em relação as médias salariais, podemos observar que para a categoria de raça amarelo o sexo masculino tem predominância em relação as demais raças, nesta categoria as mulheres permanecem com salários acima do sexo masculino durante os anos de 1995 a 2028, apenas no ano de 2019 essa realidade tende a se inverter e o sexo masculino inicia um aumento salarial em relação ao sexo feminino. Nas demais categorias de raça (Branco, Indígena, Pardo e Preto) essa realidade não é presente.

Para a categoria Preto a partir do ano de 1995 inicia um distanciamento salarial entre ambos os sexos, os salários referentes ao sexo masculino tente a ter um decaimento, permanecendo abaixo do salário do sexo feminino até o ano 2015, onde essa situação se reverte, embora ambos os sexos, para a categoria Preto tiveram decaimentos consideráveis nos últimos cinco anos. Outra destaque importante é em relação a categoria de raça Pardo onde as mulheres apresentam média salarial sempre abaixo dos homens durante todos os anos.

A categoria que apresentou a série temporal salarial de maior similaridade ao longo dos anos foi para a categoria Branco. É perceptível que ao longo de todos os anos, não existe uma diferença considerável entre os sexos, embora alguns decaimentos aconteceram, em específico entre os anos de 2005 e 2010 para as mulheres e entre 2015 e 2019 para os homens. É importante destacarmos que as mulheres consideradas brancas tiveram um aumento salarial a partir de 2015. Esta realidade de aumento salarial também foi presente para as mulheres indígenas, que a partir de 2005 apresentam aumento considerável da média salarial.

5.2 Plotando o gráfico de série temporal com das médias de idades em função das variáveis Sexo e Raça

Para o desenvolvimento desta série temporal utilizamos como variável central a idade média de todos os trabalhadores, em função da sua raça e sexo.

q6 <- data.frame( #criando o dataset q6
  dados %>% 
  filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
  filter(raca !="" & sexo != "") %>% #retirando os valores faltantes de raca e sexo
  group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando por ano, sexo, raca, escolaridade, orgao
  summarise(media_idades = mean(idade))) #calculando os valores médios das idades
q6 %>% 
  ggplot(aes(ano, media_idades, color=sexo)) + #plotando a série temporal em função das idades médias
  ggtitle("Figura 2: Série temporal da idade média") +
  geom_smooth()+ #aplicando a função smooth pra suavizar as curvas da série
  facet_wrap(~raca) #plotando cada tipo de raca em uma faceta
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Na tabela abaixo temos uma visualização das idades médias das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.

q6 %>%
  filter(orgao =="Ipea") %>% 
  select(sexo, raca, media_idades) %>% #selecionando as variáveis de interesse
  group_by(sexo, raca) %>% #agrupando por sexo e raça
  summarise(Média_Idades = mean(media_idades), #criando as variáveis Média_Idades e Desvio_Idades
            Desvio_Idades = sd(media_idades))
## # A tibble: 10 x 4
## # Groups:   sexo [2]
##    sexo  raca     Média_Idades Desvio_Idades
##    <chr> <chr>           <dbl>         <dbl>
##  1 F     Amarelo          47.2          9.32
##  2 F     Branco           46.5          5.47
##  3 F     Indigena         46.0         10.5 
##  4 F     Pardo            45.9          6.93
##  5 F     Preto            45.9          8.28
##  6 M     Amarelo          46.6          9.45
##  7 M     Branco           47.1          4.62
##  8 M     Indigena         46.1          9.39
##  9 M     Pardo            46.5          6.17
## 10 M     Preto            47.0          6.58

Discussão: Em relação as médias de idades, podemos observar que para a categoria de raça Amarelo a partir do ano de 1995 inicia uma acensão de mulheres com idades acima das idades dos homens, essa diferença permanece até 2015, quando a realidade se inverte e começam a prevalecer as maiores idades em função dos homens. Embora essa relação existe, nos últimos cinco anos, para esta categoria de raça, vem decaindo as idades médias dos trabalhadores, para ambos os sexos.

Para a categoria de raça indígena é interessante mencionar que entre os alunos 1994 e 2007 existia uma diferença significativa entre os sexos, mulheres com idades aproximadas de 43 anos e homens com idades aproximadas de 48 anos. Essa realidade começa a se inverter após 2007 quando começa a ser mais recorrente a presença de mulheres com idades cima dos homens, onde essa diferença começa a diminuir nos últimos anos. Para as categorias Pardo e Preto a presença de mulheres mais velhas do que os homens é bem mais constante durante toda a série histórica.

Vale salientar que essas afirmações precisam ser melhor investigadas, tendo em vista que outros variáveis devem ser estudadas com mais profundidade, tais como o estado ao qual estes indivíduos fazem parte, bem como a relação com o órgão ao qual são vinculados.