Este é um relatório desenvolvido em R e Markdown com o objetivo de apresentar uma análise inicial sobre a base de dados de simulação de testes do IPEA. A base de dados possui 10 milhões de registros fictícios sobre trabalhadores alocados em estabelecimentos públicos e privados.
Abaixo temos uma amostra do dataset utilizado nas análises:
#importando as bibliotecas utilizadas
library(tidyverse)
library(data.table)
#importando o dataset
dados <- fread("data/simulacao_ipea_v2.csv")
head(dados)
Para esta análise inicialmente criamos um subset com indivíduos com idade acima de 50 anos, registrados no estado da Bahia no ano de 2019. Após a criação deste subset foi gerada uma tabela apresentando as respectivas frquências por sexo.
q1 <- data.frame(dados %>% #criando o dataset q1
filter(idade > 50 & uf == "BA" & ano == 2019) %>% #filtrando por idade, estado e ano
group_by(sexo) %>% # criando a tabela de frequência por sexo
summarise(Quantidade = n()))
q1 #exibindo a tabela de frequência
Resposta: Para esta análise a resposta foi 3036, embora o resultado tenha sido 3108.
Nesta análise construimos um dataset auxiliar, filtrando por sexo, agrupando por ano e orgão e gerando uma nova variável com o somatório de ocorrências. Por fim foi feito a ordenação por ordem decrescente.
#constrindo um dataset axiliar, quantificando e ordenando
q1 <- data.frame(dados %>% filter(sexo == "F") %>% #filtrando o dataset por sexo feminino
group_by(ano, orgao) %>% #selecionando as variáveis ano e orgao
summarise(Quantidade = n())) %>% #fazendo o somatório
arrange(desc(Quantidade)) #ordenando por ordem decrescente os valores das frequências
head(q1) #apresentando a tabela com as seis primeiras ocorrências
Resposta: Para esta análise a resposta foi 2017-ABC
Nesta análise, inicialmente filtramos a base por todos os trabalharoes registrados no estabelecimento IPEA no ano de 2015. Em seguida agrupamos o resultado em uma tabela que mostra o resultado por escolaridade, solicitando a frquencia relativa por categoria de escolaridade.
#quantificando a escolaridade do Ipea
q2 <- data.frame (dados %>% filter(orgao == "Ipea" & ano==2015) %>%
group_by(escolaridade) %>%
summarise(Quantidade = n()))
#grando os percentuais por categoria de escolaridade
q2 %>% mutate(Percentual = (Quantidade / sum(Quantidade)) * 100)
Resposta: Para o nível de escolaridade 4, encontramos o resultado 41,81%, ou seja, resposta Nenhuma das alternativas.
Para a realização desta análise, incialmente realizamos uma filtragem por sexo, órgao e ano. Em seguida agrupamos os resultados por raça, onde posteriormente foi gerada a tabela de frequência ordenada pela quantidade de trbalhadores por raça.
q4 <- data.frame(#gerando o dataframe q4
dados %>%
filter(sexo == "F" & orgao == "UFSJ" & ano == "2010") %>% #filtrando por sexo feminino, orgão UFSJ, ano 2010
group_by(raca) %>% #agrupando por raça
summarise(Quantidade = n())) %>% #quantificando o somatório de ocorrências
arrange(Quantidade) #ordenando as frequências
head(q4) #gerando a tabela de frequência
Resposta: Para esta análise a raça que apresentou a menor quantidade de registros foi Amarelo contendo 30 registros.
Plot do gráfico de séries temporais contendo uma série de 1985 até 2019, que trate sobre a diferença de sexo e raça. Nesta análise utilzamos a variável renda como varável quantitativa/contínua. Obs: para este estudo concentramos nossas análises apenas para a realidade da instituição IPEA.
5.1 Plotando o gráfico de série temporal com das médias salariais em função das variáveis Sexo e Raça
Para a realização desta série temporal, inicialmente construímos uma tabela auxiliar com as médias salariais por órgão. A tabela agrega as variáveis ano, sexo, raça, escolaridade ao qual o sujeito pertence e as respectivas médias salariais.
#fazendo a tabela de análise com as médias salariais
q5 <- data.frame(
dados %>%
filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
filter(raca !="" & sexo != "") %>% #retirando as observações sem raça e sexo declarado
group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando o dataset
summarise(media_salarial = mean(remuneracao))) #grando a variável com as médias salariais
Utilizamos a metáfora gráfica de uma série utilizando a suavização da curva por meio da função geom_smooth.
#plotando o gráfico de série temporal com as médias salariais
q5 %>%
filter(orgao =="Ipea") %>%
ggplot(aes(ano, media_salarial, color=sexo)) +
geom_smooth()+
ggtitle("Figura 1: Série temporal da média salarial") +
facet_wrap(~raca)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Na tabela abaixo temos uma visualização dos salários médios das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.
q5 %>%
filter(orgao =="Ipea") %>%
select(sexo, raca, media_salarial) %>% #selecionando as variáveis de interesse
group_by(sexo, raca) %>% #agrupando por sexo e raça
summarise(Média_Salário = mean(media_salarial), #criando as variaveis Média_Salário e Desvio_Padrão
Desvio_Padrão = sd(media_salarial))
Discussão: Em relação as médias salariais, podemos observar que para a categoria de raça amarelo o sexo masculino tem predominância em relação as demais raças, nesta categoria as mulheres permanecem com salários acima do sexo masculino durante os anos de 1995 a 2028, apenas no ano de 2019 essa realidade tende a se inverter e o sexo masculino inicia um aumento salarial em relação ao sexo feminino. Nas demais categorias de raça (Branco, Indígena, Pardo e Preto) essa realidade não é presente.
Para a categoria Preto a partir do ano de 1995 inicia um distanciamento salarial entre ambos os sexos, os salários referentes ao sexo masculino tente a ter um decaimento, permanecendo abaixo do salário do sexo feminino até o ano 2015, onde essa situação se reverte, embora ambos os sexos, para a categoria Preto tiveram decaimentos consideráveis nos últimos cinco anos. Outra destaque importante é em relação a categoria de raça Pardo onde as mulheres apresentam média salarial sempre abaixo dos homens durante todos os anos.
A categoria que apresentou a série temporal salarial de maior similaridade ao longo dos anos foi para a categoria Branco. É perceptível que ao longo de todos os anos, não existe uma diferença considerável entre os sexos, embora alguns decaimentos aconteceram, em específico entre os anos de 2005 e 2010 para as mulheres e entre 2015 e 2019 para os homens. É importante destacarmos que as mulheres consideradas brancas tiveram um aumento salarial a partir de 2015. Esta realidade de aumento salarial também foi presente para as mulheres indígenas, que a partir de 2005 apresentam aumento considerável da média salarial.
5.2 Plotando o gráfico de série temporal com das médias de idades em função das variáveis Sexo e Raça
Para o desenvolvimento desta série temporal utilizamos como variável central a idade média de todos os trabalhadores, em função da sua raça e sexo.
q6 <- data.frame( #criando o dataset q6
dados %>%
filter(orgao =="Ipea") %>% #selecionando um subset apenas com trabalhadores registrados no Ipea
filter(raca !="" & sexo != "") %>% #retirando os valores faltantes de raca e sexo
group_by(ano, sexo, raca, escolaridade, orgao) %>% #agrupando por ano, sexo, raca, escolaridade, orgao
summarise(media_idades = mean(idade))) #calculando os valores médios das idades
q6 %>%
ggplot(aes(ano, media_idades, color=sexo)) + #plotando a série temporal em função das idades médias
ggtitle("Figura 2: Série temporal da idade média") +
geom_smooth()+ #aplicando a função smooth pra suavizar as curvas da série
facet_wrap(~raca) #plotando cada tipo de raca em uma faceta
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Na tabela abaixo temos uma visualização das idades médias das variáveis sexo e raça. Obs: Esses resultados é uma sumarização referente ao total de anos.
q6 %>%
filter(orgao =="Ipea") %>%
select(sexo, raca, media_idades) %>% #selecionando as variáveis de interesse
group_by(sexo, raca) %>% #agrupando por sexo e raça
summarise(Média_Idades = mean(media_idades), #criando as variáveis Média_Idades e Desvio_Idades
Desvio_Idades = sd(media_idades))
Discussão: Em relação as médias de idades, podemos observar que para a categoria de raça Amarelo a partir do ano de 1995 inicia uma acensão de mulheres com idades acima das idades dos homens, essa diferença permanece até 2015, quando a realidade se inverte e começam a prevalecer as maiores idades em função dos homens. Embora essa relação existe, nos últimos cinco anos, para esta categoria de raça, vem decaindo as idades médias dos trabalhadores, para ambos os sexos.
Para a categoria de raça indígena é interessante mencionar que entre os alunos 1994 e 2007 existia uma diferença significativa entre os sexos, mulheres com idades aproximadas de 43 anos e homens com idades aproximadas de 48 anos. Essa realidade começa a se inverter após 2007 quando começa a ser mais recorrente a presença de mulheres com idades cima dos homens, onde essa diferença começa a diminuir nos últimos anos. Para as categorias Pardo e Preto a presença de mulheres mais velhas do que os homens é bem mais constante durante toda a série histórica.
Vale salientar que essas afirmações precisam ser melhor investigadas, tendo em vista que outros variáveis devem ser estudadas com mais profundidade, tais como o estado ao qual estes indivíduos fazem parte, bem como a relação com o órgão ao qual são vinculados.