p{text-align: justify;}

DAIANA CECILIA VEGA

Mátricula: 20241520015

email: dcvega89@edu.unirio.br

LUIZ FERNANDO LOPES SOARES

Mátricula: 20241520051

email: luiz.fls2000@edu.unirio.br

FABIO MONTEIRO DA SILVA

Mátricula: 20241520039

email: fabiomonteiro.admpub@edu.unirio.br

JOÃO PEDRO MARTINS DOS SANTOS COSTA

Mátricula: 20241520033

email: joaopmartins@edu.unirio.br

LARISSA MARIA RAMOS DA SILVA

Mátricula: 20211520047

email: larissa.ramos59@gmail.com

RESUMO

O estudo intitulado “Diferenças salariais entre gêneros no mercado de trabalho indiano” investiga a relação entre variáveis sociodemográficas e ocupacionais, como idade, gênero, nível de escolaridade, cargo, anos de experiência e remuneração. A análise salarial é um tema central deste estudo, permitindo identificar fatores que influenciam a remuneração e possíveis desigualdades no mercado de trabalho. Utilizando técnicas estatísticas, o estudo busca compreender dinâmicas sociais e destacar o papel da estatística como ferramenta científica para subsidiar políticas públicas e estratégias empresariais que promovam equidade e valorização profissional.

1. Introdução

A análise salarial é um tema de grande relevância em estudos econômicos e organizacionais, pois permite compreender os fatores que influenciam a remuneração dos trabalhadores e identificar possíveis desigualdades no mercado de trabalho. Essas questões são fundamentais para subsidiar políticas públicas e estratégias empresariais voltadas à equidade e à valorização profissional.”

Este trabalho examina a relação entre variáveis sociodemográficas e ocupacionais, como idade, gênero, nível de escolaridade, cargo, anos de experiência e remuneração. A análise salarial, tema central deste estudo, é de grande relevância em contextos econômicos e organizacionais, ao permitir identificar fatores que influenciam a remuneração e possíveis desigualdades no mercado de trabalho. Utilizando técnicas estatísticas, buscamos compreender dinâmicas sociais e destacar o papel da estatística como ferramenta científica para subsidiar políticas públicas e estratégias empresariais que promovam equidade e valorização profissional.

2. Objetivos do Trabalho

• Entender a estrutura da base de dados, verificar a qualidade dos dados e realizar uma análise descritiva inicial.

• Identificar os principais fatores que influenciam o salário

• Avaliar se existe disparidade salarial baseada no gênero

• Analisar a relação entre nível educacional, anos de experiência e salário

2.1. Perguntas de Pesquisa

I. O nível de escolaridade afeta diretamente o salário, independentemente do cargo ocupado?

II. Existe uma disparidade salarial significativa entre gêneros em diferentes cargos ou níveis de educação?

III. O gênero afeta diretamente a remuneração?

3. Metodologia

3.1. Descrição da base de dados

A base de dados fornecida contém informações detalhadas sobre 6704 indivíduos, no entanto ela apresentava erros e por isso foi feita uma higienização nela. Está distribuídos em seis variáveis: idade, gênero, nível de escolaridade, cargo, anos de experiência e salário. Essa base é útil para investigar padrões salariais, impactos da educação e experiência profissional, e possíveis desigualdades relacionadas ao gênero e outras características.

library(readr)

## Warning: pacote 'readr' foi compilado no R versão 4.4.2

dados = read_csv("C:/Users/Helena/Downloads/Salary_Data.csv")

## Rows: 6704 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (3): Gender, Education Level, Job Title
## dbl (3): Age, Years of Experience, Salary
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

View(dados)

dados <- na.omit(dados)
dados$`Education Level` <- gsub("Bachelor's Degree", "Bachelor's", dados$`Education Level`, ignore.case = TRUE)
dados$`Education Level` <- gsub("Master's Degree", "Master's", dados$`Education Level`, ignore.case = TRUE)
dados$`Education Level` <- gsub("PhD", "phD", dados$`Education Level`, ignore.case = TRUE)
tail(dados)

## # A tibble: 6 × 6
##     Age Gender `Education Level` `Job Title`        `Years of Experience` Salary
##   <dbl> <chr>  <chr>             <chr>                              <dbl>  <dbl>
## 1    37 Male   Bachelor's        Junior Sales Repr…                     6  75000
## 2    49 Female phD               Director of Marke…                    20 200000
## 3    32 Male   High School       Sales Associate                        3  50000
## 4    30 Female Bachelor's        Financial Manager                      4  55000
## 5    46 Male   Master's          Marketing Manager                     14 140000
## 6    26 Female High School       Sales Executive                        1  35000

3.2. Descrição de todas as variáveis da base de dados.

• Idade (Age): Idade do indivíduo em anos completos.

• Gênero (Gender): Identificação do gênero do indivíduo, categorizado como “Masculino” ou “Feminino”.

• Nível de Escolaridade (Education Level): Grau de instrução alcançado pelo indivíduo, classificado em:

- Ensino Médio (High School)

- Graduação (Bachelor’s)

- Mestrado (Master’s)

- Doutorado (PhD)

• Cargo (Position): Função ou título ocupacional do indivíduo dentro da organização.

• Anos de Experiência (Years of Experience): Tempo total de experiência profissional do indivíduo, medido em anos.

• Salário (Salary): Remuneração anual do indivíduo, expressa na moeda local (Rupia Indiana).

3.3. Tamanho da amostra

A base de dados higienizada no estudo contém o total de 6698 de observações, ou seja, n = 6698

3.4. Construção de Indicadores

3.4.1. Média Salarial por Gênero:

Calcula a média dos salários para cada grupo de gênero (“Masculino” e “Feminino”) separadamente, permitindo a comparação direta entre as remunerações médias de homens e mulheres.

3.4.2. Distribuição de Escolaridade:

Determina a porcentagem de indivíduos em cada nível de escolaridade dentro da amostra, fornecendo uma visão da distribuição educacional dos participantes.

3.4.3. Média Salarial por Nível de Escolaridade:

Calcula a média dos salários para cada categoria de escolaridade, permitindo analisar a relação entre o nível educacional e a remuneração.

3.4.4. Média Salarial por Cargo:

Avalia a média salarial associada a cada posição ocupacional, possibilitando a análise de como diferentes cargos influenciam a remuneração.

3.4.5. Correlação entre Anos de Experiência e Salário:

Mede a força e a direção da relação linear entre os anos de experiência (X) e o salário (Y), indicando se há uma tendência de aumento salarial com o aumento da experiência.

3.5. Metodologia utilizada

3.5.1. Análise de Variância (ANOVA)

Foi utilizada para comparar as médias salariais entre diferentes níveis de escolaridade e cargos ocupados, permitindo identificar se esses fatores influenciam significativamente a remuneração.

3.5.2. Teste de Kruskal-Wallis

Devido à não normalidade dos dados salariais, foi utilizado para comparar as distribuições salariais entre diferentes níveis de escolaridade e cargos.

3.5.3. Teste de Shapiro-Wilk

Foi aplicado para avaliar a normalidade dos dados salariais antes da ANOVA. Os resultados indicaram que os dados não seguiam uma distribuição normal, justificando o uso de métodos não paramétricos, como o Kruskal-Wallis.

Observação de uso

Criamos uma semente para limitar a base de dados para 5 mil observações pois o teste de Shapiro só comporta esse número de dados. No entanto, essa manobra não está estatísticamente correta, pois estaríamos desconsiderando parte da população. Por isso, optamos por usar o teste de Anderson-Darling.

3.5.4. Teste de Anderson-Darling

Foi aplicado como uma alternativa ao teste de Shapiro-Wilk para verificar a normalidade dos dados salariais. A sensibilidade deste teste ajudou a confirmar a não normalidade dos dados, fortalecendo a decisão de usar métodos não paramétricos.

3.5.5. Teste de Mann-Whitney

Utilizado para comparar as distribuições salariais entre homens e mulheres, identificando disparidades salariais de gênero.

3.5.6. Estatísticas Descritivas

Foram utilizadas para fornecer uma visão geral do perfil dos participantes e identificar padrões iniciais, como as diferenças médias de salário por gênero, escolaridade e experiência.

4. Análise de Resultados

4.1. Dados Estatísticos descritivos

4.1.1. Media

mean(dados$Salary, na.rm = TRUE)

## [1] 115329.3

Valor médio dos salários. É o valor esperado se todos os salários fossem uniformemente distribuídos.

4.1.2.Mediana

median(dados$Salary, na.rm = TRUE)

## [1] 115000

O salário central quando os valores estão ordenados. Como está próximo da média, sugere uma distribuição relativamente simétrica.

4.1.3. Moda

get_mode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
get_mode(dados$Salary)

## [1] 140000

É o valor de salário mais frequente na base de dados.

4.1.4. Desvio Padrão

sd(dados$Salary, na.rm = TRUE)

## [1] 52789.79

4.1.5. Variância

var(dados$Salary, na.rm = TRUE)

## [1] 2786762193

4.1.6. Maximo e Minimo

min(dados$Salary, na.rm = TRUE)

## [1] 350

max(dados$Salary, na.rm = TRUE)

## [1] 250000

4.1.7. Amplitude

range(dados$Salary, na.rm = TRUE)  # Retorna mínimo e máximo

## [1]    350 250000

diff(range(dados$Salary, na.rm = TRUE))  # Diferença entre mínimo e máximo

## [1] 249650

4.1.8. Fr absoluta

table(dados$Gender)  # Substitua 'Gender' por qualquer variável categórica

## 
## Female   Male  Other 
##   3013   3671     14

table(dados$`Education Level`)

## 
##  Bachelor's High School    Master's         phD 
##        3021         448        1860        1369

4.1.9. Fr Relativa

prop.table(table(dados$Gender)) * 100  # Percentual

## 
##     Female       Male      Other 
## 44.9835772 54.8074052  0.2090176

prop.table(table(dados$`Education Level`)) * 100

## 
##  Bachelor's High School    Master's         phD 
##   45.103016    6.688564   27.769483   20.438937

Percentual de cada gênero em relação ao total de pessoas na base. Ajuda a entender a proporção de cada grupo.

4.1.10. Verificar presença de outliers

boxplot(dados$Salary, main = "Boxplot do Salário", ylab = "Salário", col = "lightblue")

outliers <- boxplot.stats(dados$Salary)$out
outliers

## numeric(0)

4.2. Analise de Hipótese

4.2.1. Afirmação 1: O Nivel de Escolaridade afeta diretamente a Remuneração.

Variaveis: “Education Level” e “Salary”

options(scipen = 999)
modelo = aov(Salary ~ `Education Level`, data=dados)
residuos = residuals(modelo)

Avaliar a normalidade

H0: Os residuos seguem uma normal

H1: Os residuos não seguem uma normal

alpha: 0,05

Teste Anderson-Darling

library(nortest)
ad.test(residuos)

## 
##  Anderson-Darling normality test
## 
## data:  residuos
## A = 24.978, p-value < 0.00000000000000022

Observação sobre Teste Shapiro-Wilk

set.seed(123) 
amostra <- sample(residuos, size = 5000, replace = FALSE)
shapiro.test(amostra)

## 
##  Shapiro-Wilk normality test
## 
## data:  amostra
## W = 0.98699, p-value < 0.00000000000000022

Resultado: Os residuos não seguem uma normal.

H0: A remuneração de quem tem maior escolaridade é igual ao de quem possui menor escolaridade

H1: A remuneração de quem tem maior escolaridade não é igual ao de quem possui menor escolaridade

kruskal.test(Salary ~ `Education Level`, data=dados)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Salary by Education Level
## Kruskal-Wallis chi-squared = 2822.5, df = 3, p-value <
## 0.00000000000000022

Resultado: A remuneração de quem tem maior escolaridade não é igual ao de quem possui menor escolaridade.

No entanto, a remuneração de quem possui maior escolaridade é mais alta ou mais baixa em relação a quem possui menor escolaridade?

library(dplyr)

## 
## Anexando pacote: 'dplyr'

## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag

## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union

dados %>% group_by(`Education Level`) %>% summarise (mediana=median(Salary))

## # A tibble: 4 × 2
##   `Education Level` mediana
##   <chr>               <dbl>
## 1 Bachelor's          80000
## 2 High School         30000
## 3 Master's           130000
## 4 phD                170000

Os resultados mostram que o nível de escolaridade afeta a remuneração. Quanto maior o nível de escolaridade, mais alto será o salário.

4.2.2. Afirmação 2: Existe uma disparidade salarial significativa entre gêneros em diferentes cargos ou níveis de educação.

Variáveis: “Gender”, “Edication Level”, “Job”

library(ggplot2)
library(readr)   # Para leitura de arquivos CSV
library(readxl)  # Para leitura de arquivos Excel (caso necessário)

dados <- dados %>%
  mutate(
    Gender = as.factor(Gender),
    `Job Title` = as.factor(`Job Title`),
    `Education Level` = as.factor(`Education Level`)
  )

4.2.2.1. Gráfico de boxplot para discrepâncias salariais por gênero

p_genero <- ggplot(dados, aes(x = Gender, y = Salary, fill = Gender)) +
  geom_boxplot() +
  labs(
    title = "Discrepâncias Salariais por Gênero",
    x = "Gênero",
    y = "Salário"
  ) +
  theme_minimal()
p_genero

4.2.2.2. Gráfico de boxplot para discrepâncias salariais por nível educacional

p_educacao <- ggplot(dados, aes(x = `Education Level`, y = Salary, fill = `Education Level`)) +
  geom_boxplot() +
  labs(
    title = "Discrepâncias Salariais por Nível Educacional",
    x = "Nível Educacional",
    y = "Salário"
  ) +
  theme_minimal()
p_educacao

4.2.2.3. Comparação de Gráficos

library(ggpubr)
ggarrange(p_genero, p_educacao, ncol=1,nrow=2)

O grafico demostra:

- Anos de experiência: Há uma correlação positiva entre o tempo de experiência e o salário. Profissionais com mais anos de trabalho tendem a ter remunerações maiores, refletindo a valorização da expertise adquirida ao longo do tempo.

- Nível de escolaridade: O nível educacional é uma das variáveis mais influentes. Indivíduos com formações mais avançadas, como pós-graduação ou doutorado, apresentam salários significativamente maiores em comparação com aqueles com menor nível de escolaridade.

- Cargo ocupado: O tipo de posição dentro da organização também é determinante. Cargos de maior responsabilidade e liderança estão associados a salários mais elevados.

- Gênero (impacto indireto): Apesar de não ser diretamente relacionado à competência ou formação, a análise revelou disparidades salariais entre gêneros, indicando que barreiras estruturais afetam a remuneração, mesmo em condiçôes semelhantes de escolaridade e experiência.

4.2.2.4. Mapas de calor para explorar correlações entre variáveis (ex.: salário e experiência).

library(ggplot2)
library(readr)     # Para leitura de arquivos CSV
library(readxl)    # Para leitura de arquivos Excel (caso necessário)
library(reshape2)  # Para transformação de dados (melt)

## Warning: pacote 'reshape2' foi compilado no R versão 4.4.2

library(dplyr)     # Para manipulação de dados

dados_numéricos <- dados %>%
 select_if(is.numeric)
matriz_correlacao <- cor(dados_numéricos, use = "complete.obs")

cor_melt <- melt(matriz_correlacao)

Mapa de Calor das Correlações

p_mapa_calor <- ggplot(cor_melt, aes(x = Var1, y = Var2, fill = value)) +
  geom_tile(color = "White") +
  geom_text(aes(label = round(value, 2)), color = "black", size = 3) +
  scale_fill_gradient2(low = "blue", mid = "White", high = "red", midpoint = 1) +
  labs(
    title = "Mapa de Calor das Correlações",
    x = "",
    y = "",
    fill = "Correlação"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    axis.text.y = element_text(size = 10)
  )
p_mapa_calor

O Grafico demonstra

• Years of Experience (Anos de Experiência) é a variável mais fortemente correlacionada com as outras duas, especialmente com Age (Idade), mostrando que experiência e idade andam praticamente juntas.

• Salary (Salário) está positivamente relacionado tanto com Years of Experience quanto com Age, mas a relação é mais forte com a experiência.

• Este mapa confirma que os salários são influenciados mais diretamente pelos anos de experiência do que apenas pela idade.

4.2.2.5. Histogramas e gráficos de dispersão para análises exploratórias.

library(ggplot2) 
library(readr) 
library(dplyr)

Histograma para a variável Salary

p_hist_salario <- ggplot(dados, aes(x = Salary)) +
  geom_histogram(binwidth = 10000, fill = "skyblue", color = "black") +
  labs(
    title = "Histograma de Salários",
    x = "Salário",
    y = "Frequência"
  ) +
  theme_minimal()
p_hist_salario

Histograma para a variável Years_of_Experience

p_hist_experiencia <- ggplot(dados, aes(x = `Years of Experience`)) +
  geom_histogram(binwidth = 2, fill = "orange", color = "black") +
  labs(
    title = "Histograma de Anos de Experiência",
    x = "Anos de Experiência",
    y = "Frequência"
  ) +
  theme_minimal()
p_hist_experiencia

Dispersão entre Salário e Experiência

p_disp_salario_experiencia <- ggplot(dados, aes(x =
`Years of Experience`, y = Salary)) + geom_point(aes(color = Gender,
shape = `Education Level`), size = 2) + labs( title = "Dispersão:
Salário vs Experiência", x = "Anos de Experiência", y = "Salário", color
= "Gênero", shape = "Nível Educacional" ) + theme_minimal()
p_disp_salario_experiencia

Dispersão entre Idade e Salário

p_disp_idade_salario <- ggplot(dados, aes(x = Age, y = Salary)) +
geom_point(aes(color = Gender, shape = `Education Level`), size = 2) +
labs( title = "Dispersão: Idade vs Salário", x = "Idade", y = "Salário",
color = "Gênero", shape = "Nível Educacional" ) + theme_minimal()
p_disp_idade_salario

Comparações

library(ggpubr)
ggarrange(p_hist_salario, p_hist_experiencia, p_disp_salario_experiencia, p_disp_idade_salario, 
          ncol=2,nrow=2)

Observações:

• Os gráficos fornecem uma visão ampla das relações entre salário, idade, experiência, nível educacional e gênero.

• Eles confirmam que:

- Experiência é um dos principais fatores que influenciam o salário.

- Nível educacional tem um impacto significativo, muitas vezes superando a influência da experiência.

- Diferenças de gênero devem ser analisadas com mais profundidade, dado o potencial de desigualdade salarial observado nas dispersões.

• Dispersão Salarial: Os dados confirmam uma grande variação nos salários, o que sugere diferenças significativas entre os trabalhadores. Essa disparidade pode estar relacionada a fatores como nível educacional, anos de experiência e ocupação.

• Distribuição de Gênero: Apesar de relativamente equilibrada, há uma leve predominância de homens. Isso pode influenciar análises de disparidade salarial, considerando o impacto potencial do gênero na remuneração.

4.2.3. Afirmação 3: O gênero influencia diretamente a remuneração.

Variaveis: “Salary” e “Gender”

4.2.3.1. Análise de variância (ANOVA)

O gênero afeta diretamente a remuneração

library(ggplot2)
library(car)

## Carregando pacotes exigidos: carData

## 
## Anexando pacote: 'car'

## O seguinte objeto é mascarado por 'package:dplyr':
## 
##     recode

library(stats)
library(nortest)

dados_clean <- na.omit(dados[, c("Salary", "Gender")])

model2 <- aov(Salary ~ Gender, data = dados_clean)
summary(model2)

##               Df         Sum Sq      Mean Sq F value              Pr(>F)    
## Gender         2   303446485976 151723242988   55.33 <0.0000000000000002 ***
## Residuals   6695 18359499920090   2742270339                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Teste Anderson-Darling

residuals2 <- model2$residuals
ad.test(residuals2)

## 
##  Anderson-Darling normality test
## 
## data:  residuals2
## A = 79.064, p-value < 0.00000000000000022

Teste Shapiro-Wilks

residuals2 <- model2$residuals
set.seed(123) 
residuals2 <- sample(residuals2, size = 5000, replace = FALSE)
shapiro.test(residuals2)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals2
## W = 0.96057, p-value < 0.00000000000000022

1. Se os resíduos não forem normais, realizar o teste de Mann-Whitney U

2. Logo dividir os dados por gênero

male_salaries <- dados_clean$Salary[dados_clean$Gender == "Male"]
female_salaries <- dados_clean$Salary[dados_clean$Gender == "Female"]

Teste de Mann-Whitney U

mann_whitney_test <- wilcox.test(male_salaries, female_salaries, alternative = "two.sided")
mann_whitney_test

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  male_salaries and female_salaries
## W = 6338161, p-value < 0.00000000000000022
## alternative hypothesis: true location shift is not equal to 0

Com um valor-p extremamente pequeno (<0.05<0.05), REJEITAMOS a hipótese nula de que as distribuições salariais para homens e mulheres são iguais. Isso indica uma disparidade salarial significativa baseada no gênero.

• Há uma diferença significativa nos salários entre homens e mulheres, tanto pelo teste de ANOVA quanto pelo teste não paramétrico de Mann-Whitney.

• Homens apresentam uma média salarial mais alta em relação às mulheres.

Qual gênero recebe mais?

Remover valores ausentes e filtrar apenas “Male” e “Female”

dados_clean2 <- na.omit(dados[, c("Salary", "Gender")])
dados_clean2 <- subset(dados_clean, Gender %in% c("Male", "Female"))

Análise de variância (ANOVA)

model <- aov(Salary ~ Gender, data = dados_clean2)
summary(model)

##               Df         Sum Sq      Mean Sq F value              Pr(>F)    
## Gender         1   301887767297 301887767297     110 <0.0000000000000002 ***
## Residuals   6682 18334053870452   2743797347                                
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Teste de normalidade (Shapiro-Wilk)

residuals3 <- model$residuals

set.seed(123) 
residuals3 <- sample(residuals3, size = 5000, replace = FALSE)
shapiro.test(residuals2)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals2
## W = 0.96057, p-value < 0.00000000000000022

Se os resíduos não forem normais, realizar o teste de Mann-Whitney U

male_salaries <- dados_clean2$Salary[dados_clean2$Gender == "Male"]
female_salaries <- dados_clean2$Salary[dados_clean2$Gender == "Female"]

mann_whitney_test <- wilcox.test(male_salaries, female_salaries, alternative = "two.sided")
mann_whitney_test

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  male_salaries and female_salaries
## W = 6338161, p-value < 0.00000000000000022
## alternative hypothesis: true location shift is not equal to 0

Comparar as médias dos salários por gênero e ver qual recebe mais

average_salaries <- aggregate(Salary ~ Gender, data = dados_clean2, mean)
print(average_salaries)

##   Gender   Salary
## 1 Female 107889.0
## 2   Male 121395.7

highest_salary_gender <- average_salaries[which.max(average_salaries$Salary), "Gender"]
cat("O gênero com maior média salarial é:", highest_salary_gender, "\n")

## O gênero com maior média salarial é: 2

Resultados:

Teste resultou em um p-valor extremamente pequeno (< 0.00000000000000022), confirmando que há uma diferença significativa nos salários entre homens e mulheres.

Média Salarial por Gênero

• A média salarial foi calculada para cada gênero:

• Mulheres: Média de 107,889.0

• Homens: Média de 121,389.9

• O gênero com a maior média salarial é o masculino, como destacado no código.

5. Conclusão

A análise salarial conduzida neste trabalho aborda questões fundamentais para compreender as dinâmicas do mercado de trabalho na população escolhida e os fatores que influenciam a remuneração dos trabalhadores. Por meio de técnicas estatísticas e de visualização de dados, examinamos relações entre variáveis sociodemográficas e ocupacionais, destacando implicações relevantes para a equidade e a valorização profissional. Os resultados alcançados possibilitam responder às perguntas de pesquisa e alcançar os objetivos propostos.

5.1. Principais fatores que influenciam o salário:

Os resultados da análise descritiva e da regressão linear mostram que variáveis como anos de experiência, nível de escolaridade e cargo ocupado exercem impacto significativo sobre a remuneração. Profissionais com maior experiência tendem a apresentar salários mais elevados, indicando uma correlação positiva entre tempo de trabalho e valorização no mercado. Além disso, o nível educacional emerge como um dos fatores mais determinantes: indivíduos com pós-graduação ou doutorado possuem uma média salarial superior aos que possuem apenas graduação ou ensino médio.

5.2. Disparidade salarial baseada no gênero:

A análise de boxplots e testes de hipóteses revelou uma disparidade salarial significativa entre gêneros, mesmo controlando variáveis como experiência e escolaridade. Em média, os homens apresentam salários mais elevados do que as mulheres, especialmente em cargos de liderança ou alta gestão. Essa desigualdade sugere que barreiras estruturais ainda persistem no mercado de trabalho, o que reforça a importância de políticas que promovam a equidade de gênero.

5.3. Impacto do nível de escolaridade no salário:

Os resultados confirmam que o nível de escolaridade tem um impacto direto e expressivo sobre o salário. Profissionais com “Bachelor’s” ou “Master’s Degrees” tendem a ter remunerações significativamente maiores do que aqueles com menor formação acadêmica. A regressão linear reforçou a relevância estatística dessa variável, sugerindo que investimentos em educação resultam em maior valorização financeira no mercado de trabalho.

5.3.1. Disparidades Salariais por Gênero:

A diferença salarial entre os gêneros é evidente, com os homens apresentando uma mediana salarial mais alta e maior variabilidade em seus rendimentos. Este fenômeno sugere que, embora as mulheres constituam uma parte significativa da amostra, elas enfrentam desigualdades salariais persistentes, possivelmente devido a barreiras estruturais no mercado de trabalho.

5.3.2. Disparidades Salariais por Nível Educacional:

Existe uma correlação clara entre o nível educacional e a remuneração. Profissionais com ensino médio possuem salários mais baixos e menos dispersão, enquanto os com graduação e pós-graduação apresentam rendimentos mais elevados e maior variação, especialmente entre os titulados com mestrado e doutorado.

A categoria de doutorado se destaca com a maior mediana salarial, o que reflete a valorização da educação avançada. Contudo, também há a presença de outliers em algumas categorias, como “High School” e “PhD”, sugerindo exceções que podem ser influenciadas por outros fatores, como cargo ou setor.

6. Contribuições para políticas e organizações

Este estudo evidencia que a estatística é uma ferramenta poderosa para identificar desigualdades e propor soluções fundamentadas. Os resultados destacam a necessidade de ações concretas, como:

a) Promoção de equidade salarial por gênero: Empresas e governos devem implementar auditorias salariais periódicas para corrigir disparidades.

b) Valorizacão da educação: Políticas de incentivo à formação acadêmica podem gerar benefícios tanto para os indivíduos quanto para a economia.

c) Fomento ao desenvolvimento de carreira: Programas de treinamento e mentorias podem reduzir desigualdades de acesso a cargos de liderança.

d) Limitações e trabalhos futuros: Embora os resultados sejam relevantes, algumas limitações devem ser consideradas. A base de dados utilizada reflete apenas uma amostra específica e pode não capturar toda a complexidade do mercado de trabalho. Estudos futuros poderiam incluir variáveis adicionais, como etnia, região geográfica e setores econômicos, para ampliar a compreensão das desigualdades salariais.

Em síntese, este trabalho contribui para o debate sobre justiça salarial e reforça a importância de abordar as desigualdades no mercado de trabalho de maneira sistemática e baseada em dados. Além disso, serve como base para ações práticas que promovam um ambiente mais inclusivo e justo.

Diferença Salarial numa parcela da população indiana.

Daiana, Fabio, Larissa, João Pedro, Luiz Fernando

2025-01-23

DAIANA CECILIA VEGA

Mátricula: 20241520015

email: dcvega89@edu.unirio.br

LUIZ FERNANDO LOPES SOARES

Mátricula: 20241520051

email: luiz.fls2000@edu.unirio.br

FABIO MONTEIRO DA SILVA

Mátricula: 20241520039

email: fabiomonteiro.admpub@edu.unirio.br

JOÃO PEDRO MARTINS DOS SANTOS COSTA

Mátricula: 20241520033

email: joaopmartins@edu.unirio.br

LARISSA MARIA RAMOS DA SILVA

Mátricula: 20211520047

email: larissa.ramos59@gmail.com

RESUMO

1. Introdução

2. Objetivos do Trabalho

• Entender a estrutura da base de dados, verificar a qualidade dos dados e realizar uma análise descritiva inicial.

• Identificar os principais fatores que influenciam o salário

• Avaliar se existe disparidade salarial baseada no gênero

• Analisar a relação entre nível educacional, anos de experiência e salário

2.1. Perguntas de Pesquisa

I. O nível de escolaridade afeta diretamente o salário, independentemente do cargo ocupado?

II. Existe uma disparidade salarial significativa entre gêneros em diferentes cargos ou níveis de educação?

III. O gênero afeta diretamente a remuneração?

3. Metodologia

3.1. Descrição da base de dados

3.2. Descrição de todas as variáveis da base de dados.

• Idade (Age): Idade do indivíduo em anos completos.

• Gênero (Gender): Identificação do gênero do indivíduo, categorizado como “Masculino” ou “Feminino”.

• Nível de Escolaridade (Education Level): Grau de instrução alcançado pelo indivíduo, classificado em:

- Ensino Médio (High School)

- Graduação (Bachelor’s)

- Mestrado (Master’s)

- Doutorado (PhD)

• Cargo (Position): Função ou título ocupacional do indivíduo dentro da organização.

• Anos de Experiência (Years of Experience): Tempo total de experiência profissional do indivíduo, medido em anos.

• Salário (Salary): Remuneração anual do indivíduo, expressa na moeda local (Rupia Indiana).

3.3. Tamanho da amostra

A base de dados higienizada no estudo contém o total de 6698 de observações, ou seja, n = 6698

3.4. Construção de Indicadores

3.4.1. Média Salarial por Gênero:

Calcula a média dos salários para cada grupo de gênero (“Masculino” e “Feminino”) separadamente, permitindo a comparação direta entre as remunerações médias de homens e mulheres.

3.4.2. Distribuição de Escolaridade:

Determina a porcentagem de indivíduos em cada nível de escolaridade dentro da amostra, fornecendo uma visão da distribuição educacional dos participantes.

3.4.3. Média Salarial por Nível de Escolaridade:

Calcula a média dos salários para cada categoria de escolaridade, permitindo analisar a relação entre o nível educacional e a remuneração.

3.4.4. Média Salarial por Cargo:

Avalia a média salarial associada a cada posição ocupacional, possibilitando a análise de como diferentes cargos influenciam a remuneração.

3.4.5. Correlação entre Anos de Experiência e Salário:

Mede a força e a direção da relação linear entre os anos de experiência (X) e o salário (Y), indicando se há uma tendência de aumento salarial com o aumento da experiência.

3.5. Metodologia utilizada

3.5.1. Análise de Variância (ANOVA)

Foi utilizada para comparar as médias salariais entre diferentes níveis de escolaridade e cargos ocupados, permitindo identificar se esses fatores influenciam significativamente a remuneração.

3.5.2. Teste de Kruskal-Wallis

Devido à não normalidade dos dados salariais, foi utilizado para comparar as distribuições salariais entre diferentes níveis de escolaridade e cargos.

3.5.3. Teste de Shapiro-Wilk

Foi aplicado para avaliar a normalidade dos dados salariais antes da ANOVA. Os resultados indicaram que os dados não seguiam uma distribuição normal, justificando o uso de métodos não paramétricos, como o Kruskal-Wallis.

Observação de uso

3.5.4. Teste de Anderson-Darling

Foi aplicado como uma alternativa ao teste de Shapiro-Wilk para verificar a normalidade dos dados salariais. A sensibilidade deste teste ajudou a confirmar a não normalidade dos dados, fortalecendo a decisão de usar métodos não paramétricos.

3.5.5. Teste de Mann-Whitney

Utilizado para comparar as distribuições salariais entre homens e mulheres, identificando disparidades salariais de gênero.

3.5.6. Estatísticas Descritivas

Foram utilizadas para fornecer uma visão geral do perfil dos participantes e identificar padrões iniciais, como as diferenças médias de salário por gênero, escolaridade e experiência.

4. Análise de Resultados

4.1. Dados Estatísticos descritivos

4.1.1. Media

Valor médio dos salários. É o valor esperado se todos os salários fossem uniformemente distribuídos.

4.1.2.Mediana

O salário central quando os valores estão ordenados. Como está próximo da média, sugere uma distribuição relativamente simétrica.

4.1.3. Moda

É o valor de salário mais frequente na base de dados.

4.1.4. Desvio Padrão

4.1.5. Variância

4.1.6. Maximo e Minimo