Este relatório consiste em uma breve análise dos salários de profissionais da área de tecnologia da informação no Brasil, realizada como exercício dos conteúdos do módulo 1 da disciplina de Análise de Dados I da Universidade Federal de Campina Grande, com o intuito de investigar quais as melhores regiões brasileiras para TI e quais apresentam salários mais desiguais. Para tanto, foram utilizados dados de 168 profissionais de TI, coletados via formulário web.
Desde as primeiras visualizações geradas a partir dos dados coletados, foram imediatamente observados valores de salário estranhos e atipicamente distantes do restante da série (outliers) em algumas regiões. Na região nordeste, como é possivel observar no gráfico abaixo, o valor máximo chega a ser superior ao dobro do segundo maior valor apresentado, que, por sua vez, ainda apresenta uma diferença de mais de 7000 reais do terceiro maior valor.
As diferenças de valores significativas também são facilmente observáveis na região centro-oeste, através do gráfico. Os motivos para tamanha discrepância de valores podem ser variados e são difíceis de serem definidos apenas utilizando os dados disponíveis nesta pesquisa. É possível que estes profissionais que apresentaram salários tão superiores sejam mais qualificados, que ocupem cargos com remuneração mais elevada ou ainda que exista alguma informação falha na base de dados.
A descoberta do motivo real para a existência de um outlier pode definir se este é ou não é representativo para os dados e para o problema que se deseja investigar. No caso em questão, os outliers observados não apresentam nenhum tipo de padrão ou característica utilizável para a determinação do motivo de sua existência e, visto que estão muito distantes dos outros valores da série, é possível que não representem bem os dados. Entretanto, é aconselhável aos analistas que busquem mais informações sobre os outliers e, devido a natureza das questões que serão discutidas neste relatório, serão mostrados os comportamentos dos gráficos com os outliers.
Considerando que o valor de salário bruto máximo apresentado pela região nordeste é excessivamente alto em comparação com os outros valores observados, ele será retirado da análise.
library(dplyr)
##
## Attaching package: 'dplyr'
##
## The following object is masked from 'package:stats':
##
## filter
##
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
dados = read.csv("salarios-ti.csv")
salarios <- select(dados, Regiao, Cidade, UF, Salario.Bruto, Cargo, Formacao, Iniciativa.Privada.ou.Concursado, Experiencia.Profissional, Pos.Graduacao.ou.Certificacao, Horas.Diarias)
qplot(Regiao, Salario.Bruto, data = salarios, color=Regiao, size=Salario.Bruto, alpha = I(0.7), ylab = "Salário Bruto", xlab="Região", main="Distribuição de salários por região (original)")
salarios_filt <- filter(salarios, Salario.Bruto < 40000)
qplot(Regiao, Salario.Bruto, data = salarios_filt, color=Regiao, size=Salario.Bruto, alpha = I(0.7), ylab = "Salário Bruto", xlab="Região", main="Distribuição de salários por região (sem o max. do NE)")
Questão 1) Profissionais da Paraíba tendem a optar por trabalhar como concursados? O mesmo resultado se observa no nordeste?
Como é possivel verificar no gráfico abaixo, mais de 75% dos profissionais de TI na paraíba são concursados. Isso provavelmente ocorre por conta da diferença salarial entre os dois tipos de emprego e ao cenário privado pouco desenvolvido. A mediana salarial dos profissionais de iniciativa privada é inferior à 2500 reais, já a dos concursados ultrapassa 3500 reais.
profissionais_pb <- filter(salarios_filt, UF=="PB")
profissionais_pb_concursados <- select(filter(profissionais_pb, Iniciativa.Privada.ou.Concursado=="Concursado"), Regiao, Cidade, UF, Salario.Bruto, Cargo, Formacao)
profissionais_pb_privados <- select(filter(profissionais_pb, Iniciativa.Privada.ou.Concursado=="Iniciativa Privada"), Regiao, Cidade, UF, Salario.Bruto, Cargo, Formacao)
medianaConc = summarise(profissionais_pb_concursados, mediana = median(Salario.Bruto))
medianaPriv = summarise(profissionais_pb_privados, mediana = median(Salario.Bruto))
profissionais = data.frame(
qntdProfissionais = c(((length(profissionais_pb_concursados[[1]])/length(profissionais_pb[[1]]))*100),
((length(profissionais_pb_privados[[1]])/length(profissionais_pb[[1]])))*100),
tipo = c("Concursado", "Iniciativa Privada"),
medianaSalarial = c(medianaConc$mediana, medianaPriv$mediana)
)
qplot(tipo, weight=qntdProfissionais, data = profissionais, geom = "bar", ylab="%Profissionais", xlab="Tipo de Contrato", color=medianaSalarial, fill=medianaSalarial, main="Profissionais concursados e de iniciativa privada na PB")
salarios_filt <- filter(salarios, Salario.Bruto < 40000)
profissionais_ne <- filter(salarios_filt, Regiao=="Nordeste")
profissionais_ne_concursados <- select(filter(profissionais_ne, Iniciativa.Privada.ou.Concursado=="Concursado"), Regiao, Salario.Bruto)
profissionais_ne_privados <- select(filter(profissionais_ne, Iniciativa.Privada.ou.Concursado=="Iniciativa Privada"), Regiao, Salario.Bruto)
medianaConc = summarise(profissionais_ne_concursados, mediana = median(Salario.Bruto))
medianaPriv = summarise(profissionais_ne_privados, mediana = median(Salario.Bruto))
profissionais = data.frame(
qntdProfissionais = c(((length(profissionais_ne_concursados[[1]])/length(profissionais_ne[[1]]))*100),
((length(profissionais_ne_privados[[1]])/length(profissionais_ne[[1]])))*100),
tipo = c("Concursado", "Iniciativa Privada"),
medianaSalarial = c(medianaConc$mediana, medianaPriv$mediana)
)
qplot(tipo, weight=qntdProfissionais, data = profissionais, geom = "bar", ylab="%Profissionais", xlab="Tipo de Contrato", color=medianaSalarial, fill=medianaSalarial, main="Profissionais concursados e de iniciativa privada no NE")
No gráfico abaixo, pode-se observar que a mesma afirmativa não é verdadeira para o nordeste inteiro. Mesmo com a diferença salarial, os profissionais nordestinos tendem a optar por trabalhar para a iniciativa privada.
Questão 2) Profissionais com mais experiência ganham mais?
A partir do cálculo da correlação entre o salário bruto e os anos de experiência de cada profissional, e da análise do gráfico abaixo, é possível determinar a correlação como fraca (0,2582822). Isso significa que um profissional com mais experiência não necessariamente ganhará mais por isso.
cor(salarios_filt$Experiencia.Profissional, salarios_filt$Salario.Bruto)
## [1] 0.2582822
qplot(Experiencia.Profissional, Salario.Bruto, data = salarios_filt, color=Experiencia.Profissional, size=Experiencia.Profissional, alpha = I(0.7))
Questão 3)Profissionais com pós-graduação são mais bem remunerados em empresas estatais ou na iniciativa privada?
Como é possivel observar no gráfico de barras abaixo, a média salarial é maior para pós graduados concursados. Entretanto, como exposto no box plot abaixo, há uma maior desigualdade salarial entre os concursados do que entre funcionários da iniciativa privada.
profissionais_com_pos <- filter(salarios_filt, Pos.Graduacao.ou.Certificacao == TRUE)
pos_e_concursado <- filter(profissionais_com_pos, Iniciativa.Privada.ou.Concursado=="Concursado")
pos_e_privado <- filter(profissionais_com_pos, Iniciativa.Privada.ou.Concursado=="Iniciativa Privada")
mediaConc <- summarise(pos_e_concursado, media = mean(Salario.Bruto))
mediaPriv <- summarise(pos_e_privado, media = mean(Salario.Bruto))
profissionais = data.frame(
vetorMedias = c(mediaConc$media, mediaPriv$media),
vetorTipo = c("Concursado", "Iniciativa Privada")
)
qplot(vetorTipo, weight=vetorMedias, data = profissionais, geom = "bar", ylab="Média Salarial", xlab="Tipo de Emprego")
qplot(x= Iniciativa.Privada.ou.Concursado, y = Salario.Bruto, data= salarios_filt, geom=c("boxplot", "jitter"), color=Iniciativa.Privada.ou.Concursado, formula=max, xlab="Tipo de Emprego", ylab="Salário Bruto")
Questão 4) Profissionais da iniciativa privada têm uma carga horária maior?
A partir da análise dos gráficos a seguir, pode-se afirmar que os profissionais da iniciativa privada apresentam, em média, maior jornada de trabalho diária, em comparação com os profissionais concursados. Analisando a distribuição de horas diárias por tipo de emprego, no segundo gráfico abaixo, é possivel também observar que a iniciativa privada possui alguns casos de carga horária superior a 8 horas.
profissional_privado <- filter(salarios_filt, Iniciativa.Privada.ou.Concursado=="Iniciativa Privada")
profissional_concursado <- filter(salarios_filt, Iniciativa.Privada.ou.Concursado=="Concursado")
horas_priv <- summarise(profissional_privado, media = mean(Horas.Diarias))
horas_conc <- summarise(profissional_concursado, media = mean(Horas.Diarias))
profissionais = data.frame(
vetorMedias = c(horas_conc$media, horas_priv$media),
vetorTipo = c("Concursado", "Iniciativa Privada")
)
qplot(vetorTipo, weight=vetorMedias, data = profissionais, geom = "bar", ylab="Média de Horas Diárias", xlab="Tipo de Emprego")
qplot(x= Iniciativa.Privada.ou.Concursado, y = Horas.Diarias, data= dados, geom=c("boxplot", "jitter"), color=Iniciativa.Privada.ou.Concursado, formula=max, xlab="Tipo de Emprego", ylab="Horas Diarias")