Universidade Estadual da Paraíba - UEPB

Relatório 1 em R - Probabilidade e Estatística

Centro de Ciências e Tecnologia (CCT)

Departamento de Computação (DC)


Aluno: Alyssandro Dyogo Pereira Ramos


1 - Conhecendo a Base de Dados

Dados_Funcionarios

Base de dados de funcionários.


2 - Análise da Distribuição do Estado Civil entre os Funcionários

2.1 - Tabela de frequência absoluta:

freq_absoluta_estado_civil <- table(Dados_Funcionarios$Est.civil)
freq_relativa_estado_civil <- prop.table(freq_absoluta_estado_civil)

print(freq_absoluta_estado_civil)

  casado solteiro 
      20       16 

2.2 - Tabela de frequência relativa:

print(freq_relativa_estado_civil)

   casado  solteiro 
0.5555556 0.4444444 
par(mfrow = c(1,2))

barplot(freq_absoluta_estado_civil, 
        main = "Frequência Absoluta de Estado Civil",
        xlab = "Estado Civil",
        ylab = "Frequência",
        col = rainbow(length(freq_relativa_estado_civil)),
        las=1,
        border = "black")

pie(freq_relativa_estado_civil,
    main = "Distribuição do Estado Civil",
    las=1,
    col = rainbow(length(freq_relativa_estado_civil)))

par(mfrow = c(1,1))

Podemos observar uma disparidade mínima na distribuição dos estados com uma diferença de aproximadamente 0,6% entre eles.


3 - Análise da Distribuição do Grau de Instrução entre os Funcionários

3.1 - Tabela de frequência absoluta do grau de instrução dos funcionários:

freq_absoluta_grau_instrucao <- table(Dados_Funcionarios$Inst)
freq_relativa_grau_instrucao <- prop.table(freq_absoluta_grau_instrucao)

print(freq_absoluta_grau_instrucao)

 1o Grau  2o Grau Superior 
      12       18        6 


3.2 - Tabela de frequência relativa do grau de instrução dos funcionários:

print(freq_relativa_grau_instrucao)

  1o Grau   2o Grau  Superior 
0.3333333 0.5000000 0.1666667 
barplot(freq_absoluta_grau_instrucao,
        main = "Frequência Absoluta do Grau de Instrução de Funcionários",
        xlab = "Grau de Instrucao",
        ylab = "Frequência",
        col = (rainbow(length(freq_relativa_grau_instrucao))),
        border = "black",
        las=1)

pie(freq_relativa_grau_instrucao,
    main = "Distribuição do Grau de instrução de Funcionários",
    las=2,
    col = (rainbow(length(freq_relativa_grau_instrucao))))

Podemos observar que metado dos funcionários possuem formação até o 2°grau e a minoria, compondo apenas pouco mais de 16%, tem nível superior.


4 - Análise da Quantidade de Filhos dos Funcionários

4.1 - Tabela de Frequência Absoluta do Número de Filhos:

freq_absoluta_num_filhos <- table(Dados_Funcionarios$Filhos)
print(freq_absoluta_num_filhos)

0 1 2 3 5 
4 5 7 3 1 

4.2 - Tabela de Frequência Relativa do Número de Filhos:

freq_relativa_num_filhos <- prop.table(freq_absoluta_num_filhos)
print(freq_relativa_num_filhos)

   0    1    2    3    5 
0.20 0.25 0.35 0.15 0.05 

4.3 - Tabela de Frequência Relativa Acumulada do Número de Filhos:

freq_absoluta_acumulada_num_filhos <- cumsum(freq_absoluta_num_filhos)
print(freq_absoluta_acumulada_num_filhos)
 0  1  2  3  5 
 4  9 16 19 20 


4.4 - Gráfico de Frequências Relativas do Número de Filhos

barplot(freq_relativa_num_filhos,
        main = "Frequência Relativa do Número de Filhos de Funcionários",
        xlab = "Número de Filhos",
        ylab = "Proporção",
        col = (rainbow(length(freq_relativa_num_filhos))),
        border = "black",
        ylim = c(0, 1),
        las=1)


barplot(cumsum(freq_relativa_num_filhos),
        main = "Frequência Relativa Acumulada do Número de Filhos de Funcionários",
        xlab = "Número de Filhos",
        ylab = "Proporção Acumulada do Número de Filhos",
        col = (rainbow(length(freq_relativa_num_filhos))),
        border = "black",
        ylim = c(0, 1),
        las=1)

Podemos observar que 80% dos funcionários possuem 2 filhos ou menos e apenas 20% possuem 3 ou 5 filhos. Devemos observar ainda que 16 dos funcionários não possuem informações quanto ao número de filhos, ou seja, a margem de análise foi de apenas 20 dos 36 funcionários.


5 - Análise Sobre o Salário dos Funcionários

5.1 - Valor Máximo de salário Dentre os Funcionários (x1000 R$):

valor_maximo_salario <- max(Dados_Funcionarios$Salario) 
print(valor_maximo_salario)
[1] 23.3

5.2 - Valor Mínimo de Salário Dentre os Funcionários (x1000 R$):

valor_minimo_salario <- min(Dados_Funcionarios$Salario) 
print(valor_minimo_salario)
[1] 4

5.3 - Quantidade Ideal de Classes para Tabela de Frequência - Regra de Stuges:

total_salarios <- length(Dados_Funcionarios$Salario) 
K <- round(1 + (3.3 * log10(total_salarios))) 
print(K)
[1] 6

5.4 - Histograma do Salário de Funcionários:

hist(Dados_Funcionarios$Salario, 
  breaks = K, 
  main = "Histograma Do Salário de Funcionários", 
  xlab = "Salário", 
  ylab = "Frequência", 
  col = "lightblue", 
  border = "black", 
  ylim = c(0, 20), 
  las=1) 

5.5 - Medidas Estatísticas do Salário:

media_salario <- mean(Dados_Funcionarios$Salario) 
variancia_salario <- var(Dados_Funcionarios$Salario) 
desvio_padrao_salario <- sd(Dados_Funcionarios$Salario) 
mediana_salario <- median(Dados_Funcionarios$Salario) 
quantis_salario <- quantile(Dados_Funcionarios$Salario, probs = c(0.25, 0.5, 0.75))
print(paste("Média do Salário(x1000 R$):", round(media_salario, 2)))
[1] "Média do Salário(x1000 R$): 11.12"
print(paste("Variância do Salário(x1000 R$):", round(variancia_salario, 2)))
[1] "Variância do Salário(x1000 R$): 21.04"
print(paste("Desvio Padrão do Salário(x1000 R$):", round(desvio_padrao_salario, 2)))
[1] "Desvio Padrão do Salário(x1000 R$): 4.59"
print(paste("Mediana do Salário(x1000 R$):", round(mediana_salario, 2)))
[1] "Mediana do Salário(x1000 R$): 10.16"
print(paste("Quantis do Salário (25%):", quantis_salario[1]))
[1] "Quantis do Salário (25%): 7.5525"
print(paste("Quantis do Salário (50%):", quantis_salario[2]))
[1] "Quantis do Salário (50%): 10.165"
print(paste("Quantis do Salário (75%):", quantis_salario[3]))
[1] "Quantis do Salário (75%): 14.06"

A distribuição salarial dos funcionários apresenta uma leve tendência à direita, com a média de R$11,12 mil maior que a mediana de R$10,165 mil, indicando a influência de salários mais altos que levam a uma elevação. A maioria dos salários se concentra entre R$7,55 mil e R$14,06 mil, com um desvio padrão de 4,59, refletindo uma dispersão moderada. O histograma confirma essa distribuição, mostrando um pico entre R$5 mil e R$15 mil, com poucos valores extremos à direita e à esquerda do histograma.


6 - Análise da Relação entre o Estado Civil dos Funcionários e seu Grau de Instrução

6.1 -Tabela de Contingência Relacionando o Estado Civil e o Grau de Instrução:

tabela_contigencia_estadoCivil_grauInstrucao <- table(Dados_Funcionarios$Est.civil,
                                                      Dados_Funcionarios$Inst)
print(tabela_contigencia_estadoCivil_grauInstrucao)
          
           1o Grau 2o Grau Superior
  casado         5      12        3
  solteiro       7       6        3

Podemos observar uma disparidade relevante entre os funcionários de formação até 2° grau onde o dobro deles é casado. Contudo, nas demais, essa disparidade não se apresenta, nos de 1°grau temos uma diferença de apenas 1 entre os casados e solteiros. Nos de formação superior sequer há diferência. Talvez isso possa sugerir uma relação entre a idade dos funcionários com seu grau de instrução, contudo apenas com base nesses dados não há resultados conclusivos.

6.2 - Gráfico de Relação entre Estado Civil e Grau de Instrução:

cores <- rainbow(nrow(tabela_contigencia_estadoCivil_grauInstrucao))

barplot(tabela_contigencia_estadoCivil_grauInstrucao,
        beside = FALSE,
        main = "Gráfico de Cruzamento do Estado Civil e Grau de Instrução Sobrepostos",
        xlab = "Grau de Instrução",
        ylab = "Frequência",
        ylim = c(0, 20),
        col = cores,
        las=1)

legend("topright",
       legend = rownames(tabela_contigencia_estadoCivil_grauInstrucao),
       fill = cores,
       title = "Estado Civil")


barplot(tabela_contigencia_estadoCivil_grauInstrucao,
        beside = TRUE,
        main = "Gráfico de Cruzamento do Estado Civil e Grau de Instrução Lado a Lado",
        xlab = "Grau de Instrução",
        ylab = "Frequência",
        ylim = c(0, 20),
        col = cores,
        las=1)

legend("topright",
       legend = rownames(tabela_contigencia_estadoCivil_grauInstrucao),
       fill = cores,
       title = "Estado Civil")

Os gráficos apenas seguem a reforçar a análise anterior. Pode haver uma relação, contudo sem resultados conclusivos dada a quantidade de dados.


7 - Análise de Relação entre Grau de Instrução e Salário dos Funcionários

7.1 - Boxplot para Verificação de Relação entre as Variáveis:

boxplot(Dados_Funcionarios$Salario ~ Dados_Funcionarios$Inst,
        main = "Distribuição Salarial por Grau de Instrução",
        xlab = "Grau de Instrução",
        ylab = "Salário",
        col = "lightblue",
        notch = FALSE,
        las=1)

O boxplot evidencia uma relação clara entre o grau de instrução dos funcionários com seus respectivos salários. Podemos observar que para cada grau de instrução, mesmo o menor valor desse, sempre acaba por ser aproximo do valor máximo de salário do grau de instrução mais baixo que o antecede, além do que os funcionários de nível superior se destacam com os salários mais altos, enquanto que os de 2°grau ficam com uma faixa mais próxima ao meio e os de 1° grau com os mais baixos, sequer chegando aos R$10 mil que é menos que a média dos de 2° grau.

7.2 - Medidas estatísticas dos Salários para cada Grau de Instrução:

media_salaria_por_grau_instrucao <- tapply(Dados_Funcionarios$Salario, Dados_Funcionarios$Inst, mean, na.rm=TRUE) 
desvio_padrao_por_grau_instrucao <- tapply(Dados_Funcionarios$Salario, Dados_Funcionarios$Inst, sd, na.rm=TRUE) 
var_salario_por_grau_instrucao <- tapply(Dados_Funcionarios$Salario, Dados_Funcionarios$Inst, var, na.rm=TRUE) 
medianas_salario_por_grau_instrucao <- tapply(Dados_Funcionarios$Salario, Dados_Funcionarios$Inst, median, na.rm=TRUE)
quartis_salario_por_grau_instrucao <- tapply(Dados_Funcionarios$Salario, Dados_Funcionarios$Inst, quantile, probs = c(0, 0.25, 0.5, 0.75, 1), na.rm=TRUE)

graus_instrucao <- c("1° Grau", "2° Grau", "Superior")

cat("\nMédia Salarial por Grau de Instrução:\n")

Média Salarial por Grau de Instrução:
for (i in seq_along(graus_instrucao)) {
  cat(sprintf("%s: %.2f\n", graus_instrucao[i], media_salaria_por_grau_instrucao[i]))
}
1° Grau: 7.84
2° Grau: 11.53
Superior: 16.48
cat("\nVariância Salarial por Grau de Instrução:\n")

Variância Salarial por Grau de Instrução:
for (i in seq_along(graus_instrucao)) {
  cat(sprintf("%s: %.2f\n", graus_instrucao[i], var_salario_por_grau_instrucao[i]))
}
1° Grau: 8.74
2° Grau: 13.80
Superior: 20.27
cat("\nDesvio Padrão Salarial por Grau de Instrução:\n")

Desvio Padrão Salarial por Grau de Instrução:
for (i in seq_along(graus_instrucao)) {
  cat(sprintf("%s: %.2f\n", graus_instrucao[i], desvio_padrao_por_grau_instrucao[i]))
}
1° Grau: 2.96
2° Grau: 3.72
Superior: 4.50
cat("\nMediana Salarial por Grau de Instrução:\n")

Mediana Salarial por Grau de Instrução:
for (i in seq_along(graus_instrucao)) {
  cat(sprintf("%s: %.2f\n", graus_instrucao[i], medianas_salario_por_grau_instrucao[i]))
}
1° Grau: 7.12
2° Grau: 10.91
Superior: 16.74
cat("\nQuartis Salarial por Grau de Instrução:\n")

Quartis Salarial por Grau de Instrução:
for (i in seq_along(graus_instrucao)) {
  quartis <- quartis_salario_por_grau_instrucao[[i]]  # Extrai o vetor de quartis
  cat(sprintf(
    "%s:\n  Mínimo: %.2f\n  1º Quartil (Q1): %.2f\n  Mediana (Q2): %.2f\n  3º Quartil (Q3): %.2f\n  Máximo: %.2f\n\n", 
    graus_instrucao[i], quartis[1], quartis[2], quartis[3], quartis[4], quartis[5]
  ))
}
1° Grau:
  Mínimo: 4.00
  1º Quartil (Q1): 6.01
  Mediana (Q2): 7.12
  3º Quartil (Q3): 9.16
  Máximo: 13.85

2° Grau:
  Mínimo: 5.73
  1º Quartil (Q1): 8.84
  Mediana (Q2): 10.91
  3º Quartil (Q3): 14.42
  Máximo: 19.40

Superior:
  Mínimo: 10.53
  1º Quartil (Q1): 13.65
  Mediana (Q2): 16.74
  3º Quartil (Q3): 18.38
  Máximo: 23.30

Podemos observar mais claramente os resultados analisados no boxplot, agora com a média salarial para cada grau de instrução. Temos uma diferença de mais de R$3 mil entre as médias salariais dos funcionários de grau de instrução até o 1° grau e os de 2° grau. Já entre os de 2° grau e superior, a diferença é ainda maior, chegando a quase R$5 mil.

Além disso, os valores salariais se tornam menos homogêneos à medida que o grau de instrução aumenta. O desvio padrão dos salários é maior para os funcionários com ensino superior (R$4,50 mil) em comparação aos de ensino médio R$3,72 mil e fundamental R$2,96 mil, indicando que os salários nesse grupo variam mais.

Ao analisar os quartis salariais, fica evidente que a maioria dos funcionários com ensino superior ganha mais do que aqueles com escolaridade inferior. O primeiro quartil Q1 do ensino superior já está acima do terceiro quartil Q3 do ensino fundamental, o que significa que 75% dos funcionários com ensino superior ganham mais do que 75% dos funcionários com ensino fundamental. Isso mostra uma desigualdade significativa e reforça o impacto do grau de instrução nos salários.

Por fim, a maior dispersão salarial entre os funcionários com ensino superior pode indicar que fatores como experiência profissional, área de atuação e cargos ocupados desempenham um papel fundamental na definição da remuneração dentro desse grupo.


8 - Calculando a Idade a Partir das variaveis Anos e Meses

8.1 - Anos+Meses/12:

Dados_Funcionarios$Idade <- Dados_Funcionarios$Anos+(Dados_Funcionarios$Meses/12) 
Dados_Funcionarios

9 - Análise da Relação entre as Variáveis Idade e Salário

9.1 - Gráfico de relação entre as variáveis:

plot(Dados_Funcionarios$Salario ~ Dados_Funcionarios$Idade,
        main = "Relação entre Salário e Idade",
        xlab = "Idade",
        ylab = "Salário",
        col="blue",
        las=1)

A partir dos pontos apresentados no gráfico, não parece haver uma relação direta entre a idade de um funcionário e seu salário uma vez que vemos pontos muito espalhados e sem um crescimento linear direto. O máximo que podemos observar é que os dois maiores salários se encontram em posso de funcionários na faixa de 40 a 50 anos.

valor de Correlação entre as Variáveis Idade e salário:

correlacao <- cor(Dados_Funcionarios$Idade, Dados_Funcionarios$Salario, use = "complete.obs")
print(correlacao)
[1] 0.3651397

Temos mais nitidamente, agora com um valor numérico, a evidência de que não há uma correlação forte entre essas duas variáveis, evidenciando assim o afirmado acima. Uma valor de 36% de relação mostra que pode até haver uma relação em determinados pontos, mas que é fraca e sem grande embasamento.

