1 Introdução

Utilizando os dados dos ingressantes em 2017 na graduação da Ufersa, por sexo, foi construída a figura abaixo. Foram incluídos na amostra apenas os alunos com situação ATIVA, o que exclui trancamentos, cancelamentos e outros casos. Nela, cada círculo representa um curso de graduação da Ufersa. No eixo x consta o número de alunos do sexo masculino na amostra, enquanto no eixo y temos a quantidade de alunas na amostra. Para cada curso, foi computada a diferença da média de alunos e alunas. O raio do círculo é proporcional a esta diferença. Quanto maior o círculo, maior a diferença de IRA médio entre os sexos. Ainda, a cor da circunferência determina qual sexo possui maior IRA médio. Vermelho para mulheres e cinza para homens.

1.1 Gráfico

1.2 R

library(plotly)
library(readxl)
library(dplyr)
library(xtable)
library(kableExtra)

ingressantes2017nota_M <- read.csv("./data/consulta_geral_discente (2).csv",
                                   header = TRUE, sep=";", colClasses = c("character"))

ingressantes2017nota_F <- read.csv("./data/consulta_geral_discente (3).csv",
                                   header = TRUE, sep=";", colClasses = c("character"))

ingressantes2017nota_M <- filter(ingressantes2017nota_M,
                                 startsWith(ingressantes2017nota_M$matricula, '2017') &
                                   ingressantes2017nota_M$status == 'ATIVO')
ingressantes2017nota_F <- filter(ingressantes2017nota_F,
                                 startsWith(ingressantes2017nota_F$matricula, '2017') &
                                   ingressantes2017nota_F$status == 'ATIVO')

# Notas médias dos cursos masculino

nota_M = ingressantes2017nota_M %>% group_by(curso)
nota_M$ira <- as.numeric(nota_M$ira)
nota_M$iea <- as.numeric(nota_M$iea)

nota_M = nota_M %>% summarise(avg_M = mean(ira))
nota_M = nota_M[complete.cases(nota_M), ]

# Notas médias dos cursos feminino

nota_F = ingressantes2017nota_F %>% group_by(curso)
nota_F$ira <- as.numeric(nota_F$ira)
nota_F$iea <- as.numeric(nota_F$iea)

nota_F = nota_F %>% summarise(avg_F = mean(ira))
nota_F = nota_F[complete.cases(nota_F), ]

# Numero de homens por curso
n_M <- ingressantes2017nota_M %>% group_by(curso) %>% count()
M_nota_numero = inner_join(nota_M, n_M, by="curso")

# Numero de mulheres por curso
n_F <- ingressantes2017nota_F %>% group_by(curso) %>% count()
F_nota_numero = inner_join(nota_F, n_F, by="curso")  

data = inner_join(F_nota_numero, M_nota_numero, by="curso")

data = data %>% mutate(diff = abs(data$avg_M-data$avg_F), 
                       indicador = ifelse(avg_F > avg_M, 1, 0))

# Plotando o gráfico

f <- list(
  family = "Times New Roman",
  size = 24,
  color = "#7f7f7f"
)

x <- list(
  title = "Masculino",
  titlefont = f,
  showgrid = FALSE
)
y <- list(
  title = "Feminino",
  titlefont = f,
  showgrid = FALSE
)

#Use the ideal sizeref value
desired_maximum_marker_size <- 30
your_list_of_size_values <- data['diff']
sizeref <- 2.0 * max(your_list_of_size_values)/(desired_maximum_marker_size**2)

p <- plot_ly(data, x = ~n.y , y = ~n.x, 
             text = ~paste("Curso: ", curso, "Diferença: ", round(diff, 3)), 
             type = 'scatter', mode = 'markers',
             marker = list(size = ~2*diff, opacity = 0.5, 
                           color = ~indicador, sizemode = 'area', 
                           sizeref = sizeref)) %>%
  layout(title = 'Ufersa - Diferença de notas entre homens e mulheres por curso',
         xaxis = x,yaxis = y)

2 Teste t de Student

O Teste t de Student tem como suposição de que a estatística de teste, sob \(H_0\) tem distribuição Normal. Para amostras grandes, podemos utilizar o teorema central do limite. Portanto, utilizamos este teste para comparar a média das duas amostras (masculino e feminino). Assim, vamos testar a hipótese nula de que as médias dos grupos são iguais.

\[H_0: \mu_m = \mu_f\]

A Tabela abaixo apresenta o valor-p do teste para os dados em que o tamanho da amostra nos dois grupos é maior que 25. Para o nível de significância \(\alpha = 0.1\), temos evidência para rejeitar \(H_0\) em um cursos, Interdisciplinar em Ciência e Tecnologia. Neles, a nota feminina é maior que a masculina. Na Tabela abaixo estão destacados em vermelho os p-valores significativos para o teste.

Media_Homens N_Homens Media_Mulheres N_Mulheres Valor_p
ADMINISTRAÇÃO 36.118 32 46.563 21 0.224
ARQUITETURA E URBANISMO 68.775 28 64.689 25 0.58
ENGENHARIA CIVIL 69.973 103 71.628 30 0.748
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA 41.401 427 55.842 66 0
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA. 42.412 324 44.69 34 0.672
MEDICINA VETERINÁRIA 53.608 20 59.765 20 0.476

3 Teste de Mann-Whitney

Nos casos em que o tamanho das amostras é pequeno e não sabemos se elas são oriundas de uma distribuição Normal, o teste t de Student não é aplicável. Utilizaremos, portanto, o teste não-paramétrico de Mann-Whitney, cuja hipótese nula é de que é igualmente provável que um valor aleatoriamente selecionado de uma amostra A será menor ou maior do que um valor aleatoriamente retirado de uma amostra B. Estamos interessados em testar se uma das distribuições tende a ter valores maiores do que outra, ou ainda, se elas possuem a mesma mediana.

Este teste apresenta uma vantagem em relação ao teste t, a saber, ele é baseado no rank dos dados, o que reduz a influência de outliers na amostra. A sua estatística de teste possui uma distribuição exata para amostras pequenas, mas também pode ser aproximada pela distribuição Normal, no caso de amostras grandes. Seguem os resultados para testar a hipótese de que a distribuição do IRA masculino apresenta locação igual à distribuição do IRA feminino. O único caso em que a hipótese de igualdade nas medianas das distribuições foi rejeitada ao nível de \(\alpha = 0.1\) ocorreu no curso de Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, em que as mulheres apresentam melhor desempenho.

Mediana_Homens N_Homens Mediana_Mulheres N_Mulheres Valor_p
ADMINISTRAÇÃO 32.889 32 60.429 21 0.29
AGRONOMIA 53.831 59 65.463 15 0.581
ARQUITETURA E URBANISMO 78.625 28 74.972 25 0.695
BIOTECNOLOGIA 60.862 22 59.836 9 0.983
CIÊNCIAS CONTÁBEIS 39.333 45 52.222 12 0.282
COMPUTAÇÃO E INFORMÁTICA 64.027 15 58.282 8 0.975
DIREITO 85.465 52 93.94 10 0.001
ENGENHARIA CIVIL 74.789 103 79.087 30 0.012
ENGENHARIA DE PESCA 46.541 21 46.209 9 0.894
ENGENHARIA DE PRODUÇÃO 72.188 32 72.088 16 0.905
ENGENHARIA MECÂNICA 72.986 56 71.012 9 0.163
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA 45.818 427 63.543 66 0
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA. 47.314 324 48.631 34 0.583
INTERDISCIPLINAR EM TECNOLOGIA DA INFORMAÇÃO 41.216 78 51.552 9 0.376
LETRAS / LIBRAS 73.203 10 82.839 15 0.129
LETRAS/PORTUGUÊS 82.164 11 79.974 23 0.717
MEDICINA 82.57 20 84.188 13 0.573
MEDICINA VETERINÁRIA 64.716 20 71.225 20 0.718
PEDAGOGIA 76.596 8 78.32 30 0.686
ZOOTECNIA 34.17 18 48.784 11 0.146

4 Conclusão

Vemos que, nos 19 cursos em que o tamanho da amostra permitiu a utilização de testes de hipóteses, houve diferença estatisticamente significativa em 3 cursos: Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, ao nível \(\alpha = 0.1\).

Nos outros casos, não há evidência significativa de que os desempenhos de homens e mulheres matriculados ativos em 2017, avaliados pelo IRA, apresentam diferença. O estudo poderá ser mais abrangente com a chegada de dados mais robustos. Cursos como as Engenharias da Computação, de Petróleo e Ambiental possuem pouquíssimos alunos presentes nestes dados. Além disso, há cursos que apresentam, dentro desta amostra, grande diferença entre o número de matriculados ativos do sexo masculino e feminino: Ciência da Computação, Sistemas de Informação, Engenharia Elétrica, Interdisciplinar em Tecnologia da Informação. Outros cursos

 

Desenvolvido por Kássio Camelo

kassio.silva@ufersa.edu.br