1 Introdução

Utilizando os dados dos ingressantes em 2017 na graduação da Ufersa, por sexo, foi construída a figura abaixo. Foram incluídos na amostra apenas os alunos com situação ATIVA, o que exclui trancamentos, cancelamentos e outros casos. Nela, cada círculo representa um curso de graduação da Ufersa. No eixo x consta o número de alunos do sexo masculino na amostra, enquanto no eixo y temos a quantidade de alunas na amostra. Para cada curso, foi computada a diferença da média de alunos e alunas. O raio do círculo é proporcional a esta diferença. Quanto maior o círculo, maior a diferença de IRA médio entre os sexos. Ainda, a cor da circunferência determina qual sexo possui maior IRA médio. Vermelho para mulheres e cinza para homens.

1.1 Gráfico

1.2 R

library(plotly)
library(readxl)
library(dplyr)
library(xtable)
library(kableExtra)

ingressantes2017nota_M <- read.csv("./data/consulta_geral_discente (2).csv",
                                   header = TRUE, sep=";", colClasses = c("character"))

ingressantes2017nota_F <- read.csv("./data/consulta_geral_discente (3).csv",
                                   header = TRUE, sep=";", colClasses = c("character"))

ingressantes2017nota_M <- filter(ingressantes2017nota_M,
                                 startsWith(ingressantes2017nota_M$matricula, '2017') &
                                   ingressantes2017nota_M$status == 'ATIVO')
ingressantes2017nota_F <- filter(ingressantes2017nota_F,
                                 startsWith(ingressantes2017nota_F$matricula, '2017') &
                                   ingressantes2017nota_F$status == 'ATIVO')

# Notas médias dos cursos masculino

nota_M = ingressantes2017nota_M %>% group_by(curso)
nota_M$ira <- as.numeric(nota_M$ira)
nota_M$iea <- as.numeric(nota_M$iea)

nota_M = nota_M %>% summarise(avg_M = mean(ira))
nota_M = nota_M[complete.cases(nota_M), ]

# Notas médias dos cursos feminino

nota_F = ingressantes2017nota_F %>% group_by(curso)
nota_F$ira <- as.numeric(nota_F$ira)
nota_F$iea <- as.numeric(nota_F$iea)

nota_F = nota_F %>% summarise(avg_F = mean(ira))
nota_F = nota_F[complete.cases(nota_F), ]

# Numero de homens por curso
n_M <- ingressantes2017nota_M %>% group_by(curso) %>% count()
M_nota_numero = inner_join(nota_M, n_M, by="curso")

# Numero de mulheres por curso
n_F <- ingressantes2017nota_F %>% group_by(curso) %>% count()
F_nota_numero = inner_join(nota_F, n_F, by="curso")  

data = inner_join(F_nota_numero, M_nota_numero, by="curso")

data = data %>% mutate(diff = abs(data$avg_M-data$avg_F), 
                       indicador = ifelse(avg_F > avg_M, 1, 0))

# Plotando o gráfico

f <- list(
  family = "Times New Roman",
  size = 24,
  color = "#7f7f7f"
)

x <- list(
  title = "Masculino",
  titlefont = f,
  showgrid = FALSE
)
y <- list(
  title = "Feminino",
  titlefont = f,
  showgrid = FALSE
)

#Use the ideal sizeref value
desired_maximum_marker_size <- 30
your_list_of_size_values <- data['diff']
sizeref <- 2.0 * max(your_list_of_size_values)/(desired_maximum_marker_size**2)

p <- plot_ly(data, x = ~n.y , y = ~n.x, 
             text = ~paste("Curso: ", curso, "Diferença: ", round(diff, 3)), 
             type = 'scatter', mode = 'markers',
             marker = list(size = ~2*diff, opacity = 0.5, 
                           color = ~indicador, sizemode = 'area', 
                           sizeref = sizeref)) %>%
  layout(title = 'Ufersa - Diferença de notas entre homens e mulheres por curso',
         xaxis = x,yaxis = y)

2 Teste t de Student

O Teste t de Student tem como suposição de que a estatística de teste, sob \(H_0\) tem distribuição Normal. Para amostras grandes, podemos utilizar o teorema central do limite. Portanto, utilizamos este teste para comparar a média das duas amostras (masculino e feminino). Assim, vamos testar a hipótese nula de que as médias dos grupos são iguais.

\[H_0: \mu_m = \mu_f\]

A Tabela abaixo apresenta o valor-p do teste para os dados em que o tamanho da amostra nos dois grupos é maior que 25. Para o nível de significância \(\alpha = 0.1\), temos evidência para rejeitar \(H_0\) em um cursos, Interdisciplinar em Ciência e Tecnologia. Neles, a nota feminina é maior que a masculina. Na Tabela abaixo estão destacados em vermelho os p-valores significativos para o teste.

	Media_Homens	N_Homens	Media_Mulheres	N_Mulheres	Valor_p
ADMINISTRAÇÃO	36.118	32	46.563	21	0.224
ARQUITETURA E URBANISMO	68.775	28	64.689	25	0.58
ENGENHARIA CIVIL	69.973	103	71.628	30	0.748
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA	41.401	427	55.842	66	0
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA.	42.412	324	44.69	34	0.672
MEDICINA VETERINÁRIA	53.608	20	59.765	20	0.476

3 Teste de Mann-Whitney

Nos casos em que o tamanho das amostras é pequeno e não sabemos se elas são oriundas de uma distribuição Normal, o teste t de Student não é aplicável. Utilizaremos, portanto, o teste não-paramétrico de Mann-Whitney, cuja hipótese nula é de que é igualmente provável que um valor aleatoriamente selecionado de uma amostra A será menor ou maior do que um valor aleatoriamente retirado de uma amostra B. Estamos interessados em testar se uma das distribuições tende a ter valores maiores do que outra, ou ainda, se elas possuem a mesma mediana.

Este teste apresenta uma vantagem em relação ao teste t, a saber, ele é baseado no rank dos dados, o que reduz a influência de outliers na amostra. A sua estatística de teste possui uma distribuição exata para amostras pequenas, mas também pode ser aproximada pela distribuição Normal, no caso de amostras grandes. Seguem os resultados para testar a hipótese de que a distribuição do IRA masculino apresenta locação igual à distribuição do IRA feminino. O único caso em que a hipótese de igualdade nas medianas das distribuições foi rejeitada ao nível de \(\alpha = 0.1\) ocorreu no curso de Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, em que as mulheres apresentam melhor desempenho.

	Mediana_Homens	N_Homens	Mediana_Mulheres	N_Mulheres	Valor_p
ADMINISTRAÇÃO	32.889	32	60.429	21	0.29
AGRONOMIA	53.831	59	65.463	15	0.581
ARQUITETURA E URBANISMO	78.625	28	74.972	25	0.695
BIOTECNOLOGIA	60.862	22	59.836	9	0.983
CIÊNCIAS CONTÁBEIS	39.333	45	52.222	12	0.282
COMPUTAÇÃO E INFORMÁTICA	64.027	15	58.282	8	0.975
DIREITO	85.465	52	93.94	10	0.001
ENGENHARIA CIVIL	74.789	103	79.087	30	0.012
ENGENHARIA DE PESCA	46.541	21	46.209	9	0.894
ENGENHARIA DE PRODUÇÃO	72.188	32	72.088	16	0.905
ENGENHARIA MECÂNICA	72.986	56	71.012	9	0.163
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA	45.818	427	63.543	66	0
INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA.	47.314	324	48.631	34	0.583
INTERDISCIPLINAR EM TECNOLOGIA DA INFORMAÇÃO	41.216	78	51.552	9	0.376
LETRAS / LIBRAS	73.203	10	82.839	15	0.129
LETRAS/PORTUGUÊS	82.164	11	79.974	23	0.717
MEDICINA	82.57	20	84.188	13	0.573
MEDICINA VETERINÁRIA	64.716	20	71.225	20	0.718
PEDAGOGIA	76.596	8	78.32	30	0.686
ZOOTECNIA	34.17	18	48.784	11	0.146

4 Conclusão

Vemos que, nos 19 cursos em que o tamanho da amostra permitiu a utilização de testes de hipóteses, houve diferença estatisticamente significativa em 3 cursos: Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, ao nível \(\alpha = 0.1\).

Nos outros casos, não há evidência significativa de que os desempenhos de homens e mulheres matriculados ativos em 2017, avaliados pelo IRA, apresentam diferença. O estudo poderá ser mais abrangente com a chegada de dados mais robustos. Cursos como as Engenharias da Computação, de Petróleo e Ambiental possuem pouquíssimos alunos presentes nestes dados. Além disso, há cursos que apresentam, dentro desta amostra, grande diferença entre o número de matriculados ativos do sexo masculino e feminino: Ciência da Computação, Sistemas de Informação, Engenharia Elétrica, Interdisciplinar em Tecnologia da Informação. Outros cursos

Desenvolvido por Kássio Camelo

kassio.silva@ufersa.edu.br

Comparação de Índice de Rendimento Acadêmico Médio entre alunos da Ufersa por sexo