Utilizando os dados dos ingressantes em 2017 na graduação da Ufersa, por sexo, foi construída a figura abaixo. Foram incluídos na amostra apenas os alunos com situação ATIVA, o que exclui trancamentos, cancelamentos e outros casos. Nela, cada círculo representa um curso de graduação da Ufersa. No eixo x consta o número de alunos do sexo masculino na amostra, enquanto no eixo y temos a quantidade de alunas na amostra. Para cada curso, foi computada a diferença da média de alunos e alunas. O raio do círculo é proporcional a esta diferença. Quanto maior o círculo, maior a diferença de IRA médio entre os sexos. Ainda, a cor da circunferência determina qual sexo possui maior IRA médio. Vermelho para mulheres e cinza para homens.
library(plotly)
library(readxl)
library(dplyr)
library(xtable)
library(kableExtra)
ingressantes2017nota_M <- read.csv("./data/consulta_geral_discente (2).csv",
header = TRUE, sep=";", colClasses = c("character"))
ingressantes2017nota_F <- read.csv("./data/consulta_geral_discente (3).csv",
header = TRUE, sep=";", colClasses = c("character"))
ingressantes2017nota_M <- filter(ingressantes2017nota_M,
startsWith(ingressantes2017nota_M$matricula, '2017') &
ingressantes2017nota_M$status == 'ATIVO')
ingressantes2017nota_F <- filter(ingressantes2017nota_F,
startsWith(ingressantes2017nota_F$matricula, '2017') &
ingressantes2017nota_F$status == 'ATIVO')
# Notas médias dos cursos masculino
nota_M = ingressantes2017nota_M %>% group_by(curso)
nota_M$ira <- as.numeric(nota_M$ira)
nota_M$iea <- as.numeric(nota_M$iea)
nota_M = nota_M %>% summarise(avg_M = mean(ira))
nota_M = nota_M[complete.cases(nota_M), ]
# Notas médias dos cursos feminino
nota_F = ingressantes2017nota_F %>% group_by(curso)
nota_F$ira <- as.numeric(nota_F$ira)
nota_F$iea <- as.numeric(nota_F$iea)
nota_F = nota_F %>% summarise(avg_F = mean(ira))
nota_F = nota_F[complete.cases(nota_F), ]
# Numero de homens por curso
n_M <- ingressantes2017nota_M %>% group_by(curso) %>% count()
M_nota_numero = inner_join(nota_M, n_M, by="curso")
# Numero de mulheres por curso
n_F <- ingressantes2017nota_F %>% group_by(curso) %>% count()
F_nota_numero = inner_join(nota_F, n_F, by="curso")
data = inner_join(F_nota_numero, M_nota_numero, by="curso")
data = data %>% mutate(diff = abs(data$avg_M-data$avg_F),
indicador = ifelse(avg_F > avg_M, 1, 0))
# Plotando o gráfico
f <- list(
family = "Times New Roman",
size = 24,
color = "#7f7f7f"
)
x <- list(
title = "Masculino",
titlefont = f,
showgrid = FALSE
)
y <- list(
title = "Feminino",
titlefont = f,
showgrid = FALSE
)
#Use the ideal sizeref value
desired_maximum_marker_size <- 30
your_list_of_size_values <- data['diff']
sizeref <- 2.0 * max(your_list_of_size_values)/(desired_maximum_marker_size**2)
p <- plot_ly(data, x = ~n.y , y = ~n.x,
text = ~paste("Curso: ", curso, "Diferença: ", round(diff, 3)),
type = 'scatter', mode = 'markers',
marker = list(size = ~2*diff, opacity = 0.5,
color = ~indicador, sizemode = 'area',
sizeref = sizeref)) %>%
layout(title = 'Ufersa - Diferença de notas entre homens e mulheres por curso',
xaxis = x,yaxis = y)O Teste t de Student tem como suposição de que a estatística de teste, sob \(H_0\) tem distribuição Normal. Para amostras grandes, podemos utilizar o teorema central do limite. Portanto, utilizamos este teste para comparar a média das duas amostras (masculino e feminino). Assim, vamos testar a hipótese nula de que as médias dos grupos são iguais.
\[H_0: \mu_m = \mu_f\]
A Tabela abaixo apresenta o valor-p do teste para os dados em que o tamanho da amostra nos dois grupos é maior que 25. Para o nível de significância \(\alpha = 0.1\), temos evidência para rejeitar \(H_0\) em um cursos, Interdisciplinar em Ciência e Tecnologia. Neles, a nota feminina é maior que a masculina. Na Tabela abaixo estão destacados em vermelho os p-valores significativos para o teste.
| Media_Homens | N_Homens | Media_Mulheres | N_Mulheres | Valor_p | |
|---|---|---|---|---|---|
| ADMINISTRAÇÃO | 36.118 | 32 | 46.563 | 21 | 0.224 |
| ARQUITETURA E URBANISMO | 68.775 | 28 | 64.689 | 25 | 0.58 |
| ENGENHARIA CIVIL | 69.973 | 103 | 71.628 | 30 | 0.748 |
| INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA | 41.401 | 427 | 55.842 | 66 | 0 |
| INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA. | 42.412 | 324 | 44.69 | 34 | 0.672 |
| MEDICINA VETERINÁRIA | 53.608 | 20 | 59.765 | 20 | 0.476 |
Nos casos em que o tamanho das amostras é pequeno e não sabemos se elas são oriundas de uma distribuição Normal, o teste t de Student não é aplicável. Utilizaremos, portanto, o teste não-paramétrico de Mann-Whitney, cuja hipótese nula é de que é igualmente provável que um valor aleatoriamente selecionado de uma amostra A será menor ou maior do que um valor aleatoriamente retirado de uma amostra B. Estamos interessados em testar se uma das distribuições tende a ter valores maiores do que outra, ou ainda, se elas possuem a mesma mediana.
Este teste apresenta uma vantagem em relação ao teste t, a saber, ele é baseado no rank dos dados, o que reduz a influência de outliers na amostra. A sua estatística de teste possui uma distribuição exata para amostras pequenas, mas também pode ser aproximada pela distribuição Normal, no caso de amostras grandes. Seguem os resultados para testar a hipótese de que a distribuição do IRA masculino apresenta locação igual à distribuição do IRA feminino. O único caso em que a hipótese de igualdade nas medianas das distribuições foi rejeitada ao nível de \(\alpha = 0.1\) ocorreu no curso de Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, em que as mulheres apresentam melhor desempenho.
| Mediana_Homens | N_Homens | Mediana_Mulheres | N_Mulheres | Valor_p | |
|---|---|---|---|---|---|
| ADMINISTRAÇÃO | 32.889 | 32 | 60.429 | 21 | 0.29 |
| AGRONOMIA | 53.831 | 59 | 65.463 | 15 | 0.581 |
| ARQUITETURA E URBANISMO | 78.625 | 28 | 74.972 | 25 | 0.695 |
| BIOTECNOLOGIA | 60.862 | 22 | 59.836 | 9 | 0.983 |
| CIÊNCIAS CONTÁBEIS | 39.333 | 45 | 52.222 | 12 | 0.282 |
| COMPUTAÇÃO E INFORMÁTICA | 64.027 | 15 | 58.282 | 8 | 0.975 |
| DIREITO | 85.465 | 52 | 93.94 | 10 | 0.001 |
| ENGENHARIA CIVIL | 74.789 | 103 | 79.087 | 30 | 0.012 |
| ENGENHARIA DE PESCA | 46.541 | 21 | 46.209 | 9 | 0.894 |
| ENGENHARIA DE PRODUÇÃO | 72.188 | 32 | 72.088 | 16 | 0.905 |
| ENGENHARIA MECÂNICA | 72.986 | 56 | 71.012 | 9 | 0.163 |
| INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA | 45.818 | 427 | 63.543 | 66 | 0 |
| INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA. | 47.314 | 324 | 48.631 | 34 | 0.583 |
| INTERDISCIPLINAR EM TECNOLOGIA DA INFORMAÇÃO | 41.216 | 78 | 51.552 | 9 | 0.376 |
| LETRAS / LIBRAS | 73.203 | 10 | 82.839 | 15 | 0.129 |
| LETRAS/PORTUGUÊS | 82.164 | 11 | 79.974 | 23 | 0.717 |
| MEDICINA | 82.57 | 20 | 84.188 | 13 | 0.573 |
| MEDICINA VETERINÁRIA | 64.716 | 20 | 71.225 | 20 | 0.718 |
| PEDAGOGIA | 76.596 | 8 | 78.32 | 30 | 0.686 |
| ZOOTECNIA | 34.17 | 18 | 48.784 | 11 | 0.146 |
Vemos que, nos 19 cursos em que o tamanho da amostra permitiu a utilização de testes de hipóteses, houve diferença estatisticamente significativa em 3 cursos: Direito, Engenharia Civil, Interdisciplinar em Ciência e Tecnologia, ao nível \(\alpha = 0.1\).
Nos outros casos, não há evidência significativa de que os desempenhos de homens e mulheres matriculados ativos em 2017, avaliados pelo IRA, apresentam diferença. O estudo poderá ser mais abrangente com a chegada de dados mais robustos. Cursos como as Engenharias da Computação, de Petróleo e Ambiental possuem pouquíssimos alunos presentes nestes dados. Além disso, há cursos que apresentam, dentro desta amostra, grande diferença entre o número de matriculados ativos do sexo masculino e feminino: Ciência da Computação, Sistemas de Informação, Engenharia Elétrica, Interdisciplinar em Tecnologia da Informação. Outros cursos
Desenvolvido por Kássio Camelo
kassio.silva@ufersa.edu.br