Esse laboratório usa dados de uma replicação em larga escala, feita
em mais de 30 laboratórios ao redor do mundo. O estudo original e o
contexto completo estão descritos aqui: https://osf.io/wx7ck/overview, e os dados brutos ficam
aqui: https://osf.io/pqf9r/files/nqg97. A versão que usamos
foi tratada por Robert J. Calin-Jageman e colegas, pro workshop Teaching
the New Statistics
(data/two_groups - iat/iat_data_.csv).
O experimento replicado é o de Nosek, Banaji e Greenwald (2002), sobre diferenças de sexo em atitudes implícitas com relação à matemática. A pergunta original era: será que uma atitude implícita mais negativa das mulheres em relação à matemática (comparada às artes) ajuda a explicar por que menos mulheres seguem carreira em ciências e matemática? No estudo de 2002, com universitários de Yale, os pesquisadores encontraram justamente isso: mulheres com associações implícitas mais negativas com matemática do que homens, medidas por um Implicit Association Test (IAT). A replicação simplificou o desenho original (que usava quatro IATs) pra um único IAT.
Sobre a escala do IAT: por convenção, valores de 0.15, 0.35 e 0.65 são considerados, respectivamente, efeitos pequeno, médio e grande, quando falamos de escores individuais. Valores positivos indicam viés a favor das artes e contra a matemática.
Em vez de escolher uma única base, resolvi comparar três laboratórios com perfis bem diferentes: um com amostra pequena (SDSU, universitários), um com amostra grande e também universitária (laboratório “pi”) e um com amostra grande mas recrutada online (Mechanical Turk, “mturk”). A ideia é simples: se a diferença entre homens e mulheres aparece de forma parecida nos três, isso é uma evidência bem mais forte do que olhar pra um laboratório isolado. E dá pra ver na prática como o tamanho da amostra muda a precisão da nossa estimativa, sem mudar tanto o valor central dela.
| Laboratório | Perfil | N total |
|---|---|---|
| SDSU | universitários, amostra pequena | 155 |
| pi | universitários, amostra grande | 1236 |
| mturk | público geral, recrutado online | 894 |
iat_sdsu = read_csv(here::here("data/sdsu.csv"), col_types = "cccdc") %>%
mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_sdsu)
## Rows: 155
## Columns: 5
## $ session_id <chr> "2436706", "2436967", "2440429", "2440430", "2440431", "24…
## $ referrer <chr> "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "s…
## $ sex <ord> f, f, f, f, m, f, f, m, f, m, f, f, f, f, f, f, m, m, f, m…
## $ d_art <dbl> 0.90444320, -0.47402625, 0.46840862, -0.02522412, 0.136813…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_sdsu %>%
ggplot(aes(x = d_art, fill = sex)) +
geom_histogram(binwidth = .2, alpha = .5, color = "black") +
geom_rug() +
facet_grid(sex ~ ., scales = "free_y") +
theme(legend.position = "None")
iat_sdsu %>%
ggplot(aes(x = sex, y = d_art)) +
geom_quasirandom(width = .1) +
stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)
## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
iat_sdsu %>%
group_by(sex) %>%
summarise(media = mean(d_art),
desvio_padrao = sd(d_art),
n = n())
## # A tibble: 2 × 4
## sex media desvio_padrao n
## <ord> <dbl> <dbl> <int>
## 1 m 0.224 0.485 38
## 2 f 0.467 0.548 117
library(boot)
theta <- function(d, i) {
agrupado = d %>%
slice(i) %>%
group_by(sex) %>%
summarise(media = mean(d_art))
m = agrupado %>% filter(sex == "m") %>% pull(media)
f = agrupado %>% filter(sex == "f") %>% pull(media)
m - f
}
booted_sdsu <- boot(data = iat_sdsu, statistic = theta, R = 2000)
ci_sdsu = tidy(booted_sdsu,
conf.level = .95,
conf.method = "bca",
conf.int = TRUE)
ci_sdsu
## # A tibble: 1 × 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.243 0.000285 0.0931 -0.419 -0.0571
ci_sdsu %>%
ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
geom_pointrange() +
geom_point(size = 3) +
labs(x = "Diferença", y = "IAT homens - mulheres", title = "SDSU")
Conclusão SDSU
Com 155 participantes, as mulheres tiveram uma associação implícita positiva e média/forte com a matemática (média 0.467, desvio padrão 0.548, N = 117), enquanto os homens tiveram uma associação positiva, mas menor (média 0.224, desvio padrão 0.485, N = 38). A diferença entre os grupos foi de -0.243.
O intervalo de confiança de 95% ficou em [-0.42, -0.07]. Como o intervalo inteiro fica abaixo de zero, dá pra afirmar com segurança que existe uma diferença: mulheres com uma rejeição implícita à matemática mais forte que a dos homens. Só que o intervalo é largo demais pra cravar o tamanho dessa diferença. Numa ponta (0.07) o efeito é pequeno, do tipo que mal se percebe. Na outra (0.42) já seria um efeito consideravelmente maior. Com essa amostra sozinha, não dá pra escolher entre “diferença pequena e pouco relevante” e “diferença grande o suficiente pra importar na prática”. Precisamos de mais dados, e é por isso que vale a pena olhar os outros dois laboratórios.
iat_pi = read_csv(here::here("data/pi.csv"), col_types = "cccdc") %>%
mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_pi)
## Rows: 1,236
## Columns: 5
## $ session_id <chr> "2374915", "2374924", "2374971", "2375038", "2375052", "23…
## $ referrer <chr> "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi"…
## $ sex <ord> m, f, m, f, f, f, f, f, f, f, f, f, m, m, f, f, f, f, m, f…
## $ d_art <dbl> 0.4109073, 1.1507938, 0.1046623, -0.4928488, 1.2583609, 0.…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_pi %>%
ggplot(aes(x = d_art, fill = sex)) +
geom_histogram(binwidth = .2, alpha = .5, color = "black") +
geom_rug() +
facet_grid(sex ~ ., scales = "free_y") +
theme(legend.position = "None")
iat_pi %>%
ggplot(aes(x = sex, y = d_art)) +
geom_quasirandom(width = .1) +
stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)
iat_pi %>%
group_by(sex) %>%
summarise(media = mean(d_art),
desvio_padrao = sd(d_art),
n = n())
## # A tibble: 2 × 4
## sex media desvio_padrao n
## <ord> <dbl> <dbl> <int>
## 1 m 0.322 0.499 427
## 2 f 0.613 0.439 809
booted_pi <- boot(data = iat_pi, statistic = theta, R = 2000)
ci_pi = tidy(booted_pi,
conf.level = .95,
conf.method = "bca",
conf.int = TRUE)
ci_pi
## # A tibble: 1 × 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.291 -0.00106 0.0284 -0.345 -0.233
ci_pi %>%
ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
geom_pointrange() +
geom_point(size = 3) +
labs(x = "Diferença", y = "IAT homens - mulheres", title = "pi")
Conclusão pi
Com 1236 participantes, as mulheres tiveram uma associação positiva e média/forte (média 0.613, desvio padrão 0.439, N = 809), quase no limite entre efeito médio e grande. Os homens tiveram associação positiva, mas menor (média 0.322, desvio padrão 0.499, N = 427), na faixa de efeito médio. A diferença foi de -0.291.
O intervalo de confiança de 95% ficou em [-0.35, -0.24], bem mais estreito do que o do SDSU, o que já era esperado com uma amostra oito vezes maior. Aqui dá pra ser bem mais assertivo: o piso do intervalo (0.24) já descarta a ideia de uma diferença pequena e irrelevante, já que passa do limiar de 0.15. E o teto (0.35) fica longe demais do que seria necessário pra falar em efeito grande (algo em torno de 0.6 a 1.0). Ou seja, esse laboratório aponta claramente pra uma diferença moderada e consistente, nem pequena, nem grande.
iat_mturk = read_csv(here::here("data/mturk.csv"), col_types = "cccdc") %>%
mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_mturk)
## Rows: 894
## Columns: 5
## $ session_id <chr> "2402411", "2402412", "2402416", "2402417", "2402421", "24…
## $ referrer <chr> "mturk", "mturk", "mturk", "mturk", "mturk", "mturk", "mtu…
## $ sex <ord> f, m, f, f, m, m, m, f, m, f, m, f, m, f, m, f, m, f, m, f…
## $ d_art <dbl> 1.13204049, 1.00115521, 1.25238853, 0.27602068, 0.85487388…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_mturk %>%
ggplot(aes(x = d_art, fill = sex)) +
geom_histogram(binwidth = .2, alpha = .5, color = "black") +
geom_rug() +
facet_grid(sex ~ ., scales = "free_y") +
theme(legend.position = "None")
iat_mturk %>%
ggplot(aes(x = sex, y = d_art)) +
geom_quasirandom(width = .1) +
stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)
iat_mturk %>%
group_by(sex) %>%
summarise(media = mean(d_art),
desvio_padrao = sd(d_art),
n = n())
## # A tibble: 2 × 4
## sex media desvio_padrao n
## <ord> <dbl> <dbl> <int>
## 1 m 0.332 0.468 410
## 2 f 0.585 0.453 484
booted_mturk <- boot(data = iat_mturk, statistic = theta, R = 2000)
ci_mturk = tidy(booted_mturk,
conf.level = .95,
conf.method = "bca",
conf.int = TRUE)
ci_mturk
## # A tibble: 1 × 5
## statistic bias std.error conf.low conf.high
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 -0.253 0.000295 0.0311 -0.313 -0.193
ci_mturk %>%
ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
geom_pointrange() +
geom_point(size = 3) +
labs(x = "Diferença", y = "IAT homens - mulheres", title = "mturk")
Conclusão mturk
Com 894 participantes recrutados online (não estudantes universitários, diferente dos outros dois laboratórios), as mulheres tiveram associação positiva e média (média 0.586, desvio padrão 0.453, N = 484). Os homens tiveram associação positiva, mas menor (média 0.332, desvio padrão 0.468, N = 410), também na faixa média. A diferença foi de -0.253.
O intervalo de confiança de 95% ficou em [-0.31, -0.19], parecido em largura e posição com o do laboratório pi. De novo, o piso já descarta a hipótese de diferença pequena e irrelevante, e o teto fica bem abaixo do que seria necessário pra falar em diferença grande. O interessante aqui é que, mesmo com um público bem diferente dos outros dois laboratórios (não são universitários, são pessoas de perfis variados recrutadas pela internet), o resultado bate com o que vimos no pi. Isso reforça que o efeito não é um capricho de um tipo específico de população.
Juntando os três laboratórios, dá pra montar uma resposta bem mais sólida do que se tivéssemos analisado só um:
| Laboratório | N | Diferença (m - f) | IC 95% |
|---|---|---|---|
| SDSU | 155 | -0.243 | [-0.42, -0.07] |
| pi | 1236 | -0.291 | [-0.35, -0.24] |
| mturk | 894 | -0.253 | [-0.31, -0.19] |
O ponto central da estimativa quase não muda de um laboratório pro outro, sempre fica entre -0.24 e -0.29. O que muda bastante é a largura do intervalo de confiança: no SDSU, com amostra pequena, o intervalo é largo e não permite decidir se a diferença é pequena ou grande. Já no pi e no mturk, com amostras bem maiores, o intervalo aperta em torno do mesmo valor central, e os dois convergem pra uma faixa parecida (entre 0.19 e 0.35, aproximadamente).
Voltando às duas afirmações que costumam aparecer como possíveis conclusões desse laboratório:
“mulheres têm uma associação negativa consideravelmente mais forte, com diferença suficiente pra separar uma associação neutra de uma muito forte” — essa frase pede um efeito grande (perto de 0.6 a 1.0 na escala do IAT). Nenhum dos três laboratórios sustenta isso. O teto mais alto entre todos os intervalos foi 0.42 (do SDSU, e mesmo assim é o limite superior de uma amostra pequena, não o valor mais provável).
“mulheres têm uma associação negativa mais forte, porém essa diferença é pequena e não é relevante na prática” — essa frase também não se sustenta, principalmente quando olhamos pi e mturk. Nos dois, o piso do intervalo de confiança já ultrapassa 0.15, que é o limiar convencional pra um efeito pequeno.
A conclusão mais precisa, considerando as três bases juntas, fica no meio dessas duas ideias: existe sim uma diferença real e consistente entre homens e mulheres na associação implícita com a matemática, mulheres com uma atitude implícita mais negativa em relação à matemática (e mais positiva em relação às artes) do que os homens. Essa diferença tem magnitude moderada, algo em torno de 0.25 a 0.29 pontos na escala do IAT, nem pequena a ponto de ser desprezível, nem grande o suficiente pra falar em contraste entre atitude neutra e atitude fortemente negativa.
O ponto mais importante talvez seja esse: a amostra pequena do SDSU, sozinha, não permitiria chegar a essa conclusão com segurança, porque o intervalo de confiança dela é largo demais e caberia em qualquer uma das duas frases extremas dependendo de qual ponta você olhasse. Foi justamente comparar com amostras maiores, de perfis diferentes, que permitiu apertar a estimativa e chegar numa resposta mais confiável sobre o tamanho real desse efeito.