Sobre o estudo

Esse laboratório usa dados de uma replicação em larga escala, feita em mais de 30 laboratórios ao redor do mundo. O estudo original e o contexto completo estão descritos aqui: https://osf.io/wx7ck/overview, e os dados brutos ficam aqui: https://osf.io/pqf9r/files/nqg97. A versão que usamos foi tratada por Robert J. Calin-Jageman e colegas, pro workshop Teaching the New Statistics (data/two_groups - iat/iat_data_.csv).

O experimento replicado é o de Nosek, Banaji e Greenwald (2002), sobre diferenças de sexo em atitudes implícitas com relação à matemática. A pergunta original era: será que uma atitude implícita mais negativa das mulheres em relação à matemática (comparada às artes) ajuda a explicar por que menos mulheres seguem carreira em ciências e matemática? No estudo de 2002, com universitários de Yale, os pesquisadores encontraram justamente isso: mulheres com associações implícitas mais negativas com matemática do que homens, medidas por um Implicit Association Test (IAT). A replicação simplificou o desenho original (que usava quatro IATs) pra um único IAT.

Sobre a escala do IAT: por convenção, valores de 0.15, 0.35 e 0.65 são considerados, respectivamente, efeitos pequeno, médio e grande, quando falamos de escores individuais. Valores positivos indicam viés a favor das artes e contra a matemática.

Por que três laboratórios

Em vez de escolher uma única base, resolvi comparar três laboratórios com perfis bem diferentes: um com amostra pequena (SDSU, universitários), um com amostra grande e também universitária (laboratório “pi”) e um com amostra grande mas recrutada online (Mechanical Turk, “mturk”). A ideia é simples: se a diferença entre homens e mulheres aparece de forma parecida nos três, isso é uma evidência bem mais forte do que olhar pra um laboratório isolado. E dá pra ver na prática como o tamanho da amostra muda a precisão da nossa estimativa, sem mudar tanto o valor central dela.

Laboratório Perfil N total
SDSU universitários, amostra pequena 155
pi universitários, amostra grande 1236
mturk público geral, recrutado online 894

Laboratório 1: SDSU

iat_sdsu = read_csv(here::here("data/sdsu.csv"), col_types = "cccdc") %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_sdsu)
## Rows: 155
## Columns: 5
## $ session_id  <chr> "2436706", "2436967", "2440429", "2440430", "2440431", "24…
## $ referrer    <chr> "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "s…
## $ sex         <ord> f, f, f, f, m, f, f, m, f, m, f, f, f, f, f, f, m, m, f, m…
## $ d_art       <dbl> 0.90444320, -0.47402625, 0.46840862, -0.02522412, 0.136813…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_sdsu %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat_sdsu %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)
## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

iat_sdsu %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())
## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.224         0.485    38
## 2 f     0.467         0.548   117
library(boot)

theta <- function(d, i) {
    agrupado = d %>% 
        slice(i) %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
    m - f
}

booted_sdsu <- boot(data = iat_sdsu, statistic = theta, R = 2000)

ci_sdsu = tidy(booted_sdsu, 
               conf.level = .95,
               conf.method = "bca",
               conf.int = TRUE)

ci_sdsu
## # A tibble: 1 × 5
##   statistic     bias std.error conf.low conf.high
##       <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1    -0.243 0.000285    0.0931   -0.419   -0.0571
ci_sdsu %>%
    ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", y = "IAT homens - mulheres", title = "SDSU")

Conclusão SDSU

Com 155 participantes, as mulheres tiveram uma associação implícita positiva e média/forte com a matemática (média 0.467, desvio padrão 0.548, N = 117), enquanto os homens tiveram uma associação positiva, mas menor (média 0.224, desvio padrão 0.485, N = 38). A diferença entre os grupos foi de -0.243.

O intervalo de confiança de 95% ficou em [-0.42, -0.07]. Como o intervalo inteiro fica abaixo de zero, dá pra afirmar com segurança que existe uma diferença: mulheres com uma rejeição implícita à matemática mais forte que a dos homens. Só que o intervalo é largo demais pra cravar o tamanho dessa diferença. Numa ponta (0.07) o efeito é pequeno, do tipo que mal se percebe. Na outra (0.42) já seria um efeito consideravelmente maior. Com essa amostra sozinha, não dá pra escolher entre “diferença pequena e pouco relevante” e “diferença grande o suficiente pra importar na prática”. Precisamos de mais dados, e é por isso que vale a pena olhar os outros dois laboratórios.


Laboratório 2: pi

iat_pi = read_csv(here::here("data/pi.csv"), col_types = "cccdc") %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_pi)
## Rows: 1,236
## Columns: 5
## $ session_id  <chr> "2374915", "2374924", "2374971", "2375038", "2375052", "23…
## $ referrer    <chr> "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi"…
## $ sex         <ord> m, f, m, f, f, f, f, f, f, f, f, f, m, m, f, f, f, f, m, f…
## $ d_art       <dbl> 0.4109073, 1.1507938, 0.1046623, -0.4928488, 1.2583609, 0.…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_pi %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat_pi %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

iat_pi %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())
## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.322         0.499   427
## 2 f     0.613         0.439   809
booted_pi <- boot(data = iat_pi, statistic = theta, R = 2000)

ci_pi = tidy(booted_pi, 
             conf.level = .95,
             conf.method = "bca",
             conf.int = TRUE)

ci_pi
## # A tibble: 1 × 5
##   statistic     bias std.error conf.low conf.high
##       <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1    -0.291 -0.00106    0.0284   -0.345    -0.233
ci_pi %>%
    ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", y = "IAT homens - mulheres", title = "pi")

Conclusão pi

Com 1236 participantes, as mulheres tiveram uma associação positiva e média/forte (média 0.613, desvio padrão 0.439, N = 809), quase no limite entre efeito médio e grande. Os homens tiveram associação positiva, mas menor (média 0.322, desvio padrão 0.499, N = 427), na faixa de efeito médio. A diferença foi de -0.291.

O intervalo de confiança de 95% ficou em [-0.35, -0.24], bem mais estreito do que o do SDSU, o que já era esperado com uma amostra oito vezes maior. Aqui dá pra ser bem mais assertivo: o piso do intervalo (0.24) já descarta a ideia de uma diferença pequena e irrelevante, já que passa do limiar de 0.15. E o teto (0.35) fica longe demais do que seria necessário pra falar em efeito grande (algo em torno de 0.6 a 1.0). Ou seja, esse laboratório aponta claramente pra uma diferença moderada e consistente, nem pequena, nem grande.


Laboratório 3: mturk

iat_mturk = read_csv(here::here("data/mturk.csv"), col_types = "cccdc") %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat_mturk)
## Rows: 894
## Columns: 5
## $ session_id  <chr> "2402411", "2402412", "2402416", "2402417", "2402421", "24…
## $ referrer    <chr> "mturk", "mturk", "mturk", "mturk", "mturk", "mturk", "mtu…
## $ sex         <ord> f, m, f, f, m, m, m, f, m, f, m, f, m, f, m, f, m, f, m, f…
## $ d_art       <dbl> 1.13204049, 1.00115521, 1.25238853, 0.27602068, 0.85487388…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…
iat_mturk %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat_mturk %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

iat_mturk %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())
## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.332         0.468   410
## 2 f     0.585         0.453   484
booted_mturk <- boot(data = iat_mturk, statistic = theta, R = 2000)

ci_mturk = tidy(booted_mturk, 
                conf.level = .95,
                conf.method = "bca",
                conf.int = TRUE)

ci_mturk
## # A tibble: 1 × 5
##   statistic     bias std.error conf.low conf.high
##       <dbl>    <dbl>     <dbl>    <dbl>     <dbl>
## 1    -0.253 0.000295    0.0311   -0.313    -0.193
ci_mturk %>%
    ggplot(aes(x = "", y = statistic, ymin = conf.low, ymax = conf.high)) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", y = "IAT homens - mulheres", title = "mturk")

Conclusão mturk

Com 894 participantes recrutados online (não estudantes universitários, diferente dos outros dois laboratórios), as mulheres tiveram associação positiva e média (média 0.586, desvio padrão 0.453, N = 484). Os homens tiveram associação positiva, mas menor (média 0.332, desvio padrão 0.468, N = 410), também na faixa média. A diferença foi de -0.253.

O intervalo de confiança de 95% ficou em [-0.31, -0.19], parecido em largura e posição com o do laboratório pi. De novo, o piso já descarta a hipótese de diferença pequena e irrelevante, e o teto fica bem abaixo do que seria necessário pra falar em diferença grande. O interessante aqui é que, mesmo com um público bem diferente dos outros dois laboratórios (não são universitários, são pessoas de perfis variados recrutadas pela internet), o resultado bate com o que vimos no pi. Isso reforça que o efeito não é um capricho de um tipo específico de população.


Conclusão geral

Juntando os três laboratórios, dá pra montar uma resposta bem mais sólida do que se tivéssemos analisado só um:

Laboratório N Diferença (m - f) IC 95%
SDSU 155 -0.243 [-0.42, -0.07]
pi 1236 -0.291 [-0.35, -0.24]
mturk 894 -0.253 [-0.31, -0.19]

O ponto central da estimativa quase não muda de um laboratório pro outro, sempre fica entre -0.24 e -0.29. O que muda bastante é a largura do intervalo de confiança: no SDSU, com amostra pequena, o intervalo é largo e não permite decidir se a diferença é pequena ou grande. Já no pi e no mturk, com amostras bem maiores, o intervalo aperta em torno do mesmo valor central, e os dois convergem pra uma faixa parecida (entre 0.19 e 0.35, aproximadamente).

Voltando às duas afirmações que costumam aparecer como possíveis conclusões desse laboratório:

  • “mulheres têm uma associação negativa consideravelmente mais forte, com diferença suficiente pra separar uma associação neutra de uma muito forte” — essa frase pede um efeito grande (perto de 0.6 a 1.0 na escala do IAT). Nenhum dos três laboratórios sustenta isso. O teto mais alto entre todos os intervalos foi 0.42 (do SDSU, e mesmo assim é o limite superior de uma amostra pequena, não o valor mais provável).

  • “mulheres têm uma associação negativa mais forte, porém essa diferença é pequena e não é relevante na prática” — essa frase também não se sustenta, principalmente quando olhamos pi e mturk. Nos dois, o piso do intervalo de confiança já ultrapassa 0.15, que é o limiar convencional pra um efeito pequeno.

A conclusão mais precisa, considerando as três bases juntas, fica no meio dessas duas ideias: existe sim uma diferença real e consistente entre homens e mulheres na associação implícita com a matemática, mulheres com uma atitude implícita mais negativa em relação à matemática (e mais positiva em relação às artes) do que os homens. Essa diferença tem magnitude moderada, algo em torno de 0.25 a 0.29 pontos na escala do IAT, nem pequena a ponto de ser desprezível, nem grande o suficiente pra falar em contraste entre atitude neutra e atitude fortemente negativa.

O ponto mais importante talvez seja esse: a amostra pequena do SDSU, sozinha, não permitiria chegar a essa conclusão com segurança, porque o intervalo de confiança dela é largo demais e caberia em qualquer uma das duas frases extremas dependendo de qual ponta você olhasse. Foi justamente comparar com amostras maiores, de perfis diferentes, que permitiu apertar a estimativa e chegar numa resposta mais confiável sobre o tamanho real desse efeito.