Análise de uma replicação

iat = read_csv(here::here(params$arquivo_dados), col_types = "cccdc")
iat = iat %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat)

## Rows: 894
## Columns: 5
## $ session_id  <chr> "2402411", "2402412", "2402416", "2402417", "2402421", "24…
## $ referrer    <chr> "mturk", "mturk", "mturk", "mturk", "mturk", "mturk", "mtu…
## $ sex         <ord> f, m, f, f, m, m, m, f, m, f, m, f, m, f, m, f, m, f, m, f…
## $ d_art       <dbl> 1.13204049, 1.00115521, 1.25238853, 0.27602068, 0.85487388…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…

iat %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1)

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Qual a diferença na amostra

iat %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())

## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.332         0.468   410
## 2 f     0.585         0.453   484

agrupado = iat %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
m - f

## [1] -0.2531141

Parte 1

Conclusão

Essa base vem do Mechanical Turk, uma plataforma online, então o perfil dos participantes é diferente das outras duas bases (que eram universitários). São 894 pessoas ao todo. As mulheres tiveram uma associação implícita (IAT) com a matemática positiva e média (média 0.586, desv. padrão 0.453, N = 484), próxima do limite entre um efeito médio e um efeito grande. Os homens também tiveram uma associação positiva, mas menor que a das mulheres (média 0.332, desv. padrão 0.468, N = 410), bem no meio da faixa considerada média. A diferença entre os grupos foi de -0.253, uma diferença moderada, num patamar bem parecido com o que vimos no SDSU.

O padrão se repete: mulheres com uma associação mais positiva com as artes (e mais negativa com a matemática) do que os homens. O que chama atenção é que, mesmo com um público bem diferente (pessoas recrutadas online, de idades e origens variadas, e não só estudantes de graduação), a diferença encontrada é bem parecida com a dos outros laboratórios. Isso é um bom indício de que o efeito não é um capricho de uma população específica, mas algo que aparece de forma mais ampla. Ainda assim, pra confirmar isso direito, precisamos ver o quanto essa diferença é estável, e é aí que entra o intervalo de confiança.

Possível conclusão para MTURK

mulheres têm uma associação negativa moderadamente mais forte, com diferença de cerca de 0.25 pontos na escala IAT. Assim como no laboratório pi, é um efeito consistente e de tamanho médio, nem pequeno a ponto de ser irrelevante, nem grande o suficiente pra separar claramente uma atitude neutra de uma fortemente negativa.

Parte 2

Considerando as características dos dados, refazendo a análise acima com base em intervalos de confiança.

library(boot)

theta <- function(d, i) {
    agrupado = d %>% 
        slice(i) %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
    m - f
}

booted <- boot(data = iat, 
               statistic = theta, 
               R = 2000)

ci = tidy(booted, 
          conf.level = .95,
          conf.method = "bca",
          conf.int = TRUE)

glimpse(ci)

## Rows: 1
## Columns: 5
## $ statistic <dbl> -0.2531141
## $ bias      <dbl> 0.0009450208
## $ std.error <dbl> 0.03068976
## $ conf.low  <dbl> -0.315065
## $ conf.high <dbl> -0.1926235

ci %>%
    ggplot(aes(
        x = "",
        y = statistic,
        ymin = conf.low,
        ymax = conf.high
    )) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", 
         y = "IAT homens - mulheres")

Conclusão da Parte 2

O intervalo de confiança de 95% ficou em torno de [-0.31, -0.19]. Assim como no laboratório “pi”, esse intervalo é bem mais estreito do que o do SDSU, de novo por causa do tamanho da amostra. E o intervalo inteiro fica claramente abaixo de zero, o que reforça que a diferença entre homens e mulheres nessa base não é fruto do acaso.

O intervalo aqui aponta pra uma diferença que vai de algo perto do limite entre pequeno e médio (0.19) até um efeito médio mais consolidado (0.31). É uma faixa parecida com a que encontramos no “pi” (0.24 a 0.35), o que é interessante: dois laboratórios com públicos bem diferentes (universitários de um lado, usuários do Mechanical Turk do outro) chegando a intervalos de confiança que praticamente se sobrepõem.

Juntando as três análises (SDSU, pi e mturk), dá pra perceber um padrão bem consistente: a estimativa pontual sempre fica em torno de -0.25 a -0.29, e à medida que a amostra cresce, o intervalo de confiança vai encolhendo em torno desse valor, em vez de “pular” pra outro lugar. Isso é justamente o que esperaríamos se a diferença fosse um efeito real e não um ruído de amostragem: quanto mais dados, mais a estimativa converge, ao invés de ficar instável.

Análise de uma replicação

Sobre IAT

Análise de uma replicação

Qual a diferença na amostra

Parte 1

Parte 2