Análise de uma replicação

iat = read_csv(here::here(params$arquivo_dados), col_types = "cccdc")
iat = iat %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat)

## Rows: 1,236
## Columns: 5
## $ session_id  <chr> "2374915", "2374924", "2374971", "2375038", "2375052", "23…
## $ referrer    <chr> "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi", "pi"…
## $ sex         <ord> m, f, m, f, f, f, f, f, f, f, f, f, m, m, f, f, f, f, m, f…
## $ d_art       <dbl> 0.4109073, 1.1507938, 0.1046623, -0.4928488, 1.2583609, 0.…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…

iat %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1)

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Qual a diferença na amostra

iat %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())

## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.322         0.499   427
## 2 f     0.613         0.439   809

agrupado = iat %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
m - f

## [1] -0.2911497

Parte 1

Conclusão

Essa base vem de um laboratório identificado como “pi” e é bem maior que a do SDSU: 1236 pessoas ao todo. As mulheres tiveram uma associação implícita (IAT) com a matemática positiva e média/forte (média 0.613, desv. padrão 0.439, N = 809), bem perto do limite que separa um efeito médio de um efeito grande na escala do IAT. Os homens também tiveram uma associação positiva, mas menor que a das mulheres (média 0.322, desv. padrão 0.499, N = 427), ficando na faixa de efeito médio. A diferença entre os dois grupos foi de -0.291, o que dá uma diferença moderada, mas já beirando o que se consideraria uma diferença mais consistente.

Olhando só pra esse número, a impressão é parecida com a que tivemos no SDSU: mulheres com uma rejeição implícita à matemática mais forte que a dos homens. Mas aqui vale notar uma coisa importante, que é o tamanho da amostra. Com mais de 1200 pessoas, essa média tende a ser uma estimativa bem mais estável do que a que calculamos com os 155 participantes do SDSU. Isso não muda a conclusão em si, mas muda o quanto podemos confiar nela, e é exatamente isso que o intervalo de confiança vai deixar mais claro.

possível conclusão para PI

mulheres têm uma associação negativa moderadamente mais forte que a dos homens, com uma diferença de cerca de 0.29 pontos na escala IAT. É um efeito real e bem estimado, mas de magnitude moderada, não chega a ser um efeito grande.

Parte 2

Considerando as características dos dados, refazendo a análise acima com base em intervalos de confiança.

library(boot)

theta <- function(d, i) {
    agrupado = d %>% 
        slice(i) %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
    m - f
}

booted <- boot(data = iat, 
               statistic = theta, 
               R = 2000)

ci = tidy(booted, 
          conf.level = .95,
          conf.method = "bca",
          conf.int = TRUE)

glimpse(ci)

## Rows: 1
## Columns: 5
## $ statistic <dbl> -0.2911497
## $ bias      <dbl> -7.444365e-05
## $ std.error <dbl> 0.02863932
## $ conf.low  <dbl> -0.3499007
## $ conf.high <dbl> -0.2352522

ci %>%
    ggplot(aes(
        x = "",
        y = statistic,
        ymin = conf.low,
        ymax = conf.high
    )) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", 
         y = "IAT homens - mulheres")

Conclusão da Parte 2

O intervalo de confiança de 95% ficou em torno de [-0.35, -0.24]. Repare como esse intervalo é bem mais estreito do que o que encontramos no SDSU (que tinha ido de -0.42 a -0.07). Isso é justamente o efeito do tamanho da amostra: com mais de mil pessoas, a estimativa da diferença fica muito mais precisa, e sobra bem menos incerteza sobre o valor real dessa diferença na população.

Aqui dá pra afirmar com bastante confiança que a diferença entre homens e mulheres não é nem pequena (o limite inferior já passa de 0.24, acima do que se considera pequeno na escala do IAT) nem excessivamente grande (o limite superior fica em 0.35, exatamente no início da faixa considerada média). Ou seja, esse laboratório aponta pra uma diferença consistente e de magnitude moderada, sem muita margem pra dúvida sobre se ela existe de verdade.

Comparando com a Parte 1: o ponto central da estimativa (-0.291) está bem alinhado com o que já tínhamos visto no SDSU (-0.243), o que é um bom sinal de replicação. A grande diferença entre as duas análises não está no valor em si, mas na confiança que temos nele. Com uma amostra grande como essa, conseguimos “fechar o cerco” em torno do tamanho real do efeito de um jeito que a amostra pequena do SDSU simplesmente não permitia.

Análise de uma replicação

Sobre IAT

Análise de uma replicação

Qual a diferença na amostra

Parte 1

Parte 2