Análise de uma replicação

iat = read_csv(here::here(params$arquivo_dados), col_types = "cccdc")
iat = iat %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat)

## Rows: 155
## Columns: 5
## $ session_id  <chr> "2436706", "2436967", "2440429", "2440430", "2440431", "24…
## $ referrer    <chr> "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "sdsu", "s…
## $ sex         <ord> f, f, f, f, m, f, f, m, f, m, f, f, f, f, f, f, m, m, f, m…
## $ d_art       <dbl> 0.90444320, -0.47402625, 0.46840862, -0.02522412, 0.136813…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…

iat %>%
    ggplot(aes(x = d_art, fill = sex)) +
    geom_histogram(binwidth = .2, alpha = .5, color = "black") +
    geom_rug() +
    facet_grid(sex ~ ., scales = "free_y") + 
    theme(legend.position = "None")

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1)

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Qual a diferença na amostra

iat %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art), 
              desvio_padrao = sd(d_art), 
              n = n())

## # A tibble: 2 × 4
##   sex   media desvio_padrao     n
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.224         0.485    38
## 2 f     0.467         0.548   117

agrupado = iat %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
m - f

## [1] -0.2430539

Parte 1

Conclusão

Considerando os dados da replicação feita na SDSU (San Diego State University), com 155 participantes, em média as mulheres que participaram do experimento tiveram uma associação implícita (medida pelo IAT) com a matemática positiva e média/forte (média 0.467, desv. padrão 0.548, N = 117). Homens tiveram uma associação positiva com a matemática, portanto menor que a das mulheres (média 0.224, desv. padrão 0.485, N = 38). Houve, portanto, uma diferença moderada entre homens e mulheres (diferença das médias -0.243, ou seja, homens 0.243 pontos abaixo das mulheres na escala IAT).

Na prática, isso quer dizer que tanto homens quanto mulheres nessa amostra tendem a associar mais a matemática a algo negativo (e as artes a algo positivo), mas essa tendência aparece mais forte entre as mulheres. Olhando só para essa amostra, sem levar em conta a incerteza da estimativa, a diferença de 0.243 fica numa faixa intermediária: não é um efeito pequeno o suficiente pra ignorar, mas também não é grande o bastante pra afirmar com convicção que existe um “gap” enorme entre os sexos. O problema de parar a análise aqui é que não sabemos o quão confiável é essa diferença: ela poderia ser bem diferente se repetíssemos o experimento com outra amostra de mesmo tamanho.

conclusão para SDSU

mulheres têm uma associação negativa mais forte que a dos homens, mas com essa amostra não dá pra saber se essa diferença é pequena e pouco relevante ou se é grande o suficiente pra importar na prática. Precisaríamos de mais dados pra decidir isso com confiança.

Parte 2

Considerando as características dos dados, refazendo a análise acima com base em intervalos de confiança.

library(boot)

theta <- function(d, i) {
    agrupado = d %>% 
        slice(i) %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
    m - f
}

booted <- boot(data = iat, 
               statistic = theta, 
               R = 2000)

ci = tidy(booted, 
          conf.level = .95,
          conf.method = "bca",
          conf.int = TRUE)

glimpse(ci)

## Rows: 1
## Columns: 5
## $ statistic <dbl> -0.2430539
## $ bias      <dbl> 0.003994024
## $ std.error <dbl> 0.09513392
## $ conf.low  <dbl> -0.4350966
## $ conf.high <dbl> -0.05542819

ci %>%
    ggplot(aes(
        x = "",
        y = statistic,
        ymin = conf.low,
        ymax = conf.high
    )) +
    geom_pointrange() +
    geom_point(size = 3) + 
    labs(x = "Diferença", 
         y = "IAT homens - mulheres")

Conclusão da Parte 2

O bootstrap com 2000 repetições dá um intervalo de confiança de 95% de aproximadamente [-0.42, -0.07] para a diferença homens menos mulheres. Como o intervalo inteiro fica abaixo de zero, temos uma evidência bem mais sólida de que os homens realmente têm uma associação implícita com a matemática mais fraca (ou seja, menos positiva) do que as mulheres nessa população, e não é só um efeito que apareceu por acaso nessa amostra específica.

Mas o intervalo é largo: vai de uma diferença pequena (perto de 0.07, que segundo os critérios do IAT nem chega a ser um efeito individual perceptível) até uma diferença bem mais considerável (perto de 0.42, que já se aproxima do limite entre médio e grande). Isso significa que, apesar de termos confiança na direção do efeito (mulheres com associação mais positiva que homens), ainda temos bastante incerteza sobre o tamanho real dessa diferença.

Comparando com a Parte 1: lá, olhando só a média da amostra (-0.243), a impressão era de um efeito moderado e razoavelmente definido. Com o IC, essa mesma estimativa central continua no meio do intervalo, mas agora fica claro que o “verdadeiro” efeito na população pode estar em qualquer ponto entre um efeito pequeno e um efeito quase grande. Ou seja: a direção do resultado é confiável, mas a magnitude exata não é algo que essa amostra sozinha consiga determinar com precisão. Isso é justamente o tipo de informação que a média sozinha esconde e que o intervalo de confiança revela.

Análise de uma replicação

Sobre IAT

Análise de uma replicação

Qual a diferença na amostra

Parte 1

Parte 2