Aluno: Luiz Sergio Pompeu Alves Filho

Matrícula: 0126015835-35M

Dados: “oxy .csv”

iat = read_csv(here::here(params$arquivo_dados), col_types = "cccdc")
iat = iat %>% 
    mutate(sex = factor(sex, levels = c("m", "f"), ordered = TRUE))
glimpse(iat)

## Rows: 117
## Columns: 5
## $ session_id  <chr> "2462516", "2466207", "2467505", "2468479", "2468498", "24…
## $ referrer    <chr> "oxy", "oxy", "oxy", "oxy", "oxy", "oxy", "oxy", "oxy", "o…
## $ sex         <ord> f, m, f, f, m, f, m, f, f, f, f, m, f, f, f, f, f, f, m, f…
## $ d_art       <dbl> 0.09425219, 0.84175966, 0.92088470, 1.11716849, 0.78889187…
## $ iat_exclude <chr> "Include", "Include", "Include", "Include", "Include", "In…

Parte 1

iat %>% 
    ggplot(aes(x = sex, y = d_art)) + 
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

## Warning: The `fun.y` argument of `stat_summary()` is deprecated as of ggplot2 3.3.0.
## ℹ Please use the `fun` argument instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

iat %>% 
  group_by(sex) %>% 
  summarise(
    media = mean(d_art, na.rm = TRUE),
    desvio_padrao = sd(d_art, na.rm = TRUE),
    N = n()
  )

## # A tibble: 2 × 4
##   sex   media desvio_padrao     N
##   <ord> <dbl>         <dbl> <int>
## 1 m     0.265         0.529    32
## 2 f     0.584         0.514    85

Conclusão

Considerando os dados de “oxy .csv”, em média, as mulheres que participaram do experimento tiveram uma associação implícita (medida pelo IAT) com a matemárica positiva e média (média 0.58, desv. padrão 0.51, N = 85). Homens tiveram uma associação positiva com a matemática, portanto menor que a das mulheres (média 0.26, desv. padrão 0.53, N = 32). Houve portanto uma considerável diferença entre homens e mulheres (diferença das médias 0.32). A partir desta amostra, as mulheres têm uma associação contra a matemática mais forte que a dos homens, com uma diferença observada de 0.32 pontos.

Parte 2

library(boot)

theta <- function(d, i) {
    agrupado = d %>% 
        slice(i) %>% 
        group_by(sex) %>% 
        summarise(media = mean(d_art))
    m = agrupado %>% filter(sex == "m") %>% pull(media)
    f = agrupado %>% filter(sex == "f") %>% pull(media)
    m - f
}

booted <- boot(data = iat, 
               statistic = theta, 
               R = 2000)

ci = tidy(booted, 
          conf.level = .95,
          conf.method = "bca",
          conf.int = TRUE)

glimpse(ci)

## Rows: 1
## Columns: 5
## $ statistic <dbl> -0.3195262
## $ bias      <dbl> -0.001286299
## $ std.error <dbl> 0.1115241
## $ conf.low  <dbl> -0.5383223
## $ conf.high <dbl> -0.09574832

p1 = iat %>% 
    ggplot(aes(x = sex, y = d_art)) +
    geom_quasirandom(width = .1) + 
    stat_summary(geom = "point", fun.y = "mean", color = "red", size = 5)

p2 = ci %>%
    ggplot(aes(
        x = "",
        y = statistic,
        ymin = conf.low,
        ymax = conf.high
    )) +
    geom_pointrange() +
    geom_point(size = 3) + 
    ylim(-1, 1) + 
    labs(x = "Diferença", 
         y = "IAT homens - mulheres")

grid.arrange(p1, p2, ncol = 2)

Conclusão

Em média, as mulheres que participaram do experimento tiveram uma associação implícita (medida pelo IAT) com a matemárica positiva e média (média 0.58, desv. padrão 0.51, N = 85). Homens tiveram uma associação positiva com a matemática, portanto menor que a das mulheres (média 0.26, desv. padrão 0.53, N = 32). Houve portanto uma considerável diferença entre homens e mulheres (diferença das médias -0.32, 95% CI [-0.55, -0.13]). A partir desta amostra, estimamos que mulheres têm uma associação negativa mais forte, porém não é claro se essa diferença é grande, moderada ou pequena. É necessário coletar mais dados para determinar se a diferença é relevante ou negligenciável.

Comparação com Bootstrap manual

set.seed(42)

B <- 2000
diferencas_manuais <- numeric(B)

for(i in 1:B) {
  amostra_boot <- iat %>% slice_sample(n = nrow(iat), replace = TRUE)
  medias_boot <- amostra_boot %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art, na.rm = TRUE), .groups = "drop")
  
  m_boot <- medias_boot %>% filter(sex == "m") %>% pull(media)
  f_boot <- medias_boot %>% filter(sex == "f") %>% pull(media)
  
  if(length(m_boot) == 0) m_boot <- 0
  if(length(f_boot) == 0) f_boot <- 0
  
  diferencas_manuais[i] <- m_boot - f_boot
}

ic_manual_inferior <- quantile(diferencas_manuais, 0.025)
ic_manual_superior <- quantile(diferencas_manuais, 0.975)

agrupado_original = iat %>% 
    group_by(sex) %>% 
    summarise(media = mean(d_art, na.rm = TRUE))

m_original = agrupado_original %>% filter(sex == "m") %>% pull(media)
f_original = agrupado_original %>% filter(sex == "f") %>% pull(media)
ci_manual <- tibble(
  statistic = m_original - f_original,
  conf.low = ic_manual_inferior,
  conf.high = ic_manual_superior
)

glimpse(ci_manual)

## Rows: 1
## Columns: 3
## $ statistic <dbl> -0.3195262
## $ conf.low  <dbl> -0.5278338
## $ conf.high <dbl> -0.1037532

Para a implementação sem bibliotecas externas, adotou-se o método do Bootstrap Percentílico. Este método utiliza diretamente os quantis da distribuição amostral empírica gerada pelas reamostragens (cortando os 2.5% menores e maiores valores). Ele é ideal pela sua simplicidade lógica e por fornecer uma estimativa empírica muito fiel quando o tamanho amostral é robusto o suficiente para evitar distribuições severamente distorcidas ou assimétricas.

A Abordagem 1 (Biblioteca) utilizou o método BCa (ajustado para viés e aceleração), resultando em um intervalo de 95% de confiaça de [-0.53, -0.10], enquanto que a Abordagem 2 (Manual), utilizando o método percentílico puro, convergiu para limites numericamente equivalentes e muito próximos na precisão de casas decimais.

Como ambos os intervalos situam-se inteiramente na faixa negativa e não cruzam a linha do zero, a conclusão científica permanece idêntica e consistente: há evidências amostrais estáveis de que as mulheres possuem um viés implícito contra a matemática maior do que os homens. A forte convergência entre os dois métodos valida que a distribuição amostral da diferença das médias é simétrica e bem-comportada.

Relatório final

Parte 1

Parte 2

Comparação com Bootstrap manual