Bastão de Asclépio & Distribuição Normal

suppressMessages(library(compute.es, warn.conflicts=FALSE))
# suppressMessages(library(dmetar, warn.conflicts=FALSE)) # https://www.bookdown.org/MathiasHarrer/Doing_Meta_Analysis_in_R/forest.html
suppressMessages(library(esc, warn.conflicts=FALSE))
suppressMessages(library(forestplot, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(knitr, warn.conflicts=FALSE))
suppressMessages(library(mada, warn.conflicts=FALSE))
suppressMessages(library(meta, warn.conflicts=FALSE))
suppressMessages(library(metacor, warn.conflicts=FALSE))
suppressMessages(library(metafor, warn.conflicts=FALSE)) # https://wviechtb.github.io/metafor/
suppressMessages(library(metaplot, warn.conflicts=FALSE))
suppressMessages(library(metaplus, warn.conflicts=FALSE))
suppressMessages(library(metasens, warn.conflicts=FALSE))
suppressMessages(library(metatest, warn.conflicts=FALSE))
suppressMessages(library(mmeta, warn.conflicts=FALSE))
suppressMessages(library(MuMIn, warn.conflicts=FALSE))
suppressMessages(library(psychmeta, warn.conflicts=FALSE))
suppressMessages(library(rmeta, warn.conflicts=FALSE))
# suppressMessages(library(metap, warn.conflicts=FALSE))
# suppressMessages(library(metaSEM, warn.conflicts=FALSE))

1 Significâncias estatística e prática

2 Revisão Sistemática (RS)

Revisão Sistemática (RS) é um sumário de evidências provenientes de estudos primários conduzidos para responder uma questão específica de pesquisa.

Utiliza um processo de revisão de literatura abrangente, imparcial e reprodutível, que localiza, avalia e sintetiza o conjunto de evidências dos estudos científicos para obter uma visão geral e confiável da estimativa do efeito da intervenção.

3 Replicação

Segundo Dancey & Reidy (2019),

“A replicação é uma das pedras angulares da ciência. Se você observa um fenômeno uma vez, então pode ter sido por acaso; se o observa duas, três ou mais vezes, pode estar começando a aprender algo sobre o fenômeno estudado. Se o seu estudo foi o primeiro neste assunto, é sensato que você trate os resultados com certo grau de cautela.”

Segundo Ellis (2010),

“O tamanho do efeito estimado é uma superestimativa do tamanho do efeito populacional. Estudos com resultados positivos são mais propensos a serem submetidos para publicação: estudos com resultados estatisticamente significantes são 8 vezes mais propensos a serem submetidos. Uma vez submetidos, tais estudos são mais propensos a serem publicados; isso ocorre porque os editores frequentemente usam a significância estatística com uma medida de controle de qualidade para selecionar estudos para publicação e, como indicado anteriormente, uma falta de resultado significante não implica a ausência de um efeito de tratamento. Esse viés de publicação significa que aqueles estudos que têm os efeitos mais fortes são mais propensos a serem publicados, e, consequentemente, qualquer metanálise desses estudos tende a superestimar o efeito de tratamento da população. Esse não é um problema pequeno, pois a metodologia rigorosa de metanálise pode dar credenciais científicas a conclusões errôneas, e esse é um sério abuso da metanálise. Estudos com números maiores de participantes são mais propensos a ter tamanhos de efeito que são mais próximos do tamanho de efeito populacional. O valor da metanálise que usa pequenas quantidades de estudos está mais em focalizar a pesquisa futura do quem obter conclusões firmes.”

4 Metanálise (MA)

Metanálise: Wikipedia

4.1 Introdução

Metanálise (MA) é um método de síntese de dados quantitativos provenientes de múltiplos estudos independentes que abordam uma mesma questão de pesquisa.

Parte essencial desse método envolve o cálculo de um tamanho de efeito combinado a partir de todos os estudos.

Essa abordagem estatística exige a extração de tamanhos de efeito e medidas de variância dos estudos incluídos.

Ao combinar esses tamanhos de efeito, aumenta-se o poder estatístico e é possível resolver incertezas ou discrepâncias encontradas em estudos individuais.

Metanálises são fundamentais para apoiar propostas de financiamento, formular diretrizes terapêuticas e influenciar políticas de saúde.

Também desempenham papel crucial ao sintetizar a pesquisa existente para orientar estudos futuros, consolidando-se como metodologia central na metaciência.

Metanálises são frequentemente, mas não necessariamente, componentes importantes de uma revisão sistemática.

Metanálise é uma análise estatística que combina os resultados de dois ou mais estudos independentes, gerando uma única estimativa de efeito.

A metanálise estima com mais poder e precisão o “verdadeiro” tamanho do efeito da intervenção, muitas vezes não demonstrado em estudos únicos, com metodologia inadequada e tamanho de amostra insuficiente.

Uma RS não necessariamente precisa apresentar uma metanálise. Ao contrário, em alguns casos não é apropriado que seja realizada, podendo até mesmo gerar conclusões errôneas.

Um exemplo desta situação é quando apenas dois estudos reportaram dados de um desfecho com estimativas de efeitos opostas, ou seja, um estudo aponta benefício da intervenção e o outro aponta benefício do controle.

Nesse caso, não se deve combinar esses achados. Quando vários estudos reportam dados de desfechos que divergem em algum grau de magnitude, deve-se avaliar o grau de similaridade dos efeitos nos estudos, utilizando ferramentas estatísticas, como teste para inconsistência e heterogeneidade, discutidos posteriormente.

4.2 Métodos e pressupostos

4.2.1 Abordagens

Em geral, dois tipos de evidência podem ser distinguidos em uma metanálise: dados de participantes individuais (IPD) e dados agregados (AD). Os dados agregados podem ser diretos ou indiretos.

AD são mais comumente disponíveis (por exemplo, em artigos publicados) e geralmente representam estimativas resumidas como odds ratios (OR) ou risk ratios (RR). Esses dados podem ser sintetizados diretamente entre estudos conceitualmente semelhantes por meio de diversas abordagens. Por outro lado, dados agregados indiretos mensuram o efeito de dois tratamentos que foram comparados separadamente com um grupo controle comum. Por exemplo, se os tratamentos A e B foram comparados diretamente com placebo em metanálises separadas, pode-se estimar o efeito indireto de A vs. B como o efeito de A vs. placebo menos o efeito de B vs. placebo.

Evidência do tipo IPD representa os dados brutos coletados nos centros de estudo. Essa distinção motivou o desenvolvimento de métodos meta-analíticos distintos, levando à formulação dos métodos em um estágio e dois estágios. Nos métodos de um estágio, os IPDs de todos os estudos são modelados simultaneamente, considerando o agrupamento de participantes dentro dos estudos. Nos métodos de dois estágios, calculam-se primeiro estatísticas-resumo (AD) para cada estudo e, em seguida, combinam-se essas estatísticas como uma média ponderada. Ao reduzir IPD a AD, os métodos de dois estágios também podem ser aplicados mesmo quando IPD está disponível, o que os torna uma escolha atraente. Embora se presuma que métodos de um e dois estágios produzam resultados semelhantes, estudos recentes mostram que eles podem ocasionalmente levar a conclusões diferentes.

4.2.2 Modelos estatísticos para dados agregados

4.2.2.1 Modelo de efeito fixo

O modelo de efeito fixo fornece uma média ponderada de uma série de estimativas de estudos. A inversa da variância das estimativas é comumente usada como peso, de modo que estudos maiores tendem a contribuir mais do que estudos menores para a média ponderada. Consequentemente, quando uma metanálise é dominada por um estudo muito grande, os achados dos estudos menores são praticamente ignorados.

Mais importante ainda, o modelo de efeitos fixos assume que todos os estudos incluídos investigam a mesma população, usam a mesma variável e definições de desfecho, etc. Essa suposição é tipicamente irrealista, pois a pesquisa frequentemente é afetada por heterogeneidade.

Formalmente, se começarmos com uma coleção de estimativas de tamanho de efeito independentes, cada uma estimando um verdadeiro efeito de tamanho \(\theta_i\) para \(i = 1, \dots, k\), podemos assumir que:

\[ y_i = \theta + \varepsilon_i \]

sendo que:

\(y_i\) é o efeito observado no estudo \(i\),
\(\theta\) é o verdadeiro efeito,
\(\varepsilon_i\) é o erro amostral, assumido como \(e_i \sim \mathcal{N}(0, \nu_i)\).

Assim, assume-se que os \(y_i\) são estimativas não viesadas e normalmente distribuídas dos respectivos efeitos verdadeiros \(\theta_i\). As variâncias amostrais \(\nu_i\) são assumidas como conhecidas.

O gráfico forest plot, comum em metanálises, indica os efeitos de cada estudo individual e a estimativa combinada.

4.2.2.2 Modelo de efeitos aleatórios

A maioria das metanálises baseia-se em conjuntos de estudos que não são idênticos em seus métodos e/ou nas características das amostras incluídas. Diferenças metodológicas e amostrais introduzem variabilidade entre os verdadeiros efeitos (heterogeneidade). Uma forma de modelar essa heterogeneidade é tratá-la como puramente aleatória. A ponderação aplicada na média ponderada sob o modelo de efeitos aleatórios ocorre em dois passos:

Passo 1: ponderação pela variância inversa

Passo 2: desponderação parcial usando um componente de variância de efeitos aleatórios (REVC), estimado a partir da variabilidade entre os tamanhos de efeito dos estudos.

Ou seja, quanto maior a heterogeneidade, maior a desponderação dos estudos grandes, até o ponto em que todos os estudos recebem peso igual (média aritmética simples). No outro extremo, se não houver heterogeneidade além do erro amostral, o modelo de efeitos aleatórios se reduz ao modelo de efeito fixo.

Essa transição depende de dois fatores:

Heterogeneidade da precisão
Heterogeneidade dos tamanhos de efeito

Como nenhum desses fatores indica automaticamente se estudos grandes são melhores ou piores que estudos pequenos, a redistribuição dos pesos pode ser arbitrária. Foi demonstrado que, com aumento da heterogeneidade, os pesos migram dos estudos maiores para os menores, até todos terem o mesmo peso.

Outro problema é que os intervalos de confiança no modelo de efeitos aleatórios geralmente subestimam o erro estatístico e produzem conclusões excessivamente otimistas. Várias correções foram propostas, mas o debate permanece. Em alguns casos, a média dos efeitos no modelo aleatório pode ser menos conservadora que no modelo fixo, o que pode induzir a erro.

Uma solução interpretativa é calcular o intervalo de predição, que representa a possível variação dos efeitos em novos estudos. No entanto, isso pressupõe que os ensaios sejam homogêneos e os grupos comparadores sejam intercambiáveis — uma suposição raramente satisfeita.

Existem diversos métodos para estimar a variância entre estudos, sendo o restricted maximum likelihood (REML) um dos menos viesados e mais usados. Técnicas iterativas como ML e REML podem ser implementadas em R.

Por fim, como muitas metanálises têm apenas 2 a 4 estudos, a estimativa da variância entre estudos tende a ser imprecisa ou até nula, gerando falsa suposição de homogeneidade. Assim, é comum que a heterogeneidade seja subestimada. Análises de sensibilidade assumindo alta heterogeneidade podem ser úteis. Os modelos discutidos referem-se à metanálise de dados agregados; para metanálises com dados individuais (IPD), é necessário empregar modelos de efeitos mistos.

alpha <- 0.05
# Dados simulados
dados <- data.frame(
  estudo = c("Estudo1", "Estudo2", "Estudo3", "Estudo4", "Estudo5"),
  OR = c(1.22, 1.65, 0.90, 1.35, 1.82),
  ICinf = c(1.01, 1.10, 0.60, 1.05, 1.00),
  ICsup = c(1.47, 2.45, 1.35, 1.75, 3.30),
  duracao = c(5, 7, 4, 6, 8),
  tipo_amostra = c("plasma", "plasma", "plasma", "soro", "soro")
)

# Cálculo de log(OR) e SElogOR
dados$logOR <- log(dados$OR)
dados$SElogOR <- (log(dados$ICsup) - log(dados$ICinf)) / (2 * 1.96)

# Metanálise com modelo de efeitos aleatórios
metaan <- meta::metagen(TE = logOR,
                        seTE = SElogOR,
                        studlab = estudo,
                        sm = "OR",
                        method.tau = "REML",
                        common = FALSE,
                        random = TRUE,
                        data=dados)

# Resumo dos resultados
print(summary(metaan))

            OR           95%-CI %W(random)
Estudo1 1.2200 [1.0113; 1.4718]       46.5
Estudo2 1.6500 [1.1056; 2.4625]       11.1
Estudo3 0.9000 [0.6000; 1.3500]       10.9
Estudo4 1.3500 [1.0457; 1.7428]       26.4
Estudo5 1.8200 [1.0019; 3.3062]        5.1

Number of studies: k = 5

                         OR           95%-CI    z p-value
Random effects model 1.2795 [1.1175; 1.4650] 3.57  0.0004

Quantifying heterogeneity (with 95%-CIs):
 tau^2 = 0.0011 [0.0000; 0.5721]; tau = 0.0330 [0.0000; 0.7564]
 I^2 = 35.5% [0.0%; 75.8%]; H = 1.24 [1.00; 2.03]

Test of heterogeneity:
    Q d.f. p-value
 6.20    4  0.1849

Details of meta-analysis methods:
- Inverse variance method
- Restricted maximum-likelihood estimator for tau^2
- Q-Profile method for confidence interval of tau^2 and tau
- Calculation of I^2 based on Q

# Gráfico de floresta
meta::forest(metaan,
             xlab = "Odds Ratio",
             layout="JAMA",
             print.tau2 = TRUE)

meta::forest(metaan,
             xlab = "Odds Ratio",
             layout="RevMan5",
             print.tau2 = TRUE)

# Teste de viés de publicação: Egger
try(meta::metabias(metaan, method.bias = "linreg"))

Warning: Number of studies (k=5) too small to test for small study effects
(k.min=10). Change argument 'k.min' if appropriate.

# Gráfico de funil
meta::funnel(metaan,
             xlab = "Odds Ratio",
             level = 1-alpha, 
             contour = c(0.9, 0.95, 0.99),
             col.contour = c("gray75", "gray85", "gray95"),
             lwd = 2, 
             cex = 2, 
             pch = 16, 
             studlab = TRUE, 
             cex.studlab = 1.25)

# Metanálise com modelo de efeitos aleatórios por tipo_amostra
metaan_subg <- meta::metagen(TE = logOR,
                        seTE = SElogOR,
                        studlab = estudo,
                        sm = "OR",
                        method.tau = "REML",
                        common = FALSE,
                        random = TRUE,
                        subgroup=tipo_amostra,
                        data=dados)

# Resumo dos resultados
print(summary(metaan_subg))

            OR           95%-CI %W(random) tipo_amostra
Estudo1 1.2200 [1.0113; 1.4718]       46.5       plasma
Estudo2 1.6500 [1.1056; 2.4625]       11.1       plasma
Estudo3 0.9000 [0.6000; 1.3500]       10.9       plasma
Estudo4 1.3500 [1.0457; 1.7428]       26.4         soro
Estudo5 1.8200 [1.0019; 3.3062]        5.1         soro

Number of studies: k = 5

                         OR           95%-CI    z p-value
Random effects model 1.2795 [1.1175; 1.4650] 3.57  0.0004

Quantifying heterogeneity (with 95%-CIs):
 tau^2 = 0.0011 [0.0000; 0.5721]; tau = 0.0330 [0.0000; 0.7564]
 I^2 = 35.5% [0.0%; 75.8%]; H = 1.24 [1.00; 2.03]

Test of heterogeneity:
    Q d.f. p-value
 6.20    4  0.1849

Results for subgroups (random effects model):
                        k     OR           95%-CI  tau^2    tau    Q   I^2
tipo_amostra = plasma   3 1.2206 [0.9234; 1.6135] 0.0341 0.1846 4.35 54.0%
tipo_amostra = soro     2 1.4139 [1.1180; 1.7881]      0      0 0.81  0.0%

Test for subgroup differences (random effects model):
                  Q d.f. p-value
Between groups 0.62    1  0.4297

Details of meta-analysis methods:
- Inverse variance method
- Restricted maximum-likelihood estimator for tau^2
- Q-Profile method for confidence interval of tau^2 and tau
- Calculation of I^2 based on Q

# Gráfico de floresta
meta::forest(metaan_subg,
             xlab = "Odds Ratio",
             print.tau2 = TRUE)

# Meta-regressão com duração da doença
reg <- meta::metareg(metaan, ~ duracao,
                     data=dados)

Warning in metareg.meta(metaan, ~duracao, data = dados): Please note, argument
'data' has been renamed to 'x' in version 3.0-0 of R package meta (see help
page of R function metareg). No meta-regression conducted.

print(summary(reg))

Length  Class   Mode 
     0   NULL   NULL

# Análise de sensibilidade: excluir estudos com amostra tipo "soro"
metaan_sens <- update(metaan, 
                      subset = dados$tipo_amostra == "plasma")
print(summary(metaan_sens))

            OR           95%-CI %W(random)
Estudo1 1.2200 [1.0113; 1.4718]       46.9
Estudo2 1.6500 [1.1056; 2.4625]       26.7
Estudo3 0.9000 [0.6000; 1.3500]       26.4

Number of studies: k = 3

                         OR           95%-CI    z p-value
Random effects model 1.2206 [0.9234; 1.6135] 1.40  0.1614

Quantifying heterogeneity (with 95%-CIs):
 tau^2 = 0.0341 [0.0000; 3.5856]; tau = 0.1846 [0.0000; 1.8936]
 I^2 = 54.0% [0.0%; 86.8%]; H = 1.47 [1.00; 2.76]

Test of heterogeneity:
    Q d.f. p-value
 4.35    2  0.1138

Details of meta-analysis methods:
- Inverse variance method
- Restricted maximum-likelihood estimator for tau^2
- Q-Profile method for confidence interval of tau^2 and tau
- Calculation of I^2 based on Q

4.3 Desafios

Uma metanálise de vários estudos pequenos nem sempre prevê os resultados de um único estudo grande. Alguns argumentam que uma fraqueza do método é que ele não controla as fontes de viés: uma boa metanálise não pode corrigir falhas metodológicas ou viés dos estudos originais. Isso implicaria que apenas estudos metodologicamente sólidos deveriam ser incluídos, prática conhecida como best evidence synthesis.

Outros analistas defendem incluir também estudos mais fracos e adicionar uma variável preditora ao nível do estudo que reflita a qualidade metodológica, para avaliar o impacto da qualidade no tamanho do efeito. Porém, há quem sustente que é melhor manter a informação sobre a variância entre os estudos e incluir o maior número possível de estudos, pois critérios de seleção metodológica introduzem subjetividade indesejada, contrariando o princípio da metanálise.

Mais recentemente, impulsionados pela ciência aberta, surgiram ferramentas para desenvolver metanálises vivas colaborativas (crowd-sourced), atualizadas continuamente por comunidades científicas, com o objetivo de tornar explícitas todas as decisões subjetivas.

4.3.0.1 Viés de publicação: o problema da gaveta de arquivos

Um dos principais desafios das metanálises é o viés de publicação, conhecido como file drawer problem. Ele ocorre quando estudos com resultados negativos ou não significantes são menos propensos a serem publicados, levando a uma superestimação dos efeitos nos estudos disponíveis.

Por exemplo, empresas farmacêuticas já foram acusadas de ocultar estudos com resultados desfavoráveis, e pesquisadores frequentemente ignoram dissertações ou resumos de congressos que não foram publicados. Isso distorce a distribuição dos tamanhos de efeito, pois os estudos positivos predominam artificialmente.

Esse viés pode ser visualizado por meio de um funnel plot (gráfico em funil), que representa o erro padrão em função do tamanho do efeito. Sem viés, o gráfico é simétrico, pois estudos pequenos apresentam maior dispersão em torno do efeito verdadeiro. Com viés, observa-se assimetria: estudos pequenos com resultados negativos estão ausentes, inclinando o gráfico.

Métodos estatísticos foram propostos para detectar esse viés, mas enfrentam baixa potência estatística e risco de falsos positivos. Além disso, small study effects — diferenças metodológicas entre estudos pequenos e grandes — podem causar assimetria mesmo na ausência de viés de publicação.

Estima-se que até 25% das metanálises em psicologia sofram com esse problema. E não se trata apenas de seleção editorial: práticas questionáveis, como manipulação de modelos até se obter significância estatística, também contribuem.

Conclusão: o viés de publicação é uma ameaça séria à validade das metanálises. A interpretação dos resultados deve sempre considerar essa possibilidade.

4.3.0.2 Problemas relacionados a estudos que não reportam efeitos não significantes

Estudos frequentemente omitem os resultados quando estes não atingem significância estatística. Por exemplo, afirmam apenas que “não houve diferença significante entre os grupos”, sem fornecer valores de estatística ou valor-p.

A exclusão desses estudos leva a um viés semelhante ao viés de publicação. No entanto, incluí-los assumindo efeito nulo também introduz viés, pois a ausência de significância não implica ausência de efeito.

Em resumo: tanto excluir quanto incluir tais estudos sem dados completos pode distorcer os resultados da metanálise. O ideal seria obter as estatísticas completas diretamente dos autores ou estimá-las quando possível.

4.3.0.3 Problemas relacionados à abordagem estatística

Ainda não há consenso sobre qual modelo estatístico é mais apropriado para combinar resultados em metanálise: efeito fixo, efeito aleatório, IVhet (heterogeneidade inversa) ou efeito ponderado por qualidade. A crítica ao modelo de efeitos aleatórios tem se intensificado, pois muitos o veem como um artifício formal para suavização (shrinkage) sem justificativa realista — tornando previsões questionáveis ou mesmo inadequadas.

O principal problema é que esse modelo tenta criar um “estimador de compromisso”: se a heterogeneidade entre estudos é pequena, ele se aproxima da ponderação pela variância inversa; se for grande, ele se aproxima da média aritmética. Porém, ignora-se uma distinção crucial: o modelo escolhido para análise e o mecanismo real de geração dos dados não são, e não precisam ser, iguais.

Assumir que o modelo de análise reflete o processo gerador dos dados é uma simplificação comum, mas equivocada. No contexto de metanálise, pensar que os efeitos dos estudos são aleatórios — como se tivessem sido sorteados de uma distribuição — é uma hipótese fraca. Na prática, os efeitos observados são fixos para os estudos incluídos. O modelo de efeitos aleatórios, nesse sentido, é apenas uma ferramenta descritiva — e possivelmente inadequada — para fins inferenciais.

4.3.0.4 Comparabilidade e validade dos estudos incluídos

Metanálises muitas vezes não substituem um estudo primário com poder estatístico adequado, especialmente nas ciências biológicas.

A heterogeneidade dos métodos utilizados pode levar a conclusões equivocadas. Por exemplo, diferenças nas formas de uma intervenção ou nas coortes — consideradas menores ou desconhecidas pelos pesquisadores — podem gerar resultados substancialmente distintos, inclusive distorcendo os achados da metanálise ou não sendo adequadamente considerados na análise dos dados. O oposto também pode ocorrer: resultados de metanálises podem fazer com que certas hipóteses ou intervenções pareçam inviáveis e impeçam novas pesquisas ou aprovações, mesmo quando modificações — como administração intermitente, critérios personalizados ou medidas combinadas — poderiam levar a resultados significativamente diferentes, inclusive em casos em que isso foi demonstrado em estudos de pequena escala incluídos na metanálise. A padronização, reprodução de experimentos, dados abertos e protocolos abertos frequentemente não resolvem tais problemas, já que fatores e critérios relevantes podem ser desconhecidos ou não registrados.

Há um debate sobre o equilíbrio adequado entre testar com o menor número possível de animais ou humanos e a necessidade de obter achados robustos e confiáveis. Argumenta-se que pesquisas não confiáveis são ineficientes e desperdiçadoras, e que estudos não são inúteis apenas quando terminam tarde demais, mas também quando terminam cedo demais. Em ensaios clínicos de grande porte, análises sequenciais planejadas às vezes são usadas quando há custos elevados ou riscos potenciais associados à participação dos voluntários. Na ciência comportamental aplicada, foram propostos “megastudies” para investigar a eficácia de diferentes intervenções desenvolvidas de forma interdisciplinar por equipes distintas. Um desses estudos utilizou uma rede de academias para recrutar grande número de participantes. Sugere-se que intervenções comportamentais são frequentemente difíceis de comparar (em metanálises e revisões), pois “diferentes cientistas testam diferentes ideias de intervenção em diferentes amostras usando diferentes desfechos ao longo de diferentes intervalos de tempo”, o que compromete a comparabilidade dessas investigações individuais e limita “seu potencial de informar políticas públicas”.

4.3.0.5 Critérios fracos de inclusão levam a conclusões enganosas

Metanálises em educação muitas vezes não impõem critérios rigorosos quanto à qualidade metodológica dos estudos incluídos. Por exemplo, estudos com amostras pequenas ou medidas construídas pelos próprios pesquisadores tendem a superestimar os tamanhos de efeito. Contudo, esse problema também afeta metanálises de ensaios clínicos. O uso de diferentes ferramentas de avaliação da qualidade (QAT) leva à inclusão de conjuntos distintos de estudos e, consequentemente, a estimativas conflitantes do efeito médio do tratamento.

5 Metanálise por Wolf (1986)

“Traduttore, traditore.”

5.1 Capítulo 1. Metanálise e Síntese da Pesquisa

A atividade de pesquisa nas ciências sociais e comportamentais tem sido observada como estando “tristemente dilapidada” e enfrentando uma “crise” (Glass, 1977; Glass, McGaw, and Smith, 1981; Hunter, Schmidt, and Jackson, 1982; Jackson, 1980; Rosenthal, 1984). As ciências biológicas, físicas e naturais frequentemente permitem que problemas de pesquisa sejam claramente definidos e examinados por técnicas e métodos comumente aceitos e padronizados. Isso frequentemente conduz à compreensão científica e a progressos que produzem respostas consistentes e diretas aos problemas estudados sob condições experimentais que são obtidas de modo lógico e sequencial, baseando-se umas nas outras. Este não é o caso nas ciências sociais e comportamentais, onde o comportamento humano é frequentemente mais difícil e complexo de explicar, onde os ambientes de pesquisa são mais difíceis de controlar, definições comuns nem sempre estão disponíveis ou são aceitas, e onde métodos, técnicas e características amostrais variam de estudo para estudo. Raramente experimentos ou estudos “isolados” fornecem respostas suficientemente definitivas sobre as quais basear políticas (Hedges and Olkin, 1982). Essa situação é ainda mais difícil devido à proliferação de estudos nas ciências sociais e comportamentais que abordam questões comuns de pesquisa. Por exemplo, centenas de estudos examinaram a psicologia das diferenças sexuais, a eficácia da psicoterapia e a relação do status socioeconômico com a realização ou com as características individuais e variáveis contextuais relacionadas às preferências e aos padrões de votação. Esses estudos não apenas utilizam definições, variáveis, procedimentos, métodos, amostras e assim por diante discrepantes, mas suas conclusões frequentemente estão em desacordo entre si.

O efeito dessa situação levou a um “enorme desperdício de esforço acadêmico nas ciências sociais” (Kulik, 1983), resultados conflitantes que podem não conduzir a “respostas aceitáveis” para orientar políticas para os problemas colocados, mas, em vez disso, geram intermináveis apelos por novas pesquisas, e o perigo de que as agências financiadoras passem a ver a pesquisa social e comportamental como confusa, improdutiva e não científica. Além disso, revisões de literatura de estudos empíricos frequentemente são feitas de modo não profissional e são notórias por dependerem dos julgamentos subjetivos, preferências e vieses dos revisores; interpretações conflitantes das evidências não são incomuns, enquanto mesmo interpretações consistentes por revisores independentes podem ser construídas sobre bases semelhantes e leituras equivocadas da literatura (Light and Smith, 1971; Glass, 1977; Pillemer and Light, 1980; Jackson, 1980).

5.1.1 Vantagens das Revisões de Literatura Meta-Analíticas

Se considerarmos a ciência como a acumulação e o refinamento de informação e conhecimento (Hunter et al., 1982; Pillemer and Light, 1980), torna-se crítico estabelecer diretrizes para revisões, integrações e sínteses confiáveis e válidas de estudos que examinam questões de pesquisa semelhantes (Cooper, 1982; Jackson, 1980). Os procedimentos empregados na metanálise permitem revisões quantitativas e sínteses da literatura de pesquisa que abordam essas questões.

Problemas potenciais com revisões tradicionais da literatura que são abordados na metanálise incluem (1) inclusão seletiva de estudos, frequentemente baseada na visão impressionista do revisor sobre a qualidade do estudo, (2) ponderação subjetiva diferencial dos estudos na interpretação de um conjunto de achados, (3) interpretações enganosas dos resultados dos estudos, (4) falha em examinar características dos estudos como explicações potenciais para resultados discrepantes ou consistentes entre estudos, e (5) falha em examinar variáveis moderadoras na relação sob exame.

“O que é necessário são métodos que integrem resultados de estudos existentes para revelar padrões de relações e causalidades subjacentes relativamente invariantes, cujo estabelecimento constituirá princípios gerais e conhecimento cumulativo” (Hunter et al., 1982: 26). O “problema fundamental”, como Glass et al. (1981) se referem a ele, é a incapacidade da mente humana de abordar essa tarefa de maneira confiável e válida, dada a enorme quantidade de dados que deve ser reunida, processada, assimilada e sintetizada em muitas disciplinas. É irônico que a revisão tradicional de dados científicos tenha tipicamente sido feita de modo não científico, impressionista. Tem sido argumentado que o mesmo rigor científico seja aplicado às revisões da literatura de pesquisa como aos estudos individuais empiricamente delineados para abordar a questão de pesquisa em pauta. “A revisão contemporânea deve ser mais técnica e estatística do que narrativa. . . . Os achados de múltiplos estudos devem ser considerados como um conjunto de dados complexo, não mais compreensível sem análise estatística do que centenas de pontos de dados em um único estudo” (Glass et al., 1981: 12).

Os métodos estatísticos propostos por Glass e outros para realizar essa tarefa são geralmente bem conhecidos, mas aplicados em um contexto difícil. Cada ponto de dados utilizado para análise é obtido de um estudo individual, e não de um sujeito individual, como é tipicamente feito em um estudo de pesquisa tradicional.

Glass (1976: 3) distinguiu entre a análise primária, secundária e a metanálise da pesquisa:

Análise primária é a análise original de dados em um estudo de pesquisa. . . . Análise secundária é a reanálise de dados com o propósito de responder à questão de pesquisa original com melhores técnicas estatísticas, ou de responder a novas questões com dados antigos. . . . Metanálise refere-se à análise de análises. . . . a análise estatística de uma grande coleção de resultados de análises provenientes de estudos individuais com o propósito de integrar os achados. Ela conota uma alternativa rigorosa às discussões casuais e narrativas de estudos de pesquisa que tipificam nossas tentativas de dar sentido à literatura de pesquisa em rápida expansão.

5.1.2 Exemplos Ilustrativos de Metanálise

Os exemplos a seguir de metanálises publicadas ilustram a utilidade dessa abordagem para revisões da literatura de pesquisa. Mazzuca (1982) examinou inicialmente mais de 300 artigos abordando a questão de pesquisa de se a educação do paciente em doenças crônicas tem valor terapêutico. Aqueles 30 estudos que utilizaram delineamentos experimentais verdadeiros foram selecionados para metanálise. Entre as conclusões extraídas da análise estavam que a educação do paciente melhorou significativamente a adesão ao regime, o progresso terapêutico e os desfechos de saúde para aqueles indivíduos que a receberam (em comparação com sujeitos controle). Contudo, o impacto da educação do paciente foi maior para adesão e menor para desfechos de saúde, e consistentemente mais forte para intervenções orientadas comportamentalmente, em contraste com intervenções orientadas didaticamente. Por exemplo, houve uma melhoria mediana de 0.74 unidade de desvio-padrão no progresso terapêutico para sujeitos que receberam educação do paciente orientada comportamentalmente e apenas 0.18 unidade de desvio-padrão de melhoria para instrução didática. Assim, o paciente médio que recebe educação com ênfase comportamental seria esperado demonstrar uma resposta fisiológica à terapia melhor do que a de 77 por cento dos pacientes controle.

pnorm(q=0.74)

[1] 0.77035

Em outra metanálise, Willson e Putnam (1982) estudaram os efeitos da sensibilização ao pré-teste no delineamento experimental examinando a contribuição dos pré-testes para variáveis que avaliam o desempenho educacional ou psicológico humano. Mais de 160 efeitos estatísticos separados foram inicialmente examinados a partir de 32 estudos independentes; 30 efeitos de estudos não randomizados foram eliminados de exame adicional como resultado de seus tamanhos médios de efeito diferirem significativamente do tamanho médio de efeito dos estudos randomizados. Willson e Putnam concluíram que os efeitos de estudos não randomizados exibiram viés sistemático, porém desconhecido, e, portanto, deveriam ser excluídos de análises adicionais. Entre as conclusões extraídas dos 134 efeitos restantes estava que, em média, os pré-testes tiveram um efeito geral de elevação nos pós-testes de 0.22 unidade de desvio-padrão. O efeito de elevação foi maior para desfechos cognitivos e de personalidade e menor para desfechos de atitude. A duração do tempo entre pré e pós-teste esteve relacionada à magnitude dos tamanhos de efeito, com efeitos menores associados a durações inferiores a um dia ou superiores a um mês.

Esses achados podem ser comparados a uma revisão tradicional anterior da literatura que resumiu a significância ou não significância dos resultados de estudos individuais e que impressionisticamente concluiu que os efeitos cognitivos de longo prazo são pequenos ou nulos, embora possa haver efeitos de curto prazo (Welch and Walberg, 1970). Welch e Walberg sugeriram que o efeito é maior para atitude do que para testes cognitivos, em contraste com os resultados empiricamente derivados da metanálise de Willson e Putnam. Como questão prática, os resultados de Willson e Putnam sugerem que pesquisadores precisam incluir o pré-teste como variável de delineamento quando ele está presente e estimar seu efeito, particularmente em situações acima onde seus efeitos demonstraram ser mais fortes.

Em um exemplo relativamente inicial de síntese da literatura envolvendo 140 estudos de caso sobre inovações tecnológicas em serviços locais, Yin, Bingham, and Heald (1976) constataram que a qualidade metodológica dos estudos de caso relatados não estava relacionada a se a inovação havia sido incorporada como parte rotineira das operações da agência, nem a se havia ganhos mensuráveis nos serviços como resultado da inovação. Contudo, estudos de caso de maior qualidade (em contraste com menor qualidade) foram significativamente mais propensos a envolver participação do cliente e a focar em inovações de hardware, obras públicas e serviços de transporte.

Embora Glass e seus colegas tenham despertado novamente a comunidade contemporânea de pesquisa em ciências sociais para a importância de avaliar e sintetizar sistematicamente os resultados de testes independentes da mesma hipótese, o interesse na questão pode ser rastreado pelo menos até o trabalho de L. H. C. Tippett (1931), R. A. Fisher (1932), Karl Pearson (1933), e W. G. Cochran (1937). Esse trabalho inicial decorreu amplamente do desejo de combinar evidências de diferentes estudos agrícolas e adotou duas abordagens distintas, mas complementares. Uma abordagem concentrou-se em testar a significância estatística dos resultados combinados entre estudos primários de pesquisa, enquanto a outra abordagem concentrou-se na estimativa da magnitude do efeito experimental (tratamento) entre estudos. A primeira tornou-se conhecida como testes combinados de significância envolvendo probabilidades de significância simples (probabilidades ou suas transformações logarítmicas) ou estatísticas de teste brutas ou ponderadas, tais como os valores de t ou z. Os métodos de teste combinado mais comuns são apresentados no Capítulo 2 desta monografia. A outra abordagem refere-se a medidas de tamanho de efeito e baseia-se no desenvolvimento de índices padronizados, invariantes à escala, da magnitude dos efeitos que são independentes das várias escalas de medida utilizadas nos estudos originais (ver Capítulo 3).

Tentativas iniciais de quantificação de domínios de pesquisa concentraram-se no que se tornou conhecido como métodos de “contagem de votos” (Light and Smith, 1971), nos quais revisores classificam os resultados de cada estudo em categorias de significância positiva, não significância e significância negativa. As conclusões são então baseadas nas contagens resultantes. A abordagem de contagem de votos não é mais recomendada devido às fracas propriedades estatísticas associadas ao seu uso. Por exemplo, Hedges and Olkin (1980) constataram que o poder desse procedimento é baixo e, na realidade, diminui à medida que o número de estudos revisados aumenta, e que há alta probabilidade de erro do tipo II (falha em concluir que há um efeito positivo quando, de fato, há). Em razão dessas limitações e do uso decrescente desse procedimento, esse método não será discutido adicionalmente na presente exposição; esse método foi amplamente superado pelo uso de testes combinados. Leitores interessados são remetidos a Hedges and Olkin (1980) para uma discussão e crítica mais detalhadas.

5.1.3 Críticas à Metanálise

Como poderia ser antecipado com a introdução de qualquer nova abordagem, como a metanálise, essa abordagem não tem estado livre de críticas, nem é uma panaceia para resolver todos os problemas associados à construção de conhecimento científico confiável e válido e teoria. Embora este livro não aborde essas críticas em profundidade, é importante que pesquisadores informados estejam atentos a esses problemas e questões potenciais ao ler metanálises publicadas ou ao delinear suas próprias metanálises. Glass et al. (1981) agruparam essas críticas em quatro categorias:

Conclusões ilógicas não podem ser extraídas ao comparar e agregar estudos que incluem diferentes técnicas de mensuração, definições de variáveis (por exemplo, tratamentos, desfechos) e sujeitos, porque são demasiadamente dissimilares.
Resultados de metanálises são ininterpretáveis porque resultados de estudos “mal” delineados são incluídos juntamente com resultados de estudos “bons”.
A pesquisa publicada é enviesada a favor de achados significantes porque achados não significantes raramente são publicados; isso, por sua vez, leva a resultados de metanálises enviesados.
Múltiplos resultados do mesmo estudo são frequentemente utilizados, o que pode enviesar ou invalidar a metanálise e fazer com que os resultados pareçam mais confiáveis do que realmente são, porque esses resultados não são independentes.

A primeira crítica tem sido referida como o “problema de maçãs e laranjas”, no qual se argumenta que a diversidade torna as comparações inadequadas. Por exemplo, em uma das primeiras metanálises, Smith e Glass (1977) sintetizaram os resultados de aproximadamente 400 avaliações da eficácia da psicoterapia e constataram (1) que o cliente médio em terapia é melhor do que 75 por cento dos indivíduos não tratados e (2) virtualmente nenhuma diferença entre terapias comportamentais e não comportamentais. Presby (1978: 514) criticou Smith e Glass por ignorarem “diferenças importantes entre as terapias não comportamentais, por exemplo, os efeitos superiores da terapia racional-emotiva (RET) em comparação com as outras nessa classe. Essas diferenças são canceladas no uso de categorias muito amplas, isto é, misturando ‘maçãs e laranjas’, o que conduz à conclusão errônea de que os resultados de pesquisa indicam diferenças negligenciáveis entre os desfechos de diferentes terapias.” De modo semelhante, Slavin (1983) contestou as definições de cooperação, competição e realização utilizadas em uma metanálise conduzida por Johnson et al. (1981). Essas definições e critérios claramente afetam o tipo de estudo incluído na síntese da pesquisa, o que pode afetar os resultados que se seguem. Essa questão pode ser tratada empiricamente codificando as características de cada estudo e testando estatisticamente se as diferenças estão relacionadas aos resultados da metanálise. Mesmo o problema mais prevalente de definições operacionais e procedimentos de mensuração divergentes para variáveis dependentes pode ser examinado empiricamente. Um método para realizar isso é discutido no Capítulo 3 sob a discussão de efeitos mediadores.

A segunda crítica também pode ser tratada empiricamente dentro de metanálises, codificando a qualidade do delineamento empregado em cada estudo e examinando se os resultados diferem para estudos mal e bem delineados. Uma revisão de metanálises realizadas até o momento sugere que a magnitude do efeito não está relacionada ao mérito do delineamento em alguns domínios de pesquisa, mas não em outros. Embora diferenças significativas no tamanho de efeito entre estudos mal e bem delineados possam ser encontradas em uma metanálise, pode haver consideravelmente mais variação de tamanho de efeito entre estudos mal delineados do que entre estudos bem delineados (isto é, uma diferença significativa em variância).

A terceira crítica, relativa à não tipicidade e ao viés a favor de resultados significantes em estudos de pesquisa publicados, pode ser tratada de várias maneiras. Uma abordagem é revisar resultados em livros, dissertações, artigos não publicados apresentados em reuniões profissionais e similares, e compará-los com os resultados de artigos publicados. Outra abordagem é estimar o número de estudos adicionais com resultados não significantes que seriam necessários para reverter uma conclusão extraída da metanálise, fornecendo assim alguma estimativa da robustez e validade dos achados. Essa abordagem é descrita e ilustrada em detalhe no Capítulo 4 na seção que descreve o \(n\) à prova de falha e o problema da gaveta de arquivo (drawer problem: estudos com resultado “não significante” ficam na gaveta (não publicados)).

A quarta crítica refere-se ao número de resultados do mesmo estudo experimental que devem ser utilizados. Alguns metanalistas (por exemplo, Kulik, 1983; Mazzuca, 1982) optam por realizar análises separadas para cada desfecho diferente (critério ou variável dependente), enquanto outros, incluindo Glass, optam por agrupá-los na mesma análise. Alternativamente, alguns revisores optam por limitar-se a um número fixo de resultados, talvez dois, de cada estudo (por exemplo, Gilbert, McPeek, and Mosteller, 1977), enquanto outros utilizam a média de todos os resultados do mesmo estudo. Novamente, essa é uma questão empiricamente tratável que pode influenciar os resultados obtidos e é discutida com mais detalhe no Capítulo 4.

Outras críticas à metanálise incluem a afirmação de que efeitos de interação são ignorados às custas dos efeitos principais (Cook and Leviton, 1980; Slavin, 1983). Novamente, isso pode ser tratado examinando os potenciais efeitos mediadores de características substantivas e metodológicas dos estudos (ver Capítulo 3). Cooper and Arkin (1981) sugerem a possibilidade de concentrar metanálises futuras em efeitos particulares para hipóteses de interação claramente articuladas.

O que pode ser a advertência mais importante é que a “metanálise pode ter consequências perniciosas por causa de sua aparente ‘objetividade’, ‘precisão’ e ‘cientificidade’. Para leitores ingênuos, esses atributos conferem credibilidade social que pode estar construída sobre invalidade procedimental.” (Cook and Leviton, 1980: 455). Contudo, tem sido apontado por Cooper and Arkin (1981) que essa afirmação é verdadeira para qualquer metodologia inovadora e que esse problema reside dentro do uso e usuário particulares e não no método em si. A discussão no Capítulo 4 de maneiras de reduzir viés e no Capítulo 6 de diretrizes para prática deve ser útil para ajudar a aprimorar a “objetividade” de conduzir uma metanálise.

Deve-se notar que existem grandes diferenças na qualidade das metanálises em relação às questões de validade e confiabilidade. Essas questões são discutidas no Capítulo 4. Slavin (1983: 14) sustenta: “O que revisões tradicionais usualmente fazem que metanálises não fazem é discutir os estudos que estão sendo revisados, procurando padrões e inconsistências, e atribuindo maior peso a estudos que utilizam delineamentos fortes do que a números de estudos que caem de um lado ou de outro de uma questão.” Ele defende o uso da metanálise para “aperfeiçoar em vez de substituir uma discussão inteligente das questões críticas.” É essencial que informações suficientes sobre os procedimentos de codificação para estudos em uma metanálise sejam apresentadas para que o rigor metodológico da aplicação particular possa ser determinado. Excelentes resumos detalhados de como abordar a localização, recuperação e codificação de estudos são apresentados em Glass et al. (1981) e Hunter et al. (1982) e não estão incluídos aqui.

Também foi sugerido que estatísticas não paramétricas, em vez de paramétricas, são mais apropriadas nas análises quantitativas de resultados de estudos independentes porque as distribuições de tamanhos de efeito são frequentemente altamente assimétricas (Slavin, 1983; Kraemer and Andrews, 1982) [sic]. Métodos não paramétricos foram incorporados em várias metanálises (por exemplo, Hyde, 1981; Kraemer and Andrews, 1982; Mazzuca, 1982), e várias dessas abordagens são descritas no Capítulo 5.

5.1.4 Aplicações Não Relacionadas a Revisões dos Procedimentos Utilizados em Metanálise

Deve-se salientar que vários dos procedimentos empregados em revisões meta-analíticas de pesquisa podem ser utilizados de forma apropriada em situações não relacionadas a revisão de literatura. Medidas de tamanho de efeito são apropriadas e úteis em estudos de pesquisa primária para examinar a força da relação ou tratamento e sua importância prática e significância, e para complementar testes estatísticos tradicionais. Agregar estatísticas e tamanhos de efeito de implementações sucessivas de um programa de treinamento ou educacional é apropriado na avaliação de programas para fornecer estimativas mais estáveis, confiáveis e válidas da eficácia do programa. Um exemplo do insight prático fornecido por essa abordagem na implementação repetida de um programa de treinamento ao longo do tempo é apresentado por Wolf et al. (1984). Esse tipo de agregação possui várias propriedades favoráveis, incluindo o uso de procedimentos, definições e instrumentos de mensuração semelhantes entre diferentes amostras de sujeitos, o que aumenta a validade dos achados, bem como mitiga o problema de “maçãs e laranjas” e várias outras críticas às revisões de pesquisa meta-analíticas.

Adicionalmente, combinar testes e medidas de tamanho de efeito pode ser aplicado a grandes bancos de dados coletados em múltiplas ocasiões ou provenientes de diferentes amostras. Por exemplo, esses procedimentos poderiam ser aplicados aos dados cumulativos de 1972-1985 para o General Social Survey conduzido pelo National Opinion Research Center. De modo semelhante, o U.S. Bureau of the Census disponibiliza dados demográficos, econômicos e sociais sobre 203 países em seu International Data Base, enquanto o National Center for Health Statistics coleta uma ampla gama de dados de saúde em vários pontos no tempo e em diferentes áreas geográficas do país.

Os capítulos restantes resumem os testes combinados mais amplamente utilizados (Capítulo 2); medidas de tamanho de efeito para diferenças entre grupos e relações correlacionais, com atenção à seleção de métricas comuns e ao exame de potenciais efeitos mediadores (Capítulo 3); procedimentos para examinar e reduzir viés e aprimorar a validade e confiabilidade dos resultados de metanálises (Capítulo 4); abordagens não paramétricas à metanálise (Capítulo 5); e algumas das limitações e forças da metanálise e diretrizes para prática (Capítulo 6). Por fim, a bibliografia contém uma listagem abrangente tanto de referências metodológicas quanto de ilustrações de metanálises publicadas. O leitor interessado é remetido a Hedges and Olkin (1985) e Rosenthal (1984), bem como a Glass et al. (1981) e Hunter et al. (1982) para uma discussão de algumas das questões metodológicas mais técnicas concernentes à metanálise e à síntese de pesquisa. Light and Pillemer (1982, 1984) fornecem discussões ponderadas sobre o uso combinado de abordagens quantitativas e qualitativas ao revisar um domínio de pesquisa.

5.2 Capítulo 2. Testes Combinados

Desde que R. A. Fisher (1932) e Karl Pearson (1933) abordaram independentemente a questão de resumir estatisticamente os resultados de testes independentes da mesma hipótese, o interesse nesses tipos de procedimentos tem continuado. Mais recentemente, esse processo tem sido denominado metanálise, para “análise estatística de uma grande coleção de resultados de análises provenientes de estudos individuais com o propósito de integrar os achados” (Glass, 1976: 3). Os métodos revisados aqui são aplicados à análise de resultados da mesma hipótese a partir de diferentes estudos com o propósito de obter um resumo geral que teste a hipótese.

Os métodos estatísticos disponíveis para combinar os resultados de estudos independentes variam desde vários procedimentos de contagem até uma variedade de procedimentos de somatório envolvendo níveis de significância (probabilidades ou suas transformações logarítmicas) ou estatísticas de teste brutas ou ponderadas, tais como estatísticas t e z. Esses procedimentos tornaram-se conhecidos como “testes combinados” e foram ilustrados por Rosenthal (1978a) e Winer (1971), entre outros. Embora uma variedade de testes para combinar os resultados de testes independentes da mesma hipótese tenha sido apresentada (ver Birnbaum, 1954; Rosenthal, 1978a; van Zwet and Oosterhoff, 1967, para revisões desses testes), apenas os procedimentos apresentados por Fisher (1932, 1948), Winer (1971), e Stouffer et al. (1949; Mosteller and Bush, 1954) serão discutidos aqui.

5.2.1 Teste Combinado de Fisher

Ao abordar a questão de combinar os resultados de um número de testes independentes que foram todos planejados para testar uma hipótese comum, Fisher descreveu um método baseado no produto das probabilidades de diferentes ensaios. Se os logaritmos naturais dessas probabilidades forem calculados, multiplicados por menos dois (−2) e então somados, obtém-se uma estatística de teste com distribuição qui-quadrado com graus de liberdade iguais a duas vezes o número de testes combinados (\(2k\)). A transformação logarítmica permite uma função somativa em vez de multiplicativa, simplificando assim os cálculos. Isso pode ser expresso como

\[ X^2 =-2 \sum_{i=1}^{k}{\ln (p_i)} \underset{a}{\sim} \chi^2_{2k} \tag{1} \]

A estatística de teste \(X^2\) obtida na equação 1 possui uma distribuição amostral que é assintoticamente qui-quadrado com graus de liberdade iguais a \(2k\), sendo que \(k\) é o número de testes combinados e \(p_i\) é a probabilidade unilateral associada a cada teste.

Esse procedimento tem sido mostrado como mais assintoticamente ótimo do que alguns outros métodos de combinação (por exemplo, Koziol and Perlman, 1978; Littell and Folks, 1973), embora sofra de várias limitações (Rosenthal, 1978a). Mosteller and Bush (1954) observam que ele pode produzir resultados inconsistentes com um teste de sinal em situações em que a maioria de um número de estudos mostrou resultados em uma direção com valores-p próximos a 0.5 (isto é, acaso). Nessa situação, o teste de sinal poderia facilmente rejeitar a hipótese nula global, enquanto o procedimento de Fisher não o faria. O procedimento de Fisher normalmente produz resultados mais conservadores nessa situação, um resultado não terrivelmente perturbador dadas as recomendações recentes de relatar tamanhos de efeito bem como probabilidades globais ao utilizar testes combinados (McGaw and Glass, 1980; Rosenthal, 1978a). Ou seja, embora o teste de sinal fosse significante nesse caso, o tamanho de efeito provavelmente seria pequeno e, portanto, mais apropriadamente testado pelo método de Fisher, o qual resultaria em não significância.

Uma desvantagem mais séria do procedimento de Fisher é seu suporte à significância de qualquer desfecho quando dois estudos de resultados igualmente significantes em direções opostas são obtidos. Por exemplo, Adcock (1960) descreve uma situação em que \(p < .01\) favorecendo o grupo experimental e \(p < .001\) favorecendo o grupo controle combinam para \(p < .01\) utilizando o procedimento de Fisher. Nesse caso, o teste combinado de Fisher apoia a significância de qualquer um dos desfechos. Apesar dessas limitações, esse procedimento permanece como um dos mais conhecidos e aplicados.

5.2.2 Teste Combinado de Winer

Winer (1971) apresenta um procedimento para combinar testes independentes que deriva diretamente da distribuição amostral de estatísticas t independentes, no qual as estatísticas t associadas a cada teste são somadas e divididas pela raiz quadrada da soma dos graus de liberdade (df) associados a cada t após cada \(\text{df}\) ter sido dividido por \(\text{df} - 2\). Isso pode ser expresso na forma

\[ Z_W = \frac{\sum_{i=1}^{k}{t_i}}{\sqrt{\sum_{i=1}^{k}{\dfrac{\text{df}_i}{\text{df}_i - 2}}}} \tag{2} \]

Esse procedimento baseia-se em \(\text{df}/(\text{df} - 2)\) ser a variância de uma distribuição t, a qual é aproximadamente normalmente distribuída \(\mathcal{N}(0,1)\) quando \(\text{df} \geq 10\). Assim, esse procedimento não é apropriado para testes baseados em amostras muito pequenas (menos que 10). Na prática, entretanto, não é comum que testes de significância sejam aplicados a amostras tão pequenas, minimizando, assim, o efeito dessa desvantagem.

5.2.3 Teste Combinado de Stouffer

Uma terceira abordagem, originalmente atribuída a Stouffer et al. (1949), é descrita de forma mais completa por Mosteller and Bush (1954) e Rosenthal (1978a). É semelhante ao procedimento de Winer de somar os valores de t, com a exceção de que valores-p são convertidos em em valores de z em vez de t, e então somados. O denominador então se simplifica para a raiz quadrada do número de testes combinados, e a expressão completa assume a forma

\[ Z_S = \frac{\sum_{i=1}^{k}{z_i}}{\sqrt{k}} \tag{3} \]

em que \(k\) é o número de testes combinados. Esse procedimento baseia-se no fato de que a soma de desvios normais sendo ela própria um desvio normal, com variância igual ao número de observações somadas.

O procedimento de Stouffer oferece várias vantagens. Os cálculos são mais diretos do que no procedimento de Fisher, que exige transformações logarítmicas, ou no procedimento de Winer, que envolve um ajuste para graus de liberdade. Além disso, os resultados do procedimento z, embora ligeiramente mais poderosos, são virtualmente idênticos aos resultados do procedimento t (Wolf and Spies, 1981). Isso é particularmente verdadeiro quando as estatísticas somadas são derivadas de grandes amostras, uma vez que as abordagens \(\text{df}/(\text{df} - 2)\) aproximam-se da unidade à medida que o tamanho amostral aumenta.

5.2.4 Exemplos Numéricos Ilustrativos

Suponha que desejássemos revisar estudos anteriores que testaram a hipótese de que o exercício físico (e.g.: musculação) pode aumentar o autoconceito ou a autoestima de um indivíduo e que nossa revisão de literatura tenha localizado apenas quatro estudos abordando essa questão de pesquisa. A Tabela 1 apresenta os resultados desses quatro estudos fictícios. Os estudos A e C utilizaram o Inventário de Autoestima de Coopersmith para mensurar autoconceito, enquanto o estudo A utilizou a Escala de Autoconceito do Tennessee e o estudo D utilizou a Escala de Autoestima de Rosenberg.

Os resultados desses estudos independentes indicaram autoestima significantemente maior, em média, para os sujeitos dos grupos de intervenção versus os sujeitos controle nos estudos A (\(p < .01\)) e C (\(p < .05\)), mas não nos estudos B e D. De fato, a autoestima foi maior (não significantemente) para o grupo controle do que para o grupo experimental no estudo B. Resultados discrepantes dessa natureza não são incomuns nas ciências sociais e comportamentais, e a questão permanece: o exercício físico pode melhorar a autoestima? Em uma revisão tradicional da literatura, julgamentos impressionistas seriam feitos com base na leitura e compreensão do revisor de cada um dos estudos. Alguns estudos poderiam ser considerados mais robustos do que outros e, assim, alguns poderiam receber maior peso na formulação das conclusões. A utilização de um teste combinado permitiria que uma generalização estatística fosse feita com respeito à evidência combinada proveniente dos quatro estudos.

Os resultados da Tabela 1 foram resumidos na Tabela 2 para facilitar os cálculos de nossos testes combinados. Deve-se observar que o sinal que precede as estatísticas \(t\) ou \(z\) indica a direção dos resultados, sendo um sinal negativo (−) indicativo de que o resultado foi inconsistente com a maioria dos resultados.

Aplicando a fórmula 1 para o procedimento de Fisher aos resultados dos quatro estudos, obtemos

\[ X^2 = 11.04 + 0.06 + 7.65 + 5.40 = 24.15 \tag{4} \]

Como há quatro testes independentes dessa hipótese, um para cada estudo, existem \(2k\) ou \(2(4)=8\) graus de liberdade. \(X^2 = 24.15\) está associado a \(p = 0.00212 < 0.01\).

1-pchisq(q=24.15, df=8)

[1] 0.002162742

De modo semelhante, ao aplicar a fórmula 2 para o procedimento de Winer aos mesmos dados, obtém-se o seguinte resultado:

\[ Z_W= \frac{2.72 - 1.95 + 2.03 + 1.56} {\sqrt{\dfrac{80}{78} + \dfrac{60}{58} + \dfrac{200}{198} + \dfrac{20}{18}}} \tag{5} \]

\[ Z_W= \frac{4.29}{\sqrt{4.18}} = \frac{4.29}{2.04} = 2.1 \]

A probabilidade de obter esse valor de \(Z_W\) ou maior é 0.018, unilateral.

 1-pnorm(q=2.1)

[1] 0.01786442

Testes de hipótese unilaterais são sempre utilizados por causa da natureza direcional da hipótese, resultante de já se conhecer a direção da maioria dos resultados dos estudos individuais combinados na análise. Rosenthal (1980a) discute essa questão com maior extensão.

Resultados análogos são obtidos na equação 6 quando a fórmula 3 para o procedimento de Stouffer é aplicada aos dados. Nessa abordagem, entretanto, os valores-p unilaterais são convertidos em suas estatísticas \(Z\) análogas e então somados e divididos pela raiz quadrada do número de testes somados. Para obter um nível unilateral de \(p\) razoavelmente exato, pode ser necessário utilizar tabelas estendidas da distribuição \(t\). Estas são fornecidas por Federighi (1959) e reproduzidas em Rosenthal and Rosnow (1984).

\[ Z_S= \frac{2.65 - 1.91 + 2.02 + 1.50} {\sqrt{4}} = \frac{4.26}{\sqrt{4}} = 2.13 \tag{6} \]

A probabilidade de obter esse valor de \(Z_c\) ou maior é 0.017, unilateral.

1-pnorm(q=2.13)

[1] 0.01658581

Independentemente de qual desses testes combinados seja utilizado, a evidência combinada proveniente desses quatro estudos indica que a hipótese nula de ausência de efeito significante comum a cada um dos estudos deve ser rejeitada, se o escopo da inferência for com respeito à população combinada. Interessantemente, o exercício físico parece afetar positivamente a autoestima, mesmo quando os resultados de dois desses quatro estudos não são significantes quando examinados individualmente. As razões para isso são discutidas nos capítulos sobre tamanho de efeito e sobre exame e redução de viés.

Tabela 1: Resultados Hipotéticos de Quatro Estudos Examinando os Efeitos do Exercício sobre a Autoestima

Estudo	Grupo Controle \(n\)	Grupo Controle \(\bar{X}\)	Grupo Experimental \(n\)	Grupo Experimental \(\bar{X}\)	\(\text{sd}\) intra	\(t\)
A	41	11	41	17	10	2.72**
B	29	225	33	175	100	-1.95
C	104	9	98	12	10.5	2.03*
D	11	23	11	31	12	1.56

\(\ast\) \(p < .05\), teste bicaudal; \(\ast\ast\) \(p < .01\), teste bicaudal.

Cálculo de \(t\) na Tabela 1:

Em cada estudo há dois grupos independentes (controle e experimental). Assume-se um desvio-padrão comum intra (within), denotado por \(\text{sd}\) intra. A estatística \(t\) para a diferença entre as médias é calculada por

\[ t=\frac{\Delta}{\text{SE}(\Delta)} =\frac{\bar X_E-\bar X_C}{\text{sd}\sqrt{\dfrac{1}{n_E}+\dfrac{1}{n_C}}} \]

com o número de graus de liberdade igual a \(\text{df}=n_E+n_C-2\).

Estudo A:

Dados: \(n_C=41\), \(\bar X_C=11\), \(n_E=41\), \(\bar X_E=17\), \(\text{sd}=10\).

\[ \Delta=17-11=6 \]

\[ \text{SE}=10\sqrt{\frac{1}{41}+\frac{1}{41}} =10\sqrt{\frac{2}{41}} = 2.209 \]

\[ t=\frac{6}{2.209}= 2.72 \]

Estudo B:

Dados: \(n_C=29\), \(\bar X_C=225\), \(n_E=33\), \(\bar X_E=175\), \(\text{sd}=100\).

\[ \Delta=175-225=-50 \]

\[ \text{SE}=100\sqrt{\frac{1}{29}+\frac{1}{33}} = 25.30 \]

\[ t=\frac{-50}{25.30}= -1.976 \]

Estudo C:

Dados: \(n_C=104\), \(\bar X_C=9\), \(n_E=98\), \(\bar X_E=12\), \(\text{sd}=10.5\).

\[ \Delta=12-9=3 \]

\[ \text{SE}=10.5\sqrt{\frac{1}{104}+\frac{1}{98}} = 1.480 \]

\[ t=\frac{3}{1.480}= 2.03 \]

Estudo D:

Dados: \(n_C=11\), \(\bar X_C=23\), \(n_E=11\), \(\bar X_E=31\), \(\text{sd}=12\).

\[ \Delta=31-23=8 \]

\[ \text{SE}=12\sqrt{\frac{1}{11}+\frac{1}{11}} =12\sqrt{\frac{2}{11}} = 5.116 \]

\[ t=\frac{8}{5.116}= 1.56 \]

## =========================================================
## TABELA 1 – Cálculo de estatística t
## =========================================================

dados <- data.frame(
  estudo = c("A","B","C","D"),
  n_controle = c(41, 29, 104, 11),
  xbar_controle = c(11, 225, 9, 23),
  n_experimental = c(41, 33, 98, 11),
  xbar_experimental = c(17, 175, 12, 31),
  sd_intra = c(10, 100, 10.5, 12)
)

## Estatística t (variâncias homogêneas)

dados$t_calculado <- with(dados,
                          (xbar_experimental - xbar_controle) /
                            (sd_intra * sqrt(1/n_experimental + 1/n_controle))
)

## Arredondar apenas variáveis numéricas

dados[, sapply(dados, is.numeric)] <-
  round(dados[, sapply(dados, is.numeric)], 4)

print(dados, row.names = FALSE)

 estudo n_controle xbar_controle n_experimental xbar_experimental sd_intra
      A         41            11             41                17     10.0
      B         29           225             33               175    100.0
      C        104             9             98                12     10.5
      D         11            23             11                31     12.0
 t_calculado
      2.7166
     -1.9644
      2.0295
      1.5635

Tabela 2: Resultados de quatro estudos independentes utilizados para o cálculo de testes combinados

Estudo	\(t\)	\(\text{df}\)	\(p\) (unilateral)	\(Z\)	\(-2 \ln(p)\)
A	2.72	80	.004	2.65	11.04
B	-1.95	60	.972	-1.91	0.06
C	2.03	200	.024	2.02	7.65
D	1.56	20	.067	1.50	5.40

Para cada estudo são conhecidos:

estatística \(t\)
graus de liberdade \(\text{df}\)

A partir desses valores são calculados:

\(p\) unilateral
estatística normal equivalente \(Z\)
termo \(-2 \ln(p)\) para o teste de Fisher

Cálculo do \(p\) unilateral:

Seja \(T \sim t_{\text{df}}\).

O livro utiliza probabilidade unilateral na cauda superior:

\[ p = P(T \ge t) = 1 - F_{t_{\text{df}}}(t) \]

sendo que \(F_{t_{\text{df}}}(t)\) é a função distribuição acumulada da distribuição t.

Observação importante:

Se \(t > 0\), então \(p < 0.5\)
Se \(t < 0\), então \(p > 0.5\)

Exemplo (Estudo B):

\[ p = 1 - F_{t_{60}}(-1.95) \approx 0.972 \]

Conversão de \(p\) em estatística normal \(Z\):

Deseja-se obter um escore normal padrão equivalente tal que:

\[ Z \sim \mathcal{N}(0,1) \]

\[ P(Z \ge z) = p \]

Logo,

\[ z = \Phi^{-1}(1 - p) \]

sendo que \(\Phi^{-1}\) é a função quantil da normal padrão.

Consequência:

Se \(p < 0.5\), então \(Z > 0\)
Se \(p > 0.5\), então \(Z < 0\)

Exemplo (Estudo B):

\[ Z = \Phi^{-1}(1 - 0.972) \approx -1.91 \]

Cálculo do termo de Fisher:

O teste combinado de Fisher utiliza:

\[ X^2 = -2 \sum_{i=1}^{4}{\ln(p_i)} \]

Logo, para cada estudo calcula-se

\[ -2 \ln(p_i) \]

Exemplo (Estudo A):

\[ -2 \ln(0.004) = -2(-5.52) = 11.04 \]

Resumo das transformações:

Para cada estudo:

\(t \longrightarrow p\) via distribuição t
\(p \longrightarrow Z\) via distribuição normal padrão
\(p \longrightarrow -2\ln(p)\) para o teste de Fisher

Essas transformações permitem aplicar:

Teste combinado de Fisher (soma dos \(-2\ln(p)\))
Teste combinado de Winer (soma ponderada dos \(t\))
Teste combinado de Stouffer (soma dos \(Z\))

## =========================================================
## TABELA 2 – Reproduzir p (unilateral), Z e -2 ln(p)
## =========================================================

tab2 <- data.frame(
  estudo = c("A","B","C","D"),
  t  = c(2.72, -1.95, 2.03, 1.56),
  df = c(80, 60, 200, 20)
)

## p unilateral (cauda superior) como na Tabela 2
tab2$p_unilateral <- with(tab2, 1 - pt(t, df))

## Z correspondente
tab2$Z <- with(tab2, qnorm(1 - p_unilateral))

## -2 ln(p)
tab2$minus2_logp <- with(tab2, -2 * log(p_unilateral))

## arredondar para bater com a tabela
tab2$p_unilateral <- round(tab2$p_unilateral, 3)
tab2$Z            <- round(tab2$Z, 2)
tab2$minus2_logp   <- round(tab2$minus2_logp, 2)

print(tab2, row.names = FALSE)

 estudo     t  df p_unilateral     Z minus2_logp
      A  2.72  80        0.004  2.65       11.04
      B -1.95  60        0.972 -1.91        0.06
      C  2.03 200        0.022  2.02        7.65
      D  1.56  20        0.067  1.50        5.40

## =========================================================
## Tabela – Testes combinados: Fisher (X^2), Winer (Z_W) e Stouffer (Z_S)
## =========================================================

## Valores já obtidos nas equações (4)–(6)
X2  <- 24.15
dfX <- 8

Z_W <- 2.10
Z_S <- 2.13

## Valores-p (unilaterais)
p_X2 <- 1 - pchisq(q = X2, df = dfX)
p_ZW <- 1 - pnorm(q = Z_W)
p_ZS <- 1 - pnorm(q = Z_S)

tab_testes <- data.frame(
  "Estatística" = c("X^2", "Z_W", "Z_S"),
  Valor = c(X2, Z_W, Z_S),
  df = c(dfX, NA, NA),
  p = c(p_X2, p_ZW, p_ZS),
  check.names = FALSE
)

tab_testes$Valor <- round(tab_testes$Valor, 2)
tab_testes$p     <- formatC(tab_testes$p, format = "f", digits = 5)

knitr::kable(
  tab_testes,
  caption = "Testes combinados e valores-p (unilaterais)."
)

Testes combinados e valores-p (unilaterais).
Estatística	Valor	df	p
X^2	24.15	8	0.00216
Z_W	2.10	NA	0.01786
Z_S	2.13	NA	0.01659

Apesar de dois estudos individuais não terem sido significantes para nível de significância de 5% isoladamente, a evidência combinada indica efeito global positivo do exercício físico sobre autoestima.

A diferença entre os três métodos é pequena, confirmando a robustez da conclusão.

Fisher produz evidência mais forte porque combina probabilidades exponencialmente; Winer e Stouffer operam na escala normal e tendem a produzir resultados muito próximos entre si.

5.2.5 Seleção de um Teste Combinado

Em termos práticos, os resultados dos vários testes combinados são tipicamente consistentes entre si. As várias forças e limitações de cada um foram resumidas brevemente. A facilidade de cálculo pode ser uma consideração importante. Se os resultados de todos os estudos independentes forem apresentados como estatísticas \(t\), então é relativamente simples utilizar o procedimento de Winer. Se estudos independentes reportarem estatísticas diferentes, então pode ser necessário transformá-las em seus valores-\(p\) unilaterais apropriados para combinar os resultados. O procedimento de Fisher tem a vantagem de ser o mais assintoticamente eficiente entre os testes combinados (Koziol and Perlman, 1978; Littell and Folks, 1973), mas isso pode ser ponderado em relação aos cálculos relativamente mais diretos do procedimento de Stouffer. Em termos práticos, a diferença nos resultados entre esses procedimentos é pequena.

5.3 Capítulo 3. Medidas de Tamanho de Efeito

Testes estatísticos, como os procedimentos combinados descritos anteriormente, fornecem um índice-resumo da significância estatística dos resultados relativos a uma hipótese. Como os testes estatísticos não fornecem, contudo, qualquer informação sobre a magnitude da relação ou do efeito de interesse, é desejável acompanhar os testes combinados com índices de tamanho de efeito.

A exposição e aplicação da metanálise por Glass baseia-se fortemente no uso de medidas de tamanho de efeito, resumidas de forma eloquente por Cohen (1977: 9-10):

“Sem pretender qualquer implicação necessária de causalidade, é conveniente usar a expressão ‘tamanho de efeito’ para significar ‘o grau em que o fenômeno está presente na população’, ou ‘o grau em que a hipótese nula é falsa’. Qualquer que seja a forma de representação de um fenômeno em uma pesquisa específica, no presente tratamento, a hipótese nula sempre significa que o tamanho de efeito é zero.”

McGaw e Glass (1980) e Glass et al. (1981) fornecem orientações úteis para converter várias estatísticas-resumo em uma métrica comum, usualmente na forma do coeficiente de correlação produto-momento de Pearson. Cohen (1965, 1977) apresenta medidas de tamanho de efeito para muitos testes estatísticos usuais. As medidas de tamanho de efeito para testes t entre duas médias de grupo, como entre grupo experimental e grupo controle ou comparações pré-teste/pós-teste, são ilustradas aqui. O leitor deve consultar as referências mencionadas para medidas de tamanho de efeito apropriadas a testes estatísticos diferentes daqueles adequados para: (1) diferenças entre dois grupos avaliadas pelo teste t de Student; e (2) grau de associação entre duas variáveis mensurado pelo coeficiente de correlação produto-momento de Pearson \(r\).

5.3.1 Diferenças entre grupos

O objetivo é obter um número puro, livre da unidade original de medida, com o qual se possa indexar aquilo que pode ser alternativamente chamado de grau de afastamento da hipótese nula em direção à hipótese alternativa, ou o tamanho de efeito (ES) que se deseja detectar. Isso é realizado padronizando o tamanho de efeito bruto, expresso na unidade de medida da variável dependente, dividindo-o pelo desvio-padrão (comum) das medidas em suas respectivas populações, este também na unidade original de medida (Cohen, 1977: 20).

Seja

\[ d = \frac{|\mu_1 - \mu_2|}{\sigma} \tag{7} \]

em que \(d\) é o índice de tamanho de efeito para testes \(t\) de médias em unidade padronizada, \(M_1\) e \(M_2\) são as médias populacionais na unidade original de medida, e \(\sigma\) é o desvio-padrão de qualquer uma das populações (assumindo homogeneidade de variâncias).

Na prática, utilizam-se as médias e o desvio-padrão amostrais como aproximações dos correspondentes valores populacionais, e a equação torna-se

\[ d = \frac{|\bar{X}_1 - \bar{X}_2|}{S} \tag{8} \]

Assim, o valor da diferença absoluta entre as duas médias de grupo é dividido pelo desvio-padrão para obter uma estimativa padronizada e invariante à escala do tamanho do efeito. O desvio-padrão utilizado é tipicamente o do grupo controle ou o do pré-teste, pois se assume que as variâncias dos dois grupos são iguais e que esses são os grupos para os quais se deseja mudança. Alternativamente, pode-se utilizar o desvio-padrão combinado (pooled) dentro dos grupos, o que é preferido por alguns pesquisadores.

5.3.2 Exemplo Numérico Ilustrativo

Retornando ao exemplo que testa a hipótese de pesquisa de que o exercício físico pode melhorar o autoconceito, os resultados de nossos quatro estudos independentes na Tabela 1 são resumidos novamente na Tabela 3. O tamanho de efeito (ES) é calculado separadamente para cada um dos quatro estudos.

Se a Equação 8 for aplicada aos resultados do Estudo A, por exemplo, obtemos:

\[ d = \frac{\lvert 11 - 17 \rvert}{10} = \frac{6}{10} = 0.6 \]

O valor de \(d\) é calculado de forma análoga para os demais estudos. Obtém-se o valor absoluto de \(d\) (a diferença padronizada entre as duas médias) e, em seguida, atribui-se um sinal positivo (+) ou negativo (−).

Valores positivos são atribuídos a valores de \(d\) associados a resultados favoráveis ao grupo experimental (ou pós-teste), enquanto valores negativos são atribuídos a valores de \(d\) associados a resultados favoráveis ao grupo controle (ou pré-teste). No exemplo, os tamanhos de efeito (\(d\)) para os estudos A, C e D recebem sinal positivo, enquanto o tamanho de efeito do estudo B recebe sinal negativo.

Após calcular o tamanho de efeito para cada estudo independente, utiliza-se a média desses tamanhos de efeito para representar a estimativa global do tamanho de efeito nos quatro estudos:

\[ d_{\text{médio}} = \frac{\sum_{i=1}^{k}{d_i}}{k} \]

em que \(d\) é o tamanho de efeito de cada estudo independente e \(k\) é o número de estudos. Assim, para o exemplo da Tabela 3, temos:

\[ d_{\text{médio}} = \frac{0.60 - 0.50 + 0.43 + 0.75}{4} = 0.32 \]

Com base nesse resultado, pode-se afirmar que o exercício melhora o autoconceito em aproximadamente 0.32 desvios-padrão. Essa estimativa é independente da métrica utilizada para medir autoconceito. Recorde-se que foram utilizadas três medidas distintas como variáveis dependentes: a escala de Coopersmith nos estudos A e C, a escala de Tennessee no estudo B e a escala de Rosenberg no estudo D. Essas medidas diferem tanto no número quanto no formato dos itens que as compõem.

Tabela 3: Resultados e tamanhos de efeito para quatro estudos independentes

Estudo	Média Controle	Média Experimental	\(\text{sd}\) intra	\(d\)	\(U_3\) (%)
A	11	17	10	0.60	72.6
B	225	175	100	-0.50	30.9
C	9	12	7	0.43	66.6
D	23	31	12	0.75	77.3
Média	—	—	—	0.32	62.5

controle      <- c(11, 225, 9, 23)
experimental  <- c(17, 175, 12, 31)
sd_intra      <- c(10, 100, 7, 12)

d <- (experimental - controle) / sd_intra
U3 <- pnorm(d) * 100

dados <- data.frame(
  Estudo = c("A","B","C","D"),
  Controle = controle,
  Experimental = experimental,
  "sd intra" = sd_intra,
  d = round(d, 2),
  U3 = round(U3, 1),
  check.names = FALSE
)

media_d  <- mean(d)
media_U3 <- mean(U3)

print(rbind(dados,
      c("Média", NA, NA, NA, round(media_d,2), round(media_U3,1))),
      row.names = FALSE)

 Estudo Controle Experimental sd intra    d   U3
      A       11           17       10  0.6 72.6
      B      225          175      100 -0.5 30.9
      C        9           12        7 0.43 66.6
      D       23           31       12 0.67 74.8
  Média     <NA>         <NA>     <NA>  0.3 61.2

5.3.3 Interpretação dos tamanhos de efeito para estudos de diferenças entre grupos

Uma vez calculado o tamanho de efeito, é desejável e importante interpretar o seu significado. Um procedimento consiste em construir um intervalo de confiança de 95% ou 99% em torno do tamanho de efeito médio para verificar se ele inclui o valor zero. É prática usual relatar o desvio-padrão associado ao tamanho de efeito médio entre os estudos, a fim de fornecer um índice da variabilidade envolvida.

No exemplo apresentado, \(S = 0.56\) é o desvio-padrão associado a \(d_{\text{médio}} = 0.32\). É possível construir intervalos de confiança ao redor do tamanho de efeito médio. O intervalo de confiança de 95% para \(d_{\text{médio}} = 0.32\) abrange aproximadamente \([-0.23,\; 0.87]\). Idealmente, o tamanho de efeito médio não deveria incluir zero, para que haja maior evidência de um efeito significante ao longo dos estudos.

d <- c(0.60, -0.50, 0.43, 0.75)
k <- length(d)

dbar <- mean(d)

# Desvio-padrão amostral dos d_i
S <- sqrt(sum((d - dbar)^2)/(k - 1))
S

[1] 0.5620795

# Erro-padrão do d_medio
SE <- S/sqrt(k)
SE

[1] 0.2810397

# IC 95%
IC <- dbar + c(-1, 1)*1.96*SE
print(IC, digits=2)

[1] -0.23  0.87

Outra abordagem consiste em examinar o campo profissional específico em que a pesquisa foi conduzida. Por exemplo, Haase et al. (1982) calcularam a distribuição dos tamanhos de efeito para cada estatística inferencial univariada publicada no Journal of Counseling Psychology entre 1970 e 1979. Sugeriram que o efeito mediano dessa distribuição poderia servir como padrão razoável de comparação para avaliar a magnitude de efeitos experimentais na área. Wolf et al. (1984) utilizaram essa estratégia para interpretar os efeitos de um programa de treinamento em habilidades de comunicação.

Frequentemente, contudo, não há distribuição de referência disponível. Cohen (1977) propôs diretrizes aproximadas:

\(d = 0.2\) (efeito pequeno)
\(d = 0.5\) (efeito médio)
\(d = 0.8\) (efeito grande)

com a ressalva de que é preferível obter padrões comparativos diretamente da literatura da área.

Observa-se que uma melhora de 0.50 desvios-padrão em escores de desempenho é frequentemente considerada medida convencional de significância prática (Rossi e Wright, 1977). De modo semelhante, o National Institute of Education’s Joint Dissemination Review Panel indicou que melhorias entre 0.25 e 0.33 desvios-padrão são consideradas educacionalmente significativas (Tallmadge, 1977).

Tamanhos de efeito expressos em unidades de desvio-padrão nem sempre são facilmente interpretáveis. Cohen (1977) apresentou uma tabela que converte \(d\) em medidas de não sobreposição entre distribuições, denominada \(U_3\), posteriormente incorporada por Glass na metanálise.

Nesse procedimento, transforma-se \(d\) em uma representação gráfica do grau de sobreposição entre os grupos controle e experimental. O valor \(U_3\) corresponde ao percentil da distribuição normal associado a \(d\):

\[ U_3 = \Phi(d) \]

em que \(\Phi(\cdot)\) é a função de distribuição acumulada da normal padrão.

No exemplo, para \(d_{\text{médio}} = 0.32\):

\[ U_3 = \Phi(0.32) = 0.625 \]

pnorm(q=0.32)

[1] 0.6255158

Isso significa que o indivíduo médio submetido ao exercício apresenta escore de autoconceito superior a 62.5% dos indivíduos do grupo controle. Em termos percentílicos, o exercício físico desloca o indivíduo típico do 50º para o 62.5º percentil da distribuição de autoconceito do grupo não exercitado.

A sobreposição entre distribuições pode ser representada graficamente para facilitar a interpretação, como pode ser visto na Figura 1. Outros métodos gráficos incluem distribuições de frequência dos tamanhos de efeito sintetizados na metanálise.

Figura 1: Tamanho de efeito médio em unidades de desvio-padrão (Sd<sub>x</sub>)

Figura 1: Tamanho de efeito médio em unidades de desvio-padrão (Sd_x)

5.3.4 Relações Correlacionais

Os métodos para sintetizar os resultados de estudos correlacionais que relatam a relação entre duas variáveis, ambas mensuradas em escalas intervalares ou de razão, são relativamente diretos. Essencialmente, obtém-se uma média das correlações entre as duas variáveis que examinam a mesma questão de pesquisa em estudos distintos. Isso é tipicamente feito por meio da média dos coeficientes de correlação de Pearson brutos (\(r\)), utilizando a fórmula 12, ou transformando cada \(r\) em sua estatística \(Z\) associada por meio da transformação \(r\)-para-\(Z\) de Fisher. Esses \(Z\) são então promediados utilizando a fórmula 13 e, posteriormente, transformados de volta para \(r\). Tipicamente, \(\bar r\) (média de \(r\)) e não \(\bar Z_r\) (média de Fisher \(r\)) ou \(r^2\) é utilizado e reportado como indicador de tamanho de efeito.

\[ \bar r = \frac{\sum_{i=1}^{k}{r_i}}{k} \tag{12} \]

sendo que \(r\) é a correlação de Pearson de cada estudo e \(k\) é o número de coeficientes de correlação combinados.

\[ \bar Z_r = \frac{\sum_{i=1}^{k}{Z_{r,i}} }{k} \tag{13} \]

sendo que \(Z_{r,i}\) é o \(Z\) de Fisher para cada \(r\) e \(k\) é o número de coeficientes de correlação combinados.

Há alguma discussão na literatura sobre a necessidade de utilizar a transformação \(r\)-para-\(Z\) de Fisher na metanálise. Muitos pesquisadores relatam tanto \(\bar r\) quanto \(\bar Z_r\), e, do ponto de vista prático, as diferenças são pequenas, embora Schmidt, Hunter e seus colegas (Hunter et al., 1982; Schmidt et al., 1980) tenham relatado uma instância em que o uso da transformação \(Z\) de Fisher resultou em um valor maior (aproximadamente 0.07). Fisher (1932) observou que \(Z\) tende a superestimar ligeiramente a correlação populacional \(\rho\), mas que a diferença é desprezível, exceto quando o tamanho amostral é pequeno enquanto a correlação populacional é grande. O leitor interessado é remetido à discussão dessa questão em Glass et al. (1981), Hunter et al. (1982) e Rosenthal (1984). Hunter et al. e outros recomendam o uso de uma média ponderada em que cada correlação é ponderada pelo número de sujeitos naquele estudo específico. Novamente, muitos pesquisadores preferem discutir essa média ponderada juntamente com a média não ponderada. Um exemplo é apresentado no capítulo sobre exame e redução de viés.

5.3.5 Exemplo Numérico Ilustrativo

Suponha que desejássemos revisar estudos anteriores que testaram a hipótese de que a renda pessoal estava significantemente relacionada à autoestima, e que nossa revisão de literatura tenha identificado apenas quatro estudos fictícios que abordaram essa questão. Os resultados desses estudos estão resumidos na Tabela 4.

Tabela 4: Correlações de Pearson entre renda pessoal e autoestima em quatro estudos fictícios

Estudo	\(n\)	\(r_{xy}\)	\(Z_r\)
A	16	.13	.13
B	82	.56**	.63
C	102	-.24*	-.25
D	47	.67**	.81

\(\ast\) \(p < .05\), teste bicaudal; \(\ast\ast\) \(p < .01\), teste bicaudal.

## =========================================================
## Tabela 4 – Cálculo do valor-p para cada correlação
## Teste t para H0: ρ = 0
## =========================================================

tab4 <- data.frame(
  estudo = c("A","B","C","D"),
  n = c(16, 82, 102, 47),
  r = c(0.13, 0.56, -0.24, 0.67)
)

## Estatística t:
## t = r * sqrt( (n-2) / (1 - r^2) )
tab4$df <- tab4$n - 2
tab4$t  <- with(tab4, r * sqrt(df / (1 - r^2)))

## Valor-p bicaudal:
## p = 2 * (1 - F_t(|t|))
tab4$p_two_tailed <- with(tab4,
                          2 * (1 - pt(abs(t), df))
)

## Arredondar
tab4[, c("r","t","p_two_tailed")] <-
  round(tab4[, c("r","t","p_two_tailed")], 4)

print(tab4, row.names = FALSE)

 estudo   n     r  df       t p_two_tailed
      A  16  0.13  14  0.4906       0.6313
      B  82  0.56  80  6.0457       0.0000
      C 102 -0.24 100 -2.4723       0.0151
      D  47  0.67  45  6.0543       0.0000

Aplicando a fórmula 12 a esses quatro estudos, obtemos

\[ \bar r = \frac{.13 + .56 - .24 + .67}{4} = .28 \tag{14} \]

De modo semelhante, quando a fórmula 13 para a transformação \(r\)-para-\(Z\) de Fisher é utilizada, obtemos

\[ \bar Z_r = \frac{.13 + .63 - .25 + .81}{4} = .33 \tag{15} \]

Quando transformamos um \(\bar Z_r\) de .33 de volta para \(\bar r\), verificamos que isso resulta em \(r = .32\), valor .04 maior do que a média dos coeficientes de correlação brutos.

## =========================================================
## Tabela 4 – Média de r e média via transformação r->Z de Fisher
## =========================================================

tab4 <- data.frame(
  estudo = c("A","B","C","D"),
  n = c(16, 82, 102, 47),
  r_xy = c(0.13, 0.56, -0.24, 0.67)
)

## ---------------------------------------------------------
## (14) Média simples dos coeficientes r
## ---------------------------------------------------------
r_bar <- mean(tab4$r_xy)

## ---------------------------------------------------------
## (15) Média via transformação r->Z de Fisher:
## Z_r = atanh(r)  e  r = tanh(Z_r)
## ---------------------------------------------------------
tab4$Z_r <- atanh(tab4$r_xy)          # Fisher r-to-Z
Z_bar <- mean(tab4$Z_r)               # média de Z_r
r_from_Zbar <- tanh(Z_bar)            # volta para r

## ---------------------------------------------------------
## Resultados
## ---------------------------------------------------------
resultado <- list(
  r_bar = r_bar,
  Z_bar = Z_bar,
  r_from_Zbar = r_from_Zbar,
  diferenca = r_from_Zbar - r_bar
)

print(lapply(resultado, function(x) round(x, 4)))

$r_bar
[1] 0.28

$Z_bar
[1] 0.3324

$r_from_Zbar
[1] 0.3207

$diferenca
[1] 0.0407

Frequentemente, boxplot é utilizado para resumir um grande número de correlações encontradas em uma busca na literatura. Suponha que tenhamos encontrado 15 estudos relatando as seguintes correlações (\(r\)) entre renda pessoal e autoestima: .20, .17, .41, −.24, .27, .34, .37, −.06, .26, .67, .37, .23, .38, .35 e .40, respectivamente. Um diagrama de ramo e folha (Tukey, 1977) semelhante ao apresentado na Tabela 5 poderia ser construído para resumir os resultados de nossa metanálise desses 15 estudos. Por exemplo, a maior dessas 15 correlações, .67, seria representada no diagrama de ramo e folha da Tabela 5 colocando o primeiro dígito (.6) como o ramo e o segundo dígito (.07) como a folha. A tabela é construída para incluir ramos para todos os valores entre as maiores e menores correlações (−.24 em nosso exemplo). Cada correlação é então incluída na apresentação de maneira semelhante à descrita para .67.

Medidas de tendência central (por exemplo, média, mediana, média ponderada) e de variabilidade (por exemplo, máximo, mínimo, desvio-padrão) são tipicamente incluídas em uma apresentação de ramo e folha para facilitar a interpretação do conjunto de correlações.

## =========================================================
## Dados
## =========================================================

r <- c(
  0.20, 0.17, 0.41, -0.24, 0.27,
  0.34, 0.37, -0.06, 0.26, 0.67,
  0.37, 0.23, 0.38, 0.35, 0.40
)

## =========================================================
## Estatísticas-resumo
## =========================================================

resumo <- data.frame(
  n = length(r),
  minimo = min(r),
  Q1 = as.numeric(quantile(r, 0.25, type = 7)),
  mediana = median(r),
  Q3 = as.numeric(quantile(r, 0.75, type = 7)),
  maximo = max(r),
  media = mean(r),
  desvio_padrao = sd(r)
)

print(round(resumo, 3), row.names = FALSE)

  n minimo    Q1 mediana    Q3 maximo media desvio_padrao
 15  -0.24 0.215    0.34 0.375   0.67 0.275         0.211

## =========================================================
## Boxplot (um único gráfico)
## =========================================================

boxplot(r,
        horizontal = TRUE,
        xlab = "Correlação (r)",
        main = "Boxplot das correlações (Tabela 5)")

5.3.6 Interpretando Tamanhos de Efeito em Estudos Correlacionais

As questões envolvendo a interpretação do que constitui um grande efeito em estudos correlacionais são semelhantes às anteriormente discutidas para estudos de diferenças entre grupos. É sempre preferível consultar a literatura de pesquisa para padrões de avaliação como aqueles fornecidos por Haase et al. (1982) para pesquisas em psicologia do aconselhamento. Na ausência de tais padrões, Cohen (1977) novamente fornece diretrizes aproximadas para tamanhos de efeito pequenos (\(r = .10\)), intermediários (\(r = .30\)) e grandes (\(r = .50\)). Assim, uma correlação média de aproximadamente .28 sugere um efeito de magnitude intermediária para a relação entre renda pessoal e autoestima. Reconhecidamente, essas diretrizes são de natureza algo arbitrária. Mantendo essa arbitrariedade em mente, entretanto, elas podem ser úteis para situar correlações dentro de algum contexto interpretativo.

Sem resolver o problema da interpretação de efeitos correlacionais, Rosenthal e Rubin (1982) fornecem uma maneira mais intuitiva, esclarecedora e talvez útil de avaliar a importância prática dos coeficientes de correlação. Esse procedimento baseia-se na transformação matemática de um coeficiente de correlação (\(r\)) em qui-quadrado (\(\chi^2\)) e fornece o que Rosenthal e Rubin (1982) chamam de “apresentação binomial do tamanho de efeito” (BESD) para tabelas \(2 \times 2\). O BESD é a diferença estimada nas probabilidades de sucesso entre tratamento e controle. Em termos práticos, essa transformação é simples de calcular e permite interpretar mais facilmente \(r\) em termos do efeito sobre proporções de sucesso ou melhoria atribuíveis a procedimentos de tratamento. Por exemplo, em nosso estudo fictício encontramos uma correlação média de .28 para 15 estudos da relação entre renda pessoal e autoestima. Isso indica que aproximadamente 8 por cento da variabilidade na autoestima está associada à variabilidade na renda pessoal, com maior renda pessoal associada a maior autoestima. Esse valor de 8 por cento decorre do procedimento tradicional de utilizar o quadrado do coeficiente de correlação como estimativa da variância compartilhada (\(r^2\)) entre as duas variáveis correlacionadas. Em nosso exemplo, \(r^2 = (.28)^2 = .08\). A Tabela 6 apresenta uma correlação de .28 em termos do BESD.

## =========================================================
## Teste Qui-Quadrado – Tabela 2x2 (BESD)
## =========================================================

## Matriz de contingência
tab <- matrix(c(64, 36,
                36, 64),
              nrow = 2,
              byrow = TRUE)

dimnames(tab) <- list(
  Renda = c("Abaixo_mediana", "Acima_mediana"),
  Autoestima = c("Negativa", "Positiva")
)

tab

                Autoestima
Renda            Negativa Positiva
  Abaixo_mediana       64       36
  Acima_mediana        36       64

## ---------------------------------------------------------
## Teste qui-quadrado de independência
## ---------------------------------------------------------

teste_chi <- chisq.test(tab, correct = FALSE)
print(teste_chi)


    Pearson's Chi-squared test

data:  tab
X-squared = 15.68, df = 1, p-value = 7.501e-05

print(DescTools::CramerV(tab))

[1] 0.28

print(r <- psych::phi(tab))

[1] 0.28

print(r^2)

[1] 0.0784

Tabela 6: Ilustração da Apresentação Binomial do Tamanho de Efeito para \(\bar r = .28\) entre Renda Pessoal e Autoestima

Renda Pessoal	Autoestima Negativa	Autoestima Positiva	Total
Abaixo da mediana	64	36	100
Acima da mediana	36	64	100
Total	100	100	200

Para fins de ilustração, se a renda pessoal fosse categorizada acima e abaixo da mediana e a autoestima fosse categorizada como positiva ou negativa, uma correlação de .28 corresponderia a um aumento na proporção de sucesso (isto é, autoestima positiva) de 28 por cento. Ter renda pessoal acima da média estaria associada a um aumento na porcentagem de pessoas com autoestima positiva de aproximadamente 36 para 64 por cento.

A Tabela 7 fornece um resumo dos valores correspondentes de BESD e das mudanças nas proporções de sucesso associadas a vários valores de \(r\). Do ponto de vista prático, pode-se argumentar que uma correlação de 0.2 ou maior, que seja baseada em uma amostra suficientemente grande para ser estatisticamente significante, é significativa em termos substantivos, uma vez que \(r = 0.2\) traduz-se em uma melhoria na proporção de sucesso de 40 para 60 por cento. Certamente, correlações de 0.3 e 0.4 são significantes e relevantes, particularmente se baseadas em resultados obtidos em muitos estudos com grandes números de sujeitos representativos.

Tabela 7: Apresentações binomiais do tamanho de efeito para vários coeficientes de correlação

\(r\)	\(r^2\)	Proporção de Sucesso (De)	Proporção de Sucesso (Para)
.10	.01	.45	.55
.20	.04	.40	.60
.30	.09	.35	.65
.40	.16	.30	.70
.50	.25	.25	.75
.60	.36	.20	.80
.70	.49	.15	.85
.80	.64	.10	.90
.90	.81	.05	.95

Fonte: Adaptado de Rosenthal e Rubin (1982a).

É evidente a partir da Tabela 7 que a melhoria na proporção de sucesso é equivalente à magnitude de \(r\). Isto é, uma correlação de .28 traduz-se em uma melhoria de 28 por cento (64 por cento − 36 por cento). Essas proporções de sucesso são obtidas a partir da fórmula 16.

\[ \text{Proporção de sucesso} = 0.5 \pm \frac{r}{2} \tag{16} \]

## =========================================================
## Tabela 7 – BESD (Binomial Effect Size Display)
## =========================================================

## Valores de r
r <- seq(0.1, 0.9, by = 0.1)

## r^2
r2 <- r^2

## Proporções de sucesso (Fórmula 16)
## Proporção = 0.5 ± r/2
sucesso_de   <- 0.5 - r/2
sucesso_para <- 0.5 + r/2

tabela7 <- data.frame(
  r = r,
  r2 = r2,
  proporcao_de = sucesso_de,
  proporcao_para = sucesso_para
)

print(round(tabela7, 2), row.names = FALSE)

   r   r2 proporcao_de proporcao_para
 0.1 0.01         0.45           0.55
 0.2 0.04         0.40           0.60
 0.3 0.09         0.35           0.65
 0.4 0.16         0.30           0.70
 0.5 0.25         0.25           0.75
 0.6 0.36         0.20           0.80
 0.7 0.49         0.15           0.85
 0.8 0.64         0.10           0.90
 0.9 0.81         0.05           0.95

## =========================================================
## Exemplo específico: r = 0.28
## =========================================================

r_ex <- 0.28

prop_de   <- 0.5 - r_ex/2
prop_para <- 0.5 + r_ex/2
melhoria  <- prop_para - prop_de

cat("\nPara r =", r_ex, "\n")


Para r = 0.28

cat("Proporção (De):", round(prop_de, 2), "\n")

Proporção (De): 0.36

cat("Proporção (Para):", round(prop_para, 2), "\n")

Proporção (Para): 0.64

cat("Melhoria absoluta:", round(melhoria, 2), "\n")

Melhoria absoluta: 0.28

cat("Melhoria percentual:", round(melhoria*100, 0), "%\n")

Melhoria percentual: 28 %

5.3.7 Seleção de uma Métrica Comum

Frequentemente, ao revisar a literatura referente a uma questão específica de pesquisa, o revisor encontra estudos que utilizam diferentes delineamentos de pesquisa. Alguns estudos podem relatar resultados como diferenças entre grupos utilizando estatísticas \(t\), \(F\) ou outras estatísticas, enquanto outros estudos podem relatar resultados como associações entre variáveis utilizando \(\chi^2\), \(r\) ou outras estatísticas. Para conduzir uma avaliação empírica dessa literatura por meio de procedimentos de metanálise, é necessário converter todas essas diversas estatísticas-resumo em uma métrica comum simples ou tamanho de efeito, a fim de agregá-las e sintetizá-las.

Talvez a estatística ou medida de tamanho de efeito mais comumente selecionada para esse propósito seja a Correlação Produto-Momento de Pearson, \(r\). Um procedimento alternativo seria converter essas várias estatísticas-resumo no índice de tamanho de efeito \(d\). Diretrizes para converter as estatísticas de teste mais comuns em \(r\) ou \(d\) são resumidas nas Tabelas 8 e 9, respectivamente. Cohen (1965, 1977), Friedman (1968), Glass et al. (1981) e Rosenthal (1984) discutem esse procedimento e fornecem orientações para transformar outras estatísticas comuns.

Uma vez que \(r\) ou \(d\) seja selecionado como a métrica comum a ser utilizada na metanálise, cada estatística é convertida para essa métrica comum e os resultados de cada estudo independente são então agregados utilizando os métodos previamente descritos.

Tabela 8: Diretrizes para converter várias estatísticas de teste em \(r\)

Estatística a ser Convertida	Fórmula de Transformação para \(r\)	Comentário
\(t\)	\(r = \sqrt{\dfrac{t^2}{t^2 + \text{df}}}\)
\(F\)	\(r = \sqrt{\dfrac{F}{F + \text{df}_{\text{erro}}}}\)	Usar apenas para comparação de duas médias (i.e., \(\text{df}_{\text{numerador}} = 1\))
\(\chi^2\)	\(r = \sqrt{\dfrac{\chi^2}{n}}\)	\(n\) = tamanho da amostra. Usar apenas em tabela \(2 \times 2\) (\(\text{df} = 1\))
\(d\)	\(r = \dfrac{d}{\sqrt{d^2 + 4}}\)

Tabela 9: Diretrizes para converter várias estatísticas de teste em \(d\)

Estatística a ser Convertida	Fórmula de Transformação para \(d\)	Comentário
\(t\)	\(d = \dfrac{2t}{\sqrt{\text{df}}}\)
\(F\)	\(d = \dfrac{2\sqrt{F}}{\sqrt{\text{df}_{\text{erro}}}}\)	Usar apenas para comparação de duas médias de grupo (i.e., \(\text{df}_{\text{numerador}} = 1\))
\(r\)	\(d = \dfrac{2r}{\sqrt{1 - r^2}}\)

# convert from d to Hedges' g or odds ratio
esc::hedges_g(d = 0.75, totaln = 50)

[1] 0.7382199

esc::odds_ratio(d = .3)

[1] 1.723126

# convert from odds ratio to eta_squared
esc::eta_squared(or = 1.3)

[1] 0.01024726

# convert from f or r to d
esc::cohens_d(f = .3)

[1] 0.6

esc::cohens_d(r = .28)

[1] 0.5833333

# functions are vectorized
esc::hedges_g(c(0.75, .3), c(50, 70))

[1] 0.7382199 0.2966790

esc::cohens_f(r = c(.1, .2, .3))

[1] 0.1005038 0.2041241 0.3144855

# CALCULATE SEVERAL EFFECT SIZES BASED ON CORRELATION STATISTIC: 

compute.es::res(r=.28, n=30)

Mean Differences ES: 
 
 d [ 95 %CI] = 0.58 [ -0.17 , 1.34 ] 
  var(d) = 0.15 
  p-value(d) = 0.14 
  U3(d) = 72.02 % 
  CLES(d) = 66 % 
  Cliff's Delta = 0.32 
 
 Correlation ES: 
 
 r [ 95 %CI] = 0.28 [ -0.09 , 0.58 ] 
  var(r) = 0.03 
  p-value(r) = 0.15 
 
 z [ 95 %CI] = 0.29 [ -0.09 , 0.66 ] 
  var(z) = 0.04 
  p-value(z) = 0.15 
 
 Odds Ratio ES: 
 
 OR [ 95 %CI] = 2.88 [ 0.73 , 11.4 ] 
  p-value(OR) = 0.14 
 
 Log OR [ 95 %CI] = 1.06 [ -0.32 , 2.43 ] 
  var(lOR) = 0.49 
  p-value(Log OR) = 0.14 
 
 Other: 
 
 NNT = 5.05 
 Total N = 30

5.3.8 Efeitos Mediadores

É importante testar se terceiras variáveis são mediadoras do efeito que estamos examinando em nossa hipótese primária de pesquisa. Isto é, poder-se-ia questionar se sexo, raça, localização geográfica, ano em que o estudo foi conduzido, e assim por diante, mediaram a relação entre renda pessoal e autoestima em nosso exemplo fictício. Tamanhos de efeito médios entre estudos poderiam ser calculados e avaliados para essas categorias potenciais de variáveis mediadoras.

Suponha que tivéssemos 150 estudos fictícios e fôssemos capazes de obter tamanhos de efeito de alguns deles para as categorias listadas na Tabela 10. Dos estudos relatados, 60 foram conduzidos com amostras exclusivamente femininas, e o tamanho de efeito para mulheres foi fornecido ou computado a partir das informações disponibilizadas nos estudos; de modo semelhante, para 120 estudos obteve-se tamanho de efeito apenas para homens. O tamanho de efeito médio para mulheres foi .14 (\(\text{SD} = .19,\, n = 60\)), e para homens foi .46 (\(\text{SD} = .21,\, n = 120\)). Os tamanhos de efeito para cada uma dessas 180 amostras poderiam então ser correlacionados com o sexo das amostras, codificando mulheres = 0 e homens = 1. Suponha que isso resultasse em uma correlação de .38 (\(p < .01,\, n = 180\)), o que indicaria que tamanhos de efeito mais fortes tenderam a ser obtidos em amostras masculinas do que em amostras femininas. Isto é, a relação entre renda pessoal e autoestima tendeu a ser mais forte para homens do que para mulheres.

Tabela 10: Tamanho de efeito médio (\(\bar r\)) para subgrupos de características de 150 estudos fictícios da relação entre renda pessoal e autoestima

Característica	\(\bar r\)	\(SD_{\bar r}\)	Número de Estudos
Sexo
feminino	.14	.19	60
masculino	.46	.21	120
Raça
negro	.29	.18	30
branco	.28	.15	90

Tamanhos de efeito são frequentemente regressados sobre um conjunto de potenciais variáveis mediadoras utilizando técnicas de regressão linear múltipla. Glass et al. (1981) e Hedges e Olkin (1983b, 1985) fornecem discussão mais detalhada dessa abordagem.

Uma estratégia alternativa para examinar um efeito mediador seria testar diretamente a significância da diferença entre os dois tamanhos de efeito, .14 para mulheres e .46 para homens em nosso exemplo. Isso poderia ser feito utilizando a fórmula 16 para testar a diferença entre duas correlações independentes.

\[ Z = \frac{Z_{\bar{r}1} - Z_{\bar{r}2}} {\sqrt{\dfrac{1}{k_1 - 3} + \dfrac{1}{k_2 - 3}}} \tag{17} \]

sendo que \(Z_{\bar{r}1}\) e \(Z_{\bar{r}2}\) são as transformações \(r\)-para-\(Z\) de Fisher para os dois \(\bar r\), e \(k_1\) e \(k_2\) são o número de estudos nos quais os \(\bar r\) se baseiam.

Em nosso exemplo, \(\bar r\) iguais a .14 e .46 correspondem a \(Z_r\) de .141 e .497, respectivamente, e obtemos

\[ Z = \frac{.141 - .497} {\sqrt{\dfrac{1}{60 - 3} + \dfrac{1}{120 - 3}}} = \frac{- .356}{.162} = -2.2 \tag{18} \]

Assim, a diferença entre os tamanhos de efeito médios para homens e mulheres é estatisticamente significante (\(p < .05\)).

## =========================================================
## Efeitos Mediadores – Diferença entre duas correlações médias
## =========================================================

## Dados do exemplo
r1 <- 0.14   # mulheres
r2 <- 0.46   # homens
k1 <- 60
k2 <- 120

## ---------------------------------------------------------
## 1) Transformação r -> Z de Fisher
## Z_r = atanh(r)
## ---------------------------------------------------------

Zr1 <- atanh(r1)
Zr2 <- atanh(r2)

## ---------------------------------------------------------
## 2) Estatística Z para diferença entre correlações
## ---------------------------------------------------------

Z_diff <- (Zr1 - Zr2) /
  sqrt(1/(k1 - 3) + 1/(k2 - 3))

## ---------------------------------------------------------
## 3) Valores-p
## ---------------------------------------------------------

p_unicaudal <- pnorm(Z_diff)
p_bicaudal  <- 2 * pnorm(Z_diff)

## ---------------------------------------------------------
## Resultados
## ---------------------------------------------------------

resultado <- data.frame(
  Zr_mulheres = Zr1,
  Zr_homens = Zr2,
  Z = Z_diff,
  p_unicaudal = p_unicaudal,
  p_bicaudal = p_bicaudal
)

print(round(resultado, 4), row.names = FALSE)

 Zr_mulheres Zr_homens       Z p_unicaudal p_bicaudal
      0.1409    0.4973 -2.2064      0.0137     0.0274

Uma abordagem semelhante pode ser adotada se a média de \(d\), em vez da média de \(r\), for utilizada como indicador de tamanho de efeito entre estudos. Isto é, \(d\), para mulheres e homens, respectivamente, é calculado, e o \(d\) para cada amostra é correlacionado com o sexo, com mulheres novamente codificadas como 0 e homens como 1. Alternativamente, as diferenças entre os \(d\) de homens e mulheres poderiam ser testadas estatisticamente utilizando os procedimentos discutidos por Hedges (1982a) e Rosenthal e Rubin (1982b). Uma fórmula para realizar essa comparação e um exemplo são apresentados na discussão sobre testes de homogeneidade de efeitos no capítulo seguinte.

6 Metanálise na Internet

Meta Analysis in R: R-bloggers
dmetar: https://www.bookdown.org/MathiasHarrer/Doing_Meta_Analysis_in_R/forest.html
metafor: https://wviechtb.github.io/metafor/
Valente, MD & Paixão, C (2023) METANÁLISE: um Guia Prático: https://rpubs.com/Dhiego_Valente/1109014

7 Referências

Balduzzi, S et al. (2019) How to perform a meta-analysis with R: a practical tutorial. Evid Based Ment Health 22:153-160.
Borenstein, M et al. (2021) Introduction to Meta-Analysis. 2nd ed. NJ: Wiley.
Chen, D-G & Pierce, KE (2021) Applied Meta-Analysis with R and Stata. 2nd ed. USA: CRC.
Cheung, MWL (2015) Meta-Analysis: a structural equation modeling approach. NJ: Wiley.
Cheung, MWL (2015) metaSEM: an R pack age for meta-analysis using structural equation modeling. Frontiers in Psychology 5:1-7. doi: 10.3389/fpsyg.2014.01521
Dancey, C & Reidy, J (2019) Estatística sem Matemática para Psicologia. 7a ed. Porto Alegre: PENSO.
Ellis, PD (2010) The essential guide to effect sizes: Statistical power, meta-analysis, and the interpretation of research results. UK: Cambridge. https://doi.org/10.1017/CBO9780511761676
Hanji, MB (2016) Meta-Analysis in Psychiatry Research: Fundamental and Advanced Methods. USA: Apple.
Harrer, M et al. (2022) Doing meta-analysis with R: A hands-on guide. USA: CRC. https://doi.org/10.1201/9781003222852
Wolf, FM (1986) Meta-Analysis: Quantitative Methods for Research Synthesis. Quantitative Applications in the Social Sciences. Vol. 59. UK: Sage.

\(r\)	\(r^2\)	Proporção de Sucesso (De)	Proporção de Sucesso (Para)
.10	.01	.45	.55
.20	.04	.40	.60
.30	.09	.35	.65
.40	.16	.30	.70
.50	.25	.25	.75
.60	.36	.20	.80
.70	.49	.15	.85
.80	.64	.10	.90
.90	.81	.05	.95

\(r\)	\(r^2\)	Proporção de Sucesso (De)	Proporção de Sucesso (Para)
.10	.01	.45	.55
.20	.04	.40	.60
.30	.09	.35	.65
.40	.16	.30	.70
.50	.25	.25	.75
.60	.36	.20	.80
.70	.49	.15	.85
.80	.64	.10	.90
.90	.81	.05	.95

Metanálise em R

José Siqueira (siqueira@usp.br)

24 fevereiro 2026 19:40h