Bastão de Asclépio & Distribuição Normal
invisible(Sys.setlocale("LC_CTYPE", "pt_BR.UTF-8"))
invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))
options(warn=-1)
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(compute.es, warn.conflicts=FALSE))
suppressMessages(library(confintr, warn.conflicts=FALSE))
suppressMessages(library(effectsize, warn.conflicts=FALSE))
suppressMessages(library(effsize, warn.conflicts=FALSE))
suppressMessages(library(es.dif, warn.conflicts=FALSE))
suppressMessages(library(esc, warn.conflicts=FALSE))
suppressMessages(library(esvis, warn.conflicts=FALSE))
suppressMessages(library(knitr, warn.conflicts=FALSE))
suppressMessages(library(MBESS, warn.conflicts=FALSE))
suppressMessages(library(MOTE, warn.conflicts=FALSE))
suppressMessages(library(psych, warn.conflicts=FALSE))
suppressMessages(library(pwr, warn.conflicts=FALSE))
suppressMessages(library(pwr2ppl, warn.conflicts=FALSE))
suppressMessages(library(RESI, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(samplingbook, warn.conflicts=FALSE))
suppressMessages(library(ufs, warn.conflicts=FALSE))
source("eiras.bartitle.R")
source("eiras.numeric.summary.R")
RPubs
Todos os testes estatísticos abordados até o capítulo anterior usam o paradigma da testagem da hipótese nula de Neyman-Pearson. É a abordagem frequentista (também chamada de clássica ou assintótica), que aprofundaremos neste capítulo.
O contraponto a esta abordagem foi iniciado por Cohen (1990) ao afirmar que existe algo além da significância estatística. Sua proposta é utilizar a significância prática para quantificar a intensidade do efeito além de sua existência.
Em oposição à abordagem assintótica existe a abordagem bayesiana. Nesta, o tamanho da amostra não precisa tender para o infinito para que os testes sejam válidos. A inferência bayesiana, portanto, é adaptada ao tamanho da amostra, sem necessidade de se imaginar infinitas repetições do experimento como fazemos, por exemplo, com o bootstrapping. No entanto, existem pacotes R que fazem o cálculo de tamanho de amostral bayesiano.
Estamos planejando atribuir pacientes a uma das duas opções de tratamento (novo versus atual) e testar a hipótese nula de que os tratamentos são igualmente eficazes (ou seja, que a proporção de pacientes curados é idêntica nas duas populações).
A proporção de cura para o tratamento atual é de aproximadamente 60%.
Prevemos que o novo tratamento será mais eficaz na cura da doença.
No entanto, o novo tratamento também deve ter efeitos colaterais mais graves. Por esse motivo, o tratamento seria recomendado apenas se aumentasse a proporção de cura em 20 pontos percentuais. Consequentemente, o tamanho do efeito selecionado para a análise de poder é de 60% contra 80%.
Embora seja improvável que o tratamento agressivo resulte em uma proporção de cura inferior ao atual, essa possibilidade não pode ser totalmente descartada e teria implicações práticas para pesquisas futuras. Por esse motivo, a análise será bicaudal.
Borenstein et al., 2008, Proportions in Two Independent Groups, p. 91
Nestas condições, podemos encontrar o tamanho da amostra (para
condições balanceadas) utilizando o código demo_exemplo1.R
que utiliza a função
pwr::pwr.2p2n.test
:
pH0 <- 0.6
pH1 <- 0.8
alfa <- 0.05
razao_alocacao <- 1
alternative <- "two.sided"
# pwr::pwr.2p2n.test(h = pwr::ES.h(p1 = pH1,
# p2 = pH0),
# n1 = n1,
# n2 = n2,
# sig.level = alfa,
# alternative = alternative)
source("demo_exemplo1.R")
Calculo do tamanho da amostra:
Valores proximos a 80% de poder:
n_controle n_intervencao n_total poder
81 81 162 80.3
Valores proximos a 90% de poder:
n_controle n_intervencao n_total poder
108 108 216 90.1
Observe que o poder a priori (prospectivo) é a probabilidade (80% ou 90%) de rejeitar \(H_0\) corretamente nas condições planejadas. Em outras palavras, encontramos \(n\) suficiente para garantir estas condições. Consequentemente, caso \(H_0\) não seja rejeitada, supomos que não houve insuficiência da amostra e \(H_0\) deve ser plausível, com probabilidade \(\beta\), entre 20% e 10%, de estarmos enganados.
Como o novo tratamento é potencialmente mais agressivo, podemos ser conservadores e planejarmos o estudo com uma alocação dos pacientes no tratamento convencional para o novo tratamento de 2 para 1:
pH0 <- 0.6
pH1 <- 0.8
alfa <- 0.05
razao_alocacao <- 2
alternative <- "two.sided"
source("demo_exemplo1.R")
Calculo do tamanho da amostra:
Valores proximos a 80% de poder:
n_controle n_intervencao n_total poder
121 60 181 80
Valores proximos a 90% de poder:
n_controle n_intervencao n_total poder
162 81 243 90.1
Ainda é possível optar por um teste unilateral, usando o parâmetro
alternative
(opções são two.sided
,
less
ou greater
). Voltando para as amostras
balanceadas. Como esperamos que o tratamento novo aumente a proporção de
cura, o teste deve ser unilateral à direita (i.e.,
greater
):
pH0 <- 0.6
pH1 <- 0.8
alfa <- 0.05
razao_alocacao <- 1
alternative <- "greater"
source("demo_exemplo1.R")
Calculo do tamanho da amostra:
Valores proximos a 80% de poder:
n_controle n_intervencao n_total poder
64 64 128 80.4
Valores proximos a 90% de poder:
n_controle n_intervencao n_total poder
88 88 176 90.1
Segundo Borenstein et al. (2008), no capítulo 2:
“Esses três fatores [\(n\), \(\eta^2\), \(\alpha\)], junto com o poder [\(1-\beta\)], formam um sistema fechado - uma vez que quaisquer três sejam estabelecidos, o quarto é completamente determinado.”
“O objetivo de uma análise de poder é encontrar um equilíbrio apropriado entre esses fatores, levando em consideração os objetivos substantivos do estudo e os recursos disponíveis para o pesquisador.”
Há quatro elementos envolvidos no planejamento de um estudo:
Apesar de ser restrito ao teste \(z\)
para uma condição (a situação mais simples de todas), é possível
exercitar a interação destes quatro elementos no site Understanding Statistical Power and Significance Testing: an interactive visualization em NHST |
pwr
pwr2
pwr2ppl
samplingbook
TrialSize
MBESS
webpower
asypow
PwrGSD
pamm
Longpower
powerSurvEpi
powerpkg
powerGWASinteraction
pedantics
gap
ssize.fdr
Para aprender a utilizar alguns dos pacotes citados, consulte:
Retomando o exemplo sobre a proporção de cura de dois tratamentos, tendo encontrado o tamanho das amostras que permite 90% de poder, precisamos determinar o intervalo de confiança 95% da diferença populacional das proporções.
Para o teste bilateral, conseguimos 90% de poder a priori com dois grupos de 108 indivíduos (total de 216 indivíduos).
A análise de precisão está implementada em demo_exemplo2.R
, utilizando a função
pwr2ppl::md_prec
:
n1 n2 d LL UL Precision IC.center
1 108 108 0.4472136 0.079 0.3205 0.2415 0.2
Adicionamos o IC.center
, que é o centro do intervalo de
confiança (corresponde ao tamanho de efeito esperado de \(0.2 = 0.8 - 0.6\)).
Os limites do intervalo de confiança de 95% esperado para a diferença
populacional das proporções são dados por precisao$LL
=0.079
e precisao$UL
=0.3205, enquanto
precisao$Precision
=0.2415 corresponde à amplitude esperada
deste intervalo de confiança de 95%.
A precisão foi dada, aproximadamente, por
n <- n_total/2 # n de cada grupo
L <- 2*1.96*sqrt((pH0*(1-pH0)+pH1*(1-pH1))/n)+2/n
cat("Precision =", round(L,4))
Precision = 0.2571
Observe que para 80% de poder a precisão diminui, i.e., a amplitude
do intervalo de confiança 95% aumenta. Isto decorre (baseado nos números
anteriores) da mudança do tamanho da amostra, que foi calculada como
dois grupos de 81 indivíduos (demo_exemplo2.R
):
n1 n2 d LL UL Precision IC.center
1 81 81 0.4472136 0.0602 0.3392 0.2789 0.2
Segundo Borenstein et al. (2008), no capítulo 2:
“A discussão até este ponto se concentrou na análise de poder, que é um método apropriado para um teste de significância.
Se o pesquisador está planejando um estudo para testar a hipótese nula, então o delineamento do estudo deve garantir, com um alto grau de certeza, que o estudo será capaz de fornecer um teste adequado (isto é, poderoso) da hipótese nula.
O estudo também pode ser planejado com outro objetivo.
Além de (ou em vez de) testar a hipótese nula, o pesquisador pode usar o estudo para estimar a magnitude do efeito - para relatar, por exemplo, que o tratamento aumenta a proporção de cura em 10 pontos, 20 pontos ou 30 pontos percentuais.
Neste caso, o planejamento do estudo se concentraria não na capacidade do estudo de rejeitar a hipótese nula, mas sim na precisão com a qual nos permitirá estimar a magnitude do efeito.
Suponha, por exemplo, que estamos planejando comparar as proporções de respostas para os tratamentos e antecipar que essas proporções serão diferentes umas das outras em cerca de 20 pontos percentuais. Gostaríamos de ser capazes de relatar a diferença de proporções com uma precisão de mais ou menos 7 pontos percentuais.
A precisão com que seremos capazes de relatar a diferença de proporção é uma função do nível de confiança necessário, do tamanho da amostra e da própria diferença de proporção entre as condições experimentais.
O intervalo de confiança representa a precisão com a qual podemos relatar o tamanho do efeito, e quanto maior a amostra, mais precisa é a estimativa.
Na prática, o tamanho da amostra é o fator dominante na determinação da precisão.
Nota: para estudos que envolvem dois grupos, a precisão é maximizada quando os sujeitos são divididos igualmente entre os dois grupos. Quando o número de casos nos dois grupos é desigual, o ‘n efetivo’ para a precisão do cálculo fica mais próximo do tamanho de amostra menor do que do maior.”
Por exemplo,
Para uma margem de erro de 3% com nível de confiança de 95%, o instituto de pesquisa calculou uma amostra de 1204 entrevistados. Podemos reproduzir este cálculo?
A margem de erro deve ser pensada par-a-par com o objetivo de
distinguir desempates entre pares de candidatos. Começando com um
cálculo simples, vamos iniciar com a incerteza máxima ao supor que a
proporção de intenção de votos de cada candidato é de 50% (metade para
cada um), implementado em demo_eleicao_1.R
:
n = 1067
# demo_eleicao_1.R
# n da margem de erro de 3%: se p = .5, p*(1-p) = 1/4
# margem de erro = quantil95% * erro.padrao
# erro.padrao de proporcao = sqrt(p*(1-p)/n)
me3 <- 0.03
p <- 0.5
curve(1.96*sqrt((p*(1-p))/x),500,1500,
xlab="n",ylab="margem de erro")
abline(h=me3,lty=2)
n <- 1/(4*(me3/1.96)^2)
abline(v=n,lty=3)
cat("n =",round(n,0))
Observe, no gráfico, que o aumento do \(n\) reduz progressivamente a margem de erro, até chegar aos 3% planejados com 1067 entrevistados. É um número próximo ao praticado nesta pesquisa.
Suponha, com base nas pesquisas anteriores, que saibamos que os
candidatos mais bem colocados estão com cerca de 20% de intenções de
voto (em vez dos 50% que podemos adotar para o máximo de incerteza).
Podemos fazer o reverso, portanto, varrendo as possibilidades: variando
\(n\) e supondo as duas proporções: 50%
e 20%. Implementamos em demo_eleicao_2.R
:
n %margem_erro(p=.5) %margem_erro(p=.2)
1 100 9.80 7.84
2 200 6.93 5.54
3 300 5.66 4.53
4 400 4.90 3.92
5 500 4.38 3.51
6 600 4.00 3.20
7 700 3.70 2.96
8 800 3.46 2.77
9 900 3.27 2.61
10 1000 3.10 2.48
11 1100 2.95 2.36
12 1200 2.83 2.26
13 1300 2.72 2.17
14 1400 2.62 2.10
15 1500 2.53 2.02
# demo_eleicao_1.R
# n da margem de erro de 3%: se p = .5, p*(1-p) = 1/4
# margem de erro = quantil95% * erro.padrao
# erro.padrao de proporcao = sqrt(p*(1-p)/n)
me3 <- 0.03
p <- 0.5
curve(1.96*sqrt((p*(1-p))/x),500,1500,
xlab="n",ylab="margem de erro")
abline(h=me3,lty=2)
n <- 1/(4*(me3/1.96)^2)
abline(v=n,lty=3)
cat("n =",round(n,0))
Observe as colunas. Para a proporção de 50%, a margem de erro de 3% é alcançada entre 1000 e 1100 entrevistados. Porém, supondo proporção de 20%, esta margem é atingida com 600 a 700 entrevistados.
De forma ainda mais simples, o código demo_eleicao_3.R utiliza a função
samplingbook::sample.size.prop
:
p=0.5 p=0.4 p=0.3 p=0.2 p=0.1
me=0.2 25 24 21 16 NA
me=0.1 97 93 81 62 35
me=0.05 385 369 323 246 139
me=0.04 601 577 505 385 217
me=0.03 1068 1025 897 683 385
me=0.02 2401 2305 2017 1537 865
me=0.01 9604 9220 8068 6147 3458
A tabela resultante desta função mostra que 1204 está um pouco acima do número necessário (1068) para obter margem de erro de 3% quando um dos candidatos tem 50% das intenções de voto.
Agresti & Finlay (2012, p.171) definem valor p da seguinte maneira:
“O valor p é a probabilidade de que a estatística de teste seja igual ou mais extrema que o valor observado na direção prevista pela hipótese alternativa,\(H_1\), presumindo que a hipótese nula, \(H_0\), é verdadeira.”
Spanos (2014) e Lin et al. (2013) demonstram que quanto maior o tamanho da amostra, maior o valor p.
Conforme Spanos (2014):
“Uma fraqueza crucial tanto do valor p quanto das probabilidades de erro de Neyman-Pearson é o chamado problema do grande \(n\): sempre existe um tamanho de amostra \(n\) suficientemente grande para o qual qualquer hipótese nula simples \(H_0: \mu=\mu_0\) será rejeitada por um teste frequentista com nível de significância \(\alpha\); ver Lindley (1957).
O grande \(n\) constitui um exemplo de um problema mais amplo conhecido como falácia da rejeição: interpretando (indevidamente) rejeitar \(H_0\) (evidência contra \(H_0\)) como evidência a favor de uma hipótese alternativa alternativa \(H_1\); isso pode ocorrer quando um teste tem poder muito alto, por exemplo, grande \(n\). Diversas tentativas foram feitas para aliviar o problema do grande \(n\), incluindo regras práticas para reduzir \(\alpha\) à medida que \(n\) aumenta; ver Lehmann (1986).
Contudo, devido ao equilíbrio entre as probabilidades de erro tipo I e tipo II, qualquer tentativa de amenizar o problema torna a inferência suscetível à falácia inversa conhecida como falácia da aceitação: interpretando (indevidamente) aceitar [sic: não rejeitar] \(H_0\) (não evidência contra \(H_0\)) como evidência a favor de \(H_0\); isso pode ocorrer facilmente quando um teste tem poder muito baixo; por exemplo, \(\alpha\) é muito pequeno ou \(n\) é muito pequeno.
Essas falácias são rotineiramente cometidas por profissionais em muitas áreas aplicadas.
Após inúmeras tentativas malsucedidas, Mayo (1996) forneceu respostas fundamentadas para essas falácias na forma de uma avaliação de severidade pós-dados.”
Conforme Lin et al. (2013),
“O tamanho excessivo para falhar: grandes amostras e o problema do valor-p
A internet proporcionou aos pesquisadores de Sistemas de Informação a oportunidade de conduzir estudos com amostras extremamente grandes, frequentemente com mais de 10.000 observações.
Há muitas vantagens em ter grandes amostras, mas pesquisadores que usam inferência estatística devem estar cientes do problema do valor-p associado a elas.
Em amostras muito grandes, os valores-p tendem rapidamente a zero, e confiar apenas nesses valores pode levar o pesquisador a reivindicar suporte para resultados sem significância prática.
Em um levantamento sobre pesquisas de Sistemas de Informação com grandes amostras, descobrimos que um número significativo de artigos se baseia em um valor-p baixo e no sinal de um coeficiente de regressão para apoiar suas hipóteses.
Este artigo de comentário recomenda uma série de ações que o pesquisador pode adotar para mitigar o problema do valor-p em grandes amostras e ilustra essas ações com um exemplo de mais de 300.000 vendas de câmeras no eBay.
Acreditamos que abordar o problema do valor-p aumentará a credibilidade das pesquisas de Sistemas de Informação com grandes amostras, além de fornecer mais insights para os leitores.
Apêndice. Por que o valor-p se aproxima de 0 para grandes amostras?
O que acontece com o valor-p à medida que \(n\), o tamanho da amostra, aumenta?
Considere a hipótese nula \(H_0: \beta=0\).
A menos que a hipótese nula seja exatamente verdadeira (até um número infinito de casas decimais), o valor-p tenderá a 0 à medida que \(n\) se torna infinitamente grande, porque o valor da estatística de teste \(|t|\) tenderá ao infinito, e, portanto, a distribuição t cumulativa até \(|t|\) (que se torna efetivamente uma distribuição normal padrão) tenderá a 1.
A Equação (2) mostra o limite do valor-p para a distribuição t cumulativa usada para determinar a significância estatística de um coeficiente de regressão no caso de uma única variável independente:
\[ \begin{align} \lim_{n \to \infty} p\text{-value} &= \lim_{n \to \infty} 2 (1 - \Phi(\text{df}, |t|)) \\ &= 2 \left(1 - \lim_{n \to \infty} \Phi(\text{df}, |t|) \right) \\ &= 2 \left( 1 - \Phi\left(\text{df}, \lim_{n \to \infty} \sqrt{n-1} \dfrac{|\hat{\beta}| S_x}{\sqrt{MSE}}\right) \right) \\ \lim_{n \to \infty} p\text{-value} &= \begin{cases} 2 (1 - \Phi(\text{df}, 0)) = 1, & \text{se } \beta = 0 \\ 2 (1 - \Phi(\text{df}, \infty)) = 0, & \text{se } \beta \neq 0 \end{cases} \end{align} \tag{2} \]
Em palavras: se \(\beta=0\) exatamente, o valor-p não converge para 0; mas, se \(\beta\) é diferente de 0, por menor que seja, o valor-p tenderá a 0 quando \(n\) for suficientemente grande.”
Mark et al. (2016) e Goodman (2008) elencam 5 e 12 interpretações errôneas do valor p, respectivamente.
Segundo Borenstein et al. (2008), no capítulo 2:
“As duas abordagens descritas aqui - testar a hipótese nula de nenhum efeito e estimar o tamanho do efeito - estão intimamente relacionadas. Um estudo que produz um valor p de precisamente 0.05 renderá um intervalo de confiança de 95% que começa (ou termina) precisamente em 0.
Um estudo que produz um valor p de precisamente 0.01 produzirá um intervalo de confiança de 99% que começa (ou termina) precisamente em 0.
Nesse sentido, relatando um tamanho de efeito com o intervalo de confiança pode servir como substituto para teste de significância (se o intervalo de confiança não incluir o efeito nulo, o estudo é estatisticamente significante) com a abordagem do tamanho do efeito focando a atenção na questão relevante.
No entanto, mudando o foco de um relatório do teste de significância para a estimativa do tamanho do efeito [sic: intervalo de confiança], garantimos uma série de vantagens importantes.
Em primeiro lugar, o tamanho do efeito concentra a atenção na questão principal.
Normalmente, pesquisadores e médicos se preocupam com o tamanho do efeito; a questão de se o efeito é nulo ou não é de interesse relativamente menor.
Por exemplo, o clínico pode recomendar um medicamento, apesar de seu potencial para efeitos colaterais, se ele se sentir confortável com o fato de que aumenta a proporção de remissão em alguma quantidade específica, como 20%, 30% ou 40%.
O simples fato de saber que aumentou a alíquota em algum valor não especificado superior a 0 é de pouca importância.
O tamanho do efeito com intervalos de confiança concentra a atenção no índice principal (quão grande é o efeito), enquanto fornece limites prováveis para os limites inferior e superior do verdadeiro tamanho do efeito na população.
Em segundo lugar, o foco no tamanho do efeito, ao invés da significância estatística, ajuda o pesquisador e o leitor a evitar alguns erros que são comuns na interpretação dos testes de significância.
Como os pesquisadores se preocupam principalmente com o tamanho do efeito (e não se o efeito é nulo), eles tendem a interpretar os resultados de um teste de significância como se esses resultados fossem uma indicação do tamanho do efeito.
Por exemplo, presume-se que um valor p de 0.001 reflita um grande efeito, enquanto um valor p de 0.05 reflete um efeito moderado.
Isso é inadequado porque o valor p é uma função do tamanho da amostra, bem como do tamanho do efeito.
Frequentemente, presume-se que o valor de p não significante indica que o tratamento se mostrou ineficaz.
Na verdade, um valor p não significante pode refletir o fato de que o tratamento não é eficaz, mas pode facilmente refletir o fato de que o [tamanho do] estudo foi insuficiente.
Se a análise de poder é o método apropriado para um estudo que testará a hipótese nula, então a análise de precisão é o método apropriado para um estudo que será usado para estimar o tamanho de um efeito de tratamento.”
Poder a priori do teste de hipótese nula é a probabilidade de rejeitar \(H_0\) acertadamente para uma determinada magnitude do tamanho de efeito populacional.
De acordo com Dancey & Reidy (2019), o poder a priori do teste de hipótese nula é:
“Habilidade de detectar um efeito estatisticamente significante quando existente, i.e., é a probabilidade de rejeitar a hipótese nula quando falsa dado um tamanho de efeito populacional.
Por exemplo: um poder de 80% significa que você tem uma probabilidade de 80% de encontrar um efeito se ele existe na população. Portanto, você tem uma boa chance de encontrá-lo e pode valer a pena investir nesse estudo.
Por outro lado, se conduzir um estudo sem calcular o poder e encontrar um efeito significativo, era óbvio que você tinha poder suficiente.
Afinal, se não tivesse poder suficiente, não teria encontrado um efeito!
Portanto, depois do experimento, o conhecimento do poder é mais importante quando você não encontra um efeito [não rejeita \(H_0\)], pois não pode ter certeza se
Se a hipótese nula não é rejeitada, então é necessário que o poder a priori seja 80% para que a decisão de não rejeitar a hipótese nula esteja correta, i.e., para concluir que não há o efeito na população.
Dancey & Reidy (2019) ainda afirmam:
“O poder é especialmente importante se o tamanho do efeito encontrado é pequeno ou inexistente, pois não se consegue ter certeza de que realmente existe um efeito e falhamos em encontrá-lo, ou se realmente o efeito não existe; portanto, quando são obtidos tamanhos de efeito pequenos, é preciso relatar o nível de poder que havia.
Ao relatar os resultados que não têm significância estatística, alguns psicólogos revelam quantos participantes seriam necessários para se encontrar um efeito.
Em casos nos quais o número de participantes necessários para se encontrar um efeito é realmente enorme (na maioria dos casos não seria razoável esperar que os psicólogos estudassem milhares de participantes), fica implícito: o tamanho do efeito é tão pequeno que realmente não existe um efeito.”
Dancey & Reidy (2019):
“O tamanho do efeito esperado: na Psicologia, efeitos pequenos e médios são mais prováveis do que os grandes efeitos; um efeito grande será mais fácil de detectar do que um efeito pequeno; é preciso mais poder para encontrar efeitos pequenos.
O nível de significância (α adotado pelo pesquisador); e.g.: o valor do nível de significância do teste de 5%, sendo esse o valor que você está preparado a aceitar que os resultados provavelmente não sejam resultantes apenas de erro amostral; o alfa varia entre 1% e 10%.
O tamanho do estudo ou número de participantes do estudo: quanto maior o tamanho da amostra, maior é o poder; quando o tamanho da amostra é pequeno, temos um poder baixo e, portanto, se um efeito existe, não temos muita chance de encontrá-lo, pois qualquer efeito pode ter acontecido apenas por erro amostral; com uma amostra grande de participantes, temos uma chance maior de detectar um efeito significativo se ele existir, pois estamos mais certos de que o efeito se deve a algo além do erro amostral; mostrar que a significância estatística depende do tamanho da amostra é importante, pois mostra que a significância estatística não é igual à importância prática ou psicológica e, portanto, eis o motivo de precisar de outras maneiras de avaliar a importância do estudo como o tamanho do efeito e [seu] intervalo de confiança.”
Outros fatores que influenciam o poder são:
G*Power implementa cinco estratégias:
Coelho et al., 2008
Perugini et al., 2018
Em especial, o artigo de Perugini et al. (2018) descreve com detalhes como utilizar G*Power. Por outro lado, recomendamos que não utilize as funções do R que aparecem neste artigo; atenha-se ao que estes autores mostram no G*Power.
Segundo Borenstein et al. (2008), no capítulo 2:
“O termo tamanho do efeito se refere à magnitude do efeito sob a hipótese alternativa.
A natureza do tamanho do efeito irá variar de um procedimento estatístico para o próximo (pode ser a diferença nas proporções de cura, ou uma diferença média padronizada, ou um coeficiente de correlação), mas sua função na análise de poder é a mesma em todos os procedimentos.
O tamanho do efeito deve representar o menor efeito que teria importância clínica ou substantiva e, por esse motivo, variará de um estudo para o outro.
Em ensaios clínicos, por exemplo, a seleção de um tamanho de efeito pode levar em consideração a gravidade da doença a ser tratada (um efeito de tratamento que reduza a mortalidade em 1% pode ser clinicamente importante, enquanto um efeito de tratamento que reduz a asma transitória em 20% pode ter pouco interesse).
Pode levar em consideração a existência de tratamentos alternativos.
Se existirem tratamentos alternativos, um novo tratamento precisará superar esses outros tratamentos para ser importante.
Também pode levar em consideração o custo do tratamento e os efeitos colaterais.
Um tratamento que carregasse esses encargos seria adotado apenas se o efeito do tratamento fosse muito substancial.
A análise de poder fornece poder para um tamanho de efeito específico.
Por exemplo, o pesquisador pode relatar que se o tratamento aumentar a proporção de recuperação em 15 pontos percentuais, o estudo terá poder de 80% para produzir um efeito significante.
Para o mesmo tamanho de amostra e alfa, se o efeito do tratamento for inferior a 15 pontos percentuais, o poder será inferior a 80%.
Se o tamanho real do efeito exceder 15 pontos percentuais, o poder excederá 80%.
Embora alguém possa ficar tentado a definir o “efeito clinicamente significativo” com um valor pequeno para garantir alto poder mesmo para um pequeno efeito, essa determinação não pode ser feita isoladamente.
A seleção de um tamanho de efeito reflete a necessidade de equilíbrio entre o tamanho do efeito que podemos detectar e os recursos disponíveis para o estudo.
A análise de poder fornece o poder de um tamanho de efeito nominal.
O verdadeiro tamanho do efeito (população) não é conhecido. Embora o tamanho do efeito usado para a análise de poder seja assumido para refletir o tamanho do efeito da população, a análise de poder é mais apropriadamente expressa como, ‘Se o verdadeiro efeito for de uma determinada magnitude, o poder seria …’, em vez de ‘O verdadeiro efeito é de uma determinada magnitude e, portanto, o poder é …’”
Noordzij et al., 2010
Retomando Borenstein et al. (2008), no capítulo 2:
“Os pesquisadores às vezes assumem que uma análise de poder não pode ser realizada na ausência de dados de um estudo piloto.
De fato, geralmente é possível realizar uma análise de poder baseada inteiramente em uma avaliação lógica do que constitui um efeito clinicamente (ou teoricamente) importante.
De fato, embora o efeito observado em estudos anteriores possa ajudar a fornecer uma estimativa do verdadeiro efeito, não é provável que seja o verdadeiro efeito na população - se soubéssemos que o tamanho do efeito nesses estudos era preciso, não haveria necessidade de executar o novo estudo.”
Para quaisquer tamanho de efeito e alfa dados, aumentar o tamanho da amostra aumentará o poder (ignorando por enquanto o caso especial em que o poder para um teste de proporções é calculado usando métodos exatos).
Como acontece com o tamanho do efeito e alfa, o tamanho da amostra não pode ser visto isoladamente, mas sim como um elemento em um ato de equilíbrio complexo.
Em alguns estudos, pode ser importante detectar até mesmo um pequeno efeito, mantendo o poder elevado.
Nesse caso, pode ser apropriado recrutar alguns milhares de pacientes (como foi feito no estudo dos médicos que encontrou uma relação entre o uso de aspirina e eventos cardiovasculares).
Conforme Mujaj et al., 2022:
“Objetivos: Estudos recentes que avaliaram o efeito da aspirina na prevenção primária de doenças cardiovasculares mostraram pouco ou nenhum benefício. No entanto, o papel da aspirina no risco de insuficiência cardíaca (IC) incidente permanece incerto. Este estudo teve como objetivo avaliar o papel do uso de aspirina na incidência de IC na prevenção primária e secundária e se o uso de aspirina aumenta o risco de IC incidente em pacientes em risco.
Métodos e resultados: Foram analisados dados de 30.827 pacientes em risco de IC inscritos em seis estudos observacionais [mulheres 33,9%, idade média (±desvio padrão) 66,8 ± 9,2 anos]. Fatores de risco cardiovasculares e o uso de aspirina foram registrados no início do estudo, e os pacientes foram acompanhados para o primeiro incidente de IC fatal ou não fatal. A associação de IC incidente com o uso de aspirina foi avaliada usando regressão proporcional de risco ajustada para múltiplas variáveis, levando em conta o estudo e fatores de risco cardiovasculares. Ao longo de 5,3 anos (mediana; intervalo do 5º ao 95º percentil, 2,1–11,7 anos), 1.330 pacientes apresentaram IC. A razão de risco (HR) totalmente ajustada associada ao uso de aspirina foi de 1,26 [intervalo de confiança (IC) de 95% 1,12–1,41; P ≤ 0,001]. Além disso, em uma análise pareada por escore de propensão, o HR foi de 1,26 (IC 95% 1,10–1,44; P ≤ 0,001). Em 22.690 pacientes (73,6%) sem histórico de doença cardiovascular, o HR foi de 1,27 (IC 95% 1,10–1,46; P = 0,001).
Conclusões: Em pacientes em risco, o uso de aspirina foi associado a IC incidente, independente de outros fatores de risco. Na ausência de evidências conclusivas de ensaios clínicos, nossas observações sugerem que as aspirinas devem ser prescritas com cautela em pacientes em risco de IC ou que tenham IC.”
Normalmente, porém, o número de casos disponíveis é limitado.
O pesquisador pode precisar encontrar o maior n que pode ser recrutado e trabalhar a partir daí para encontrar um equilíbrio apropriado entre alfa e beta.
Pode-se precisar renunciar à possibilidade de encontrar um pequeno efeito e reconhecer que o poder será adequado apenas para um grande efeito.
Retomando Borenstein et al. (2008), no capítulo 2:
“Alguns estudos envolvem colocar os pacientes em risco.
Em um extremo, o risco pode ser limitado à perda de tempo gasto no preenchimento de um questionário.
No outro extremo, o risco pode envolver o uso de um tratamento ineficaz para uma doença potencialmente fatal.
Essas questões estão claramente além do escopo desta discussão, mas uma observação deve ser feita aqui.
As questões éticas desempenham um papel na análise do poder.
Se um estudo para testar um novo fármaco tiver poder adequado com uma amostra de 100 pacientes, então seria inapropriado usar uma amostra de 200 pacientes, uma vez que os outros 100 estão sendo colocados em risco desnecessariamente.
Ao mesmo tempo, se o estudo requer 200 pacientes para produzir potência adequada, seria inapropriado usar apenas 100.
Esses 100 pacientes podem consentir em participar do estudo na suposição de que o estudo produzirá resultados úteis.
Se o estudo não tiver poder, os 100 pacientes foram colocados em risco sem motivo.
Claro, o processo real de tomada de decisão é complexo.
Pode-se argumentar se a potência adequada para o estudo é 80%, 90% ou 99%.
Pode-se argumentar se a potência deve ser definida com base em uma melhoria de 10 pontos, 20 pontos ou 30 pontos percentuais.
Pode-se argumentar sobre o equilíbrio apropriado entre alfa e beta.
Além disso, o tamanho da amostra deve levar em conta a precisão, bem como o poder.
A questão aqui é que esses tipos de questões precisam ser tratados explicitamente como parte do processo de tomada de decisão.”
Segundo Moraes (2006, p. 60-1):
“Qual é o tamanho da amostra que eu preciso?
Essa é a pergunta feita frequentemente por todos os pesquisadores em todos os tipos de pesquisas científicas em particular por aqueles que pretendem realizar uma pesquisa na área da saúde.
Uma amostra com menos sujeitos que o necessário para se obter uma conclusão confiável ou uma amostra excessivamente grande geram problemas éticos e logísticos.
Se o tamanho da amostra é muito pequeno, pode não ser suficiente para responder à pergunta formulada ou aos objetivos; nesse caso seria perda de tempo e de dinheiro.
Ao contrário, um tamanho de amostra muito grande também não é recomendável, pois seria um gasto desnecessário, uma vez que para mostrar o efeito desejado um número menor de sujeitos seria suficiente.
Uma das preocupações do pesquisa deve ser a definição de um plano de amostragem com o objetivo de obter uma amostra representativa da população em estudo.
Não é correto definir o tamanho da amostra como um valor em torno de 10% da população, ou mesmo que seja igual a 30 unidades para estudo clínicos ou 10 unidades para estudos experimentais.
O tamanho da amostra depende de vários fatores, assim não há um valor p redefinido para estimar \(n\).
O tamanho da amostra para ser determinado depende de muitos itens: natureza das variáveis, técnica estatística a ser utilizada, mecanismos dos erros de decisão, variabilidade dos dados e diferença mínima a ser detectada no estudo (tamanho do efeito).”
Segundo Vicente et al. (2001, p. 88-9):
“A maior preocupação ao realizar uma sondagem prende-se com o assegurar da qualidade da informação obtida. A validade de uma sondagem é função do seu erro total (Assael e Keon, 1982), pois esse determina até que ponto pode ser bem sucedida a generalização dos resultados da amostra à população. Como foi mencionado, o erro total é decomposto em erros derivados da amostragem e erros não derivados da amostragem. A opção por um processo de recolha aleatória ou o aumento do tamanho da amostra são factores que podem ajudar a controlar os primeiros. Nesse ponto a teoria da amostragem afirma mesmo que, para o caso da variabilidade amostral, se a amostra for sucessivamente alargada a ponto de cobrir todo o universo, a sua eliminação é total.
Os erros não de amostragem não são tão controláveis, e como Assael e Keon (1982) referem, esse tipo de erro é a principal componente do erro total (“The consistent finding is that nonsampling error is the major contributor to total survey error, while random sampling error is minimal.”).
O erro não amostral deriva de fenómenos como respostas incorretamente dadas, deficiente desempenho dos entrevistadores ou até mesmo das condições envolventes em que é feita a entrevista. Esse tipo de erros não é resolvido com uma amostra de maior dimensão e por isso Lipstein (1975: In defense of small samples) saliente e bem que aumentar o tamanho da amostra não é garantia de um aumento da validade dos resultados.
Ainda de acordo com Assael e Keon (1982), o grande dilema que o investigador enfrenta na realização de um estudo por sondagem é se deve selecionar uma amostra maior para reduzir o erro amostral, ou se deve concentrar recursos e esforços numa amostra de dimensão mais reduzida, para garantir um melhor controlo do trabalho dos entrevistadores, uma taxa de respostas mais alta, respostas mais exatas, melhor trabalho de processamento da informação etc., ou seja, uma redução dos outros erros. Idealmente os esforços são concentrados na redução simultânea dos erros relacionados com amostragem e não relacionados com amostragem, apesar de restrições financeiras e de tempo tornarem este ideal difícil de concretizas.
Segundo Lipstein (1975), a questão central é saber se, com um aumento na dimensão da amostra, o erro amostral decresce mais rapidamente do que aumentam os outros erros. Quanto mais cuidadosas forem a concepção do questionário, o treino dos entrevistadores, a supervisão de todas as operações, menor será o erro. Para tirar benefícios de uma amostra maior (em termos amostrais e não amostrais) é necessário aumentar substancialmente os recursos afectos à melhoria de todo o processo que o estudo percorre.
Um dos conselhos que Lipstein (1975) dá para um melhor domínio dos erros motivados pela amostragem é “use o menor tamanho de amostra que seja consistente com os objetivos do estudo, em vez do maior que você puder pagar.”
“Resumo: A crença é amplamente difundida de que estudos são antiéticos se o tamanho da amostra não for suficientemente grande para garantir poder estatístico adequado. Os autores examinam como o tamanho da amostra influencia o equilíbrio que determina a aceitabilidade ética de um estudo: o equilíbrio entre os encargos assumidos pelos participantes e o valor clínico ou científico que o estudo pode ser esperado produzir.
O ônus médio projetado por participante permanece constante à medida que o tamanho da amostra aumenta, mas o valor projetado do estudo não aumenta tão rapidamente quanto o tamanho da amostra se for assumido que ele é proporcional ao poder ou inversamente proporcional à largura do intervalo de confiança. Isso implica que o valor por participante projetado diminui à medida que o tamanho da amostra aumenta e que estudos menores, portanto, têm relações mais favoráveis entre o valor projetado e o ônus do participante.
O tratamento ético dos participantes do estudo, portanto, não exige considerar se o poder do estudo é inferior à meta convencional de 80% ou 90%. Um poder estatístico mais baixo não torna um estudo antiético. A análise aborda apenas a aceitabilidade ética, não a otimização; estudos grandes podem ser desejáveis por outras razões que não as éticas.”
“Em conclusão, a análise apresentada aqui sugere que a continuação da condução de estudos “underpowered” não é o terrível lapso moral lamentado por alguns escritores.
Em geral, os comitês de ética e outros interessados na proteção dos sujeitos da pesquisa não precisam considerar se um estudo é muito pequeno.
Em particular, não vemos nenhum argumento ético válido contra estudos pequenos, de alto risco / alto retorno, como recentemente defendido para doenças rapidamente fatais.
Na verdade, uma questão ética mais legítima em relação ao tamanho da amostra é se ela é muito grande.”
“Contexto: A crença permanece amplamente difundida de que estudos de pesquisa médica devem ter poder estatístico de pelo menos 80% para serem cientificamente sólidos, e revisores frequentemente questionam se o poder é suficientemente alto.
Discussão: Esse requisito e os métodos para atendê-lo apresentam falhas graves. Notavelmente, a verdadeira natureza de como o tamanho da amostra influencia o valor científico ou prático projetado de um estudo impede qualquer designação abrangente significativa de poder <80% como “inadequado”. Além disso, cálculos-padrão são inerentemente pouco confiáveis, e focar apenas no poder negligencia os resultados mais importantes de um estudo concluído: estimativas e intervalos de confiança. As convenções atuais prejudicam o processo de pesquisa de várias maneiras: promovendo a má interpretação de estudos concluídos, corroendo a integridade científica, dando aos revisores poder arbitrário, inibindo a inovação, distorcendo padrões éticos, desperdiçando esforço e dinheiro. A pesquisa médica se beneficiaria de abordagens alternativas, incluindo métodos estabelecidos de valor da informação, escolhas simples baseadas em custo ou viabilidade que foram recentemente justificadas, análises de sensibilidade que examinem um conjunto significativo de possíveis resultados e o seguimento de estudos análogos anteriores. Para promover abordagens mais racionais, o treinamento em pesquisa deve cobrir as questões apresentadas aqui, os revisores devem ser extremamente cuidadosos antes de levantar questões sobre tamanho de amostra “inadequado” e relatórios de estudos concluídos não devem discutir poder.
Resumo: As convenções e expectativas comuns sobre tamanho de amostra são profundamente falhas, causam sérios danos ao processo de pesquisa e devem ser substituídas por alternativas mais racionais.”
O tamanho do efeito é a magnitude da diferença entre condições ou o grau de relacionamento entre variáveis.
As propriedades da estimativa de tamanho de efeito são:
RESI
(Robust Effect Size Index)“Tamanhos de efeito padronizados são índices sem unidade usados para descrever a magnitude de uma associação.
Ao contrário dos valores de p, que são frequentemente usados para avaliar significância estatística, os tamanhos de efeito não dependem do tamanho da amostra (Betensky, 2019). Uma crítica bem conhecida aos valores de p e aos testes de significância é que, para tamanhos de amostra grandes, efeitos muito pequenos serão considerados significativos, mesmo que esses efeitos possam ser negligenciáveis na aplicação prática (Wasserstein & Lazar, 2016).
Em contraste, tamanhos de efeito comunicam a força do efeito, e não a mera existência de um efeito de tamanho arbitrário, o que pode ser mais significativo na prática (Sullivan & Feinn, 2012). Embora o aumento do tamanho da amostra ajude a melhorar a precisão da estimativa de um tamanho de efeito, o tamanho de efeito é um parâmetro que não depende do tamanho da amostra (Kang et al., 2023). Revistas e diretrizes estatísticas estão cada vez mais incentivando os autores a reportar tamanhos de efeito e seus intervalos de confiança juntamente com, ou no lugar de, valores de p (Wasserstein & Lazar, 2016; Wilkinson, 1999; Association, 1994; American Psychological Association, 2001, 2010; Althouse et al., 2021). No entanto, eles ainda não são comumente reportados (Fritz et al., 2012; Amaral & Line, 2021) e, quando reportados, frequentemente não incluem intervalos de confiança (Fritz et al., 2012).
Há quatro desafios para relatar tamanhos de efeito que limitam seu uso generalizado.
Primeiro, existem muitas medidas de tamanho de efeito disponíveis (Cohen, 1988; Hedges & Olkin, 1985; Rosenthal, 1994; Zhang & Schoeps, 1997; Serdar et al., 2021), mas elas são tipicamente definidas no contexto de um parâmetro populacional específico, o que dificulta a comparação de efeitos em uma ampla variedade de modelos (Vandekar et al., 2020).
Segundo, muitas medidas de tamanho de efeito disponíveis não permitem parâmetros de controle (nuisance parameters) ou covariáveis (Vandekar et al., 2020).
Terceiro, muitas medidas de tamanho de efeito não possuem procedimentos acurados para intervalos de confiança, o que impede a quantificação da incerteza em torno da estimativa do tamanho de efeito (Kang et al., 2023).
Finalmente, muitas funções padrão de resumo de modelos disponíveis em softwares estatísticos produzem automaticamente valores de p, mas poucas também reportam tamanhos de efeito.
O pacote RESI
para R foi desenvolvido para enfrentar
esses desafios.”
E.g., no teste t o tamanho de efeito não-padronizado é o valor da diferença entre as médias, i.e.,
\[ d = |\bar{x}_A - \bar{x}_B| \]
E.g., no teste t independente homocedástico o tamanho de efeito padronizado é o valor da diferença entre as médias dividido pela média dos desvios-padrão, i.e., como originalmente proposta por Cohen:
\[ d={ {|\bar{x}_A - \bar{x}_B|}\over{\text{média dos desvios-padrão}} } \]
Cohen, 1988, p. 20
ou, como é calculada mais precisamente:
\[ d = {\dfrac{\bar{x}_A-\bar{x}_B}{s_{\text{combinado}}}} \]
Sendo que:
\[ s_{\text{combinado}} = \sqrt{\dfrac{(n_A-1)s^2_A+(n_B-1)s^2_B}{n_A+n_B-2}} \]
Esta medida é afetada pelas médias e variâncias. Caso eu duplique, o que acontece com a média e o desvio-padrão? Usando R como laboratório, temos:
|
A tabela para o d de Cohen na documentação da função
effectsize::interpret_d
serve também para o g de
Hedges:
Sawilowsky, 2009
O tamanho do efeito pode ser expresso entre 0 e 1 por meio do \(\eta^2\) de Cohen.
E.g., para o teste t independente ou relacionado, o tamanho do efeito é:
\[ \eta^2={{t^2}\over{t^2+gl}}={{F}\over{F+gl}} \]
em que \(gl\) é o número de graus de liberdade.
Aoki, 2020
Aoki (2020) criou o pacote R es.dif
.
As seguintes estatísticas NÃO são de tamanho de efeito, ao contrário do que afirmam em alguns textos:
Implementamos demo_verifica_tamanho_efeito.R
. Este
código duplica a amostra e recalcula a medida candidata a tamanho de
efeito, que não pode se alterar.
----------------
Amostra original
----------------
Estatura dos homens:
[1] 166.5929 171.5473 198.3806 176.0576 176.9393 200.7260
[1] 176.9393 200.7260 181.9137 156.0241 164.6972 168.3151
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
156.0241 167.0234 173.8025 180.6701 200.726 176.1194 14.30676 10 0
Estatura das mulheres:
[1] 166.1204 161.7991 162.0039 160.5534 157.2208 168.9346
[1] 157.2208 168.9346 162.4893 150.1669 163.5068 157.6360
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
150.1669 158.3654 161.9015 163.2524 168.9346 161.0431 5.190367 10 0
######### 0.2631579 169.5305
Two Sample t-test
data: estatura by grupo
t = -3.1326, df = 18, p-value = 0.005754
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-25.187437 -4.965113
sample estimates:
mean in group Feminino mean in group Masculino
161.0431 176.1194
Welch Two Sample t-test
data: estatura by grupo
t = -3.1326, df = 11.329, p-value = 0.009222
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-25.631628 -4.520922
sample estimates:
mean in group Feminino mean in group Masculino
161.0431 176.1194
Call:
lm(formula = estatura ~ grupo, data = dados)
Residuals:
Min 1Q Median 3Q Max
-20.0953 -5.3801 0.3471 3.1171 24.6066
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 161.043 3.403 47.322 < 2e-16 ***
grupoMasculino 15.076 4.813 3.133 0.00575 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 10.76 on 18 degrees of freedom
Multiple R-squared: 0.3528, Adjusted R-squared: 0.3169
F-statistic: 9.813 on 1 and 18 DF, p-value: 0.005754
One-way analysis of means (not assuming equal variances)
data: estatura and grupo
F = 9.8131, num df = 1.000, denom df = 11.329, p-value = 0.009222
-----------
Amostra * 2
-----------
Estatura dos homens:
[1] 166.5929 171.5473 198.3806 176.0576 176.9393 200.7260
[1] 176.9393 200.7260 181.9137 156.0241 164.6972 168.3151
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
156.0241 166.5929 173.8025 181.9137 200.726 176.1194 13.92518 20 0
Estatura das mulheres:
[1] 166.1204 161.7991 162.0039 160.5534 157.2208 168.9346
[1] 157.2208 168.9346 162.4893 150.1669 163.5068 157.6360
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
150.1669 157.636 161.9015 163.5068 168.9346 161.0431 5.051932 20 0
######### 0.2564103 165.1836
Two Sample t-test
data: estatura by grupo
t = -4.5515, df = 38, p-value = 5.33e-05
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-21.781767 -8.370783
sample estimates:
mean in group Feminino mean in group Masculino
161.0431 176.1194
Welch Two Sample t-test
data: estatura by grupo
t = -4.5515, df = 23.916, p-value = 0.0001309
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-21.913886 -8.238664
sample estimates:
mean in group Feminino mean in group Masculino
161.0431 176.1194
Call:
lm(formula = estatura ~ grupo, data = dados)
Residuals:
Min 1Q Median 3Q Max
-20.0953 -5.3801 0.3471 3.1171 24.6066
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 161.043 2.342 68.758 < 2e-16 ***
grupoMasculino 15.076 3.312 4.552 5.33e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 10.47 on 38 degrees of freedom
Multiple R-squared: 0.3528, Adjusted R-squared: 0.3358
F-statistic: 20.72 on 1 and 38 DF, p-value: 5.33e-05
One-way analysis of means (not assuming equal variances)
data: estatura and grupo
F = 20.717, num df = 1.000, denom df = 23.916, p-value = 0.0001309
Comparativo:
amostra amostra x 2 razao
1 n(m) 10.00000 20.00000 2.000
2 n(f) 10.00000 20.00000 2.000
3 sd(m) 14.30676 13.92518 0.973
4 sd(f) 5.19037 5.05193 0.973
5 var(sexo) 0.26316 0.25641 0.974
6 var(estatura) 169.53053 165.18360 0.974
7 p(t_student) 0.00575 0.00005 0.009
8 df(t_student) 18.00000 38.00000 2.111
9 t_student -3.13259 -4.55154 1.453
10 p(t_welch) 0.00922 0.00013 0.014
11 df(t_welch) 11.32900 23.91600 2.111
12 t_welch -3.13259 -4.55154 1.453
13 IC95(t)_LL -25.63163 -21.91389 0.855
14 IC95(t)_UL -4.52092 -8.23866 1.822
15 eta^2 (F/(F+df_Welch)) 0.46415 0.46415 1.000
16 R^2 (lm) 0.35282 0.35282 1.000
17 slope (lm) 15.07627 15.07627 1.000
18 dCohen (formula) 1.40093 1.43932 1.027
19 dCohen (es.dif::es.d) 1.34160 1.41070 1.052
20 dCohen (psych::cohen.d) 1.47671 1.47671 1.000
21 gHedges (psych::cohen.d) 1.40093 1.43932 1.027
22 Radj^2 (formula) 0.41685 0.44175 1.060
23 Radj^2 (lm) 0.31687 0.33579 1.060
24 omega^2 (formula) 0.39803 0.43207 1.086
25 df(denF) 11.32900 23.91600 2.111
26 F 9.81309 20.71653 2.111
27 p(F) 0.00922 0.00013 0.014
Com esta verificação simples, algumas das supostas estimativas de tamanho de efeito têm problemas.
\(\eta^2\) de Cohen calculado a partir do teste t de Welch (número de graus de liberdade real) não varia com a duplicação da amostra:
\[ \eta^2 = \dfrac{F}{F+\text{df}_\text{real}} \]
fit <- t.test(estatura~grupo, data=dados) df <- as.numeric(fit$parameter) t <- fit$statistic F <- as.numeric(fit$statistic^2) eta2 <- F/(F+df)
Os valores de \(R^2\) e inclinação
da reta de regressão, \(\beta\),
oriundos de lm
foram invariantes. Isto ocorre porque
\[ R^2 = \dfrac{F}{F+\text{df}_\text{inteiro}} \]
quando o número de \(df\) é obtido a partir do teste t de Student (\(F=t^2\)) supondo homocedasticidade (número de graus de liberdade inteiro). Ocorre que, nesta condição, os valores de F acompanham os graus de liberdade mantendo o valor de \(R^2\). Observe:
A inclinação da reta (\(\beta_1\)) é dada por
\[ \beta_1={r {\dfrac{\text{sd}(y)}{\text{sd}(x)}}} \]
onde \(r=\sqrt{R^2}\) (portanto, constante). As variâncias mudam, mas com a duplicação das duas amostras, o quociente \(\text{sd}(\text{estatura})/\text{sd}(\text{sexo})\) se mantém. Confira:
Porém, estas duas estimativas não são boas candidatas:
lm
padece de não considerar a heterocedasticidade (número de graus de
liberdade inteiro),O valor de d de Cohen obtido por psych::cohen.d
não foi afetada pelo tamanho da amostra. O valor de g de Hedges
obtido por psych::cohen.d
foi afetado pelo tamanho da
amostra.
As duas fórmulas dependem da variância das estaturas que são alteradas quando a amostra é duplicada. Portanto, mesmo o d de Cohen não é garantido que não varie com a duplicação da amostra. Há confusão entre a nomenclatura de d de Cohen e g de Hedges na literatura (Lakens, 2013).
O valor do d de Cohen implementada em
es.dif::es.d
também se modifica, sugerindo que a correção
proposta por Aoki (2020) não é suficiente.
Quando consideramos heterocedasticidade (t ou ANOVA de Welch), os graus de liberdade das estatísticas t e do denominador da F tornam-se fracionários. Com isto, outras estimativas também não são candidatas: \(\eta^2\) e \(\omega^2\) usam \(df\) do denominador da estatística F. Além disso, \(\omega^2\) é uma variante de \(R^2\) ajustado: as duas dependem de \(n\) e são estatísticas para seleção de modelo com valores aproximadamente iguais.
As demais estimativas são estatísticas de teste (t, F, p, IC) que também não são candidatas a tamanho de efeito.
A conclusão, portanto, é que as estatísticas robustas à heterocedasticidade, pelo menos com estas estimativas de tamanho de efeito, não podem ser usadas diretamente em metanálise, a não ser que correções sejam encontradas.
----------------
Amostra original
----------------
Estatura dos homens:
[1] 166.5929 171.5473 198.3806 176.0576 176.9393 200.7260
[1] 166.1554 159.6282 169.4933 163.6379 191.1899 165.3261
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
117.3202 164.9805 174.8337 185.1002 232.7165 174.9644 14.97955 10000 0
Estatura das mulheres:
[1] 171.8536 159.1659 164.6348 157.1592 161.1255 165.6599
[1] 153.6615 158.0634 159.6615 164.5253 169.4037 164.6478
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
142.5563 156.6056 159.9106 163.3574 178.7935 159.9545 5.007837 10000 0
######### 0.2500125 181.0539
Two Sample t-test
data: estatura by grupo
t = -95.033, df = 19998, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-15.31954 -14.70037
sample estimates:
mean in group Feminino mean in group Masculino
159.9545 174.9644
Welch Two Sample t-test
data: estatura by grupo
t = -95.033, df = 12206, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-15.31955 -14.70036
sample estimates:
mean in group Feminino mean in group Masculino
159.9545 174.9644
Call:
lm(formula = estatura ~ grupo, data = dados)
Residuals:
Min 1Q Median 3Q Max
-57.644 -5.319 -0.063 5.382 57.752
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 159.9545 0.1117 1432.21 <2e-16 ***
grupoMasculino 15.0100 0.1579 95.03 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 11.17 on 19998 degrees of freedom
Multiple R-squared: 0.3111, Adjusted R-squared: 0.3111
F-statistic: 9031 on 1 and 19998 DF, p-value: < 2.2e-16
One-way analysis of means (not assuming equal variances)
data: estatura and grupo
F = 9031.3, num df = 1, denom df = 12206, p-value < 2.2e-16
-----------
Amostra * 2
-----------
Estatura dos homens:
[1] 166.5929 171.5473 198.3806 176.0576 176.9393 200.7260
[1] 166.1554 159.6282 169.4933 163.6379 191.1899 165.3261
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
117.3202 164.9805 174.8337 185.1002 232.7165 174.9644 14.97918 20000 0
Estatura das mulheres:
[1] 171.8536 159.1659 164.6348 157.1592 161.1255 165.6599
[1] 153.6615 158.0634 159.6615 164.5253 169.4037 164.6478
Min. 1st Qu. Median 3rd Qu. Max. Mean St.Dev. n NA
142.5563 156.6056 159.9106 163.3574 178.7935 159.9545 5.007712 20000 0
######### 0.2500063 181.0494
Two Sample t-test
data: estatura by grupo
t = -134.4, df = 39998, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-15.22885 -14.79106
sample estimates:
mean in group Feminino mean in group Masculino
159.9545 174.9644
Welch Two Sample t-test
data: estatura by grupo
t = -134.4, df = 24414, p-value < 2.2e-16
alternative hypothesis: true difference in means between group Feminino and group Masculino is not equal to 0
95 percent confidence interval:
-15.22886 -14.79106
sample estimates:
mean in group Feminino mean in group Masculino
159.9545 174.9644
Call:
lm(formula = estatura ~ grupo, data = dados)
Residuals:
Min 1Q Median 3Q Max
-57.644 -5.319 -0.063 5.382 57.752
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 159.95447 0.07897 2025.5 <2e-16 ***
grupoMasculino 15.00996 0.11168 134.4 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 11.17 on 39998 degrees of freedom
Multiple R-squared: 0.3111, Adjusted R-squared: 0.3111
F-statistic: 1.806e+04 on 1 and 39998 DF, p-value: < 2.2e-16
One-way analysis of means (not assuming equal variances)
data: estatura and grupo
F = 18063, num df = 1, denom df = 24414, p-value < 2.2e-16
Comparativo:
amostra amostra x 2 razao
1 n(m) 10000.0000 20000.0000 2.000
2 n(f) 10000.0000 20000.0000 2.000
3 sd(m) 14.9795 14.9792 1.000
4 sd(f) 5.0078 5.0077 1.000
5 var(sexo) 0.2500 0.2500 1.000
6 var(estatura) 181.0539 181.0494 1.000
7 p(t_student) 0.0000 0.0000 NaN
8 df(t_student) 19998.0000 39998.0000 2.000
9 t_student -95.0330 -134.4003 1.414
10 p(t_welch) 0.0000 0.0000 NaN
11 df(t_welch) 12206.4870 24414.1950 2.000
12 t_welch -95.0330 -134.4003 1.414
13 IC95(t)_LL -15.3195 -15.2289 0.994
14 IC95(t)_UL -14.7004 -14.7911 1.006
15 eta^2 (F/(F+df_Welch)) 0.4253 0.4253 1.000
16 R^2 (lm) 0.3111 0.3111 1.000
17 slope (lm) 15.0100 15.0100 1.000
18 dCohen (formula) 1.3440 1.3440 1.000
19 dCohen (es.dif::es.d) 1.3439 1.3440 1.000
20 dCohen (psych::cohen.d) 1.3440 1.3440 1.000
21 gHedges (psych::cohen.d) 1.3440 1.3440 1.000
22 Radj^2 (formula) 0.4252 0.4252 1.000
23 Radj^2 (lm) 0.3111 0.3111 1.000
24 omega^2 (formula) 0.4252 0.4252 1.000
25 df(denF) 12206.4870 24414.1950 2.000
26 F 9031.2669 18063.4370 2.000
27 p(F) 0.0000 0.0000 NaN
RESI::resi
A função resi
pacote RESI
(Robust
Effect Size Index) estima o tamanho de efeito por meio da
estatística \(S\) e pode ser aplicada
aos seguintes objetos de modelo: lm
, glm
,
nls
, survreg
, coxph
,
hurdle
, zeroinfl
, gee
,
geeglm
or lme
.
Note que a função summary
do RESI::resi
do
objeto de modelo lm
(teste t independente
homocedástico) produz estatística \(S\)
(RESI) que não varia com a duplicação da amostra. No entanto, a função
car::Anova
produz estatística \(S\) (RESI) que varia com a duplicação do
tamanho da amostra.
set.seed(123)
alpha <- 0.05
nm <- 1e1
nf <- 1e1
m <- rnorm(n=nm, mean=175, sd=15)
f <- rnorm(n=nf, mean=160, sd=5)
estatura <- c(m,f)
grupo <- factor(c(rep("Masculino",nm),
rep("Feminino",nf)))
dados <- data.frame(grupo,estatura)
fit.lm <- lm(estatura~grupo,
data=dados)
fit.lm.resi <- RESI::resi(model.full=fit.lm,
alpha=alpha,
boot.method="nonparam",
n.boot=1e3,
parallel="multicore")
cat("\nDados Originais:\n")
Dados Originais:
Analysis of effect sizes based on RESI:
Confidence level = 0.05
Call: lm(formula = estatura ~ grupo, data = dados)
Coefficient Table
Estimate Std. Error t value Pr(>|t|) RESI 2.5% 97.5%
(Intercept) 161.0431 1.7301 93.0819 0.0000 19.9322 12.2165 45.7756
grupoMasculino 15.0763 5.0731 2.9718 0.0082 0.6364 0.3148 1.1205
Analysis of Deviance Table (Type II tests)
Response: estatura
Df F Pr(>F) RESI 2.5% 97.5%
grupo 1 8.8318 0.0081704 0.58526 0.21457 1.0803
dados2 <- rbind(dados, dados)
fit.lm2 <- lm(estatura~grupo,
data=dados2)
fit.lm.resi2 <- RESI::resi(model.full=fit.lm2,
alpha=alpha,
boot.method="nonparam",
n.boot=1e3,
parallel="multicore")
cat("\nDados Duplicados:\n")
Dados Duplicados:
Analysis of effect sizes based on RESI:
Confidence level = 0.05
Call: lm(formula = estatura ~ grupo, data = dados2)
Coefficient Table
Estimate Std. Error t value Pr(>|t|) RESI 2.5% 97.5%
(Intercept) 161.0431 1.1590 138.9509 0e+00 21.5331 15.7272 34.4543
grupoMasculino 15.0763 3.3984 4.4363 1e-04 0.6875 0.4386 1.0133
Analysis of Deviance Table (Type II tests)
Response: estatura
Df F Pr(>F) RESI 2.5% 97.5%
grupo 1 19.681 7.5861e-05 0.66417 0.40587 0.99376
\[\Diamond\]
Segundo Ellis (2010):
“Uma vez que tenhamos calculado o tamanho de efeito, precisamos estar em condições de dizer o que ele significa.
Uma medida de tamanho de efeito de diferença entre grupos pode ser convertida em correlação.
Diferentes áreas do conhecimento têm diferentes tamanhos de efeito.
Se a área é nova, isso é problemático…então examinar a literatura de área conexa.
Um tamanho de efeito pequeno não implica necessariamente que o efeito do tratamento seja similarmente pequeno.”
Espírito-Santo & Daniel (2015, 2017, 2018) percorreram exaustivamente medidas de tamanho de efeito.
A seguir, é mostrado em Fritz et al. (2012) e Lakens (2013) o uso de estatísticas de tamanho de efeito na literatura científica de Psicologia:
Há quem insista em utilizar \(\omega\) como medida de tamanho de efeito:
Segundo Dancey & Reidy (2019):
“A replicação é uma das pedras angulares da ciência.
Se você observa um fenômeno uma vez, então pode ter sido por acaso; se o observa duas, três ou mais vezes, pode estar começando a aprender algo sobre o fenômeno estudado.
Se o seu estudo foi o primeiro neste assunto, é sensato que você trate os resultados com certo grau de cautela.”
Segundo Ellis (2010):
“O tamanho do efeito estimado é uma superestimativa do tamanho do efeito populacional.
Estudos com resultados positivos são mais propensos a serem submetidos para publicação: estudos com resultados estatisticamente significantes são 8 vezes mais propensos a serem submetidos.
Uma vez submetidos, tais estudos são mais propensos a serem publicados; isso ocorre porque os editores frequentemente usam a significância estatística com uma medida de controle de qualidade para selecionar estudos para publicação e, como indicado anteriormente, uma falta de resultado significativo não implica a ausência de um efeito de tratamento.
Esse viés de publicação significa que aqueles estudos que têm os efeitos mais fortes são mais propensos a serem publicados, e, consequentemente, qualquer metanálise desses estudos tende a superestimar o efeito de tratamento da população.
Esse não é um problema pequeno, pois a metodologia rigorosa de metanálise pode dar credenciais científicas a conclusões errôneas, e esse é um sério abuso da metanálise.
Estudos com números maiores de participantes são mais propensos a ter tamanhos de efeito que são mais próximos do tamanho de efeito populacional.
O valor da metanálise que usa pequenas quantidades de estudos está mais em focalizar a pesquisa futura do quem obter conclusões firmes.”
Textos sobre metanálise em R:
Gerard et al., 1998
Implementamos demo_poder_retrospectivo.R
que traz a
estimativa por intervalo de confiança do poder retrospectivo (a
posteriori):
ANOVA unifatorial independente balanceada
n total = 60
k (numero de grupos) = 2
F critico (alfa = 0.05) = 4.01
F = 3.97
Estimativa pontual do poder retrospectivo = 0.5
IC95 do poder retrospectivo = [0.05, 0.97]
library(MBESS)
# sink("Analise de poder retrospectivo ou a posteriori.txt")
cat("ANOVA unifatorial independente balanceada")
k <- 2 # numero de condicoes independentes
n <- 30 # tamanho da amostra em cada condicao independente
alfa <- 0.05
dfn <- k - 1
dfd <- k*(n - 1)
Fcrt <- qf(1-alfa, dfn, dfd)
Fobs <- Fcrt*0.99 # Fobs um pouco menor que Fcrit: nao rejeita H0 por um triz
eta2 <- dfn*Fobs/(dfn*Fobs+dfd)
eta2lims <- MBESS::ci.pvaf(Fobs, dfn, dfd, k*n, 1-alfa)
f2 <- eta2/(1-eta2)
f2.ll <- eta2lims$Lower.Limit.Proportion.of.Variance.Accounted.for/
(1-eta2lims$Lower.Limit.Proportion.of.Variance.Accounted.for)
f2.ul <- eta2lims$Upper.Limit.Proportion.of.Variance.Accounted.for/
(1-eta2lims$Upper.Limit.Proportion.of.Variance.Accounted.for)
ncp <- dfd*f2 # ou dfn*Fobs
ncp.ll <- dfd*f2.ll
ncp.ul <- dfd*f2.ul
cat("\n\tn total = ", k*n,
"\n\tk (numero de grupos) = ", k,
"\n\tF critico (alfa = ", alfa, ") = ", round(Fcrt,2),
"\n\tF = ", round(Fobs,2),"\n", sep="")
poder <- 1-pf(Fcrt,dfn, dfd, ncp)
cat(paste("\tEstimativa pontual do poder retrospectivo =", round(poder,3),"\n"))
poder.ll <- 1-pf(Fcrt,dfn, dfd, ncp.ll)
poder.ul <- 1-pf(Fcrt,dfn, dfd, ncp.ul)
cat("\tIC95 do poder retrospectivo = [", round(poder.ll,3),", ",
round(poder.ul,3),"]\n", sep="")
# sink()
Observe que o intervalo de confiança encontrado praticamente varia de 0 a 1 e, portanto, é inútil para a tomada de decisão.