Bastão de Asclépio & Distribuição Normal

Bastão de Asclépio & Distribuição Normal

1 Gabarito

1.1 Teste de hipótese nula: conceito

2.1 APEx 7703: A 2.2 APEx 7706: D 2.3 APEx 7708: C 2.4 APEx 7722: D 2.5 APEx 7852: B 2.6 APEx 9456: A 2.7 APEx 10175: A 2.8 APEx 10090: B 2.9 APEx 10486: C 2.10 APEx 10487: A 2.11 APEx 10488: C 2.12 APEx 10490: E 2.13 APEx 10491: B 2.14 APEx 10492: D 2.15 APEx 10493: D 2.16 APEx 11431: A 2.17 APEx 12945: C 2.18 APEx 12944: C 2.19 APEx 11541: F 2.20 APEx 12181: G 2.21 APEx 12183: A 2.22 APEx 12184: B

1.2 Teste t

3.1 APEx 7782: B 3.2 APEx 10179: A 3.3 APEx 7844: E 3.4 APEx 16470: B 3.5 APEx 7858: A 3.6 APEx 7868: A 3.7 APEx 7984: C 3.8 APEx 9301: D 3.9 APEx 9303: D 3.10 APEx 9304: B 3.11 APEx 16443: E 3.12 APEx 9567: B 3.13 APEx 13469: D 3.14 APEx 9570: B 3.15 APEx 11393: C 3.16 APEx 13400: A 3.17 APEx 13468: E 3.18 APEx 13470: A 3.19 APEx 12432: A ou E 3.20 APEx 16444: B

1.3 Teste F (ANOVA)

4.1 APEx 3505: F 4.2 APEx 7974: B 4.3 APEx 7978: B 4.4 APEx 7986: A 4.5 APEx 8041: C 4.6 APEx 8042: F 4.7 APEx 9571: C 4.8 APEx 13471: C 4.9 APEx 10117: B 4.10 APEx 10773: D 4.11 APEx 11422: B 4.12 APEx 11423: A 4.13 APEx 16105: C 4.14 APEx 12318: E 4.15 APEx 12319: F 4.16 APEx 12377: C 4.17 APEx 16087: A 4.18 APEx 16091: B 4.19 APEx 16093: C 4.20 APEx 16095: D 4.21 APEx 16096: E 4.22 APEx 16097: A 4.23 APEx 16099: E 4.24 APEx 16100: C 4.25 APEx 16101: A 4.26 APEx 16102: B 4.27 APEx 16103: C 4.28 APEx 16104: D

1.4 Teste qui-quadrado

5.1 APEx 7885: A 5.2 APEx 7886: C 5.3 APEx 9205: A 5.4 APEx 9206: D ou E 5.5 APEx 11406: D 5.6 APEx 12310: E 5.7 APEx 12308: F 5.8 APEx 16445: E 5.9 APEx 12307: E 5.10 APEx 15591: B

1.5 Odds Ratio

6.1 APEx 11412: B 6.2 APEx 11415: C

2 Teste de hipótese nula: conceito

2.1 APEx 7703: Probabilidade de um tipo de erro

A probabilidade de que um efeito tenha surgido devido apenas ao erro amostral, dado que a hipótese nula é verdadeira, é representada por:

A. α (alfa)
B. β (beta)
C. 1 − β (um menos beta)
D. 1 − α (um menos alfa)
E. α + β (alfa mais beta)

Explicações e justificativas:

Alternativa correta: A.

Por definição, α é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira, isto é, a probabilidade de um erro do tipo I. Essa probabilidade quantifica a chance de observar um efeito estatisticamente significante.

2.2 APEx 7706: Poder

O poder de um teste é representado por:

A. α (alfa)
B. β (beta)
C. 1 − α (um menos alfa)
D. 1 − β (um menos beta)
E. α + β (alfa mais beta)

Explicações e justificativas:

Alternativa correta: D.

Por definição, o poder estatístico de um teste é a probabilidade de rejeitar a hipótese nula quando ela é falsa, isto é, a probabilidade de detectar um efeito verdadeiro. Essa quantidade é expressa por \(1 - \beta\), sendo que \(\beta\) é a probabilidade de erro do tipo II.

2.3 APEx 7708: Hipótese alternativa

Se você obtém em um estudo o valor-p de \(p = 0.01\), a probabilidade de que a hipótese alternativa seja verdadeira é:

A. 0,99
B. 0,01
C. Indeterminada

Explicações e justificativas:

Alternativa correta: C.

O valor-p é definido como a probabilidade de obter um resultado tão extremo quanto o observado (ou mais), assumindo que a hipótese nula é verdadeira. Ele não fornece a probabilidade de a hipótese alternativa ser verdadeira. Portanto, essa probabilidade é indeterminada a partir do valor-p.

2.4 APEx 7722: \(p = 0{,}000\)

Um software estatístico informa \(p = 0{,}000\).

Como esse valor-p deve ser relatado?

A. \(p = 0{,}000\)
B. \(p = 0\)
C. \(p < 0{,}01\)
D. \(p < 0{,}001\)
E. \(p < 0{,}0001\)

Explicações e justificativas:

Alternativa correta: D.

Valores-p nunca são exatamente zero. Quando um software reporta \(p = 0{,}000\), isso indica apenas que o valor-p é menor do que o limite de precisão exibido. Pela convenção (por exemplo, APA), valores muito pequenos devem ser relatados como desigualdade, tipicamente \(p < 0.001\).

# Exemplo de um valor-p muito pequeno
p_value <- 2.2e-16

# Formatação padrão (estilo APA)
formatted_p <- format.pval(p_value, digits = 3, eps = .001)
cat("p", formatted_p, "\n", sep = "")
p<0.001

2.5 APEx 7852: Teste de hipótese nula

Ceteris paribus, num teste de hipótese nula:

A. Quanto maior a amostra, menor o poder
B. Quanto maior a amostra, maior o poder
C. O tamanho da amostra não está relacionado ao poder
D. Quanto maior a amostra, mais difícil determinar o poder

Explicações e justificativas:

Alternativa correta: B.

Mantidos constantes o tamanho do efeito, o nível de significância \(\alpha\) e a variabilidade, o aumento do tamanho amostral reduz o erro-padrão, aumentando a probabilidade de rejeitar a hipótese nula quando ela é falsa. Portanto, o poder do teste cresce com o tamanho da amostra.

Ver Figure 4: Power and sample size, Krzywinski & Altman, Nature Methods, 2013.

2.7 APEx 10175: Significância estatística

Em Daniel J. et al. (2018) Redefine statistical significance. Nature Human Behaviour 2: 6–10, os autores afirmam:

“For fields where the threshold for defining statistical significance for new discoveries is \(p < 0.05\), we propose a change to \(p < 0.005\). This simple step would immediately improve the reproducibility of scientific research in many fields. Results that would currently be called significant but do not meet the new threshold should instead be called suggestive.”

Esta proposta, para alterar o critério tradicional de \(0.05\) para \(0.005\) no planejamento dos testes estatísticos, implica em:

A. diminuir o nível de significância
B. diminuir a probabilidade do erro do tipo II
C. aumentar o poder
D. diminuir o valor-p

Explicações e justificativas:

Alternativa correta: A.

A proposta consiste em reduzir o nível de significância \(\alpha\) de \(0.05\) para \(0.005\), tornando mais rigoroso o critério para rejeição da hipótese nula e reduzindo a probabilidade do erro do tipo I.

Ceteris paribus, a redução de \(\alpha\) implica aumento de \(\beta\), a probabilidade do erro do tipo II, e consequente diminuição do poder do teste (\(1-\beta\)). Portanto, as alternativas que sugerem diminuição de \(\beta\) ou aumento do poder são incorretas.

O valor-p é uma estatística observada após a realização do teste e não um parâmetro de planejamento; logo, não faz sentido afirmar que o critério proposto “diminui o valor-p”.

2.8 APEx 10090: Alfa

Quase todos os dias nos deparamos com o conceito de “significância estatística” dos resultados de um estudo clínico, geralmente avaliada através da expressão \(p < 0.05\) ou semelhantes. No entanto, o significado de “nível de significância” nem sempre é corretamente compreendido na prática clínica.

Na linguagem coloquial, “significante” sugere algo importante. Em Estatística, o termo refere-se a um resultado pouco compatível com a hipótese nula, isto é, improvável sob um modelo puramente aleatório. Um achado pode ser estatisticamente significante sem ser clinicamente relevante.

A probabilidade de cometer um erro do tipo I é \(\alpha\), definido a priori como o nível de significância do teste de hipóteses.

Fonte: Quais são os erros do tipo I e II?: Suporte ao Minitab 18).

A probabilidade do erro do tipo I:

A. mensura o defeito no planejamento do experimento.
B. define o critério para a decisão estatística.
C. estima o poder para aceitar hipóteses.
D. avalia o viés da obtenção da amostra.

Explicações e justificativas:

Alternativa correta: B.

O nível de significância \(\alpha\) é fixado antes da coleta dos dados e estabelece o critério de decisão do teste estatístico. Ao comparar o valor-\(p\) observado com \(\alpha\), decide-se rejeitar ou não rejeitar a hipótese nula. Portanto, \(\alpha\) não mede defeitos do planejamento, não estima poder e não avalia viés amostral; ele define explicitamente a regra de decisão estatística.

2.9 APEx 10486: Significância estatística

A significância estatística:

A. Indica a importância prática.
B. Mostra a significância clínica.
C. Depende do tamanho da amostra.

Explicações e justificativas:

Alternativa correta: C.

A significância estatística depende do tamanho da amostra, pois, ceteris paribus, amostras maiores reduzem o erro-padrão e aumentam a probabilidade de rejeitar a hipótese nula. Significância estatística não implica, necessariamente, importância prática ou relevância clínica.

2.10 APEx 10487: Teste estatístico – lógica

A lógica dos testes estatísticos inferenciais é determinar a probabilidade de:

A. observar efeito devido à flutuação amostral quando a hipótese nula é verdadeira.
B. obter erro amostral quando a hipótese da diferença é falseável.
C. cometer um erro do Tipo II quando a hipótese alternativa é verdadeira.
D. determinar o tamanho de efeito quando o erro amostral está presente.

Explicações e justificativas:

Alternativa correta: A.

Nos testes estatísticos clássicos, calcula-se o valor-p, definido como a probabilidade de observar um resultado tão extremo quanto o obtido, ou mais, assumindo que a hipótese nula é verdadeira. Essa lógica quantifica a compatibilidade dos dados com \(H_0\) sob a hipótese de que o efeito observado se deve apenas à flutuação amostral.

2.11 APEx 10488: \(p = 4\%\)

Se você obtém um valor-p de \(4\%\), isso significa que:

A. A probabilidade de que a hipótese nula seja verdadeira é \(4\%\) e que a hipótese alternativa seja \(96\%\).
B. A probabilidade de que a hipótese nula seja falsa é \(4\%\) e, portanto, a sua probabilidade de ser verdadeira é \(96\%\).
C. A probabilidade de se obter o efeito observado devido apenas ao erro amostral é \(4\%\), se a hipótese nula é verdadeira.
D. A probabilidade de não existir efeito devido ao erro amostral é \(96\%\), se a hipótese alternativa é verdadeira.

Explicações e justificativas:

Alternativa correta: C.

O valor-p é definido como a probabilidade de observar um resultado tão extremo quanto o observado, ou mais, assumindo que a hipótese nula é verdadeira. Assim, um valor-p de \(0.04\) indica que, sob \(H_0\), a chance de obter o efeito observado apenas por flutuação amostral é de \(4\%\). O valor-p não fornece probabilidades para a veracidade de \(H_0\) ou \(H_1\).

2.12 APEx 10490: Goodcoin – erros tipo I e II

Utilize o simulador Goodcoin.R. Explicação sobre Goodcoin.R está em Testagem de hipótese nula e significância estatística em R.

Para decidir se uma moeda é desbalanceada (tida como falsa) ou balanceada (tida como verdadeira), um experimento consiste em lançá-la “cara ou coroa” um determinado número de vezes (tamanho da amostra). Os lançamentos dentro e entre experimentos são independentes e identicamente distribuídos, isto é, aleatórios.

Simulando-se muitos experimentos, obtém-se a distribuição das decisões, evidenciando seus erros. Com essas simulações busca-se distinguir moedas falsas das verdadeiras, minimizando as probabilidades dos erros do tipo I (\(\alpha\)) e do tipo II (\(\beta\)). Há duas estratégias fundamentais:

  1. alterar \(\alpha\) (equivalente a mudar o critério de decisão);
  2. alterar o número de lançamentos de cada moeda (equivalente a mudar o tamanho da amostra).

Dica: para aproximar-se da solução, use um número menor de experimentos (por exemplo, entre 6000 e 10000 moedas), mas para conferir a resposta, simule números maiores, como \(10^5\) (100.000) moedas, para maior precisão.

Tendo encontrado o tamanho da amostra para \(\alpha = 5\%\) e poder de \(90\%\), considerando moedas desbalanceadas com probabilidade de \(70\%\) de resultarem coroa, o que aconteceria se as moedas fossem viciadas para coroa com probabilidade de \(30\%\)? A(s) probabilidade(s) do(s) erro(s) do(s) tipo(s):

A. I diminui
B. I aumenta
C. II diminui
D. II aumenta
E. I e II não mudam

Explicações e justificativas:

Alternativa correta: E.

Como a moeda de referência é balanceada, com \(p(\text{coroa}) = 0.5\), alterar a probabilidade da moeda desbalanceada de \(0.7\) para \(0.3\) corresponde a uma transformação simétrica em torno de \(0.5\). Mantidos o critério de decisão e o tamanho da amostra, as distribuições sob as hipóteses alternativa à direita (\(p=0.7\)) e à esquerda (\(p=0.3\)) são simétricas. Portanto, as probabilidades dos erros do tipo I e do tipo II permanecem inalteradas.

2.13 APEx 10491: Goodcoin – tamanho amostral e poder

Utilize o simulador Goodcoin.R. Explicação sobre Goodcoin.R está em Testagem de hipótese nula e significância estatística em R.

Para decidir se uma moeda é desbalanceada (tida como falsa) ou balanceada (tida como verdadeira), um experimento consiste em lançá-la “cara ou coroa” um determinado número de vezes (tamanho da amostra). Os lançamentos dentro e entre experimentos são independentes e identicamente distribuídos, isto é, aleatórios.

Simulando-se muitos experimentos, obtém-se a distribuição da tomada de decisão, evidenciando seus erros. Com essas simulações busca-se distinguir moedas falsas das verdadeiras, minimizando as probabilidades dos erros do tipo I (\(\alpha\)) e do tipo II (\(\beta\)). Há duas estratégias fundamentais:

  1. alterar \(\alpha\) (equivalente a mudar o critério de decisão);
  2. alterar o número de lançamentos de cada moeda (equivalente a mudar o tamanho da amostra).

Dica: para aproximar-se da solução, use um número menor de experimentos (por exemplo, entre 6000 e 10000 moedas), mas para conferir a resposta, simule números maiores, como \(10^5\) (100.000) moedas, para maior precisão.

Tendo estabelecido o tamanho da amostra com \(\alpha = 5\%\) e \(\beta = 10\%\) para moedas com \(p(\text{coroa}) = 0.7\), é possível reduzir o tamanho da amostra, mantendo o poder do teste?

A. Não é possível.
B. Sim, aumentando \(\alpha\).
C. Sim, reduzindo \(\alpha\).
D. Sim, aumentando \(\beta\).
E. Sim, reduzindo \(\beta\).

Explicações e justificativas:

Alternativa correta: B.

Manter o poder significa manter \(1-\beta = 0.90\), isto é, manter \(\beta = 0.10\). Reduzir o tamanho da amostra aumenta a variabilidade amostral relativa (maior dispersão da distribuição binomial), aumentando a sobreposição entre as distribuições sob \(H_0\) e \(H_1\) e, portanto, tendendo a aumentar \(\beta\) (perda de poder), se o critério de decisão for mantido fixo.

Para compensar a redução de \(n\) e manter \(\beta\) em \(0.10\), é necessário deslocar o ponto crítico de decisão de modo a reduzir a região de não rejeição de \(H_0\), o que aumenta a probabilidade de rejeitar \(H_0\) quando ela é verdadeira. Em termos de erros, isso corresponde a aumentar \(\alpha\).

2.14 APEx 10492: Goodcoin – aproximação da alternativa

Utilize o simulador Goodcoin.R. Explicação sobre Goodcoin.R está em Testagem de hipótese nula e significância estatística em R.

Para decidir se uma moeda é desbalanceada (tida como falsa) ou balanceada (tida como verdadeira), um experimento consiste em lançá-la “cara ou coroa” um determinado número de vezes (tamanho da amostra). Os lançamentos dentro e entre experimentos são independentes e identicamente distribuídos, isto é, aleatórios.

Simulando-se muitos experimentos, obtém-se a distribuição da tomada de decisão, evidenciando seus erros. Com essas simulações busca-se distinguir moedas falsas das verdadeiras, minimizando as probabilidades dos erros do tipo I (\(\alpha\)) e do tipo II (\(\beta\)). Há duas estratégias fundamentais:

  1. alterar \(\alpha\) (equivalente a mudar o critério de decisão);
  2. alterar o número de lançamentos de cada moeda (equivalente a mudar o tamanho da amostra).

Dica: para aproximar-se da solução, use um número menor de experimentos (por exemplo, entre 6000 e 10000 moedas), mas para conferir a resposta, simule números maiores, como \(10^5\) (100.000) moedas, para maior precisão.

Tendo encontrado o tamanho da amostra para \(\alpha = 5\%\) e poder de \(90\%\), para moedas desbalanceadas com probabilidade de \(70\%\) para sortear coroa, o que aconteceria se as moedas fossem viciadas para coroa com probabilidade de \(60\%\)? A(s) probabilidade(s) do(s) erro(s) do(s) tipo(s):

A. I diminui e II não se altera
B. I aumenta e II não se altera
C. I não se altera e II diminui
D. I não se altera e II aumenta
E. I e II não se alteram
F. I diminui e II aumenta
G. I aumenta e II diminui
H. I e II aumentam
I. I e II diminuem

Explicações e justificativas:

Alternativa correta: D.

O critério de decisão foi calibrado para \(\alpha = 0.05\) com \(H_0: p(\text{coroa}) = 0.5\). Mantendo o mesmo ponto crítico e o mesmo tamanho amostral, \(\alpha\) não muda, pois depende apenas da distribuição sob \(H_0\) e da região crítica fixada.

Ao alterar a hipótese alternativa de \(p(\text{coroa}) = 0.7\) para \(p(\text{coroa}) = 0.6\), a distribuição sob \(H_1\) se aproxima da distribuição sob \(H_0\), aumentando a sobreposição. Consequentemente, cresce a probabilidade de a estatística cair na região de não rejeição de \(H_0\) quando \(H_1\) é verdadeira, isto é, aumenta \(\beta\), e o poder \(1-\beta\) diminui.

2.15 APEx 10493: Goodcoin – tamanho amostral

Utilize o simulador Goodcoin.R. Explicação sobre Goodcoin.R está em Testagem de hipótese nula e significância estatística em R.

Para decidir se uma moeda é desbalanceada (tida como falsa) ou balanceada (tida como verdadeira), um experimento consiste em lançá-la “cara ou coroa” um determinado número de vezes (tamanho da amostra). Os lançamentos dentro e entre experimentos são independentes e identicamente distribuídos, isto é, aleatórios.

Simulando-se muitos experimentos, obtém-se a distribuição da tomada de decisão, evidenciando seus erros. Com essas simulações busca-se distinguir moedas falsas das verdadeiras, minimizando as probabilidades dos erros do tipo I (\(\alpha\)) e do tipo II (\(\beta\)). Há duas estratégias fundamentais:

  1. alterar \(\alpha\) (equivalente a mudar o critério de decisão);
  2. alterar o número de lançamentos de cada moeda (equivalente a mudar o tamanho da amostra).

Dica: para aproximar-se da solução, use um número menor de experimentos (por exemplo, entre 6000 e 10000 moedas), mas para conferir a resposta, simule números maiores, como \(10^5\) (100.000) moedas, para maior precisão.

Encontre, aproximadamente, o tamanho da amostra, para \(\alpha = 5\%\) e poder de \(90\%\), assumindo que as moedas desbalanceadas têm probabilidade de \(70\%\) para sortear coroa.

A. 20
B. 40
C. 60
D. 80
E. 100
F. 120

Explicações e justificativas:

Alternativa correta: D.

O tamanho da amostra corresponde ao número de lançamentos independentes da moeda em cada experimento. Mantido \(\alpha = 0.05\), o poder do teste (\(1-\beta\)) aumenta com o número de lançamentos, pois a variabilidade relativa da proporção observada diminui.

Ao testar os valores sugeridos no simulador Goodcoin.R, observa-se que cerca de \(n \approx 80\) lançamentos são necessários para atingir aproximadamente \(90\%\) de poder quando a moeda desbalanceada tem \(p(\text{coroa}) = 0.7\).

2.16 APEx 11431: Goodcoin – tamanho amostral e significância

Imagine que você conduziu dois estudos em uma população com prevalência de depressão de 35%, verificando-se o efeito de novas terapias.

No estudo A com 200 participantes submetidos à uma das terapias, o número de deprimidos caiu para 50 (25%) pacientes que continuaram deprimidos. No estudo B com 20 participantes submetidos à outra terapia, o número foi reduzido para 5 (25%) que continuaram deprimidos.

Sugerimos que resolva esta questão utilizando o simulador Goodcoin.R. Explicação sobre Goodcoin.R está em Testagem de hipótese nula e significância estatística em R.

Em qual dos dois estudos observamos efeito da(s) terapia(s) com nível de significância de \(5\%\)?

A. Nos dois estudos
B. Estudo A
C. Estudo B
D. Em nenhum dos dois estudos
E. Impossível determinar

Explicações e justificativas:

Alternativa correta: B.

Modela-se “deprimido” como “coroa” e considera-se como referência a prevalência populacional sob a hipótese nula,

\[ H_0:\ p = 0.35 \quad\text{vs}\quad H_1:\ p < 0.35 \]

com \(\alpha = 0.05\) (teste monocaudal à esquerda). O valor observado foi \(p_{\text{obs}}=0.25\) em ambos os estudos, mas o teste depende de \(n\).

Pelo Goodcoin.R (ou, equivalentemente, pela distribuição binomial):

Para o estudo A, usando \(n=200\) e \(p_0=0.35\), a região crítica para \(\alpha \approx 0.05\) ocorre para números de “coroas” suficientemente pequenos; com 50 deprimidos, o resultado cai na região de rejeição de \(H_0\), portanto há evidência de redução (significância a 5%).

Para o estudo B, com \(n=20\) e o mesmo \(p_0=0.35\), a região crítica é muito mais extrema devido ao pequeno tamanho amostral; com 5 deprimidos, o resultado não cai na região de rejeição. Assim, não há evidência suficiente a \(\alpha=0.05\).

Resumo: com o mesmo \(p_{\text{obs}}=0.25\), apenas o estudo com maior \(n\) atinge significância a 5%.

2.17 APEx 12945: RNBP e etilismo I

Um pesquisador deseja investigar recém-nascidos de baixo peso ao nascer (RNBP) e etilismo na prenhez. A média e o desvio-padrão (g) de recém-nascido de um tipo de rato branco de fêmea não-etilista são, respectivamente, 20 e 4. Cinquenta fêmeas são emprenhadas num experimento no qual elas recebem doses diárias de álcool. A média dos RNBP dessas fêmeas no experimento é 18 g.

O teste mais adequado para analisar se há o efeito de etilismo no RNBP é:

A. Monocaudal à direita
B. Monocaudal à esquerda

Explicações e justificativas:

Alternativa correta: B.

O interesse é detectar redução do peso ao nascer em relação ao valor de referência de fêmeas não-etilistas. Assim, define-se

\[ H_0:\ \mu = 20 \quad\text{vs}\quad H_1:\ \mu < 20 \]

sendo que \(\mu\) é a média populacional do peso ao nascer sob etilismo. Portanto, o teste é monocaudal à esquerda, com região crítica na cauda inferior.

# parâmetros conhecidos (exemplo de z-teste)
mu0 <- 20
sigma <- 4
n <- 50
xbar <- 18

z <- (xbar - mu0) / (sigma / sqrt(n))
z
[1] -3.535534
# valor-p (cauda à esquerda)
pval <- pnorm(z, lower.tail = TRUE)
pval
[1] 0.000203476

Fonte: Exemplo 4 na p. 146 do capítulo 8 - Introdução ao teste de hipóteses e ao z-Test Statistic do livro Statistics in Psychology (2009) de L. J. Stephens, Schaum’s Outline Series, NY: McGraw-Hill.

2.18 APEx 12944: RNBP e etilismo II

Um pesquisador deseja investigar recém-nascidos de baixo peso ao nascer (RNBP) e etilismo na prenhez. A média e o desvio-padrão (g) de recém-nascido de um tipo de rato branco de fêmea não-etilista são, respectivamente, 20 e 4. Cinquenta fêmeas foram emprenhadas num experimento no qual elas receberam doses diárias de álcool. A média dos RNBP dessas fêmeas no experimento é 21 g.

O teste mais adequado para analisar se há o efeito de etilismo no RNBP é:

A. Monocaudal à direita
B. Monocaudal à esquerda

Explicações e justificativas:

Alternativa correta: B.

O teste estatístico é definido pela hipótese científica, e não pelo valor observado da média amostral. O interesse do pesquisador é verificar se o etilismo reduz o peso ao nascer em relação ao valor de referência de fêmeas não-etilistas. Assim, as hipóteses são

\[ H_0:\ \mu = 20 \quad\text{vs}\quad H_1:\ \mu < 20 \]

o que caracteriza um teste monocaudal à esquerda, independentemente de a média observada na amostra ter sido maior que 20 g.

# parâmetros conhecidos (exemplo de z-teste)
mu0 <- 20
sigma <- 4
n <- 50
xbar <- 21

z <- (xbar - mu0) / (sigma / sqrt(n))
z
[1] 1.767767
# valor-p (cauda à esquerda)
pval <- pnorm(z, lower.tail = TRUE)
pval
[1] 0.9614501

O valor-\(z\) é positivo e o valor-\(p\) é elevado, indicando ausência de evidência contra \(H_0\). Ainda assim, o teste apropriado permanece monocaudal à esquerda, pois a direção da hipótese alternativa é definida a priori.

Fonte: Exemplo 4 na p. 146 do capítulo 8 - Introdução ao teste de hipóteses e ao z-Test Statistic do livro Statistics in Psychology (2009) de L. J. Stephens, Schaum’s Outline Series, NY: McGraw-Hill.

2.19 APEx 11541: Estatística de teste

Se o tamanho da amostra aumenta, ceteris paribus, o valor absoluto da estatística de teste:

A. Diminui
B. Aumenta
C. Não muda
D. Tudo pode acontecer

Explicações e justificativas:

Alternativa correta: B.

Mantidos constantes o tamanho do efeito populacional e a variabilidade, o aumento do tamanho da amostra reduz o erro-padrão da estimativa. Como a estatística de teste é a razão entre um efeito estimado e seu erro-padrão, o valor absoluto da estatística de teste aumenta quando o número de unidades experimentais aumenta.

2.20 APEx 12181: Teste z, nifedipina

Suspeita-se de que um medicamento vasodilatador (Nifedipina) para Hipertensão Arterial, amplamente receitado, esteja aumentando a frequência cardíaca dos pacientes.

É sabido que a frequência cardíaca fisiológica tem Distribuição Normal com média 70 batimentos por minuto (bpm) e desvio-padrão 2 bpm.

Para verificar essa suspeita, planejou-se obter uma amostra aleatória de 50 pacientes que recebem Nifedipina para se medir a frequência cardíaca.

A amostra de 50 pacientes forneceu:

72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
74, 67, 69, 71, 71, 73, 71, 71, 70, 71

Tendo sido encontrada média amostral igual a 70.58 bpm, o pesquisador tem evidência a favor do aumento da frequência cardíaca com o uso da nifedipina?

A. Rejeitar a hipótese nula
B. Não rejeitar a hipótese nula
C. Aceitar a hipótese nula
D. Aceitar a hipótese alternativa
E. Rejeitar a hipótese alternativa
F. Não rejeitar a hipótese alternativa
G. Impossível decidir

Explicações e justificativas:

Alternativa correta: G.

O delineamento sugere um teste z unilateral à direita, pois \(\sigma\) populacional é conhecido e a suspeita é de aumento:

\[ H_0:\ \mu = 70 \quad\text{vs}\quad H_1:\ \mu > 70 \]

Com os dados, obtém-se \(z \approx 2.05\) e valor-\(p \approx 0.020\), isto é, evidência contra \(H_0\) sob um critério usual como \(\alpha = 0.05\). No entanto, como o enunciado não especifica o nível de significância \(\alpha\), a regra de decisão (“rejeitar” ou “não rejeitar” \(H_0\)) não está definida a priori. Logo, formalmente, é impossível decidir no sentido de teste de hipótese.

mu <- 70
sigma <- 2
alfa <- 0.05
side <- "greater"

dados <- c(72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
           71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
           70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
           67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
           74, 67, 69, 71, 71, 73, 71, 71, 70, 71)

z.test <- BSDA::z.test(x = dados, sigma.x = sigma, mu = mu,
                       alternative = side, conf.level = 1 - alfa)
print(z.test)

    One-sample z-Test

data:  dados
z = 2.0506, p-value = 0.02015
alternative hypothesis: true mean is greater than 70
95 percent confidence interval:
 70.11477       NA
sample estimates:
mean of x 
    70.58 
media <- mean(dados)
d <- (media - mu) / sigma
cat("\nd de Cohen =", d, "(", effectsize::interpret_cohens_d(d), ")\n")

d de Cohen = 0.29 ( small )

2.21 APEx 12183: Teste z, nifedipina

Suspeita-se de que um medicamento vasodilatador (Nifedipina) para Hipertensão Arterial, amplamente receitado, esteja diminuindo a frequência cardíaca dos pacientes.

É sabido que a frequência cardíaca fisiológica tem Distribuição Normal com média 70 batimentos por minuto (bpm) e desvio-padrão 2 bpm.

Para verificar essa suspeita, planejou-se obter uma amostra aleatória de 50 pacientes que recebem Nifedipina para se medir a frequência cardíaca.

A amostra de 50 pacientes forneceu:

72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
74, 67, 69, 71, 71, 73, 71, 71, 70, 71

Tendo sido encontrada média amostral igual a 70.58 bpm, qual é, aproximadamente, o valor-p do teste estatístico apropriado?

A. 0.00822
B. 0.00829
C. 0.02015
D. 0.97985
E. 0.47985
F. Depende do valor de \(\alpha\) escolhido

Explicações e justificativas:

Alternativa correta: D.

A suspeita científica define um teste monocaudal à esquerda, com

\[ H_0:\ \mu = 70 \quad\text{vs}\quad H_1:\ \mu < 70 \]

Como o desvio-padrão populacional é conhecido, aplica-se um teste z. A estatística observada é positiva (\(z \approx 2.05\)), indicando que a média amostral está acima da média sob \(H_0\). Em um teste unilateral à esquerda, isso produz um valor-p próximo de 1:

\[ p \approx 0.98 \]

O valor-\(p\) não depende do nível de significância \(\alpha\); apenas a decisão de rejeitar ou não \(H_0\) depende de \(\alpha\).

mu <- 70
sigma <- 2
side <- "less"

dados <- c(72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
           71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
           70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
           67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
           74, 67, 69, 71, 71, 73, 71, 71, 70, 71)

z.test <- BSDA::z.test(x = dados, sigma.x = sigma, mu = mu,
                       alternative = side)
print(z.test)

    One-sample z-Test

data:  dados
z = 2.0506, p-value = 0.9798
alternative hypothesis: true mean is less than 70
95 percent confidence interval:
       NA 71.04523
sample estimates:
mean of x 
    70.58 
media <- mean(dados)
d <- (media - mu) / sigma
cat("\nd de Cohen =", d, "(", effectsize::interpret_cohens_d(d), ")\n")

d de Cohen = 0.29 ( small )

2.22 APEx 12184: Teste z, nifedipina

Suspeita-se de que um medicamento vasodilatador (Nifedipina) para Hipertensão Arterial, amplamente receitado, esteja aumentando a frequência cardíaca dos pacientes.

É sabido que a frequência cardíaca fisiológica tem Distribuição Normal com média 70 batimentos por minuto (bpm) e desvio-padrão 2 bpm.

Para verificar essa suspeita, planejou-se obter uma amostra aleatória de 50 pacientes que recebem Nifedipina para se medir a frequência cardíaca.

A amostra de 50 pacientes forneceu:

72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
74, 67, 69, 71, 71, 73, 71, 71, 70, 71

Tendo sido encontrada média amostral igual a 70.58 bpm, qual é, aproximadamente, o valor-\(p\) do teste estatístico apropriado?

A. 0.00822
B. 0.00829
C. 0.02015
D. 0.97985
E. 0.47985
F. Depende do valor de \(\alpha\) escolhido

Explicações e justificativas:

Alternativa correta: C.

A suspeita define um teste monocaudal à direita, com

\[ H_0:\ \mu = 70 \quad\text{vs}\quad H_1:\ \mu > 70 \]

Como o desvio-padrão populacional é conhecido, aplica-se um teste \(z\):

\[ z = \frac{\bar x - \mu_0}{\sigma/\sqrt{n}} = \frac{70.58 - 70}{2/\sqrt{50}} \approx 2.05 \]

e o valor-p unilateral à direita é

\[ p = P(Z \ge 2.05) \approx 0.020 \]

O valor-\(p\) não depende de \(\alpha\); \(\alpha\) afeta apenas a decisão de rejeitar ou não rejeitar \(H_0\).

mu <- 70
sigma <- 2
side <- "greater"

dados <- c(72, 74, 70, 70, 69, 71, 72, 71, 69, 74,
           71, 71, 70, 73, 69, 68, 68, 71, 71, 72,
           70, 69, 73, 69, 71, 70, 72, 73, 70, 72,
           67, 72, 67, 68, 69, 72, 70, 70, 70, 71,
           74, 67, 69, 71, 71, 73, 71, 71, 70, 71)

z.test <- BSDA::z.test(x = dados, sigma.x = sigma, mu = mu,
                       alternative = side)
print(z.test)

    One-sample z-Test

data:  dados
z = 2.0506, p-value = 0.02015
alternative hypothesis: true mean is greater than 70
95 percent confidence interval:
 70.11477       NA
sample estimates:
mean of x 
    70.58 
media <- mean(dados)
d <- (media - mu) / sigma
cat("\nd de Cohen =", d, "(", effectsize::interpret_cohens_d(d), ")\n")

d de Cohen = 0.29 ( small )

3 Teste t

3.1 APEx 7782: GL – II

Para um teste t pareado com 40 participantes, o número de graus de liberdade é:

A. 38
B. 39
C. 40
D. 78
E. 80

Explicações e justificativas:

Alternativa correta: B.

No teste t pareado, a análise é realizada sobre as diferenças entre as duas medidas de cada participante. Assim, o tamanho amostral efetivo é o número de pares (\(n\)), e os graus de liberdade são dados por

\[ gl = n - 1 \]

Com \(n = 40\) participantes, tem-se \(gl = 40 - 1 = 39\).

3.2 APEx 10179: Estatística de teste

Se o tamanho da amostra diminui, ceteris paribus, o valor absoluto da estatística de teste do teste t bicaudal:

A. Diminui
B. Aumenta
C. Não muda
D. Tudo pode acontecer

Explicações e justificativas:

Alternativa correta: A.

Mantidos constantes o tamanho do efeito e a variabilidade, a diminuição do tamanho da amostra aumenta o erro padrão da estimativa. Como a estatística t é a razão entre o efeito estimado e seu erro padrão, o aumento do erro padrão implica diminuição do valor absoluto da estatística de teste quando o número de unidades experimentais diminui.

3.3 APEx 7844: G*Power I

Ao planejar um estudo o pesquisador definiu os seguintes parâmetros: teste t independente; teste bicaudal; tipo de análise de poder: A priori; tamanho de efeito pequeno \(= 0.2\); \(\alpha = 0.05\); poder \(= 0.9\); grupos perfeitamente balanceados: razão de alocação \(= 1\).

Utilizando o G*Power, qual é o tamanho de amostra total do estudo?

A. 86
B. 172
C. 527
D. 1052
E. 1054

Explicações e justificativas:

Alternativa correta: E.

Configuração no G*Power:

  • Test family: t tests

  • Statistical test: Means: Difference between two independent means (two groups)

  • Type of power analysis: A priori

  • Parâmetros de entrada:

    • Tail(s): Two
    • Effect size \(d = 0.2\)
    • Alfa err prob: \(\alpha = 0.05\)
    • Power: \(1-\beta = 0.9\)
    • Allocation ratio \(N_2/N_1 = 1\)

Ao pressionar “Calculate”, o G*Power retorna:

  • Total sample size: 1054.

3.4 APEx 16470: G*Power II

Um pesquisador deseja calcular o número de participantes para que haja o poder do teste igual a \(90\%\) para detectar um tamanho de efeito populacional igual a \(0.25\). Adotar o nível de confiança de \(99\%\) e teste bicaudal. Com base no delineamento de sua pesquisa, sabe-se que será utilizado o teste t relacionado bicaudal.

Utilizando o G*Power para calcular o tamanho total da amostra, o número de participantes deve ser igual a:

A. 121
B. 241
C. 242
D. 482
E. 484

Explicações e justificativas:

Alternativa correta: C.

Configuração no G*Power:

  • Test family: t tests

  • Statistical test: Means: Difference between two dependent means (matched pairs)

  • Type of power analysis: A priori

  • Parâmetros de entrada:

    • Tail(s): Two
    • Effect size \(d_z = 0.25\)
    • Alfa err prob: \(\alpha = 0.01\) \((= 1 - 0.99)\)
    • Power: \(1-\beta = 0.9\)

Ao pressionar “Calculate”, o G*Power retorna:

  • Total sample size: 242.

3.5 APEx 7858: N: G*Power

Um pesquisador está interessado em saber quais são os limites mínimo e máximo de tamanho da amostra que deve ser coletado por grupo, para que o poder do teste esteja entre \(70\%\) e \(90\%\).

Com base na Figura extraída do G*Power, quais são esses limites mínimo e máximo?

A. 50 e 85
B. 63 e 209
C. 100 e 209
D. 100 e 170
E. 26 e 104

Explicações e justificativas:

Alternativa correta: A.

Pela figura do G*Power (teste t para médias independentes, bicaudal, \(\alpha = 0.05\), \(d = 0.5\), grupos balanceados):

  • para poder \(\approx 70\%\), o tamanho amostral total é cerca de \(100\), o que corresponde a aproximadamente \(50\) participantes por grupo;
  • para poder \(\approx 90\%\), o tamanho amostral total é cerca de \(170\), o que corresponde a aproximadamente \(85\) participantes por grupo.

Logo, os limites mínimo e máximo de tamanho da amostra por grupo são, aproximadamente, 50 e 85.

3.6 APEx 7868: Nível de ansiedade

O nível de ansiedade de quatro estudantes foi avaliado antes e depois de uma sessão de terapia. O escore individual do nível de ansiedade tem distribuição normal com desvio-padrão desconhecido.

O teste estatístico mais apropriado é:

A. t pareado
B. z pareado
C. t independente
D. z independente
E. Levene

Explicações e justificativas:

Alternativa correta: A.

As medições são realizadas nos mesmos indivíduos antes e depois da intervenção, caracterizando dados dependentes (delineamento intraparticipantes). Como o desvio-padrão populacional é desconhecido e assume-se normalidade, o teste adequado é o teste t pareado ou relacionado.

3.7 APEx 7984: GL

O número de graus de liberdade de um teste t surge num teste de hipótese nula se é necessário estimar o parâmetro populacional ________.

A. Média
B. Mediana
C. Variância
D. Assimetria
E. Curtose

Explicações e justificativas:

Alternativa correta: C.

O número de graus de liberdade aparece nos testes t porque o desvio-padrão populacional é desconhecido e precisa ser estimado a partir da amostra. Como o desvio-padrão depende da variância, é a variância populacional que está sendo estimada.

Em contraste, no teste z para um grupo, o desvio-padrão populacional é conhecido e, portanto, não há necessidade de graus de liberdade.

3.8 APEx 9301: Tipo de teste t

Num artigo publicado em periódico científico da área da Saúde é encontrado: \(t(21) = -2{,}89\) e \(n = 22\) para duas condições ________.

A. independentes
B. dependentes

Explicações e justificativas:

Alternativa correta: B.

O número de graus de liberdade informado é \(21\), que corresponde a \(n-1 = 22-1\). Isso é característico do teste t pareado (relacionado), no qual a análise é feita sobre as diferenças entre duas medições nas mesmas unidades experimentais. Portanto, as duas condições são dependentes.

3.9 APEx 9303: Grau de associação

No teste t, ____________ é uma medida do grau de associação entre uma variável dependente (VD) quantitativa e uma variável independente (VI) qualitativa dicotômica:

A. Valor-p
B. Estatística de teste t
C. Número de graus de liberdade
D. Eta ao quadrado
E. Erro-padrão da média

Explicações e justificativas:

Alternativa correta: D.

Eta ao quadrado (\(\eta^2\)) é uma medida de tamanho de efeito que quantifica o grau de associação entre a VI e a VD. Ele varia entre 0 e 1, é adimensional e representa a proporção da variância da VD explicada pela VI. Diferentemente do valor-p, \(\eta^2\) não depende diretamente do tamanho da amostra.

3.10 APEx 9304: GL – IV

O número de graus de liberdade de um teste t de Welch pode ser:

A. Apenas inteiro positivo
B. Inteiro ou fracionário positivo
C. Inteiro positivo ou negativo
D. Nulo

Explicações e justificativas:

Alternativa correta: B.

No teste t de Welch, os graus de liberdade são calculados por uma aproximação (fórmula de Welch–Satterthwaite) que depende das variâncias amostrais e dos tamanhos das amostras dos grupos. Como resultado, os graus de liberdade não precisam ser inteiros e podem assumir valores fracionários (reais) positivos.

3.11 APEx 16443: Amiodarona – I

A amiodarona é um antiarrítmico empregado para o tratamento dos distúrbios do ritmo de origem ventricular em pacientes com insuficiência cardíaca. Apesar de seus vários efeitos colaterais, é considerado como o melhor antiarrítmico, além de ser uma substância que age sobre a musculatura lisa dos vasos de resistência, provocando vasodilatação e diminuição da pressão arterial, bem como a diminuição do ritmo cardíaco. A insuficiência cardíaca é uma das principais causas de mortalidade, atingindo 70% ao cabo de dois anos. A taquiarritmia ventricular mata de forma súbita em terço de seus pacientes, o que explica a importância do pronto diagnóstico e tratamento adequado desta arritmia.

Um experimento hipotético baseado num estudo publicado nos Anais da Academia Nacional de Medicina, tem por objetivo avaliar os efeitos da amiodarona sobre uma das manifestações clínicas da insuficiência cardíaca de pacientes portadores de prótese valvar normofuncional: a frequência cardíaca (FC). As médias e desvios-padrão amostrais de FC (bpm = batimento por minuto) antes e depois da administração de 200mg de amiodarona por dia em seis pacientes dos dois gêneros e variadas faixas etárias estão no quadro a seguir.

Amiodarona (200 mg/dia) Média (bpm) Desvio-padrão (bpm)
Antes 119 18.50
Depois 79 7.38

A correlação entre FC antes e depois é igual a 0.961.
Aplicando-se o teste t relacionado, obtivemos o gráfico anexo.

Resultado do teste estatístico aplicado.

Fonte: Arango, HG (2012) Bioestatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 286.

Adotando-se o nível de significância de 5%, a decisão do teste da hipótese nula é:

A. Rejeitar a hipótese nula H0: μD = 0, concluindo que a frequência cardíaca média após o uso da amiodarona é menor do que antes do tratamento.
B. Não rejeitar a hipótese nula H0: μD = 0, não havendo evidência de redução da frequência cardíaca média após o uso da amiodarona.
C. Não é possível decidir, pois o valor-p do teste não foi informado explicitamente.
D. O teste aplicado está incorreto, pois deveria ser unilateral à esquerda, considerando D = FCdepois − FCantes.
E. O teste aplicado está incorreto, pois deveria ser bilateral, já que não havia definição prévia da direção do efeito da amiodarona.
F. Não é possível decidir, pois os dados individuais dos pacientes não foram apresentados.

Explicações e justificativas:

Alternativa correta: A.

Defina a diferença pareada \[ D = \text{FC}_{\text{antes}} - \text{FC}_{\text{depois}} \]

Com a hipótese direcional de redução da FC após o tratamento, aplica-se o teste t relacionado unilateral à direita: \[ H_0:\ \mu_D = 0 \quad \text{versus} \quad H_1:\ \mu_D > 0 \]

Com estatísticas-resumo e correlação \(r\) entre medidas antes e depois, o erro-padrão de \(\bar D\) é \[ EP(\bar D)=\sqrt{\frac{s_{\text{antes}}^2+s_{\text{depois}}^2-2r\,s_{\text{antes}}s_{\text{depois}}}{n}} \]

A estatística do teste é \[ t=\frac{\bar D}{EP(\bar D)} \\ gl=n-1=5 \] com \(\bar D = 119-79 = 40\).

Substituindo \(s_{\text{antes}}=18.50\), \(s_{\text{depois}}=7.38\), \(r=0.961\) e \(n=6\), obtém-se \(t\approx 8.45\) e valor-p unilateral \[ p = P(T_5\ge t)\approx 0.00019 \]

Como \(p<0.05\), rejeita-se H0.

n <- 6
media_antes <- 119
media_depois <- 79
dp_antes <- 18.50
dp_depois <- 7.38
r <- 0.961

Dbar <- media_antes - media_depois
df <- n - 1

EP <- sqrt((dp_antes^2 + dp_depois^2 - 2*r*dp_antes*dp_depois)/n)

t <- Dbar / EP
p_uni_direita <- 1 - pt(t, df)

cat("t(", df, ") = ", t, ", p = ", p_uni_direita, "\n", sep = "")
t(5) = 8.454571, p = 0.0001900319

3.12 APEx 9567: Amiodarona – II

A amiodarona é um antiarrítmico empregado para o tratamento dos distúrbios do ritmo de origem ventricular em pacientes com insuficiência cardíaca. Apesar de seus vários efeitos colaterais, é considerado como o melhor antiarrítmico, além de ser uma substância que age sobre a musculatura lisa dos vasos de resistência, provocando vasodilatação e diminuição da pressão arterial, bem como a diminuição do ritmo cardíaco. A insuficiência cardíaca é uma das principais causas de mortalidade, atingindo 70% ao cabo de dois anos. A taquiarritmia ventricular mata de forma súbita em terço de seus pacientes, o que explica a importância do pronto diagnóstico e tratamento adequado desta arritmia.

Um experimento hipotético baseado num estudo publicado nos Anais da Academia Nacional de Medicina, tem por objetivo avaliar os efeitos da amiodarona sobre uma das manifestações clínicas da insuficiência cardíaca de pacientes portadores de prótese valvar normofuncional: a frequência cardíaca (FC). As médias e desvios-padrão amostrais de FC (bpm = batimento por minuto) antes e depois da administração de 200mg de amiodarona por dia em seis pacientes dos dois gêneros e variadas faixas etárias estão no quadro a seguir.

Amiodarona (200 mg/dia) Média (bpm) Desvio-padrão (bpm)
Antes 119 18.50
Depois 79 7.38

Adotar o nível de significância de 1%.

A decisão do teste da hipótese nula é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Fonte: ARANGO, HG (2012) Bioetatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 286

O teste apropriado é um teste t pareado unilateral à direita, formulado sobre a diferença

\[ D = \text{FC}_{\text{antes}} - \text{FC}_{\text{depois}} \\ H_0:\ \mu_D = 0 \quad\text{vs}\quad H_1:\ \mu_D > 0 \]

Sem dados brutos, o desvio-padrão de \(D\) depende da correlação \(r\) entre medidas antes e depois:

\[ s_D = \sqrt{s_{\text{antes}}^2 + s_{\text{depois}}^2 - 2r\,s_{\text{antes}}s_{\text{depois}}} \\ EP(\bar D) = \frac{s_D}{\sqrt{n}} \]

Com \(\bar D = 119-79 = 40\) e \(n=6\), o valor-p unilateral pode ser avaliado para todo \(r\in[-1,1]\). Mesmo no cenário mais conservador (maior \(EP\)), o valor-p permanece abaixo de \(\alpha=0.01\), logo rejeita-se \(H_0\) ao nível de 1%.

# Teste t pareado unilateral à direita sem dados brutos
# Avaliação do valor-p como função da correlação r

n <- 6
media_antes <- 119
media_depois <- 79
dp_antes <- 18.50
dp_depois <- 7.38

alpha <- 0.01
df <- n - 1

dif <- media_antes - media_depois  # D = antes - depois

r <- seq(-1, 1, length.out = 1001)

ep <- sqrt((dp_antes^2 + dp_depois^2 - 2*r*dp_antes*dp_depois) / n)
t_stat <- dif / ep

p_right <- 1 - pt(t_stat, df)

range(p_right)
[1] 0.0001563065 0.0064059425
plot(r, p_right,
     xlab = "r (correlação antes-depois)",
     ylab = "valor-p (unilateral à direita)",
     type = "l",
     ylim = c(0, 0.01))
abline(h = alpha, lty = 2)

3.13 APEx 13469: Amiodarona – III

A amiodarona é um antiarrítmico empregado para o tratamento dos distúrbios do ritmo de origem ventricular em pacientes com insuficiência cardíaca. Um experimento hipotético tem por objetivo avaliar os efeitos da amiodarona sobre a frequência cardíaca (FC). As médias e desvios-padrão amostrais de FC (bpm) antes e depois da administração de 200mg de amiodarona por dia em seis pacientes estão no quadro a seguir.

Amiodarona (200 mg/dia) Média (bpm) Desvio-padrão (bpm)
Antes 119 18.50
Depois 79 7.38

A correlação entre FC antes e depois é igual a \(r=0.961\).
Adotar o nível de significância de 5%.

A decisão do teste da hipótese nula é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Fonte: ARANGO, HG (2012) Bioetatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 286.

O delineamento é pareado. Defina \[ D = \text{FC}_{\text{antes}}-\text{FC}_{\text{depois}} \] e teste \[ H_0:\ \mu_D=0 \quad\text{vs}\quad H_1:\ \mu_D>0 \] pois a expectativa é redução da FC após a droga, isto é, \(D>0\).

Sem dados brutos, o erro-padrão de \(\bar D\) depende de \(r\): \[ s_D=\sqrt{s_{\text{antes}}^2+s_{\text{depois}}^2-2r\,s_{\text{antes}}s_{\text{depois}}} \\ EP(\bar D)=\frac{s_D}{\sqrt{n}} \]

Com \(\bar D = 119-79 = 40\) e \(n=6\), \[ t=\frac{\bar D}{EP(\bar D)} = \frac{40}{\sqrt{(18.50^2+7.38^2-2\cdot 0.961\cdot 18.50\cdot 7.38)/6}} \approx 8.455 \] com \(gl=n-1=5\) e \(p\) unilateral \[ p = P(T_5 \ge t)\approx 0.00019 \] Como \(p<0.05\), rejeita-se \(H_0\).

n <- 6

media_antes <- 119
media_depois <- 79

dp_antes <- 18.50
dp_depois <- 7.38

r <- 0.961
alfa <- 0.05

dif <- media_antes - media_depois
df <- n - 1

ep <- sqrt((dp_antes^2 + dp_depois^2 - 2*r*dp_antes*dp_depois) / n)

t <- dif / ep
p <- 1 - pt(t, df)

cat("t(", df, ") = ", t, ", p = ", p, "\n", sep = "")
t(5) = 8.454571, p = 0.0001900319

3.14 APEx 9570: Amiodarona – IV

A amiodarona é um antiarrítmico empregado para o tratamento dos distúrbios do ritmo de origem ventricular em pacientes com insuficiência cardíaca. Um experimento hipotético tem por objetivo avaliar os efeitos da amiodarona sobre a frequência cardíaca (FC) em pacientes portadores de prótese valvar normofuncional. Os dados de FC (bpm) antes e depois da administração de 200mg/dia em seis pacientes são apresentados a seguir.

Participante Antes Depois
1 128 83
2 106 72
3 113 80
4 135 86
5 92 68
6 140 85

Adotar o nível de significância de 1%.

A decisão do teste da hipótese nula é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Fonte: ARANGO, HG (2012) Bioetatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 286

O delineamento é pareado. Define-se a diferença \[ D = \text{Depois} - \text{Antes} \] e testa-se \[ H_0:\ \mu_D = 0 \quad\text{vs}\quad H_1:\ \mu_D < 0 \] pois a expectativa clínica é de redução da FC.

Com os dados observados, a média das diferenças é \(\bar D = -40\) bpm. O teste t pareado unilateral à esquerda produz valor-\(p \approx 0.00019 < 0.01\), levando à rejeição de \(H_0\). O teste bootstrap (1e6 reamostragens) confirma a conclusão (\(p \approx 0.002\)), com intervalo de confiança unilateral totalmente abaixo de zero.

Dados <- data.frame(
  Participante = 1:6,
  Antes = c(128, 106, 113, 135, 92, 140),
  Depois = c(83, 72, 80, 86, 68, 85)
)

diferenca <- Dados$Depois - Dados$Antes

# Teste t pareado unilateral à esquerda (bootstrap)
MKinfer::boot.t.test(diferenca, mu = 0, alternative = "less", R = 1e6)

    Bootstrap One Sample t-test

data:  diferenca
number of bootstrap samples:  1e+06
bootstrap p-value = 0.002014 
bootstrap mean of x (SE) = -40.00047 (4.208967) 
95 percent bootstrap percentile confidence interval:
      -Inf -32.83333

Results without bootstrap:
t = -8.4515, df = 5, p-value = 0.0001904
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
      -Inf -30.46305
sample estimates:
mean of x 
      -40 
# Teste t clássico
t.test(diferenca, mu = 0, alternative = "less")

    One Sample t-test

data:  diferenca
t = -8.4515, df = 5, p-value = 0.0001904
alternative hypothesis: true mean is less than 0
95 percent confidence interval:
      -Inf -30.46305
sample estimates:
mean of x 
      -40 

3.15 APEx 11393: Diâmetro abdominal e creme redutor

Para verificar os efeitos de um produto denominado “creme redutor” foram medidos os diâmetros abdominais de 10 indivíduos, antes de começar o tratamento e uma semana após a aplicação diária do produto.

Dados observados:

Antes Depois
80 76
77 75
74 74
86 82
72 74
66 60
78 77
62 65
82 80
94 90

Adotar o nível de significância de 5% para o teste t pareado bicaudal, usando MKinfer::boot.t.test com 10^6 reamostragens.

Pode-se concluir que:

A. O teste t pareado por reamostragem tem decisões diferentes sobre \(H_0\) usando os critérios do valor-\(p\) e do IC95%.
B. O teste t pareado por reamostragem não deve ser usado devido ao tamanho da amostra ser menor que 30.
C. \(H_0\) é rejeitada pelos testes \(t\) pareado com e sem reamostragem pelo critério do valor-\(p\).
D. O teste t pareado por reamostragem garante a aceitação de \(H_0\).
E. Apenas o teste t pareado sem reamostragem pode ser usado para testar \(H_0\) nessa situação.

Explicações e justificativas:

Alternativa correta: A.

Define-se a variável diferença \[ D = \text{Depois} - \text{Antes} \] e testa-se \[ H_0:\ \mu_D = 0 \quad\text{vs}\quad H_1:\ \mu_D \neq 0 \]

No teste t pareado clássico (sem reamostragem), obtém-se \(p \approx 0.078 > 0.05\) e o IC95% inclui o zero, logo não se rejeita \(H_0\).

No teste t pareado por reamostragem (bootstrap), o \(p \approx 0.109 > 0.05\), indicando novamente não rejeição de \(H_0\). Entretanto, o IC95% bootstrap percentil é aproximadamente \([-3.4,\,-0.1]\), que não contém o zero, o que levaria à rejeição de \(H_0\) se o critério fosse apenas o intervalo de confiança.

Portanto, o teste t pareado por reamostragem conduz a decisões distintas sobre \(H_0\) quando se usam os critérios do valor-p e do IC95%.

Dados <- data.frame(
  Antes  = c(80, 77, 74, 86, 72, 66, 78, 62, 82, 94),
  Depois = c(76, 75, 74, 82, 74, 60, 77, 65, 80, 90)
)

diferenca <- Dados$Depois - Dados$Antes

# teste t pareado por reamostragem
MKinfer::boot.t.test(diferenca, mu = 0, alternative = "two.sided", R = 1e6)

    Bootstrap One Sample t-test

data:  diferenca
number of bootstrap samples:  1e+06
bootstrap p-value = 0.1085 
bootstrap mean of x (SE) = -1.800254 (0.842673) 
95 percent bootstrap percentile confidence interval:
 -3.4 -0.1

Results without bootstrap:
t = -1.9905, df = 9, p-value = 0.07774
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -3.8456928  0.2456928
sample estimates:
mean of x 
     -1.8 
# teste t pareado clássico
t.test(diferenca, mu = 0, alternative = "two.sided")

    One Sample t-test

data:  diferenca
t = -1.9905, df = 9, p-value = 0.07774
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -3.8456928  0.2456928
sample estimates:
mean of x 
     -1.8 

3.16 APEx 13400: Tamanho de amostra com pwr

Ao planejar um estudo o pesquisador definiu os seguintes parâmetros: teste t independente, bicaudal, com tamanho de efeito pequeno (d de Cohen igual a 0.2), nível de significância de 5%, poder de pelo menos 90% com grupos perfeitamente balanceados.

Utilizando o pacote pwr do R, qual é o tamanho de amostra total do estudo?

A. 22
B. 23
C. 42
D. 44
E. 46
F. 393
G. 429
H. 526
I. 527
J. 784
K. 786
L. 856
M. 858
N. 1050
O. 1052
P. 1054

Explicações e justificativas:

Alternativa correta: P.

A função pwr::pwr.t.test retorna \(n\) por grupo no teste t de duas amostras. Com \(d=0.2\), \(\alpha=0.05\) e poder \(=0.9\), obtém-se \(n \approx 526.33\) por grupo. Arredondando para cima, \(n=527\) por grupo, logo o total é \(2\times 527 = 1054\).

pd <- pwr::pwr.t.test(d = 0.2, sig.level = 0.05, power = 0.9,
                      type = "two.sample", alternative = "two.sided")
pd

     Two-sample t test power calculation 

              n = 526.3332
              d = 0.2
      sig.level = 0.05
          power = 0.9
    alternative = two.sided

NOTE: n is number in *each* group
n_por_grupo <- ceiling(pd$n)
n_total <- 2 * n_por_grupo

n_por_grupo
[1] 527
n_total
[1] 1054
# verificação do poder com n inteiro
pwr::pwr.t.test(n = n_por_grupo, d = 0.2, sig.level = 0.05,
                type = "two.sample", alternative = "two.sided")

     Two-sample t test power calculation 

              n = 527
              d = 0.2
      sig.level = 0.05
          power = 0.9003604
    alternative = two.sided

NOTE: n is number in *each* group

3.17 APEx 13468: Distúrbio do sono – II

Um pesquisador da área da saúde deseja verificar se o gênero interfere no seu tempo de sono ininterrupto (TSI) usando o teste t de Welch, ao nível de significância de 5%.

Dados resumidos:

Gênero n Média (h/noite) Desvio-padrão (h/noite)
Masculino 80 4.8 1.8
Feminino 125 5.6 1.2

A decisão sobre a hipótese nula é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Hipóteses (bicaudal): \[ H_0:\ \mu_M-\mu_F=0 \quad\text{vs}\quad H_1:\ \mu_M-\mu_F\neq 0 \]

Aplicando o teste t de Welch com estatísticas-resumo, obtém-se aproximadamente \(t\approx -3.51\), \(gl\approx 123.95\) e \(p\approx 0.00063\). Como \(p<0.05\), rejeita-se \(H_0\) ao nível de 5%.

alfa <- 0.05
DescTools::TTestA(mx = 4.8, sx = 1.8, nx = 80,
                  my = 5.6, sy = 1.2, ny = 125,
                  alternative = "two.sided",
                  conf.level = 1 - alfa)

    Welch Two Sample t-test

data:  x and y
t = -3.5076, df = 123.95, p-value = 0.0006307
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.2514341 -0.3485659
sample estimates:
mean of x mean of y 
      4.8       5.6 

3.18 APEx 13470: Distúrbio do sono – I

Um pesquisador da área da saúde deseja verificar se o gênero interfere no seu tempo de sono ininterrupto (TSI) usando teste t de Welch, ao nível de significância de 5%.

Dados resumidos:

Gênero n Média (h/noite) Desvio-padrão (h/noite)
Masculino 16 4.8 1.8
Feminino 25 5.6 1.2

A decisão sobre a hipótese nula é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: B.

Fonte: ARANGO, HG (2012) Bioetatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 285-6.

Hipóteses (bicaudal): \[ H_0:\ \mu_M-\mu_F=0 \quad\text{vs}\quad H_1:\ \mu_M-\mu_F\neq 0 \]

Aplicando o teste t de Welch com estatísticas-resumo, obtém-se aproximadamente \(t\approx -1.569\), \(gl\approx 23.56\) e \(p\approx 0.130\). Como \(p>0.05\), não se rejeita \(H_0\) ao nível de 5%.

alfa <- 0.05
DescTools::TTestA(mx = 4.8, sx = 1.8, nx = 16,
                  my = 5.6, sy = 1.2, ny = 25,
                  alternative = "two.sided",
                  conf.level = 1 - alfa)

    Welch Two Sample t-test

data:  x and y
t = -1.5686, df = 23.556, p-value = 0.1301
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.8536397  0.2536397
sample estimates:
mean of x mean of y 
      4.8       5.6 

3.19 APEx 12432: Distúrbio do sono – II

Um pesquisador deseja verificar se o uso de Melatonina interfere no tempo de sono ininterrupto (TSI), ao nível de significância de \(5\%\).
O delineamento é entre participantes.

Os dados resumidos são:

Droga \(n\) Média (min/noite) Desvio-padrão (min/noite)
Com Melatonina 34 492 126
Sem Melatonina 18 450 156

Fonte: Arango, HG (2012) Bioestatística: teórica e computacional. Rio de Janeiro: Guanabara-Koogan, p. 285–6.

Qual teste estatístico para testar o efeito do fator droga pode ser aplicado utilizando os dados da tabela?

A. t de Welch
B. t relacionado
C. Qui-quadrado de Pearson
D. ANOVA unifatorial relacionada
E. Regressão linear simples
F. Impossível aplicar teste estatístico

Explicações e justificativas:

Alternativas corretas: A e E.

O delineamento é entre participantes, com dois grupos independentes. A variável resposta (TSI) é quantitativa (intervalar). Os tamanhos amostrais e os desvios-padrão são distintos, não sendo apropriado assumir homocedasticidade. Assim, o teste adequado é o teste t para duas médias independentes com variâncias desiguais (teste t de Welch).

O teste t relacionado e a ANOVA relacionada pressupõem medidas dependentes. O teste qui-quadrado aplica-se a variáveis categóricas. Regressão linear simples não é necessária neste contexto.

## =========================================================
## VI dicotômica (0/1): teste de inclinação por OLS,
## t de Student e t de Welch usando apenas estatísticas-resumo
## =========================================================

## Dados-resumo
n1 <- 34; y1 <- 492; s1 <- 126   # grupo 1: com melatonina (x=1)
n0 <- 18; y0 <- 450; s0 <- 156   # grupo 0: sem melatonina (x=0)

alpha <- 0.05

## Estimativas OLS do modelo y = beta0 + beta1*x + e
beta0_hat <- y0
beta1_hat <- y1 - y0

## ---------------------------------------------------------
## 1) OLS homocedástico (equivalente ao t de Student)
## ---------------------------------------------------------

# variância combinada (pooled)
sp2 <- ((n1 - 1)*s1^2 + (n0 - 1)*s0^2) / (n1 + n0 - 2)

# erro-padrão do coeficiente beta1
se_beta1_ols <- sqrt(sp2 * (1/n1 + 1/n0))

# estatística t e gl
t_ols <- beta1_hat / se_beta1_ols
df_ols <- n1 + n0 - 2

# valor-p bicaudal
p_ols <- 2 * pt(-abs(t_ols), df_ols)

# IC 95% (bicaudal)
tcrit_ols <- qt(1 - alpha/2, df_ols)
ci_ols <- c(beta1_hat - tcrit_ols*se_beta1_ols,
            beta1_hat + tcrit_ols*se_beta1_ols)

## ---------------------------------------------------------
## 2) Teste t de Student (mesmo do OLS homocedástico)
## ---------------------------------------------------------
# diferença de médias (mesma beta1_hat)
diff_means <- beta1_hat

se_student <- se_beta1_ols
t_student <- t_ols
df_student <- df_ols
p_student <- p_ols
ci_student <- ci_ols

## ---------------------------------------------------------
## 3) Teste t de Welch (variâncias desiguais)
## ---------------------------------------------------------

se_welch <- sqrt(s1^2/n1 + s0^2/n0)
t_welch <- diff_means / se_welch

df_welch <- (s1^2/n1 + s0^2/n0)^2 /
  ((s1^2/n1)^2/(n1 - 1) + (s0^2/n0)^2/(n0 - 1))

p_welch <- 2 * pt(-abs(t_welch), df_welch)

tcrit_welch <- qt(1 - alpha/2, df_welch)
ci_welch <- c(diff_means - tcrit_welch*se_welch,
              diff_means + tcrit_welch*se_welch)

## ---------------------------------------------------------
## Saída organizada
## ---------------------------------------------------------

cat("Modelo: y = beta0 + beta1*x + e, com x=1 (grupo 1) e x=0 (grupo 0)\n\n")
Modelo: y = beta0 + beta1*x + e, com x=1 (grupo 1) e x=0 (grupo 0)
cat("Estimativas OLS (por definição com VI dicotômica):\n")
Estimativas OLS (por definição com VI dicotômica):
cat("beta0_hat = ", beta0_hat, " (media do grupo x=0)\n", sep = "")
beta0_hat = 450 (media do grupo x=0)
cat("beta1_hat = ", beta1_hat, " (diferença de medias: grupo 1 - grupo 0)\n\n", sep = "")
beta1_hat = 42 (diferença de medias: grupo 1 - grupo 0)
cat("1) OLS homocedástico (equivalente ao t de Student):\n")
1) OLS homocedástico (equivalente ao t de Student):
cat("t(", df_ols, ") = ", t_ols, ", p = ", p_ols, "\n", sep = "")
t(50) = 1.052192, p = 0.2977702
cat("IC", 100*(1-alpha), "% para beta1: [", ci_ols[1], ", ", ci_ols[2], "]\n\n", sep = "")
IC95% para beta1: [-38.17501, 122.175]
cat("2) t de Student (variâncias iguais):\n")
2) t de Student (variâncias iguais):
cat("t(", df_student, ") = ", t_student, ", p = ", p_student, "\n", sep = "")
t(50) = 1.052192, p = 0.2977702
cat("IC", 100*(1-alpha), "% para (mu1 - mu0): [", ci_student[1], ", ", ci_student[2], "]\n\n", sep = "")
IC95% para (mu1 - mu0): [-38.17501, 122.175]
cat("3) t de Welch (variâncias desiguais):\n")
3) t de Welch (variâncias desiguais):
cat("t(", df_welch, ") = ", t_welch, ", p = ", p_welch, "\n", sep = "")
t(28.98907) = 0.9847817, p = 0.3328797
cat("IC", 100*(1-alpha), "% para (mu1 - mu0): [", ci_welch[1], ", ", ci_welch[2], "]\n", sep = "")
IC95% para (mu1 - mu0): [-45.22852, 129.2285]

3.19.1 Teste da inclinação com VI dicotômica usando estatísticas-resumo

Considere dois grupos independentes, codificados por
\(x=1\) (grupo 1) e \(x=0\) (grupo 0), com estatísticas-resumo \((n_1,\bar y_1,s_1)\) e \((n_0,\bar y_0,s_0)\).

O modelo de regressão linear é \[ Y_i=\beta_0+\beta_1 x_i+\varepsilon_i \] com \(E(\varepsilon_i)=0\).

Estimativas OLS:

Com \(x\in\{0,1\}\), \[ \hat\beta_0=\bar y_0, \qquad \hat\beta_1=\bar y_1-\bar y_0 \]

3.19.1.1 1) OLS homocedástico (equivalente ao teste t de Student)

Variância combinada: \[ s_p^2=\frac{(n_1-1)s_1^2+(n_0-1)s_0^2}{n_1+n_0-2} \]

Erro-padrão da inclinação: \[ SE(\hat\beta_1)=\sqrt{s_p^2\left(\frac{1}{n_1}+\frac{1}{n_0}\right)} \]

Estatística de teste: \[ t=\frac{\hat\beta_1}{SE(\hat\beta_1)}, \qquad gl=n_1+n_0-2 \]

Valor-p bicaudal: \[ p=2\,P\!\left(T_{gl}\ge |t|\right) =2\,\mathrm{pt}(-|t|,gl) \]

3.19.1.2 2) Teste \(t\) de Student (diferença de médias)

Diferença de médias: \[ \hat\Delta=\bar y_1-\bar y_0 \]

Erro-padrão: \[ SE(\hat\Delta)=\sqrt{s_p^2\left(\frac{1}{n_1}+\frac{1}{n_0}\right)} \]

Estatística e graus de liberdade: \[ t=\frac{\hat\Delta}{SE(\hat\Delta)} \qquad gl=n_1+n_0-2 \]

Valor-p bicaudal: \[ p=2\,\mathrm{pt}(-|t|,gl) \]

Este teste é algebraicamente idêntico ao teste da inclinação OLS sob homocedasticidade.

3.19.1.3 3) Teste \(t\) de Welch (variâncias desiguais)

Erro-padrão: \[ SE_W=\sqrt{\frac{s_1^2}{n_1}+\frac{s_0^2}{n_0}} \]

Estatística de teste: \[ t_W=\frac{\bar y_1-\bar y_0}{SE_W} \]

Graus de liberdade (Welch–Satterthwaite): \[ gl_W= \frac{\left(\frac{s_1^2}{n_1}+\frac{s_0^2}{n_0}\right)^2} {\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1-1} +\frac{\left(\frac{s_0^2}{n_0}\right)^2}{n_0-1}} \]

Valor-p bicaudal: \[ p=2\,\mathrm{pt}(-|t_W|,gl_W) \]

Observação: o teste de Welch corresponde ao teste da inclinação com erro-padrão robusto à heterocedasticidade quando a VI é dicotômica.

3.20 APEx 16444: Teste t de Welch e tamanho de amostra (cloreto de potássio)

Um pesquisador deseja avaliar o efeito de duas doses de cloreto de potássio (KCl) sobre a frequência cardíaca (FC) de homens adultos hipertensos, em delineamento entre participantes.

Grupo 1 (dose baixa): FC média esperada = 72 bpm, desvio-padrão = 6 bpm
Grupo 2 (dose alta): FC média esperada = 76 bpm, desvio-padrão = 10 bpm

Assuma grupos balanceados (mesmo \(n\) em cada grupo) e teste bicaudal t de Welch, com nível de significância de 5%.

Qual é o menor valor de \(n\) (por grupo) a partir do qual rejeitamos H0: μ1 = μ2?

A. 25
B. 30
C. 35
D. 40
E. 45
F. Infinito G. Impossível determinar

Explicações e justificativas:

Alternativa correta: C.

Testa-se \[ H_0:\ \mu_1-\mu_2 = 0 \quad\text{vs}\quad H_1:\ \mu_1-\mu_2 \neq 0 \]

Com estatísticas-resumo, a estatística de Welch é \[ t = \frac{\bar x_1-\bar x_2}{\sqrt{\frac{s_1^2}{n}+\frac{s_2^2}{n}}} \] e os graus de liberdade aproximados (Welch–Satterthwaite) são \[ gl = \frac{\left(\frac{s_1^2}{n}+\frac{s_2^2}{n}\right)^2}{ \frac{\left(\frac{s_1^2}{n}\right)^2}{n-1}+\frac{\left(\frac{s_2^2}{n}\right)^2}{n-1} } \]

O menor \(n\) é obtido por busca inteira, verificando o primeiro \(n\) tal que o valor-p bicaudal satisfaça \(p < 0.05\).

alpha <- 0.05

mu1 <- 72; s1 <- 6
mu2 <- 76; s2 <- 10

welch_p <- function(n, mu1, s1, mu2, s2) {
  dif <- mu1 - mu2
  se <- sqrt(s1^2/n + s2^2/n)
  t <- dif / se
  df <- (s1^2/n + s2^2/n)^2 / ((s1^2/n)^2/(n-1) + (s2^2/n)^2/(n-1))
  p <- 2 * pt(-abs(t), df)
  c(t = t, df = df, p = p)
}

out <- do.call(rbind, lapply(10:80, function(n) c(n = n, welch_p(n, mu1, s1, mu2, s2))))
out <- as.data.frame(out)

n_min <- min(out$n[out$p < alpha])
print(n_min)
[1] 35
print(out[out$n %in% c(n_min-2, n_min-1, n_min, n_min+1, n_min+2), ],
      row.names = FALSE, digits=4)
  n      t    df       p
 33 -1.970 52.40 0.05409
 34 -2.000 54.03 0.05054
 35 -2.029 55.67 0.04723
 36 -2.058 57.31 0.04415
 37 -2.086 58.95 0.04128

4 Teste F (ANOVA)

4.1 APEx 3505: ANOVA unifatorial independente

A ANOVA unifatorial independente é apropriada para:

A. Variável dependente com distribuição normal em cada grupo.
B. Variável independente com duas ou mais categorias.
C. Delineamento entre participantes.
D. Delineamento quase-experimental.
E. Delineamento experimental.
F. Todas as outras alternativas são verdadeiras.

Explicações e justificativas:

Alternativa correta: F.

A ANOVA unifatorial independente pressupõe uma variável dependente quantitativa (intervalar), aproximadamente normal dentro de cada grupo, e uma variável independente categórica com duas ou mais categorias. O delineamento é entre participantes, pois cada unidade experimental pertence a apenas um nível do fator. O método é aplicável tanto a delineamentos experimentais quanto quase-experimentais, desde que os pressupostos do modelo sejam atendidos (normalidade, homocedasticidade e independência das observações).

4.2 APEx 7974: F – I

Os valores da estatística de teste F são:

A. Apenas negativos
B. Apenas positivos
C. Positivos ou negativos
D. Próximos de zero
E. Próximos de um
F. Próximo do número de condições

Explicações e justificativas:

Alternativa correta: B.

A estatística F é definida como a razão entre duas estimativas de variância: \[ F = \frac{\text{variância entre grupos}}{\text{variância dentro dos grupos}} \]

Como variâncias são sempre não negativas e, sob H0, estritamente positivas, a estatística F assume apenas valores positivos. Não pode ser negativa nem próxima de zero em condições regulares de teste. Em situações específicas (por exemplo, ausência completa de efeito), F pode assumir valores próximos de 1, mas isso não é uma propriedade geral, e sim um comportamento esperado sob a hipótese nula.

4.3 APEx 7978: GL do numerador – II

No que se refere à ANOVA unifatorial relacionada com 3 condições experimentais e 30 participantes no estudo, o número de graus de liberdade para o numerador da estatística de teste F é:

A. 1
B. 2
C. 3
D. 27
E. 28
F. 29

Explicações e justificativas:

Alternativa correta: B.

Na ANOVA unifatorial relacionada, o grau de liberdade do numerador da estatística F corresponde ao número de níveis do fator menos um. Com 3 condições experimentais, tem-se: \[ \text{gl}_{\text{numerador}} = k - 1 = 3 - 1 = 2 \] ## APEx 7985: Hipótese alternativa (ANOVA unifatorial independente)

A hipótese alternativa da ANOVA unifatorial independente é:

A. As médias amostrais dos grupos são todas diferentes.
B. As médias populacionais dos grupos são todas diferentes.
C. As médias populacionais dos grupos são aproximadamente diferentes.
D. Pelo menos duas médias populacionais dos grupos são diferentes.
E. Pelo menos duas médias populacionais dos grupos são iguais.

Explicações e justificativas:

Alternativa correta: D.

Na ANOVA unifatorial independente, a hipótese nula é \[ H_0:\ \mu_1 = \mu_2 = \cdots = \mu_k \] e a hipótese alternativa é \[ H_1:\ \exists\ i \neq j \mid \mu_i \neq \mu_j \]

Ou seja, a ANOVA não testa se todas as médias são diferentes entre si, mas apenas se existe pelo menos um par de médias populacionais que difere.

4.4 APEx 7986: Significância (ANOVA unifatorial independente)

Se a ANOVA unifatorial independente com três grupos é estatisticamente significante, então:

A. Pelo menos dois grupos têm médias populacionais diferentes.
B. Todos os grupos têm médias populacionais diferentes.
C. Todos os grupos têm médias populacionais iguais.
D. Todos os grupos têm variâncias populacionais iguais.
E. Pelo menos dois grupos têm médias populacionais iguais.

Explicações e justificativas:

Alternativa correta: A.

Uma ANOVA unifatorial independente significativa indica a rejeição da hipótese nula \[ H_0:\ \mu_1 = \mu_2 = \mu_3 \]

A rejeição de H0 implica apenas que existe pelo menos um par de médias populacionais distintas. A ANOVA não permite concluir que todas as médias sejam diferentes, nem identifica quais grupos diferem; para isso, são necessários testes post hoc.

4.5 APEx 8041: ANOVA unifatorial independente – I

A ANOVA unifatorial independente NÃO é apropriada para:

A. Variável dependente com distribuição normal em cada grupo.
B. Variável independente com três ou mais categorias.
C. Variável dependente ordinal.

Explicações e justificativas:

Alternativa correta: C.

A ANOVA unifatorial independente requer que a variável dependente seja quantitativa em escala pelo menos intervalar (ou razão) e aproximadamente normal dentro de cada grupo. Uma variável dependente ordinal não satisfaz esse requisito. A variável independente pode ter três ou mais categorias, e a normalidade condicional por grupo é um pressuposto do modelo.

4.6 APEx 8042: ANOVA unifatorial independente – II

A ANOVA unifatorial independente NÃO é apropriada para delineamento:

A. Observacional
B. Correlacional
C. Quase-experimental
D. Experimental
E. Entre participantes
F. Intraparticipantes

Explicações e justificativas:

Alternativa correta: F.

A ANOVA unifatorial independente pressupõe delineamento entre participantes, no qual cada unidade experimental pertence a apenas um nível do fator. Em delineamentos intraparticipantes (medidas repetidas), as observações são dependentes e o modelo adequado é a ANOVA unifatorial relacionada. Delineamentos observacionais (correlacionais), quase-experimentais e experimentais podem ser analisados por ANOVA independente, desde que respeitados os pressupostos do modelo.

4.7 APEx 9571: ANOVA unifatorial independente

A saída do R abaixo foi obtida pela ANOVA unifatorial independente com três grupos.
Adotar o nível de significância de 5%.

Fonte Df Sum Mean Sq F value Pr(>F)r
Grupo 2 145.2 72.58 9.915 0.000425
Residuals 33 241.6 7.32

Pode-se afirmar que:

A. A hipótese de igualdade das três médias populacionais não é rejeitada.
B. As hipóteses de igualdade das médias de pares de grupos são rejeitadas. C. A hipótese de igualdade das três médias populacionais é rejeitada.
D. As hipóteses de igualdade das médias de pares de grupos não são rejeitadas.

Explicações e justificativas:

Alternativa correta: C.

A ANOVA testa \[ H_0:\ \mu_1=\mu_2=\mu_3 \quad\text{vs}\quad H_1:\ \exists\, i\neq j \mid \mu_i\neq \mu_j \]

Na saída apresentada, o valor-p é \(0.000425\). Como \(0.000425 < 0.05\), rejeita-se \(H_0\) ao nível de 5%. Logo, rejeita-se a hipótese conjunta de igualdade das três médias populacionais.

A alternativa B não pode ser afirmada com base apenas na ANOVA: a identificação de quais pares diferem requer testes post hoc (por exemplo, Tukey, Bonferroni, Holm).

4.8 APEx 13471: ANOVA unifatorial independente de Welch

Uma escola avaliou três metodologias de ensino (leitura de livro, exercícios práticos e provas em grupo) utilizando as notas de dez estudantes em três turmas distintas, cada uma submetida a apenas uma metodologia. O objetivo é verificar se há diferença global entre as três metodologias.

Metodologia Notas dos estudantes
Leitura de livro 7.0, 4.4, 6.0, 5.5, 8.2, 7.0, 6.4, 9.1, 3.2, 4.0
Exercícios práticos 10.0, 7.2, 6.5, 6.6, 8.9, 9.0, 6.1, 5.0, 9.9, 5.5
Provas em grupo 1.5, 8.9, 9.8, 7.8, 8.7, 6.9, 10.0, 8.0, 9.3, 8.8

Usando a ANOVA unifatorial independente de Welch e adotando \(\alpha = 0.05\), pode-se afirmar que:

A. Rejeita-se H0, pois as médias das metodologias são, respectivamente, 6.08, 7.47 e 7.97.
B. Não se rejeita H0, pois a diferença entre as médias não é maior do que 2.5.
C. O valor p do teste, 0.1362, é menor do que \(\alpha\) e, portanto, aceita-se a hipótese nula.
D. O valor p do teste, 0.1362, é maior do que \(\alpha\) e, portanto, não se rejeita a hipótese nula.
E. O valor p do teste, 0.1362, é menor do que \(\alpha\) e, portanto, rejeita-se a hipótese nula.
F. O valor p do teste, 0.1362, é maior do que \(\alpha\) e, portanto, rejeita-se a hipótese nula.

Explicações e justificativas:

Alternativa correta: D.

A ANOVA unifatorial independente de Welch testa \[ H_0:\ \mu_{\text{leitura}} = \mu_{\text{exercicios}} = \mu_{\text{grupo}} \] contra \[ H_1:\ \exists\, i \neq j \mid \mu_i \neq \mu_j \]

O teste de Welch é apropriado quando não se pode assumir homogeneidade das variâncias entre os grupos. A saída do R forneceu valor-p igual a 0.1362. Como \(0.1362 > 0.05\), não se rejeita a hipótese nula ao nível de significância de 5%. Isso indica que não há evidência estatística suficiente para afirmar que as médias populacionais das três metodologias diferem.

Não rejeitar H0 não implica aceitar H0; apenas indica insuficiência de evidência contra a hipótese de igualdade das médias.

metodologia <- factor(c(rep("leitura",10),
                        rep("exercicio",10),
                        rep("grupo",10)))

nota <- c(7,4.4,6,5.5,8.2,7,6.4,9.1,3.2,4,
          10,7.2,6.5,6.6,8.9,9,6.1,5,9.9,5.5,
          1.5,8.9,9.8,7.8,8.7,6.9,10,8,9.3,8.8)

Dados <- data.frame(metodologia, nota)

oneway.test(nota ~ metodologia, data = Dados)

    One-way analysis of means (not assuming equal variances)

data:  nota and metodologia
F = 2.2356, num df = 2.000, denom df = 17.745, p-value = 0.1362

4.9 APEx 10117: Hipótese nula (ANOVA unifatorial)

A hipótese nula da ANOVA unifatorial aplicada para três ou mais grupos independentes é:

A. As médias amostrais dos grupos são iguais.
B. As médias populacionais dos grupos são iguais.
C. As médias amostrais dos grupos são aproximadamente iguais.
D. As médias populacionais dos grupos são aproximadamente iguais.
E. Pelo menos duas médias amostrais dos grupos são iguais.
F. Pelo menos duas médias populacionais dos grupos são iguais.
G. Todas as médias amostrais dos grupos são diferentes.
H. Todas as médias populacionais dos grupos são diferentes.

Explicações e justificativas:

Alternativa correta: B.

Na ANOVA unifatorial, a hipótese nula é formulada em termos de parâmetros populacionais: \[ H_0:\ \mu_1 = \mu_2 = \cdots = \mu_k \]

Embora o teste utilize dados amostrais para o cálculo da estatística F, as hipóteses estatísticas dizem respeito às médias populacionais. As demais alternativas confundem parâmetros populacionais com estatísticas amostrais ou descrevem incorretamente a forma da hipótese nula.

4.10 APEx 10773: GL do denominador (ANOVA unifatorial independente de Fisher)

No que se refere à ANOVA unifatorial independente de Fisher com 3 grupos e 30 participantes no estudo, o número de graus de liberdade para o denominador da estatística de teste F é:

A. 1
B. 2
C. 3
D. 27
E. 28
F. 29

Explicações e justificativas:

Alternativa correta: D.

Na ANOVA unifatorial independente de Fisher, os graus de liberdade do denominador (erro ou resíduos) correspondem ao total de observações menos o número de grupos. Assim, com \(n = 30\) participantes e \(k = 3\) grupos, tem-se: \[ \text{gl}_{\text{denominador}} = n - k = 30 - 3 = 27 \]

Esse grau de liberdade está associado à estimativa da variância dentro dos grupos (variância residual).

4.11 APEx 11422: ANOVA unifatorial de Welch sem dados brutos

Um pesquisador, ao ler um artigo científico, encontrou apenas os tamanhos de amostra, médias e desvios-padrão amostrais de quatro condições independentes. Os dados brutos não estão disponíveis. A variável dependente é a resistência da pele. O pesquisador precisa usar a ANOVA unifatorial de Welch para recalcular o valor-p do estudo.

Resumo por grupo:

Condição n média dp
NoSchiz 10 0.2760 0.4095
Schizotypical 10 0.1956 0.1808
SchizNeg 10 0.1495 0.2451
SchizPos 10 0.3997 0.2382

O valor-p é:

A. Impossível de calcular sem os dados brutos
B. 0.22
C. 0.14
D. 0.022
E. 0.014

Explicações e justificativas:

Alternativa correta: C.

A ANOVA de Welch pode ser calculada com estatísticas-resumo (\(n\), média e dp) porque o teste depende de médias ponderadas e variâncias estimadas por grupo.

Aplicando a ANOVA unifatorial de Welch, obtém-se aproximadamente

\[ F(3,\ 19.474) = 2.039,\quad p \approx 0.1417 \]

Como \(p \approx 0.14\), a alternativa correta é C.

n <- c(10, 10, 10, 10)
media <- c(0.2760, 0.1956, 0.1495, 0.3997)
dp <- c(0.4095, 0.1808, 0.2451, 0.2382)
J <- length(n)
var <- dp^2
w <- n/var
U <- sum(w)
X_til <- as.numeric(w %*% media / U)
gl_num <- J - 1
A <- as.numeric(w %*% ((media - X_til)^2) / (J - 1))
B <- as.numeric((2 * (J - 2) / (J^2 - 1)) *
                  (((1 - w/U)/(n - 1)) %*% (1 - w/U)))
gl_denom <- 1 / (((3/2)/(J - 2)) * B)
F <- A / (1 + B)
p <- pf(F, gl_num, gl_denom, lower.tail = FALSE)
eta2 <- as.numeric(gl_num * F / (gl_num * F + gl_denom))
mag_eta2 <- effectsize::interpret_eta_squared(eta2)
cat("max(dp)/min(dp) = ", max(dp)/min(dp), "\n", sep = "")
max(dp)/min(dp) = 2.264934
cat("F(", gl_num, ", ", gl_denom, ") = ", F, ", p = ", p, "\n", sep = "")
F(3, 19.47366) = 2.038699, p = 0.1416938
cat("eta^2 = ", eta2, " (", mag_eta2, ")\n", sep = "")
eta^2 = 0.2390057 (large)

4.12 APEx 11423: ANOVA unifatorial de Fisher sem dados brutos

Um pesquisador, ao ler um artigo científico, encontrou apenas os tamanhos de amostra, médias e desvios-padrão amostrais de quatro condições independentes. Os dados brutos não estão disponíveis. A variável dependente é a resistência da pele. O pesquisador precisa usar a ANOVA unifatorial de Fisher para recalcular o valor-p do estudo.

Resumo por grupo:

Condição \(n\) média dp
NoSchiz 10 0.2760 0.4095
Schizotypical 10 0.1956 0.1808
SchizNeg 10 0.1495 0.2451
SchizPos 10 0.3997 0.2382

O valor-p é:

A. Impossível de calcular sem os dados brutos
B. 0.22
C. 0.14
D. 0.022
E. 0.014

Explicações e justificativas:

Alternativa correta: B.

Na ANOVA unifatorial de Fisher (assumindo homogeneidade de variâncias), a estatística \[ F=\frac{\text{QM}_{\text{entre}}}{\text{QM}_{\text{dentro}}} \] pode ser obtida a partir de estatísticas-resumo quando se dispõe de \(n_j\), \(\bar x_j\) e \(s_j\) em cada grupo.

Com \(k=4\) grupos e \(n_j=10\) para todos, tem-se \[ \text{gl}_{\text{num}}=k-1=3,\qquad \text{gl}_{\text{den}}=N-k=40-4=36 \]

O cálculo resulta em \[ F(3,36) \approx 1.515,\quad p \approx 0.2272 \] Logo, o valor-p é aproximadamente 0.22.

n <- c(10, 10, 10, 10)
media <- c(0.2760, 0.1956, 0.1495, 0.3997)
dp <- c(0.4095, 0.1808, 0.2451, 0.2382)
gl <- n - 1
gl_num <- length(n) - 1
gl_denom <- sum(gl)
media_grande <- mean(media)
s2_entre <- as.numeric(n %*% ((media - media_grande)^2)) / gl_num
var <- dp^2
s2_dentro <- as.numeric(gl %*% var) / gl_denom
F <- s2_entre / s2_dentro
p <- pf(F, gl_num, gl_denom, lower.tail = FALSE)
eta2 <- as.numeric(gl_num * F / (gl_num * F + gl_denom))
mag_eta2 <- effectsize::interpret_eta_squared(eta2)
cat("max(dp)/min(dp) = ", max(dp)/min(dp), "\n", sep = "")
max(dp)/min(dp) = 2.264934
cat("F(", gl_num, ", ", gl_denom, ") = ", F, ", p = ", p, "\n", sep = "")
F(3, 36) = 1.514856, p = 0.2272074
cat("eta^2 = ", eta2, " (", mag_eta2, ")\n", sep = "")
eta^2 = 0.1120882 (medium)

4.13 APEx 16105: ANOVA

Um pesquisador da área médica quer estudar a efetividade, por meio de um escore quantitativo, de três analgésicos.

Você não gostaria de ter um painel como o da USS Entreprise, medindo vários sinais vitais dos pacientes o tempo todo, incluindo dor? Eles conseguem saber se está doendo até mesmo quando o paciente está inconsciente :-)

Você não gostaria de ter um painel como o da USS Entreprise, medindo vários sinais vitais dos pacientes o tempo todo, incluindo dor? Eles conseguem saber se está doendo até mesmo quando o paciente está inconsciente :-)

Qual teste é o mais apropriado para esse estudo?

A. z independente
B. t independente
C. t relacionado
D. ANOVA unifatorial
E. Impossível propor um teste

Explicações e justificativas:

Alternativa correta: D.

O estudo envolve uma variável dependente quantitativa (escore de dor) e uma variável independente categórica com três níveis (tipo de analgésico), em um delineamento entre participantes.

Quando se deseja comparar três ou mais médias populacionais independentes, o teste estatístico apropriado é a ANOVA unifatorial independente.

4.14 APEx 12318: Analgésicos – xANOVA

Um pesquisador da área da saúde deseja estudar, sem medidas repetidas, a efetividade de três analgésicos por meio de um escore quantitativo. Cada participante recebe apenas um dos analgésicos, e os grupos são independentes.

Você não gostaria de ter um painel como o da USS Entreprise, medindo vários sinais vitais dos pacientes o tempo todo, incluindo dor? Eles conseguem saber se está doendo até mesmo quando o paciente está inconsciente :-)

Você não gostaria de ter um painel como o da USS Entreprise, medindo vários sinais vitais dos pacientes o tempo todo, incluindo dor? Eles conseguem saber se está doendo até mesmo quando o paciente está inconsciente :-)

O teste estatístico mais adequado para esse estudo é:

A. MANOVA
B. OWANOVA
C. RANOVA
D. RMANOVA
E. SPANOVA
F. WSANOVA

Explicações e justificativas:

Alternativa correta: B.

O delineamento descrito envolve uma única variável dependente quantitativa (intervalar) e um único fator (tipo de analgésico) com três níveis (nominal politômica), em um delineamento entre participantes, sem medidas repetidas. Nessas condições, o teste apropriado é a ANOVA unifatorial independente, também denominada One-way ANOVA (OWANOVA).

FANOVA = Factorial ANOVA MANOVA = Multivariate ANOVA OWANOVA = One-way ANOVA RANOVA e RMANOVA = Repeated Measure ANOVA SPANOVA = Split-Plot or Mixed ANOVA WSANOVA = Within-Subjects ANOVA

4.15 APEx 12319: ANOVA – suposição

Uma suposição da ANOVA unifatorial independente de Fisher é:

A. Distribuição normal da VD em cada grupo
B. Ausência de medidas repetidas
C. Homocedasticidade
D. Delineamento correlacional ou quase-experimental ou experimental
E. VD é uma variável pelo menos intervalar e VI é nominal
F. Todas as outras alternativas são verdadeiras

Explicações e justificativas:

Alternativa correta: F.

A ANOVA unifatorial independente de Fisher pressupõe (aproximadamente) normalidade da variável dependente em cada grupo, independência das observações (ausência de medidas repetidas), e homocedasticidade. Além disso, é um modelo para VD quantitativa (pelo menos intervalar) em função de uma VI nominal com dois ou mais níveis, em delineamento entre participantes, que pode ocorrer em estudos correlacionais/observacionais, quase-experimentais ou experimentais.

4.16 APEx 12377: N grande

Se o tamanho da amostra é grande (\(n \ge 3000\)), em um delineamento entre participantes com dois grupos, adotando-se nível de significância de 5%, o quantil crítico da distribuição F da ANOVA é aproximadamente igual a:

A. 1.645
B. 1.96
C. 2.99
D. 3.33
E. 3.84
F. 33.3

Explicações e justificativas:

Alternativa correta: E.

Em um delineamento entre participantes com dois grupos, a ANOVA unifatorial é equivalente ao teste t para duas amostras independentes, sendo válida a relação \[ F_{1,\ n-2} = t_{n-2}^2 \]

Para \(n\) grande, a distribuição t converge para a normal padrão. Assim, \[ t_{\infty}^{97.5\%} \approx 1.96 \] e, portanto, \[ F_{1,\,\ge3000}^{95\%} \approx 1.96^2 \approx 3.84 \]

qf(0.95, df1 = 1, df2 = 3000)
[1] 3.84456

4.17 APEx 16087: Convênio médico – Welch – 5% – PostHoc – I

Um pediatra especulou se a frequência anual de consultas em seu consultório poderia ser influenciada pelo tipo de cobertura de convênio médico. Num estudo exploratório, ele escolheu aleatoriamente 15 pacientes: 5 cujos pais pertencem a uma empresa com convênio médico, 5 cujos pais tinham convênio médico tradicional e 5 cujos pais não tinham convênio médico.

Usando a frequência de visitas por ano da tabela a seguir, teste a hipótese nula de que o tipo de cobertura de seguro não tem efeito sobre a frequência de visitas.

Tabela de dados: Convênio médico e número de visitas

Convênio Número de visitas
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1

Usar ANOVA unifatorial independente de Welch e adotar o nível de significância de 5%.

O resultado do teste post hoc, com correção de Bonferroni, é:

A. As médias populacionais do número de visitas anuais são diferentes entre os convênios Nenhum e Empresa.
B. As médias populacionais do número de visitas anuais são diferentes entre os convênios Nenhum e Tradicional.
C. As médias populacionais do número de visitas anuais são diferentes entre os convênios Empresa e Tradicional.
D. As médias populacionais do número de visitas anuais são diferentes entre os convênios Nenhum e Empresa, Nenhum e Tradicional, e Empresa e Tradicional.
E. Não há diferença entre os convênios Nenhum e Empresa, Nenhum e Tradicional, e Empresa e Tradicional.

Explicações e justificativas:

Alternativa correta: A.

Fonte: Agresti, A & Finlay, B (2012) Métodos estatísticos para ciências sociais. 4a ed. Porto Alegre: Penso.

O teste omnibus de Welch resulta em \(p = 0.0190944 < 0.05\), portanto rejeita-se \(H_0\) de igualdade conjunta das médias: \[ H_0:\ \mu_{\text{Empresa}} = \mu_{\text{Tradicional}} = \mu_{\text{Nenhum}} \]

Como há evidência global de diferença, procede-se ao post hoc. Usando Games–Howell (adequado sob heterocedasticidade) com ajuste de Bonferroni para múltiplas comparações, observa-se:

  • Empresa vs. Nenhum: \(p_{aj} = 0.0169996 < 0.05\) (diferença significante) - Empresa vs. Tradicional: \(p_{aj} = 0.1779741 \ge 0.05\) (não significante) - Nenhum vs. Tradicional: \(p_{aj} = 0.2915415 \ge 0.05\) (não significante)

Logo, apenas o par Nenhum–Empresa apresenta diferença estatisticamente significante ao nível de 5%, após correção. Portanto, a alternativa correta é A.

Convenio  <- c(rep("Empresa", 5), rep("Tradicional", 5), rep("Nenhum", 5))

QtdVisita <- c(12, 6, 8, 7, 6,
               6, 5, 7, 5, 1,
               3, 2, 5, 3, 1)

df <- data.frame(Convenio = factor(Convenio),
                 QtdVisita = QtdVisita)

# Omnibus (Welch)
print(oneway.test(QtdVisita ~ Convenio, data = df))

    One-way analysis of means (not assuming equal variances)

data:  QtdVisita and Convenio
F = 6.9973, num df = 2.0000, denom df = 7.5499, p-value = 0.01909
# Post hoc (Welch + Games-Howell) via jmv
print(jmv::anovaOneW(
  data = df,
  dep = "QtdVisita",
  group = "Convenio",
  welch = TRUE,
  phMethod = "gamesHowell",
  phTest = TRUE,
  phFlag = TRUE,
  desc = FALSE
))

 ONE-WAY ANOVA

 One-Way ANOVA (Welch's)                                   
 ───────────────────────────────────────────────────────── 
                F           df1    df2         p           
 ───────────────────────────────────────────────────────── 
   QtdVisita    6.997277      2    7.549934    0.0190944   
 ───────────────────────────────────────────────────────── 


 POST HOC TESTS

 Games-Howell Post-Hoc Test – QtdVisita                                      
 ─────────────────────────────────────────────────────────────────────────── 
                                     Empresa      Nenhum       Tradicional   
 ─────────────────────────────────────────────────────────────────────────── 
   Empresa        Mean difference            —     5.000000       3.000000   
                  t-value                    —     3.857584       1.986799   
                  df                         —     6.521257       7.938913   
                  p-value                    —    0.0169996      0.1779741   
                                                                             
   Nenhum         Mean difference                         —      -2.000000   
                  t-value                                 —      -1.643990   
                  df                                      —       6.870765   
                  p-value                                 —      0.2915415   
                                                                             
   Tradicional    Mean difference                                        —   
                  t-value                                                —   
                  df                                                     —   
                  p-value                                                —   
 ─────────────────────────────────────────────────────────────────────────── 
   Note. * p < .05, ** p < .01, *** p < .001

4.18 APEx 16091: Convênio médico – Fisher – 5% – I

Um pediatra especulou se a frequência anual de consultas em seu consultório poderia ser influenciada pelo tipo de cobertura de convênio médico. Num estudo exploratório, ele escolheu aleatoriamente 15 pacientes: 5 cujos pais pertencem a uma empresa com convênio médico, 5 cujos pais tinham convênio médico tradicional e 5 cujos pais não tinham convênio médico. Usando a frequência de visitas por ano da tabela a seguir, teste a hipótese nula de que o tipo de cobertura de seguro não tem efeito sobre a frequência de visitas.

Tabela de dados: Convênio médico e número de visitas

Convênio Número de visitas
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1

Usar ANOVA unifatorial independente de Fisher e adotar o nível de significância de 5%.

O resultado do teste omnibus de H0 é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Fonte: Agresti, A & Finlay, B (2012) Métodos estatísticos para ciências sociais. 4a ed. Porto Alegre: Penso.

A ANOVA unifatorial independente de Fisher testa \[ H_0:\ \mu_{\text{Empresa}} = \mu_{\text{Tradicional}} = \mu_{\text{Nenhum}} \] contra \[ H_1:\ \exists\, i\neq j\ \mid \mu_i\neq \mu_j \]

Pela saída informada para a ANOVA de Fisher, \[ F_{2,12}=6.9853\quad p=0.009732 \]

Como \(0.009732 < 0.05\), rejeita-se \(H_0\) ao nível de significância de 5%.

Tabela <- ("
Convenio QtdVisita
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1
")

Dados <- read.table(textConnection(Tabela), header = TRUE)
Dados$Convenio <- factor(Dados$Convenio)

# ANOVA de Fisher (variâncias iguais)
print(oneway.test(QtdVisita ~ Convenio, var.equal = TRUE, data = Dados))

    One-way analysis of means

data:  QtdVisita and Convenio
F = 6.9853, num df = 2, denom df = 12, p-value = 0.009732

4.19 APEx 16093: Convênio médico – Welch – 1% – I

Um pediatra especulou se a frequência anual de consultas em seu consultório poderia ser influenciada pelo tipo de cobertura de convênio médico. Num estudo exploratório, ele escolheu aleatoriamente 15 pacientes: 5 cujos pais pertencem a uma empresa com convênio médico, 5 cujos pais tinham convênio médico tradicional e 5 cujos pais não tinham convênio médico. Usando a frequência de visitas por ano da tabela a seguir, teste a hipótese nula de que o tipo de cobertura de seguro não tem efeito sobre a frequência de visitas.

Tabela de dados: Convênio médico e número de visitas

Convênio Número de visitas
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1

Usar ANOVA unifatorial independente de Welch e adotar o nível de significância de 1%.

O resultado do teste omnibus de H0 é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: B.

Fonte: Agresti, A & Finlay, B (2012) Métodos estatísticos para ciências sociais. 4a ed. Porto Alegre: Penso.

A ANOVA unifatorial independente de Welch testa \[ H_0:\ \mu_{\text{Empresa}} = \mu_{\text{Tradicional}} = \mu_{\text{Nenhum}} \] contra \[ H_1:\ \exists\, i\neq j\ \mid \mu_i\neq \mu_j \]

Pela saída informada para a ANOVA de Welch, \[ F_{2,\ 7.5499}=6.9973\quad p=0.01909 \]

Como \(0.01909 > 0.01\), não se rejeita \(H_0\) ao nível de significância de 1%.

Tabela <- ("
Convenio QtdVisita
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1
")

Dados <- read.table(textConnection(Tabela), header = TRUE)
Dados$Convenio <- factor(Dados$Convenio)

# ANOVA de Welch (variâncias diferentes)
print(oneway.test(QtdVisita ~ Convenio, var.equal = FALSE, data = Dados))

    One-way analysis of means (not assuming equal variances)

data:  QtdVisita and Convenio
F = 6.9973, num df = 2.0000, denom df = 7.5499, p-value = 0.01909

4.20 APEx 16095: Convênio médico – Fisher – 1% – I

Um pediatra especulou se a frequência anual de consultas em seu consultório poderia ser influenciada pelo tipo de cobertura de convênio médico. Num estudo exploratório, ele escolheu aleatoriamente 15 pacientes: 5 cujos pais pertencem a uma empresa com convênio médico, 5 cujos pais tinham convênio médico tradicional e 5 cujos pais não tinham convênio médico. Usando a frequência de visitas por ano da tabela a seguir, teste a hipótese nula de que o tipo de cobertura de seguro não tem efeito sobre a frequência de visitas.

Tabela de dados: Convênio médico e número de visitas

Convênio Número de visitas
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1

Usar ANOVA unifatorial independente de Fisher e adotar o nível de significância de 1%.

O resultado do teste omnibus de H0 é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: A.

Fonte: Agresti, A & Finlay, B (2012) Métodos estatísticos para ciências sociais. 4a ed. Porto Alegre: Penso.

A ANOVA unifatorial independente de Fisher testa \[ H_0:\ \mu_{\text{Empresa}} = \mu_{\text{Tradicional}} = \mu_{\text{Nenhum}} \] contra \[ H_1:\ \exists\, i\neq j\ \mid \mu_i\neq \mu_j \]

Pela saída informada para a ANOVA de Fisher, \[ F_{2,12}=6.9853\quad p=0.009732 \]

Como \(0.009732 < 0.01\), rejeita-se \(H_0\) ao nível de significância de 1%.

Tabela <- ("
Convenio QtdVisita
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1
")

Dados <- read.table(textConnection(Tabela), header = TRUE)
Dados$Convenio <- factor(Dados$Convenio)

# ANOVA de Fisher (variâncias iguais)
print(oneway.test(QtdVisita ~ Convenio, var.equal = TRUE, data = Dados))

    One-way analysis of means

data:  QtdVisita and Convenio
F = 6.9853, num df = 2, denom df = 12, p-value = 0.009732

4.21 APEx 16096: Convênio médico – II – Welch (default)

Um pediatra especulou se a frequência anual de consultas em seu consultório poderia ser influenciada pelo tipo de cobertura de convênio médico. Num estudo exploratório, ele escolheu aleatoriamente 15 pacientes: 5 cujos pais pertencem a uma empresa com convênio médico, 5 cujos pais tinham convênio médico tradicional e 5 cujos pais não tinham convênio médico. Usando a frequência de visitas por ano da tabela a seguir, teste a hipótese nula de que o tipo de cobertura de seguro não tem efeito sobre a frequência de visitas. Adotar o nível de significância de 1%.

Tabela de dados: Convênio médico e número de visitas

Convênio Número de visitas
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1

O resultado do teste omnibus de H0 é:

A. Rejeitar
B. Não rejeitar
C. Aceitar
D. Impossível testar

Explicações e justificativas:

Alternativa correta: B.

Fonte: Agresti, A & Finlay, B (2012) Métodos estatísticos para ciências sociais. 4a ed. Porto Alegre: Penso.

A função stats::oneway.test usa, por padrão, a correção de Welch (i.e., não assume homocedasticidade), de modo que o teste omnibus é a ANOVA unifatorial independente de Welch.

Pela saída informada: \[ F_{2,\ 7.5499}=6.9973\quad p=0.01909 \]

Como \(p=0.01909 > 0.01\), não se rejeita \(H_0\) ao nível de significância de 1%.

Tabela <- ("
Convenio QtdVisita
Empresa 12
Empresa 6
Empresa 8
Empresa 7
Empresa 6
Tradicional 6
Tradicional 5
Tradicional 7
Tradicional 5
Tradicional 1
Nenhum 3
Nenhum 2
Nenhum 5
Nenhum 3
Nenhum 1
")

Dados <- read.table(textConnection(Tabela), header = TRUE)
Dados$Convenio <- factor(Dados$Convenio)

alfa <- 0.01

cat("ANOVA unifatorial independente de Welch (default)\n")
ANOVA unifatorial independente de Welch (default)
cat("Teste omnibus\n")
Teste omnibus
print(oneway.test(QtdVisita ~ Convenio, data = Dados))  # Welch por default

    One-way analysis of means (not assuming equal variances)

data:  QtdVisita and Convenio
F = 6.9973, num df = 2.0000, denom df = 7.5499, p-value = 0.01909
cat("\nTeste post hoc (Games-Howell)\n")

Teste post hoc (Games-Howell)
out <- rstatix::games_howell_test(QtdVisita ~ Convenio,
                                  data = Dados,
                                  conf.level = 1 - alfa,
                                  detailed = FALSE)
print(data.frame(out), digits = 2)
        .y.  group1      group2 estimate conf.low conf.high p.adj p.adj.signif
1 QtdVisita Empresa      Nenhum       -5    -10.6      0.59 0.017            *
2 QtdVisita Empresa Tradicional       -3     -9.0      3.03 0.178           ns
3 QtdVisita  Nenhum Tradicional        2     -3.1      7.13 0.292           ns

4.22 APEx 16097: Omnibus & Post hoc

O teste post hoc pode ser realizado se o teste omnibus pela ANOVA unifatorial é:

A. Clinicamente significante
B. Estatisticamente significante
C. Suficientemente poderoso
D. Inconclusivo
E. Impraticável

Explicações e justificativas:

Alternativa correta: B.

Fonte: LEVIN, J et al. (2012) Estatística para ciências humanas. 11a ed. São Paulo: Pearson, p. 260.

Os testes post hoc têm por finalidade identificar quais pares de médias populacionais diferem entre si após a rejeição da hipótese nula global da ANOVA unifatorial. Portanto, sua aplicação pressupõe que o teste omnibus seja estatisticamente significante, i.e., que \(H_0\) (igualdade conjunta das médias populacionais) tenha sido rejeitada.

Se o teste omnibus não for estatisticamente significante, não há justificativa estatística para proceder às comparações múltiplas, pois a evidência global contra \(H_0\) é insuficiente.

4.23 APEx 16099: N – I

Num artigo, é encontrado \(F(3, 33) = 33.3\) para uma ANOVA unifatorial independente de Fisher.

O número total de participantes do estudo é:

A. 33
B. 34
C. 35
D. 36
E. 37
F. 38

Explicações e justificativas:

Alternativa correta: E.

Na ANOVA unifatorial independente de Fisher, valem as relações:

\[ \begin{align} \text{gl}_{\text{numerador}} = k - 1\\ \text{gl}_{\text{denominador}} = n - k \end{align} \]

Sendo que:

  • \(k\) é o número de níveis do fator entre participantes,
  • \(n\) é o tamanho total da amostra.

Dado \(F(3, 33)\), temos:

\[k - 1 = 3 \Rightarrow k = 4\]

\[n - k = 33 \Rightarrow n - 4 = 33 \Rightarrow n = 37\]

4.24 APEx 16100: k

Num artigo, é encontrado \(F(3, 33) = 33.3\) para uma ANOVA unifatorial.
O número de condições do estudo é:

A. 1
B. 2
C. 3
D. 4
E. 5

Explicações e justificativas:

Alternativa correta: D.

Na ANOVA unifatorial, o grau de liberdade do numerador é dado por:

\[ \text{gl}_{\text{numerador}} = k - 1 \]

sendo que \(k\) é o número de condições (níveis do fator).

Dado \(\text{gl}_{\text{numerador}} = 3\), temos:

\[ k - 1 = 3 \Rightarrow k = 4 \]

Logo, o estudo possui 4 condições experimentais, que podem ser independentes (entre participantes) ou dependentes (intraparticipantes).

4.25 APEx 16101: N – II

Num artigo, é encontrado \(F(3, 33) = 33.3\) para uma ANOVA unifatorial para medidas repetidas balanceadas, sem valores faltantes.
O número total de participantes do estudo é:

A. 10
B. 11
C. 12
D. 13
E. 37
F. 38

Explicações e justificativas:

Alternativa correta: C.

Em uma ANOVA unifatorial para medidas repetidas (intraparticipantes), com delineamento balanceado e sem dados faltantes, os graus de liberdade são:

\[ \text{gl}_{\text{numerador}} = k - 1 \]

\[ \text{gl}_{\text{denominador}} = (k - 1)(n - 1) \]

Sendo que:

  • \(k\) é o número de níveis do fator intraparticipantes,
  • \(n\) é o número de participantes.

Do enunciado:

\[ \text{gl}_{\text{numerador}} = 3 \Rightarrow k - 1 = 3 \Rightarrow k = 4 \]

\[ \text{gl}_{\text{denominador}} = 33 \Rightarrow (k - 1)(n - 1) = 33 \]

Substituindo \(k - 1 = 3\):

\[ 3(n - 1) = 33 \Rightarrow n - 1 = 11 \Rightarrow n = 12 \]

Logo, o estudo foi conduzido com 12 participantes.

4.26 APEx 16102: Valor do valor-p – II

Na saída de uma ANOVA unifatorial, tem-se apenas que \(p = 1.000\).
A decisão sobre \(H_0\) é:

A. Aceitar
B. Rejeitar
C. Não rejeitar
D. Impossível decidir

Explicações e justificativas:

Alternativa correta: C.

Como o valor-p é claramente maior do que qualquer nível de significância usual (\(\alpha = 0.05\), \(\alpha = 0.01\), etc.), a decisão correta é não rejeitar a hipótese nula \(H_0\). Não rejeitar \(H_0\) não é equivalente a aceitar \(H_0\).

Valores como \(p = 0.000\) ou \(p = 1.000\) em saídas de software estatístico decorrem de arredondamento. Um valor reportado como \(p = 1.000\) significa, na prática, que o valor-p é muito próximo de 1, tipicamente \(p \ge 0.9995\), como pode ser verificado em R com:

round(0.9995, 3)
[1] 1

4.27 APEx 16103: Testes equivalentes

A ANOVA unifatorial independente de Fisher com dois grupos é equivalente ao teste:

A. t de Student
B. t de Welch
C. t de Satterthwaite
D. t pivotal
E. t por bootstrapping

Explicações e justificativas:

Alternativa correta: A.

Quando a ANOVA unifatorial independente de Fisher é aplicada a apenas dois grupos, a estatística de teste F é exatamente o quadrado da estatística t do teste t de Student com variâncias populacionais assumidas iguais. Formalmente,

\[ F_{1, n-2} = t^2_{n-2} \]

Portanto, ambos os testes produzem decisões idênticas quanto à rejeição ou não rejeição de \(H_0\), sob as mesmas suposições (normalidade e homocedasticidade).

4.28 APEx 16104: Eta parcial ao quadrado

Numa ANOVA unifatorial independente, o eta parcial ao quadrado associado ao fator é 5%.

Então, o efeito do fator explica ________ da VD.

A. 5% da variância
B. 95% da variância
C. 5% da média
D. 22,36% da variância
E. 0,25% da variância

Explicações e justificativas:

Alternativa correta: A.

O eta parcial ao quadrado (\(\eta_p^2\)) é uma medida de tamanho de efeito que representa a proporção da variância da variável dependente explicada por um fator, controlando-se os demais efeitos do modelo.

Se \(\eta_p^2 = 0.05\), então 5% da variância da VD é atribuída ao fator em questão.

5 Teste qui-quadrado

5.1 APEx 7885: V de Cramer

O V de Cramer expressa a ________ entre duas variáveis nominais politômicas:

A. Correlação absoluta
B. Porcentagem de variância compartilhada
C. Probabilidade de dependência

Explicações e justificativas:

Alternativa correta: A.

Fonte: Dancey, CP & Reidy, J (2019) Estatística sem Matemática para Psicologia. 77 ed. Porto Alegre: Penso, p. 275.

O V de Cramer é uma medida de associação (tamanho de efeito) para variáveis nominais politômicas, derivada do teste qui-quadrado de Pearson. Ele é um coeficiente de correlação de Pearson, variando entre 0 e 1, e indica a intensidade da associação linear entre as variáveis. Não representa porcentagem de variância explicada nem probabilidade.

5.2 APEx 7886: Graus de liberdade em tabela de contingência

O número de graus de liberdade numa tabela de contingência de L linhas e C colunas é:

A. LC
B. (L-1)
C
C. (L-1)(C-1)
D. (L+1)
(C+1)
E. min(L, C) - 1

Explicações e justificativas:

Alternativa correta: C.

Fonte: Wonnacott, T & Wonnacott, R (1981) Estatística aplicada à Economia e à Administração. Rio de Janeiro: LTC.

Conforme Wonnacott & Wonnacott (1981, p. 463), o número de graus de liberdade pode ser calculado com base num princípio geral útil em muitas aplicações: gl = #grupos - 1 - #parâmetros. Para aplicá-lo, devemos conhecer o número de parâmetros a estimar, i.e., o número de probabilidades a serem estimadas. Para uma tabela de contingência LxC (L linhas por C colunas), consideremos as primeiramente as L probabilidades-linha estimadas, p(i). Estimadas as primeiras L-1, a última fica determinada, pois a soma das L probabilidades resulta um. Assim, há L-1 probabilidades-linha estimadas, independentemente, e, pelo mesmo argumento, apenas C-1 probabilidades-coluna. Assim,

\[\text{gl} = L\times C - 1 - ((L-1) + (C-1)) = (L-1)(C-1)\] ## APEx 7904: Valor-p no R

O valor-p do teste qui-quadrado é p = 6.1e-16. Então ele NÃO é:

A. 6,1%
B. Menor que 0,001
C. Menor que 0,1%
D. 0,00000000000000061

Explicações e justificativas:

Alternativa correta: A.

A notação científica usada pelo R segue a forma:

\[ 6.1\text{e}^{-16} = 6.1 \times 10^{-16} \]

Em notação decimal:

\[ p = 0{,}00000000000000061 \]

Portanto, o valor-p é extremamente pequeno, muito menor do que 0,001 e também menor do que 0,1%. A alternativa A (6,1%) é incorreta e, portanto, a única que NÃO representa o valor informado.

# Valor-p informado pelo R
p <- 6.1e-16

# Exibir em notação científica
p
[1] 6.1e-16
# Converter para notação decimal completa
format(p, scientific = FALSE)
[1] "0.00000000000000061"
# Verificações lógicas
p < 0.001     # TRUE
[1] TRUE
p < 0.001     # menor que 0,1%
[1] TRUE
p == 0.061    # FALSE (6,1%)
[1] FALSE

5.3 APEx 9205: Valor-p do R

O valor-p do teste qui-quadrado realizado pelo R é p = 6.1e-3.

Então ele é:

A. Maior que 0,5%
B. Menor que 0,1%
C. Maior que 1%
D. Maior que 5%
E. Menor que 0,5%

Explicações e justificativas:

Alternativa correta: A.

Tem-se: \[ p = 6.1 \times 10^{-3} = 0.0061 = 0.61\% \]

Logo, o valor-p é maior que 0.5%, menor que 1% e muito menor que 5%. Portanto, a única alternativa correta é a A.

# Valor-p informado pelo R
p <- 6.1e-3

# Conversão para porcentagem
p_percent <- p * 100

p
[1] 0.0061
p_percent
[1] 0.61
# Verificações lógicas usadas na questão
p > 0.005   # maior que 0,5%
[1] TRUE
p < 0.001   # menor que 0,1%
[1] FALSE
p > 0.01    # maior que 1%
[1] FALSE
p > 0.05    # maior que 5%
[1] FALSE
p < 0.005   # menor que 0,5%
[1] FALSE

5.4 APEx 9206: p do STATA

O valor-p associado à estatística de teste qui-quadrado de Pearson informado por um software estatístico é 0.0000.

A forma correta de relatar esse valor-p é:

A. p = 0
B. p < 0.1
C. p < 0.01
D. p < 0.001
E. p < 0.0001
F. p < 0.00001

Explicações e justificativas:

Alternativas corretas: D e E.

Valores de p reportados como 0.0000 por softwares estatísticos resultam de arredondamento. Matematicamente, um valor-p nunca é exatamente zero. Nesse caso, o valor real é menor que o menor número exibível com quatro casas decimais, isto é, p < 0.0001.

Diretrizes usuais de relato (APA, NEJM) recomendam expressar valores muito pequenos como p < 0.001, evitando zeros artificiais: How to report P values in journals

Além disso, APA sugere “p value” em vez de “P value”, “p value”, “P-value”, “p-value”.

Exemplo em R:

p <- 0.00001
p < 0.0001
[1] TRUE
p < 0.00001
[1] FALSE
p <- 0.00009
p < 0.0001
[1] TRUE
p < 0.00001
[1] FALSE

5.5 APEx 11406: Notação científica – II

O valor-p do teste qui-quadrado realizado pelo R é p = 1.2E-03. Então ele é:

A. maior que 0.01% e menor que 0.05%
B. maior que 0.05% e menor que 0.1%
C. menor que 0.01%
D. maior que 0.1% e menor que 0.5%
E. maior que 0.5%

Explicações e justificativas:

Alternativa correta: D.

O valor informado é

\[ p = 1.2 \times 10^{-3} = 0.0012 = 0.12\% \]

Comparando com os limites percentuais:

0.01% = 0.0001
0.05% = 0.0005
0.1% = 0.001
0.5% = 0.005

Temos:

\[ 0.1\% < 0.12\% < 0.5\% \]

x <- 1.2E-03  # 1.2 * 10^(-3) = 0.0012

format(x, scientific = FALSE)
[1] "0.0012"
x > 0.01/100 & x < 0.05/100  # A
[1] FALSE
x > 0.05/100 & x < 0.1/100   # B
[1] FALSE
x < 0.01/100                 # C
[1] FALSE
x > 0.1/100 & x < 0.5/100    # D
[1] TRUE
x > 0.5/100                  # E
[1] FALSE

5.6 APEx 12310: Avaliadores & Conceitos - I

Conover, W (1998, p. 293) Practical nonparametric statistics. 3rd> ed. NJ: Wiley, apresentou os dados que constam na Tabela de contingência.
A tabela consiste em três instrutores que avaliaram estudantes de turmas distintas de uma mesma disciplina no semestre anterior.

Instrutor A B C D E Total
Instrutor 1 4 14 17 6 2 43
Instrutor 2 10 6 9 7 6 38
Instrutor 3 6 7 8 6 1 28
Total 20 27 34 19 9 109

O teste estatístico adequado para testar a hipótese de ausência de efeito de interação entre instrutor e conceito é:

  1. Kappa de Cohen
  2. Kappa de Fleiss
  3. Correlação de Spearman
  4. Correlação tau de Kendall
  5. Qui-quadrado de Pearson
  6. Todas as outras alternativas são falsas

Explicações e comentários:

Alternativa correta: E.

Há 109 estudantes avaliados por 3 instrutores.
Cada estudante foi avaliado por apenas um instrutor uma única vez.
Cada estudante, portanto, está em apenas uma casela das 15 (3x5) da tabela.
O delineamento da tabela é entre participantes.

O teste qui-quadrado de Pearson pode ser aplicado nesta situação, pois o delineamento é entre participantes e as duas variáveis (instrutor e notas) são nominais (lembrar que variável ordinal também é nominal).

O teste kappa de Cohen exige tabela quadrada (mesmo número de linhas e colunas) com duas variáveis nominais num delineamento intraparticipantes para análise da concordância entre dois métodos de avaliação.

O teste kappa de Fleiss é aplicável para avaliar, num delineamento intraparticipantes, a concordância entre três ou mais métodos de avaliação com nível de mensuração nominal.

Os testes tau de Kendall e de correlação de Spearman são adequados para analisar a associação entre duas variáveis ordinais.

5.7 APEx 12308: Avaliadores & Conceitos – II

Conover, W (1998, p. 293) Practical nonparametric statistics. 3rd> ed. NJ: Wiley, apresentou os dados que constam na tabela de contingência abaixo. A tabela consiste em três instrutores que avaliaram estudantes de uma mesma disciplina no semestre anterior.

Instrutor A B C D E Total
Instrutor 1 4 14 17 6 2 43
Instrutor 2 10 6 9 7 6 38
Instrutor 3 6 7 8 6 1 28
Total 20 27 34 19 9 109

O teste estatístico adequado para testar a hipótese de ausência de efeito de interação entre instrutor e conceito é:

A. Kappa de Cohen
B. Kappa de Fleiss
C. Correlação de Spearman
D. Correlação tau de Kendall
E. Qui-quadrado de Pearson
F. Todas as outras alternativas são falsas

Explicações e justificativas:

Alternativa correta: F.

Há 43 estudantes avaliados por 3 instrutores na mesma disciplina. Cada estudante foi avaliado por pelo menos um instrutor. Um estudante pode ter sido avaliado pelos 3 instrutores.

Cada estudante, portanto, está em pelo menos uma casela das 15 (3x5) da tabela, podendo estar em duas ou três caselas.

O delineamento da tabela é intraparticipantes.

O teste qui-quadrado de Pearson não pode ser aplicado nesta situação, pois o delineamento é intraparticipantes.

O teste kappa de Cohen exige tabela quadrada (mesmo número de linhas e colunas) com duas variáveis nominais num delineamento intraparticipantes para análise da concordância entre dois métodos de avaliação.

O teste kappa de Fleiss é aplicável para avaliar, num delineamento intraparticipantes, a concordância entre três ou mais métodos de avaliação com nível de mensuração nominal. O problema com esta tabela é que não podemos saber quais são os estudantes que foram avaliados por um, dois e três instrutores.

Os testes tau de Kendall e de correlação de Spearman são adequados para analisar a associação entre duas variáveis ordinais.

5.8 APEx 16445: Testes de Schistosoma mansoni

Foram analisadas 315 amostras usando os métodos Bell e Kato-Katz para detecção de ovos de Schistosoma mansoni nas fezes.

Fonte: Sleigh, A et al. (1982) Transactions of the Royal Society of Tropical Medicine and Hygiene 76(3): 403–6.

Tabela de contingência (mesmas amostras avaliadas pelos dois métodos):

Bell  Kato-Katz + -
+ 184 54
- 14 63

O(s) teste(s) estatístico(s) adequado(s) para testar bilateralmente a hipótese nula de concordância entre os métodos Bell e Kato-Katz para detecção de ovos de Schistosoma mansoni nas fezes é(são):

A. Apenas qui-quadrado de Pearson
B. Apenas kappa de Cohen
C. Apenas qui-quadrado de McNemar
D. Qui-quadrado de Pearson ou kappa de Cohen ou qui-quadrado de McNemar
E. Todas as outras alternativas são falsas

Explicações e justificativas:

Alternativa correta: E.

O delineamento é entre participantes. Os testes estatístico tradicionalmente adequados para testar concordância/ equivalência são os testes AC1 de Gwet e G de Holley-Guilford, conforme Silveira & Siqueira (2022).

O teste qui-quadrado de Pearson exige o delineamento entre participantes (sem medidas repetidas) e testa hipótese nula de independência (não associação). No entanto, conforme Feingold (1992), para tabelas 2x2 as estatísticas de teste e os valores-p bilaterais são equivalentes para os testes kappa de Cohen e qui-quadrado de Pearson.

  • Silveira, PSP & Siqueira, JO (2022) Better to be in agreement than in bad company: A critical analysis of many kappa-like tests. Behavior Research Methods. https://doi.org/10.3758/s13428-022-01950-0

  • Feingold, M (1992) The equivalence of Cohen’s kappa and Pearson’s chi-square statistics in the 2x2 table. Educational and Pshychological Measurement 52.

tab <- matrix(c(184, 54,
                14,  63),
              nrow = 2, byrow = TRUE)

colnames(tab) <- c("KK+", "KK-")
rownames(tab) <- c("Bell+", "Bell-")

print(tab)
      KK+ KK-
Bell+ 184  54
Bell-  14  63
res <- irrCAC::gwet.ac1.table(tab)

print(res)
  coeff.name coeff.val   coeff.se      coeff.ci coeff.pval
1 Gwet's AC1 0.6237683 0.04462715 (0.536,0.712)      0e+00
# % de concordância simples
po <- sum(diag(tab)) / sum(tab)
cat("\nConcordância observada (Po) = ", round(po, 4), "\n", sep = "")

Concordância observada (Po) = 0.7841

5.9 APEx 12307: H0 – Port&Mat – II

A tabela a seguir mostra a distribuição conjunta de preferências pelas disciplinas de Português e Matemática numa amostra aleatória de 1387 estudantes do ensino médio em Lisboa.

Fonte: Pestana, MH & Gageiro, JN (2014) Análise de dados para Ciências Sociais. 6a ed. Lisboa: Sílabo.

Matemática  Português Gosto Indiferente Não gosto
Gosto 446 192 158
Indiferente 158 101 79
Não gosto 92 40 121

A hipótese nula de independência entre as preferências pelas disciplinas de Matemática e Português NÃO pode ser avaliada pelo teste:

A. Gama de Goodman-Kruskal
B. Qui-quadrado de Pearson
C. Correlação de Spearman
D. Razão de chances (OR) generalizado
E. McNemar

Explicações e justificativas:

Alternativa correta: E.

O delineamento é completamente entre participantes. Cada estudante distinto avalia duas disciplinas distintas. As variáveis das avaliações são categorizadas da mesma maneira.

Os testes qui-quadrado de Pearson (duas nominais), de correlação de Spearman (duas ordinais), gama de G-K (duas ordinais) e de ORg (duas ordinais) são adequados para analisar a independência entre estas duas variáveis num delineamento entre participantes.

O teste de McNemar é adequado para analisar a concordância entre duas variáveis nominais dicotômicas num delineamento intraparticipantes. Conforme McNemar’s test, “In statistics, McNemar`s test is a statistical test used on paired nominal data. It is applied to 2 × 2 contingency tables with a dichotomous trait, with matched pairs of subjects, to determine whether the row and column marginal frequencies are equal (that is, whether there is”marginal homogeneity”).”

5.10 APEx 15591: Delineamento pré–pós: Teste de McNemar

Um estudo foi realizado para avaliar o efeito do transplante de células-tronco (SCT) sobre a hiper-responsividade das vias aéreas (AHR) em 21 crianças. A tabela abaixo apresenta os resultados antes e depois do SCT.

Referência: Fagerland, MW, Lydersen, S & Laake, P (2013)
The McNemar test for binary matched-pairs data: mid-p and asymptotic are better than exact conditional. BMC Medical Research Methodology 13(91). https://doi.org/10.1186/1471-2288-13-91

Tabela de contingência (pré–pós):

Após SCT: AHR Após SCT: Sem AHR
Antes SCT: AHR 1 7
Antes SCT: Sem AHR 1 12

Com base nesses dados, qual é a conclusão mais adequada após a realização do teste de McNemar para avaliar a significância estatística da mudança no estado de AHR antes e depois do SCT?
Adotar nível de significância de 5%.

A. O teste de McNemar rejeita a hipótese nula, indicando uma mudança estatisticamente significante na condição de AHR após o SCT.
B. O teste de McNemar não rejeita a hipótese nula, indicando que não há evidências suficientes para afirmar que o SCT alterou a condição de AHR.
C. O teste de McNemar não é adequado para esse delineamento.

Explicações e justificativas:

Alternativa correta: B.

O delineamento é pré–pós com desfecho dicotômico, portanto o teste de McNemar é apropriado.
A decisão baseia-se apenas nas discordâncias (b e c), aqui iguais a 7 e 1.

Resultados do teste de McNemar:

  • Teste exato de McNemar: \(p = 0.0703\)

Como \(p > 0.05\), então não se rejeita a hipótese nula de igualdade marginal.

Conclusão: não há evidência estatística suficiente, ao nível de 5%, para afirmar que o SCT alterou a condição de AHR.

library(exact2x2)
Carregando pacotes exigidos: exactci
Carregando pacotes exigidos: ssanv
Carregando pacotes exigidos: testthat
tc <- matrix(
  c(1, 7,
    1, 12),
  nrow = 2,
  byrow = TRUE,
  dimnames = list(
    "Antes SCT" = c("AHR", "Sem AHR"),
    "Após SCT"  = c("AHR", "Sem AHR")
  )
)

print(tc)
         Após SCT
Antes SCT AHR Sem AHR
  AHR       1       7
  Sem AHR   1      12
# Teste exato de McNemar
print(exact2x2::mcnemar.exact(tc))

    Exact McNemar test (with central confidence intervals)

data:  tc
b = 7, c = 1, p-value = 0.07031
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.8993003 315.4833854
sample estimates:
odds ratio 
         7 

6 Odds Ratio

6.1 APEx 11412: Leptospirose – IV

Levantamento da prevalência de leptospirose em áreas rural e urbana de uma cidade estado-unidense, conforme quadro (N = 400 pessoas), medindo-se a presença de anticorpos para leptospirose:

Total:

AcLepto+ AcLepto-
Rural 60 140
Urbana 65 135

Homens:

AcLepto+ AcLepto-
Rural 36 14
Urbana 40 50

Mulheres:

AcLepto+ AcLepto-
Rural 24 126
Urbana 25 85

A presença de anticorpos é indicação de contato prévio com Leptospira sp.

Sobre a razão de chances bruta (crude odds ratio), o que se pode concluir com nível de significância de 5%?

A. Viver em área rural, no geral, é fator de proteção, mas quando consideramos homens e mulheres separadamente, a chance de contato com leptospirose na área rural é aumentada para ambos os grupos.
B. Embora não exista associação entre desfecho e área no geral, apenas para os homens a chance de contato com leptospirose é aumentada em área rural em comparação com a área urbana.
C. Não há evidência estatística de risco aumentado para contato com leptospirose em área rural em comparação com área urbana no geral, nem considerando-se separadamente homens ou mulheres.
D. Viver em área rural, no geral, é fator de risco, mas quando consideramos homens e mulheres separadamente a chance de contato com leptospirose na área rural é diminuída para ambos os grupos.
E. Embora não exista associação entre desfecho e área no geral, a chance de contato com leptospirose é aumentada para os homens e reduzida para as mulheres em área rural em comparação com a área urbana.
F. Há evidência estatística de risco aumentado para contato com leptospirose em área rural em comparação com área urbana no geral e também quando consideramos separadamente homens ou mulheres.

Explicações e justificativas:

Alternativa correta: B.

A interpretação deve considerar o IC95% da razão de chances (OR). Não há significância estatística quando o valor 1 está contido no IC95%.

Resultados (IC95% e decisão a \(\alpha = 0.05\)):

Total: \(\text{OR} = 0.8904\), IC95%[OR] = [0.5818, 1.3862] \(\Rightarrow\) não rejeitar \(H_0\) (sem associação).

Homens: \(\text{OR} = 3.1868\), IC95%[OR] = [1.4982, 7.1762] \(\Rightarrow\) rejeitar \(H_0\) (maior chance em área rural).

Mulheres: \(\text{OR} = 0.6487\), IC95%[OR] = [0.3460, 1.2511] \(\Rightarrow\) não rejeitar \(H_0\).

Logo, não há associação no total, há associação apenas nos homens.

library(exact2x2)
a <- 60;  b <- 140
c <- 65;  d <- 135

ah <- 36; bh <- 14
ch <- 40; dh <- 50

am <- a - ah; bm <- b - bh
cm <- c - ch; dm <- d - dh

t  <- as.table(matrix(c(a, b, c, d),   nrow = 2, byrow = TRUE))
th <- as.table(matrix(c(ah, bh, ch, dh), nrow = 2, byrow = TRUE))
tm <- as.table(matrix(c(am, bm, cm, dm), nrow = 2, byrow = TRUE))

colnames(t)  <- c("AcLepto+","AcLepto-"); rownames(t)  <- c("Rural","Urbana")
colnames(th) <- c("AcLepto+","AcLepto-"); rownames(th) <- c("Rural","Urbana")
colnames(tm) <- c("AcLepto+","AcLepto-"); rownames(tm) <- c("Rural","Urbana")

cat("Total:\n");   print(t)
Total:
       AcLepto+ AcLepto-
Rural        60      140
Urbana       65      135
cat("\nHomens:\n"); print(th)

Homens:
       AcLepto+ AcLepto-
Rural        36       14
Urbana       40       50
cat("\nMulheres:\n"); print(tm)

Mulheres:
       AcLepto+ AcLepto-
Rural        24      126
Urbana       25       85
cat("\n\nTeste Exato de Fisher\n")


Teste Exato de Fisher
cat("\n\ntotal:\n")


total:
print(exact2x2::exact2x2(t))

    Two-sided Fisher's Exact Test (usual method using minimum likelihood)

data:  t
p-value = 0.6662
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.5818 1.3862
sample estimates:
odds ratio 
 0.8903701 
cat("\n\nhomens:\n")


homens:
print(exact2x2::exact2x2(th))

    Two-sided Fisher's Exact Test (usual method using minimum likelihood)

data:  th
p-value = 0.002464
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 1.4982 7.1762
sample estimates:
odds ratio 
  3.186751 
cat("\n\nmulheres:\n")


mulheres:
print(exact2x2::exact2x2(tm))

    Two-sided Fisher's Exact Test (usual method using minimum likelihood)

data:  tm
p-value = 0.1998
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.3460 1.2511
sample estimates:
odds ratio 
 0.6487427 

6.2 APEx 11415: Leptospirose – IV

Levantamento da prevalência de leptospirose em áreas rural e urbana de uma cidade estado-unidense, conforme quadro (N = 400 pessoas), medindo-se a presença de anticorpos para leptospirose:

Total:

AcLepto+ AcLepto-
Rural 60 100
Urbana 70 170

Homens:

AcLepto+ AcLepto-
Rural 36 44
Urbana 45 60

Mulheres:

AcLepto+ AcLepto-
Rural 24 56
Urbana 25 110

A presença de anticorpos é indicação de contato prévio com Leptospira sp.

Sobre a razão de chances bruta (crude odds ratio), o que se pode concluir com nível de significância de 5%?

A. Viver em área rural, no geral, é fator de proteção, e quando consideramos homens e mulheres separadamente, a chance de contato com leptospirose na área rural é diminuída para ambos os grupos.
B. Embora não exista associação entre desfecho e área no geral, apenas para os homens a chance de contato com leptospirose é aumentada em área rural em comparação com a área urbana.
C. Não há evidência estatística de risco aumentado para contato com leptospirose em área rural em comparação com área urbana no geral, nem considerando-se separadamente homens ou mulheres.
D. Viver em área rural, no geral, é fator de risco, mas quando consideramos homens e mulheres separadamente, não há evidência de maior ou menor chance de contato com leptospirose na área rural para ambos os grupos.
E. Embora não exista associação entre desfecho e área no geral, para as mulheres a chance de contato com leptospirose é aumentada em área rural em comparação com a área urbana.
F. Há evidência estatística de risco diminuído para contato com leptospirose em área rural em comparação com área urbana no geral e também quando consideramos separadamente homens ou mulheres.

Explicações e justificativas:

Alternativa correta: C.

A decisão deve considerar o IC95% da OR (não há significância estatística quando 1 pertence ao IC95%).

Resultados (teste exato de Fisher, bicaudal):

Total: \(\text{OR}=1.456\), IC95%[OR] = [0.931, 2.275], \(p=0.102\) \(\Rightarrow\) não rejeitar \(H_0\).
Homens: \(\text{OR}=1.090\), IC95%[OR] = [0.582, 2.042], \(p=0.881\) \(\Rightarrow\) não rejeitar \(H_0\).
Mulheres: \(\text{OR}=1.880\), IC95%[OR] = [0.936, 3.780], \(p=0.064\) \(\Rightarrow\) não rejeitar \(H_0\).

Logo, não há evidência estatística de associação entre área (rural vs. urbana) e presença de anticorpos no total, nem separando por homens ou mulheres.

library(exact2x2)
a <- 60; b <- 100
c <- 70; d <- 170

ah <- 36; bh <- 44
ch <- 45; dh <- 60

am <- a - ah; bm <- b - bh
cm <- c - ch; dm <- d - dh

cat("\n--------------------------------------------------------------\n")

--------------------------------------------------------------
cat("Tabelas\n")
Tabelas
cat("--------------------------------------------------------------\n")
--------------------------------------------------------------
t <- as.table(matrix(c(a, b, c, d), nrow = 2, byrow = TRUE))
colnames(t) <- c("AcLepto +", "AcLepto -")
rownames(t) <- c("Rural", "Urbana")
cat("\nTotal:\n")

Total:
print(t)
       AcLepto + AcLepto -
Rural         60       100
Urbana        70       170
th <- as.table(matrix(c(ah, bh, ch, dh), nrow = 2, byrow = TRUE))
colnames(th) <- c("AcLepto +", "AcLepto -")
rownames(th) <- c("Rural", "Urbana")
cat("\nHomens:\n")

Homens:
print(th)
       AcLepto + AcLepto -
Rural         36        44
Urbana        45        60
tm <- as.table(matrix(c(am, bm, cm, dm), nrow = 2, byrow = TRUE))
colnames(tm) <- c("AcLepto +", "AcLepto -")
rownames(tm) <- c("Rural", "Urbana")
cat("\nMulheres:\n")

Mulheres:
print(tm)
       AcLepto + AcLepto -
Rural         24        56
Urbana        25       110
cat("\n--------------------------------------------------------------\n")

--------------------------------------------------------------
cat("Teste Exato de Fisher\n")
Teste Exato de Fisher
cat("--------------------------------------------------------------\n")
--------------------------------------------------------------
cat("\ntotal:\n")

total:
print(fisher.test(t))

    Fisher's Exact Test for Count Data

data:  t
p-value = 0.102
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.9312142 2.2752037
sample estimates:
odds ratio 
  1.455704 
cat("\nhomens:\n")

homens:
print(fisher.test(th))

    Fisher's Exact Test for Count Data

data:  th
p-value = 0.8812
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.5818606 2.0423165
sample estimates:
odds ratio 
  1.090395 
cat("\nmulheres:\n")

mulheres:
print(fisher.test(tm))

    Fisher's Exact Test for Count Data

data:  tm
p-value = 0.06439
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.9358702 3.7798952
sample estimates:
odds ratio 
  1.879938