Bastão de Asclépio & Distribuição Normal
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(coin, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(eiras, warn.conflicts=FALSE))
suppressMessages(library(emmeans, warn.conflicts=FALSE))
suppressMessages(library(EnvStats, warn.conflicts=FALSE))
suppressMessages(library(exactRankTests, warn.conflicts=FALSE))
suppressMessages(library(FSA, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(ggstatsplot, warn.conflicts=FALSE))
suppressMessages(library(gplots, warn.conflicts=FALSE))
suppressMessages(library(jmv, warn.conflicts=FALSE))
suppressMessages(library(kSamples, warn.conflicts=FALSE))
suppressMessages(library(lattice, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lmboot, warn.conflicts=FALSE))
suppressMessages(library(lmerTest, warn.conflicts=FALSE))
suppressMessages(library(multcomp, warn.conflicts=FALSE))
suppressMessages(library(overlapping, warn.conflicts=FALSE))
suppressMessages(library(PMCMRplus, warn.conflicts=FALSE))
suppressMessages(library(psych, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(readxl, warn.conflicts=FALSE))
suppressMessages(library(rstatix, warn.conflicts=FALSE))
suppressMessages(library(stats, warn.conflicts=FALSE))Código R
demo_Confronto_MWW.Rdemo_Confronto_t.Rdemo_Confronto_t2.Rdemo_ConfrontoAmostra_desempenho.Rdemo_ConfrontoAmostra.Rdemo_ConfrontoAmostras.Rdemo_ConfrontoPop.Rdemo_ConfrontoTCL.Rdemo_HistogramLies.Rdemo_KW_ANOVA_Fisher.Rdemo_KW_ANOVA_Welch.Rdemo_KW_posthoc.Rdemo_KW.Rdemo_MWW_2.Rdemo_MWW_AB.Rdemo_MWW_ABt.Rdemo_MWW_pm.Rdemo_MWW_pm2.Rdemo_MWW_pm3.Rdemo_MWW_t.Rdemo_MWW_tboot.Rdemo_MWW_tStudent.Rdemo_MWW.Rdemo_MWW.Rdemo_PseudoMediana.Rdemo_Q_ANOVA.Rdemo_Q.Rdemo_MWW.Rdemo_Wilcoxon_t.Rdemo_Wilcoxon_tboot.Rdemo_Wilcoxon.Reiras_plotIC.Reiras.friendlycolor.Reiras.pseudomediana.Reiras.shade.polygon.Reiras.shape.test.RArquivo de dados
RPubs|
|
|
Teste não-paramétrico é uma versão de teste paramétrico de teste t ou ANOVA unifatorial com suposições mais flexíveis sobre a distribuição da variável de dependente (VD) intervalar. No modelo linear geral (GLM), a VD tem distribuição normal. No modelo de teste não-paramétrico, a VD não tem necessariamente distribuição normal.
Da mesma forma que os testes t e ANOVA unifatorial, o teste não-paramétrico não permite o controle estatístico de variável de confusão. O controle de variável de confusão tem que ser realizado experimentalmente, i.e., o delineamento adequado para uso de teste não-paramétrico é o experimental.
Os testes não-paramétricos são utilizados na literatura médica porque são considerados alternativas quando as suposições de normalidade e/ou homocedasticidade da VD nos testes paramétricos não são atendidas. Os testes não-paramétricos também são usados por serem considerados “robustos” em estudos com amostra pequena e/ou desbalanceada, outlier, assimetria ou escala ordinal da VD.
Segundo Nahm (2016):
Duas condições independentes:
wilcox.testlawstat::brunner.munzel.test,
brunnermunzel::brunnermunzel.permutation.testDuas condições dependentes:
wilcox.test,
exactRankTests::wilcox.exactTrês ou mais condições independentes:
kruskal.test,
coin::kruskal_test,
PMCMRplus::kwAllPairsDunnTest,
rcompanion::groupwiseMedian,
ggstatsplot::ggbetweenstatsTrês ou mais condições independentes:
friedman.test,
pairwise.wilcox.test, PMCMRplus::friedmanTest,
PMCMRplus::frdManyOneExactTest,
PMCMRplus::frdAllPairsExactTestVamos, aqui, supor duas subpopulações (normocolesterolêmicos e hipercolesterolêmicos) e que, populacionalmente, sejam as seguintes as distribuições de colesterol total. A análise integral (impossível na prática) das duas subpopulações hipotéticas…
-----------
Populacao 1
-----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 11000.0000
mean 153.0875
median 144.8302
mode 139.1872
pseudomedian 148.9518
------------
- quartiles:
------------
Q1(min) 65.37866
Q2 129.83152
Q3(median) 144.83024
Q4 168.37434
Q5(max) 273.43297
----------------------
- dispersion measures:
----------------------
st.dev 32.86514
IQR 38.54282
-----------
- skewness:
-----------
Skewness 0.8693103
skwns.lower 0.8383607
skwns.upper 0.9043959
------------------
- kurtosis excess:
------------------
Kurtosis 0.08079561
krts.lower -0.02247742
krts.upper 0.17978811
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 36.696, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5000
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92888, p-value < 2.2e-16
-----------
Populacao 2
-----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 12000.0000
mean 203.4780
median 210.9088
mode 230.1973
pseudomedian 207.7071
------------
- quartiles:
------------
Q1(min) 44.16338
Q2 179.58677
Q3(median) 210.90879
Q4 238.07422
Q5(max) 325.06323
----------------------
- dispersion measures:
----------------------
st.dev 46.92544
IQR 58.48745
-----------
- skewness:
-----------
Skewness -0.7355170
skwns.lower -0.7624642
skwns.upper -0.7050803
------------------
- kurtosis excess:
------------------
Kurtosis 0.06835507
krts.lower -0.00838759
krts.upper 0.14666366
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -23.429, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5000
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.95414, p-value < 2.2e-16
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 1 1092.8 < 2.2e-16 ***
22998
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
demo_ConfrontoPop.R
…mostra que as distribuições da variável de interesse para normocolesterolêmicos e hipercolesterolêmicos, respectivamente:
DescTools::Skew): [0.835,
0.905] e [-0.764, -0.705]lawstat::symmetry.test): p <<
0.0001 e p << 0.0001DescTools::Kurt):
[-0.02, 0.183] e [-0.007, 0.157]shapiro.test): p=8.48e-44 e
p=4.71e-38car::leveneTest): p=3.65e-234|
|
|
Histograma é habitualmente empregados para avaliar o formato da distribuição de variável intervalar, mas o gráfico apresentado acima mostra gráfico de densidade. Esta escolha tem motivo.
Behrens and Yu (2003) fornecem o seguinte conjunto perfeitamente simétrico de dados intervalares:
\[x = \{1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10,10,11,11\}\]
Qual dos seguintes histogramas corresponde à distribuição de \(x\)?
demo_HistogramLies.R
Interessantemente, todos os histogramas foram obtidos com estes mesmos valores de \(x\), pois:
Histograma não deve ser usado para avaliar o formato da distribuição de variável intervalar.
Não temos acesso à população, mas podemos realizar o processo de amostragem por simulação para verificar em quais situações os testes estatísticos são capazes de fornecer a resposta correta. Neste exemplo, detectar que há diferença entre o colesterol total dos normo e hipercolesterolêmicos a partir de amostras simuladas.
Duas amostras retiradas da população hipotética são:
---------
Amostra 1
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.0000
mean 169.7634
median 148.7457
mode 145.0446
pseudomedian 178.6544
------------
- quartiles:
------------
Q1(min) 139.1742
Q2 143.0954
Q3(median) 148.7457
Q4 201.7061
Q5(max) 221.3430
----------------------
- dispersion measures:
----------------------
st.dev 38.96966
IQR 58.61067
-----------
- skewness:
-----------
Skewness 0.5100338
skwns.lower -0.5630817
skwns.upper 1.3466384
------------------
- kurtosis excess:
------------------
Kurtosis -1.95588010
krts.lower -2.30286553
krts.upper -0.09514944
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.9745, p-value = 0.04832
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.73547, p-value = 0.01431
---------
Amostra 2
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 8.0000
mean 213.1767
median 222.9184
mode 250.4468
pseudomedian 210.2412
------------
- quartiles:
------------
Q1(min) 160.2437
Q2 169.8988
Q3(median) 222.9184
Q4 253.6487
Q5(max) 254.5259
----------------------
- dispersion measures:
----------------------
st.dev 43.32652
IQR 83.74987
-----------
- skewness:
-----------
Skewness -0.1312085
skwns.lower -1.8101108
skwns.upper 1.0812654
------------------
- kurtosis excess:
------------------
Kurtosis -2.0946197
krts.lower -2.2234786
krts.upper 0.8208881
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.7437, p-value = 0.4571
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 8
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.79045, p-value = 0.0226
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 1 0.7525 0.4027
12
demo_ConfrontoAmostra.R
Os resultados indicam, para nível de significância de 5%:
lawstat::symmetry.test): p=0.04832 e p=0.4571DescTools::Kurt)
shapiro.test): p=0.01431 e
p=0.0226car::leveneTest): p=0.4027Neste exemplo, supomos duas condições independentes e, a partir das amostras, concluímos que a VD não tem distribuição normal. Para uma das amostras a simetria foi rejeitada, mas a homocedasticidade não foi rejeitada. As amostras são de tamanho pequeno (menor do que 12 em cada condição).
Neste tipo de situação “espera-se” o desempenho superior de teste não-paramétrico, tido como opção “robusta” e que prescindem das suposições exigidas pelos testes paramétricos (no caso, teste t independente).
Este é o teste não-paramétrico mais tradicional, e mostra:
Teste U de Mann-Whitney Convencional:
Wilcoxon rank sum test with continuity correction
data: amostra1 and amostra2
W = 8, p-value = 0.04539
alternative hypothesis: true location shift is not equal to 0
demo_Confronto_MWW.R
Para \(\alpha=5\%\), o teste U de Mann-Whitney rejeita a hipótese nula de location shift nulo indicando diferença da pseudomediana de colesterol populacional dos dois grupos.
O teste de Brunner-Munzel obtém:
Teste U de Brunner-Munzel:
permuted Brunner-Munzel Test
data: amostra1 and amostra2
p-value = 0.0373
sample estimates:
P(X<Y)+.5*P(X=Y)
0.8333333
demo_Confronto_B.R
Para \(\alpha=5\%\), o teste de Brunner-Munzel também rejeita a hipótese nula de igualdade estocática das distribuições de colesterol populacional dos dois grupos.
O teste t de Student (que supõe normalidade e homocedasticidade e, portanto, não é o mais indicado aqui) mostra:
Teste t de Student:
Two Sample t-test
data: amostra1 and amostra2
t = -1.9339, df = 12, p-value = 0.07706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-92.324621 5.497896
sample estimates:
mean of x mean of y
169.7634 213.1767
demo_Confronto_t.R
Para \(\alpha=5\%\), o teste t de Student não foi capaz de rejeitar a hipótese nula de igualdade entre as médias populacionais (i.e., não temos evidência amostral para dizer que 169.76 mg/dl é estatisticamente diferente de 213.18 mg/dl).
O teste t de Welch/Satterthwaite mostra:
Teste t de Welch/Satterthwaite:
Welch Two Sample t-test
data: amostra1 and amostra2
t = -1.9657, df = 11.505, p-value = 0.07393
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-91.763377 4.936652
sample estimates:
mean of x mean of y
169.7634 213.1767
demo_Confronto_t2.R
Este teste modifica os graus de liberdade levando em conta a heterocedasticidade e, com isso, tem outro valor p. No entanto, para \(\alpha=5\%\), não se alterou a decisão: não se rejeita a igualdade da média populacional de colestetol total dos dois grupos.
Aparentemente, então, tudo está bem e reforçamos a noção de que o teste não-paramétrico concorrente ao teste \(t\) independente foi capaz de indicar o que sabemos ser a resposta correta, pois simulamos as subpopulações. Além disso, os dois testes paramétricos falharam em detectar a diferença de média populacional de colesterol entre os grupos.
Este foi um exemplo cuidadosamente escolhido, no qual a resposta foi incorreta para as duas versões de testes t independente e correta para os testes U de M-W e B-M.
|
|
Vamos usar R como um laboratório, verificando o que acontece com os testes em diversas tentativas. Neste procedimento, 20.000 pares de reamostragens são feitas e, para cada uma das tentativas aplicamos os testes U de M-W, Brunner-Munzel, t de Student e t de Welch/Satterthwaite, obtendo: |
Simulação com total de 20000 amostragens.
Tabela de contingencia (concordancia entre os testes):
U MWW:H1 U MWW:H0
t Student:H1 9379 1386
t Student:H0 418 8817
Teste da concordância entre U MWW e t Student:
H0: G = 0
H1: G <> 0
G = 0.8196
z = 115.9089, p = 0
Conclusão: há concordância entre os testes U MWW e t Student.
Tabela de contingencia (concordancia entre os testes):
U MWW:H1 U MWW:H0
t Welch:H1 9477 1693
t Welch:H0 320 8510
Teste da concordância entre U MWW e t Welch:
H0: G = 0
H1: G <> 0
G = 0.7987
z = 112.9532, p = 0
Conclusão: há concordância entre os testes U MWW e t Welch.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
t Student:H1 9515 1250
t Student:H0 520 8715
Teste da concordância entre Brunner-Munzel e t Student:
H0: G = 0
H1: G <> 0
G = 0.823
z = 116.3898, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e t Student.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
t Welch:H1 9632 1538
t Welch:H0 403 8427
Teste da concordância entre Brunner-Munzel e t Welch:
H0: G = 0
H1: G <> 0
G = 0.8059
z = 113.9715, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e t Welch.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
U MWW:H1 9747 50
U MWW:H0 288 9915
Teste da concordância entre Brunner-Munzel e U MWW:
H0: G = 0
H1: G <> 0
G = 0.9662
z = 136.6413, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e U MWW.
Tabela de contingencia (concordancia entre os testes):
t Welch:H1 t Welch:H0
t Student:H1 10548 217
t Student:H0 622 8613
Teste da concordância entre t Welch e t Student:
H0: G = 0
H1: G <> 0
G = 0.9161
z = 129.5561, p = 0
Conclusão: há concordância entre os testes t Welch e t Student.
Proporcao de Rejeicoes corretas:
t de Student: 0.53825
t de Welch: 0.5585
U de Mann-Whitney: 0.48985
Brunner-Munzel: 0.50175
Diferencas:
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(U MWW) = 0
H1: p(t Student)-p(U MWW) <> 0
est lwr.ci upr.ci
[1,] 0.0484 0.03861119 0.05817913
Conclusão: a proporção de rejeições corretas pelo t Student é superior à do U MWW.
Teste da diferença de proporcao de sucessos:
H0: p(t Welch)-p(U MWW) = 0
H1: p(t Welch)-p(U MWW) <> 0
est lwr.ci upr.ci
[1,] 0.06865 0.05887841 0.07840787
Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do U MWW.
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(Brunner-Munzel) = 0
H1: p(t Student)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] 0.0365 0.0267114 0.04628131
Conclusão: a proporção de rejeições corretas pelo t Student é superior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(t Welch)-p(Brunner-Munzel) = 0
H1: p(t Welch)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] 0.05675 0.04697861 0.06651004
Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(U MWW)-p(Brunner-Munzel) = 0
H1: p(U MWW)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] -0.0119 -0.0216971 -0.00210052
Conclusão: a proporção de rejeições corretas pelo U MWW é inferior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(t Welch) = 0
H1: p(t Student)-p(t Welch) <> 0
est lwr.ci upr.ci
[1,] -0.02025 -0.02999932 -0.01049663
Conclusão: a proporção de rejeições corretas pelo t Student é inferior à do t Welch.
demo_ConfrontoAmostra_desempenho.R
Os testes são concordantes entre si (usando a medida de concordância
G de Holley e Guilford, 1964), mas a comparação da proporção de
rejeições da hipótese nula de igualdade das amostras
(DescTools::BinomDiffCI) mostra que ambos os testes
t, de Student e de Welch/Satterthwaite, têm desempenho
significantemente superiores aos testes U de Mann-Whitney e de
Brunner-Munzel.
|
Falsa aparência? |
|
O teste paramétrico usa variável intervalar ou de razão (números) para comparar distribuições da variável dependente (VD) em duas ou mais condições (e.g., grupos, exposições, condições experimentais) e, assim, testar a hipótese nula de igualdade de médias populacionais.
O teste não-paramétrico, em geral, usa posto (rank) para chegar a uma decisão estatística.
O uso de posto equivale a trabalhar com a teoria das estatísticas de ordem.
O posto equivale a uma transformação monotônica, não linear e equiespaçada dos valores originais, que converte uma variável intervalar ou ordinal em uma representação intervalar uniforme artificial, permitindo operações algébricas (como soma ou diferença) em teste não-paramétrico.
|
\[~\] Não são os postos que estão em comparação! Por causa do procedimento não-paramétrico empregar posto em vez do valor original da VD, é muito comum se afirmar que estes testes avaliam e decidem em relação à uma hipótese nula formulada sobre posto. Porém, não é isto o que ocorre. Posto (rank) da VD é um artifício estatístico (estatística de ordem) para comparar distribuições da VD em duas ou mais condições e assim testar a hipótese nula.
Posto é impostor!
A conclusão de um teste não-paramétrico NÃO é sobre posto, mas sobre o valor original da VD. |
Apenas para reforçar que o teste não-paramétrico NÃO avalia posto (mas a VD original), podemos comparar como ficaria estranha a distribuição de postos para as duas amostras que obtivemos.
Como, neste exemplo, dificilmente há empates, a distribuição de postos torna-se uniforme (com curvas descendentes nos extremos apenas porque é desta forma que um gráfico de densidade fecha a curva para ter área igual a um):demo_ConfrontoAmostrasRank.R
ou observar como ficariam amostras 10 vezes maiores…
demo_ConfrontoAmostrasRank2.R
O teste U de Mann-Whitney é generalização de uma proposta original de Wilcoxon. Existem nomes diferentes para este teste na literatura:
|
Henry Bertold Mann (1905 - 2000)
https://math.osu.edu/about-us/history/henry-berthold-mann |
Matemático, desenvolveu o teste U que recebe seu nome em conjunto com seu aluno de doutorado, Donald Ransom Whitney. O teste de soma de postos, inicialmente proposto por Wilcoxon em 1945, previa apenas amostras de igual tamanho; foi generalizado por Mann e Whitney para tamanhos arbitrários de amostra em 1947. |
|
Ingressou para a Ohio State University em 1946, como professor assistente do Departamento de Matemática. Colaborou com Henry Mann para desenvolver o teste que levou seus nomes. Envolveu-se na criação de métodos de computação numérica, um predecessor do Instructional Research Computer Center. Teve papel importante em estabelecer estatística como um departmento separado da Matemática in 1973. |
Donald Ransom Whitney (1915-2007) |
Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).
As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco,
3=Medianamente, 4=Muito, 5=Totalmente simpático.
Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert.
Foram obtidas as seguintes notas:
Com treino: 2 3 3 3 3 3 4 4 4 5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
Na área médica habitualmente enuncia-se:
\[ \begin{cases} H_0: \text{mediana}_A = \text{mediana}_B\\ H_1: \text{mediana}_A \ne \text{mediana}_B \end{cases}\\ \alpha=0.05 \]
Aplicando-se o teste:
Teste U de Mann-Whitney Convencional:
Wilcoxon rank sum test
data: Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
9.544709e-06 1.999935e+00
sample estimates:
difference in location
1
Teste U de Mann-Whitney Exato:
Exact Wilcoxon rank sum test
data: ComTreino and SemTreino
W = 89.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0 2
sample estimates:
difference in location
0.5
Teste U de Mann-Whitney Bootstrapping:
Approximative Wilcoxon-Mann-Whitney Test
data: Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04868
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0 1
sample estimates:
difference in location
1
-----------------------
Estatística descritiva:
-----------------------
Com treino: 2 3 3 3 3 3 4 4 4 5
mediana = 3
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
mediana = 3
demo_MWW_previa.R
Como se explica o fato de que as medianas dos grupos neste exemplo sejam numericamente iguais, mas os testes não-paramétricos encontrem diferença estatisticamente significante?
Qual, então, foi a hipótese nula testada?
O teste U de Mann-Whitney testa a hipótese nula de igualdade das pseudomedianas populacionais da VD intervalar em duas condições independentes.
Hodges-Lehmann estimator: Wikipedia
A pseudomediana é uma medida de tendência central (uma alternativa às mais tradicionais como média e mediana) que serve rigorosamente para variável intervalar, mas que pode ser usada heuristicamente para variável ordinal em algumas situações (e.g., item Likert ou diferencial semântico). Se a distribuição é simétrica, a pseudomediana coincide com a média e a mediana; quando há assimetria, ela difere dessas medidas. Se a distribuição é assimétrica, a pseudomediana é robusta a outlier e assimetria, sendo assim, mais parecida com a mediana.
A pseudomediana é obtida pela mediana das médias (Walsh averages) de todas as possíveis combinações dos pares de valores amostrais de variável intervalar, incluindo cada elemento consigo mesmo.
|
|
|
A função DescTools::HodgesLehmann também calcula a
pseudomediana. No exemplo das atendentes de telemarketing
obtém-se:
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
mediana = 3
pseudomediana = 3.5
... calculada com DescTools::HodgesLehmann(ComTreino)
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
mediana = 3
pseudomediana = 2.5
... calculada com DescTools::HodgesLehmann(SemTreino)
Compare:
Location shift = 3.5 - 2.5 = 1
com:
Wilcoxon rank sum test
data: Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
9.544709e-06 1.999935e+00
sample estimates:
difference in location
1
demo_MWW_pm.R
O gráfico da Empirical Cumulative Distribution Function
evidencia o que se entende por location shift, implementado
pela função nativa ecdf:
plot(ecdf(ComTreino),
main="Empirical Cumulative Distribution Function",
xlab="Escore de Simpatia",
ylab="Probabilidade",
bty="n", lwd=2, verticals = TRUE)
lines(ecdf(SemTreino), lwd=2, col="steelblue2", verticals = TRUE)
abline(h=0.5,lty=3)
abline(v=3,lty=3)
abline(v=pm1,lty=3)
abline(v=pm2,lty=3,col="steelblue2")
legend("right",
c("Sem treino","Com treino"),
lty=1,
lwd=2,
pch=16,
col=c("steelblue2","black"),
bty="n")
demo_WWW_pmplot.R
Conforme Rosenkranz (2010):
“O estimador de Hodges-Lehmann (HL) fornece uma estimativa do parâmetro de deslocamento de localização (location shift) entre duas populações.”
“O estimador HL estima a diferença entre as medianas quando as distribuições das duas amostras são simétricas em torno de suas respectivas medianas.”
|
|
|
Como alternativa à função DescTools::HodgesLehmann,
implementamos demo_MWW_pm2.R para o exemplo das
atendentes de telemarketing, computando-se:
Com treino: 2 3 3 3 3 3 4 4 4 5
pares: 55 combinações possíveis
pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
pares: 78 combinações possíveis
pseudomediana = 2.5
Finalmente, também podemos ver como a pseudomediana seria obtida por bootstrapping, o que também fornece os intervalos de confiança de 95%:
Intervalos de confiança 95% Bonferroni:
Treino n Median Pseudo.median Wilcox.lower Wilcox.upper
1 Com 10 3 3.5 2.5 4
2 Sem 12 3 2.5 2.0 3
demo_MWW_pm3.R
Como o teste U de Mann-Whitney é, pelo menos, um teste de shift location, do qual a pseudomediana é uma medida, a hipótese nula sempre pode ser expressa como:
\[ \begin{cases} H_0: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1: \text{pseudomediana}_A \ne \text{pseudomediana}_B \end{cases}\\ \alpha=0.05 \]
|
|
|
O conjunto de suposições para o teste U de Mann-Whitney é (comparar com Conover, 1999):
“Ao contrário do que muitos acreditam, o teste U de Mann-Whitney não compara as medianas entre grupos. Isso só é verdadeiro sob a suposição de que as distribuições têm o mesmo formato em ambos os grupos e diferem apenas por sua localização [sic].”Schober & Vetter, 2020
Conforme Landoni et al. (2016), teste de U de Mann-Whitney avalia deslocamento de localização entre distribuições de probabilidade. Se as distribuições não são simétricas, o termo location shift (deslocamento de localização), usado nos testes de postos como U de Mann-Whitney, deve ser traduzido como diferença de pseudomedianas (observe na saída dos testes aplicados que aparece o termo difference in location).
Enfatizamos: a interpretação como teste de pseudomedianas iguais é válida somente quando a VD é intervalar.
Já vimos que, se VD intervalar, o teste U de Mann-Whitney equivale a um teste de igualdade de pseudomedianas populacionais. Em outras palavras, a hipótese nula para VD intervalar é igualdade de pseudomedianas populacionais ou, equivalentemente, a diferença nula de pseudomedianas populacionais, e pode ser enunciada como:
\[ \begin{cases} H_0: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1: \text{pseudomediana}_A \ne \text{pseudomediana}_B \end{cases}\\ \alpha=0.05 \]\[ \begin{cases} H_0: \text{deslocamento de localização}=0\\ H_1: \text{deslocamento de localização}\ne0 \end{cases}\\ \alpha=0.05 \]
Sendo que \(\text{deslocamento de localização}=\text{pseudomediana}_A - \text{pseudomediana}_B\).
Se VD intervalar simétrica, o teste U de Mann-Whitney equivale a um teste de igualdade de medianas populacionais:
\[ \begin{cases} H_0: \text{mediana}_A = \text{mediana}_B\\ H_1: \text{mediana}_A \ne \text{mediana}_B \end{cases}\\ \alpha=0.05 \]
O teste de U de Mann-Whitney só pode ser interpretado como um teste de igualdade de médias populacionais em um caso bem restrito, se:
assim diferindo apenas por um deslocamento de localização aditivo (translação da distribuição). Apenas neste caso:
\[ \begin{cases} H_0: \text{média}_A = \text{média}_B\\ H_1: \text{média}_A \ne \text{média}_B \end{cases}\\ \alpha=0.05 \] Em resumo:
Implementamos demo_MWW.R com os testes:
wilcox.testexactRankTests::wilcox.exactcoin::wilcox_test
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
mediana = 3
pseudomediana = 3.5
... calculada com DescTools::HodgesLehmann(ComTreino)
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
mediana = 3
pseudomediana = 2.5
... calculada com DescTools::HodgesLehmann(SemTreino)
Teste U de Mann-Whitney Convencional:
Wilcoxon rank sum test
data: Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
9.544709e-06 1.999935e+00
sample estimates:
difference in location
1
Teste U de Mann-Whitney Exato:
Exact Wilcoxon rank sum test
data: ComTreino and SemTreino
W = 89.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0 2
sample estimates:
difference in location
0.5
Teste U de Mann-Whitney Bootstrapping:
Approximative Wilcoxon-Mann-Whitney Test
data: Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04844
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0 1
sample estimates:
difference in location
1
demo_MWW.R
Vamos utilizar demo_MWW_2.R para observar as
distribuições das respostas.
Como o formato das distribuições importa, também adicionamos ao final deste código testes de simetria, unimodalidade, normalidade, e comparações de duas distribuições inteiras. Ainda usando o exemplo das atendentes de telemarketing:
Dados:
Treino Simpatia
1 Com 2
2 Com 3
3 Com 3
4 Com 3
5 Com 3
6 Com 3
7 Com 4
8 Com 4
9 Com 4
10 Com 5
11 Sem 1
12 Sem 2
13 Sem 2
14 Sem 2
15 Sem 2
16 Sem 3
17 Sem 3
18 Sem 3
19 Sem 3
20 Sem 3
21 Sem 3
22 Sem 4
Intervalos de confiança 95% Bonferroni:
Treino n Median Pseudo.median Wilcox.lower Wilcox.upper
1 Com 10 3 3.5 2.5 4
2 Sem 12 3 2.5 2.0 3
Teste de simetria:
m-out-of-n bootstrap symmetry test by Miao, Gel, and Gastwirth (2006)
data: dt_treino$Simpatia[dt_treino$Treino == "Sem"]
Test statistic = -2.6131, p-value = 0.254
alternative hypothesis: the distribution is asymmetric.
sample estimates:
bootstrap optimal m
11
m-out-of-n bootstrap symmetry test by Miao, Gel, and Gastwirth (2006)
data: dt_treino$Simpatia[dt_treino$Treino == "Com"]
Test statistic = 2.2264, p-value = 0.144
alternative hypothesis: the distribution is asymmetric.
sample estimates:
bootstrap optimal m
8
Teste de unimodalidade:
Hartigans' dip test for unimodality / multimodality
data: dt_treino$Simpatia[dt_treino$Treino == "Sem"]
D = 0.16667, p-value = 0.001342
alternative hypothesis: non-unimodal, i.e., at least bimodal
Hartigans' dip test for unimodality / multimodality
data: dt_treino$Simpatia[dt_treino$Treino == "Com"]
D = 0.15, p-value = 0.02254
alternative hypothesis: non-unimodal, i.e., at least bimodal
Teste de normalidade:
Shapiro-Wilk normality test
data: dt_treino$Simpatia[dt_treino$Treino == "Sem"]
W = 0.87542, p-value = 0.0766
Shapiro-Wilk normality test
data: dt_treino$Simpatia[dt_treino$Treino == "Com"]
W = 0.89047, p-value = 0.1716
Teste de comparação de distribuições com kSamples::ad.test
Anderson-Darling k-sample test.
Number of samples: 2
Sample sizes: 10, 12
Number of ties: 17
Mean of Anderson-Darling Criterion: 1
Standard deviation of Anderson-Darling Criterion: 0.70176
T.AD = ( Anderson-Darling Criterion - mean)/sigma
Null Hypothesis: All samples come from a common population.
Based on Nsim = 10000 simulations
AD T.AD asympt. P-value sim. P-value
version 1: 2.4522 2.0694 0.045415 0.069
version 2: 3.3700 3.3811 0.014170 0.056
Outro teste de comparação de distribuições, com ks.test
Exact two-sample Kolmogorov-Smirnov test
data: ComTreino and SemTreino
D = 0.31667, p-value = 0.2626
alternative hypothesis: two-sided
... e mais outra forma de usar Kolmogorov-Smirnov com EnvStats::gofTest
Method: 2-Sample K-S GOF
ks: 0.3166667
p: 0.2625795
demo_MWW_2.R
|
Edgar Brunner (1943- )
https://www.researchgate.net/profile/Edgar_Brunner |
Universitätsmedizin Göttingen · Department of Medical Statistics Matemático alemão, formado em 1969 pela Rheinisch-Westfälische Technische Hochschule, com doutorado em matemática pela mesma universidade em 1971 e habilitação em estatística médica em 1973. Foi professor universitário de 1976 a 2009 e diretor do Departamento de Estatística Médica do Centro de Tecnologia da Informação, Estatística e Epidemiologia do Centro Médico Universitário de Göttingen. |
|
Georg-August-Universität Göttingen. Obteve seu doutorado nesta universidade em 1996 com a tese Multivariate nichtparametrische Verfahren für feste Faktoren in mehrfaktoriellen Versuchsanlagen (Métodos não-paramétricos multivariados para fatores fixos em sistemas experimentais multifatoriais), orientado por Edgar Brunner, com quem também publicou Nichtparametrische Datenanalyse: Unverbundene Stichproben (Statistik und ihre Anwendungen) (Análise de dados não-paramétricos: amostras não pareadas (estatísticas e suas aplicações)), em 2002, do qual localizei apenas o original em alemão. Não conseguimos, até o momento, mais informações a seu respeito, nem se está ativo.
Informação obtida de https://www.mathgenealogy.org/id.php?id=27718
|
|
O teste de Brunner-Munzel (heterocedástico) é conhecido também como teste de Mann-Whitney-Wilcoxon generalizado.
O conjunto de suposições para o teste de Brunner-Munzel:
Conforme documentação de
lawstat::brunner.munzel.test,
“The Brunner-Munzel test for stochastic equality of two samples, which is also known as the Generalized Wilcoxon test.”
Portanto, ele testa a hipótese nula de distribuições estocasticamente equivalentes com VD ordinal em duas condições independentes.
\[ \begin{cases} H_0: \text{distribuições estocasticamente equivalentes}\\ H_1: \text{distribuições estocasticamente não equivalentes} \end{cases}\\ \alpha=0.05 \]
Se VD é ordinal, não há base teórica ou estatística sólida para supor nem testar simetria. A razão é simples: a simetria é uma propriedade métrica, dependente de distâncias numéricas em torno de um ponto central (mediana, média, etc.). Escalas ordinais só preservam ordem, não diferenças. Assim, não faz sentido afirmar que uma distribuição ordinal é “simétrica” ou “assimétrica”, pois não existe eixo de referência contínuo nem unidade de medida.
Conforme Karch (2021, p. 6-7), o teste de Brunner-Munzel é preferível ao U de Mann-Whitney porque é baseado no conceito de superioridade estocástica que prescinde de suposições distribucionais e, portanto, pode ser usado inclusive para VD ordinal. Além disso, prescinde também da suposição de permutabilidade (exchangeability):
“O teste de Mann-Whitney não é assintoticamente válido sob a perspectiva de igualdade estocástica. Assim, se a suposição de permutabilidade não for atendida, a taxa de erro tipo I pode ser substancialmente maior que o nível de significância, mesmo em amostras grandes. Em contraste, Brunner e Munzel (2000) demonstraram que o teste de Brunner-Munzel é assintoticamente válido sob a suposição (ampla e razoável) de que as variâncias das duas populações são finitas. Essa é exatamente a mesma condição sob a qual o teste t de Welch é assintoticamente válido.”
Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).
As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco,
3=Medianamente, 4=Muito, 5=Totalmente simpático.
Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert.
Quando aplicamos o teste de U de Mann-Whitney, tratamos o item Likert como variável intervalar. Para o teste de Brunner-Munzel o item Likert é tratado como variável ordinal.
O teste de Brunner-Munzel foi implementado em demo_BM.R. Compare com os resultados
obtidos por U de Mann-Whitney em demo_MWW.R. Aqui empregamos:
lawstat::brunner.munzel.test.Obtendo:
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
mediana = 3
pseudomediana = 3.5
... calculada com DescTools::HodgesLehmann(ComTreino)
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
mediana = 3
pseudomediana = 2.5
... calculada com DescTools::HodgesLehmann(SemTreino)
Teste B de Brunner-Munzel:
* com lawstat::brunner.munzel.test
Brunner-Munzel Test
data: SemTreino and ComTreino
Brunner-Munzel Test Statistic = 2.5443, df = 18.934, p-value = 0.01983
95 percent confidence interval:
0.5435583 0.9481084
sample estimates:
P(X<Y)+.5*P(X=Y)
0.7458333
demo_BM.R
No teste U de Mann-Whitney, rejeita-se a hipótese nula de que as pseudomedianas populacionais são iguais para \(\alpha=0.05\).
No teste de Brunner-Munzel, rejeita-se a hipótese nula de que as distribuições são estocasticamente equivalentes entre os grupos para \(\alpha=0.05\).
|
|
|
Para comparação, aqui incluímos os testes t concorrentes que resolveriam o mesmo problema.
Embora não seja o mais indicado, o teste t de Student assume distribuição normal e homocedasticidade populacionais. Além disto não serve para variáveis ordinais.
Desconsiderando tais premissas, por exercício, vamos supor que o item Likert é uma variável intervalar (numérica) e, portanto, aplicamos o teste t.
\[ \begin{cases} H_0: \mu_A = \mu_B\\ H_1: \mu_A \ne \mu_B \end{cases} \\ \alpha=0.05 \]
A implementação em demo_MWW_tStudent.R obtém:
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
d.p. = 0.7929615
n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
d.p. = 0.843274
n = 10
Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667
----------
Sem Treino
----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 12.000000
mean 2.583333
median 3.000000
mode 2.964081
pseudomedian 2.500000
------------
- quartiles:
------------
Q1(min) 1
Q2 2
Q3(median) 3
Q4 3
Q5(max) 4
----------------------
- dispersion measures:
----------------------
st.dev 0.7929615
IQR 1.0000000
-----------
- skewness:
-----------
Skewness -0.2483784
skwns.lower -1.2509229
skwns.upper 0.5887855
------------------
- kurtosis excess:
------------------
Kurtosis -0.6906693
krts.lower -2.0636905
krts.upper 0.8069728
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -2.6131, p-value = 0.008972
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 12
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.87542, p-value = 0.0766
----------
Com Treino
----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 10.000000
mean 3.400000
median 3.000000
mode 3.039015
pseudomedian 3.500000
------------
- quartiles:
------------
Q1(min) 2
Q2 3
Q3(median) 3
Q4 4
Q5(max) 5
----------------------
- dispersion measures:
----------------------
st.dev 0.843274
IQR 1.000000
-----------
- skewness:
-----------
Skewness 0.2801580
skwns.lower -0.7452708
skwns.upper 1.2807225
------------------
- kurtosis excess:
------------------
Kurtosis -0.8421094
krts.lower -2.0550000
krts.upper 1.1714277
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 2.2264, p-value = 0.02599
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 10
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.89047, p-value = 0.1716
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 1 0.0033 0.9551
20
Two Sample t-test
data: ComTreino and SemTreino
t = 2.3374, df = 20, p-value = 0.02992
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.08786362 1.54546971
sample estimates:
mean of x mean of y
3.400000 2.583333
demo_MWW_tStudent.R
Observe que as hipóteses nulas de simetria foram rejeitadas para as duas condições (premissa para o teste U, mas não para o teste B), embora normalidade não tenha sido rejeitada (os testes nem sempre são consistentes entre si, além do que devemos lembrar que não “prova” normalidade). Além disto, os dois grupos não podem ser considerados heterogêneos em variância pela avaliação com estas amostras (homocedasticidade é premissa para o teste t de Student, mas não para o t de Welch).
Apesar de violarmos parte de suas premissas, a conclusão é a mesma que conseguimos com os testes não-paramétricos: rejeita-se a hipótese nula de igualdade de escores dos grupos ‘Sem Treino’ e ‘Com Treino’.
|
|
|
Este teste t faz as correções necessárias para
heterocedasticidade, na medida do necessário. As premissas são
verificadas novamente porque a função shape.test, de nossa
autoria, é chamada nos dois códigos R (por completude).
Com a implementação em demo_MWW_t.R obtemos:
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
d.p. = 0.7929615
n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
d.p. = 0.843274
n = 10
Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667
Welch Two Sample t-test
data: ComTreino and SemTreino
t = 2.3238, df = 18.799, p-value = 0.03151
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.08056125 1.55277209
sample estimates:
mean of x mean of y
3.400000 2.583333
$emmeans
Treino emmean SE df lower.CL upper.CL
Com 3.40 0.258 20 2.86 3.94
Sem 2.58 0.236 20 2.09 3.07
Confidence level used: 0.95
$contrasts
contrast estimate SE df t.ratio p.value
Com - Sem 0.817 0.349 20 2.337 0.0299
demo_MWW_t.R
O valor p mudou um pouco (observe também os graus de
liberdade, que agora são fracionários), mas a conclusão é a mesma. Além
das mesmas premissas avaliadas pelo teste t de Student, este
código R adiciona as médias marginais estimadas
(emmeans::emmeans), que trazem os intervalos de confiança
corrigidos após a aplicação do modelo estatístico.
A principal diferença em relação ao teste t de Student é que o teste t de Welch (Satterthwaite) é robusto à heterocedasticidade (mas, neste exemplo, a homocedasticidade foi testada e não rejeitada).
Em comparação com suas alternativas não-paramétricas, o teste t tem hipótese nula mais clara: a inferência é sobre as médias populacionais da Simpatia, que é maior no grupo com treinamento.
Duas formas de executar o mesmo teste por bootstrapping
estão implementadas em demo_MWW_tboot.R:
Obtém-se:
One sample t test (1e+05 reamostragens, bootstrapping pivotal)
Intervalo de confiança 95% e mediana:
2.5% 50% 97.5%
0.02069533 0.81666667 1.50561975
Independent One-way ANOVA (1e+05 reamostragens, funcao lmboot::ANOVA.boot)
F(1,20) = 5.42102, p = 0.0305
demo_MWW_tboot.R
As conclusões são, novamente, as mesmas que conseguimos com os testes anteriores (rejeitando-se a igualdade de médias entre os grupos ‘Sem Treino’ e ‘Com Treino’):
lmboot::ANOVA.boot,
retornando valor p que usamos, reversamente, para encontrar o
valor \(F\) observado com a função
qf (nativa do R: dada a probabilidade e os graus de
liberdade, retorna a estatística \(F\)
correspondente).|
Frank Wilcoxon (1892 – 1965) |
Tornou-se conhecido por ter desenvolvido dois testes muito utilizados: o Teste de Soma de Postos (Wilcoxon Rank Sum Test), que é equivalente ao teste U de Mann-Whitney, e o Teste de Postos com Sinais (Wilcoxon Signed Rank Test). Rosner (1995) |
O nome deste teste pode ser encontrado como:
Conover (1999) sumariza as suposições:
O teste W de Wilcoxon testa a hipótese nula de igualdade das médias populacionais da VD intervalar em duas condições dependentes. É, portanto, alternativa ao teste t relacionado. A VD não pode ser, consequentemente, ordinal:
Sobre o formato da distribuição, a restrição é forte: este teste não deve ser usado se não estiver claro que a distribuição das diferenças entre os pares de medidas tem distribuição simétrica:
Enfermeiros receberam um questionário que media o nível de simpatia com pacientes que sofrem de esclerose múltipla (EM). Para cada enfermeiro, um escore total INTERVALAR que varia entre 1 e 10 foi observado. Os enfermeiros então participaram de um grupo de discussão (uma hora), que incluía pacientes com EM. Mais tarde, um questionário parecido foi dado novamente a eles.
Trata-se, portanto, de um delineamento intraparticipantes, pois os mesmos enfermeiros estão sendo medidos nas condições “antes” e “depois” de serem expostos ao grupo de discussão. Nossa hipótese é de que haverá uma mudança significante entre os escores dos dois questionários aplicados, de modo que estes sejam diferentes (maiores) após a participação no grupo de discussão.
\[ \begin{cases} H_0: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} = 0\\ H_1: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} \ne 0 \end{cases} \\ \alpha=0.05 \]
Os dados estão em Simpatia.xlsx. O teste, que utiliza a
diferença entre os escores obtidos de cada enfermeiro entre os dois
momentos estudados, está implementado em demo_Wilcoxon.R:
Antes Depois
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
----------
Diferencas
----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 10.0000000
mean 1.7000000
median 1.5000000
mode 0.6912619
pseudomedian 1.5000000
------------
- quartiles:
------------
Q1(min) -1.00
Q2 0.25
Q3(median) 1.50
Q4 3.00
Q5(max) 4.00
----------------------
- dispersion measures:
----------------------
st.dev 1.766981
IQR 2.750000
-----------
- skewness:
-----------
Skewness -0.02610158
skwns.lower -0.83202190
skwns.upper 0.83338980
------------------
- kurtosis excess:
------------------
Kurtosis -1.6457394
krts.lower -1.9685148
krts.upper -0.1580446
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.44529, p-value = 0.6561
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 10
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.93041, p-value = 0.4519
Grafico guardado em image/densDifs_W.png
Teste W de Wilcoxon Convencional:
Wilcoxon signed rank test
data: Depois and Antes
V = 34, p-value = 0.024
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
0.9999672 3.5000396
sample estimates:
(pseudo)median
2.170837
Teste W de Wilcoxon Exato:
Exact Wilcoxon signed rank test
data: Depois and Antes
V = 34, p-value = 0.03125
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0.5 4.0
sample estimates:
(pseudo)median
2.25
demo_Wilcoxon.R
Este é o gráfico de densidade das diferenças obtido com os valores amostrais:
Concluímos que a média das notas recebidas pelos enfermeiros após
grupo de discussão diferem para \(\alpha=0.05\); podemos dizer que aumentaram
porque Depois-Antes é maior que zero.
|
|
|
Sendo a variável numérica, uma forma simples de se obter o teste t para medidas repetidas é, meramente, fazer um teste t com um único conjunto de dados: a diferença Depois-Antes observada em cada enfermeiro.
Como o teste W de Wilcoxon utiliza também variáveis intervalares, a hipótese nula pode ser escrita da mesma forma ou, como alguns preferem, para explicitar que o conjunto de dados é único, utilizar a diferença computada por \(\mu_D = \mu_\text{Depois} - \mu_\text{Antes}\) para expressar:
\[ \begin{cases} H_0: \mu_D = 0\\ H_1: \mu_D \ne 0 \end{cases} \\ \alpha=0.05 \]
Implementamos demo_Wilcoxon_t.R. Obtém-se:
# A tibble: 10 × 2
Antes Depois
<dbl> <dbl>
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
-------
Teste t
-------
One Sample t-test
data: v
t = 3.0424, df = 9, p-value = 0.01396
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.4359779 2.9640221
sample estimates:
mean of x
1.7
demo_Wilcoxon_t.R
A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo.
Utilizando-se bootstrapping pivotal, o resultado é:
# A tibble: 10 × 2
Antes Depois
<dbl> <dbl>
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
One-sample t test (1e+05 replicates)
2.5% 50% 97.5%
0.4089866 1.7000000 3.0087253
demo_Wilcoxon_tboot.R
A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo. Esta decisão é tomada pelo intervalo de confiança 95%, que não inclui e está à direita do valor nulo.
|
Filho de Lillian Oppenheimer, pioneira e difusora do origami nos Estados Unidos. Irmão dos também matemáticos Joseph Kruskal e Martin Kruskal. Estudou matemática na Universidade Harvard, e obteve o doutorado em 1955 na Universidade Columbia. Foi mais tarde professor da Universidade de Chicago. De 1958 a 1961 foi editor do Annals of Mathematical Statistics. Em 1971 foi presidente do Institute of Mathematical Statistics, e em 1982 presidente da American Statistical Association. Em 1990 tornou-se professor emérito. |
https://arxiv.org/pdf/0710.5063.pdf |
|
W. Allen Wallis (1912 - 1998)
https://www.wallis.rochester.edu/about/wallis.html |
Estatístico americano. Wallis formou-se em psicologia pela Universidade de Minnesota em 1932. Ele então estudou economia em Minnesota e na Universidade de Chicago. Posteriormente, ele ocupou cargos nos departamentos de economia em nas Universidades de Columbia, Yale e Stanford. De 1946 a 1962, ele foi Professor de Estatística na Business School of Chicago University. Seu artigo com Kruskal sobre o teste H de Kruskal-Wallis foi publicado em 1952. De 1951 a 1959, ele foi Editor do Journal of the American Statistical Association. Em 1962 mudou-se para a Universidade de Rochester (1975–82). Após a aposentadoria da vida universitária, foi nomeado subsecretário de Estado para os Assuntos Econômicos (até 1989). Ele foi agraciado com o Prêmio Wilks da ASA em 1980. |
O teste H de Kruskal-Wallis verifica a hipótese nula de igualdade das pseudomedianas populacionais da VD ordinal ou intervalar em três ou mais condições independentes. É alternativa, portanto, à ANOVA unifatorial independente de Fisher (homocedástica).
Segundo a documentação do R nativo na função que implementa o teste:
“
kruskal.testperforms a Kruskal-Wallis rank sum test of the null that the location parameters of the distribution of x are the same in each group (sample).”
O teste supõe homocedasticidade e, portanto, também só é aplicável para variáveis intervalares.
Pesquisadores, como parte de seu projeto conjunto do ano sobre a utilidade da terapia para pessoas que sofrem de enxaqueca, distribuíram aleatoriamente 18 pessoas que sofrem de enxaqueca em três grupos:
Os pesquisadores prevêem que os grupos de terapia e de autoajuda terão a percepção de menor sofrimento por enxaqueca do que o grupo na lista de espera quando avaliarem sua enxaqueca em um segundo ponto no tempo. No início do estudo, os participantes avaliam os seus sintomas no último mês por meio de uma variável intervalar de grau de sofrimento por enxaqueca do participante, de 0 (sem sofrimento) a 5 (sofrimento terrível). Quatorze dias mais tarde, avaliam os seus sintomas (no último mês) novamente por meio da mesma variável intervalar.
Se a VD é simétrica nas três condições, a hipótese nula de igualdade de medidas é válida. Os testes de simetria da VD intervalar resultam não significantes para \(\alpha=0.05\). Os testes foram realizados no tópico a seguir sobre ANOVA unifatorial independente.
\[ \begin{cases} H_0: \text{pseudomediana}_\text{terapia} = \text{pseudomediana}_\text{auto-ajuda} = \text{pseudomediana}_\text{espera}\\ H_1: \text{Pelo menos duas pseudomedianas populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]
Supondo que avaliaremos apenas o resultado final, os dados estão em
Enxaqueca.xlsx.
|
|
|
O teste de Kruskal-Wallis está implementado em demo_KW.R. Os testes post hoc
estão implementados em demo_KW_posthoc.R:
Sintoma2
Grupo 1 2 3 4 5
Autoajuda 0 3 1 0 2
Lista de espera 0 1 2 2 2
Terapeuta 2 1 1 1 0
Intervalos de confiança 95% Bonferroni:
Grupo n Median Pseudo.median Wilcox.lower Wilcox.upper
1 Autoajuda 6 2.5 3.50 2.0 4
2 Lista de espera 7 4.0 3.56 2.5 5
3 Terapeuta 5 2.0 2.00 1.0 3
Teste H de Kruskal-Wallis Convencional:
Kruskal-Wallis rank sum test
data: Sintoma2 and Grupo
Kruskal-Wallis chi-squared = 3.5595, df = 2, p-value = 0.1687
Teste H de Kruskal-Wallis (bootstrapping):
Approximative Kruskal-Wallis Test
data: Sintoma2 by Grupo (Autoajuda, Lista de espera, Terapeuta)
chi-squared = 3.5595, p-value = 0.1673
demo_KW.R
post hoc test:
Autoajuda Lista de espera
Lista de espera 1.00 -
Terapeuta 0.81 0.18
Comparison Z P.unadj P.adj
1 Autoajuda - Lista de espera -0.784 0.4330 1.000
2 Autoajuda - Terapeuta 1.103 0.2698 0.809
3 Lista de espera - Terapeuta 1.886 0.0593 0.178
Group Letter MonoLetter
1 Autoajuda a a
2 Listadeespera a a
3 Terapeuta a a
demo_KW_posthoc.R
Neste exemplo, as medianas populacionais para as diversas terapias para exaqueca não diferem, considerando \(\alpha=0.05\). Portanto, os testes post hoc não precisam ser consultados.
O teste paramétrico ANOVA unifatorial independente de Fisher está
implementado em demo_KW_ANOVA_Fisher.R.
\[ \begin{cases} H_0: \mu_\text{terapia} = \mu_\text{auto-ajuda} = \mu_\text{espera}\\ H_1: \text{Pelo menos duas médias populacionais são diferentes}\\ \end{cases}\\ \alpha=0.05 \]
Além disto, sendo a VD intervalar, podemos testar as condições de simetria, normalidade e homocedasticidade, obtendo-se:
Caso Grupo Sintoma1 Sintoma2
1 1 Terapeuta 5 1
2 2 Terapeuta 4 3
3 3 Terapeuta 5 4
4 4 Terapeuta 5 2
5 5 Terapeuta 4 1
6 6 Autoajuda 4 2
7 7 Autoajuda 5 5
8 8 Autoajuda 4 3
9 9 Autoajuda 2 2
10 10 Autoajuda 3 5
11 11 Autoajuda 2 2
12 12 Lista de espera 3 5
13 13 Lista de espera 2 3
14 14 Lista de espera 4 4
15 15 Lista de espera 2 4
16 16 Lista de espera 3 5
17 17 Lista de espera 2 2
18 18 Lista de espera 3 3
Tabulando Sintoma2 por Grupo:
Terapeuta Autoajuda Lista de espera
1 2 0 0
2 1 3 1
3 1 1 2
4 1 0 2
5 0 2 2
item group1 vars n mean sd median trimmed mad min max range skew kurtosis
X11 1 Terapeuta 1 5 2.20 1.30 2.0 2.20 1.48 1 4 3 0.26 -1.96
X12 2 Autoajuda 1 6 3.17 1.47 2.5 3.17 0.74 2 5 3 0.39 -2.00
X13 3 Lista de espera 1 7 3.71 1.11 4.0 3.71 1.48 2 5 3 -0.15 -1.64
se
X11 0.58
X12 0.60
X13 0.42
---------
Terapeuta
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 5.000000
mean 2.200000
median 2.000000
mode 1.429645
pseudomedian 2.000000
------------
- quartiles:
------------
Q1(min) 1
Q2 1
Q3(median) 2
Q4 3
Q5(max) 4
----------------------
- dispersion measures:
----------------------
st.dev 1.30384
IQR 2.00000
-----------
- skewness:
-----------
Skewness 0.2598658
skwns.lower -0.8229083
skwns.upper 1.0733126
------------------
- kurtosis excess:
------------------
Kurtosis -1.958062
krts.lower -2.253333
krts.upper -0.920000
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.90202, p-value = 0.4211
---------
Autoajuda
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.000000
mean 3.166667
median 2.500000
mode 2.202567
pseudomedian 3.500000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 2.0
Q3(median) 2.5
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.47196
IQR 2.50000
-----------
- skewness:
-----------
Skewness 0.3948453
skwns.lower -0.6703371
skwns.upper 1.3608276
------------------
- kurtosis excess:
------------------
Kurtosis -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.75467, p-value = 0.02212
---------------
Lista de espera
---------------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 7.000000
mean 3.714286
median 4.000000
mode 3.908236
pseudomedian 3.750000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 3.0
Q3(median) 4.0
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.112697
IQR 1.500000
-----------
- skewness:
-----------
Skewness -0.1523727
skwns.lower -1.0744714
skwns.upper 0.6823774
------------------
- kurtosis excess:
------------------
Kurtosis -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 7
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92158, p-value = 0.4818
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 2 0.2278 0.799
15
Legenda:
A ... Terapeuta
B ... Autoajuda
C ... Lista de espera
ANOVA unifatorial independente de Fisher
VD = Sintoma2
Fator = Grupo
Analise de significancia estatistica: teste omnibus
ANOVAAnova Table (Type II tests)
Response: Sintoma2
Sum Sq Df F value Pr(>F)
Grupo 6.7159 2 2.0098 0.1685
Residuals 25.0619 15
contrast estimate SE df lower.CL upper.CL t.ratio p.value
B - A 0.967 0.783 15 -0.956 2.89 1.235 0.3896
C - A 1.514 0.757 15 -0.345 3.37 2.001 0.1164
Confidence level used: 0.95
Conf-level adjustment: dunnettx method for 2 estimates
P value adjustment: dunnettx method for 2 tests
Grupo emmean SE df lower.CL upper.CL .group
A 2.20 0.578 15 0.643 3.76 a
B 3.17 0.528 15 1.745 4.59 a
C 3.71 0.489 15 2.398 5.03 a
Confidence level used: 0.95
Conf-level adjustment: bonferroni method for 3 estimates
P value adjustment: bonferroni method for 3 tests
significance level used: alpha = 0.05
NOTE: If two or more means share the same grouping symbol,
then we cannot show them to be different.
But we also did not show them to be the same.
Analise de significancia pratica: tamanho de efeito
# Effect Size for ANOVA
Parameter | Eta2 | 95% CI | interpret
-------------------------------------------------
Grupo | 0.2113 | [0.0000, 0.5019] | large
Considerando heterocedasticidade, ANOVA unifatorial independente de
Welch está implementada em demo_KW_ANOVA_Welch.R, obtendo-se:
Caso Grupo Sintoma1 Sintoma2
1 1 Terapeuta 5 1
2 2 Terapeuta 4 3
3 3 Terapeuta 5 4
4 4 Terapeuta 5 2
5 5 Terapeuta 4 1
6 6 Autoajuda 4 2
7 7 Autoajuda 5 5
8 8 Autoajuda 4 3
9 9 Autoajuda 2 2
10 10 Autoajuda 3 5
11 11 Autoajuda 2 2
12 12 Lista de espera 3 5
13 13 Lista de espera 2 3
14 14 Lista de espera 4 4
15 15 Lista de espera 2 4
16 16 Lista de espera 3 5
17 17 Lista de espera 2 2
18 18 Lista de espera 3 3
Tabulando Sintoma2 por Grupo:
Terapeuta Autoajuda Lista de espera
1 2 0 0
2 1 3 1
3 1 1 2
4 1 0 2
5 0 2 2
Descriptive statistics by group
group: Terapeuta
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 5 2.2 1.3 2 2.2 1.48 1 4 3 0.26 -1.96 0.58
--------------------------------------------------------------------
group: Autoajuda
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 6 3.17 1.47 2.5 3.17 0.74 2 5 3 0.39 -2 0.6
--------------------------------------------------------------------
group: Lista de espera
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 7 3.71 1.11 4 3.71 1.48 2 5 3 -0.15 -1.64 0.42
---------
Terapeuta
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 5.000000
mean 2.200000
median 2.000000
mode 1.429645
pseudomedian 2.000000
------------
- quartiles:
------------
Q1(min) 1
Q2 1
Q3(median) 2
Q4 3
Q5(max) 4
----------------------
- dispersion measures:
----------------------
st.dev 1.30384
IQR 2.00000
-----------
- skewness:
-----------
Skewness 0.2598658
skwns.lower -0.8229083
skwns.upper 1.0733126
------------------
- kurtosis excess:
------------------
Kurtosis -1.958062
krts.lower -2.253333
krts.upper -0.920000
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.90202, p-value = 0.4211
---------
Autoajuda
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.000000
mean 3.166667
median 2.500000
mode 2.202567
pseudomedian 3.500000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 2.0
Q3(median) 2.5
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.47196
IQR 2.50000
-----------
- skewness:
-----------
Skewness 0.3948453
skwns.lower -0.6703371
skwns.upper 1.3608276
------------------
- kurtosis excess:
------------------
Kurtosis -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.75467, p-value = 0.02212
---------------
Lista de espera
---------------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 7.000000
mean 3.714286
median 4.000000
mode 3.908236
pseudomedian 3.750000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 3.0
Q3(median) 4.0
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.112697
IQR 1.500000
-----------
- skewness:
-----------
Skewness -0.1523727
skwns.lower -0.9606666
skwns.upper 0.7528372
------------------
- kurtosis excess:
------------------
Kurtosis -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 7
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92158, p-value = 0.4818
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 2 0.2278 0.799
15
Legenda:
A ... Terapeuta
B ... Autoajuda
C ... Lista de espera
ANOVA unifatorial independente de Welch
VD = Sintoma2
Fator = Grupo
Analise de significancia estatistica: testes omnibus e posthoc
ONE-WAY ANOVA
One-Way ANOVA (Welch's)
────────────────────────────────────────────────────────
F df1 df2 p
────────────────────────────────────────────────────────
Sintoma2 2.067268 2 9.075617 0.1820512
────────────────────────────────────────────────────────
Group Descriptives
───────────────────────────────────────────────────────────────
Grupo N Mean SD SE
───────────────────────────────────────────────────────────────
Sintoma2 A 5 2.200000 1.303840 0.5830952
B 6 3.166667 1.471960 0.6009252
C 7 3.714286 1.112697 0.4205600
───────────────────────────────────────────────────────────────
POST HOC TESTS
Games-Howell Post-Hoc Test – Sintoma2
─────────────────────────────────────────────────────────────────
A B C
─────────────────────────────────────────────────────────────────
A Mean difference — -0.9666667 -1.5142857
t-value — -1.154472 -2.1062836
df — 8.940607 7.831281
p-value — 0.5073843 0.1510932
B Mean difference — -0.5476190
t-value — -0.7466116
df — 9.248525
p-value — 0.7429239
C Mean difference —
t-value —
df —
p-value —
─────────────────────────────────────────────────────────────────
Note. * p < .05, ** p < .01, *** p < .001
Analise de significancia pratica: tamanho de efeito
- eta^2 = 0.313
Outra opcao de teste posthoc com rstatix::games_howell_test
.y. group1 group2 estimate conf.low conf.high p.adj p.adj.signif
1 Sintoma2 A B 0.967 -1.374 3.31 0.507 ns
2 Sintoma2 A C 1.514 -0.549 3.58 0.151 ns
3 Sintoma2 B C 0.548 -1.490 2.59 0.743 ns
demo_KW_ANOVA_Welch.R
A conclusão é a mesma: não temos evidêncial amostral para afirmar diferença entre os três grupos.
|
Milton Friedman (1912 - 2006)
https://pt.wikipedia.org/wiki/Milton_Friedman |
Milton Friedman foi um economista, estatístico e escritor norte-americano, que lecionou na Universidade de Chicago por mais de três décadas. Ele recebeu o Prémio de Ciências Económicas em Memória de Alfred Nobel de 1976 e é conhecido por sua pesquisa sobre a análise do consumo, a teoria e história monetária, bem como por sua demonstração da complexidade da política de estabilização. |
Testa a hipótese nula de igualdade das pseudomedianas populacionais dos tratamentos. Utiliza VD intervalar em três ou mais condições dependentes.
Seis pessoas (blocos) receberam seis diuréticos diferentes (tratamentos A a F). As respostas são medidas pela concentração de sódio na urina duas horas após o tratamento (VD intervalar). O tratamento A é assumido como controle.
Conforme documentação da função nativa do R
friedman.test,
“The null hypothesis is that apart from an effect of blocks, the location parameter of y is the same in each of the groups.”
\[ \begin{cases} H_0: \text{pseudomediana}_\text{A} = \text{pseudomediana}_\text{B} =\cdots= \text{pseudomediana}_\text{F}\\ H_1: \text{Pelo menos duas pseudomedianas populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]
Os dados estão no próprio código R, demo_Q.R. O teste Q de
Friedman em R está implementado em PMCMRplus::friedmanTest
e os testes post-hoc em
PMCMRplus::frdManyOneExactTest, que fixa uma condição como
referência e PMCMRplus::frdAllPairsExactTest, e também com
funções nativas friedman.test e
pairwise.wilcox.test que comparam todos os pares de
condições:
A B C D E F
1 3.88 30.58 25.24 4.44 29.41 38.87
2 5.64 30.14 33.52 7.94 30.72 33.12
3 5.76 16.92 25.45 4.04 32.92 39.15
4 4.25 23.19 18.85 4.40 28.23 28.06
5 5.91 26.74 20.45 4.23 23.35 38.23
6 4.33 10.91 26.67 4.36 12.00 26.65
Friedman rank sum test
data: y
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915
A
B 0.114
C 0.043
D 1.000
E 0.014
F 8.4e-05
A B C D E
B 0.34101 - - - -
C 0.12897 1.00000 - - -
D 1.00000 0.78175 0.34101 - -
E 0.04094 1.00000 1.00000 0.12897 -
F 0.00025 1.00000 1.00000 0.00197 1.00000
Friedman rank sum test
data: Data
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915
Pairwise comparisons using Wilcoxon signed rank exact test
data: df_long$sodio and df_long$tratamento
A B C D E
B 0.47 - - - -
C 0.47 1.00 - - -
D 1.00 0.47 0.47 - -
E 0.47 1.00 1.00 0.47 -
F 0.47 0.47 1.00 0.47 0.94
P value adjustment method: bonferroni
demo_Q.R
Os valores p omnibus obtidos por
PMCMRplus::friedmanTest e friedman.test são
iguais.
Os efeitos populacionais do tratamento sobre a medida de sódio diferem com o uso dos diversos diuréticos para \(\alpha=0.05\).
Usando PMCMRplus::frdManyOneExactTest, o teste
post-hoc que fixa o diurético A como referência, mostra
diferença com C, E e F (é o que deve ser usado de acordo com o enredo
deste exemplo).
Usando PMCMRplus::frdAllPairsExactTest, par a par não é
adequada à pergunta de pesquisa deste exemplo, mas pode ser aplicável a
outras situações e, por isso, foi implementada neste código R (além de
mostrar diferenças entre A e E, A e F, também mostra diferença entre os
diuréticos D e F - note que os valores p mudaram porque mais
testes são feitos nesta segunda forma de teste post-hoc,
modificando a correção por Bonferroni) e a diferença entre A e C
desapareceu nesta comparação par a par. Além disso, usando
pairwise.wilcox.test, o resultado difere substancialmente
de PMCMRplus::frdAllPairsExactTest.
Para comparação, implementamos uma versão de ANOVA unifatorial relacionada que admite valores faltantes, posto que isto acontece com frequência em estudos observacionais (e.g., falta do paciente em uma consulta).
\[ \begin{cases} H_0: \mu_\text{A} = \mu_\text{B} = \cdots =\mu_\text{F}\\ H_1: \text{Pelo menos duas médias populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]
Este procedimento necessita dos dados em formato long, então
a transformação é feita na própria implementação de demo_Q_ANOVA.R:
Paciente Tratamento Sodio
1 1 A 3.88
2 1 B 30.58
3 1 C 25.24
4 1 D 4.44
5 1 E 29.41
6 1 F 38.87
7 2 A 5.64
8 2 B 30.14
9 2 C 33.52
10 2 D 7.94
11 2 E 30.72
12 2 F 33.12
13 3 A 5.76
14 3 B 16.92
15 3 C 25.45
16 3 D 4.04
17 3 E 32.92
18 3 F 39.15
19 4 A 4.25
20 4 B 23.19
21 4 C 18.85
22 4 D 4.40
23 4 E 28.23
24 4 F 28.06
25 5 A 5.91
26 5 B 26.74
27 5 C 20.45
28 5 D 4.23
29 5 E 23.35
30 5 F 38.23
31 6 A 4.33
32 6 B 10.91
33 6 C 26.67
34 6 D 4.36
35 6 E 12.00
36 6 F 26.65
GLMM: omnibus test
Analysis of Deviance Table (Type II Wald F tests with Kenward-Roger df)
Response: Sodio
F Df Df.res Pr(>F)
Tratamento 37.981 5 25 6.769e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Effect Size for ANOVA (Type II)
Parameter | Eta2 (partial) | 95% CI | interpret
----------------------------------------------------------
Tratamento | 0.8837 | [0.7747, 0.9277] | large
Post hoc test: Pairwise Contrasts
contrast estimate SE df lower.CL upper.CL t.ratio p.value
A - B -18.12 2.76 25 -26.62 -9.621 -6.571 <.0001
A - C -20.07 2.76 25 -28.57 -11.571 -7.278 <.0001
A - D 0.06 2.76 25 -8.44 8.558 0.022 1.0000
A - E -21.14 2.76 25 -29.64 -12.646 -7.668 <.0001
A - F -29.05 2.76 25 -37.55 -20.554 -10.536 <.0001
B - C -1.95 2.76 25 -10.45 6.548 -0.707 0.9793
B - D 18.18 2.76 25 9.68 26.676 6.593 <.0001
B - E -3.02 2.76 25 -11.52 5.473 -1.097 0.8779
B - F -10.93 2.76 25 -19.43 -2.436 -3.965 0.0064
C - D 20.13 2.76 25 11.63 28.626 7.300 <.0001
C - E -1.07 2.76 25 -9.57 7.423 -0.390 0.9987
C - F -8.98 2.76 25 -17.48 -0.486 -3.258 0.0339
D - E -21.20 2.76 25 -29.70 -12.706 -7.690 <.0001
D - F -29.11 2.76 25 -37.61 -20.614 -10.558 <.0001
E - F -7.91 2.76 25 -16.41 0.589 -2.868 0.0787
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: tukey method for comparing a family of 6 estimates
P value adjustment: tukey method for comparing a family of 6 estimates
Post hoc test: Reference Level Contrasts contrast estimate SE df lower.CL upper.CL t.ratio p.value
B - A 18.12 2.76 25 10.66 25.6 6.571 <.0001
C - A 20.07 2.76 25 12.61 27.5 7.278 <.0001
D - A -0.06 2.76 25 -7.52 7.4 -0.022 1.0000
E - A 21.14 2.76 25 13.68 28.6 7.668 <.0001
F - A 29.05 2.76 25 21.59 36.5 10.536 <.0001
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: dunnettx method for 5 estimates
P value adjustment: dunnettx method for 5 tests
Tratamento emmean SE df lower.CL upper.CL .group
D 4.90 2.24 23.2 -1.56 11.4 a
A 4.96 2.24 23.2 -1.50 11.4 a
B 23.08 2.24 23.2 16.62 29.5 b
C 25.03 2.24 23.2 18.57 31.5 b
E 26.11 2.24 23.2 19.65 32.6 bc
F 34.01 2.24 23.2 27.55 40.5 c
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: bonferroni method for 6 estimates
P value adjustment: bonferroni method for 15 tests
significance level used: alpha = 0.05
NOTE: If two or more means share the same grouping symbol,
then we cannot show them to be different.
But we also did not show them to be the same.
demo_Q_ANOVA.R
Aqui, da mesma forma que o teste Q de Friedman mostrou, a hipótese nula de igualdade de todos os tratamentos foi rejeitada.
Na versão não-paramétrica havíamos encontrado as seguintes diferenças:
Nesta versão paramétrica, os procedimentos post hoc usam o método de Tukey (comparando todos os tratamentos, par a par) ou Dunnett (que fixa um dos tratamentos como referência - neste exemplo o tratamento A). As diferenças podem ser localizadas numericamente ou graficamente. Os gráficos mostram intervalos de confiança após a aplicação do modelo, i.e., já controlado pela variância intra-indivíduo. O primeiro mostra cada tratamento isoladamente. Os demais espelham os contrastes (em negrito estão os que o teste não-paramétrico também localizou):
O que se segue são várias afirmações de autores diversos que, em função do que vimos até aqui, agora podemos responder ou analisar criticamente.
Os testes não-paramétricos são antigos. Observe as datas de suas publicações originais:
Os testes não-paramétricos não evoluíram.
Enquanto para seus equivalentes paramétricos apareceram soluções multivariadas, controles estatísticos, transformações não lineares e técnicas para contornar as suposições desejadas, desdobrando-se em vários tipos de regressão múltiplas (com várias VIs e uma VD) ou multivariadas (com várias VIs e VDs).
Os testes não-paramétricos receberam poucas alterações e continuaram aplicáveis a delineamentos relativamente mais simples:
Os testes não-paramétricos computam apenas a significância estatística (valor \(p\)), mas não têm procedimentos para a significância prática (tamanho de efeito) que é fundamental para a epidemiologia.
“Toda a informação concernente às magnitudes das observações quantitativas é perdida ao convertê-las em postos (ranks).”
“Os testes Mann-Whitney e Wilcoxon avaliam se existe diferença estatística significativa entre as médias dos postos [sic] de duas condições.”
Parte da confusão acontece porque o método para a execução dos cálculos, utilizando postos (ranks), acaba sendo visto como uma transformação não linear (monotônica e com passos unitários) da própria variável. Há alguns pesquisadores que pensam, então, que as conclusões alcançadas por um teste não-paramétrico é sobre os postos quando, de fato, a variável continua tendo sua natureza intervalar ou ordinal. Os postos são usados como artifício estatístico para comparar duas distribuições.
\[~\]Os testes paramétricos apresentados aqui costumam assumir normalidade da VD na população. Quando esta premissa não é conhecida ou, sabidamente, não é atendida, pesquisadores pensam em indicar testes não-paramétricos, justificando que são distribution free.
É verdade que dados assimétricos e amostras muito pequenas e desbalanceadas causam problemas para os testes paramétricos. No entanto, perturba bastante, também, os testes não-paramétricos.
No entanto, os testes não-paramétricos não servem para qualquer distribuição: prescindem da normalidade da VD, então devem ser lembrados como free of normal distribution. Muitos necessitam das suposições de simetria e de homoscedasticidade das distribuições das VDs nas condições do fator.
Este problema existe quando as amostras são pequenas. Com amostras maiores, a variável de interesse ou de desfecho não precisa ter distribuição normal: o teorema central do limite informa que a distribuição dos estimadores dos parâmetros da VD são aproximadamente normais e os testes paramétricos têm bom desempenho.
Quando há dificuldade em testar a normalidade, pesquisadores usam gráficos para ver o formato da distribuição. O habitual é que usem histogramas, mas nós já apontamos (veja, acima, “Inferência em população normal” -> “Avaliação do formato da distribuição”):
“Histogramas [sic] para as duas condições foram inspecionados separadamente. Como os dados eram assimétricos e o número de participantes pequeno, o teste estatístico mais apropriado foi o de Mann-Whitney.”
\[~\]
\[~\]
“[…] there is the concept that a histogram can be useful with the right parametrization [but] there is no guarantee that the cutoff will fall between bars and the heights of histogram bars may be an illusion affected by the bin sizes […] a histogram, as traditional as it may be, is misleading.”
Afirmam:
“Para um dado número de unidades experimentais no estudo, N, testes paramétricos são mais poderosos do que os não- paramétricos correspondentes, desde que todas as suposições dos testes paramétricos e dos não-paramétricos sejam satisfeitas.”
O teste t de Student tem a suposição de normalidade a mais que o concorrente teste não-paramétrico U de Mann-Whitney; não supondo homocedasticidade, o teste t de Welch concorre com o teste de Brunner-Munzel. Há vezes em que a afirmação de que os testes paramétricos tendem a ser mais poderosos que os não-paramétricos quando suas suposições são atendidas foi transformada no reverso, de que “os testes não-paramétricos são mais poderosos quando as tais suposições não são atendidas.
Ao menos quando a amostra é suficientemente grande, os testes não-paramétricos são quase equivalentes aos paramétricos. Embora não explore amostras pequenas, Prajapati et al. (2010) sugere que talvez os testes não-paramétricos continuem, ainda, perdendo para os paramétricos em quaisquer condições; talvez os resultados sejam confusos ou erráticos. É difícil aferir o que acontece em todas as possíveis combinações de violações de suposições:
No teste U de Mann-Whitney, implementado em
wilcox.test, qualquer valor igual em uma das duas condições
resulta em um empate e impede o cálculo do valor p exato
(parâmetro exact=TRUE), fornecendo o valor assintótico que
pode não ser boa opção com amostras pequenas.
O teste W de Wilcoxon implementado com a mesma função, apresenta o mesmo problema para o cálculo do valor p exato se houver empates das diferenças mas, também, se houver diferenças nulas. Nestes casos a função oferece o cálculo assintótico do valor p, problemático para amostras pequenas. Agrava-se o problema pois os sujeitos com diferenças nulas são eliminados, reduzindo ainda mais o tamanho efetivo da amostra.
Não poder atender às suposições dos testes paramétricos não implica, automaticamente, em atender àquelas dos testes não-paramétricos.
Há quem pense que testes não-paramétricos são robustos a quaisquer condições. A diferença, em geral, é que testes não-paramétricos são um pouco mais permissivos quanto às condições para sua aplicação e, por isso, também menos poderosos.
Os testes não-paramétricos não são métodos estatísticos robustos. Há alternativas para os métodos paramétricos:
Observe o que diz Zimmerman (1998):
A maioria dos artigos na literatura estudam violações isoladas. Este artigo propõe violações simultâneas das suposições de normalidade e homocedasticidade em graus variados, com amostras de tamanhos modestos (de 15 a 40 por grupo) por simulação. Surpreendentemente, os testes paramétricos, ainda assim, saíram-se melhor que seus concorrentes não-paramétricos.
Dancey & Reidy (2019), na defesa dos testes não-paramétricos,
afirmam:
(os negritos são nossos):
“Esses testes (Mann-Whitney e Wilcoxon) são muito mais simples do que os testes t, pois não envolvem [sic] cálculos de médias, desvios-padrão e erros-padrão.”
Em R, muitas vezes, a simplicidade aparente é a mesma; basta escolher o pacote e a função adequada. Anteriormente aos computadores, o cálculo era feito manualmente e esta simplicidade não parece sustentável. Em ambos os mesmos tipos de cálculos eram feitos e, pelo contrário, etapas adicionais e tediosas eram requeridas para computar os testes não-paramétricos.
Para mostrar o cálculo manual, confrontamos um teste U e um teste t. Observe:
Teste U de Mann-WhitneyPara o Teste de Mann-Whitney, o referido cálculo simples para dois grupos, \(A\) e B, implica em: juntar as amostras de diferentes condições experimentais, ordenar os valores preservando a informação do grupo de origem, encontrar os empates e atribuir os postos, voltar os postos de acordo com a condição de origem para somar os postos e encontrar os valores \(U_A\) e \(U_B\), então escolher o valor U mínimo (ou calcular diretamente o valor U) para confrontar com uma tabela (se \(n < 20\)) com \(U_{crítico}\) ou assintoticamente (para \(n \ge 20\)) calcular \(z\) e usar outra tabela, obtendo o valor p. Por exemplo: \[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[ A \cup B = \{288, 283, 120, 119, 432, 274, 890, \\ 119, 43, 153, 854, 588\}\] \[ \text{order}(A \cup B) = \{43, 119, 119, 120, 153, 274, \\ 283, 288, 432, 588, 854, 890 \}\] \[\text{groups, order}(A \cup B) = \{B, A, B, A, B, A, \\ A, A, A, B, B, A \}\] \[\text{Postos} = \{1, 2.5, 2.5, 4, 5, 6, \\ 7, 8, 9, 10, 11, 12 \}\] \[\text{Postos}_A = \{2.5, 4, 6, 7, 8, 9, 12 \}\] \[\text{Postos}_B = \{1, 2.5, 5, 10, 11 \}\] Soma dos postos (de onde vem o nome do teste): \[R_A = 2.5+4+6+7+8+9+12 = 48.5\] \[R_B = 1+2.5+5+10+11 = 29.5\] Calcula-se a estatística de Mann-Whitney: \[ U_A = {n_A n_B + \frac{n_A(n_A+1)}{2} - R_A} = \\ = 7 \cdot 5 + \frac{7(7+1)}{2} - 48.5 = 14.5\] \[ U_B = {n_A n_B + \frac{n_B(n_B+1)}{2} - R_B} = \\ = 7 \cdot 5 + \frac{5(5+1)}{2} - 29.5 = 20.5\] Assume-se \(U = \min(U_A,U_B)\), Alternativamente, para não calcular os dois valores de U, o mesmo resultado pode ser calculado diretamente usando o \(n_{max}\) do grupo com maior \(R\) e os valores \(R_A\) e \(R_B\): \[U = n_A n_B + \frac{n_{max}(n_{max}+1)}{2} - \\ max(R_A,R_B) = \\ = 7 \cdot 5 + \frac{7 \cdot 8}{2} - 48.5 = 14.5\] Para amostras pequenas há tabelas a serem consultadas, verificando-se se o valor U está abaixo ou acima do valor crítico para se tomar a decisão inferencial. Para \(n_A=7\) e \(n_B=5\) o valor crítico é 5. Rejeita-se a hipótese nula quando \(U < U_{crítico}\). Neste exemplo, não se rejeita a igualdade das condições \(A\) e B. Para amostras maiores era recomendado o cálculo assintótico, com mais alguma álgebra para converter em seu equivalente valor \(z\), o paradigma da situação paramétrica; quase um contra-senso! utilizando-se \[z = {\frac{U-\frac{n_A n_B}{2}}{\sqrt{\frac{n_A n_B (n_A + n_B + 1)}{12}} } } = \\ = {\frac{14.5-\frac{7 \cdot 5}{2}}{\sqrt{\frac{7 \cdot 5 (7 + 5 + 1)}{12}} } } = -0.4118\] Aqui vemos que as estatísticas de teste dos testes não-paramétricos também necessitam ter distribuição normal assintótica para qualquer distribuição da VD nas condições do fator. Tendo o valor \(z\) calculado, recorria-se a uma segunda tabela para comparar este valor calculado com as áreas sob a distribuição normal padrão já calculadas para obter o valor p correspondente: Neste exemplo, a tabela fornece o valor p da cauda esquerda que, para \(z=0.41 \Leftrightarrow p_{\text{lower tail}}=0.3409\). Nosso teste é bicaudal, então \(p=2p_{\text{lower tail}}=0.6818\) e não rejeitamos a igualdade entre os grupos \(A\) e B. Mundry & Fischer (1998) comentam que os testes não-paramétricos baseados em valor p assintótico de escore \(z\) provocam rejeição excessiva da hipótese nula e, portanto, busca-se desenvolver implementações com o cálculo exato do valor p. Em R,
implementado com
demo_MWW_AB.R
Teste t para condições independentesPor comparação, no teste t (paramétrico) para duas condições independentes, calcula-se as médias (\(\bar{x}_A\) e \(\bar{x}_B\)) e as variâncias (\(s_a^2\) e \(s_B^2\)) dos dois grupos e calcula-se a estatística t com os seguintes passos: \[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[\bar{x}_A = (288+283+120+119+432+274+890)/7 = 343.7\] \[s_A^2 = \frac{\sum_{i=1}^{7}{(A_i-\bar{x}_A)^2}}{7-1} = 264.1\] \[\bar{x}_B = (119+43+153+854+588)/5 = 351.4\] \[s_B^2 = \frac{\sum_{i=1}^{5}{(B_i-\bar{x}_B)^2}}{5-1} = 352.5\] \[t = { \frac{\bar{x}_A-\bar{x}_B}{ \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A+n_B-2} } \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}} = \\ = { \frac{343.7-351.4}{ \sqrt{\frac{(7-1)264.1 + (5-1)352.5}{7+5-2} } \sqrt{\frac{1}{7}+\frac{1}{5}}}} = -0.4338\] Antes dos computadores recorria-se, também, a uma tabela para comparar este valor calculado com o valor crítico, rejeitando-se a hipótese nula caso o valor \(t > t_{crítico}\). Neste exemplo, como o teste é bicaudal, precisamos encontrar o valor \(t_{crítico}\) associado com \(\alpha/2=0.025\); como \(t < t_{crítico}\) não rejeitamos a igualdade entre os grupos \(A\) e B: Em R,
implementado com
demo_MWW_ABt.R
|
Em Dancey & Reidy (2019) aparece a tabela 1.2, que busca associar os delineamentos dos estudos com os testes estatísticos. Porém…
|
William Jay Conover
http://www.math.ttu.edu/~wconover/ |
After teaching at the U.S. Naval Academy at Annapolis, Iowa State University, Kansas State University, the University of California at Davis, and the University of Zurich (Switzerland), he joined the Math Department at Texas Tech in 1973. From 1978-2015 he was in the TTU Rawls College of Business, becoming the Area Coordinator of Information Systems and Quantitative Sciences. In 2015 Dr. Conover returned to the TTU Department of Mathematics & Statistics. While a member of the Rawls College faculty he won several research awards, including the Barney E. Rushing Distinguished Faculty Research Award from the TTU Parents Association, The Don Owen award from the San Antonio Chapter of the American Statistical Association, and the Wilks Medal from the U. S. Army. [He was elected as a Fellow of the American Statistical Association, and appointed a Paul Whitfield Horn Professor by the Texas Tech Board of Regents, becoming a Horn Professor of Statistics for the Texas Tech Department of Mathematics & Statistics in 2015. […] He was named a Highly Cited Researcher by the ISI Thompson Scientific, and currently has over 38,000 citations to his many books and papers. He is listed in Who’s Who in America, and Who’s Who in the World. |
No entanto, em Conover (1999) aparece esta tabela:
|
Marija Norušis
http://www.norusis.com/about.php |
Marija Norušis obteve o título de Ph.D. em bioestatística pela Universidade de Michigan. Foi a primeira estatística profissional da SPSS. A McGraw-Hill publicou seu primeiro livro, The SPSS Introductory Guide. Desde então, escreveu inúmeros volumes de documentação e livros didáticos altamente reconhecidos sobre SPSS, que desmistificam a estatística e o próprio SPSS. A Dra. Norušis integrou o corpo docente da Universidade de Chicago e da Rush Medical College, ensinando estatística a públicos diversos. Quando não está trabalhando nos guias do IBM SPSS, Marija analisa dados reais como consultora estatística. . For those whose Lithuanian is rusty:“Marija” is pronounced “Maria,” not “Mar-eye-ja.” “Norušis” is pronounced “Norooshis,” not “Neurosis.” |
na página 332, pergunta:
“Se os testes não-paramétricos têm menos suposições sobre os dados, por que não usar apenas eles?”
e responde:
“Os testes paramétricos, tais como t, ANOVA e ANCOVA, são naturalmente robustos para normalidade, desde que a distribuição dos dados seja simétrica e tenha poucos outliers; além disso, se a amostra é grande, o TCL funciona. Os testes não-paramétricos ignoram a informação de distribuição exata dos dados gerando, e.g., IC95% mais largos, i.e., com menos poder, que os paramétricos.”
“O que eu deveria fazer se não estou certo se eu tenho que usar um teste paramétrico ou não-paramétrico?”
resposta:
“Na dúvida, use ambos! Se conseguir a mesma decisão sobre a hipótese nula nos testes paramétrico e não-paramétrico, não há nada com o que se preocupar. Se o teste não-paramétrico é estatisticamente não-significante e o paramétrico é significante, tente descobrir o motivo. Há outliers? Valores influentes? A distribuição da VD nos grupos é simétrica? Normal? Há desbalanceamento? Há heterocedasticidade? Se a VD é intervalar e a amostra é grande, tente transformação potência de Tukey para simetrizar as distribuições da VD nas condições, homegeneizar as variâncias das condições e linearizar as relações entre as variáveis.”
|
\(~\)
“Os testes estatísticos convencionais são geralmente chamados de testes paramétricos.”
“Testes paramétricos são usados com mais frequência do que testes não-paramétricos em muitos artigos médicos”
[sic: Fagerland (2012) mostra empate], porque a maioria dos pesquisadores médicos está familiarizada com eles e os softwares estatísticos oferecem forte suporte para testes paramétricos.
“Testes paramétricos requerem uma suposição importante; a suposição de normalidade, que significa que a distribuição das médias amostrais é normalmente distribuída.”
[sic: distribuição da média amostra é normal por TLC; VD normal é suposição].
“No entanto, o teste paramétrico pode ser enganoso quando essa suposição não é satisfeita.”
[sic: o que vimos nessa aula foi o oposto].
“Nessa circunstância, os testes não-paramétricos são os métodos alternativos disponíveis, pois não exigem a suposição de normalidade.”
[sic: sim, mas têm outras exigências].
“Testes não-paramétricos são os métodos estatísticos baseados em sinais e ranqueamentos.”
[sic: é a confusão entre o que é testado com como é feito seu cálculo].
“Neste artigo, discutiremos os conceitos básicos e o uso prático dos testes não-paramétricos como um guia para o uso adequado.”
[sic: considerando a sequência de equívocos sobre suas indicações, duvidamos que atinja esse objetivo].
“Testes não-paramétricos e testes paramétricos: qual devemos usar? Assim como há mais de uma modalidade de tratamento para uma doença, também existem diversos métodos de análise estatística. Os métodos de análise não-paramétricos são claramente a escolha correta quando a suposição de normalidade é claramente violada […]”
[sic: SKOVLUND, E & FENSTAD, GU (2001): e.g.: MW depende fortemente de distribuições de mesmo formato nos grupos e homocedasticidade da VD que pode ser ordinal, sendo que mesmo para o caso da VD ordinal (e.g., item Likert de 5 pontos), teste t de Student são praticamente equivalentes (Winter & Dodou, 2012) e teste t é tão robusto que ele pode ser recomendado para quase todas as aplicações (Rasch et al., 2007, 2011); W de Wilcoxon depende fortemente da suposição de simetria da diferença da VD nas condições dependentes]
“[…] no entanto, eles nem sempre são a melhor escolha para casos com tamanhos de amostra pequenos porque possuem menor poder estatístico em comparação com as técnicas paramétricas”
[sic: Fagerland (2012): “Testes não-paramétricos são mais úteis para estudos pequenos; em estudos grandes podem fornecer respostas para questões erradas.”] e dificuldades no cálculo do “intervalo de confiança de 95%”, que auxilia na compreensão dos leitores.
“Os métodos paramétricos podem levar a resultados significativos em alguns casos, enquanto os métodos não-paramétricos podem resultar em resultados mais significativos em outros casos”
[sic: usando o R como laboratório vimos que isso é verdade, mas os métodos não-paramétricos erraram mais do que os seus concorrentes paramétricos.].
“Quaisquer que sejam os métodos selecionados, eles devem suportar os argumentos do pesquisador de maneira mais robusta e ajudar na fácil compreensão dos leitores.”
[sic: é a crença equivocada de que métodos não-paramétricos são robustos.]
“Quando os métodos paramétricos são selecionados, os pesquisadores devem garantir que todas as suposições necessárias estejam satisfeitas.”
[sic: suposições são condições suficientes; a eterna testagem das suposições.]
“Caso contrário, é mais válido usar métodos não-paramétricos, pois eles são ‘sempre válidos, mas nem sempre eficientes’ […]”
[sic: teste não-paramétrico tem suposições sobre a VD; e.g.: simetria, homocedasticidade, mesmo formato de distribuição, portanto facilmente podem não ser válidos.]
“[…] enquanto os métodos paramétricos são ‘sempre eficientes, mas nem sempre válidos’.”
[sic: Prajapati et al. (2010): têm eficiência relativa assintótica de 0.955 quando a amostra é suficientemente grande; quando não são válidos, não-paramétricos em geral também não o serão.]
|
\(~\)
“Como escolher entre testes paramétricos e não-paramétricoS?
Quando os tamanhos das amostras são grandes, ou seja, maiores que 100, os testes paramétricos geralmente podem ser aplicados independentemente da distribuição da variável de desfecho.
Isso se deve ao teorema do limite central, que afirma que se o tamanho da amostra for suficientemente grande, a distribuição de uma variável dada é aproximadamente normal.”
[sic: TLC não altera o formato da VD; confunde a distribuição da variável dependente com a distribuição das médias amostrais].
“Quanto mais a distribuição se afasta da normalidade, maior será o tamanho da amostra necessário para aproximar a normalidade.
Quando os tamanhos das amostras são pequenos e as distribuições das variáveis de desfecho são extremamente não normais, os testes não-paramétricos são mais apropriados.
Por exemplo, algumas variáveis são naturalmente enviesadas, como o tempo de permanência no hospital ou o número de exacerbações de asma por ano.
Nestes casos, variáveis extremamente enviesadas devem sempre ser analisadas com testes não-paramétricos, mesmo com grandes tamanhos de amostra.”
[sic: o que será extremamente não normal? ou extremamente enviesadas?].
Além disso, existe confusão entre a distribuição da VD e a aproximação da normalidade da distribuição das médias amostrais que faz parte do teorema central do limite.
Lembrar que:
Dizem Dancey & Reidy (2019), página 502, mas não concordamos:
“Nos capítulos anteriores, você foi apresentado aos testes paramétricos. Os testes paramétricos, como você sabe, têm certas suposições.
Os dados precisam ser obtidos de uma população normalmente distribuída (consulte o Capítulo 5).
Quando você atende aos pressupostos dos testes paramétricos, eles são mais poderosos do que os testes não-paramétricos, e os psicólogos os preferem.
Em muitas situações de pesquisa, não podemos usar testes paramétricos porque nossos dados não atendem às suposições subjacentes ao seu uso.
Por exemplo, podemos ter dados assimétricos ou com tamanhos de amostra muito pequenos ou desiguais - então não teríamos certeza se nossos dados foram extraídos de uma população normalmente distribuída.
Os testes não-paramétricos não fazem suposições sobre os dados e você pode usar com segurança os testes descritos neste capítulo para analisar os dados quando achar que pode não ser capaz de atender às suposições dos testes paramétricos.”
“Estamos somente interessados em U, embora a conversão para um valor-z seja útil, pois o valor-z dá uma medida do tamanho do efeito [sic] (veja a Seção 4.2).” (Dancey & Ready, 2019, p. 511)
O erro principal desta afirmação é confundir o valor \(z\) com tamanho de efeito: NÃO É, pois \(z\) é uma estatística de teste dependente do tamanho do estudo. Uma agravante é que esta é uma aproximação de \(z\) calculada a partir do artifício dos postos.
Você pensa que um cirurgião ficaria confortável em operar sem suposições sobre o paciente?
Você gostaria de ser operado sem que houvesse qualquer suposição sobre seu diagnóstico?
Caso fosse verdadeiro que testes não-paramétricos pudessem prescindir de suposições (que é uma crença generalizada e, esperamos, você não tenha mais)…
… por que, então, alguém pode pensar que a ausência de suposições poderia fazer bem para um procedimento estatístico?
|
\(~\)
|
Conforme, Houaiss Eletrônico (2009): Lenda (substantivo feminino)1 narrativa de caráter maravilhoso em que um fato histórico se amplifica e transforma sob o efeito da evocação poética ou da imaginação popular; legenda 2 m.q. mito (‘relato fantástico’) Ex.: a lenda da cobra-d’água 3 Derivação: por extensão de sentido. tradição popular Ex.: uma cultura com raízes na lenda e não na ciência 4 Derivação: sentido figurado. atitude enganadora, falsa; engodo, fraude, mentira Ex.: as curas apregoadas pelo charlatão eram pura lenda 5 Derivação: sentido figurado. narrativa fastidiosa; ladainha, lenga-lenga. |
Segundo estes autores, para amostras pequenas, na comparação entre os testes t de Student e Satterthwaite/Welch e U de Mann-Whitney (delineamento entre participantes):
A distribuição normal tem dois parâmetros, média (\(\mu\)) e desvio-padrão (\(\sigma\)). Outras características existem, mas não são seus parâmetros: mediana, percentil, moda, intervalo interquartílico, assimetria e curtose, para citar alguns.
Isto fica claro na própria função dnorm(), cuja
documentação mostra:
The Normal Distribution Description Density, distribution function, quantile function and random generation for the normal distribution with mean equal to mean and standard deviation equal to sd. Usage dnorm(x, mean = 0, sd = 1, log = FALSE)
Além do valor solicitado (x) bastam a média
(mean) e o desvio-padrão (sd, standard
deviation) para que a distribuição normal seja completamente
definida.
A VD, além da normal, pode assumir distribuição contínua, discreta ou mista, assimétrica ou simétrica, unimodal ou multimodal, truncada ou não, limitada ou infinita. Várias delas são formalmente definidas por um ou poucos parâmetros; outras são casos particulares, sem propriedades conhecidas. Portanto, a quantidade de distribuições que a VD pode assumir é infinita e variada.
Por exemplo, vamos experimentar com uma distribuição qui-quadrado centrada, cujo domínio se inicia em zero e vai a infinito (assimetria positiva). Esta distribuição tem apenas um parâmetro, os graus de liberdade. Sabe-se que a média destas distribuições qui-quadrado é igual ao número de graus de liberdade (df).
Na distribuição normal, a média se modifica independentemente da variância. Em uma distribuição assimétrica como a qui-quadrado centrada, o comportamento de seu formato é complexo (Hart, 2001), como podemos demonstrar com demo_quiquadrado.R:
Observe que o formato da distribuição se altera quando a média muda: a mediana acompanha a média quase linearmente, a variância aumenta linearmente mas com inclinação maior que a média, enquanto a assimetria e o excesso de curtose reduzem-se (sabe-se que tende a uma distribuição normal). Este resultado é válido, em geral, para distribuições assimétricas.
Porém, uma das suposições fundamentais para que o teste U de Mann-Whitney seja aplicado para comparar medianas populacionais é que as distribuições da VD nos dois grupos sejam iguais. Portanto, ao contrário da crença geral, quando uma condição tem efeito na média ou mediana em VDs com distribuição assimétrica, este teste não-paramétrico pode não ser adequado.
Os testes de hipótese nula não são apenas para os parâmetros de uma distribuição (Landoni et al., 2016). Podem ser comparações das condições experimentais:
Para a média amostral aceita-se, em geral, que o teorema central do limite (TCL) leva a uma distribuição normal das médias amostrais para \(n \ge 30\). Para a discussão dos testes não-paramétricos, qual é o comportamento em relação às medianas amostrais? Implementamos demo_Estatura.R utilizando os dados de estatura dos estudantes do sexo masculino disponibilizados em Adm2008.xlsx:
Nesta saída exibimos o resultado obtido por bootstrapping das médias e das medianas amostrais com \(n=51\) (o tamanho da amostra). Observa-se que a distribuição das médias adere bastante bem à distribuição normal, mas a distribuição das medianas amostrais tem aderência sofrível.
No teste U de Mann-Whitney, temos duas condições independentes:
\[ X_1, X_2, \dots, X_{n_1} \quad \text{e} \quad Y_1, Y_2, \dots, Y_{n_2} \]
provenientes de duas populações distintas.
Sejam as variáveis aleatórias intervalares genéricas:
\[ X \sim F_X \qquad Y \sim F_Y \]
O teste baseia-se na probabilidade
\[ P(X > Y) \]
sendo que \(X\) representa um valor aleatório da primeira população e \(Y\) da segunda.
A hipótese nula é
\[ H_0: P(X > Y) = 0.5 \]
equivalente a
\[ H_0: P(X > Y) = P(X < Y) \]
A interpretação é:
Portanto, \(X\) e \(Y\) representam as variáveis aleatórias das duas condições comparadas no teste.
Há relação direta e bem estabelecida entre o d de Cohen, a área de sobreposição (OVL) e a probabilidade estocástica \(P(X>Y)\).
Suponha \(X \sim N(\mu_1, \sigma)\) e \(Y \sim N(\mu_2, \sigma)\), com variâncias iguais.
O Cohen’s d é
\[ d = \dfrac{\mu_1 - \mu_2}{\sigma} \]
Daí seguem três relações úteis:
\[ P(X > Y) = \Phi\left( \dfrac{d}{\sqrt{2}} \right) \]
onde \(\Phi\) é a CDF da normal padrão.
overlapping::overlap)\[ \text{OVL} = 2\,\Phi\left( -\dfrac{|d|}{2} \right) \]
Exemplo numérico: para \(d = 0.8\),
\[ P(X > Y) = \Phi\left( \dfrac{0.8}{\sqrt{2}} \right) \approx 0.713 \qquad \text{OVL} \approx 2\,\Phi(-0.4) \approx 0.655 \]
Portanto:
Conforme Demidenko (2016), \(P(X>Y)\) é uma medida de tamanho de efeito relaciona com d de Cohen.
Sinal e orientação de \(d\) e de \(P(X>Y)\) O psych::d2CL(d)
devolve a probabilidade de superioridade do grupo com maior
média (usa \(|d|\)). Já o seu
“manual \(P(X>Y)\)” fixa a ordem
\(X\) vs \(Y\).
Logo, se \(d<0\) (significa que o “grupo 2” tem média maior que o “grupo 1”), então
\[ \text{d2CL}(|d|)=\Phi\left(\dfrac{|d|}{\sqrt{2}}\right)=1-\Phi\left(\dfrac{d}{\sqrt{2}}\right)=1-P(X>Y) \]
No seu exemplo: \(d=-2.497\). \(\Phi(d/\sqrt{2})=\Phi(-1.766)\approx
0.0387\) → este é \(P(X>Y)\)
com a orientação que você usou. O d2CL(d) reporta \(0.9613=1-0.0387\) (probabilidade de o grupo
“melhor” ganhar). Não há erro; é apenas convenção de
sinal/orientação.
OVL com \(d\)
vs OVL por integração As fórmulas com \(d\) (e d2OVL) assumem \(\sigma_1=\sigma_2\):
\[ \text{OVL}=2\,\Phi\left(-\dfrac{|d|}{2}\right) \]
Você integrou para \(\sigma_1\neq\sigma_2\) e obteve \(\text{OVL}=0.3159\). Já
d2OVL(d) deu \(0.2118\)
porque está no modelo homocedástico. Diferença esperada.
O que é “interpretação conjunta”
(d2OVL2) É o índice de sobreposição
conjunta (estilo Jaccard): interseção sobre a união. Se \(\text{OVL}\) é a área de interseção (cada
densidade integra a 1), então
\[ \text{OVL}_{\text{conj}} = \dfrac{\text{Interseção}}{\text{União}} = \dfrac{\text{OVL}}{2-\text{OVL}} \]
Com \(\text{OVL}=0.2118\): \(\text{OVL}_{\text{conj}}=0.2118/(2-0.2118)=0.1185\), exatamente o que você encontra na saída.
Resumindo:
– Para comparar com \(P(X>Y)\)
manual, use sempre a mesma orientação (defina quem é \(X\)). – d2CL(d) retorna a
probabilidade de superioridade do grupo de maior média (valor \(\ge 0.5\)). Se quiser \(P(X>Y)\) com uma ordem fixa, use \(\Phi(d/\sqrt{2})\). – d2OVL(d)
e d2OVL2(d) assumem \(\sigma_1=\sigma_2\); com
heterocedasticidade, use integração.
Grupo Media SD
Homens 175.0 7.0
Mulheres 162.0 6.0
Diferença (H−M) 13.0 1.0
Razão (H/M) 1.1 1.2
=== Estimativa probabilística ===
theta_hat = 0.933
IC 95% bootstrap de theta: [0.8992, 0.9612]
theta_teor (Normal) = 0.9207
=== Brunner–Munzel (heterocedástico) ===
statistic = -26.7654, df = 202.075, p-value = 0
=== Mann-Whitney (Wilcoxon rank-sum) ===
p-value = 8.6616e-30
difference in location (Hodges–Lehmann) = 13.4206
IC 95% (HL) = [11.8529, 15.0419]
Parâmetros:
N1 ~ N(175.000, 7.000^2), N2 ~ N(162.000, 6.000^2)
Interseções em x*: 83.5049, 168.4951
Área de sobreposição (OVL) = 0.315886 (31.59%)
Área não sobreposta = 0.684114 (68.41%)
d (Cohen) = -2.497
psych::d2CL(d) = 0.9613 | manual P(X>Y) = 0.0387
psych::d2OVL(d) = 0.2118 | manual OVL = 0.2118
psych::d2OVL2(d) = 0.1185 | (interpretação conjunta)
[Hetero] P(X>Y) = 0.9371 | OVL geral = 0.2788
Se VD é ordinal, não há base teórica ou estatística sólida para supor nem testar simetria. A razão é simples: a simetria é uma propriedade métrica, dependente de distâncias numéricas em torno de um ponto central (mediana, média, etc.). Escalas ordinais só preservam ordem, não diferenças. Assim, não faz sentido afirmar que uma distribuição ordinal é “simétrica” ou “assimétrica”, pois não existe eixo de referência contínuo nem unidade de medida.
Para VD ordinal, o teste U de Mann-Whitney não pode ser formulado em termos de pseudomedianas, porque a definição de pseudomediana requer operações aritméticas \((X + X')/2\) que só fazem sentido em escala intervalar.
Logo, para VD ordinal, a hipótese nula é mais geral:
\[ H_0: P(X > Y) = P(X < Y) \]
ou seja, as distribuições são estocasticamente equivalentes (mesma tendência central ordinal).
A interpretação como teste de pseudomedianas iguais só é válida quando a VD é intervalar.
Tem-se, mais precisamente:
Logo,
\[ P(X>Y) = 0.5 \Longleftrightarrow P(X>Y) = P(X<Y) = 0.5 \]
Se há empates possíveis (\(P(X=Y)>0\)), a forma correta é
\[ H_0: P(X>Y) = P(X<Y) \]
Nesse caso, \(P(X=Y)\) não precisa ser nulo, apenas igual entre grupos.
A hipótese nula para VD intervalar é igualdade de pseudomedianas populacionais ou equivalemente diferença nula de pseudomedianas populacionais (diferença nula de localização estocástica: \(P(X>Y)=0.5\)).
Se as distribuições não são simétricas, o termo location shift, usado nos testes de postos como U de Mann-Whitney, deve ser traduzido como diferença de pseudomedianas.
Em outras palavras:
\[ H_0:\ \theta_1 = \theta_2 \quad\text{versus}\quad H_1:\ \theta_1 \ne \theta_2\\ \alpha=0.05 \]
sendo que \(\theta_j\) é a pseudomediana do grupo \(j=1,2\).
Se as distribuições forem simétricas, a pseudomediana coincide com a mediana, e location shift pode então ser entendido como diferença de medianas.
Demonstração:
Seja \(X\) contínua e simétrica em torno de \(m\), isto é, \(F_X(m+t) = 1 - F_X(m-t)\) para todo \(t \in \mathbb{R}\).
Defina a pseudomediana \(\theta = \operatorname{med}\left(\tfrac{X + X'}{2}\right)\), com \(X'\) i.i.d. de \(X\), e ponha \(Y = \tfrac{X + X'}{2}\).
Como \(X - m\) e \(X' - m\) são i.i.d. simétricas em torno de \(0\), a soma \(S = (X - m) + (X' - m)\) é simétrica em torno de \(0\).
Para variáveis contínuas simétricas, vale \(P(S \le 0) = \tfrac{1}{2}\).
Logo,
\[ F_Y(m) = P\left(Y \le m\right) = P\left(\dfrac{X + X'}{2} \le m\right) = P\left(S \le 0\right) = \dfrac{1}{2} \]
Como \(Y\) é contínua, \(\operatorname{med}(Y) = m\). Portanto,
\[ \theta = m \]
\[\Diamond\]