options(warn=-1)
suppressMessages(library(eiras, warn.conflicts=FALSE))
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(coin, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(emmeans, warn.conflicts=FALSE))
suppressMessages(library(exactRankTests, warn.conflicts=FALSE))
suppressMessages(library(FSA, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(gplots, warn.conflicts=FALSE))
suppressMessages(library(jmv, warn.conflicts=FALSE))
suppressMessages(library(lattice, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lmboot, warn.conflicts=FALSE))
suppressMessages(library(lmerTest, warn.conflicts=FALSE))
suppressMessages(library(multcomp, warn.conflicts=FALSE))
suppressMessages(library(PMCMRplus, warn.conflicts=FALSE))
suppressMessages(library(psych, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(readxl, warn.conflicts=FALSE))
suppressMessages(library(rstatix, warn.conflicts=FALSE))
suppressMessages(library(stats, warn.conflicts=FALSE))
suppressMessages(library(ggstatsplot, warn.conflicts=FALSE))
options(warn=0)
Script R
demo_Confronto_MWW.R
demo_Confronto_t.R
demo_Confronto_t2.R
demo_ConfrontoAmostra_desempenho.R
demo_ConfrontoAmostra.R
demo_ConfrontoAmostras.R
demo_ConfrontoPop.R
demo_ConfrontoTCL.R
demo_HistogramLies.R
demo_KW_ANOVA_Fisher.R
demo_KW_ANOVA_Welch.R
demo_KW_posthoc.R
demo_KW.R
demo_MWW_2.R
demo_MWW_AB.R
demo_MWW_ABt.R
demo_MWW_pm.R
demo_MWW_pm2.R
demo_MWW_pm3.R
demo_MWW_t.R
demo_MWW_tboot.R
demo_MWW_tStudent.R
demo_MWW.R
demo_PseudoMediana.R
demo_Q_ANOVA.R
demo_Q.R
demo_Wilcoxon_t.R
demo_Wilcoxon_tboot.R
demo_Wilcoxon.R
eiras_plotIC.R
eiras.friendlycolor.R
eiras.pseudomediana.R
eiras.shade.polygon.R
eiras.shape.test.R
Arquivo de dados
RPubs
|
|
É uma versão de um teste paramétrico com suposições mais flexíveis sobre a variável de desfecho (VD).
São amplamente utilizados na literatura médica porque são considerados, quando as suposições de normalidade ou homocedasticidade dos testes paramétricos não são atendidas, uma alternativa útil em estudos com amostras pequenas, dados assimétricos ou escalas ordinais. Além disso, são considerados mais robustos a outliers e a desvios das suposições paramétricas, reduzindo o impacto de distribuições não normais na validade dos resultados.
Segundo Francis Sahngun Nahm:
wilcox.test
brunnermunzel::brunnermunzel.permutation.test
wilcox.test
, exactRankTests::wilcox.exact
kruskal.test
,
coin::kruskal_test
,
PMCMRplus::kwAllPairsDunnTest
,
rcompanion::groupwiseMedian
,
ggstatsplot::ggbetweenstats
friedman.test
, pairwise.wilcox.test
,
PMCMRplus::friedmanTest
,
PMCMRplus::frdManyOneExactTest
,
PMCMRplus::frdAllPairsExactTest
Vamos, aqui, supor duas subpopulações (normocolesterolêmicos e hipercolesterolêmicos) e que, populacionalmente, sejam as seguintes as distribuições de colesterol total. A análise integral (impossível na prática) das duas subpopulações hipotéticas …
-----------
Populacao 1
-----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 11000.0000
mean 153.0875
median 144.8302
mode 139.1872
pseudomedian 148.9518
------------
- quartiles:
------------
Q1(min) 65.37866
Q2 129.83152
Q3(median) 144.83024
Q4 168.37434
Q5(max) 273.43297
----------------------
- dispersion measures:
----------------------
st.dev 32.86514
IQR 38.54282
-----------
- skewness:
-----------
Skewness 0.8693103
skwns.lower 0.8383607
skwns.upper 0.9043959
------------------
- kurtosis excess:
------------------
Kurtosis 0.08079561
krts.lower -0.02247742
krts.upper 0.17978811
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 36.696, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5000
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92888, p-value < 2.2e-16
-----------
Populacao 2
-----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 12000.0000
mean 203.4780
median 210.9088
mode 230.1973
pseudomedian 207.7071
------------
- quartiles:
------------
Q1(min) 44.16338
Q2 179.58677
Q3(median) 210.90879
Q4 238.07422
Q5(max) 325.06323
----------------------
- dispersion measures:
----------------------
st.dev 46.92544
IQR 58.48745
-----------
- skewness:
-----------
Skewness -0.7355170
skwns.lower -0.7624642
skwns.upper -0.7050803
------------------
- kurtosis excess:
------------------
Kurtosis 0.06835507
krts.lower -0.00838759
krts.upper 0.14666366
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -23.429, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5000
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.95414, p-value < 2.2e-16
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 1 1092.8 < 2.2e-16 ***
22998
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
demo_ConfrontoPop.R
… mostra que as distribuições da variável de interesse para normocolesterolêmicos e hipercolesterolêmicos, respectivamente:
DescTools::Skew
)
lawstat::symmetry.test
): p <<
0.0001 e p << 0.0001DescTools::Kurt
) — a
distribuição normal é mesocúrtica
shapiro.test
): p=8.48e-44 e
p=4.71e-38car::leveneTest
): p=3.65e-234
|
|
Histogramas são habitualmente empregados para avaliar o formato da distribuição de uma variável intervalar, mas o gráfico apresentado acima mostra density plots. Esta escolha tem motivo.
Um exemplo (Behrens and Yu, 2003) fornece a seguinte série numérica:
\[x = \{1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10,10,11,11\}\]
Qual dos seguintes histogramas corresponde à distribuição de \(x\)?
demo_HistogramLies.R
Interessantemente, todos os histogramas foram obtidos com estes mesmos valores de \(x\), pois:
Não usamos histogramas!
Não temos acesso à população, mas podemos simular, como se tivéssemos, para verificar quando os testes estatísticos são capazes de fornecer a resposta correta (neste exemplo, detectar que há diferença entre o colesterol total dos normo e hipercolesterolêmicos) a partir de amostras.
Duas amostras retiradas da população hipotética são:
---------
Amostra 1
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.0000
mean 169.7634
median 148.7457
mode 145.0446
pseudomedian 178.6544
------------
- quartiles:
------------
Q1(min) 139.1742
Q2 143.0954
Q3(median) 148.7457
Q4 201.7061
Q5(max) 221.3430
----------------------
- dispersion measures:
----------------------
st.dev 38.96966
IQR 58.61067
-----------
- skewness:
-----------
Skewness 0.5100338
skwns.lower -0.5630817
skwns.upper 1.3466384
------------------
- kurtosis excess:
------------------
Kurtosis -1.95588010
krts.lower -2.30286553
krts.upper -0.09514944
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.9745, p-value = 0.04832
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.73547, p-value = 0.01431
---------
Amostra 2
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 8.0000
mean 213.1767
median 222.9184
mode 250.4468
pseudomedian 210.2412
------------
- quartiles:
------------
Q1(min) 160.2437
Q2 169.8988
Q3(median) 222.9184
Q4 253.6487
Q5(max) 254.5259
----------------------
- dispersion measures:
----------------------
st.dev 43.32652
IQR 83.74987
-----------
- skewness:
-----------
Skewness -0.1312085
skwns.lower -1.8101108
skwns.upper 1.0812654
------------------
- kurtosis excess:
------------------
Kurtosis -2.0946197
krts.lower -2.2234786
krts.upper 0.8208881
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.7437, p-value = 0.4571
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 8
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.79045, p-value = 0.0226
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 1 0.7525 0.4027
12
demo_ConfrontoAmostra.R
Os resultados indicam:
DescTools::Skew
): [-0.563, 1.347] e [-1.81, 1.081]lawstat::symmetry.test
): p=0.04832 e
p=0.4571DescTools::Kurt
)
shapiro.test
): p=0.01431 e
p=0.0226car::leveneTest
): p=0.4027Assumimos, portanto, que temos duas condições independentes e, a partir das amostras, concluímos que a variável de interesse não tem distribuição normal nas duas condições. As hipóteses nulas de simetria (exceto por um dos testes) e homocedasticidade não foram rejeitadas, mas as amostras são de tamanho pequeno.
Neste tipo de situação espera-se o desempenho superior de testes não paramétricos, tidos como opções robustas e que prescindem das suposições exigidas pelos seus correspondentes paramétricos (no caso, testes t).
Este é o teste mais tradicional, e mostra:
Teste U de Mann-Whitney Convencional:
Wilcoxon rank sum test with continuity correction
data: amostra1 and amostra2
W = 8, p-value = 0.04539
alternative hypothesis: true location shift is not equal to 0
demo_Confronto_MWW.R
Rejeitando a hipótese nula e indicando diferença da média de colesterol populacional dos dois grupos.
Versão melhorada, publicada em 2000, obtém:
Teste U de Mann-Whitney Convencional:
permuted Brunner-Munzel Test
data: amostra1 and amostra2
p-value = 0.0373
sample estimates:
P(X<Y)+.5*P(X=Y)
0.8333333
demo_Confronto_B.R
Também rejeita corretamente a hipótese nula, indicando diferença da média de colesterol populacional dos dois grupos.
O teste t de Student (que supõe normalidade da variável na população e, portanto, não é o mais indicado aqui) mostra:
Teste t de Student:
Two Sample t-test
data: amostra1 and amostra2
t = -1.9339, df = 12, p-value = 0.07706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-92.324621 5.497896
sample estimates:
mean of x mean of y
169.7634 213.1767
demo_Confronto_t.R
O teste t de Student não foi capaz de rejeitar a hipótese nula de igualdade entre as médias (i.e., não temos elementos para dizer que 169.76 mg/dl é estatisticamente diferente de 213.18 mg/dl).
O teste t de Welch/Satterthwaite mostra:
Teste t de Welch/Satterthwaite:
Welch Two Sample t-test
data: amostra1 and amostra2
t = -1.9657, df = 11.505, p-value = 0.07393
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-91.763377 4.936652
sample estimates:
mean of x mean of y
169.7634 213.1767
demo_Confronto_t2.R
Este teste modifica os graus de liberdade levando em conta a heterocedasticidade e, com isso, tem outro valor p. No entanto, não se alterou a decisão: não se rejeita a igualdade da média de colestetol total dos dois grupos.
Aparentemente, então, tudo está bem e reforçamos a noção de que os testes não paramétricos correspondentes ao teste \(t\) foram capazes de indicar o que sabemos ser a resposta correta, pois simulamos as subpopulações. Além disso, os dois testes paramétricos correspondentes falharam em detectar a diferença de média de colesterol entre os grupos.
Este foi um exemplo cuidadosamente escolhido, no qual a resposta foi incorreta para as duas versões de testes t a correta para os testes U e B.
|
Vamos usar o R como um laboratório, verificando o que acontece com os testes em diversas tentativas. Neste procedimento 20000 pares de reamostragens são feitas e, para cada uma das tentativas aplicamos os testes U, Brunner-Munzel, t de Student e t de Welch/Satterthwaite, obtendo: |
Simulação com total de 20000 amostragens.
Tabela de contingencia (concordancia entre os testes):
U MWW:H1 U MWW:H0
t Student:H1 9222 1443
t Student:H0 377 8958
Teste da concordância entre U MWW e t Student:
H0: G = 0
H1: G <> 0
G = 0.818
z = 115.6827, p = 0
Conclusão: há concordância entre os testes U MWW e t Student.
Tabela de contingencia (concordancia entre os testes):
U MWW:H1 U MWW:H0
t Welch:H1 9332 1751
t Welch:H0 267 8650
Teste da concordância entre U MWW e t Welch:
H0: G = 0
H1: G <> 0
G = 0.7982
z = 112.8825, p = 0
Conclusão: há concordância entre os testes U MWW e t Welch.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
t Student:H1 9367 1298
t Student:H0 492 8843
Teste da concordância entre Brunner-Munzel e t Student:
H0: G = 0
H1: G <> 0
G = 0.821
z = 116.1069, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e t Student.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
t Welch:H1 9495 1588
t Welch:H0 364 8553
Teste da concordância entre Brunner-Munzel e t Welch:
H0: G = 0
H1: G <> 0
G = 0.8048
z = 113.8159, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e t Welch.
Tabela de contingencia (concordancia entre os testes):
Brunner-Munzel:H1 Brunner-Munzel:H0
U MWW:H1 9544 55
U MWW:H0 315 10086
Teste da concordância entre Brunner-Munzel e U MWW:
H0: G = 0
H1: G <> 0
G = 0.963
z = 136.1888, p = 0
Conclusão: há concordância entre os testes Brunner-Munzel e U MWW.
Tabela de contingencia (concordancia entre os testes):
t Welch:H1 t Welch:H0
t Student:H1 10458 207
t Student:H0 625 8710
Teste da concordância entre t Welch e t Student:
H0: G = 0
H1: G <> 0
G = 0.9168
z = 129.6551, p = 0
Conclusão: há concordância entre os testes t Welch e t Student.
Proporcao de Rejeicoes corretas:
t de Student: 0.53325
t de Welch: 0.55415
U de Mann-Whitney: 0.47995
Brunner-Munzel: 0.49295
Diferencas:
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(U MWW) = 0
H1: p(t Student)-p(U MWW) <> 0
est lwr.ci upr.ci
[1,] 0.0533 0.04351012 0.06307922
Conclusão: a proporção de rejeições corretas pelo t Student é superior à do U MWW.
Teste da diferença de proporcao de sucessos:
H0: p(t Welch)-p(U MWW) = 0
H1: p(t Welch)-p(U MWW) <> 0
est lwr.ci upr.ci
[1,] 0.0742 0.06442597 0.08395919
Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do U MWW.
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(Brunner-Munzel) = 0
H1: p(t Student)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] 0.0403 0.03050797 0.05008398
Conclusão: a proporção de rejeições corretas pelo t Student é superior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(t Welch)-p(Brunner-Munzel) = 0
H1: p(t Welch)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] 0.0612 0.05142381 0.07096395
Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(U MWW)-p(Brunner-Munzel) = 0
H1: p(U MWW)-p(Brunner-Munzel) <> 0
est lwr.ci upr.ci
[1,] -0.013 -0.0227936 -0.003203797
Conclusão: a proporção de rejeições corretas pelo U MWW é inferior à do Brunner-Munzel.
Teste da diferença de proporcao de sucessos:
H0: p(t Student)-p(t Welch) = 0
H1: p(t Student)-p(t Welch) <> 0
est lwr.ci upr.ci
[1,] -0.0209 -0.0306576 -0.01113822
Conclusão: a proporção de rejeições corretas pelo t Student é inferior à do t Welch.
demo_ConfrontoAmostra_desempenho.R
Os testes são concordantes entre si (usando a medida de concordância
G de Holley e Guilford, 1964), mas a comparação da proporção de
rejeições da hipótese nula de igualdade das amostras
(DescTools::BinomDiffCI
) mostra que ambos os testes
t, de Student e de Welch/Satterthwaite têm desempenho
significantemente superiores aos testes U de Mann-Whitney e
B de Brunner-Munzel.
Falsa aparência? |
|
Os testes paramétricos usam variáveis intervalares ou de razão (números) para comparar distribuições da variável dependente (VD) em duas ou mais condições (e.g., grupos, exposições, condições experimentais) e, assim, testar a hipótese nula de igualdade das médias.
Os testes não-paramétricos, em geral, usam os postos (ranks) para chegar a uma decisão estatística.
\[~\] Não são os postos que estão em comparação Por causa do procedimento não-paramétrico empregar postos, é muito comum se afirmar que estes testes avaliam e decidem em relação à uma hipótese nula formulada sobre os postos. Não é assim. O posto (rank) da variável de desfecho (VD) é um artifício estatístico (estatística de ordem) para comparar distribuições da VD nas condições e assim testar a hipótese nula.
Posto é impostor!
As conclusões de um teste não paramétrico NÃO são sobre os postos, mas sobre a VD em sua forma original. A VD continua tendo sua natureza intervalar ou ordinal. |
demo_ConfrontoAmostrasRank.R
ou observar como ficariam amostras 10 vezes maiores…
demo_ConfrontoAmostrasRank2.R
Henry Bertold Mann (1905 - 2000)
https://math.osu.edu/about-us/history/henry-berthold-mann |
Matemático, desenvolveu o teste U que recebe seu nome em conjunto com seu aluno de doutorado, Donald Ransom Whitney. O teste de soma de postos, inicialmente proposto por Wilcoxon em 1945, previa apenas amostras de igual tamanho; foi generalizado por Mann e Whitney para tamanhos arbitrários de amostra em 1947. |
Entrou para a Ohio State University em 1946, como professor assistente do Departamento de Matemática. Colaborou com Henry Mann para desenvolver o teste que levou seus nomes. Envolveu-se na criação de métodos de computação numérica, um predecessor do Instructional Research Computer Center. Teve papel importante em estabelecer estatística como um departmento separado da Matemática in 1973. |
Donald Ransom Whitney (1915-2007) |
Edgar Brunner (1943- )
https://www.researchgate.net/profile/Edgar_Brunner |
Universitätsmedizin Göttingen · Department of Medical Statistics Matemático alemão, formado em 1969 pela Rheinisch-Westfälische Technische Hochschule, com doutorado em matemática pela mesma universidade em 1971 e habilitação em estatística médica em 1973. Foi professor universitário de 1976 a 2009 e diretor do Departamento de Estatística Médica do Centro de Tecnologia da Informação, Estatística e Epidemiologia do Centro Médico Universitário de Göttingen. |
Georg-August-Universität Göttingen. Obteve seu doutorado nesta universidade em 1996 com a tese Multivariate nichtparametrische Verfahren für feste Faktoren in mehrfaktoriellen Versuchsanlagen (Métodos não paramétricos multivariados para fatores fixos em sistemas experimentais multifatoriais), orientado por Edgar Brunner, com quem também publicou Nichtparametrische Datenanalyse: Unverbundene Stichproben (Statistik und ihre Anwendungen) (Análise de dados não paramétricos: amostras não pareadas (estatísticas e suas aplicações)), em 2002, do qual localizei apenas o original em alemão. Não conseguimos, até o momento, mais informações a seu respeito, nem se está ativo.
Informação obtida de https://www.mathgenealogy.org/id.php?id=27718
|
|
Como o teste U de Mann-Whitney é generalização de uma proposta original de Wilcoxon, existe uma confusão com os nomes destes testes na literatura. É encontrado como:
O teste U testa a hipótese nula de igualdade das medianas populacionais da VD ordinal ou intervalar em duas condições independentes, portanto é o correspondente não-paramétrico do teste t de Student.
O teste B de Brunner-Munzel (2000) é conhecido também como Teste de Mann-Whitney-Wilcoxon generalizado. É o correspondente ao teste t de Welch/Satterthwaite e, portanto, relaxa a suposição de homocedasticidade (Fagerland, 2012).
Supõe, para a VD nas duas condições independentes (Conover, 1999):
|
|
Se houver simetria, é indiferente formular a hipótese nula como diferença de médias ou medianas, mas resultados diferentes serão esperados com distribuições assimétricas (Fagerland e Sandvik, 2009). Supondo que são testes de igualdade de medianas populacionais, deveríamos formular:
\[\begin{align} H_0&: \text{mediana}_A = \text{mediana}_B\\ H_1&: \text{mediana}_A \ne \text{mediana}_B\\ \alpha&=0.05 \end{align}\]
Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).
As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco,
3=Medianamente, 4=Muito, 5=Totalmente simpático.
Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert (VD ordinal). É, portanto, possível indicar um teste não-paramétrico como solução.
Os testes de Mann-Whitney-Wilcoxon e de Brunner-Munzel foram
implementados em demo_MWW.R
para comparação. Os testes
feitos aqui são
wilcox.test
,exactRankTests::wilcox.exact
coin::wilcox_test
lawstat::brunner.munzel.test
.Obtém-se:
Com treino: 2 3 3 3 3 3 4 4 4 5
mediana = 3
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
mediana = 3
Diferenca das medianas amostrais (Com treino - Sem treino) = 0
Teste U de Mann-Whitney Convencional (homocedástico):
Wilcoxon rank sum test
data: Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
9.544709e-06 1.999935e+00
sample estimates:
difference in location
1
Teste U de Mann-Whitney Exato (homocedástico):
Exact Wilcoxon rank sum test
data: SemTreino and ComTreino
W = 30.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
-2 0
sample estimates:
difference in location
-0.5
Teste U de Mann-Whitney Bootstrapping (homocedástico):
Approximative Wilcoxon-Mann-Whitney Test
data: Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04868
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0 1
sample estimates:
difference in location
1
Teste B de Brunner-Munzel (heterocedástico):
Brunner-Munzel Test
data: SemTreino and ComTreino
Brunner-Munzel Test Statistic = 2.5443, df = 18.934, p-value = 0.01983
95 percent confidence interval:
0.5435583 0.9481084
sample estimates:
P(X<Y)+.5*P(X=Y)
0.7458333
demo_MWW.R
Com ambos os testes rejeita-se a hipótese nula de que as medianas populacionais são iguais para \(\alpha=0.05\).
Como se explica, se estamos comparando medianas dos dois grupos, que as medianas dos grupos neste exemplo sejam numericamente iguais, mas os testes encontrem diferença estatisticamente significante?
Vamos utilizar demo_MWW_2.R
para observar as
distribuições das respostas:
Dados:
Treino Simpatia
1 Com 2
2 Com 3
3 Com 3
4 Com 3
5 Com 3
6 Com 3
7 Com 4
8 Com 4
9 Com 4
10 Com 5
11 Sem 1
12 Sem 2
13 Sem 2
14 Sem 2
15 Sem 2
16 Sem 3
17 Sem 3
18 Sem 3
19 Sem 3
20 Sem 3
21 Sem 3
22 Sem 4
Intervalos de confiança 95%:
Treino n Median Boot.median Conf.level Percentile.lower Percentile.upper
1 Com 10 3 3.26 0.95 3 4
2 Sem 12 3 2.71 0.95 2 3
demo_MWW_2.R
Qual, então, foi a hipótese nula testada?
“Contrary to common belief, the Mann-Whitney U test does not compare the medians between groups. This is only true under the assumption that the distribution has the same shape in both groups and differs only by its location.”Os testes U e B, de alguma maneira, são afetados pelas diferenças nas distribuições.
Hodges–Lehmann estimator: Wikipedia
A pseudomediana é uma medida de tendência central (uma alternativa às mais tradicionais como média e mediana) que serve rigorosamente para variável intervalar, mas que pode ser usada para variável ordinal em algumas situações (e.g., item Likert ou diferencial semântico). Quando a distribuição é simétrica, esta medida coincide com as outras medidas. No entanto, quando a distribuição é assimétrica, ela é diferente da mediana e da média.
A função DescTools::HodgesLehmann
calcula a
pseudomediana:
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
mediana = 3
pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
mediana = 3
pseudomediana = 2.5
Location shift = 1
Wilcoxon rank sum test
data: Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
9.544709e-06 1.999935e+00
sample estimates:
difference in location
1
demo_MWW_pm.R
“the HL [the Hodges-Lehmann] estimation method [provides a estimative of] location shift model.”
“the HL-estimator estimates the difference of median if the distributions of the two samples are symmetric about their respective medians.”
A pseudomediana é obtida pela mediana das médias (Walsh averages) de todas as possíveis combinações dos pares de valores amostrais, incluindo cada elemento consigo mesmo.
|
|
Como alternativa à função DescTools::HodgesLehmann
,
implementamos demo_MWW_pm2.R
para o exemplo das atendentes de telemarketing,
computando-se:
Com treino: 2 3 3 3 3 3 4 4 4 5
pares: 55 combinações possíveis
pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
pares: 78 combinações possíveis
pseudomediana = 2.5
demo_MWW_pm2.R
Finalmente, também podemos ver como a pseudomediana seria obtida por bootstrapping, o que também fornece os intervalos de predição de 95%:
demo_MWW_pm3.R
Os testes U e B, portanto, são testes de shift, do qual a pseudomediana é uma medida. As hipóteses nulas, então, precisam ser reescritas:
\[\begin{align} H_0&: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1&: \text{pseudomediana}_A \ne \text{pseudomediana}_B\\ \alpha&=0.05 \end{align}\]
|
|
|
|
Embora não seja o mais indicado, o teste t de Student assume distribuição normal e homocedasticidade populacionais. Além disto não serve para variáveis ordinais.
Desconsiderando tais premissas, por exercício, vamos supor que o item Likert é uma variável intervalar (numérica) e, portanto, aplicamos o teste t.
\[\begin{align} H_0&: \mu_A = \mu_B\\ H_1&: \mu_A \ne \mu_B\\ \alpha&=0.05 \end{align}\]
A implementação em demo_MWW_tStudent.R
obtém:
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
d.p. = 0.7929615
n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
d.p. = 0.843274
n = 10
Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667
Two Sample t-test
data: ComTreino and SemTreino
t = 2.3374, df = 20, p-value = 0.02992
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.08786362 1.54546971
sample estimates:
mean of x mean of y
3.400000 2.583333
demo_MWW_tStudent.R
Observe que as hipóteses nulas de simetria foram rejeitadas para as duas condições (premissa para o teste U, mas não para o teste B), embora normalidade não tenha sido rejeitada (os testes nem sempre são consistentes entre si). Além disto, os dois grupos não podem ser considerados heterogêneos em variância pela avaliação com estas amostras (homocedasticidade é premissa para o teste t de Student, mas não para o t de Welch).
Apesar de violarmos parte de suas premissas, a conclusão é a mesma que conseguimos com os testes não-paramétricos: rejeita-se a hipótese nula de igualdade de escores dos grupos ‘Sem Treino’ e ‘Com Treino’.
|
|
Este teste t faz as correções necessárias para
heterocedasticidade, na medida do necessário. As premissas são
verificadas novamente porque a função shape.test
, de nossa
autoria, é chamada nos dois scripts (por completude).
Com a implementação em demo_MWW_t.R
obtemos:
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
media = 2.583333
d.p. = 0.7929615
n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
media = 3.4
d.p. = 0.843274
n = 10
Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667
Welch Two Sample t-test
data: ComTreino and SemTreino
t = 2.3238, df = 18.799, p-value = 0.03151
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.08056125 1.55277209
sample estimates:
mean of x mean of y
3.400000 2.583333
$emmeans
Treino emmean SE df lower.CL upper.CL
Com 3.40 0.258 20 2.86 3.94
Sem 2.58 0.236 20 2.09 3.07
Confidence level used: 0.95
$contrasts
contrast estimate SE df t.ratio p.value
Com - Sem 0.817 0.349 20 2.337 0.0299
demo_MWW_t.R
O valor p mudou um pouco (observe, também, os graus de
liberdade, que agora são fracionários), mas a conclusão é a mesma. Além
das mesmas premissas avaliadas pelo teste t de Student, este
script adiciona as médias marginais estimadas
(emmeans
), que trazem os intervalos de confiança corrigidos
após a aplicação do modelo estatístico.
A principal diferença em relação ao teste t de Student é que o teste t de Welch (Satterthwaite) é robusto à heterocedasticidade (mas, neste exemplo, a homocedasticidade foi testada e não rejeitada).
Em comparação com seus correspondentes não paramétricos, o teste t tem hipótese nula mais clara: a inferência é sobre as médias populacionais da Simpatia, que é maior no grupo com treinamento.
Duas formas de executar o mesmo teste por bootstrapping
estão implementadas em demo_MWW_tboot.R
:
Obtém-se:
One sample t test (1e+05 reamostragens, bootstrapping pivotal)
Intervalo de confiança 95% e mediana:
2.5% 50% 97.5%
0.02803798 0.81666667 1.51673185
Independent One-way ANOVA (1e+05 reamostragens, funcao lmboot::ANOVA.boot)
F(1,20) = 5.35823, p = 0.03137
demo_MWW_tboot.R
As conclusões são, novamente, as mesmas que conseguimos com os testes anteriores (rejeitando-se a igualdade de médias entre os grupos ‘Sem Treino’ e ‘Com Treino’):
lmboot::ANOVA.boot
,
retornando valor p que usamos, reversamente, para encontrar o
valor \(F\) observado com a função
qf
(nativa do R: dada a probabilidade e os graus de
liberdade, retorna a estatística \(F\)
correspondente).
Frank Wilcoxon (1892 - 1965)
|
Tornou-se conhecido por ter desenvolvido dois testes muito utilizados: o
Teste de Soma de Postos (Wilcoxon Rank Sum Test), que é
equivalente ao teste U de Mann-Whitney, e o Teste de Postos com
Sinais (Wilcoxon Signed Rank Test).
Rosner (1995)
|
O nome deste teste pode ser encontrado como:
O teste W de Wilcoxon testa a hipótese nula de igualdade das médias populacionais da VD quantitativa em duas condições dependentes. É, portanto, correspondente ao teste t relacionado.
Conover (1999) sumariza as suposições:
A VD não pode ser, consequentemente, ordinal.
Wilcoxon , 1945
Sobre o formato da distribuição, a restrição é forte: este teste não deve ser usado se não estiver claro que a distribuição das diferenças entre os pares de medidas tem distribuição simétrica (Munzel, 1999).
Enfermeiros receberam um questionário que media o nível de simpatia com pacientes que sofrem de esclerose múltipla (EM). Para cada enfermeiro, um escore total INTERVALAR que varia entre 1 e 10 foi observado. Os enfermeiros então participaram de um grupo de discussão (uma hora), que incluía pacientes com EM. Mais tarde, um questionário parecido foi dado novamente a eles.
Trata-se, portanto, de um delineamento intraparticipantes, pois os mesmos participantes estão sendo medidos nas condições “antes” e “depois”. Nossa hipótese é de que haverá uma mudança significante entre os escores dos dois questionários aplicados, de modo que estes sejam diferentes (maiores) após a participação no grupo de discussão.
\[\begin{align} H_0&: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} = 0\\ H_1&: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} \ne 0\\ \alpha&=0.05 \end{align}\]
Os dados estão em Simpatia.xlsx
. O teste, que utiliza a
diferença entre os escores obtidos de cada enfermeiro entre os dois
momentos estudados, está implementado em demo_Wilcoxon.R
:
Antes Depois
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
----------
Diferencas
----------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 10.0000000
mean 1.7000000
median 1.5000000
mode 0.6912619
pseudomedian 1.5000000
------------
- quartiles:
------------
Q1(min) -1.00
Q2 0.25
Q3(median) 1.50
Q4 3.00
Q5(max) 4.00
----------------------
- dispersion measures:
----------------------
st.dev 1.766981
IQR 2.750000
-----------
- skewness:
-----------
Skewness -0.02610158
skwns.lower -0.82720157
skwns.upper 0.82739979
------------------
- kurtosis excess:
------------------
Kurtosis -1.6457394
krts.lower -1.9740000
krts.upper -0.1579402
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.44529, p-value = 0.6561
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 10
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.93041, p-value = 0.4519
Grafico guardado em image/densDifs_W.png
Teste W de Wilcoxon Convencional:
Wilcoxon signed rank test
data: Depois and Antes
V = 34, p-value = 0.024
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
0.9999672 3.5000396
sample estimates:
(pseudo)median
2.170837
Teste W de Wilcoxon Exato:
Exact Wilcoxon signed rank test
data: Depois and Antes
V = 34, p-value = 0.03125
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
0.5 4.0
sample estimates:
(pseudo)median
2.25
demo_Wilcoxon.R
Este é o density plot das diferenças obtido com os valores amostrais:
Concluímos que a média das notas recebidas pelos enfermeiros após
grupo de discussão diferem para \(\alpha=0.05\); podemos dizer que aumentaram
porque Depois-Antes
é maior que zero.
|
|
Sendo a variável numérica, uma forma simples de se obter o teste t para medidas repetidas é, meramente, fazer um teste t com um único conjunto de dados: a diferença Depois-Antes observada em cada enfermeiro. Como o teste W de Wilcoxon utiliza também variáveis intervalares, a hipótese nula pode ser escrita da mesma forma ou, como alguns preferem, para explicitar que o conjunto de dados é único, utilizar a diferença computada por \(\mu_D = \mu_\text{Depois} - \mu_\text{Antes}\) para expressar:
\[\begin{align} H_0&: \mu_D = 0\\ H_1&: \mu_D \ne 0\\ \alpha&=0.05 \end{align}\]
Implementamos demo_Wilcoxon_t.R
. Obtém-se:
# A tibble: 10 × 2
Antes Depois
<dbl> <dbl>
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
-------
Teste t
-------
One Sample t-test
data: v
t = 3.0424, df = 9, p-value = 0.01396
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.4359779 2.9640221
sample estimates:
mean of x
1.7
demo_Wilcoxon_t.R
A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo.
Utilizando-se bootstrapping pivotal, o resultado é:
# A tibble: 10 × 2
Antes Depois
<dbl> <dbl>
1 5 7
2 6 6
3 2 3
4 4 8
5 6 7
6 7 6
7 3 7
8 5 8
9 5 5
10 5 8
media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7
One-sample t test (1e+05 replicates)
2.5% 50% 97.5%
0.4089866 1.7000000 3.0211138
demo_Wilcoxon_tboot.R
A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo. Esta decisão é tomada pelo intervalo de confiança 95%, que não inclui e está à direita do valor nulo.
Filho de Lillian Oppenheimer, pioneira e difusora do origami nos Estados Unidos. Irmão dos também matemáticos Joseph Kruskal e Martin Kruskal. Estudou matemática na Universidade Harvard, e obteve o doutorado em 1955 na Universidade Columbia. Foi mais tarde professor da Universidade de Chicago. De 1958 a 1961 foi editor do Annals of Mathematical Statistics. Em 1971 foi presidente do Institute of Mathematical Statistics, e em 1982 presidente da American Statistical Association. Em 1990 tornou-se professor emérito. |
https://arxiv.org/pdf/0710.5063.pdf |
W. Allen Wallis (1912 - 1998)
https://www.wallis.rochester.edu/about/wallis.html |
Estatístico americano. Wallis formou-se em psicologia pela Universidade de Minnesota em 1932. Ele então estudou economia em Minnesota e na Universidade de Chicago. Posteriormente, ele ocupou cargos nos departamentos de economia em nas Universidades de Columbia, Yale e Stanford. De 1946 a 1962, ele foi Professor de Estatística na Business School of Chicago University. Seu artigo com Kruskal sobre o teste H de Kruskal-Wallis foi publicado em 1952. De 1951 a 1959, ele foi Editor do Journal of the American Statistical Association. Em 1962 mudou-se para a Universidade de Rochester (1975–82). Após a aposentadoria da vida universitária, foi nomeado subsecretário de Estado para os Assuntos Econômicos (até 1989). Ele foi agraciado com o Prêmio Wilks da ASA em 1980. |
Testa a hipótese nula de igualdade das pseudomedianas populacionais da VD ordinal ou intervalar em três ou mais condições independentes. Corresponde, portanto, à ANOVA unifatorial independente de Fisher (homocedástica).
O teste supõe homocedasticidade.
Pesquisadores, como parte de seu projeto conjunto do ano sobre a utilidade da terapia para pessoas que sofrem de enxaqueca, distribuíram aleatoriamente 18 pessoas que sofrem de enxaqueca em três grupos:
\(H_0:\) ?\(_{terapia}\) \(=\) ?\(_{auto-ajuda}\) \(=\) ?\(_{espera}\)
\(H_1:\) pelo menos uma das ? é diferente.
Supondo que as variáveis dependentes são ordinais e que avaliaremos
apenas o resultado final, os dados estão em Enxaqueca.xlsx
. O teste de
Kruskal-Wallis está implementado em demo_KW.R
. Os testes post hoc
estão implementados em demo_KW_posthoc.R
:
Sintoma2
Grupo 1 2 3 4 5
Autoajuda 0 3 1 0 2
Lista de espera 0 1 2 2 2
Terapeuta 2 1 1 1 0
Teste H de Kruskal-Wallis Convencional:
Kruskal-Wallis rank sum test
data: Sintoma2 and Grupo
Kruskal-Wallis chi-squared = 3.5595, df = 2, p-value = 0.1687
Grupo n Median Boot.median Conf.level Percentile.lower Percentile.upper
1 Autoajuda 6 2.5 2.92 0.95 2 5
2 Lista de espera 7 4.0 3.76 0.95 3 5
3 Terapeuta 5 2.0 2.07 0.95 1 4
Teste H de Kruskal-Wallis (bootstrapping):
Approximative Kruskal-Wallis Test
data: Sintoma2 by Grupo (Autoajuda, Lista de espera, Terapeuta)
chi-squared = 3.5595, p-value = 0.1671
post hoc test:
Warning in kwAllPairsDunnTest.default(c(1, 3, 4, 2, 1, 2, 5, 3, 2, 5, 2, : Ties are
present. z-quantiles were corrected for ties.
Pairwise comparisons using Dunn's all-pairs test
data: Sintoma2 by Grupo
Autoajuda Lista de espera
Lista de espera 1.00 -
Terapeuta 0.81 0.18
P value adjustment method: bonferroni
alternative hypothesis: two.sided
Registered S3 methods overwritten by 'FSA':
method from
confint.boot car
hist.boot car
Dunn (1964) Kruskal-Wallis multiple comparison
p-values adjusted with the Bonferroni method.
Comparison Z P.unadj P.adj
1 Autoajuda - Lista de espera -0.783990 0.43304598 1.0000000
2 Autoajuda - Terapeuta 1.103476 0.26982062 0.8094619
3 Lista de espera - Terapeuta 1.886053 0.05928782 0.1778635
Group Letter MonoLetter
1 Autoajuda a a
2 Listadeespera a a
3 Terapeuta a a
demo_KW.R
e demo_KW_posthoc.R
Neste exemplo, as medianas populacionais para as diversas terapias para exaqueca não diferem, considerando \(\alpha=0.05\). Caso houvesse diferença, esta poderia ser localizada através dos testes post-hoc.
|
|
Seu correspondente não paramétrico está implementado em demo_KW_ANOVA_Fisher.R
. Aqui
consideraremos as variáveis como intervalares e, portanto, as hipóteses
são:
\[\begin{align} H_0&: \mu_\text{terapia} = \mu_\text{auto-ajuda} = \mu_\text{espera}\\ H_1&: \text{pelo menos duas médias populacionais são diferentes}\\ \alpha&=0.05 \end{align}\]
Além disto, sendo variáveis intervalares, podemos testar as condições de simetria, normalidade e homocedasticidade, obtendo-se:
Caso Grupo Sintoma1 Sintoma2
1 1 Terapeuta 5 1
2 2 Terapeuta 4 3
3 3 Terapeuta 5 4
4 4 Terapeuta 5 2
5 5 Terapeuta 4 1
6 6 Autoajuda 4 2
7 7 Autoajuda 5 5
8 8 Autoajuda 4 3
9 9 Autoajuda 2 2
10 10 Autoajuda 3 5
11 11 Autoajuda 2 2
12 12 Lista de espera 3 5
13 13 Lista de espera 2 3
14 14 Lista de espera 4 4
15 15 Lista de espera 2 4
16 16 Lista de espera 3 5
17 17 Lista de espera 2 2
18 18 Lista de espera 3 3
Tabulando Sintoma2 por Grupo:
Terapeuta Autoajuda Lista de espera
1 2 0 0
2 1 3 1
3 1 1 2
4 1 0 2
5 0 2 2
item group1 vars n mean sd median trimmed mad min max range skew kurtosis
X11 1 Terapeuta 1 5 2.20 1.30 2.0 2.20 1.48 1 4 3 0.26 -1.96
X12 2 Autoajuda 1 6 3.17 1.47 2.5 3.17 0.74 2 5 3 0.39 -2.00
X13 3 Lista de espera 1 7 3.71 1.11 4.0 3.71 1.48 2 5 3 -0.15 -1.64
se
X11 0.58
X12 0.60
X13 0.42
---------
Terapeuta
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 5.000000
mean 2.200000
median 2.000000
mode 1.429645
pseudomedian 2.000000
------------
- quartiles:
------------
Q1(min) 1
Q2 1
Q3(median) 2
Q4 3
Q5(max) 4
----------------------
- dispersion measures:
----------------------
st.dev 1.30384
IQR 2.00000
-----------
- skewness:
-----------
Skewness 0.2598658
skwns.lower -0.8229083
skwns.upper 1.0733126
------------------
- kurtosis excess:
------------------
Kurtosis -1.958062
krts.lower -2.253333
krts.upper -0.920000
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.90202, p-value = 0.4211
---------
Autoajuda
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.000000
mean 3.166667
median 2.500000
mode 2.202567
pseudomedian 3.500000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 2.0
Q3(median) 2.5
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.47196
IQR 2.50000
-----------
- skewness:
-----------
Skewness 0.3948453
skwns.lower -0.6703371
skwns.upper 1.3608276
------------------
- kurtosis excess:
------------------
Kurtosis -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.75467, p-value = 0.02212
---------------
Lista de espera
---------------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 7.000000
mean 3.714286
median 4.000000
mode 3.908236
pseudomedian 3.750000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 3.0
Q3(median) 4.0
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.112697
IQR 1.500000
-----------
- skewness:
-----------
Skewness -0.1523727
skwns.lower -1.0774380
skwns.upper 0.7528372
------------------
- kurtosis excess:
------------------
Kurtosis -1.6360343
krts.lower -2.2040816
krts.upper -0.3597225
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 7
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92158, p-value = 0.4818
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 2 0.2278 0.799
15
Registered S3 method overwritten by 'gplots':
method from
reorder.factor DescTools
Legenda:
A ... Terapeuta
B ... Autoajuda
C ... Lista de espera
ANOVA unifatorial independente de Fisher
VD = Sintoma2
Fator = Grupo
Analise de significancia estatistica: teste omnibus
ANOVAAnova Table (Type II tests)
Response: Sintoma2
Sum Sq Df F value Pr(>F)
Grupo 6.7159 2 2.0098 0.1685
Residuals 25.0619 15
contrast estimate SE df lower.CL upper.CL t.ratio p.value
B - A 0.967 0.783 15 -0.956 2.89 1.235 0.3896
C - A 1.514 0.757 15 -0.345 3.37 2.001 0.1164
Confidence level used: 0.95
Conf-level adjustment: dunnettx method for 2 estimates
P value adjustment: dunnettx method for 2 tests
Grupo emmean SE df lower.CL upper.CL .group
A 2.20 0.578 15 0.643 3.76 a
B 3.17 0.528 15 1.745 4.59 a
C 3.71 0.489 15 2.398 5.03 a
Confidence level used: 0.95
Conf-level adjustment: bonferroni method for 3 estimates
P value adjustment: bonferroni method for 3 tests
significance level used: alpha = 0.05
NOTE: If two or more means share the same grouping symbol,
then we cannot show them to be different.
But we also did not show them to be the same.
Analise de significancia pratica: tamanho de efeito
# Effect Size for ANOVA (Type II)
Parameter | Eta2 | 95% CI | interpret
-------------------------------------------------
Grupo | 0.2113 | [0.0000, 0.5019] | large
Considerando heterocedasticidade, ANOVA de Welch está implementado em
demo_KW_ANOVA_Welch.R
, obtendo-se:
Caso Grupo Sintoma1 Sintoma2
1 1 Terapeuta 5 1
2 2 Terapeuta 4 3
3 3 Terapeuta 5 4
4 4 Terapeuta 5 2
5 5 Terapeuta 4 1
6 6 Autoajuda 4 2
7 7 Autoajuda 5 5
8 8 Autoajuda 4 3
9 9 Autoajuda 2 2
10 10 Autoajuda 3 5
11 11 Autoajuda 2 2
12 12 Lista de espera 3 5
13 13 Lista de espera 2 3
14 14 Lista de espera 4 4
15 15 Lista de espera 2 4
16 16 Lista de espera 3 5
17 17 Lista de espera 2 2
18 18 Lista de espera 3 3
Tabulando Sintoma2 por Grupo:
Terapeuta Autoajuda Lista de espera
1 2 0 0
2 1 3 1
3 1 1 2
4 1 0 2
5 0 2 2
Descriptive statistics by group
group: Terapeuta
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 5 2.2 1.3 2 2.2 1.48 1 4 3 0.26 -1.96 0.58
--------------------------------------------------------------------
group: Autoajuda
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 6 3.17 1.47 2.5 3.17 0.74 2 5 3 0.39 -2 0.6
--------------------------------------------------------------------
group: Lista de espera
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 7 3.71 1.11 4 3.71 1.48 2 5 3 -0.15 -1.64 0.42
---------
Terapeuta
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 5.000000
mean 2.200000
median 2.000000
mode 1.429645
pseudomedian 2.000000
------------
- quartiles:
------------
Q1(min) 1
Q2 1
Q3(median) 2
Q4 3
Q5(max) 4
----------------------
- dispersion measures:
----------------------
st.dev 1.30384
IQR 2.00000
-----------
- skewness:
-----------
Skewness 0.2598658
skwns.lower -0.8229083
skwns.upper 1.0733126
------------------
- kurtosis excess:
------------------
Kurtosis -1.958062
krts.lower -2.253333
krts.upper -0.920000
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 5
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.90202, p-value = 0.4211
---------
Autoajuda
---------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 6.000000
mean 3.166667
median 2.500000
mode 2.202567
pseudomedian 3.500000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 2.0
Q3(median) 2.5
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.47196
IQR 2.50000
-----------
- skewness:
-----------
Skewness 0.3948453
skwns.lower -0.6703371
skwns.upper 1.3608276
------------------
- kurtosis excess:
------------------
Kurtosis -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 6
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.75467, p-value = 0.02212
---------------
Lista de espera
---------------
--------------------
Distribution anatomy
--------------------
----------------------------
- central tendency measures:
----------------------------
n 7.000000
mean 3.714286
median 4.000000
mode 3.908236
pseudomedian 3.750000
------------
- quartiles:
------------
Q1(min) 2.0
Q2 3.0
Q3(median) 4.0
Q4 4.5
Q5(max) 5.0
----------------------
- dispersion measures:
----------------------
st.dev 1.112697
IQR 1.500000
-----------
- skewness:
-----------
Skewness -0.1523727
skwns.lower -0.9606666
skwns.upper 0.9306418
------------------
- kurtosis excess:
------------------
Kurtosis -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278
--------------
Symmetry test:
--------------
Symmetry test by Miao, Gel, and Gastwirth (2006)
data: values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.
---------------
Normality test:
---------------
testing with n = 7
Shapiro-Wilk normality test
data: sample(values, size = n)
W = 0.92158, p-value = 0.4818
----------------------
Homoscedasticity test:
----------------------
assuming interval variables
Levene's Test for Homogeneity of Variance (center = "median")
Df F value Pr(>F)
group 2 0.2278 0.799
15
Legenda:
A ... Terapeuta
B ... Autoajuda
C ... Lista de espera
ANOVA unifatorial independente de Welch
VD = Sintoma2
Fator = Grupo
Analise de significancia estatistica: teste omnibus
ONE-WAY ANOVA
One-Way ANOVA (Welch's)
────────────────────────────────────────────────────────
F df1 df2 p
────────────────────────────────────────────────────────
Sintoma2 2.067268 2 9.075617 0.1820512
────────────────────────────────────────────────────────
Group Descriptives
───────────────────────────────────────────────────────────────
Grupo N Mean SD SE
───────────────────────────────────────────────────────────────
Sintoma2 A 5 2.200000 1.303840 0.5830952
B 6 3.166667 1.471960 0.6009252
C 7 3.714286 1.112697 0.4205600
───────────────────────────────────────────────────────────────
POST HOC TESTS
Games-Howell Post-Hoc Test – Sintoma2
─────────────────────────────────────────────────────────────────
A B C
─────────────────────────────────────────────────────────────────
A Mean difference — -0.9666667 -1.5142857
t-value — -1.154472 -2.1062836
df — 8.940607 7.831281
p-value — 0.5073843 0.1510932
B Mean difference — -0.5476190
t-value — -0.7466116
df — 9.248525
p-value — 0.7429239
C Mean difference —
t-value —
df —
p-value —
─────────────────────────────────────────────────────────────────
Note. * p < .05, ** p < .01, *** p < .001
Analise de significancia pratica: tamanho de efeito
- eta^2 = 0.3129817
Grau grande de explicacao da variancia da VD Sintoma2 pela VI Grupo
Outra opcao de teste posthoc com rstatix::games_howell_test
.y. group1 group2 estimate conf.low conf.high p.adj p.adj.signif
1 Sintoma2 A B 0.9666667 -1.374009 3.307343 0.507 ns
2 Sintoma2 A C 1.5142857 -0.549354 3.577925 0.151 ns
3 Sintoma2 B C 0.5476190 -1.490142 2.585380 0.743 ns
demo_KW_ANOVA_Welch.R
A conclusão é a mesma: não temos elementos para afirmar diferença entre os três grupos.
Milton Friedman (1912 - 2006)
https://pt.wikipedia.org/wiki/Milton_Friedman |
Milton Friedman foi um economista, estatístico e escritor norte-americano, que lecionou na Universidade de Chicago por mais de três décadas. Ele recebeu o Prémio de Ciências Económicas em Memória de Alfred Nobel de 1976 e é conhecido por sua pesquisa sobre a análise do consumo, a teoria e história monetária, bem como por sua demonstração da complexidade da política de estabilização. |
Testa a hipótese nula de igualdade das pseudomedianas populacionais dos tratamentos. Utiliza VDs ordinais ou intervalares em três ou mais condições dependentes.
Seis pessoas (blocos) receberam seis diuréticos diferentes (tratamentos A a F). As respostas são medidas pela concentração de sódio na urina duas horas após o tratamento. O tratamento A é assumido como controle.
\[\begin{align} H_0&: \text{pseudomediana}_\text{A} = \text{pseudomediana}_\text{B} =\cdots= \text{pseudomediana}_\text{F}\\ H_1&: \text{pelo menos uma pseudomediana é diferente das demais}\\ \alpha&=0.05\\ \end{align}\]
Os dados estão no próprio Rscript, demo_Q.R
. O teste de Friedman em R está
implementado em PMCMRplus::friedmanTest()
e os testes
post-hoc em PMCMRplus::frdManyOneExactTest()
, que
fixa uma condição como referência e
PMCMRplus::frdAllPairsExactTest()
, e também com funções
nativas friedman.test
e pairwise.wilcox.test
que comparam todas as condições par-a-par:
A B C D E F
1 3.88 30.58 25.24 4.44 29.41 38.87
2 5.64 30.14 33.52 7.94 30.72 33.12
3 5.76 16.92 25.45 4.04 32.92 39.15
4 4.25 23.19 18.85 4.40 28.23 28.06
5 5.91 26.74 20.45 4.23 23.35 38.23
6 4.33 10.91 26.67 4.36 12.00 26.65
Friedman rank sum test
data: y
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915
Pairwise comparisons using Eisinga-Heskes-Pelzer and Grotenhuis many-to-one test for a two-way balanced complete block design
data: y
A
B 0.114
C 0.043
D 1.000
E 0.014
F 8.4e-05
P value adjustment method: bonferroni
alternative hypothesis: two.sided
Pairwise comparisons using Eisinga, Heskes, Pelzer & Te Grotenhuis all-pairs test with exact p-values for a two-way balanced complete block design
data: y
A B C D E
B 0.34101 - - - -
C 0.12897 1.00000 - - -
D 1.00000 0.78175 0.34101 - -
E 0.04094 1.00000 1.00000 0.12897 -
F 0.00025 1.00000 1.00000 0.00197 1.00000
P value adjustment method: bonferroni
Friedman rank sum test
data: Data
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915
Pairwise comparisons using Wilcoxon signed rank exact test
data: df_long$sodio and df_long$tratamento
A B C D E
B 0.47 - - - -
C 0.47 1.00 - - -
D 1.00 0.47 0.47 - -
E 0.47 1.00 1.00 0.47 -
F 0.47 0.47 1.00 0.47 0.94
P value adjustment method: bonferroni
demo_Q.R
Os efeitos populacionais do tratamento sobre a medida de sódio diferem com o uso dos diversos diuréticos para \(\alpha=0.05\). O teste post-hoc que fixa o diurético A como referência, mostra diferença com C, E e F (é o que deve ser usado de acordo com o enredo deste exemplo). A outra comparação, par-a-par não é adequada à pergunta de pesquisa deste exemplo, mas pode ser aplicável a outras situações e, por isso, foi implementada neste Rscript (além de mostrar diferenças entre A e E, A e F, também mostra diferença entre os diuréticos D e F - note que os valores p mudaram porque mais testes são feitos nesta segunda forma de teste post-hoc, modificando a correção por Bonferroni) e a diferença entre A e C desapareceu nesta comparação par a par.
Para comparação, implementamos uma versão de ANOVA unifatorial relacionada que admite valores faltantes, posto que isto acontece com frequência em estudos observacionais (e.g., falta do paciente em uma consulta).
\[\begin{align} H_0&: \mu_\text{A} = \mu_\text{B} = \cdots =\mu_\text{F}\\ H_1&: \text{Pelo menos duas médias são diferentes}\\ \alpha&=0.05 \end{align}\]
Este procedimento necessita dos dados em formato long, então
a transformação é feita na própria implementação de demo_Q_ANOVA.R
:
Paciente Tratamento Sodio
1 1 A 3.88
2 1 B 30.58
3 1 C 25.24
4 1 D 4.44
5 1 E 29.41
6 1 F 38.87
7 2 A 5.64
8 2 B 30.14
9 2 C 33.52
10 2 D 7.94
11 2 E 30.72
12 2 F 33.12
13 3 A 5.76
14 3 B 16.92
15 3 C 25.45
16 3 D 4.04
17 3 E 32.92
18 3 F 39.15
19 4 A 4.25
20 4 B 23.19
21 4 C 18.85
22 4 D 4.40
23 4 E 28.23
24 4 F 28.06
25 5 A 5.91
26 5 B 26.74
27 5 C 20.45
28 5 D 4.23
29 5 E 23.35
30 5 F 38.23
31 6 A 4.33
32 6 B 10.91
33 6 C 26.67
34 6 D 4.36
35 6 E 12.00
36 6 F 26.65
GLMM: omnibus test
Analysis of Deviance Table (Type II Wald F tests with Kenward-Roger df)
Response: Sodio
F Df Df.res Pr(>F)
Tratamento 37.981 5 25 6.769e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Warning: Currently only supports partial eta squared for this class of objects.
# Effect Size for ANOVA (Type II)
Parameter | Eta2 (partial) | 95% CI | interpret
----------------------------------------------------------
Tratamento | 0.8837 | [0.7747, 0.9277] | large
Post hoc test: Pairwise Contrasts
contrast estimate SE df lower.CL upper.CL t.ratio p.value
A - B -18.12 2.76 25 -26.62 -9.621 -6.571 <.0001
A - C -20.07 2.76 25 -28.57 -11.571 -7.278 <.0001
A - D 0.06 2.76 25 -8.44 8.558 0.022 1.0000
A - E -21.14 2.76 25 -29.64 -12.646 -7.668 <.0001
A - F -29.05 2.76 25 -37.55 -20.554 -10.536 <.0001
B - C -1.95 2.76 25 -10.45 6.548 -0.707 0.9793
B - D 18.18 2.76 25 9.68 26.676 6.593 <.0001
B - E -3.02 2.76 25 -11.52 5.473 -1.097 0.8779
B - F -10.93 2.76 25 -19.43 -2.436 -3.965 0.0064
C - D 20.13 2.76 25 11.63 28.626 7.300 <.0001
C - E -1.07 2.76 25 -9.57 7.423 -0.390 0.9987
C - F -8.98 2.76 25 -17.48 -0.486 -3.258 0.0339
D - E -21.20 2.76 25 -29.70 -12.706 -7.690 <.0001
D - F -29.11 2.76 25 -37.61 -20.614 -10.558 <.0001
E - F -7.91 2.76 25 -16.41 0.589 -2.868 0.0787
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: tukey method for comparing a family of 6 estimates
P value adjustment: tukey method for comparing a family of 6 estimates
Post hoc test: Reference Level Contrasts contrast estimate SE df lower.CL upper.CL t.ratio p.value
B - A 18.12 2.76 25 10.66 25.6 6.571 <.0001
C - A 20.07 2.76 25 12.61 27.5 7.278 <.0001
D - A -0.06 2.76 25 -7.52 7.4 -0.022 1.0000
E - A 21.14 2.76 25 13.68 28.6 7.668 <.0001
F - A 29.05 2.76 25 21.59 36.5 10.536 <.0001
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: dunnettx method for 5 estimates
P value adjustment: dunnettx method for 5 tests
Tratamento emmean SE df lower.CL upper.CL .group
D 4.90 2.24 23.2 -1.56 11.4 a
A 4.96 2.24 23.2 -1.50 11.4 a
B 23.08 2.24 23.2 16.62 29.5 b
C 25.03 2.24 23.2 18.57 31.5 b
E 26.11 2.24 23.2 19.65 32.6 bc
F 34.01 2.24 23.2 27.55 40.5 c
Degrees-of-freedom method: kenward-roger
Confidence level used: 0.95
Conf-level adjustment: bonferroni method for 6 estimates
P value adjustment: bonferroni method for 15 tests
significance level used: alpha = 0.05
NOTE: If two or more means share the same grouping symbol,
then we cannot show them to be different.
But we also did not show them to be the same.
demo_Q_ANOVA.R
Aqui, da mesma forma que o teste Q mostrou, a hipótese nula de igualdade de todos os tratamentos foi rejeitada.
Na versão não-paramétrica havíamos encontrado as seguintes diferenças:
Nesta versão paramétrica, os procedimentos post hoc usam o método de Tukey (comparando todos os tratamentos, par a par) ou Dunnett (que fixa um dos tratamentos como referência - neste exemplo o tratamento A). As diferenças podem ser localizadas numericamente ou graficamente. Os gráficos mostram intervalos de confiança após a aplicação do modelo, i.e., já controlado pela variância intra-indivíduo. O primeiro mostra cada tratamento isoladamente. Os demais espelham os contrastes (em negrito estão os que o teste não-paramétrico também localizou):
Os testes não paramétricos são antigos. Observe as datas de suas publicações originais:
Os testes não paramétricos não evoluíram.
Enquanto para seus equivalentes paramétricos apareceram soluções multivariadas, controles estatísticos, transformações não lineares e técnicas para contornar as suposições desejadas, desdobrando-se em vários tipos de regressão múltiplas (com várias VIs e uma VD) ou multivariadas (com várias VIs e VDs).
Os testes não-paramétricos receberam poucas alterações e continuaram aplicáveis a delineamentos relativamente mais simples:
Os testes não paramétricos computam apenas a significância estatística (valor \(p\)), mas não têm procedimentos para a significância prática (tamanho de efeito) que é fundamental para a epidemiologia.
“Toda a informação concernente às magnitudes das observações quantitativas é perdida ao convertê-las em postos (ranks).”
“Os testes Mann-Whitney e Wilcoxon avaliam se existe diferença estatística significativa entre as médias dos postos [sic] de duas condições.”
Parte da confusão acontece porque o método para a execução dos cálculos, utilizando postos (ranks), acaba sendo visto como uma transformação não linear (monotônica e com passos unitários) da própria variável. Há alguns pesquisadores que pensam, então, que as conclusões alcançadas por um teste não-paramétrico é sobre os postos quando, de fato, a variável continua tendo sua natureza intervalar ou ordinal. Os postos são usados como artifício estatístico para comparar duas distribuições.
\[~\]
Os testes paramétricos apresentados aqui costumam assumir normalidade da VD na população. Quando esta premissa não é conhecida ou, sabidamente, não é atendida, pesquisadores pensam em indicar testes não-paramétricos, justificando que são distribution free.
É verdade que dados assimétricos e amostras muito pequenas e desbalanceadas causam problemas para os testes paramétricos. No entanto, perturba bastante, também, os testes não-paramétricos.
No entanto, os testes não-paramétricos não servem para qualquer distribuição: prescindem da normalidade da VD, então devem ser lembrados como free of normal distribution. Muitos necessitam das suposições de simetria e de homoscedasticidade das distribuições das VDs nas condições do fator.
Este problema existe quando as amostras são pequenas. Com amostras maiores, a variável de interesse ou de desfecho não precisa ter distribuição normal: o teorema central do limite informa que a distribuição dos estimadores dos parâmetros da VD são aproximadamente normais e os testes paramétricos têm bom desempenho.
Quando há dificuldade em testar a normalidade, pesquisadores usam gráficos para ver o formato da distribuição.
“Histogramas [sic] para as duas condições foram inspecionados separadamente. Como os dados eram assimétricos e o número de participantes pequeno, o teste estatístico mais apropriado foi o de Mann-Whitney.”
\[~\]
\[~\]
“[…] there is the concept that a histogram can be useful with the right parametrization [but] there is no guarantee that the cutoff will fall between bars and the heights of histogram bars may be an illusion affected by the bin sizes […] a histogram, as traditional as it may be, is misleading.”
Afirmam:
“Para um dado número de unidades experimentais no estudo, N, testes paramétricos são mais poderosos do que os não- paramétricos correspondentes, desde que todas as suposições dos testes paramétricos e dos não-paramétricos sejam satisfeitas.”
O teste t de Student tem a suposição de normalidade a mais que o correspondente teste não-paramétrico U de Mann-Whitney; não supondo homocedasticidade, o teste t de Welch corresponde ao teste de Brunner-Munzel. Há vezes em que a afirmação de que os testes paramétricos tendem a ser mais poderosos que os não-paramétricos quando suas suposições são atendidas foi transformada no reverso, de que “os testes não-paramétricos são mais poderosos quando as tais suposições não são atendidas.
Ao menos quando a amostra é suficientemente grande, os testes não-paramétricos são quase equivalentes aos paramétricos. Embora não explore amostras pequenas, Prajapati et al. (2010) sugere que talvez os testes não-paramétricos continuem, ainda, perdendo para os paramétricos em quaisquer condições; talvez os resultados sejam confusos ou erráticos. É difícil aferir o que acontece em todas as possíveis combinações de violações de suposições:
No teste U de Mann-Whitney implementado em
wilcox.test
qualquer valor igual em uma das duas condições
resulta em um empate e impede o cálculo do valor p exato
(parâmetro exact=TRUE
), fornecendo o valor assintótico que
pode não ser boa opção com amostras pequenas.
O teste W de Wilcoxon implementado com a mesma função, apresenta o mesmo problema para o cálculo do valor p exato se houver empates das diferenças mas, também, se houver diferenças nulas. Nestes casos a função oferece o cálculo assintótico do valor p, problemático para amostras pequenas. Agrava-se o problema pois os sujeitos com diferenças nulas são eliminados, reduzindo ainda mais o tamanho efetivo da amostra.
Não poder atender às suposições dos testes paramétricos não implica, automaticamente, em atender àquelas dos testes não-paramétricos.
Há quem pense que testes não-paramétricos são robustos a quaisquer condições. A diferença, em geral, é que testes não-paramétricos são um pouco mais permissivos quanto às condições para sua aplicação e, por isso, também menos poderosos.
Os testes não paramétricos não são métodos estatísticos robustos. Há alternativas para os métodos paramétricos:
Observe o que diz Zimmerman (1998):
A maioria dos artigos na literatura estudam violações isoladas. Este artigo propõe violações simultâneas das suposições de normalidade e homocedasticidade em graus variados, com amostras de tamanhos modestos (de 15 a 40 por grupo) por simulação. Surpreendentemente, os testes paramétricos, ainda assim, saíram-se melhor que seus correspondentes não paramétricos.
“Esses testes (Mann-Whitney e Wilcoxon) são muito mais simples do que os testes t, pois não envolvem cálculos de médias, desvios-padrão e erros-padrão.”
Em R, muitas vezes, a simplicidade aparente é a mesma; basta escolher o pacote e a função adequada. Anteriormente aos computadores, o cálculo era feito manualmente e esta simplicidade não parece sustentável. Em ambos os mesmos tipos de cálculos eram feitos e, pelo contrário, etapas adicionais e tediosas eram requeridas para computar os testes não-paramétricos.
Para mostrar o cálculo manual, confrontamos um teste U e um teste t. Observe:
Teste U de Mann-WhitneyPara o Teste de Mann-Whitney, o referido cálculo simples para dois grupos, \(A\) e B, implica em: juntar as amostras de diferentes condições experimentais, ordenar os valores preservando a informação do grupo de origem, encontrar os empates e atribuir os postos, voltar os postos de acordo com a condição de origem para somar os postos e encontrar os valores \(U_A\) e \(U_B\), então escolher o valor U mínimo (ou calcular diretamente o valor U) para confrontar com uma tabela (se \(n < 20\)) com \(U_{crítico}\) ou assintoticamente (para \(n \ge 20\)) calcular \(z\) e usar outra tabela, obtendo o valor p. Por exemplo: \[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[ A \cup B = \{288, 283, 120, 119, 432, 274, 890, \\ 119, 43, 153, 854, 588\}\] \[ \text{order}(A \cup B) = \{43, 119, 119, 120, 153, 274, \\ 283, 288, 432, 588, 854, 890 \}\] \[\text{groups, order}(A \cup B) = \{B, A, B, A, B, A, \\ A, A, A, B, B, A \}\] \[\text{Postos} = \{1, 2.5, 2.5, 4, 5, 6, \\ 7, 8, 9, 10, 11, 12 \}\] \[\text{Postos}_A = \{2.5, 4, 6, 7, 8, 9, 12 \}\] \[\text{Postos}_B = \{1, 2.5, 5, 10, 11 \}\] Soma dos postos (de onde vem o nome do teste): \[R_A = 2.5+4+6+7+8+9+12 = 48.5\] \[R_B = 1+2.5+5+10+11 = 29.5\] Calcula-se a estatística de Mann-Whitney: \[ U_A = {n_A n_B + \frac{n_A(n_A+1)}{2} - R_A} = \\ = 7 \cdot 5 + \frac{7(7+1)}{2} - 48.5 = 14.5\] \[ U_B = {n_A n_B + \frac{n_B(n_B+1)}{2} - R_B} = \\ = 7 \cdot 5 + \frac{5(5+1)}{2} - 29.5 = 20.5\] Assume-se \(U = min(U_A,U_B)\), Alternativamente, para não calcular os dois valores de U, o mesmo resultado pode ser calculado diretamente usando o \(n_{max}\) do grupo com maior \(R\) e os valores \(R_A\) e \(R_B\): \[U = n_A n_B + \frac{n_{max}(n_{max}+1)}{2} - \\ max(R_A,R_B) = \\ = 7 \cdot 5 + \frac{7 \cdot 8}{2} - 48.5 = 14.5\] Para amostras pequenas há tabelas a serem consultadas, verificando-se se o valor U está abaixo ou acima do valor crítico para se tomar a decisão inferencial. Para \(n_A=7\) e \(n_B=5\) o valor crítico é 5. Rejeita-se a hipótese nula quando \(U < U_{crítico}\). Neste exemplo, não se rejeita a igualdade das condições \(A\) e B. Para amostras maiores era recomendado o cálculo assintótico, com mais alguma álgebra para converter em seu equivalente valor \(z\), o paradigma da situação paramétrica; quase um contra-senso! utilizando-se \[z = {\frac{U-\frac{n_A n_B}{2}}{\sqrt{\frac{n_A n_B (n_A + n_B + 1)}{12}} } } = \\ = {\frac{14.5-\frac{7 \cdot 5}{2}}{\sqrt{\frac{7 \cdot 5 (7 + 5 + 1)}{12}} } } = -0.4118\] Aqui vemos que as estatísticas de teste dos testes não-paramétricos também necessitam ter distribuição normal assintótica para qualquer distribuição da VD nas condições do fator. Tendo o valor \(z\) calculado, recorria-se a uma segunda tabela para comparar este valor calculado com as áreas sob a distribuição normal padrão já calculadas para obter o valor p correspondente: Neste exemplo, a tabela fornece o valor p da cauda esquerda que, para \(z=0.41 \Leftrightarrow p_{\text{lower tail}}=0.3409\). Nosso teste é bicaudal, então \(p=2p_{\text{lower tail}}=0.6818\) e não rejeitamos a igualdade entre os grupos \(A\) e B. MUNDRY & FISCHER (1998) comentam que os testes não-paramétricos baseados em valor p assintótico de escore \(z\) provocam rejeição excessiva da hipótese nula e, portanto, busca-se desenvolver implementações com o cálculo exato do valor p. Em R,
implementado com
demo_MWW_AB.R
Teste t para condições independentesPor comparação, no teste t (paramétrico) para duas condições independentes, calcula-se as médias (\(\bar{x}_A\) e \(\bar{x}_B\)) e as variâncias (\(s_a^2\) e \(s_B^2\)) dos dois grupos e calcula-se a estatística t com os seguintes passos: \[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[\bar{x}_A = (288+283+120+119+432+274+890)/7 = 343.7\] \[s_A^2 = \frac{\sum_{i=1}^{7}{(A_i-\bar{x}_A)^2}}{7-1} = 264.1\] \[\bar{x}_B = (119+43+153+854+588)/5 = 351.4\] \[s_B^2 = \frac{\sum_{i=1}^{5}{(B_i-\bar{x}_B)^2}}{5-1} = 352.5\] \[t = { \frac{\bar{x}_A-\bar{x}_B}{ \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A+n_B-2} } \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}} = \\ = { \frac{343.7-351.4}{ \sqrt{\frac{(7-1)264.1 + (5-1)352.5}{7+5-2} } \sqrt{\frac{1}{7}+\frac{1}{5}}}} = -0.4338\] Antes dos computadores recorria-se, também, a uma tabela para comparar este valor calculado com o valor crítico, rejeitando-se a hipótese nula caso o valor \(t > t_{crítico}\). Neste exemplo, como o teste é bicaudal, precisamos encontrar o valor \(t_{crítico}\) associado com \(\alpha/2=0.025\); como \(t < t_{crítico}\) não rejeitamos a igualdade entre os grupos \(A\) e B: Em R,
implementado com
demo_MWW_ABt.R
|
Existem condições para usarmos os não-paramétricos em lugar dos paramétricos?
Em Dancey & Reidy (2019) aparece a tabela 1.2, que busca associar os delineamentos dos estudos com os testes estatísticos. Porém…
No entanto, em Conover (1999)
William Jay Conover
http://www.math.ttu.edu/~wconover/ |
After teaching at the U.S. Naval Academy at Annapolis, Iowa State University, Kansas State University, the University of California at Davis, and the University of Zurich (Switzerland), he joined the Math Department at Texas Tech in 1973. From 1978-2015 he was in the TTU Rawls College of Business, becoming the Area Coordinator of Information Systems and Quantitative Sciences. In 2015 Dr. Conover returned to the TTU Department of Mathematics & Statistics. While a member of the Rawls College faculty he won several research awards, including the Barney E. Rushing Distinguished Faculty Research Award from the TTU Parents Association, The Don Owen award from the San Antonio Chapter of the American Statistical Association, and the Wilks Medal from the U. S. Army. [He was elected as a Fellow of the American Statistical Association, and appointed a Paul Whitfield Horn Professor by the Texas Tech Board of Regents, becoming a Horn Professor of Statistics for the Texas Tech Department of Mathematics & Statistics in 2015. […] He was named a Highly Cited Researcher by the ISI Thompson Scientific, and currently has over 38,000 citations to his many books and papers. He is listed in Who’s Who in America, and Who’s Who in the World. |
aparece outra tabela:
Diz Norušis (1998),
Marija Norušis
http://www.norusis.com/about.php |
Marija Norušis earned a Ph.D. in biostatistics from the University of Michigan. She was SPSS’s first professional statistician. McGraw-Hill published her first book, The SPSS Introductory Guide. Since then she has written numerous volumes of highly acclaimed SPSS documentation and textbooks that demystify statistics and SPSS. Dr. Norušis has been on the faculties of the University of Chicago and Rush Medical College, teaching statistics to diverse audiences. When not working on IBM SPSS guides, Marija analyzes real data as a statistical consultant. For those whose Lithuanian is rusty:“Marija” is pronounced “Maria,” not “Mar-eye-ja.” “Norušis” is pronounced “Norooshis,” not “Neurosis.” |
na página 332, pergunta:
Se os testes não-paramétricos têm menos suposições sobre os dados, por que não usar apenas eles?
e responde:
Os testes paramétricos, tais como t, ANOVA e ANCOVA, são naturalmente robustos para normalidade, desde que a distribuição dos dados seja simétrica e tenha poucos outliers; além disso, se a amostra é grande, o TCL funciona. Os testes não-paramétricos ignoram a informação de distribuição exata dos dados gerando, e.g., IC95% mais largos, i.e., com menos poder, que os paramétricos.
O que eu deveria fazer se não estou certo se eu tenho que usar um teste paramétrico ou não-paramétrico?
resposta:
Na dúvida, use ambos! Se conseguir a mesma decisão sobre a hipótese nula nos testes paramétrico e não-paramétrico, não há nada com o que se preocupar. Se o teste não-paramétrico é estatisticamente não-significante e o paramétrico é significante, tente descobrir o motivo. Há outliers? Valores influentes? A distribuição da VD nos grupos é simétrica? Normal? Há desbalanceamento? Há heterocedasticidade? Se a VD é intervalar e a amostra é grande, tente transformação potência de Tukey para simetrizar as distribuições da VD nas condições, homegeneizar as variâncias das condições e linearizar as relações entre as variáveis.
|
\(~\)
“Resumo:
Os testes estatísticos convencionais são geralmente chamados de testes paramétricos.
Testes paramétricos são usados com mais frequência do que testes não paramétricos em muitos artigos médicos
[sic: Fagerland (2012) mostra empate], porque a maioria dos pesquisadores médicos está familiarizada com eles e os softwares estatísticos oferecem forte suporte para testes paramétricos.
Testes paramétricos requerem uma suposição importante; a suposição de normalidade, que significa que a distribuição das médias amostrais é normalmente distribuída
[sic: distribuição da média amostra é normal por TLC; VD normal é suposição].
No entanto, o teste paramétrico pode ser enganoso quando essa suposição não é satisfeita.
[sic: o que vimos nessa aula foi o oposto].
Nessa circunstância, os testes não paramétricos são os métodos alternativos disponíveis, pois não exigem a suposição de normalidade.
[sic: sim, mas têm outras exigências].
Testes não paramétricos são os métodos estatísticos baseados em sinais e ranqueamentos.
[sic: é a confusão entre o que é testado com como é feito seu cálculo].
Neste artigo, discutiremos os conceitos básicos e o uso prático dos testes não paramétricos como um guia para o uso adequado.”
[sic: considerando a sequência de equívocos sobre suas indicações, duvidamos que atinja esse objetivo].
“Conclusão:
Testes não paramétricos e testes paramétricos: qual devemos usar?
Assim como há mais de uma modalidade de tratamento para uma doença, também existem diversos métodos de análise estatística.
Os métodos de análise não paramétricos são claramente a escolha correta quando a suposição de normalidade é claramente violada
[sic: SKOVLUND, E & FENSTAD, GU (2001): e.g.: MW depende fortemente de distribuições de mesmo formato nos grupos e homocedasticidade da VD que pode ser ordinal, sendo que mesmo para o caso da VD ordinal (e.g., item Likert de 5 pontos), teste t de Student são praticamente equivalentes (Winter & Dodou, 2012) e teste t é tão robusto que ele pode ser recomendado para quase todas as aplicações (Rasch et al., 2007, 2011); W de Wilcoxon depende fortemente da suposição de simetria da diferença da VD nas condições dependentes]
no entanto, eles nem sempre são a melhor escolha para casos com tamanhos de amostra pequenos porque possuem menor poder estatístico em comparação com as técnicas paramétricas
[sic: Fagerland (2012): “Testes não-paramétricos são mais úteis para estudos pequenos; em estudos grandes podem fornecer respostas para questões erradas.”] e dificuldades no cálculo do “intervalo de confiança de 95%”, que auxilia na compreensão dos leitores.
Os métodos paramétricos podem levar a resultados significativos em alguns casos, enquanto os métodos não paramétricos podem resultar em resultados mais significativos em outros casos
[sic: usando o R como laboratório vimos que isso é verdade, mas os métodos não paramétricos erraram mais do que os seus correspondentes paramétricos.].
Quaisquer que sejam os métodos selecionados, eles devem suportar os argumentos do pesquisador de maneira mais robusta e ajudar na fácil compreensão dos leitores.
[sic: é a crença equivocada de que métodos não paramétricos são robustos.]
Quando os métodos paramétricos são selecionados, os pesquisadores devem garantir que todas as suposições necessárias estejam satisfeitas.
[sic: suposições são condições suficientes; a eterna testagem das suposições.]
Caso contrário, é mais válido usar métodos não paramétricos, pois eles são “sempre válidos, mas nem sempre eficientes”
[sic: teste não paramétrico tem suposições sobre a VD; e.g.: simetria, homocedasticidade, mesmo formato de distribuição, portanto facilmente podem não ser válidos.]
enquanto os métodos paramétricos são “sempre eficientes, mas nem sempre válidos”
[sic: Prajapati et al. (2010): têm eficiência relativa assintótica de 0.955 quando a amostra é suficientemente grande; quando não são válidos, não paramétricos em geral também não o serão.]
|
\(~\)
“COMO ESCOLHER ENTRE TESTES PARAMÉTRICOS E NÃO PARAMÉTRICOS?
Quando os tamanhos das amostras são grandes, ou seja, maiores que 100, os testes paramétricos geralmente podem ser aplicados independentemente da distribuição da variável de desfecho.
Isso se deve ao teorema do limite central, que afirma que se o tamanho da amostra for suficientemente grande, a distribuição de uma variável dada é aproximadamente normal
[sic: TLC não altera o formato da VD; confunde a distribuição da variável dependente com a distribuição das médias amostrais].
Quanto mais a distribuição se afasta da normalidade, maior será o tamanho da amostra necessário para aproximar a normalidade.
Quando os tamanhos das amostras são pequenos e as distribuições das variáveis de desfecho são extremamente não normais, os testes não paramétricos são mais apropriados.
Por exemplo, algumas variáveis são naturalmente enviesadas, como o tempo de permanência no hospital ou o número de exacerbações de asma por ano.
Nestes casos, variáveis extremamente enviesadas devem sempre ser analisadas com testes não paramétricos, mesmo com grandes tamanhos de amostra.”
[sic: o que será extremamente não normal? ou extremamente enviesadas?].
|
|
\(~\)
Esta é a ilustração do início da aula. Você pensa que um cirurgião ficaria confortável em operar sem suposições sobre o paciente? Ou você gostaria de ser operado sem que houvesse qualquer suposição sobre seu diagnóstico? Investiria seu esforço ou dinheiro sem avaliar parâmetros de uma escola ou do mercado?
Caso fosse verdadeiro que testes não paramétricos pudessem prescindir de suposições (que é uma crença generalizada e, esperamos, você não tenha mais)…
Por que, então, alguém pode pensar que a ausência de suposições poderia fazer bem para um procedimento estatístico?