options(warn=-1)
suppressMessages(library(eiras, warn.conflicts=FALSE))
suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(coin, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(emmeans, warn.conflicts=FALSE))
suppressMessages(library(exactRankTests, warn.conflicts=FALSE))
suppressMessages(library(FSA, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(gplots, warn.conflicts=FALSE))
suppressMessages(library(jmv, warn.conflicts=FALSE))
suppressMessages(library(lattice, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lmboot, warn.conflicts=FALSE))
suppressMessages(library(lmerTest, warn.conflicts=FALSE))
suppressMessages(library(multcomp, warn.conflicts=FALSE))
suppressMessages(library(PMCMRplus, warn.conflicts=FALSE))
suppressMessages(library(psych, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(readxl, warn.conflicts=FALSE))
suppressMessages(library(rstatix, warn.conflicts=FALSE))
suppressMessages(library(stats, warn.conflicts=FALSE))
suppressMessages(library(ggstatsplot, warn.conflicts=FALSE))
options(warn=0)

Material

  • HTML de R Markdown em RPubs

IMPORTANTE

Os pacotes eirasdata e eiras, de nossa autoria, não foram colocados no CRAN. Estão disponíveis no repositório Harvard Dataverse e devem ser instalados nesta ordem:

Faça o download e instale-os se quiser replicar os exemplos desta aula.

Objetivos

  • Discorrer sobre os testes não-paramétricos, dando exemplos sobre vantagens e desvantagens em relação aos seus correspondentes paramétricos.
  • Reconhecer e indicar situações para a aplicação dos principais testes não-paramétricos.
  • Implementar os testes em R.

O que é um teste não-paramétrico?

Parque Arqueológico e Ambiental de São João Marcos
modificado de https://www.tripadvisor.com.br/

É uma versão de um teste paramétrico com suposições mais flexíveis sobre a variável de desfecho (VD).

São amplamente utilizados na literatura médica porque são considerados, quando as suposições de normalidade ou homocedasticidade dos testes paramétricos não são atendidas, uma alternativa útil em estudos com amostras pequenas, dados assimétricos ou escalas ordinais. Além disso, são considerados mais robustos a outliers e a desvios das suposições paramétricas, reduzindo o impacto de distribuições não normais na validade dos resultados.

Fagerland, 2012, BMC Med Res Methodol

Segundo Francis Sahngun Nahm:

Nahm, 2016, Korean Journal of Anesthesiology

Correspondência dos testes

  • correspondentes aos testes t:
    • de Student … U de Mann-Whitney: wilcox.test
    • de Welch/Satterthwaite … B de Brunner-Munzel: brunnermunzel::brunnermunzel.permutation.test
    • relacionado (“pareado”) … W de Wilcoxon: wilcox.test, exactRankTests::wilcox.exact
  • correspondentes aos testes ANOVA unifatorial (One-Way ANOVA):
    • grupos independentes … H de Kruskal-Wallis: kruskal.test, coin::kruskal_test, PMCMRplus::kwAllPairsDunnTest, rcompanion::groupwiseMedian, ggstatsplot::ggbetweenstats
    • medidas repetidas … Q de Friedman: friedman.test, pairwise.wilcox.test, PMCMRplus::friedmanTest, PMCMRplus::frdManyOneExactTest, PMCMRplus::frdAllPairsExactTest

Sobre população e amostras

População

Vamos, aqui, supor duas subpopulações (normocolesterolêmicos e hipercolesterolêmicos) e que, populacionalmente, sejam as seguintes as distribuições de colesterol total. A análise integral (impossível na prática) das duas subpopulações hipotéticas …


-----------
Populacao 1
-----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            11000.0000
mean           153.0875
median         144.8302
mode           139.1872
pseudomedian   148.9518

        ------------
        - quartiles:
        ------------
                    
Q1(min)     65.37866
Q2         129.83152
Q3(median) 144.83024
Q4         168.37434
Q5(max)    273.43297

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 32.86514
IQR    38.54282

        -----------
        - skewness:
        -----------
                     
Skewness    0.8693103
skwns.lower 0.8383607
skwns.upper 0.9043959

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis    0.08079561
krts.lower -0.02247742
krts.upper  0.17978811

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 36.696, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5000

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92888, p-value < 2.2e-16


-----------
Populacao 2
-----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            12000.0000
mean           203.4780
median         210.9088
mode           230.1973
pseudomedian   207.7071

        ------------
        - quartiles:
        ------------
                    
Q1(min)     44.16338
Q2         179.58677
Q3(median) 210.90879
Q4         238.07422
Q5(max)    325.06323

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 46.92544
IQR    58.48745

        -----------
        - skewness:
        -----------
                      
Skewness    -0.7355170
skwns.lower -0.7624642
skwns.upper -0.7050803

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis    0.06835507
krts.lower -0.00838759
krts.upper  0.14666366

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -23.429, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5000

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.95414, p-value < 2.2e-16

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
         Df F value    Pr(>F)    
group     1  1092.8 < 2.2e-16 ***
      22998                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
implementado com demo_ConfrontoPop.R

… mostra que as distribuições da variável de interesse para normocolesterolêmicos e hipercolesterolêmicos, respectivamente:

  • Não têm distribuição simétrica (DescTools::Skew)
    • IC 95% skewness: [0.835, 0.905] e [-0.764, -0.705]
    • Teste de simetria (lawstat::symmetry.test): p << 0.0001 e p << 0.0001
  • Não rejeita serem mesocúrticas (DescTools::Kurt) — a distribuição normal é mesocúrtica
    • IC 95% kurtosis excess: [-0.02, 0.183] e [-0.007, 0.157]
  • Não têm distribuição normal
    • Teste de Shapiro-Wilk (shapiro.test): p=8.48e-44 e p=4.71e-38
  • Suas variâncias diferem entre si (heterocedasticidade):
    • Teste de Levene (car::leveneTest): p=3.65e-234

A função shapiro.test do r-base admite, no máximo, 5000 observações (foi implementada para testar normalidade em amostras, nunca em populações inteiras). Pode localizar na saída e encontrará:
testing with n = 5000
Aqui, para poder utilizar o teste, obtivemos uma amostra de \(n=5000\) e presumimos que seja suficientemente grande para refletir bem a distribuição populacional.

Avaliação do formato da distribuição

Histogramas são habitualmente empregados para avaliar o formato da distribuição de uma variável intervalar, mas o gráfico apresentado acima mostra density plots. Esta escolha tem motivo.

Um exemplo (Behrens and Yu, 2003) fornece a seguinte série numérica:

\[x = \{1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10,10,11,11\}\]

Qual dos seguintes histogramas corresponde à distribuição de \(x\)?

implementado com demo_HistogramLies.R

Interessantemente, todos os histogramas foram obtidos com estes mesmos valores de \(x\), pois:

Não usamos histogramas!

Amostras

Não temos acesso à população, mas podemos simular, como se tivéssemos, para verificar quando os testes estatísticos são capazes de fornecer a resposta correta (neste exemplo, detectar que há diferença entre o colesterol total dos normo e hipercolesterolêmicos) a partir de amostras.

Duas amostras retiradas da população hipotética são:


---------
Amostra 1
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n              6.0000
mean         169.7634
median       148.7457
mode         145.0446
pseudomedian 178.6544

        ------------
        - quartiles:
        ------------
                   
Q1(min)    139.1742
Q2         143.0954
Q3(median) 148.7457
Q4         201.7061
Q5(max)    221.3430

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 38.96966
IQR    58.61067

        -----------
        - skewness:
        -----------
                      
Skewness     0.5100338
skwns.lower -0.5630817
skwns.upper  1.3466384

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -1.95588010
krts.lower -2.30286553
krts.upper -0.09514944

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.9745, p-value = 0.04832
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.73547, p-value = 0.01431


---------
Amostra 2
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n              8.0000
mean         213.1767
median       222.9184
mode         250.4468
pseudomedian 210.2412

        ------------
        - quartiles:
        ------------
                   
Q1(min)    160.2437
Q2         169.8988
Q3(median) 222.9184
Q4         253.6487
Q5(max)    254.5259

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 43.32652
IQR    83.74987

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1312085
skwns.lower -1.8101108
skwns.upper  1.0812654

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -2.0946197
krts.lower -2.2234786
krts.upper  0.8208881

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.7437, p-value = 0.4571
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 8

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.79045, p-value = 0.0226

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  1  0.7525 0.4027
      12               
implementado com demo_ConfrontoAmostra.R

Os resultados indicam:

  • Assimetria…
    • pelo IC 95%, não mostra skewness (DescTools::Skew): [-0.563, 1.347] e [-1.81, 1.081]
    • pelo teste de simetria, há assimetria na amostra dos normocolesterolêmicos (lawstat::symmetry.test): p=0.04832 e p=0.4571
  • A amostra dos normocolesterolêmicos é platicúrtica (DescTools::Kurt)
    • IC 95% kurtosis excess: [-2.303, -0.095] e [-2.223, 0.821]
      (a distribuição normal é mesocúrtica)
  • A normalidade é rejeitada para as duas amostras
    • Teste de Shapiro-Wilk (shapiro.test): p=0.01431 e p=0.0226
  • Não há evidência de heterocedasticidade:
    • Teste de Levene (car::leveneTest): p=0.4027

Testes

Assumimos, portanto, que temos duas condições independentes e, a partir das amostras, concluímos que a variável de interesse não tem distribuição normal nas duas condições. As hipóteses nulas de simetria (exceto por um dos testes) e homocedasticidade não foram rejeitadas, mas as amostras são de tamanho pequeno.

Neste tipo de situação espera-se o desempenho superior de testes não paramétricos, tidos como opções robustas e que prescindem das suposições exigidas pelos seus correspondentes paramétricos (no caso, testes t).

teste U de Mann-Whitney

Este é o teste mais tradicional, e mostra:


Teste U de Mann-Whitney Convencional:

    Wilcoxon rank sum test with continuity correction

data:  amostra1 and amostra2
W = 8, p-value = 0.04539
alternative hypothesis: true location shift is not equal to 0
implementado com demo_Confronto_MWW.R

Rejeitando a hipótese nula e indicando diferença da média de colesterol populacional dos dois grupos.

teste de Brunner-Munzel

Versão melhorada, publicada em 2000, obtém:


Teste U de Mann-Whitney Convencional:

    permuted Brunner-Munzel Test

data:  amostra1 and amostra2
p-value = 0.0373
sample estimates:
P(X<Y)+.5*P(X=Y) 
       0.8333333 
implementado com demo_Confronto_B.R

Também rejeita corretamente a hipótese nula, indicando diferença da média de colesterol populacional dos dois grupos.

t de Student

O teste t de Student (que supõe normalidade da variável na população e, portanto, não é o mais indicado aqui) mostra:


Teste t de Student:

    Two Sample t-test

data:  amostra1 and amostra2
t = -1.9339, df = 12, p-value = 0.07706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -92.324621   5.497896
sample estimates:
mean of x mean of y 
 169.7634  213.1767 
implementado com demo_Confronto_t.R

O teste t de Student não foi capaz de rejeitar a hipótese nula de igualdade entre as médias (i.e., não temos elementos para dizer que 169.76 mg/dl é estatisticamente diferente de 213.18 mg/dl).

t de Welch/Satterthwaite

O teste t de Welch/Satterthwaite mostra:


Teste t de Welch/Satterthwaite:

    Welch Two Sample t-test

data:  amostra1 and amostra2
t = -1.9657, df = 11.505, p-value = 0.07393
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -91.763377   4.936652
sample estimates:
mean of x mean of y 
 169.7634  213.1767 
implementado com demo_Confronto_t2.R

Este teste modifica os graus de liberdade levando em conta a heterocedasticidade e, com isso, tem outro valor p. No entanto, não se alterou a decisão: não se rejeita a igualdade da média de colestetol total dos dois grupos.

Aparentemente, então, tudo está bem e reforçamos a noção de que os testes não paramétricos correspondentes ao teste \(t\) foram capazes de indicar o que sabemos ser a resposta correta, pois simulamos as subpopulações. Além disso, os dois testes paramétricos correspondentes falharam em detectar a diferença de média de colesterol entre os grupos.

o que não foi explicado

Este foi um exemplo cuidadosamente escolhido, no qual a resposta foi incorreta para as duas versões de testes t a correta para os testes U e B.

Vamos usar o R como um laboratório, verificando o que acontece com os testes em diversas tentativas. Neste procedimento 20000 pares de reamostragens são feitas e, para cada uma das tentativas aplicamos os testes U, Brunner-Munzel, t de Student e t de Welch/Satterthwaite, obtendo:

Simulação com total de  20000  amostragens.

Tabela de contingencia (concordancia entre os testes):
             U MWW:H1 U MWW:H0
t Student:H1     9222     1443
t Student:H0      377     8958

Teste da concordância entre U MWW e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.818
    z = 115.6827, p = 0

Conclusão: há concordância entre os testes U MWW e t Student.

Tabela de contingencia (concordancia entre os testes):
           U MWW:H1 U MWW:H0
t Welch:H1     9332     1751
t Welch:H0      267     8650

Teste da concordância entre U MWW e t Welch:

    H0: G =  0
    H1: G <> 0

    G = 0.7982
    z = 112.8825, p = 0

Conclusão: há concordância entre os testes U MWW e t Welch.

Tabela de contingencia (concordancia entre os testes):
             Brunner-Munzel:H1 Brunner-Munzel:H0
t Student:H1              9367              1298
t Student:H0               492              8843

Teste da concordância entre Brunner-Munzel e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.821
    z = 116.1069, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e t Student.

Tabela de contingencia (concordancia entre os testes):
           Brunner-Munzel:H1 Brunner-Munzel:H0
t Welch:H1              9495              1588
t Welch:H0               364              8553

Teste da concordância entre Brunner-Munzel e t Welch:

    H0: G =  0
    H1: G <> 0

    G = 0.8048
    z = 113.8159, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e t Welch.

Tabela de contingencia (concordancia entre os testes):
         Brunner-Munzel:H1 Brunner-Munzel:H0
U MWW:H1              9544                55
U MWW:H0               315             10086

Teste da concordância entre Brunner-Munzel e U MWW:

    H0: G =  0
    H1: G <> 0

    G = 0.963
    z = 136.1888, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e U MWW.

Tabela de contingencia (concordancia entre os testes):
             t Welch:H1 t Welch:H0
t Student:H1      10458        207
t Student:H0        625       8710

Teste da concordância entre t Welch e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.9168
    z = 129.6551, p = 0

Conclusão: há concordância entre os testes t Welch e t Student.


Proporcao de Rejeicoes corretas:
    t de Student: 0.53325
    t de Welch: 0.55415
    U de Mann-Whitney: 0.47995
    Brunner-Munzel: 0.49295

Diferencas:

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(U MWW) =  0
    H1: p(t Student)-p(U MWW) <> 0
        est     lwr.ci     upr.ci
[1,] 0.0533 0.04351012 0.06307922

Conclusão: a proporção de rejeições corretas pelo t Student é superior à do U MWW.

Teste da diferença de proporcao de sucessos:
    H0: p(t Welch)-p(U MWW) =  0
    H1: p(t Welch)-p(U MWW) <> 0
        est     lwr.ci     upr.ci
[1,] 0.0742 0.06442597 0.08395919

Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do U MWW.

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(Brunner-Munzel) =  0
    H1: p(t Student)-p(Brunner-Munzel) <> 0
        est     lwr.ci     upr.ci
[1,] 0.0403 0.03050797 0.05008398

Conclusão: a proporção de rejeições corretas pelo t Student é superior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(t Welch)-p(Brunner-Munzel) =  0
    H1: p(t Welch)-p(Brunner-Munzel) <> 0
        est     lwr.ci     upr.ci
[1,] 0.0612 0.05142381 0.07096395

Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(U MWW)-p(Brunner-Munzel) =  0
    H1: p(U MWW)-p(Brunner-Munzel) <> 0
        est     lwr.ci       upr.ci
[1,] -0.013 -0.0227936 -0.003203797

Conclusão: a proporção de rejeições corretas pelo U MWW é inferior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(t Welch) =  0
    H1: p(t Student)-p(t Welch) <> 0
         est     lwr.ci      upr.ci
[1,] -0.0209 -0.0306576 -0.01113822

Conclusão: a proporção de rejeições corretas pelo t Student é inferior à do t Welch.

Os testes são concordantes entre si (usando a medida de concordância G de Holley e Guilford, 1964), mas a comparação da proporção de rejeições da hipótese nula de igualdade das amostras (DescTools::BinomDiffCI) mostra que ambos os testes t, de Student e de Welch/Satterthwaite têm desempenho significantemente superiores aos testes U de Mann-Whitney e B de Brunner-Munzel.

Falsa aparência?

O primeiro exemplo, com amostra única, teve que ser escolhido entre as 377 ocorrências de 20000 tentativas na quais a hipótese nula não foi (incorretamente) rejeitada pelo teste t de Student mas foi (corretamente) rejeitada por U de Mann-Whitney. Em todas as outras situações os dois testes concordaram (18180 ocorrências, em que ambos rejeitaram ou não rejeitaram \(H_0\)) ou apenas o teste t forneceu a rejeição corretamente (1443 ocorrências).

Considerando que a resposta correta (a população é simulada) é a rejeição da hipótese nula, frente a amostras pequenas e com distribuição populacional não normal, o teste t de Student não parece ser o mais indicado.

Porém, embora os dois testes concordem em geral, o teste não paramétrico U de Mann-Whitney teve desempenho significantemente pior do que o teste t de Student (a proporção de respostas corretas fornecidas teste U foi menor do que pelo teste t ).

Em relação ao teste t de Welch (que mostrou mais acertos que o t de Student), o desempenho do teste U foi ainda pior.

O teste de Brunner-Munzel, embora tenha mostrado melhora em comparação com Mann-Whitney, continuou inferior a ambos os testes t.

O cálculo não paramétrico: posto (rank)

Os testes paramétricos usam variáveis intervalares ou de razão (números) para comparar distribuições da variável dependente (VD) em duas ou mais condições (e.g., grupos, exposições, condições experimentais) e, assim, testar a hipótese nula de igualdade das médias.

Os testes não-paramétricos, em geral, usam os postos (ranks) para chegar a uma decisão estatística.

Como são atribuídos os postos?

Duas amostras hipotéticas, A e B, têm os seguintes valores:

A <- c(65,32,56,85,78,23)
B <- c(56,90,23,56,34)

dt_AB <- data.frame(c(A,B))
names(dt_AB) <- "valor"
dt_AB$grupo <- c(rep("A",length(A)),rep("B",length(B)))
print(dt_AB)
   valor grupo
1     65     A
2     32     A
3     56     A
4     85     A
5     78     A
6     23     A
7     56     B
8     90     B
9     23     B
10    56     B
11    34     B

Coloca-se os valores em ordem, preservando a condição de origem (A ou B):

dt_AB <- dt_AB[order(dt_AB$valor),]
dt_AB$ordem <- 1:nrow(dt_AB)
print(dt_AB)
   valor grupo ordem
6     23     A     1
9     23     B     2
2     32     A     3
11    34     B     4
3     56     A     5
7     56     B     6
10    56     B     7
1     65     A     8
5     78     A     9
4     85     A    10
8     90     B    11

Atribui-se os postos (existe a função rank para isto), considerando-se os empates:

dt_AB$posto <- rank(dt_AB$valor)
print(dt_AB)
   valor grupo ordem posto
6     23     A     1   1.5
9     23     B     2   1.5
2     32     A     3   3.0
11    34     B     4   4.0
3     56     A     5   6.0
7     56     B     6   6.0
10    56     B     7   6.0
1     65     A     8   8.0
5     78     A     9   9.0
4     85     A    10  10.0
8     90     B    11  11.0

Como os postos são utilizados, depende do teste. Neste exemplo, para um teste baseado em soma dos postos, podemos obter:

dt_AB <- dt_AB[order(dt_AB$grupo),]
print(dt_AB)
   valor grupo ordem posto
6     23     A     1   1.5
2     32     A     3   3.0
3     56     A     5   6.0
1     65     A     8   8.0
5     78     A     9   9.0
4     85     A    10  10.0
9     23     B     2   1.5
11    34     B     4   4.0
7     56     B     6   6.0
10    56     B     7   6.0
8     90     B    11  11.0
print(sum(dt_AB$posto[dt_AB$grupo=="A"]))
[1] 37.5
print(sum(dt_AB$posto[dt_AB$grupo=="B"]))
[1] 28.5

A inferência dependerá, neste caso, da soma dos postos ligados a cada uma das condições.

\[~\] Não são os postos que estão em comparação

Por causa do procedimento não-paramétrico empregar postos, é muito comum se afirmar que estes testes avaliam e decidem em relação à uma hipótese nula formulada sobre os postos.

Não é assim. O posto (rank) da variável de desfecho (VD) é um artifício estatístico (estatística de ordem) para comparar distribuições da VD nas condições e assim testar a hipótese nula.

Posto é impostor!

As conclusões de um teste não paramétrico NÃO são sobre os postos, mas sobre a VD em sua forma original.

A VD continua tendo sua natureza intervalar ou ordinal.

distribuição de postos

Apenas para reforçar que os testes não-paramétricos NÃO avaliam os postos (mas a VD original) podemos comparar como ficaria estranha a distribuição dos postos para as duas amostras que obtivemos. Como, neste exemplo, dificilmente há empates, a distribuição dos postos torna-se uniforme (com curvas descendentes nos extremos apenas porque é desta forma que um densityplot fecha a curva para ter área igual a um):
implementado com demo_ConfrontoAmostrasRank.R

ou observar como ficariam amostras 10 vezes maiores…

implementado com demo_ConfrontoAmostrasRank2.R
Parque Arqueológico e Ambiental de São João Marcos
modificado de https://www.tripadvisor.com.br/

U de Mann-Whitney: teste para duas condições independentes

  • não-paramétrico
    • U de Mann-Whitney
    • B de Brunner-Munzel
  • paramétrico
    • t de Student
    • t de Welch (Satterthwaite)

   

Matemático, desenvolveu o teste U que recebe seu nome em conjunto com seu aluno de doutorado, Donald Ransom Whitney.

O teste de soma de postos, inicialmente proposto por Wilcoxon em 1945, previa apenas amostras de igual tamanho; foi generalizado por Mann e Whitney para tamanhos arbitrários de amostra em 1947.

Entrou para a Ohio State University em 1946, como professor assistente do Departamento de Matemática. Colaborou com Henry Mann para desenvolver o teste que levou seus nomes. Envolveu-se na criação de métodos de computação numérica, um predecessor do Instructional Research Computer Center. Teve papel importante em estabelecer estatística como um departmento separado da Matemática in 1973.

   

Donald Ransom Whitney (1915-2007)
http://www.portalaction.com.br/tecnicas-nao-parametricas

   

Universitätsmedizin Göttingen · Department of Medical Statistics

Matemático alemão, formado em 1969 pela Rheinisch-Westfälische Technische Hochschule, com doutorado em matemática pela mesma universidade em 1971 e habilitação em estatística médica em 1973. Foi professor universitário de 1976 a 2009 e diretor do Departamento de Estatística Médica do Centro de Tecnologia da Informação, Estatística e Epidemiologia do Centro Médico Universitário de Göttingen.

Georg-August-Universität Göttingen.

Obteve seu doutorado nesta universidade em 1996 com a tese Multivariate nichtparametrische Verfahren für feste Faktoren in mehrfaktoriellen Versuchsanlagen (Métodos não paramétricos multivariados para fatores fixos em sistemas experimentais multifatoriais), orientado por Edgar Brunner, com quem também publicou Nichtparametrische Datenanalyse: Unverbundene Stichproben (Statistik und ihre Anwendungen) (Análise de dados não paramétricos: amostras não pareadas (estatísticas e suas aplicações)), em 2002, do qual localizei apenas o original em alemão.

Não conseguimos, até o momento, mais informações a seu respeito, nem se está ativo.

   

Ullrich Munzel ()

Testes U e B

Como o teste U de Mann-Whitney é generalização de uma proposta original de Wilcoxon, existe uma confusão com os nomes destes testes na literatura. É encontrado como:

  • Teste U de Mann-Whitney
  • Wilcoxon Rank Sum Test
  • Teste da soma dos postos
  • abreviado como MWW ou WMW

O teste U testa a hipótese nula de igualdade das medianas populacionais da VD ordinal ou intervalar em duas condições independentes, portanto é o correspondente não-paramétrico do teste t de Student.

O teste B de Brunner-Munzel (2000) é conhecido também como Teste de Mann-Whitney-Wilcoxon generalizado. É o correspondente ao teste t de Welch/Satterthwaite e, portanto, relaxa a suposição de homocedasticidade (Fagerland, 2012).

Supõe, para a VD nas duas condições independentes (Conover, 1999):

  • independência das observações.
  • variável ordinal ou intervalar,
  • simetria e homocedasticidade,
  • o mesmo formato da distribuição,

Suposições? Não são testes distribution-free?

Os testes não paramétricos, ao contrário do que se diz por aí, não são totalmente livres de suposições.

Veremos adiante que, além do U de Mann-Whitney, outros testes também podem ter até mais suposições ou suposições mais difíceis de serem atendidas do que aquelas dos testes paramétricos.

Neste caso, dependendo da variável, pode ser difícil que não existam muitos empates. A homocedasticidade pode problema, pois requer o cálculo da variância de cada amostra (como fazer com variáveis ordinais)? Embora não necessite da distribuição normal, requer o mesmo formato das distribuições; como testar formato da distribuição ou, pelo menos a simetria de variáveis ordinais?

Existem possibilidades, claro… mas muito menos conhecidas e habitualmente não praticadas porque muitos acreditam que não são necessárias, dado a fama de “distribuition-free” e de robustez que estes testes adquiriram. Então os pesquisadores assumem, sem perceber, que as suposições desconhecidas estão bem atendidas e que o teste não paramétrico traz melhores decisões estatísticas.

Se houver simetria, é indiferente formular a hipótese nula como diferença de médias ou medianas, mas resultados diferentes serão esperados com distribuições assimétricas (Fagerland e Sandvik, 2009). Supondo que são testes de igualdade de medianas populacionais, deveríamos formular:

\[\begin{align} H_0&: \text{mediana}_A = \text{mediana}_B\\ H_1&: \text{mediana}_A \ne \text{mediana}_B\\ \alpha&=0.05 \end{align}\]

Exemplo 1

Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).

As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco, 3=Medianamente, 4=Muito, 5=Totalmente simpático.

Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert (VD ordinal). É, portanto, possível indicar um teste não-paramétrico como solução.

Os testes de Mann-Whitney-Wilcoxon e de Brunner-Munzel foram implementados em demo_MWW.R para comparação. Os testes feitos aqui são

  • U de Mann-Whitney-Wilcoxon (homocedástico): método assintótico com wilcox.test ,
  • U de Mann-Whitney-Wilcoxon (homocedástico): método exato com exactRankTests::wilcox.exact
  • U de Mann-Whitney-Wilcoxon (homocedástico): método bootstrapping com coin::wilcox_test
  • B de Brunner-Munzel (heterocedástico): lawstat::brunner.munzel.test.

Obtém-se:


Com treino: 2 3 3 3 3 3 4 4 4 5
    mediana = 3
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    mediana = 3

Diferenca das medianas amostrais (Com treino - Sem treino) = 0

Teste U de Mann-Whitney Convencional (homocedástico):

    Wilcoxon rank sum test

data:  Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 9.544709e-06 1.999935e+00
sample estimates:
difference in location 
                     1 


Teste U de Mann-Whitney Exato (homocedástico):

    Exact Wilcoxon rank sum test

data:  SemTreino and ComTreino
W = 30.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 -2  0
sample estimates:
difference in location 
                  -0.5 


Teste U de Mann-Whitney Bootstrapping (homocedástico):

    Approximative Wilcoxon-Mann-Whitney Test

data:  Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04868
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0 1
sample estimates:
difference in location 
                     1 


Teste B de Brunner-Munzel (heterocedástico):

    Brunner-Munzel Test

data:  SemTreino and ComTreino
Brunner-Munzel Test Statistic = 2.5443, df = 18.934, p-value = 0.01983
95 percent confidence interval:
 0.5435583 0.9481084
sample estimates:
P(X<Y)+.5*P(X=Y) 
       0.7458333 
implementado com demo_MWW.R

Com ambos os testes rejeita-se a hipótese nula de que as medianas populacionais são iguais para \(\alpha=0.05\).

Como se explica, se estamos comparando medianas dos dois grupos, que as medianas dos grupos neste exemplo sejam numericamente iguais, mas os testes encontrem diferença estatisticamente significante?

Intervalos de confiança

Vamos utilizar demo_MWW_2.R para observar as distribuições das respostas:


Dados:
   Treino Simpatia
1     Com        2
2     Com        3
3     Com        3
4     Com        3
5     Com        3
6     Com        3
7     Com        4
8     Com        4
9     Com        4
10    Com        5
11    Sem        1
12    Sem        2
13    Sem        2
14    Sem        2
15    Sem        2
16    Sem        3
17    Sem        3
18    Sem        3
19    Sem        3
20    Sem        3
21    Sem        3
22    Sem        4


Intervalos de confiança 95%:
  Treino  n Median Boot.median Conf.level Percentile.lower Percentile.upper
1    Com 10      3        3.26       0.95                3                4
2    Sem 12      3        2.71       0.95                2                3

implementado com demo_MWW_2.R

Qual, então, foi a hipótese nula testada?

“Contrary to common belief, the Mann-Whitney U test does not compare the medians between groups. This is only true under the assumption that the distribution has the same shape in both groups and differs only by its location.”
Schober & Vetter, 2020

Os testes U e B, de alguma maneira, são afetados pelas diferenças nas distribuições.

Pseudomediana

Hodges–Lehmann estimator: Wikipedia

A pseudomediana é uma medida de tendência central (uma alternativa às mais tradicionais como média e mediana) que serve rigorosamente para variável intervalar, mas que pode ser usada para variável ordinal em algumas situações (e.g., item Likert ou diferencial semântico). Quando a distribuição é simétrica, esta medida coincide com as outras medidas. No entanto, quando a distribuição é assimétrica, ela é diferente da mediana e da média.

A função DescTools::HodgesLehmann calcula a pseudomediana:


Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    mediana = 3
    pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    mediana = 3
    pseudomediana = 2.5

Location shift = 1

    Wilcoxon rank sum test

data:  Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 9.544709e-06 1.999935e+00
sample estimates:
difference in location 
                     1 

implementado com demo_MWW_pm.R

“the HL [the Hodges-Lehmann] estimation method [provides a estimative of] location shift model.”

“the HL-estimator estimates the difference of median if the distributions of the two samples are symmetric about their respective medians.”

Rosenkranz, 2010.

A pseudomediana é obtida pela mediana das médias (Walsh averages) de todas as possíveis combinações dos pares de valores amostrais, incluindo cada elemento consigo mesmo.

Como é calculada a pseudomediana?

Hollander et al., 2014, p. 56-63

Implementamos em demo_PseudoMediana.R, um exemplo que utiliza apenas cinco valores.

# demo_PseudoMediana.R

v <- c(8,8,11,12,20)
v <- c(2,3,3,3,3,3,4,4,4,5)

cat("\nValores:",v," (total de",length(v),"valores)\n")
m <- c()
par <- 0
for (i1 in 1:length(v))
{
  for (i2 in i1:length(v))
  {
    par <- par+1
    cat("\npar ",par,": ",v[i1]," e ",v[i2],
        ", média = ",mean(c(v[i1],v[i2])),sep="")
    m <- c(m,mean(c(v[i1],v[i2])))
  }
}
cat("\n\nPseudomediana = ",median(m),
", obtida de ",par," pares de valores.\n",sep="")

Observe os pares formados e a pseudomediana (mediana das médias dos pares):

source("demo_PseudoMediana.R")

Valores: 2 3 3 3 3 3 4 4 4 5  (total de 10 valores)

par 1: 2 e 2, média = 2
par 2: 2 e 3, média = 2.5
par 3: 2 e 3, média = 2.5
par 4: 2 e 3, média = 2.5
par 5: 2 e 3, média = 2.5
par 6: 2 e 3, média = 2.5
par 7: 2 e 4, média = 3
par 8: 2 e 4, média = 3
par 9: 2 e 4, média = 3
par 10: 2 e 5, média = 3.5
par 11: 3 e 3, média = 3
par 12: 3 e 3, média = 3
par 13: 3 e 3, média = 3
par 14: 3 e 3, média = 3
par 15: 3 e 3, média = 3
par 16: 3 e 4, média = 3.5
par 17: 3 e 4, média = 3.5
par 18: 3 e 4, média = 3.5
par 19: 3 e 5, média = 4
par 20: 3 e 3, média = 3
par 21: 3 e 3, média = 3
par 22: 3 e 3, média = 3
par 23: 3 e 3, média = 3
par 24: 3 e 4, média = 3.5
par 25: 3 e 4, média = 3.5
par 26: 3 e 4, média = 3.5
par 27: 3 e 5, média = 4
par 28: 3 e 3, média = 3
par 29: 3 e 3, média = 3
par 30: 3 e 3, média = 3
par 31: 3 e 4, média = 3.5
par 32: 3 e 4, média = 3.5
par 33: 3 e 4, média = 3.5
par 34: 3 e 5, média = 4
par 35: 3 e 3, média = 3
par 36: 3 e 3, média = 3
par 37: 3 e 4, média = 3.5
par 38: 3 e 4, média = 3.5
par 39: 3 e 4, média = 3.5
par 40: 3 e 5, média = 4
par 41: 3 e 3, média = 3
par 42: 3 e 4, média = 3.5
par 43: 3 e 4, média = 3.5
par 44: 3 e 4, média = 3.5
par 45: 3 e 5, média = 4
par 46: 4 e 4, média = 4
par 47: 4 e 4, média = 4
par 48: 4 e 4, média = 4
par 49: 4 e 5, média = 4.5
par 50: 4 e 4, média = 4
par 51: 4 e 4, média = 4
par 52: 4 e 5, média = 4.5
par 53: 4 e 4, média = 4
par 54: 4 e 5, média = 4.5
par 55: 5 e 5, média = 5

Pseudomediana = 3.5, obtida de 55 pares de valores.
implementado com demo_PseudoMediana.R

Como alternativa à função DescTools::HodgesLehmann, implementamos demo_MWW_pm2.R para o exemplo das atendentes de telemarketing, computando-se:


Com treino: 2 3 3 3 3 3 4 4 4 5
    pares: 55 combinações possíveis
    pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    pares: 78 combinações possíveis
    pseudomediana = 2.5
implementado com demo_MWW_pm2.R

Finalmente, também podemos ver como a pseudomediana seria obtida por bootstrapping, o que também fornece os intervalos de predição de 95%:

implementado com demo_MWW_pm3.R

Os testes U e B, portanto, são testes de shift, do qual a pseudomediana é uma medida. As hipóteses nulas, então, precisam ser reescritas:

\[\begin{align} H_0&: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1&: \text{pseudomediana}_A \ne \text{pseudomediana}_B\\ \alpha&=0.05 \end{align}\]

Pseudomediana… ordinal?

Como vimos, a pseudomediana toma todos os pares de valores (combinados dois a dois), faz a média dos pares e toma a a mediana destas médias. Não há problema para uma variável de desfecho intervalar. A hipótese nula enunciada acima, rigorosamente só serve para variáveis intervalares.

No entanto, uma das vantagens apregoadas é que o teste U de Mann-Whitney é lidar com variáveis ordinais. Pergunta-se:

  • Calcula-se a média dos pares de variáveis ordinais?

Podemos responder ‘sim’ e ‘não’; definir a natureza da variável é prerrogativa do pesquisador. Um item Likert ou diferencial semântico que tenha uma gradação (e.g., Nada simpático, Pouco, Medianamente, Muito, Totalmente simpático) à qual seja atribuído um número (e.g., 1, 2, 3, 4, 5), fazer a média significa aproximá-lo a uma variável intervalar.

  • O que fazer com outras ordinais?

O que é razoável fazer, por exemplo, com nível de educação formal (nunca foi à escola, fundamental incompleto, fundamental completo, médio incompleto, médio completo, superior incompleto e superior completo)? Muitos aplicariam um teste U, pois calcularia os postos. No entanto, já vimos que os postos são apenas um artifício para evitar calcular todas as combinatórias. O que está em jogo, sendo a pseudomediana, é que poderíamos calcular:

\[\frac{\text{médio incompleto} + \text{superior completo}}{2} = \text{?}\]

  • Quando mais se pensa sobre este teste, não sendo mediana ou pseudomediana parâmetro de nenhuma distribuição, qual é a estatística populacional que podemos usar na hipótese nula?

\(H_0:\) ? \(=\) ?

\(H_1:\) ? \(\ne\) ?

O artigo seminal de Hodges Jr. & Lehmann (1963) propõe a seguinte hipótese nula para o teste U de Mann-Whitney é

\[H_0: \Delta = 0\] sendo que \(\hat{\Delta}\) é a mediana de todas as diferenças entre cada valor de uma amostra e todos os valores da outra amostra. Portanto, os autores implicitamente assumem que o formato da distribuição é o mesmo nos dois grupos, o que é inverossímil. Além disto, novamente esta hipótese só é aplicável para variáveis de desfecho intervalares.

Dadas duas amostras, \(X = \{x_1, x_2, x_3, \ldots, x_m\}\) e \(Y = \{y_1, y_2, y_3, \ldots, y_n\}\), existem \(m \cdot n\) pares para produzir as diferenças:

\[\hat{\Delta} = \text{mediana}(x_i - y_j)\] Este \(\hat{\Delta}\) é a estimativa do \(\Delta\) populacional, que é o deslocamento da distribuição entre os grupos (location shift).

A ideia de pseudomediana parece ter vindo do mesmo artigo, e talvez por isso o pacote DescTools calcula a pseudomediana com a função DescTools::HodgesLehmann. A diferença das pseudomedianas é uma aproximação do \(\hat{\Delta}\):

\[\text{pseudomediana}_X = \text{mediana}\left(\dfrac{x_i + x_j}{2}\right)\] \[\text{pseudomediana}_Y = \text{mediana}\left(\dfrac{y_i + y_j}{2}\right)\] No exemplo das atendentes de telemarketing, os valores de \(\hat{\Delta}\) e da diferença de pseudomedianas coincidem:


Dadas duas amostras:
 Com treino: 2, 3, 3, 3, 3, 3, 4, 4, 4, 5
 Sem treino: 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4
 Diferenças: 1, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -2, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 4, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 1
Obtém-se Delta = 1 (120 pares de valores)
 Pseudomediana(Com Treino) = 3.5 (55 pares de valores)
 Pseudomediana(Sem Treino) = 2.5 (78 pares de valores)
Dif. das pseudomedianas = 1
implementado com demo_MWW_delta.R

Verificando com outros conjuntos de dados (\(n=30\) e \(n=20\)), gerados aleatoriamente, percebe-se que os valores nem sempre são iguais:


Dadas duas amostras:
 Grupo 1: 7.062, 5.31, 3.277, 4.106, 3.122, 5.649, 4.985, 6.77, 8.848, 5.63, 2.151, 2.7, 6.882, 7.213, 8.144, 1.148, 7.164, 8.796, 4.688, 9.967, 9.812, 7.933, 8.127, 1.866, 2.646, 7.91, 5.353, 6.445, 1.775, 4.918
 Grupo 2: 9.883, 16.555, 10.52, 17.601, 13.583, 10.496, 16.547, 12.241, 11.762, 15.47, 16.624, 8.21, 9.318, 16.366, 11.407, 12.274, 12.375, 18.846, 11.873, 12.541

Obtém-se Delta = -7.425 (600 pares de valores)

Calculando pseudomedianas com função própria:

 Pseudomediana(Grupo 1) = 5.702 (465 pares de valores)
 Pseudomediana(Grupo 2) = 13.16975 (210 pares de valores)
Dif. das pseudomedianas = -7.46775

Calculando pseudomedianas com o pacote DescTools:

 Pseudomediana(Grupo 1) = 5.702
 Pseudomediana(Grupo 2) = 13.16975
Dif. das pseudomedianas = -7.46775
implementado com demo_MWW_deltarand.R

Testes t

t de Student

Embora não seja o mais indicado, o teste t de Student assume distribuição normal e homocedasticidade populacionais. Além disto não serve para variáveis ordinais.

Desconsiderando tais premissas, por exercício, vamos supor que o item Likert é uma variável intervalar (numérica) e, portanto, aplicamos o teste t.

\[\begin{align} H_0&: \mu_A = \mu_B\\ H_1&: \mu_A \ne \mu_B\\ \alpha&=0.05 \end{align}\]

A implementação em demo_MWW_tStudent.R obtém:


Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    d.p. = 0.7929615
    n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    d.p. = 0.843274
    n = 10

Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667

    Two Sample t-test

data:  ComTreino and SemTreino
t = 2.3374, df = 20, p-value = 0.02992
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.08786362 1.54546971
sample estimates:
mean of x mean of y 
 3.400000  2.583333 

implementado com demo_MWW_tStudent.R

Observe que as hipóteses nulas de simetria foram rejeitadas para as duas condições (premissa para o teste U, mas não para o teste B), embora normalidade não tenha sido rejeitada (os testes nem sempre são consistentes entre si). Além disto, os dois grupos não podem ser considerados heterogêneos em variância pela avaliação com estas amostras (homocedasticidade é premissa para o teste t de Student, mas não para o t de Welch).

Apesar de violarmos parte de suas premissas, a conclusão é a mesma que conseguimos com os testes não-paramétricos: rejeita-se a hipótese nula de igualdade de escores dos grupos ‘Sem Treino’ e ‘Com Treino’.

Este script utilizou a função shape.test que implementamos em eiras.shape.test.R, que faz uma descrição breve da anatomia das distribuições. Fornece medidas de tendência central, separatrizes (quartis), medidas de dispersão, simetria (skewness) e excesso de curtose (kurtosis) com intervalos de confiança, além de testar simetria (teste de Miao-Gel-Gastwirth) e normalidade (teste de Shapiro-Wilk) estatisticamente.

  • assimetria (skewness)*

Esta é uma medida de assimetria:

  • negativa (cauda mais longa à esquerda),

  • simétrica (caudas iguais),

  • positiva (cauda mais longa à direita).

  • curtose (kurtosis)*

O excesso de curtose é medida de quanto os valores estão concentrados. A distribuição normal é a referência, com excesso de curtose nulo. As distribuições podem ser:

  • platicúrticas (curtose negativa, dados menos concentrados ao redor da tendência central),
  • mesocúrticas (curtose nula),
  • leptocúrticas (curtose positiva, dados mais concentrados ao redor da tendência central).

t de Welch / Satterthwaite

Este teste t faz as correções necessárias para heterocedasticidade, na medida do necessário. As premissas são verificadas novamente porque a função shape.test, de nossa autoria, é chamada nos dois scripts (por completude).

Com a implementação em demo_MWW_t.R obtemos:


Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    d.p. = 0.7929615
    n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    d.p. = 0.843274
    n = 10

Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667

    Welch Two Sample t-test

data:  ComTreino and SemTreino
t = 2.3238, df = 18.799, p-value = 0.03151
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.08056125 1.55277209
sample estimates:
mean of x mean of y 
 3.400000  2.583333 

$emmeans
 Treino emmean    SE df lower.CL upper.CL
 Com      3.40 0.258 20     2.86     3.94
 Sem      2.58 0.236 20     2.09     3.07

Confidence level used: 0.95 

$contrasts
 contrast  estimate    SE df t.ratio p.value
 Com - Sem    0.817 0.349 20   2.337  0.0299

implementado com demo_MWW_t.R

O valor p mudou um pouco (observe, também, os graus de liberdade, que agora são fracionários), mas a conclusão é a mesma. Além das mesmas premissas avaliadas pelo teste t de Student, este script adiciona as médias marginais estimadas (emmeans), que trazem os intervalos de confiança corrigidos após a aplicação do modelo estatístico.

A principal diferença em relação ao teste t de Student é que o teste t de Welch (Satterthwaite) é robusto à heterocedasticidade (mas, neste exemplo, a homocedasticidade foi testada e não rejeitada).

Em comparação com seus correspondentes não paramétricos, o teste t tem hipótese nula mais clara: a inferência é sobre as médias populacionais da Simpatia, que é maior no grupo com treinamento.

t por bootstrapping

Duas formas de executar o mesmo teste por bootstrapping estão implementadas em demo_MWW_tboot.R:

  • um teste t para duas condições independentes utilizando bootstrapping pivotal.
  • uma implementação de ANOVA unifatorial independente (ANOVA, quando feito para apenas dois grupos, corresponde a um teste t).

Obtém-se:


One sample t test (1e+05 reamostragens, bootstrapping pivotal)
Intervalo de confiança 95% e mediana:
      2.5%        50%      97.5% 
0.02803798 0.81666667 1.51673185 


Independent One-way ANOVA (1e+05 reamostragens, funcao lmboot::ANOVA.boot)
F(1,20) = 5.35823, p = 0.03137
implementado com demo_MWW_tboot.R

As conclusões são, novamente, as mesmas que conseguimos com os testes anteriores (rejeitando-se a igualdade de médias entre os grupos ‘Sem Treino’ e ‘Com Treino’):

  • o teste t pivotal não fornece valor p mas a decisão estatística é dada pelo intervalo de confiança 95%, acima e não contendo o valor zero (diferenças computadas com ‘Com Treino’ - ‘Sem Treino’).
  • ANOVA foi implementada com lmboot::ANOVA.boot, retornando valor p que usamos, reversamente, para encontrar o valor \(F\) observado com a função qf (nativa do R: dada a probabilidade e os graus de liberdade, retorna a estatística \(F\) correspondente).

W de Wilcoxon: teste para duas condições dependentes

  • não-paramétrico
    • W de Wilcoxon
  • paramétrico
    • one-sample t

Frank Wilcoxon (1892 - 1965)
    Tornou-se conhecido por ter desenvolvido dois testes muito utilizados: o Teste de Soma de Postos (Wilcoxon Rank Sum Test), que é equivalente ao teste U de Mann-Whitney, e o Teste de Postos com Sinais (Wilcoxon Signed Rank Test).
Rosner (1995)

O nome deste teste pode ser encontrado como:

  • Teste de Wilcoxon
  • Wilcoxon Signed Rank Test
  • Teste de postos com sinais

O teste W de Wilcoxon testa a hipótese nula de igualdade das médias populacionais da VD quantitativa em duas condições dependentes. É, portanto, correspondente ao teste t relacionado.

Conover (1999) sumariza as suposições:

  • a distribuição das diferenças deve ser simétrica.
  • as diferenças devem ser independentes entre si.
  • todas as diferenças precisam ter a mesma média.
  • a medida das diferenças deve ser pelo menos intervalar.

A VD não pode ser, consequentemente, ordinal.

Wilcoxon , 1945

Sobre o formato da distribuição, a restrição é forte: este teste não deve ser usado se não estiver claro que a distribuição das diferenças entre os pares de medidas tem distribuição simétrica (Munzel, 1999).

Exemplo 2

Enfermeiros receberam um questionário que media o nível de simpatia com pacientes que sofrem de esclerose múltipla (EM). Para cada enfermeiro, um escore total INTERVALAR que varia entre 1 e 10 foi observado. Os enfermeiros então participaram de um grupo de discussão (uma hora), que incluía pacientes com EM. Mais tarde, um questionário parecido foi dado novamente a eles.

Trata-se, portanto, de um delineamento intraparticipantes, pois os mesmos participantes estão sendo medidos nas condições “antes” e “depois”. Nossa hipótese é de que haverá uma mudança significante entre os escores dos dois questionários aplicados, de modo que estes sejam diferentes (maiores) após a participação no grupo de discussão.

\[\begin{align} H_0&: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} = 0\\ H_1&: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} \ne 0\\ \alpha&=0.05 \end{align}\]

Os dados estão em Simpatia.xlsx. O teste, que utiliza a diferença entre os escores obtidos de cada enfermeiro entre os dois momentos estudados, está implementado em demo_Wilcoxon.R:

   Antes Depois
1      5      7
2      6      6
3      2      3
4      4      8
5      6      7
6      7      6
7      3      7
8      5      8
9      5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7

----------
Diferencas
----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            10.0000000
mean          1.7000000
median        1.5000000
mode          0.6912619
pseudomedian  1.5000000

        ------------
        - quartiles:
        ------------
                
Q1(min)    -1.00
Q2          0.25
Q3(median)  1.50
Q4          3.00
Q5(max)     4.00

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.766981
IQR    2.750000

        -----------
        - skewness:
        -----------
                       
Skewness    -0.02610158
skwns.lower -0.82720157
skwns.upper  0.82739979

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6457394
krts.lower -1.9740000
krts.upper -0.1579402

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.44529, p-value = 0.6561
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 10

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.93041, p-value = 0.4519

Grafico guardado em image/densDifs_W.png

Teste W de Wilcoxon Convencional:

    Wilcoxon signed rank test

data:  Depois and Antes
V = 34, p-value = 0.024
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 0.9999672 3.5000396
sample estimates:
(pseudo)median 
      2.170837 


Teste W de Wilcoxon Exato:

    Exact Wilcoxon signed rank test

data:  Depois and Antes
V = 34, p-value = 0.03125
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0.5 4.0
sample estimates:
(pseudo)median 
          2.25 
implementado com demo_Wilcoxon.R

Este é o density plot das diferenças obtido com os valores amostrais:

Concluímos que a média das notas recebidas pelos enfermeiros após grupo de discussão diferem para \(\alpha=0.05\); podemos dizer que aumentaram porque Depois-Antes é maior que zero.

Note que a restrição forte sobre simetria foi testada. Como a amostra é pequena, verificou-se, além da simetria, se a distribuição das diferenças passa por um teste de normalidade.

O teste W de Wilcoxon utiliza a mesma função wilcox.test() utilizada para o teste U, mas muda-se o parâmetro paired=TRUE.

teste t relacionado

teste t relacionado, versão analítica

Sendo a variável numérica, uma forma simples de se obter o teste t para medidas repetidas é, meramente, fazer um teste t com um único conjunto de dados: a diferença Depois-Antes observada em cada enfermeiro. Como o teste W de Wilcoxon utiliza também variáveis intervalares, a hipótese nula pode ser escrita da mesma forma ou, como alguns preferem, para explicitar que o conjunto de dados é único, utilizar a diferença computada por \(\mu_D = \mu_\text{Depois} - \mu_\text{Antes}\) para expressar:

\[\begin{align} H_0&: \mu_D = 0\\ H_1&: \mu_D \ne 0\\ \alpha&=0.05 \end{align}\]

Implementamos demo_Wilcoxon_t.R. Obtém-se:

# A tibble: 10 × 2
   Antes Depois
   <dbl>  <dbl>
 1     5      7
 2     6      6
 3     2      3
 4     4      8
 5     6      7
 6     7      6
 7     3      7
 8     5      8
 9     5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7


-------
Teste t
-------

    One Sample t-test

data:  v
t = 3.0424, df = 9, p-value = 0.01396
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 0.4359779 2.9640221
sample estimates:
mean of x 
      1.7 
implementado com demo_Wilcoxon_t.R

A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo.

teste t relacionado por bootstrapping

Utilizando-se bootstrapping pivotal, o resultado é:

# A tibble: 10 × 2
   Antes Depois
   <dbl>  <dbl>
 1     5      7
 2     6      6
 3     2      3
 4     4      8
 5     6      7
 6     7      6
 7     3      7
 8     5      8
 9     5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7

One-sample t test (1e+05 replicates)
     2.5%       50%     97.5% 
0.4089866 1.7000000 3.0211138 
implementado com demo_Wilcoxon_tboot.R

A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo. Esta decisão é tomada pelo intervalo de confiança 95%, que não inclui e está à direita do valor nulo.

H de Kruskal-Wallis: teste para mais três ou mais condições independentes

  • não-paramétrico
    • H de Kruskal-Wallis
  • paramétrico
    • One-way ANOVA

Filho de Lillian Oppenheimer, pioneira e difusora do origami nos Estados Unidos. Irmão dos também matemáticos Joseph Kruskal e Martin Kruskal. Estudou matemática na Universidade Harvard, e obteve o doutorado em 1955 na Universidade Columbia. Foi mais tarde professor da Universidade de Chicago. De 1958 a 1961 foi editor do Annals of Mathematical Statistics. Em 1971 foi presidente do Institute of Mathematical Statistics, e em 1982 presidente da American Statistical Association. Em 1990 tornou-se professor emérito.

   

William Henry Kruskal (1919-2005)
https://arxiv.org/pdf/0710.5063.pdf

   

Estatístico americano. Wallis formou-se em psicologia pela Universidade de Minnesota em 1932. Ele então estudou economia em Minnesota e na Universidade de Chicago. Posteriormente, ele ocupou cargos nos departamentos de economia em nas Universidades de Columbia, Yale e Stanford. De 1946 a 1962, ele foi Professor de Estatística na Business School of Chicago University. Seu artigo com Kruskal sobre o teste H de Kruskal-Wallis foi publicado em 1952. De 1951 a 1959, ele foi Editor do Journal of the American Statistical Association. Em 1962 mudou-se para a Universidade de Rochester (1975–82). Após a aposentadoria da vida universitária, foi nomeado subsecretário de Estado para os Assuntos Econômicos (até 1989). Ele foi agraciado com o Prêmio Wilks da ASA em 1980.

teste H de Kruskal-Wallis

Testa a hipótese nula de igualdade das pseudomedianas populacionais da VD ordinal ou intervalar em três ou mais condições independentes. Corresponde, portanto, à ANOVA unifatorial independente de Fisher (homocedástica).

O teste supõe homocedasticidade.

Exemplo 3

Pesquisadores, como parte de seu projeto conjunto do ano sobre a utilidade da terapia para pessoas que sofrem de enxaqueca, distribuíram aleatoriamente 18 pessoas que sofrem de enxaqueca em três grupos:

  • grupo 1 tem seis sessões de uma hora de terapia com um terapeuta estagiário;
  • grupo 2 tem seis sessões de autoajuda de uma hora (que não são lideradas por um facilitador - a agenda é determinada pelos próprios membros do grupo), e
  • grupo 3 consiste em pessoas que sofrem de enxaqueca que gostariam de participar de terapia ou de autoajuda, mas têm que esperar. Os pesquisadores prevêem que os grupos de terapia e de autoajuda terão a percepção de menor sofrimento por enxaquecas do que o grupo na lista de espera quando avaliarem sua enxaqueca em um segundo ponto no tempo. No início do estudo, os participantes avaliam os seus sintomas no último mês, de 0 (sem sofrimento) a 5 (sofrimento terrível). Quatorze dias mais tarde, avaliam os seus sintomas (no último mês) novamente.

\(H_0:\) ?\(_{terapia}\) \(=\) ?\(_{auto-ajuda}\) \(=\) ?\(_{espera}\)

\(H_1:\) pelo menos uma das ? é diferente.

Supondo que as variáveis dependentes são ordinais e que avaliaremos apenas o resultado final, os dados estão em Enxaqueca.xlsx. O teste de Kruskal-Wallis está implementado em demo_KW.R. Os testes post hoc estão implementados em demo_KW_posthoc.R:

                 Sintoma2
Grupo             1 2 3 4 5
  Autoajuda       0 3 1 0 2
  Lista de espera 0 1 2 2 2
  Terapeuta       2 1 1 1 0


Teste H de Kruskal-Wallis Convencional:

    Kruskal-Wallis rank sum test

data:  Sintoma2 and Grupo
Kruskal-Wallis chi-squared = 3.5595, df = 2, p-value = 0.1687

            Grupo n Median Boot.median Conf.level Percentile.lower Percentile.upper
1       Autoajuda 6    2.5        2.92       0.95                2                5
2 Lista de espera 7    4.0        3.76       0.95                3                5
3       Terapeuta 5    2.0        2.07       0.95                1                4


Teste H de Kruskal-Wallis (bootstrapping):

    Approximative Kruskal-Wallis Test

data:  Sintoma2 by Grupo (Autoajuda, Lista de espera, Terapeuta)
chi-squared = 3.5595, p-value = 0.1671

post hoc test:
Warning in kwAllPairsDunnTest.default(c(1, 3, 4, 2, 1, 2, 5, 3, 2, 5, 2, : Ties are
present. z-quantiles were corrected for ties.

    Pairwise comparisons using Dunn's all-pairs test
data: Sintoma2 by Grupo
                Autoajuda Lista de espera
Lista de espera 1.00      -              
Terapeuta       0.81      0.18           

P value adjustment method: bonferroni
alternative hypothesis: two.sided
Registered S3 methods overwritten by 'FSA':
  method       from
  confint.boot car 
  hist.boot    car 
Dunn (1964) Kruskal-Wallis multiple comparison
  p-values adjusted with the Bonferroni method.
                   Comparison         Z    P.unadj     P.adj
1 Autoajuda - Lista de espera -0.783990 0.43304598 1.0000000
2       Autoajuda - Terapeuta  1.103476 0.26982062 0.8094619
3 Lista de espera - Terapeuta  1.886053 0.05928782 0.1778635
          Group Letter MonoLetter
1     Autoajuda      a          a
2 Listadeespera      a          a
3     Terapeuta      a          a

implementado com demo_KW.R e demo_KW_posthoc.R

Neste exemplo, as medianas populacionais para as diversas terapias para exaqueca não diferem, considerando \(\alpha=0.05\). Caso houvesse diferença, esta poderia ser localizada através dos testes post-hoc.

O teste de Kruskal-Wallis está implementado com kruskal.test(). Os testes post-hoc estão implementados com FSA::dunnTest(), que fixa uma condição como referência, e rcompanion::cldList(), que comparam todas as condições par-a-par.

Anova unifatorial independente (one-way ANOVA)

ANOVA de Fisher

Seu correspondente não paramétrico está implementado em demo_KW_ANOVA_Fisher.R. Aqui consideraremos as variáveis como intervalares e, portanto, as hipóteses são:

\[\begin{align} H_0&: \mu_\text{terapia} = \mu_\text{auto-ajuda} = \mu_\text{espera}\\ H_1&: \text{pelo menos duas médias populacionais são diferentes}\\ \alpha&=0.05 \end{align}\]

Além disto, sendo variáveis intervalares, podemos testar as condições de simetria, normalidade e homocedasticidade, obtendo-se:

   Caso           Grupo Sintoma1 Sintoma2
1     1       Terapeuta        5        1
2     2       Terapeuta        4        3
3     3       Terapeuta        5        4
4     4       Terapeuta        5        2
5     5       Terapeuta        4        1
6     6       Autoajuda        4        2
7     7       Autoajuda        5        5
8     8       Autoajuda        4        3
9     9       Autoajuda        2        2
10   10       Autoajuda        3        5
11   11       Autoajuda        2        2
12   12 Lista de espera        3        5
13   13 Lista de espera        2        3
14   14 Lista de espera        4        4
15   15 Lista de espera        2        4
16   16 Lista de espera        3        5
17   17 Lista de espera        2        2
18   18 Lista de espera        3        3

Tabulando Sintoma2 por Grupo:   
    Terapeuta Autoajuda Lista de espera
  1         2         0               0
  2         1         3               1
  3         1         1               2
  4         1         0               2
  5         0         2               2
    item          group1 vars n mean   sd median trimmed  mad min max range  skew kurtosis
X11    1       Terapeuta    1 5 2.20 1.30    2.0    2.20 1.48   1   4     3  0.26    -1.96
X12    2       Autoajuda    1 6 3.17 1.47    2.5    3.17 0.74   2   5     3  0.39    -2.00
X13    3 Lista de espera    1 7 3.71 1.11    4.0    3.71 1.48   2   5     3 -0.15    -1.64
      se
X11 0.58
X12 0.60
X13 0.42

---------
Terapeuta
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            5.000000
mean         2.200000
median       2.000000
mode         1.429645
pseudomedian 2.000000

        ------------
        - quartiles:
        ------------
            
Q1(min)    1
Q2         1
Q3(median) 2
Q4         3
Q5(max)    4

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.30384
IQR    2.00000

        -----------
        - skewness:
        -----------
                      
Skewness     0.2598658
skwns.lower -0.8229083
skwns.upper  1.0733126

        ------------------
        - kurtosis excess:
        ------------------
                    
Kurtosis   -1.958062
krts.lower -2.253333
krts.upper -0.920000

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.90202, p-value = 0.4211


---------
Autoajuda
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            6.000000
mean         3.166667
median       2.500000
mode         2.202567
pseudomedian 3.500000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         2.0
Q3(median) 2.5
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.47196
IQR    2.50000

        -----------
        - skewness:
        -----------
                      
Skewness     0.3948453
skwns.lower -0.6703371
skwns.upper  1.3608276

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.75467, p-value = 0.02212


---------------
Lista de espera
---------------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            7.000000
mean         3.714286
median       4.000000
mode         3.908236
pseudomedian 3.750000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         3.0
Q3(median) 4.0
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.112697
IQR    1.500000

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1523727
skwns.lower -1.0774380
skwns.upper  0.7528372

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6360343
krts.lower -2.2040816
krts.upper -0.3597225

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 7

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92158, p-value = 0.4818

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  2  0.2278  0.799
      15               

Registered S3 method overwritten by 'gplots':
  method         from     
  reorder.factor DescTools


Legenda:
    A ... Terapeuta
    B ... Autoajuda
    C ... Lista de espera

ANOVA unifatorial independente de Fisher

VD = Sintoma2 
Fator = Grupo 

Analise de significancia estatistica: teste omnibus

ANOVAAnova Table (Type II tests)

Response: Sintoma2
           Sum Sq Df F value Pr(>F)
Grupo      6.7159  2  2.0098 0.1685
Residuals 25.0619 15               
 contrast estimate    SE df lower.CL upper.CL t.ratio p.value
 B - A       0.967 0.783 15   -0.956     2.89   1.235  0.3896
 C - A       1.514 0.757 15   -0.345     3.37   2.001  0.1164

Confidence level used: 0.95 
Conf-level adjustment: dunnettx method for 2 estimates 
P value adjustment: dunnettx method for 2 tests 
 Grupo emmean    SE df lower.CL upper.CL .group
 A       2.20 0.578 15    0.643     3.76  a    
 B       3.17 0.528 15    1.745     4.59  a    
 C       3.71 0.489 15    2.398     5.03  a    

Confidence level used: 0.95 
Conf-level adjustment: bonferroni method for 3 estimates 
P value adjustment: bonferroni method for 3 tests 
significance level used: alpha = 0.05 
NOTE: If two or more means share the same grouping symbol,
      then we cannot show them to be different.
      But we also did not show them to be the same. 

Analise de significancia pratica: tamanho de efeito
# Effect Size for ANOVA (Type II)

Parameter |   Eta2 |           95% CI | interpret
-------------------------------------------------
Grupo     | 0.2113 | [0.0000, 0.5019] |     large

ANOVA de Welch

Considerando heterocedasticidade, ANOVA de Welch está implementado em demo_KW_ANOVA_Welch.R, obtendo-se:

   Caso           Grupo Sintoma1 Sintoma2
1     1       Terapeuta        5        1
2     2       Terapeuta        4        3
3     3       Terapeuta        5        4
4     4       Terapeuta        5        2
5     5       Terapeuta        4        1
6     6       Autoajuda        4        2
7     7       Autoajuda        5        5
8     8       Autoajuda        4        3
9     9       Autoajuda        2        2
10   10       Autoajuda        3        5
11   11       Autoajuda        2        2
12   12 Lista de espera        3        5
13   13 Lista de espera        2        3
14   14 Lista de espera        4        4
15   15 Lista de espera        2        4
16   16 Lista de espera        3        5
17   17 Lista de espera        2        2
18   18 Lista de espera        3        3

Tabulando Sintoma2 por Grupo:   
    Terapeuta Autoajuda Lista de espera
  1         2         0               0
  2         1         3               1
  3         1         1               2
  4         1         0               2
  5         0         2               2

 Descriptive statistics by group 
group: Terapeuta
   vars n mean  sd median trimmed  mad min max range skew kurtosis   se
X1    1 5  2.2 1.3      2     2.2 1.48   1   4     3 0.26    -1.96 0.58
-------------------------------------------------------------------- 
group: Autoajuda
   vars n mean   sd median trimmed  mad min max range skew kurtosis  se
X1    1 6 3.17 1.47    2.5    3.17 0.74   2   5     3 0.39       -2 0.6
-------------------------------------------------------------------- 
group: Lista de espera
   vars n mean   sd median trimmed  mad min max range  skew kurtosis   se
X1    1 7 3.71 1.11      4    3.71 1.48   2   5     3 -0.15    -1.64 0.42

---------
Terapeuta
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            5.000000
mean         2.200000
median       2.000000
mode         1.429645
pseudomedian 2.000000

        ------------
        - quartiles:
        ------------
            
Q1(min)    1
Q2         1
Q3(median) 2
Q4         3
Q5(max)    4

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.30384
IQR    2.00000

        -----------
        - skewness:
        -----------
                      
Skewness     0.2598658
skwns.lower -0.8229083
skwns.upper  1.0733126

        ------------------
        - kurtosis excess:
        ------------------
                    
Kurtosis   -1.958062
krts.lower -2.253333
krts.upper -0.920000

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.90202, p-value = 0.4211


---------
Autoajuda
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            6.000000
mean         3.166667
median       2.500000
mode         2.202567
pseudomedian 3.500000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         2.0
Q3(median) 2.5
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.47196
IQR    2.50000

        -----------
        - skewness:
        -----------
                      
Skewness     0.3948453
skwns.lower -0.6703371
skwns.upper  1.3608276

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.75467, p-value = 0.02212


---------------
Lista de espera
---------------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            7.000000
mean         3.714286
median       4.000000
mode         3.908236
pseudomedian 3.750000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         3.0
Q3(median) 4.0
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.112697
IQR    1.500000

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1523727
skwns.lower -0.9606666
skwns.upper  0.9306418

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 7

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92158, p-value = 0.4818

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  2  0.2278  0.799
      15               


Legenda:
    A ... Terapeuta
    B ... Autoajuda
    C ... Lista de espera

ANOVA unifatorial independente de Welch

VD = Sintoma2 
Fator = Grupo 

Analise de significancia estatistica: teste omnibus

 ONE-WAY ANOVA

 One-Way ANOVA (Welch's)                                  
 ──────────────────────────────────────────────────────── 
               F           df1    df2         p           
 ──────────────────────────────────────────────────────── 
   Sintoma2    2.067268      2    9.075617    0.1820512   
 ──────────────────────────────────────────────────────── 


 Group Descriptives                                              
 ─────────────────────────────────────────────────────────────── 
               Grupo    N    Mean        SD          SE          
 ─────────────────────────────────────────────────────────────── 
   Sintoma2    A        5    2.200000    1.303840    0.5830952   
               B        6    3.166667    1.471960    0.6009252   
               C        7    3.714286    1.112697    0.4205600   
 ─────────────────────────────────────────────────────────────── 


 POST HOC TESTS

 Games-Howell Post-Hoc Test – Sintoma2                             
 ───────────────────────────────────────────────────────────────── 
                           A            B             C            
 ───────────────────────────────────────────────────────────────── 
   A    Mean difference            —    -0.9666667    -1.5142857   
        t-value                    —     -1.154472    -2.1062836   
        df                         —      8.940607      7.831281   
        p-value                    —     0.5073843     0.1510932   
                                                                   
   B    Mean difference                          —    -0.5476190   
        t-value                                  —    -0.7466116   
        df                                       —      9.248525   
        p-value                                  —     0.7429239   
                                                                   
   C    Mean difference                                        —   
        t-value                                                —   
        df                                                     —   
        p-value                                                —   
 ───────────────────────────────────────────────────────────────── 
   Note. * p < .05, ** p < .01, *** p < .001


Analise de significancia pratica: tamanho de efeito
- eta^2 = 0.3129817 
Grau grande de explicacao da variancia da VD Sintoma2 pela VI Grupo 


Outra opcao de teste posthoc com rstatix::games_howell_test
       .y. group1 group2  estimate  conf.low conf.high p.adj p.adj.signif
1 Sintoma2      A      B 0.9666667 -1.374009  3.307343 0.507           ns
2 Sintoma2      A      C 1.5142857 -0.549354  3.577925 0.151           ns
3 Sintoma2      B      C 0.5476190 -1.490142  2.585380 0.743           ns

implementado com demo_KW_ANOVA_Welch.R

A conclusão é a mesma: não temos elementos para afirmar diferença entre os três grupos.

Q de Friedman: teste para mais três ou mais condições dependentes

  • não-paramétrico
    • Q de Friedman
  • paramétrico
    • ANOVA unifatorial relacionada

Milton Friedman (1912 - 2006)
https://pt.wikipedia.org/wiki/Milton_Friedman
    Milton Friedman foi um economista, estatístico e escritor norte-americano, que lecionou na Universidade de Chicago por mais de três décadas. Ele recebeu o Prémio de Ciências Económicas em Memória de Alfred Nobel de 1976 e é conhecido por sua pesquisa sobre a análise do consumo, a teoria e história monetária, bem como por sua demonstração da complexidade da política de estabilização.

teste Q de Friedman

Testa a hipótese nula de igualdade das pseudomedianas populacionais dos tratamentos. Utiliza VDs ordinais ou intervalares em três ou mais condições dependentes.

Exemplo 4

Seis pessoas (blocos) receberam seis diuréticos diferentes (tratamentos A a F). As respostas são medidas pela concentração de sódio na urina duas horas após o tratamento. O tratamento A é assumido como controle.

\[\begin{align} H_0&: \text{pseudomediana}_\text{A} = \text{pseudomediana}_\text{B} =\cdots= \text{pseudomediana}_\text{F}\\ H_1&: \text{pelo menos uma pseudomediana é diferente das demais}\\ \alpha&=0.05\\ \end{align}\]

Os dados estão no próprio Rscript, demo_Q.R. O teste de Friedman em R está implementado em PMCMRplus::friedmanTest() e os testes post-hoc em PMCMRplus::frdManyOneExactTest(), que fixa uma condição como referência e PMCMRplus::frdAllPairsExactTest(), e também com funções nativas friedman.test e pairwise.wilcox.test que comparam todas as condições par-a-par:

     A     B     C    D     E     F
1 3.88 30.58 25.24 4.44 29.41 38.87
2 5.64 30.14 33.52 7.94 30.72 33.12
3 5.76 16.92 25.45 4.04 32.92 39.15
4 4.25 23.19 18.85 4.40 28.23 28.06
5 5.91 26.74 20.45 4.23 23.35 38.23
6 4.33 10.91 26.67 4.36 12.00 26.65

    Friedman rank sum test

data:  y
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915

    Pairwise comparisons using Eisinga-Heskes-Pelzer and Grotenhuis many-to-one test for a two-way balanced complete block design
data: y
  A      
B 0.114  
C 0.043  
D 1.000  
E 0.014  
F 8.4e-05

P value adjustment method: bonferroni
alternative hypothesis: two.sided

    Pairwise comparisons using Eisinga, Heskes, Pelzer & Te Grotenhuis all-pairs test with exact p-values for a two-way balanced complete block design
data: y
  A       B       C       D       E      
B 0.34101 -       -       -       -      
C 0.12897 1.00000 -       -       -      
D 1.00000 0.78175 0.34101 -       -      
E 0.04094 1.00000 1.00000 0.12897 -      
F 0.00025 1.00000 1.00000 0.00197 1.00000

P value adjustment method: bonferroni

    Friedman rank sum test

data:  Data
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915


    Pairwise comparisons using Wilcoxon signed rank exact test 

data:  df_long$sodio and df_long$tratamento 

  A    B    C    D    E   
B 0.47 -    -    -    -   
C 0.47 1.00 -    -    -   
D 1.00 0.47 0.47 -    -   
E 0.47 1.00 1.00 0.47 -   
F 0.47 0.47 1.00 0.47 0.94

P value adjustment method: bonferroni 
implementado com demo_Q.R

Os efeitos populacionais do tratamento sobre a medida de sódio diferem com o uso dos diversos diuréticos para \(\alpha=0.05\). O teste post-hoc que fixa o diurético A como referência, mostra diferença com C, E e F (é o que deve ser usado de acordo com o enredo deste exemplo). A outra comparação, par-a-par não é adequada à pergunta de pesquisa deste exemplo, mas pode ser aplicável a outras situações e, por isso, foi implementada neste Rscript (além de mostrar diferenças entre A e E, A e F, também mostra diferença entre os diuréticos D e F - note que os valores p mudaram porque mais testes são feitos nesta segunda forma de teste post-hoc, modificando a correção por Bonferroni) e a diferença entre A e C desapareceu nesta comparação par a par.

ANOVA unifatorial relacionada

Para comparação, implementamos uma versão de ANOVA unifatorial relacionada que admite valores faltantes, posto que isto acontece com frequência em estudos observacionais (e.g., falta do paciente em uma consulta).

\[\begin{align} H_0&: \mu_\text{A} = \mu_\text{B} = \cdots =\mu_\text{F}\\ H_1&: \text{Pelo menos duas médias são diferentes}\\ \alpha&=0.05 \end{align}\]

Este procedimento necessita dos dados em formato long, então a transformação é feita na própria implementação de demo_Q_ANOVA.R:

   Paciente Tratamento Sodio
1         1          A  3.88
2         1          B 30.58
3         1          C 25.24
4         1          D  4.44
5         1          E 29.41
6         1          F 38.87
7         2          A  5.64
8         2          B 30.14
9         2          C 33.52
10        2          D  7.94
11        2          E 30.72
12        2          F 33.12
13        3          A  5.76
14        3          B 16.92
15        3          C 25.45
16        3          D  4.04
17        3          E 32.92
18        3          F 39.15
19        4          A  4.25
20        4          B 23.19
21        4          C 18.85
22        4          D  4.40
23        4          E 28.23
24        4          F 28.06
25        5          A  5.91
26        5          B 26.74
27        5          C 20.45
28        5          D  4.23
29        5          E 23.35
30        5          F 38.23
31        6          A  4.33
32        6          B 10.91
33        6          C 26.67
34        6          D  4.36
35        6          E 12.00
36        6          F 26.65

GLMM: omnibus test

Analysis of Deviance Table (Type II Wald F tests with Kenward-Roger df)

Response: Sodio
                F Df Df.res    Pr(>F)    
Tratamento 37.981  5     25 6.769e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Warning: Currently only supports partial eta squared for this class of objects.
# Effect Size for ANOVA (Type II)

Parameter  | Eta2 (partial) |           95% CI | interpret
----------------------------------------------------------
Tratamento |         0.8837 | [0.7747, 0.9277] |     large

Post hoc test: Pairwise Contrasts

 contrast estimate   SE df lower.CL upper.CL t.ratio p.value
 A - B      -18.12 2.76 25   -26.62   -9.621  -6.571  <.0001
 A - C      -20.07 2.76 25   -28.57  -11.571  -7.278  <.0001
 A - D        0.06 2.76 25    -8.44    8.558   0.022  1.0000
 A - E      -21.14 2.76 25   -29.64  -12.646  -7.668  <.0001
 A - F      -29.05 2.76 25   -37.55  -20.554 -10.536  <.0001
 B - C       -1.95 2.76 25   -10.45    6.548  -0.707  0.9793
 B - D       18.18 2.76 25     9.68   26.676   6.593  <.0001
 B - E       -3.02 2.76 25   -11.52    5.473  -1.097  0.8779
 B - F      -10.93 2.76 25   -19.43   -2.436  -3.965  0.0064
 C - D       20.13 2.76 25    11.63   28.626   7.300  <.0001
 C - E       -1.07 2.76 25    -9.57    7.423  -0.390  0.9987
 C - F       -8.98 2.76 25   -17.48   -0.486  -3.258  0.0339
 D - E      -21.20 2.76 25   -29.70  -12.706  -7.690  <.0001
 D - F      -29.11 2.76 25   -37.61  -20.614 -10.558  <.0001
 E - F       -7.91 2.76 25   -16.41    0.589  -2.868  0.0787

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: tukey method for comparing a family of 6 estimates 
P value adjustment: tukey method for comparing a family of 6 estimates 


Post hoc test: Reference Level Contrasts contrast estimate   SE df lower.CL upper.CL t.ratio p.value
 B - A       18.12 2.76 25    10.66     25.6   6.571  <.0001
 C - A       20.07 2.76 25    12.61     27.5   7.278  <.0001
 D - A       -0.06 2.76 25    -7.52      7.4  -0.022  1.0000
 E - A       21.14 2.76 25    13.68     28.6   7.668  <.0001
 F - A       29.05 2.76 25    21.59     36.5  10.536  <.0001

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: dunnettx method for 5 estimates 
P value adjustment: dunnettx method for 5 tests 
 Tratamento emmean   SE   df lower.CL upper.CL .group
 D            4.90 2.24 23.2    -1.56     11.4  a    
 A            4.96 2.24 23.2    -1.50     11.4  a    
 B           23.08 2.24 23.2    16.62     29.5   b   
 C           25.03 2.24 23.2    18.57     31.5   b   
 E           26.11 2.24 23.2    19.65     32.6   bc  
 F           34.01 2.24 23.2    27.55     40.5    c  

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: bonferroni method for 6 estimates 
P value adjustment: bonferroni method for 15 tests 
significance level used: alpha = 0.05 
NOTE: If two or more means share the same grouping symbol,
      then we cannot show them to be different.
      But we also did not show them to be the same. 

implementado com demo_Q_ANOVA.R

Aqui, da mesma forma que o teste Q mostrou, a hipótese nula de igualdade de todos os tratamentos foi rejeitada.

Na versão não-paramétrica havíamos encontrado as seguintes diferenças:

  • comparando todos os pares, diferiam: AE, AF, DF.
  • usando A como referência, diferiam deste: C, E, F.

Nesta versão paramétrica, os procedimentos post hoc usam o método de Tukey (comparando todos os tratamentos, par a par) ou Dunnett (que fixa um dos tratamentos como referência - neste exemplo o tratamento A). As diferenças podem ser localizadas numericamente ou graficamente. Os gráficos mostram intervalos de confiança após a aplicação do modelo, i.e., já controlado pela variância intra-indivíduo. O primeiro mostra cada tratamento isoladamente. Os demais espelham os contrastes (em negrito estão os que o teste não-paramétrico também localizou):

  • comparando todos os pares há várias diferenças (no gráfico correspondem aos intervalos que não contém a diferença nula): AB, AC, AE, AF, BD, BF, CD, CF, DE, DF.
  • usando A como referência, diferiam deste: B, C, E, F.

Paramétrico vs. Não-paramétrico

História

Os testes não paramétricos são antigos. Observe as datas de suas publicações originais:

  • WILCOXON, F. (1945),
  • MANN, H.B.; WHITNEY D.R. (1947),
  • BRUNNER, E.; MUNZEL, U. (2000) ,
  • KRUSKAL, W. H.; WALLIS, W. A. (1952),
  • FRIEDMAN, M. (1937, 1939, 1940).

Os testes não paramétricos não evoluíram.

Enquanto para seus equivalentes paramétricos apareceram soluções multivariadas, controles estatísticos, transformações não lineares e técnicas para contornar as suposições desejadas, desdobrando-se em vários tipos de regressão múltiplas (com várias VIs e uma VD) ou multivariadas (com várias VIs e VDs).

Os testes não-paramétricos receberam poucas alterações e continuaram aplicáveis a delineamentos relativamente mais simples:

  • A VI é sempre nominal e apenas uma VD é possível.
  • São testes simples, não admitem variáveis de controle ou confusão.

Significância estatística e prática

Os testes não paramétricos computam apenas a significância estatística (valor \(p\)), mas não têm procedimentos para a significância prática (tamanho de efeito) que é fundamental para a epidemiologia.

Postos

“Toda a informação concernente às magnitudes das observações quantitativas é perdida ao convertê-las em postos (ranks).”

Runyon & Haber (1973)

“Os testes Mann-Whitney e Wilcoxon avaliam se existe diferença estatística significativa entre as médias dos postos [sic] de duas condições.”

Dancey & Ready (2019), p.508

Parte da confusão acontece porque o método para a execução dos cálculos, utilizando postos (ranks), acaba sendo visto como uma transformação não linear (monotônica e com passos unitários) da própria variável. Há alguns pesquisadores que pensam, então, que as conclusões alcançadas por um teste não-paramétrico é sobre os postos quando, de fato, a variável continua tendo sua natureza intervalar ou ordinal. Os postos são usados como artifício estatístico para comparar duas distribuições.

\[~\]

As conclusões de um teste não paramétrico NÃO SÃO sobre os postos, mas sobre a VD em sua forma original.

Normalidade

Os testes paramétricos apresentados aqui costumam assumir normalidade da VD na população. Quando esta premissa não é conhecida ou, sabidamente, não é atendida, pesquisadores pensam em indicar testes não-paramétricos, justificando que são distribution free.

É verdade que dados assimétricos e amostras muito pequenas e desbalanceadas causam problemas para os testes paramétricos. No entanto, perturba bastante, também, os testes não-paramétricos.

No entanto, os testes não-paramétricos não servem para qualquer distribuição: prescindem da normalidade da VD, então devem ser lembrados como free of normal distribution. Muitos necessitam das suposições de simetria e de homoscedasticidade das distribuições das VDs nas condições do fator.

Este problema existe quando as amostras são pequenas. Com amostras maiores, a variável de interesse ou de desfecho não precisa ter distribuição normal: o teorema central do limite informa que a distribuição dos estimadores dos parâmetros da VD são aproximadamente normais e os testes paramétricos têm bom desempenho.

Quando há dificuldade em testar a normalidade, pesquisadores usam gráficos para ver o formato da distribuição.

Histogramas [sic] para as duas condições foram inspecionados separadamente. Como os dados eram assimétricos e o número de participantes pequeno, o teste estatístico mais apropriado foi o de Mann-Whitney.”

Dancey & Ready (2019), p.511

\[~\]

Histogramas são instrumentos incompetentes para descrever distribuições de probabilidade: não servem para avaliar a forma da distribuição, nem sua assimetria, e muito menos podem servir para descartar um teste paramétrico em favor de um não-paramétrico.

\[~\]

“[…] there is the concept that a histogram can be useful with the right parametrization [but] there is no guarantee that the cutoff will fall between bars and the heights of histogram bars may be an illusion affected by the bin sizes […] a histogram, as traditional as it may be, is misleading.”

Silveira & Siqueira (2022)
https://doi.org/10.20982/tqmp.18.1.p091

Poder

Afirmam:

“Para um dado número de unidades experimentais no estudo, N, testes paramétricos são mais poderosos do que os não- paramétricos correspondentes, desde que todas as suposições dos testes paramétricos e dos não-paramétricos sejam satisfeitas.”

Runyon & Haber (1973)

O teste t de Student tem a suposição de normalidade a mais que o correspondente teste não-paramétrico U de Mann-Whitney; não supondo homocedasticidade, o teste t de Welch corresponde ao teste de Brunner-Munzel. Há vezes em que a afirmação de que os testes paramétricos tendem a ser mais poderosos que os não-paramétricos quando suas suposições são atendidas foi transformada no reverso, de que “os testes não-paramétricos são mais poderosos quando as tais suposições não são atendidas.

Ao menos quando a amostra é suficientemente grande, os testes não-paramétricos são quase equivalentes aos paramétricos. Embora não explore amostras pequenas, Prajapati et al. (2010) sugere que talvez os testes não-paramétricos continuem, ainda, perdendo para os paramétricos em quaisquer condições; talvez os resultados sejam confusos ou erráticos. É difícil aferir o que acontece em todas as possíveis combinações de violações de suposições:

Problemas com empates

No teste U de Mann-Whitney implementado em wilcox.test qualquer valor igual em uma das duas condições resulta em um empate e impede o cálculo do valor p exato (parâmetro exact=TRUE), fornecendo o valor assintótico que pode não ser boa opção com amostras pequenas.

O teste W de Wilcoxon implementado com a mesma função, apresenta o mesmo problema para o cálculo do valor p exato se houver empates das diferenças mas, também, se houver diferenças nulas. Nestes casos a função oferece o cálculo assintótico do valor p, problemático para amostras pequenas. Agrava-se o problema pois os sujeitos com diferenças nulas são eliminados, reduzindo ainda mais o tamanho efetivo da amostra.

Robustez

Não poder atender às suposições dos testes paramétricos não implica, automaticamente, em atender àquelas dos testes não-paramétricos.

Há quem pense que testes não-paramétricos são robustos a quaisquer condições. A diferença, em geral, é que testes não-paramétricos são um pouco mais permissivos quanto às condições para sua aplicação e, por isso, também menos poderosos.

Os testes não paramétricos não são métodos estatísticos robustos. Há alternativas para os métodos paramétricos:

  • Cálculos complexos com dados brutos ou transformações não-lineares:
    • Transformações potência de Tukey e de Box-Cox (transformation)
    • Aparamento (trimming)
    • Ponderação (weighting)
  • Heterocedasticidade da VD e tratável (e.g., teste t de Welch, ANOVA de Welch etc.).
  • Reamostragem (bootstrapping): quando feitos com bootstrapping supõem apenas a independência das observações e são robustos à falta de normalidade da VD.

Estatística não-paramétrica

  • Cálculos elementares com probabilidades ou postos (ranking)
  • em geral não são robustos à heterocedasticidade da VD.
  • não precisam de normalidade da VD (quando a amostra é pequena), mas podem necessitar de simetria da distribuição.
Wonnacott & Wonnacott (1990), página 536.
Kirkwood & Sterne (2006), Chapter 30: Relaxing model assumptions.

Observe o que diz Zimmerman (1998):

A maioria dos artigos na literatura estudam violações isoladas. Este artigo propõe violações simultâneas das suposições de normalidade e homocedasticidade em graus variados, com amostras de tamanhos modestos (de 15 a 40 por grupo) por simulação. Surpreendentemente, os testes paramétricos, ainda assim, saíram-se melhor que seus correspondentes não paramétricos.

Cálculos

“Esses testes (Mann-Whitney e Wilcoxon) são muito mais simples do que os testes t, pois não envolvem cálculos de médias, desvios-padrão e erros-padrão.”

Dancey & Ready (2019), p.508

Em R, muitas vezes, a simplicidade aparente é a mesma; basta escolher o pacote e a função adequada. Anteriormente aos computadores, o cálculo era feito manualmente e esta simplicidade não parece sustentável. Em ambos os mesmos tipos de cálculos eram feitos e, pelo contrário, etapas adicionais e tediosas eram requeridas para computar os testes não-paramétricos.

Para mostrar o cálculo manual, confrontamos um teste U e um teste t. Observe:

Teste U de Mann-Whitney

Para o Teste de Mann-Whitney, o referido cálculo simples para dois grupos, \(A\) e B, implica em: juntar as amostras de diferentes condições experimentais, ordenar os valores preservando a informação do grupo de origem, encontrar os empates e atribuir os postos, voltar os postos de acordo com a condição de origem para somar os postos e encontrar os valores \(U_A\) e \(U_B\), então escolher o valor U mínimo (ou calcular diretamente o valor U) para confrontar com uma tabela (se \(n < 20\)) com \(U_{crítico}\) ou assintoticamente (para \(n \ge 20\)) calcular \(z\) e usar outra tabela, obtendo o valor p.

Por exemplo:

\[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[ A \cup B = \{288, 283, 120, 119, 432, 274, 890, \\ 119, 43, 153, 854, 588\}\]

\[ \text{order}(A \cup B) = \{43, 119, 119, 120, 153, 274, \\ 283, 288, 432, 588, 854, 890 \}\] \[\text{groups, order}(A \cup B) = \{B, A, B, A, B, A, \\ A, A, A, B, B, A \}\]

\[\text{Postos} = \{1, 2.5, 2.5, 4, 5, 6, \\ 7, 8, 9, 10, 11, 12 \}\]

\[\text{Postos}_A = \{2.5, 4, 6, 7, 8, 9, 12 \}\] \[\text{Postos}_B = \{1, 2.5, 5, 10, 11 \}\] Soma dos postos (de onde vem o nome do teste):

\[R_A = 2.5+4+6+7+8+9+12 = 48.5\] \[R_B = 1+2.5+5+10+11 = 29.5\] Calcula-se a estatística de Mann-Whitney: \[ U_A = {n_A n_B + \frac{n_A(n_A+1)}{2} - R_A} = \\ = 7 \cdot 5 + \frac{7(7+1)}{2} - 48.5 = 14.5\] \[ U_B = {n_A n_B + \frac{n_B(n_B+1)}{2} - R_B} = \\ = 7 \cdot 5 + \frac{5(5+1)}{2} - 29.5 = 20.5\]

Assume-se \(U = min(U_A,U_B)\),

Alternativamente, para não calcular os dois valores de U, o mesmo resultado pode ser calculado diretamente usando o \(n_{max}\) do grupo com maior \(R\) e os valores \(R_A\) e \(R_B\): \[U = n_A n_B + \frac{n_{max}(n_{max}+1)}{2} - \\ max(R_A,R_B) = \\ = 7 \cdot 5 + \frac{7 \cdot 8}{2} - 48.5 = 14.5\]

Para amostras pequenas há tabelas a serem consultadas, verificando-se se o valor U está abaixo ou acima do valor crítico para se tomar a decisão inferencial.

Para \(n_A=7\) e \(n_B=5\) o valor crítico é 5. Rejeita-se a hipótese nula quando \(U < U_{crítico}\). Neste exemplo, não se rejeita a igualdade das condições \(A\) e B.

Para amostras maiores era recomendado o cálculo assintótico, com mais alguma álgebra para converter em seu equivalente valor \(z\), o paradigma da situação paramétrica; quase um contra-senso! utilizando-se

\[z = {\frac{U-\frac{n_A n_B}{2}}{\sqrt{\frac{n_A n_B (n_A + n_B + 1)}{12}} } } = \\ = {\frac{14.5-\frac{7 \cdot 5}{2}}{\sqrt{\frac{7 \cdot 5 (7 + 5 + 1)}{12}} } } = -0.4118\]

Aqui vemos que as estatísticas de teste dos testes não-paramétricos também necessitam ter distribuição normal assintótica para qualquer distribuição da VD nas condições do fator. Tendo o valor \(z\) calculado, recorria-se a uma segunda tabela para comparar este valor calculado com as áreas sob a distribuição normal padrão já calculadas para obter o valor p correspondente:

Neste exemplo, a tabela fornece o valor p da cauda esquerda que, para \(z=0.41 \Leftrightarrow p_{\text{lower tail}}=0.3409\). Nosso teste é bicaudal, então \(p=2p_{\text{lower tail}}=0.6818\) e não rejeitamos a igualdade entre os grupos \(A\) e B.

MUNDRY & FISCHER (1998) comentam que os testes não-paramétricos baseados em valor p assintótico de escore \(z\) provocam rejeição excessiva da hipótese nula e, portanto, busca-se desenvolver implementações com o cálculo exato do valor p.

Em R,

A <- c(288,283,120,119,432,274,890)
B <- c(119,43,153,854,588)
print(wilcox.test(A,B,
                  exact=FALSE,
                  correct=FALSE,
                  conf.int=TRUE,
                  conf.level=0.95))

    Wilcoxon rank sum test

data:  A and B
W = 20.5, p-value = 0.6255
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -469.0000  302.0001
sample estimates:
difference in location 
              75.99995 
implementado com demo_MWW_AB.R

Teste t para condições independentes

Por comparação, no teste t (paramétrico) para duas condições independentes, calcula-se as médias (\(\bar{x}_A\) e \(\bar{x}_B\)) e as variâncias (\(s_a^2\) e \(s_B^2\)) dos dois grupos e calcula-se a estatística t com os seguintes passos:

\[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[\bar{x}_A = (288+283+120+119+432+274+890)/7 = 343.7\] \[s_A^2 = \frac{\sum_{i=1}^{7}{(A_i-\bar{x}_A)^2}}{7-1} = 264.1\] \[\bar{x}_B = (119+43+153+854+588)/5 = 351.4\] \[s_B^2 = \frac{\sum_{i=1}^{5}{(B_i-\bar{x}_B)^2}}{5-1} = 352.5\]

\[t = { \frac{\bar{x}_A-\bar{x}_B}{ \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A+n_B-2} } \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}} = \\ = { \frac{343.7-351.4}{ \sqrt{\frac{(7-1)264.1 + (5-1)352.5}{7+5-2} } \sqrt{\frac{1}{7}+\frac{1}{5}}}} = -0.4338\]

Antes dos computadores recorria-se, também, a uma tabela para comparar este valor calculado com o valor crítico, rejeitando-se a hipótese nula caso o valor \(t > t_{crítico}\). Neste exemplo, como o teste é bicaudal, precisamos encontrar o valor \(t_{crítico}\) associado com \(\alpha/2=0.025\); como \(t < t_{crítico}\) não rejeitamos a igualdade entre os grupos \(A\) e B:

Em R,

A <- c(288,283,120,119,432,274,890)
B <- c(119,43,153,854,588)
print(t.test(A,B))

    Welch Two Sample t-test

data:  A and B
t = -0.04119, df = 7.09, p-value = 0.9683
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -447.7680  432.3966
sample estimates:
mean of x mean of y 
 343.7143  351.4000 
implementado com demo_MWW_ABt.R

Então, quando usar?

Existem condições para usarmos os não-paramétricos em lugar dos paramétricos?

Em Dancey & Reidy (2019) aparece a tabela 1.2, que busca associar os delineamentos dos estudos com os testes estatísticos. Porém…

No entanto, em Conover (1999)

   

After teaching at the U.S. Naval Academy at Annapolis, Iowa State University, Kansas State University, the University of California at Davis, and the University of Zurich (Switzerland), he joined the Math Department at Texas Tech in 1973. From 1978-2015 he was in the TTU Rawls College of Business, becoming the Area Coordinator of Information Systems and Quantitative Sciences. In 2015 Dr. Conover returned to the TTU Department of Mathematics & Statistics. While a member of the Rawls College faculty he won several research awards, including the Barney E. Rushing Distinguished Faculty Research Award from the TTU Parents Association, The Don Owen award from the San Antonio Chapter of the American Statistical Association, and the Wilks Medal from the U. S. Army. [He was elected as a Fellow of the American Statistical Association, and appointed a Paul Whitfield Horn Professor by the Texas Tech Board of Regents, becoming a Horn Professor of Statistics for the Texas Tech Department of Mathematics & Statistics in 2015. […] He was named a Highly Cited Researcher by the ISI Thompson Scientific, and currently has over 38,000 citations to his many books and papers. He is listed in Who’s Who in America, and Who’s Who in the World.

aparece outra tabela:

Diz Norušis (1998),

   

Marija Norušis earned a Ph.D. in biostatistics from the University of Michigan. She was SPSS’s first professional statistician. McGraw-Hill published her first book, The SPSS Introductory Guide. Since then she has written numerous volumes of highly acclaimed SPSS documentation and textbooks that demystify statistics and SPSS. Dr. Norušis has been on the faculties of the University of Chicago and Rush Medical College, teaching statistics to diverse audiences. When not working on IBM SPSS guides, Marija analyzes real data as a statistical consultant.

For those whose Lithuanian is rusty:
   “Marija” is pronounced “Maria,” not “Mar-eye-ja.”
   “Norušis” is pronounced “Norooshis,” not “Neurosis.”

na página 332, pergunta:

Se os testes não-paramétricos têm menos suposições sobre os dados, por que não usar apenas eles?

e responde:

Os testes paramétricos, tais como t, ANOVA e ANCOVA, são naturalmente robustos para normalidade, desde que a distribuição dos dados seja simétrica e tenha poucos outliers; além disso, se a amostra é grande, o TCL funciona. Os testes não-paramétricos ignoram a informação de distribuição exata dos dados gerando, e.g., IC95% mais largos, i.e., com menos poder, que os paramétricos.

O que eu deveria fazer se não estou certo se eu tenho que usar um teste paramétrico ou não-paramétrico?

resposta:

Na dúvida, use ambos! Se conseguir a mesma decisão sobre a hipótese nula nos testes paramétrico e não-paramétrico, não há nada com o que se preocupar. Se o teste não-paramétrico é estatisticamente não-significante e o paramétrico é significante, tente descobrir o motivo. Há outliers? Valores influentes? A distribuição da VD nos grupos é simétrica? Normal? Há desbalanceamento? Há heterocedasticidade? Se a VD é intervalar e a amostra é grande, tente transformação potência de Tukey para simetrizar as distribuições da VD nas condições, homegeneizar as variâncias das condições e linearizar as relações entre as variáveis.

Conforme Nahm (2016)

Abstract: Conventional statistical tests are usually called parametric tests. Parametric tests are used more frequently than nonparametric tests in many medical articles, because most of the medical researchers are familiar with and the statistical software packages strongly support parametric tests. Parametric tests require important assumption; assumption of normality which means that distribution of sample means is normally distributed. However, parametric test can be misleading when this assumption is not satisfied. In this circumstance, nonparametric tests are the alternative methods available, because they do not required the normality assumption. Nonparametric tests are the statistical methods based on signs and ranks. In this article, we will discuss about the basic concepts and practical use of nonparametric tests for the guide to the proper use.”

Conclusion: Nonparametric tests and parametric tests: which should we use? As there is more than one treatment modality for a disease, there is also more than one method of statistical analysis. Nonparametric analysis methods are clearly the correct choice when the assumption of normality is clearly violated; however, they are not always the top choice for cases with small sample sizes because they have less statistical power compared to parametric techniques and difficulties in calculating the “95% confidence interval,” which assists the understanding of the readers. Parametric methods may lead to significant results in some cases, while nonparametric methods may result in more significant results in other cases. Whatever methods can be selected to support the researcher’s arguments most powerfully and to help the reader’s easy understandings, when parametric methods are selected, researchers should ensure that the required assumptions are all satisfied. If this is not the case, it is more valid to use nonparametric methods because they are “always valid, but not always efficient,” while parametric methods are “always efficient, but not always valid”.”

\(~\)

Resumo:

Os testes estatísticos convencionais são geralmente chamados de testes paramétricos.

Testes paramétricos são usados com mais frequência do que testes não paramétricos em muitos artigos médicos

[sic: Fagerland (2012) mostra empate], porque a maioria dos pesquisadores médicos está familiarizada com eles e os softwares estatísticos oferecem forte suporte para testes paramétricos.

Testes paramétricos requerem uma suposição importante; a suposição de normalidade, que significa que a distribuição das médias amostrais é normalmente distribuída

[sic: distribuição da média amostra é normal por TLC; VD normal é suposição].

No entanto, o teste paramétrico pode ser enganoso quando essa suposição não é satisfeita.

[sic: o que vimos nessa aula foi o oposto].

Nessa circunstância, os testes não paramétricos são os métodos alternativos disponíveis, pois não exigem a suposição de normalidade.

[sic: sim, mas têm outras exigências].

Testes não paramétricos são os métodos estatísticos baseados em sinais e ranqueamentos.

[sic: é a confusão entre o que é testado com como é feito seu cálculo].

Neste artigo, discutiremos os conceitos básicos e o uso prático dos testes não paramétricos como um guia para o uso adequado.”

[sic: considerando a sequência de equívocos sobre suas indicações, duvidamos que atinja esse objetivo].

Conclusão:

Testes não paramétricos e testes paramétricos: qual devemos usar?

Assim como há mais de uma modalidade de tratamento para uma doença, também existem diversos métodos de análise estatística.

Os métodos de análise não paramétricos são claramente a escolha correta quando a suposição de normalidade é claramente violada

[sic: SKOVLUND, E & FENSTAD, GU (2001): e.g.: MW depende fortemente de distribuições de mesmo formato nos grupos e homocedasticidade da VD que pode ser ordinal, sendo que mesmo para o caso da VD ordinal (e.g., item Likert de 5 pontos), teste t de Student são praticamente equivalentes (Winter & Dodou, 2012) e teste t é tão robusto que ele pode ser recomendado para quase todas as aplicações (Rasch et al., 2007, 2011); W de Wilcoxon depende fortemente da suposição de simetria da diferença da VD nas condições dependentes]

no entanto, eles nem sempre são a melhor escolha para casos com tamanhos de amostra pequenos porque possuem menor poder estatístico em comparação com as técnicas paramétricas

[sic: Fagerland (2012): “Testes não-paramétricos são mais úteis para estudos pequenos; em estudos grandes podem fornecer respostas para questões erradas.”] e dificuldades no cálculo do “intervalo de confiança de 95%”, que auxilia na compreensão dos leitores.

Os métodos paramétricos podem levar a resultados significativos em alguns casos, enquanto os métodos não paramétricos podem resultar em resultados mais significativos em outros casos

[sic: usando o R como laboratório vimos que isso é verdade, mas os métodos não paramétricos erraram mais do que os seus correspondentes paramétricos.].

Quaisquer que sejam os métodos selecionados, eles devem suportar os argumentos do pesquisador de maneira mais robusta e ajudar na fácil compreensão dos leitores.

[sic: é a crença equivocada de que métodos não paramétricos são robustos.]

Quando os métodos paramétricos são selecionados, os pesquisadores devem garantir que todas as suposições necessárias estejam satisfeitas.

[sic: suposições são condições suficientes; a eterna testagem das suposições.]

Caso contrário, é mais válido usar métodos não paramétricos, pois eles são “sempre válidos, mas nem sempre eficientes”

[sic: teste não paramétrico tem suposições sobre a VD; e.g.: simetria, homocedasticidade, mesmo formato de distribuição, portanto facilmente podem não ser válidos.]

enquanto os métodos paramétricos são “sempre eficientes, mas nem sempre válidos”

[sic: Prajapati et al. (2010): têm eficiência relativa assintótica de 0.955 quando a amostra é suficientemente grande; quando não são válidos, não paramétricos em geral também não o serão.]

Conforme Politi et al. (2021)

“HOW TO CHOOSE BETWEEN PARAMETRIC AND NONPARAMETRIC TESTS?

When sample sizes are large, that is, greater than 100, parametric tests can usually be applied regardless of the outcome variable distribution. This is due to the central limit theorem, which states that if the sample size is large enough, the distribution of a given variable is approximately normal. The farther the distribution departs from being normal, the larger the sample size will be necessary to approximate normality. When sample sizes are small, and outcome variable distributions are extremely non-normal, nonparametric tests are more appropriate. For example, some variables are naturally skewed, such as hospital LOS or number of asthma exacerbations per year. In these cases, extremely skewed variables should always be analyzed with nonparametric tests, even with large sample sizes.”

\(~\)

“COMO ESCOLHER ENTRE TESTES PARAMÉTRICOS E NÃO PARAMÉTRICOS?

Quando os tamanhos das amostras são grandes, ou seja, maiores que 100, os testes paramétricos geralmente podem ser aplicados independentemente da distribuição da variável de desfecho.

Isso se deve ao teorema do limite central, que afirma que se o tamanho da amostra for suficientemente grande, a distribuição de uma variável dada é aproximadamente normal

[sic: TLC não altera o formato da VD; confunde a distribuição da variável dependente com a distribuição das médias amostrais].

Quanto mais a distribuição se afasta da normalidade, maior será o tamanho da amostra necessário para aproximar a normalidade.

Quando os tamanhos das amostras são pequenos e as distribuições das variáveis de desfecho são extremamente não normais, os testes não paramétricos são mais apropriados.

Por exemplo, algumas variáveis são naturalmente enviesadas, como o tempo de permanência no hospital ou o número de exacerbações de asma por ano.

Nestes casos, variáveis extremamente enviesadas devem sempre ser analisadas com testes não paramétricos, mesmo com grandes tamanhos de amostra.”

[sic: o que será extremamente não normal? ou extremamente enviesadas?].

A Lenda do Teste Não-Paramétrico

Lenda (substantivo feminino)

1 narrativa de caráter maravilhoso em que um fato histórico se amplifica e transforma sob o efeito da evocação poética ou da imaginação popular; legenda
2 m.q. mito (‘relato fantástico’)
Ex.: a lenda da cobra-d’água
3 Derivação: por extensão de sentido.
tradição popular
Ex.: uma cultura com raízes na lenda e não na ciência
4 Derivação: sentido figurado.
atitude enganadora, falsa; engodo, fraude, mentira
Ex.: as curas apregoadas pelo charlatão eram pura lenda
5 Derivação: sentido figurado.
narrativa fastidiosa; ladainha, lenga-lenga.
Houaiss Eletrônico, 2009, editora Objetivo.
\(~\) \(~\)

\(~\)

Esta é a ilustração do início da aula. Você pensa que um cirurgião ficaria confortável em operar sem suposições sobre o paciente? Ou você gostaria de ser operado sem que houvesse qualquer suposição sobre seu diagnóstico? Investiria seu esforço ou dinheiro sem avaliar parâmetros de uma escola ou do mercado?

Caso fosse verdadeiro que testes não paramétricos pudessem prescindir de suposições (que é uma crença generalizada e, esperamos, você não tenha mais)…

Por que, então, alguém pode pensar que a ausência de suposições poderia fazer bem para um procedimento estatístico?

Referências

  • BEHRENS, J. & Yu, C. (2003) Exploratory data analysis. Willey. BRUNNER, E; MUNZEL, U (2000) The nonparametric Behrens-Fisher problem: Asymptotic theory and a small-sample approximation. Biometrical Journal 42(1): 17–25.
  • CONOVER, WJ (1999) Practical nonparametric Statistics. 3rd ed. NJ: Wiley.
  • DANCEY CP, REIDY J. (2019) Estatística sem matemática para Psicologia, 7a. ed., Porto Alegre: Penso.
  • FAGERLAND, MW (2012) t-tests, non-parametric tests, and large studies - a paradox of statistical practice? BMC Med Res Methodol 12, 78: 1-7. https://doi.org/10.1186/1471-2288-12-78
  • FAGERLAND, MW and SANDVIK, L (2009), The Wilcoxon-Mann-Whitney test under scrutiny. Statistics in Medicine, 28: 1487-1497. https://doi.org/10.1002/sim.3561
  • FRIEDMAN, M. (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association 32 (200): 675–701. doi:10.1080/01621459.1937.10503522.
  • FRIEDMAN, M. (1939). A correction: The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association 34 (205): 109. doi:10.1080/01621459.1939.10502372.
  • FRIEDMAN, M. (1940). A comparison of alternative tests of significance for the problem of m rankings. The Annals of Mathematical Statistics 11 (1): 86–92. doi:10.1214/aoms/1177731944.
  • HART, A (2001) Mann-Whitney test is not just a test of medians: differences in spread can be importante. British Medical Journal 323: 391-3.
  • HODGES Jr., JL & LEHMANN, EL. (1963) Estimates of Location Based on Rank Tests. Ann. Math. Statist. 34(2): 598-611.
  • HOLLANDER, M et al. (2014) Nonparametric Statistical Methods, 3rd ed. NJ: Wiley.
  • HOLLEY, J. W. and GUILFORD, J. P. (1964) A note on the G index of agreement. Educational and Psychological Measurement, 24(4). https://doi.org/10.1177/001316446402400402
  • JCE Editor in reply to FAGERLAND MW (2011) Transformations can be avoided when comparing skewed distributions with unequal variances. Journal of Clinical Epidemiology 64:451-5.
  • KIRKWOOD, BR; STERNE, JAC (2006) Essential medical statistics. 2nd ed. USA: Blackwell.
  • KRUSKAL, W. H.; WALLIS, W. A. (1952). Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association 47 (260): 583–621. 10.1080/01621459.1952.10483441
  • LANDONI, E et al. (2016) Parametric and nonparametric two-sample tests for feature screening in class comparison: a simulation study. Epidemiology Biostatistics and Public Health, 13(2): 1-11. * LUDBROOK, J (1996) The Wilcoxon-Mann-Whitney test condemned. British Journal of Surgery 83: 132-8.
  • MANN, H.B.; WHITNEY D.R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. Annals of Mathematical Statistics 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058.
  • MARÔCO, J (2014) Análise estatística com SPSS Statistics. 6a ed. Lisboa: ReportNumber.
  • MUNDRY & FISCHER (1998) Use of statistical programs for nonparametric tests of small samples often leads to incorrect P values. Animal Behavior 56, 256–259.
  • MUNZEL, U (1999) Nonparametric methods for paired. Statistica Neerdanlica, 53(3): 277-86.
  • NAHM, FS (2016) Nonparametric statistical tests for the continuous data: the basic concept and the practical use. Korean journal of anesthesiology, 69(1), 8–14. https://doi.org/10.4097/kjae.2016.69.1.8
  • NEUHAUSER, M (2010) A nonparametric two-sample comparison for skewed data with unequal variances. Journal of Clinical Epidemiology 63: 691-3.
  • NEUHAUSER, M (2010) A nonparametric two-sample comparison for skewed data with unequal variances. Journal of Clinical Epidemiology 63:691-3.
  • NORUSIS, M (1998) SPSS 8 Guide to data analysis. NJ: Prentice-Hall.
  • OGASSAVARA, NC et al. (2020) The Edmonton Obesity Staging System: assessing a potential tool to improve the management of obesity surgery in the Brazilian public health services. Surgery for Obesity and Related Diseases 16(1): 40-47.
  • POLITI, MT et al. (2021) Nonparametric statistical tests: friend or foe?. Jornal brasileiro de pneumologia : publicacao oficial da Sociedade Brasileira de Pneumologia e Tisilogia, 47(4), e20210292. https://doi.org/10.36416/1806-3756/e20210292
  • PRAJAPATI, B; DUNNE, M; ARMSTRONG, R (2010) Sample size estimation and statistical power analyses. Clinical. Disponível para download.
  • RASCH, D et al. (2007) How robust are tests for two independent samples? Journal of Statistical Planning and Inference 137: 2706-2720.
  • RASCH, D et al. (2011) The two-sample t test: pre-testing its assumptions does not pay off. Stat Papers 52: 219-231.
  • ROSNER, B (1995) Fundamentals of Biostatistics. 4th ed. Belmont: Duxbury.
  • ROSENKRANZ GK (2010) A note on the Hodges-Lehmann estimator. Pharm Stat. 9(2):162-7. doi: 10.1002/pst.387.
  • RUNYON, R. & HABER, A. (1973) Fundamentals of behavioral statistics. USA: Addison-Wesley, p. 235-236)
  • SCHOBER P, VETTER TR (2020) Nonparametric Statistical Methods in Medical Research, Anesthesia & Analgesia 131(6): 1862-3 doi:10.1213/ANE.0000000000005101
  • SILVEIRA PSP & SIQUEIRA JO. (2023) Better to be in agreement than in bad company : A critical analysis of many kappa-like tests. Behav Res Methods. 55(7):3326-3347. doi: 10.3758/s13428-022-01950-0.
  • SILVEIRA, PSP & SIQUEIRA, JO (2022). Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1), 91–111. https://doi.org/10.20982/tqmp.18.1.p091
  • SKOVLUND, E & FENSTAD, GU (2001) Should we always choose a nonparametric test when comparing two apparently nonnormal distributions? Journal of Clinical Epidemiology 54: 86-92.
  • WILCOXON, F (1945). Individual comparisons by ranking methods. Biometrics Bulletin 1 (6): 80–83. doi:10.2307/3001968.
  • WINTER, JCF & DODOU, D (2012) Five-point Likert items: t test versus Mann-Whitney-Wilcoxon. Practical Assessment, Research & Evaluation 15(11).
  • WONNACOTT, T & WONNACOTT, R (1990) Introductory statistics for business and economics, 4th ed. NJ: Wiley.
  • XIAOFENG LIU (2011) The Effect of a Covariate on Standard Error and Confidence Interval Width. Communications in Statistics - Theory and Methods 40:3, 449-456, DOI: 10.1080/03610920903391337
  • ZIMMERMAN, DW (1998) Invalidation of parametric and nonparametric statistical tests by concurrent violation of two assumptions, The Journal of Experimental Education, 67(1): 55-68, DOI: 10.1080/00220979809598344