Bastão de Asclépio & Distribuição Normal

Bastão de Asclépio & Distribuição Normal

suppressMessages(suppressWarnings(
  invisible(Sys.setlocale("LC_ALL", "pt_BR.UTF-8"))))

suppressMessages(library(car, warn.conflicts=FALSE))
suppressMessages(library(coin, warn.conflicts=FALSE))
suppressMessages(library(DescTools, warn.conflicts=FALSE))
suppressMessages(library(eiras, warn.conflicts=FALSE))
suppressMessages(library(emmeans, warn.conflicts=FALSE))
suppressMessages(library(EnvStats, warn.conflicts=FALSE))
suppressMessages(library(exactRankTests, warn.conflicts=FALSE))
suppressMessages(library(FSA, warn.conflicts=FALSE))
suppressMessages(library(ggplot2, warn.conflicts=FALSE))
suppressMessages(library(ggstatsplot, warn.conflicts=FALSE))
suppressMessages(library(gplots, warn.conflicts=FALSE))
suppressMessages(library(jmv, warn.conflicts=FALSE))
suppressMessages(library(kSamples, warn.conflicts=FALSE))
suppressMessages(library(lattice, warn.conflicts=FALSE))
suppressMessages(library(lawstat, warn.conflicts=FALSE))
suppressMessages(library(lmboot, warn.conflicts=FALSE))
suppressMessages(library(lmerTest, warn.conflicts=FALSE))
suppressMessages(library(multcomp, warn.conflicts=FALSE))
suppressMessages(library(overlapping, warn.conflicts=FALSE))
suppressMessages(library(PMCMRplus, warn.conflicts=FALSE))
suppressMessages(library(psych, warn.conflicts=FALSE))
suppressMessages(library(rcompanion, warn.conflicts=FALSE))
suppressMessages(library(readxl, warn.conflicts=FALSE))
suppressMessages(library(rstatix, warn.conflicts=FALSE))
suppressMessages(library(stats, warn.conflicts=FALSE))

Material

  • HTML de Rmarkdown em RPubs

IMPORTANTE

Os pacotes eirasdata e eiras, de nossa autoria, não foram colocados no CRAN. Estão disponíveis no repositório Harvard Dataverse e devem ser instalados nesta ordem:

Faça o download e instale-os se quiser replicar os exemplos desta aula.

Objetivos

  • Apresentar testes estatísticos não-paramétricos, comparando-os com os testes paramétricos.
  • Reconhecer e indicar situações para a aplicação dos principais testes não-paramétricos.
  • Implementar os testes não-paramétricos em R.

O que é um teste não-paramétrico?

Parque Arqueológico e Ambiental de São João Marcos
modificado de https://www.tripadvisor.com.br/

Teste não-paramétrico é uma versão de teste paramétrico de teste t ou ANOVA unifatorial com suposições mais flexíveis sobre a distribuição da variável de dependente (VD) intervalar. No modelo linear geral (GLM), a VD tem distribuição normal. No modelo de teste não-paramétrico, a VD não tem necessariamente distribuição normal.

Da mesma forma que os testes t e ANOVA unifatorial, o teste não-paramétrico não permite o controle estatístico de variável de confusão. O controle de variável de confusão tem que ser realizado experimentalmente, i.e., o delineamento adequado para uso de teste não-paramétrico é o experimental.

Os testes não-paramétricos são utilizados na literatura médica porque são considerados alternativas quando as suposições de normalidade e/ou homocedasticidade da VD nos testes paramétricos não são atendidas. Os testes não-paramétricos também são usados por serem considerados “robustos” em estudos com amostra pequena e/ou desbalanceada, outlier, assimetria ou escala ordinal da VD.

Fagerland, 2012, BMC Med Res Methodol

Segundo Nahm (2016):

Nahm, 2016, Korean Journal of Anesthesiology

Teste não-paramétrico em R

  • Duas condições independentes:

    • U de Mann-Whitney: wilcox.test
    • Brunner-Munzel: lawstat::brunner.munzel.test, brunnermunzel::brunnermunzel.permutation.test
  • Duas condições dependentes:

    • W de Wilcoxon: wilcox.test, exactRankTests::wilcox.exact
  • Três ou mais condições independentes:

    • H de Kruskal-Wallis: kruskal.test, coin::kruskal_test, PMCMRplus::kwAllPairsDunnTest, rcompanion::groupwiseMedian, ggstatsplot::ggbetweenstats
  • Três ou mais condições independentes:

    • Q de Friedman: friedman.test, pairwise.wilcox.test, PMCMRplus::friedmanTest, PMCMRplus::frdManyOneExactTest, PMCMRplus::frdAllPairsExactTest

Inferência em população normal

População

Vamos, aqui, supor duas subpopulações (normocolesterolêmicos e hipercolesterolêmicos) e que, populacionalmente, sejam as seguintes as distribuições de colesterol total. A análise integral (impossível na prática) das duas subpopulações hipotéticas…


-----------
Populacao 1
-----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            11000.0000
mean           153.0875
median         144.8302
mode           139.1872
pseudomedian   148.9518

        ------------
        - quartiles:
        ------------
                    
Q1(min)     65.37866
Q2         129.83152
Q3(median) 144.83024
Q4         168.37434
Q5(max)    273.43297

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 32.86514
IQR    38.54282

        -----------
        - skewness:
        -----------
                     
Skewness    0.8693103
skwns.lower 0.8383607
skwns.upper 0.9043959

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis    0.08079561
krts.lower -0.02247742
krts.upper  0.17978811

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 36.696, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5000

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92888, p-value < 2.2e-16


-----------
Populacao 2
-----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            12000.0000
mean           203.4780
median         210.9088
mode           230.1973
pseudomedian   207.7071

        ------------
        - quartiles:
        ------------
                    
Q1(min)     44.16338
Q2         179.58677
Q3(median) 210.90879
Q4         238.07422
Q5(max)    325.06323

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 46.92544
IQR    58.48745

        -----------
        - skewness:
        -----------
                      
Skewness    -0.7355170
skwns.lower -0.7624642
skwns.upper -0.7050803

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis    0.06835507
krts.lower -0.00838759
krts.upper  0.14666366

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -23.429, p-value < 2.2e-16
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5000

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.95414, p-value < 2.2e-16

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
         Df F value    Pr(>F)    
group     1  1092.8 < 2.2e-16 ***
      22998                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
implementado com demo_ConfrontoPop.R

…mostra que as distribuições da variável de interesse para normocolesterolêmicos e hipercolesterolêmicos, respectivamente:

  • Não têm distribuição simétrica
    • IC95% skewness (DescTools::Skew): [0.835, 0.905] e [-0.764, -0.705]
    • Teste de simetria (lawstat::symmetry.test): p << 0.0001 e p << 0.0001
  • Não rejeita serem mesocúrticas: distribuição normal é mesocúrtica
    • IC95% kurtosis excess (DescTools::Kurt): [-0.02, 0.183] e [-0.007, 0.157]
  • Não têm distribuição normal
    • Teste de Shapiro-Wilk (shapiro.test): p=8.48e-44 e p=4.71e-38
  • Suas variâncias diferem entre si (heterocedasticidade):
    • Teste de Levene (car::leveneTest): p=3.65e-234

A função shapiro.test nativa do R admite, no máximo, 5000 observações. Pode localizar na saída e encontrará:
testing with n = 5000
Aqui, para poder utilizar o teste, obtivemos uma amostra de \(n=5000\) e presumimos que seja suficientemente grande para refletir bem a distribuição populacional.

Avaliação do formato da distribuição

Histograma é habitualmente empregados para avaliar o formato da distribuição de variável intervalar, mas o gráfico apresentado acima mostra gráfico de densidade. Esta escolha tem motivo.

Behrens and Yu (2003) fornecem o seguinte conjunto perfeitamente simétrico de dados intervalares:

\[x = \{1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8, 8, 9, 9, 10,10,11,11\}\]

Qual dos seguintes histogramas corresponde à distribuição de \(x\)?

implementado com demo_HistogramLies.R

Interessantemente, todos os histogramas foram obtidos com estes mesmos valores de \(x\), pois:

Histograma não deve ser usado para avaliar o formato da distribuição de variável intervalar.

Amostragem

Não temos acesso à população, mas podemos realizar o processo de amostragem por simulação para verificar em quais situações os testes estatísticos são capazes de fornecer a resposta correta. Neste exemplo, detectar que há diferença entre o colesterol total dos normo e hipercolesterolêmicos a partir de amostras simuladas.

Duas amostras retiradas da população hipotética são:


---------
Amostra 1
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n              6.0000
mean         169.7634
median       148.7457
mode         145.0446
pseudomedian 178.6544

        ------------
        - quartiles:
        ------------
                   
Q1(min)    139.1742
Q2         143.0954
Q3(median) 148.7457
Q4         201.7061
Q5(max)    221.3430

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 38.96966
IQR    58.61067

        -----------
        - skewness:
        -----------
                      
Skewness     0.5100338
skwns.lower -0.5630817
skwns.upper  1.3466384

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -1.95588010
krts.lower -2.30286553
krts.upper -0.09514944

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.9745, p-value = 0.04832
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.73547, p-value = 0.01431


---------
Amostra 2
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n              8.0000
mean         213.1767
median       222.9184
mode         250.4468
pseudomedian 210.2412

        ------------
        - quartiles:
        ------------
                   
Q1(min)    160.2437
Q2         169.8988
Q3(median) 222.9184
Q4         253.6487
Q5(max)    254.5259

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 43.32652
IQR    83.74987

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1312085
skwns.lower -1.8101108
skwns.upper  1.0812654

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -2.0946197
krts.lower -2.2234786
krts.upper  0.8208881

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.7437, p-value = 0.4571
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 8

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.79045, p-value = 0.0226

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  1  0.7525 0.4027
      12               
implementado com demo_ConfrontoAmostra.R

Os resultados indicam, para nível de significância de 5%:

  • Há assimetria em uma duas amostras (lawstat::symmetry.test): p=0.04832 e p=0.4571
  • A amostra dos normocolesterolêmicos é platicúrtica (DescTools::Kurt)
    • IC 95% kurtosis excess: [-2.303, -0.095] e [-2.223, 0.821]
      (a distribuição normal é mesocúrtica)
  • A normalidade é rejeitada para ambas as amostras
    • Teste de Shapiro-Wilk (shapiro.test): p=0.01431 e p=0.0226
  • Não há evidência de heterocedasticidade:
    • Teste de Levene (car::leveneTest): p=0.4027

Teste não-paramétrico independente dicotômico

Neste exemplo, supomos duas condições independentes e, a partir das amostras, concluímos que a VD não tem distribuição normal. Para uma das amostras a simetria foi rejeitada, mas a homocedasticidade não foi rejeitada. As amostras são de tamanho pequeno (menor do que 12 em cada condição).

Neste tipo de situação “espera-se” o desempenho superior de teste não-paramétrico, tido como opção “robusta” e que prescindem das suposições exigidas pelos testes paramétricos (no caso, teste t independente).

Teste U de Mann-Whitney

Este é o teste não-paramétrico mais tradicional, e mostra:


Teste U de Mann-Whitney Convencional:

    Wilcoxon rank sum test with continuity correction

data:  amostra1 and amostra2
W = 8, p-value = 0.04539
alternative hypothesis: true location shift is not equal to 0
implementado com demo_Confronto_MWW.R

Para \(\alpha=5\%\), o teste U de Mann-Whitney rejeita a hipótese nula de location shift nulo indicando diferença da pseudomediana de colesterol populacional dos dois grupos.

Teste de Brunner-Munzel

O teste de Brunner-Munzel obtém:


Teste U de Brunner-Munzel:

    permuted Brunner-Munzel Test

data:  amostra1 and amostra2
p-value = 0.0373
sample estimates:
P(X<Y)+.5*P(X=Y) 
       0.8333333 
implementado com demo_Confronto_B.R

Para \(\alpha=5\%\), o teste de Brunner-Munzel também rejeita a hipótese nula de igualdade estocática das distribuições de colesterol populacional dos dois grupos.

Teste t de Student

O teste t de Student (que supõe normalidade e homocedasticidade e, portanto, não é o mais indicado aqui) mostra:


Teste t de Student:

    Two Sample t-test

data:  amostra1 and amostra2
t = -1.9339, df = 12, p-value = 0.07706
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -92.324621   5.497896
sample estimates:
mean of x mean of y 
 169.7634  213.1767 
implementado com demo_Confronto_t.R

Para \(\alpha=5\%\), o teste t de Student não foi capaz de rejeitar a hipótese nula de igualdade entre as médias populacionais (i.e., não temos evidência amostral para dizer que 169.76 mg/dl é estatisticamente diferente de 213.18 mg/dl).

Teste t de Welch/Satterthwaite (heterocedástico)

O teste t de Welch/Satterthwaite mostra:


Teste t de Welch/Satterthwaite:

    Welch Two Sample t-test

data:  amostra1 and amostra2
t = -1.9657, df = 11.505, p-value = 0.07393
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -91.763377   4.936652
sample estimates:
mean of x mean of y 
 169.7634  213.1767 
implementado com demo_Confronto_t2.R

Este teste modifica os graus de liberdade levando em conta a heterocedasticidade e, com isso, tem outro valor p. No entanto, para \(\alpha=5\%\), não se alterou a decisão: não se rejeita a igualdade da média populacional de colestetol total dos dois grupos.

Aparentemente, então, tudo está bem e reforçamos a noção de que o teste não-paramétrico concorrente ao teste \(t\) independente foi capaz de indicar o que sabemos ser a resposta correta, pois simulamos as subpopulações. Além disso, os dois testes paramétricos falharam em detectar a diferença de média populacional de colesterol entre os grupos.

O que não foi explicado

Este foi um exemplo cuidadosamente escolhido, no qual a resposta foi incorreta para as duas versões de testes t independente e correta para os testes U de M-W e B-M.

Vamos usar R como um laboratório, verificando o que acontece com os testes em diversas tentativas. Neste procedimento, 20.000 pares de reamostragens são feitas e, para cada uma das tentativas aplicamos os testes U de M-W, Brunner-Munzel, t de Student e t de Welch/Satterthwaite, obtendo:

Simulação com total de  20000  amostragens.

Tabela de contingencia (concordancia entre os testes):
             U MWW:H1 U MWW:H0
t Student:H1     9379     1386
t Student:H0      418     8817

Teste da concordância entre U MWW e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.8196
    z = 115.9089, p = 0

Conclusão: há concordância entre os testes U MWW e t Student.

Tabela de contingencia (concordancia entre os testes):
           U MWW:H1 U MWW:H0
t Welch:H1     9477     1693
t Welch:H0      320     8510

Teste da concordância entre U MWW e t Welch:

    H0: G =  0
    H1: G <> 0

    G = 0.7987
    z = 112.9532, p = 0

Conclusão: há concordância entre os testes U MWW e t Welch.

Tabela de contingencia (concordancia entre os testes):
             Brunner-Munzel:H1 Brunner-Munzel:H0
t Student:H1              9515              1250
t Student:H0               520              8715

Teste da concordância entre Brunner-Munzel e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.823
    z = 116.3898, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e t Student.

Tabela de contingencia (concordancia entre os testes):
           Brunner-Munzel:H1 Brunner-Munzel:H0
t Welch:H1              9632              1538
t Welch:H0               403              8427

Teste da concordância entre Brunner-Munzel e t Welch:

    H0: G =  0
    H1: G <> 0

    G = 0.8059
    z = 113.9715, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e t Welch.

Tabela de contingencia (concordancia entre os testes):
         Brunner-Munzel:H1 Brunner-Munzel:H0
U MWW:H1              9747                50
U MWW:H0               288              9915

Teste da concordância entre Brunner-Munzel e U MWW:

    H0: G =  0
    H1: G <> 0

    G = 0.9662
    z = 136.6413, p = 0

Conclusão: há concordância entre os testes Brunner-Munzel e U MWW.

Tabela de contingencia (concordancia entre os testes):
             t Welch:H1 t Welch:H0
t Student:H1      10548        217
t Student:H0        622       8613

Teste da concordância entre t Welch e t Student:

    H0: G =  0
    H1: G <> 0

    G = 0.9161
    z = 129.5561, p = 0

Conclusão: há concordância entre os testes t Welch e t Student.


Proporcao de Rejeicoes corretas:
    t de Student: 0.53825
    t de Welch: 0.5585
    U de Mann-Whitney: 0.48985
    Brunner-Munzel: 0.50175

Diferencas:

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(U MWW) =  0
    H1: p(t Student)-p(U MWW) <> 0
        est     lwr.ci     upr.ci
[1,] 0.0484 0.03861119 0.05817913

Conclusão: a proporção de rejeições corretas pelo t Student é superior à do U MWW.

Teste da diferença de proporcao de sucessos:
    H0: p(t Welch)-p(U MWW) =  0
    H1: p(t Welch)-p(U MWW) <> 0
         est     lwr.ci     upr.ci
[1,] 0.06865 0.05887841 0.07840787

Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do U MWW.

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(Brunner-Munzel) =  0
    H1: p(t Student)-p(Brunner-Munzel) <> 0
        est    lwr.ci     upr.ci
[1,] 0.0365 0.0267114 0.04628131

Conclusão: a proporção de rejeições corretas pelo t Student é superior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(t Welch)-p(Brunner-Munzel) =  0
    H1: p(t Welch)-p(Brunner-Munzel) <> 0
         est     lwr.ci     upr.ci
[1,] 0.05675 0.04697861 0.06651004

Conclusão: a proporção de rejeições corretas pelo t Welch é superior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(U MWW)-p(Brunner-Munzel) =  0
    H1: p(U MWW)-p(Brunner-Munzel) <> 0
         est     lwr.ci      upr.ci
[1,] -0.0119 -0.0216971 -0.00210052

Conclusão: a proporção de rejeições corretas pelo U MWW é inferior à do Brunner-Munzel.

Teste da diferença de proporcao de sucessos:
    H0: p(t Student)-p(t Welch) =  0
    H1: p(t Student)-p(t Welch) <> 0
          est      lwr.ci      upr.ci
[1,] -0.02025 -0.02999932 -0.01049663

Conclusão: a proporção de rejeições corretas pelo t Student é inferior à do t Welch.

Os testes são concordantes entre si (usando a medida de concordância G de Holley e Guilford, 1964), mas a comparação da proporção de rejeições da hipótese nula de igualdade das amostras (DescTools::BinomDiffCI) mostra que ambos os testes t, de Student e de Welch/Satterthwaite, têm desempenho significantemente superiores aos testes U de Mann-Whitney e de Brunner-Munzel.

Falsa aparência?

O primeiro exemplo, com uma única instância amostral, teve que ser escolhido entre as 418 ocorrências de 20000 tentativas na quais a hipótese nula não foi (incorretamente) rejeitada pelo teste t de Student mas foi (corretamente) rejeitada por U de Mann-Whitney. Em todas as outras situações os dois testes concordaram (18196 ocorrências, em que ambos rejeitaram ou não rejeitaram \(H_0\)) ou apenas o teste t forneceu a rejeição corretamente (1386 ocorrências).

Considerando que a resposta correta (a população é simulada) é a rejeição da hipótese nula, frente a amostras pequenas e com distribuição populacional não normal, o teste t de Student não parece ser o mais indicado.

Porém, embora os dois testes concordem em geral, o teste não-paramétrico U de Mann-Whitney teve desempenho significantemente pior do que o teste t de Student (a proporção de respostas corretas fornecidas teste U foi menor do que pelo teste t ).

Em relação ao teste t de Welch (que mostrou mais acertos que o t de Student), o desempenho do teste U foi ainda pior.

O teste de Brunner-Munzel, embora tenha mostrado melhora em comparação com Mann-Whitney, continuou inferior a ambos os testes t.

Cálculo não-paramétrico usando posto (rank)

O teste paramétrico usa variável intervalar ou de razão (números) para comparar distribuições da variável dependente (VD) em duas ou mais condições (e.g., grupos, exposições, condições experimentais) e, assim, testar a hipótese nula de igualdade de médias populacionais.

O teste não-paramétrico, em geral, usa posto (rank) para chegar a uma decisão estatística.

O uso de posto equivale a trabalhar com a teoria das estatísticas de ordem.

O posto equivale a uma transformação monotônica, não linear e equiespaçada dos valores originais, que converte uma variável intervalar ou ordinal em uma representação intervalar uniforme artificial, permitindo operações algébricas (como soma ou diferença) em teste não-paramétrico.

Atribuição de postos

Duas amostras hipotéticas, A e B, têm os seguintes valores:

A <- c(65,32,56,85,78,23)
B <- c(56,90,23,56,34)

dt_AB <- data.frame(c(A,B))
names(dt_AB) <- "valor"
dt_AB$grupo <- c(rep("A",length(A)),rep("B",length(B)))
print(dt_AB)
   valor grupo
1     65     A
2     32     A
3     56     A
4     85     A
5     78     A
6     23     A
7     56     B
8     90     B
9     23     B
10    56     B
11    34     B

Os valores são ordenados, preservando a condição de origem (A ou B):

dt_AB <- dt_AB[order(dt_AB$valor),]
dt_AB$ordem <- 1:nrow(dt_AB)
print(dt_AB)
   valor grupo ordem
6     23     A     1
9     23     B     2
2     32     A     3
11    34     B     4
3     56     A     5
7     56     B     6
10    56     B     7
1     65     A     8
5     78     A     9
4     85     A    10
8     90     B    11

Os postos são atribuídos por rank, considerando-se os empates:

dt_AB$posto <- rank(dt_AB$valor)
print(dt_AB)
   valor grupo ordem posto
6     23     A     1   1.5
9     23     B     2   1.5
2     32     A     3   3.0
11    34     B     4   4.0
3     56     A     5   6.0
7     56     B     6   6.0
10    56     B     7   6.0
1     65     A     8   8.0
5     78     A     9   9.0
4     85     A    10  10.0
8     90     B    11  11.0

O modo como os postos são utilizados, depende do teste. Neste exemplo, para um teste baseado em soma dos postos, podemos obter:

dt_AB <- dt_AB[order(dt_AB$grupo),]
print(dt_AB)
   valor grupo ordem posto
6     23     A     1   1.5
2     32     A     3   3.0
3     56     A     5   6.0
1     65     A     8   8.0
5     78     A     9   9.0
4     85     A    10  10.0
9     23     B     2   1.5
11    34     B     4   4.0
7     56     B     6   6.0
10    56     B     7   6.0
8     90     B    11  11.0
print(sum(dt_AB$posto[dt_AB$grupo=="A"]))
[1] 37.5
print(sum(dt_AB$posto[dt_AB$grupo=="B"]))
[1] 28.5

A inferência dependerá, neste caso, das somas dos postos associadas a cada uma das condições.

\[~\] Não são os postos que estão em comparação!

Por causa do procedimento não-paramétrico empregar posto em vez do valor original da VD, é muito comum se afirmar que estes testes avaliam e decidem em relação à uma hipótese nula formulada sobre posto.

Porém, não é isto o que ocorre. Posto (rank) da VD é um artifício estatístico (estatística de ordem) para comparar distribuições da VD em duas ou mais condições e assim testar a hipótese nula.

Posto é impostor!

A conclusão de um teste não-paramétrico NÃO é sobre posto, mas sobre o valor original da VD.

Distribuição de postos

Apenas para reforçar que o teste não-paramétrico NÃO avalia posto (mas a VD original), podemos comparar como ficaria estranha a distribuição de postos para as duas amostras que obtivemos.

Como, neste exemplo, dificilmente há empates, a distribuição de postos torna-se uniforme (com curvas descendentes nos extremos apenas porque é desta forma que um gráfico de densidade fecha a curva para ter área igual a um):
implementado com demo_ConfrontoAmostrasRank.R

ou observar como ficariam amostras 10 vezes maiores…

Parque Arqueológico e Ambiental de São João Marcos
modificado de https://www.tripadvisor.com.br/

Testes para duas condições independentes

  • Teste não-paramétrico
    • U de Mann-Whitney
    • Brunner-Munzel
  • Teste paramétrico
    • t de Student
    • t de Welch (Satterthwaite)

Teste U de Mann-Whitney

O teste U de Mann-Whitney é generalização de uma proposta original de Wilcoxon. Existem nomes diferentes para este teste na literatura:

  • U de Mann-Whitney
  • Wilcoxon Rank Sum Test
  • Teste de soma de postos
  • MWW
  • WMW

   

Matemático, desenvolveu o teste U que recebe seu nome em conjunto com seu aluno de doutorado, Donald Ransom Whitney.

O teste de soma de postos, inicialmente proposto por Wilcoxon em 1945, previa apenas amostras de igual tamanho; foi generalizado por Mann e Whitney para tamanhos arbitrários de amostra em 1947.

Ingressou para a Ohio State University em 1946, como professor assistente do Departamento de Matemática. Colaborou com Henry Mann para desenvolver o teste que levou seus nomes. Envolveu-se na criação de métodos de computação numérica, um predecessor do Instructional Research Computer Center. Teve papel importante em estabelecer estatística como um departmento separado da Matemática in 1973.

   

Donald Ransom Whitney (1915-2007)
http://www.portalaction.com.br/tecnicas-nao-parametricas

Exemplo 1: simpatia de atendente de telemarketing

Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).

As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco, 3=Medianamente, 4=Muito, 5=Totalmente simpático.

Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert.

Foram obtidas as seguintes notas:

Com treino: 2 3 3 3 3 3 4 4 4 5

Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4

Na área médica habitualmente enuncia-se:

\[ \begin{cases} H_0: \text{mediana}_A = \text{mediana}_B\\ H_1: \text{mediana}_A \ne \text{mediana}_B \end{cases}\\ \alpha=0.05 \]

Aplicando-se o teste:


Teste U de Mann-Whitney Convencional:

    Wilcoxon rank sum test

data:  Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 9.544709e-06 1.999935e+00
sample estimates:
difference in location 
                     1 


Teste U de Mann-Whitney Exato:

    Exact Wilcoxon rank sum test

data:  ComTreino and SemTreino
W = 89.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0 2
sample estimates:
difference in location 
                   0.5 


Teste U de Mann-Whitney Bootstrapping:

    Approximative Wilcoxon-Mann-Whitney Test

data:  Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04868
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0 1
sample estimates:
difference in location 
                     1 


-----------------------
Estatística descritiva:
-----------------------

Com treino: 2 3 3 3 3 3 4 4 4 5
    mediana = 3
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    mediana = 3
implementado com demo_MWW_previa.R

Como se explica o fato de que as medianas dos grupos neste exemplo sejam numericamente iguais, mas os testes não-paramétricos encontrem diferença estatisticamente significante?

Qual, então, foi a hipótese nula testada?

O teste U de Mann-Whitney testa a hipótese nula de igualdade das pseudomedianas populacionais da VD intervalar em duas condições independentes.

Pseudomediana

Hodges-Lehmann estimator: Wikipedia

A pseudomediana é uma medida de tendência central (uma alternativa às mais tradicionais como média e mediana) que serve rigorosamente para variável intervalar, mas que pode ser usada heuristicamente para variável ordinal em algumas situações (e.g., item Likert ou diferencial semântico). Se a distribuição é simétrica, a pseudomediana coincide com a média e a mediana; quando há assimetria, ela difere dessas medidas. Se a distribuição é assimétrica, a pseudomediana é robusta a outlier e assimetria, sendo assim, mais parecida com a mediana.

A pseudomediana é obtida pela mediana das médias (Walsh averages) de todas as possíveis combinações dos pares de valores amostrais de variável intervalar, incluindo cada elemento consigo mesmo.

Como é calculada a pseudomediana?

Hollander et al., 2014, p. 56-63

Implementamos em demo_PseudoMediana.R, um exemplo que utiliza apenas cinco valores.

# demo_PseudoMediana.R

v <- c(8,8,11,12,20)

cat("\nValores:",v," (total de",length(v),"valores)\n")
m <- c()
par <- 0
for (i1 in 1:length(v))
{
  for (i2 in i1:length(v))
  {
    par <- par+1
    cat("\npar ",par,": ",v[i1]," e ",v[i2],
        ", média = ",mean(c(v[i1],v[i2])),sep="")
    m <- c(m,mean(c(v[i1],v[i2])))
  }
}
cat("\n\nPseudomediana = ",median(m),
", obtida de ",par," pares de valores.\n",sep="")

Observe os pares formados e a pseudomediana (mediana das médias dos pares):

source("demo_PseudoMediana.R")

Valores: 8 8 11 12 20  (total de 5 valores)

par 1: 8 e 8, média = 8
par 2: 8 e 8, média = 8
par 3: 8 e 11, média = 9.5
par 4: 8 e 12, média = 10
par 5: 8 e 20, média = 14
par 6: 8 e 8, média = 8
par 7: 8 e 11, média = 9.5
par 8: 8 e 12, média = 10
par 9: 8 e 20, média = 14
par 10: 11 e 11, média = 11
par 11: 11 e 12, média = 11.5
par 12: 11 e 20, média = 15.5
par 13: 12 e 12, média = 12
par 14: 12 e 20, média = 16
par 15: 20 e 20, média = 20

Pseudomediana = 11, obtida de 15 pares de valores.
implementado com demo_PseudoMediana.R

A função DescTools::HodgesLehmann também calcula a pseudomediana. No exemplo das atendentes de telemarketing obtém-se:


Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    mediana = 3
    pseudomediana = 3.5
    ... calculada com DescTools::HodgesLehmann(ComTreino)

Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    mediana = 3
    pseudomediana = 2.5
    ... calculada com DescTools::HodgesLehmann(SemTreino)

Compare:
    Location shift = 3.5 - 2.5 = 1

com:
    Wilcoxon rank sum test

data:  Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 9.544709e-06 1.999935e+00
sample estimates:
difference in location 
                     1 
implementado com demo_MWW_pm.R

O gráfico da Empirical Cumulative Distribution Function evidencia o que se entende por location shift, implementado pela função nativa ecdf:

plot(ecdf(ComTreino), 
     main="Empirical Cumulative Distribution Function",
     xlab="Escore de Simpatia", 
     ylab="Probabilidade",
     bty="n", lwd=2, verticals = TRUE)
lines(ecdf(SemTreino), lwd=2, col="steelblue2", verticals = TRUE)
abline(h=0.5,lty=3)
abline(v=3,lty=3)
abline(v=pm1,lty=3)
abline(v=pm2,lty=3,col="steelblue2")
legend("right",
       c("Sem treino","Com treino"),
       lty=1,
       lwd=2,
       pch=16,
       col=c("steelblue2","black"),
       bty="n")
implementado com demo_WWW_pmplot.R

Conforme Rosenkranz (2010):

  1. “O estimador de Hodges-Lehmann (HL) fornece uma estimativa do parâmetro de deslocamento de localização (location shift) entre duas populações.”

  2. “O estimador HL estima a diferença entre as medianas quando as distribuições das duas amostras são simétricas em torno de suas respectivas medianas.”

O artigo seminal de Hodges Jr. & Lehmann (1963) propõe a seguinte hipótese nula para o teste U de Mann-Whitney é

\[H_0: \Delta = 0\] sendo que \(\hat{\Delta}\) é a mediana de todas as diferenças entre cada valor de uma amostra e todos os valores da outra amostra. Portanto, os autores implicitamente assumem que o formato da distribuição é o mesmo nos dois grupos, o que é inverossímil. Além disto, novamente esta hipótese só é aplicável para variáveis de desfecho intervalares.

Dadas duas amostras, \(X = \{x_1, x_2, x_3, \ldots, x_m\}\) e \(Y = \{y_1, y_2, y_3, \ldots, y_n\}\), existem \(m \cdot n\) pares para produzir as diferenças:

\[\hat{\Delta} = \text{mediana}(x_i - y_j)\] Este \(\hat{\Delta}\) é a estimativa do \(\Delta\) populacional, que é o deslocamento da distribuição entre os grupos (location shift).

A ideia de pseudomediana parece ter vindo do mesmo artigo, e talvez por isso o pacote DescTools calcula a pseudomediana com a função DescTools::HodgesLehmann. A diferença das pseudomedianas é uma aproximação do \(\hat{\Delta}\):

\[\text{pseudomediana}_X = \text{mediana}\left(\dfrac{x_i + x_j}{2}\right)\] \[\text{pseudomediana}_Y = \text{mediana}\left(\dfrac{y_i + y_j}{2}\right)\] No exemplo das atendentes de telemarketing, os valores de \(\hat{\Delta}\) e da diferença de pseudomedianas coincidem:


Dadas duas amostras:
 Com treino: 2, 3, 3, 3, 3, 3, 4, 4, 4, 5
 Sem treino: 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4
 Diferenças: 1, 0, 0, 0, 0, -1, -1, -1, -1, -1, -1, -2, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 2, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, -1, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 3, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 0, 4, 3, 3, 3, 3, 2, 2, 2, 2, 2, 2, 1
Obtém-se Delta = 1 (120 pares de valores)
 Pseudomediana(Com Treino) = 3.5 (55 pares de valores)
 Pseudomediana(Sem Treino) = 2.5 (78 pares de valores)
Dif. das pseudomedianas = 1
implementado com demo_MWW_delta.R

Verificando com outros conjuntos de dados (\(n=30\) e \(n=20\)), gerados aleatoriamente, percebe-se que os valores nem sempre são iguais:


Dadas duas amostras:
 Grupo 1: 3.947, 5.019, 9.408, 6.278, 8.013, 3.695, 2.488, 3.424, 4.738, 6.627, 1.384, 1.037, 5.856, 1.904, 4.102, 7.722, 3.994, 9.476, 3.469, 5.773, 4.759, 6.853, 4.105, 2.809, 9.594, 9.407, 7.547, 5.822, 5.977, 6.414
 Grupo 2: 18.083, 19.267, 8.902, 9.27, 8.173, 10.448, 16.6, 18.886, 11.884, 8.955, 19.68, 8.67, 12.939, 9.706, 16.689, 9.878, 8.12, 16.665, 14.39, 10.412

Obtém-se Delta = -6.9705 (600 pares de valores)

Calculando pseudomedianas com função própria

 Pseudomediana(Grupo 1) = 5.3105 (465 pares de valores)
 Pseudomediana(Grupo 2) = 12.9735 (210 pares de valores)
Dif. das pseudomedianas = -7.663

Calculando pseudomedianas com DescTools::HodgesLehmann

 Pseudomediana(Grupo 1) = 5.3105
 Pseudomediana(Grupo 2) = 12.9735
Dif. das pseudomedianas = -7.663
implementado com demo_MWW_deltarand.R

Como alternativa à função DescTools::HodgesLehmann, implementamos demo_MWW_pm2.R para o exemplo das atendentes de telemarketing, computando-se:


Com treino: 2 3 3 3 3 3 4 4 4 5
    pares: 55 combinações possíveis
    pseudomediana = 3.5
Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    pares: 78 combinações possíveis
    pseudomediana = 2.5

Finalmente, também podemos ver como a pseudomediana seria obtida por bootstrapping, o que também fornece os intervalos de confiança de 95%:


Intervalos de confiança 95% Bonferroni:
  Treino  n Median Pseudo.median Wilcox.lower Wilcox.upper
1    Com 10      3           3.5          2.5            4
2    Sem 12      3           2.5          2.0            3
implementado com demo_MWW_pm3.R

Como o teste U de Mann-Whitney é, pelo menos, um teste de shift location, do qual a pseudomediana é uma medida, a hipótese nula sempre pode ser expressa como:

\[ \begin{cases} H_0: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1: \text{pseudomediana}_A \ne \text{pseudomediana}_B \end{cases}\\ \alpha=0.05 \]

Pseudomediana… com variável ordinal?

Como vimos, a pseudomediana toma todos os pares de valores (combinados dois a dois), faz a média dos pares e toma a a mediana destas médias. Não há problema para uma variável de desfecho intervalar. A hipótese nula enunciada acima, rigorosamente só serve para variáveis intervalares.

No entanto, uma das vantagens apregoadas é que o teste U de Mann-Whitney é lidar com variáveis ordinais. Pergunta-se:

  • Calcula-se a média dos pares de variáveis ordinais?

Podemos responder ‘sim’ e ‘não’; definir a natureza da variável é prerrogativa do pesquisador. Um item Likert ou diferencial semântico que tenha uma gradação (e.g., Nada simpático, Pouco, Medianamente, Muito, Totalmente simpático) à qual seja atribuído um número (e.g., 1, 2, 3, 4, 5), fazer a média significa aproximá-lo a uma variável intervalar.

  • O que fazer com outras ordinais?

Para VD ordinal, o teste U de Mann-Whitney não pode ser formulado em termos de pseudomedianas, porque a definição de pseudomediana requer operações aritméticas \((X + X')/2\) que só fazem sentido em escala intervalar.

O que é razoável fazer, por exemplo, com nível de educação formal (nunca foi à escola, fundamental incompleto, fundamental completo, médio incompleto, médio completo, superior incompleto e superior completo)? Muitos aplicariam um teste U, pois calcularia os postos. No entanto, já vimos que os postos são apenas um artifício para evitar calcular todas as combinatórias. O que está em jogo, sem que o aplicador se dê conta, é que pode estar calculando algo como:

\[\frac{\text{médio incompleto} + \text{superior completo}}{2} = \text{?}\]

  • Quando mais se pensa sobre este teste, não sendo mediana ou pseudomediana parâmetro de nenhuma distribuição, qual é a estatística populacional que podemos usar na hipótese nula?

\(H_0:\) ? \(=\) ?

\(H_1:\) ? \(\ne\) ?

Suposições para o teste U de Mann-Whitney

O conjunto de suposições para o teste U de Mann-Whitney é (comparar com Conover, 1999):

  • Independência das observações
  • VD pelo menos intervalar
  • VI nominal (fator) dicotômico
“Ao contrário do que muitos acreditam, o teste U de Mann-Whitney não compara as medianas entre grupos. Isso só é verdadeiro sob a suposição de que as distribuições têm o mesmo formato em ambos os grupos e diferem apenas por sua localização [sic].”
Schober & Vetter, 2020

Conforme Landoni et al. (2016), teste de U de Mann-Whitney avalia deslocamento de localização entre distribuições de probabilidade. Se as distribuições não são simétricas, o termo location shift (deslocamento de localização), usado nos testes de postos como U de Mann-Whitney, deve ser traduzido como diferença de pseudomedianas (observe na saída dos testes aplicados que aparece o termo difference in location).

Enfatizamos: a interpretação como teste de pseudomedianas iguais é válida somente quando a VD é intervalar.

Já vimos que, se VD intervalar, o teste U de Mann-Whitney equivale a um teste de igualdade de pseudomedianas populacionais. Em outras palavras, a hipótese nula para VD intervalar é igualdade de pseudomedianas populacionais ou, equivalentemente, a diferença nula de pseudomedianas populacionais, e pode ser enunciada como:

\[ \begin{cases} H_0: \text{pseudomediana}_A = \text{pseudomediana}_B\\ H_1: \text{pseudomediana}_A \ne \text{pseudomediana}_B \end{cases}\\ \alpha=0.05 \]
ou

\[ \begin{cases} H_0: \text{deslocamento de localização}=0\\ H_1: \text{deslocamento de localização}\ne0 \end{cases}\\ \alpha=0.05 \]

Sendo que \(\text{deslocamento de localização}=\text{pseudomediana}_A - \text{pseudomediana}_B\).

Se VD intervalar simétrica, o teste U de Mann-Whitney equivale a um teste de igualdade de medianas populacionais:

\[ \begin{cases} H_0: \text{mediana}_A = \text{mediana}_B\\ H_1: \text{mediana}_A \ne \text{mediana}_B \end{cases}\\ \alpha=0.05 \]

O teste de U de Mann-Whitney só pode ser interpretado como um teste de igualdade de médias populacionais em um caso bem restrito, se:

  • A VD é intervalar,
  • as duas distribuições são simétricas e
  • as duas distribuições são idênticas em forma (isoformia distributiva, incluindo homocedasticidade).

assim diferindo apenas por um deslocamento de localização aditivo (translação da distribuição). Apenas neste caso:

\[ \begin{cases} H_0: \text{média}_A = \text{média}_B\\ H_1: \text{média}_A \ne \text{média}_B \end{cases}\\ \alpha=0.05 \] Em resumo:

  • no caso geral basta VD intervalar, mesmo com distribuições da VD com formas diferentes (por exemplo, variâncias distintas ou assimetrias), o teste é de igualdade de pseudomedianas;
  • se distribuições da VD forem simétricas mas não isoformes, o teste é de igualdade de medianas;
  • se distribuições da VD forem simétricas e isoformes, pseudomediana = mediana = média e o teste pode ser interpretado como teste de igualdade de médias.

Implementamos demo_MWW.R com os testes:

  • U de Mann-Whitney: método assintótico com wilcox.test
  • U de Mann-Whitney: método exato com exactRankTests::wilcox.exact
  • U de Mann-Whitney: método bootstrapping com coin::wilcox_test

Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    mediana = 3
    pseudomediana = 3.5
    ... calculada com DescTools::HodgesLehmann(ComTreino)

Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    mediana = 3
    pseudomediana = 2.5
    ... calculada com DescTools::HodgesLehmann(SemTreino)

Teste U de Mann-Whitney Convencional:

    Wilcoxon rank sum test

data:  Simpatia by Treino
W = 89.5, p-value = 0.03582
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 9.544709e-06 1.999935e+00
sample estimates:
difference in location 
                     1 


Teste U de Mann-Whitney Exato:

    Exact Wilcoxon rank sum test

data:  ComTreino and SemTreino
W = 89.5, p-value = 0.04863
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0 2
sample estimates:
difference in location 
                   0.5 


Teste U de Mann-Whitney Bootstrapping:

    Approximative Wilcoxon-Mann-Whitney Test

data:  Simpatia by Treino (Com, Sem)
Z = 2.099, p-value = 0.04844
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0 1
sample estimates:
difference in location 
                     1 
implementado com demo_MWW.R

Testes das suposições

Vamos utilizar demo_MWW_2.R para observar as distribuições das respostas.

Como o formato das distribuições importa, também adicionamos ao final deste código testes de simetria, unimodalidade, normalidade, e comparações de duas distribuições inteiras. Ainda usando o exemplo das atendentes de telemarketing:


Dados:
   Treino Simpatia
1     Com        2
2     Com        3
3     Com        3
4     Com        3
5     Com        3
6     Com        3
7     Com        4
8     Com        4
9     Com        4
10    Com        5
11    Sem        1
12    Sem        2
13    Sem        2
14    Sem        2
15    Sem        2
16    Sem        3
17    Sem        3
18    Sem        3
19    Sem        3
20    Sem        3
21    Sem        3
22    Sem        4


Intervalos de confiança 95% Bonferroni:
  Treino  n Median Pseudo.median Wilcox.lower Wilcox.upper
1    Com 10      3           3.5          2.5            4
2    Sem 12      3           2.5          2.0            3


Teste de simetria:

    m-out-of-n bootstrap symmetry test by Miao, Gel, and Gastwirth (2006)

data:  dt_treino$Simpatia[dt_treino$Treino == "Sem"]
Test statistic = -2.6131, p-value = 0.254
alternative hypothesis: the distribution is asymmetric.
sample estimates:
bootstrap optimal m 
                 11 


    m-out-of-n bootstrap symmetry test by Miao, Gel, and Gastwirth (2006)

data:  dt_treino$Simpatia[dt_treino$Treino == "Com"]
Test statistic = 2.2264, p-value = 0.144
alternative hypothesis: the distribution is asymmetric.
sample estimates:
bootstrap optimal m 
                  8 


Teste de unimodalidade:

    Hartigans' dip test for unimodality / multimodality

data:  dt_treino$Simpatia[dt_treino$Treino == "Sem"]
D = 0.16667, p-value = 0.001342
alternative hypothesis: non-unimodal, i.e., at least bimodal


    Hartigans' dip test for unimodality / multimodality

data:  dt_treino$Simpatia[dt_treino$Treino == "Com"]
D = 0.15, p-value = 0.02254
alternative hypothesis: non-unimodal, i.e., at least bimodal


Teste de normalidade:

    Shapiro-Wilk normality test

data:  dt_treino$Simpatia[dt_treino$Treino == "Sem"]
W = 0.87542, p-value = 0.0766


    Shapiro-Wilk normality test

data:  dt_treino$Simpatia[dt_treino$Treino == "Com"]
W = 0.89047, p-value = 0.1716


Teste de comparação de distribuições com kSamples::ad.test


 Anderson-Darling k-sample test.

Number of samples:  2
Sample sizes:  10, 12
Number of ties: 17

Mean of  Anderson-Darling  Criterion: 1
Standard deviation of  Anderson-Darling  Criterion: 0.70176

T.AD = ( Anderson-Darling  Criterion - mean)/sigma

Null Hypothesis: All samples come from a common population.

Based on Nsim = 10000 simulations

               AD   T.AD  asympt. P-value  sim. P-value
version 1: 2.4522 2.0694         0.045415         0.069
version 2: 3.3700 3.3811         0.014170         0.056

Outro teste de comparação de distribuições, com ks.test

    Exact two-sample Kolmogorov-Smirnov test

data:  ComTreino and SemTreino
D = 0.31667, p-value = 0.2626
alternative hypothesis: two-sided


... e mais outra forma de usar Kolmogorov-Smirnov com EnvStats::gofTest

    Method: 2-Sample K-S GOF
    ks: 0.3166667
    p: 0.2625795
implementado com demo_MWW_2.R

Teste de Brunner-Munzel

   

Universitätsmedizin Göttingen · Department of Medical Statistics

Matemático alemão, formado em 1969 pela Rheinisch-Westfälische Technische Hochschule, com doutorado em matemática pela mesma universidade em 1971 e habilitação em estatística médica em 1973. Foi professor universitário de 1976 a 2009 e diretor do Departamento de Estatística Médica do Centro de Tecnologia da Informação, Estatística e Epidemiologia do Centro Médico Universitário de Göttingen.

Georg-August-Universität Göttingen.

Obteve seu doutorado nesta universidade em 1996 com a tese Multivariate nichtparametrische Verfahren für feste Faktoren in mehrfaktoriellen Versuchsanlagen (Métodos não-paramétricos multivariados para fatores fixos em sistemas experimentais multifatoriais), orientado por Edgar Brunner, com quem também publicou Nichtparametrische Datenanalyse: Unverbundene Stichproben (Statistik und ihre Anwendungen) (Análise de dados não-paramétricos: amostras não pareadas (estatísticas e suas aplicações)), em 2002, do qual localizei apenas o original em alemão.

Não conseguimos, até o momento, mais informações a seu respeito, nem se está ativo.

   

Ullrich Munzel ()

O teste de Brunner-Munzel (heterocedástico) é conhecido também como teste de Mann-Whitney-Wilcoxon generalizado.

O conjunto de suposições para o teste de Brunner-Munzel:

  • Independência das observações
  • VD pelo menos ordinal
  • VI nominal (fator) dicotômico

Conforme documentação de lawstat::brunner.munzel.test,

“The Brunner-Munzel test for stochastic equality of two samples, which is also known as the Generalized Wilcoxon test.”

Portanto, ele testa a hipótese nula de distribuições estocasticamente equivalentes com VD ordinal em duas condições independentes.

\[ \begin{cases} H_0: \text{distribuições estocasticamente equivalentes}\\ H_1: \text{distribuições estocasticamente não equivalentes} \end{cases}\\ \alpha=0.05 \]

Se VD é ordinal, não há base teórica ou estatística sólida para supor nem testar simetria. A razão é simples: a simetria é uma propriedade métrica, dependente de distâncias numéricas em torno de um ponto central (mediana, média, etc.). Escalas ordinais só preservam ordem, não diferenças. Assim, não faz sentido afirmar que uma distribuição ordinal é “simétrica” ou “assimétrica”, pois não existe eixo de referência contínuo nem unidade de medida.

Conforme Karch (2021, p. 6-7), o teste de Brunner-Munzel é preferível ao U de Mann-Whitney porque é baseado no conceito de superioridade estocástica que prescinde de suposições distribucionais e, portanto, pode ser usado inclusive para VD ordinal. Além disso, prescinde também da suposição de permutabilidade (exchangeability):

“O teste de Mann-Whitney não é assintoticamente válido sob a perspectiva de igualdade estocástica. Assim, se a suposição de permutabilidade não for atendida, a taxa de erro tipo I pode ser substancialmente maior que o nível de significância, mesmo em amostras grandes. Em contraste, Brunner e Munzel (2000) demonstraram que o teste de Brunner-Munzel é assintoticamente válido sob a suposição (ampla e razoável) de que as variâncias das duas populações são finitas. Essa é exatamente a mesma condição sob a qual o teste t de Welch é assintoticamente válido.”

Retomando o exemplo 1: simpatia de atendente de telemarketing

Avaliou-se o grau de simpatia de atendentes de telemarketing que receberam ou não receberam treinamento (Marôco, 2014, cap. 7).

As notas foram dadas com um item Likert:
\(~\) 1=Nada simpático, 2=Pouco, 3=Medianamente, 4=Muito, 5=Totalmente simpático.

Temos, portanto, duas condições experimentais independentes (fator) avaliadas por um item Likert.

Quando aplicamos o teste de U de Mann-Whitney, tratamos o item Likert como variável intervalar. Para o teste de Brunner-Munzel o item Likert é tratado como variável ordinal.

O teste de Brunner-Munzel foi implementado em demo_BM.R. Compare com os resultados obtidos por U de Mann-Whitney em demo_MWW.R. Aqui empregamos:

  • Brunner-Munzel: lawstat::brunner.munzel.test.

Obtendo:


Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    mediana = 3
    pseudomediana = 3.5
    ... calculada com DescTools::HodgesLehmann(ComTreino)

Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    mediana = 3
    pseudomediana = 2.5
    ... calculada com DescTools::HodgesLehmann(SemTreino)

Teste B de Brunner-Munzel:

  * com lawstat::brunner.munzel.test

    Brunner-Munzel Test

data:  SemTreino and ComTreino
Brunner-Munzel Test Statistic = 2.5443, df = 18.934, p-value = 0.01983
95 percent confidence interval:
 0.5435583 0.9481084
sample estimates:
P(X<Y)+.5*P(X=Y) 
       0.7458333 
implementado com demo_BM.R

No teste U de Mann-Whitney, rejeita-se a hipótese nula de que as pseudomedianas populacionais são iguais para \(\alpha=0.05\).

No teste de Brunner-Munzel, rejeita-se a hipótese nula de que as distribuições são estocasticamente equivalentes entre os grupos para \(\alpha=0.05\).

Teste não-paramétrico: sem suposições? distribution free?

Vimos que os testes não-paramétricos, ao contrário da crença popular, não é totalmente livre de suposições.

Veremos adiante que, além dos testes de Mann-Whitney e de Brunner-Munzel, outros testes não-paramétricos também podem, dependendo das decisões do modelador, ter mais ou menos suposições ou suposições mais difíceis de serem atendidas e testadas estatisticamente do que aquelas de um teste paramétrico (GLM).

Por exemplo, dependendo da variável, pode ser difícil que não existam muitos empates. Quando a variável é assumida como intervalar, a homocedasticidade pode afetar a interpretação da hipótese nula. Quando a variável é ordinal, homocedasticidade sequer tem sentido porque não é concebível

Para o caso geral, embora não necessite da distribuição normal, pode requerer o mesmo formato das distribuições e existe disputa sobre a capacidade dos testes disponíveis para testar igualdade de formato de distribuição. As possibilidades que existem são pouco conhecidas e habitualmente não praticadas porque muitos acreditam que não são necessárias, dado a fama de “distribuition-free” e de “robustez” que estes testes adquiriram indevidamente. Então os pesquisadores assumem, sem perceber, que as suposições desconhecidas estão bem atendidas e que o teste não-paramétrico traz melhores decisões estatísticas.

Testes t

Para comparação, aqui incluímos os testes t concorrentes que resolveriam o mesmo problema.

Teste t de Student

Embora não seja o mais indicado, o teste t de Student assume distribuição normal e homocedasticidade populacionais. Além disto não serve para variáveis ordinais.

Desconsiderando tais premissas, por exercício, vamos supor que o item Likert é uma variável intervalar (numérica) e, portanto, aplicamos o teste t.

\[ \begin{cases} H_0: \mu_A = \mu_B\\ H_1: \mu_A \ne \mu_B \end{cases} \\ \alpha=0.05 \]

A implementação em demo_MWW_tStudent.R obtém:


Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    d.p. = 0.7929615
    n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    d.p. = 0.843274
    n = 10

Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667

----------
Sem Treino
----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                      
n            12.000000
mean          2.583333
median        3.000000
mode          2.964081
pseudomedian  2.500000

        ------------
        - quartiles:
        ------------
            
Q1(min)    1
Q2         2
Q3(median) 3
Q4         3
Q5(max)    4

        ----------------------
        - dispersion measures:
        ----------------------
                
st.dev 0.7929615
IQR    1.0000000

        -----------
        - skewness:
        -----------
                      
Skewness    -0.2483784
skwns.lower -1.2509229
skwns.upper  0.5887855

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -0.6906693
krts.lower -2.0636905
krts.upper  0.8069728

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -2.6131, p-value = 0.008972
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 12

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.87542, p-value = 0.0766


----------
Com Treino
----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                      
n            10.000000
mean          3.400000
median        3.000000
mode          3.039015
pseudomedian  3.500000

        ------------
        - quartiles:
        ------------
            
Q1(min)    2
Q2         3
Q3(median) 3
Q4         4
Q5(max)    5

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 0.843274
IQR    1.000000

        -----------
        - skewness:
        -----------
                      
Skewness     0.2801580
skwns.lower -0.7452708
skwns.upper  1.2807225

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -0.8421094
krts.lower -2.0550000
krts.upper  1.1714277

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 2.2264, p-value = 0.02599
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 10

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.89047, p-value = 0.1716

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  1  0.0033 0.9551
      20               

    Two Sample t-test

data:  ComTreino and SemTreino
t = 2.3374, df = 20, p-value = 0.02992
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.08786362 1.54546971
sample estimates:
mean of x mean of y 
 3.400000  2.583333 

implementado com demo_MWW_tStudent.R

Observe que as hipóteses nulas de simetria foram rejeitadas para as duas condições (premissa para o teste U, mas não para o teste B), embora normalidade não tenha sido rejeitada (os testes nem sempre são consistentes entre si, além do que devemos lembrar que não “prova” normalidade). Além disto, os dois grupos não podem ser considerados heterogêneos em variância pela avaliação com estas amostras (homocedasticidade é premissa para o teste t de Student, mas não para o t de Welch).

Apesar de violarmos parte de suas premissas, a conclusão é a mesma que conseguimos com os testes não-paramétricos: rejeita-se a hipótese nula de igualdade de escores dos grupos ‘Sem Treino’ e ‘Com Treino’.

Este script utilizou a função shape.test que implementamos em eiras.shape.test.R, que faz uma descrição breve da anatomia das distribuições. Fornece:

  • medidas de tendência central, separatrizes (quartis) e medidas de dispersão.
  • assimetria (skewness com DescTools::Skew), que pode ser:
    • negativa (cauda mais longa à esquerda),
    • simétrica (caudas iguais),
    • positiva (cauda mais longa à direita).
  • curtose (kurtosis com DescTools::Skew); oO excesso de curtose é medida de quanto os valores estão concentrados. A distribuição normal é a referência, com excesso de curtose nulo. As distribuições podem ser
    • platicúrticas (curtose negativa, dados menos concentrados ao redor da tendência central),
    • mesocúrticas (curtose nula),
    • leptocúrticas (curtose positiva, dados mais concentrados ao redor da tendência central).
  • simetria (lawstat::symmetry.test)
  • normalidade (shapiro.test)
  • homocedasticidade (car::leveneTest)

Teste t de Welch / Satterthwaite

Este teste t faz as correções necessárias para heterocedasticidade, na medida do necessário. As premissas são verificadas novamente porque a função shape.test, de nossa autoria, é chamada nos dois códigos R (por completude).

Com a implementação em demo_MWW_t.R obtemos:


Sem treino: 1 2 2 2 2 3 3 3 3 3 3 4
    media = 2.583333
    d.p. = 0.7929615
    n = 12
Com treino: 2 3 3 3 3 3 4 4 4 5
    media = 3.4
    d.p. = 0.843274
    n = 10

Diferenca das medias amostrais (Com treino - Sem treino) = 0.8166667

    Welch Two Sample t-test

data:  ComTreino and SemTreino
t = 2.3238, df = 18.799, p-value = 0.03151
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.08056125 1.55277209
sample estimates:
mean of x mean of y 
 3.400000  2.583333 

$emmeans
 Treino emmean    SE df lower.CL upper.CL
 Com      3.40 0.258 20     2.86     3.94
 Sem      2.58 0.236 20     2.09     3.07

Confidence level used: 0.95 

$contrasts
 contrast  estimate    SE df t.ratio p.value
 Com - Sem    0.817 0.349 20   2.337  0.0299

implementado com demo_MWW_t.R

O valor p mudou um pouco (observe também os graus de liberdade, que agora são fracionários), mas a conclusão é a mesma. Além das mesmas premissas avaliadas pelo teste t de Student, este código R adiciona as médias marginais estimadas (emmeans::emmeans), que trazem os intervalos de confiança corrigidos após a aplicação do modelo estatístico.

A principal diferença em relação ao teste t de Student é que o teste t de Welch (Satterthwaite) é robusto à heterocedasticidade (mas, neste exemplo, a homocedasticidade foi testada e não rejeitada).

Em comparação com suas alternativas não-paramétricas, o teste t tem hipótese nula mais clara: a inferência é sobre as médias populacionais da Simpatia, que é maior no grupo com treinamento.

Teste t independente por bootstrapping

Duas formas de executar o mesmo teste por bootstrapping estão implementadas em demo_MWW_tboot.R:

  • um teste t para duas condições independentes utilizando bootstrapping pivotal.
  • uma implementação de ANOVA unifatorial independente (ANOVA, quando feito para apenas dois grupos, corresponde a um teste t).

Obtém-se:


One sample t test (1e+05 reamostragens, bootstrapping pivotal)
Intervalo de confiança 95% e mediana:
      2.5%        50%      97.5% 
0.02069533 0.81666667 1.50561975 


Independent One-way ANOVA (1e+05 reamostragens, funcao lmboot::ANOVA.boot)
F(1,20) = 5.42102, p = 0.0305
implementado com demo_MWW_tboot.R

As conclusões são, novamente, as mesmas que conseguimos com os testes anteriores (rejeitando-se a igualdade de médias entre os grupos ‘Sem Treino’ e ‘Com Treino’):

  • o teste t pivotal não fornece valor p mas a decisão estatística é dada pelo intervalo de confiança 95%, acima e não contendo o valor zero (diferenças computadas com ‘Com Treino’ - ‘Sem Treino’).
  • ANOVA foi implementada com lmboot::ANOVA.boot, retornando valor p que usamos, reversamente, para encontrar o valor \(F\) observado com a função qf (nativa do R: dada a probabilidade e os graus de liberdade, retorna a estatística \(F\) correspondente).

Testes para duas condições dependentes

  • não-paramétrico
    • W de Wilcoxon
  • paramétrico
    • t relacionado

Teste W de Wilcoxon

Frank Wilcoxon (1892 – 1965)

   

Tornou-se conhecido por ter desenvolvido dois testes muito utilizados: o Teste de Soma de Postos (Wilcoxon Rank Sum Test), que é equivalente ao teste U de Mann-Whitney, e o Teste de Postos com Sinais (Wilcoxon Signed Rank Test).

Rosner (1995)

O nome deste teste pode ser encontrado como:

  • Teste de Wilcoxon
  • Wilcoxon Signed Rank Test
  • Teste de postos com sinais

Conover (1999) sumariza as suposições:

  • As diferenças devem ser independentes entre si.
  • A diferença deve ser pelo menos intervalar.
  • A distribuição da diferença deve ser simétrica populacionalmente.

O teste W de Wilcoxon testa a hipótese nula de igualdade das médias populacionais da VD intervalar em duas condições dependentes. É, portanto, alternativa ao teste t relacionado. A VD não pode ser, consequentemente, ordinal:

Wilcoxon , 1945

Sobre o formato da distribuição, a restrição é forte: este teste não deve ser usado se não estiver claro que a distribuição das diferenças entre os pares de medidas tem distribuição simétrica:

Munzel, 1999

Exemplo 2: simpatia dos enfermeiros com pacientes

Enfermeiros receberam um questionário que media o nível de simpatia com pacientes que sofrem de esclerose múltipla (EM). Para cada enfermeiro, um escore total INTERVALAR que varia entre 1 e 10 foi observado. Os enfermeiros então participaram de um grupo de discussão (uma hora), que incluía pacientes com EM. Mais tarde, um questionário parecido foi dado novamente a eles.

Trata-se, portanto, de um delineamento intraparticipantes, pois os mesmos enfermeiros estão sendo medidos nas condições “antes” e “depois” de serem expostos ao grupo de discussão. Nossa hipótese é de que haverá uma mudança significante entre os escores dos dois questionários aplicados, de modo que estes sejam diferentes (maiores) após a participação no grupo de discussão.

\[ \begin{cases} H_0: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} = 0\\ H_1: \text{pseudomediana}_\text{Depois} - \text{pseudomediana}_\text{Antes} \ne 0 \end{cases} \\ \alpha=0.05 \]

Os dados estão em Simpatia.xlsx. O teste, que utiliza a diferença entre os escores obtidos de cada enfermeiro entre os dois momentos estudados, está implementado em demo_Wilcoxon.R:

   Antes Depois
1      5      7
2      6      6
3      2      3
4      4      8
5      6      7
6      7      6
7      3      7
8      5      8
9      5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7

----------
Diferencas
----------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                       
n            10.0000000
mean          1.7000000
median        1.5000000
mode          0.6912619
pseudomedian  1.5000000

        ------------
        - quartiles:
        ------------
                
Q1(min)    -1.00
Q2          0.25
Q3(median)  1.50
Q4          3.00
Q5(max)     4.00

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.766981
IQR    2.750000

        -----------
        - skewness:
        -----------
                       
Skewness    -0.02610158
skwns.lower -0.83202190
skwns.upper  0.83338980

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6457394
krts.lower -1.9685148
krts.upper -0.1580446

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.44529, p-value = 0.6561
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 10

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.93041, p-value = 0.4519

Grafico guardado em image/densDifs_W.png

Teste W de Wilcoxon Convencional:

    Wilcoxon signed rank test

data:  Depois and Antes
V = 34, p-value = 0.024
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 0.9999672 3.5000396
sample estimates:
(pseudo)median 
      2.170837 


Teste W de Wilcoxon Exato:

    Exact Wilcoxon signed rank test

data:  Depois and Antes
V = 34, p-value = 0.03125
alternative hypothesis: true mu is not equal to 0
95 percent confidence interval:
 0.5 4.0
sample estimates:
(pseudo)median 
          2.25 
implementado com demo_Wilcoxon.R

Este é o gráfico de densidade das diferenças obtido com os valores amostrais:

Concluímos que a média das notas recebidas pelos enfermeiros após grupo de discussão diferem para \(\alpha=0.05\); podemos dizer que aumentaram porque Depois-Antes é maior que zero.

Note que a restrição forte sobre simetria foi testada. Como a amostra é pequena, verificou-se, além da simetria, se a distribuição das diferenças passa por um teste de normalidade.

O teste W de Wilcoxon utiliza a mesma função wilcox.test() utilizada para o teste U, mas muda-se o parâmetro paired=TRUE.

Teste t relacionado

Sendo a variável numérica, uma forma simples de se obter o teste t para medidas repetidas é, meramente, fazer um teste t com um único conjunto de dados: a diferença Depois-Antes observada em cada enfermeiro.

Teste t relacionado analítico

Como o teste W de Wilcoxon utiliza também variáveis intervalares, a hipótese nula pode ser escrita da mesma forma ou, como alguns preferem, para explicitar que o conjunto de dados é único, utilizar a diferença computada por \(\mu_D = \mu_\text{Depois} - \mu_\text{Antes}\) para expressar:

\[ \begin{cases} H_0: \mu_D = 0\\ H_1: \mu_D \ne 0 \end{cases} \\ \alpha=0.05 \]

Implementamos demo_Wilcoxon_t.R. Obtém-se:

# A tibble: 10 × 2
   Antes Depois
   <dbl>  <dbl>
 1     5      7
 2     6      6
 3     2      3
 4     4      8
 5     6      7
 6     7      6
 7     3      7
 8     5      8
 9     5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7


-------
Teste t
-------

    One Sample t-test

data:  v
t = 3.0424, df = 9, p-value = 0.01396
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 0.4359779 2.9640221
sample estimates:
mean of x 
      1.7 
implementado com demo_Wilcoxon_t.R

A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo.

Teste t relacionado por bootstrapping pivotal

Utilizando-se bootstrapping pivotal, o resultado é:

# A tibble: 10 × 2
   Antes Depois
   <dbl>  <dbl>
 1     5      7
 2     6      6
 3     2      3
 4     4      8
 5     6      7
 6     7      6
 7     3      7
 8     5      8
 9     5      5
10     5      8

media(Antes): 4.8
media(Depois): 6.5
Diferenca das medias (Depois-Antes) = 1.7

One-sample t test (1e+05 replicates)
     2.5%       50%     97.5% 
0.4089866 1.7000000 3.0087253 
implementado com demo_Wilcoxon_tboot.R

A conclusão é a mesma que obtivemos com o teste W de Wilcoxon: as médias são maiores depois da discussão em grupo. Esta decisão é tomada pelo intervalo de confiança 95%, que não inclui e está à direita do valor nulo.

Testes para três ou mais condições independentes

  • não-paramétrico
    • H de Kruskal-Wallis
  • paramétrico
    • One-way ANOVA

Teste H de Kruskal-Wallis

Filho de Lillian Oppenheimer, pioneira e difusora do origami nos Estados Unidos. Irmão dos também matemáticos Joseph Kruskal e Martin Kruskal. Estudou matemática na Universidade Harvard, e obteve o doutorado em 1955 na Universidade Columbia. Foi mais tarde professor da Universidade de Chicago. De 1958 a 1961 foi editor do Annals of Mathematical Statistics. Em 1971 foi presidente do Institute of Mathematical Statistics, e em 1982 presidente da American Statistical Association. Em 1990 tornou-se professor emérito.

   

William Henry Kruskal (1919-2005)
https://arxiv.org/pdf/0710.5063.pdf

   

Estatístico americano. Wallis formou-se em psicologia pela Universidade de Minnesota em 1932. Ele então estudou economia em Minnesota e na Universidade de Chicago. Posteriormente, ele ocupou cargos nos departamentos de economia em nas Universidades de Columbia, Yale e Stanford. De 1946 a 1962, ele foi Professor de Estatística na Business School of Chicago University. Seu artigo com Kruskal sobre o teste H de Kruskal-Wallis foi publicado em 1952. De 1951 a 1959, ele foi Editor do Journal of the American Statistical Association. Em 1962 mudou-se para a Universidade de Rochester (1975–82). Após a aposentadoria da vida universitária, foi nomeado subsecretário de Estado para os Assuntos Econômicos (até 1989). Ele foi agraciado com o Prêmio Wilks da ASA em 1980.

O teste H de Kruskal-Wallis verifica a hipótese nula de igualdade das pseudomedianas populacionais da VD ordinal ou intervalar em três ou mais condições independentes. É alternativa, portanto, à ANOVA unifatorial independente de Fisher (homocedástica).

Segundo a documentação do R nativo na função que implementa o teste:

kruskal.test performs a Kruskal-Wallis rank sum test of the null that the location parameters of the distribution of x are the same in each group (sample).”

O teste supõe homocedasticidade e, portanto, também só é aplicável para variáveis intervalares.

Exemplo 3: três tratamentos para enxaqueca

Pesquisadores, como parte de seu projeto conjunto do ano sobre a utilidade da terapia para pessoas que sofrem de enxaqueca, distribuíram aleatoriamente 18 pessoas que sofrem de enxaqueca em três grupos:

  • grupo 1 tem seis sessões de uma hora de terapia com um terapeuta estagiário;
  • grupo 2 tem seis sessões de autoajuda de uma hora (que não são lideradas por um facilitador - a agenda é determinada pelos próprios membros do grupo), e
  • grupo 3 consiste em pessoas que sofrem de enxaqueca que gostariam de participar de terapia ou de autoajuda, mas têm que esperar.

Os pesquisadores prevêem que os grupos de terapia e de autoajuda terão a percepção de menor sofrimento por enxaqueca do que o grupo na lista de espera quando avaliarem sua enxaqueca em um segundo ponto no tempo. No início do estudo, os participantes avaliam os seus sintomas no último mês por meio de uma variável intervalar de grau de sofrimento por enxaqueca do participante, de 0 (sem sofrimento) a 5 (sofrimento terrível). Quatorze dias mais tarde, avaliam os seus sintomas (no último mês) novamente por meio da mesma variável intervalar.

Se a VD é simétrica nas três condições, a hipótese nula de igualdade de medidas é válida. Os testes de simetria da VD intervalar resultam não significantes para \(\alpha=0.05\). Os testes foram realizados no tópico a seguir sobre ANOVA unifatorial independente.

\[ \begin{cases} H_0: \text{pseudomediana}_\text{terapia} = \text{pseudomediana}_\text{auto-ajuda} = \text{pseudomediana}_\text{espera}\\ H_1: \text{Pelo menos duas pseudomedianas populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]

Supondo que avaliaremos apenas o resultado final, os dados estão em Enxaqueca.xlsx.

O teste H de Kruskal-Wallis está disponível na função nativa kruskal.test(). Caso exista diferença entre as condições, esta poderia ser localizada através dos testes post-hoc.

Os testes post-hoc estão implementados com FSA::dunnTest(), que fixa uma condição como referência, e rcompanion::cldList(), que compara todas as condições par-a-par.

O teste de Kruskal-Wallis está implementado em demo_KW.R. Os testes post hoc estão implementados em demo_KW_posthoc.R:

                 Sintoma2
Grupo             1 2 3 4 5
  Autoajuda       0 3 1 0 2
  Lista de espera 0 1 2 2 2
  Terapeuta       2 1 1 1 0

Intervalos de confiança 95% Bonferroni:
            Grupo n Median Pseudo.median Wilcox.lower Wilcox.upper
1       Autoajuda 6    2.5          3.50          2.0            4
2 Lista de espera 7    4.0          3.56          2.5            5
3       Terapeuta 5    2.0          2.00          1.0            3

Teste H de Kruskal-Wallis Convencional:

    Kruskal-Wallis rank sum test

data:  Sintoma2 and Grupo
Kruskal-Wallis chi-squared = 3.5595, df = 2, p-value = 0.1687


Teste H de Kruskal-Wallis (bootstrapping):

    Approximative Kruskal-Wallis Test

data:  Sintoma2 by Grupo (Autoajuda, Lista de espera, Terapeuta)
chi-squared = 3.5595, p-value = 0.1673
implementado com demo_KW.R

post hoc test:

    Pairwise comparisons using Dunn's all-pairs test
data: Sintoma2 by Grupo
                Autoajuda Lista de espera
Lista de espera 1.00      -              
Terapeuta       0.81      0.18           

P value adjustment method: bonferroni
alternative hypothesis: two.sided
Registered S3 methods overwritten by 'FSA':
  method       from
  confint.boot car 
  hist.boot    car 
Dunn (1964) Kruskal-Wallis multiple comparison
  p-values adjusted with the Bonferroni method.
                   Comparison      Z P.unadj P.adj
1 Autoajuda - Lista de espera -0.784  0.4330 1.000
2       Autoajuda - Terapeuta  1.103  0.2698 0.809
3 Lista de espera - Terapeuta  1.886  0.0593 0.178
          Group Letter MonoLetter
1     Autoajuda      a          a
2 Listadeespera      a          a
3     Terapeuta      a          a
implementado com demo_KW_posthoc.R

Neste exemplo, as medianas populacionais para as diversas terapias para exaqueca não diferem, considerando \(\alpha=0.05\). Portanto, os testes post hoc não precisam ser consultados.

ANOVA unifatorial independente (one-way ANOVA)

ANOVA unifatorial independente de Fisher

O teste paramétrico ANOVA unifatorial independente de Fisher está implementado em demo_KW_ANOVA_Fisher.R.

\[ \begin{cases} H_0: \mu_\text{terapia} = \mu_\text{auto-ajuda} = \mu_\text{espera}\\ H_1: \text{Pelo menos duas médias populacionais são diferentes}\\ \end{cases}\\ \alpha=0.05 \]

Além disto, sendo a VD intervalar, podemos testar as condições de simetria, normalidade e homocedasticidade, obtendo-se:

   Caso           Grupo Sintoma1 Sintoma2
1     1       Terapeuta        5        1
2     2       Terapeuta        4        3
3     3       Terapeuta        5        4
4     4       Terapeuta        5        2
5     5       Terapeuta        4        1
6     6       Autoajuda        4        2
7     7       Autoajuda        5        5
8     8       Autoajuda        4        3
9     9       Autoajuda        2        2
10   10       Autoajuda        3        5
11   11       Autoajuda        2        2
12   12 Lista de espera        3        5
13   13 Lista de espera        2        3
14   14 Lista de espera        4        4
15   15 Lista de espera        2        4
16   16 Lista de espera        3        5
17   17 Lista de espera        2        2
18   18 Lista de espera        3        3

Tabulando Sintoma2 por Grupo:   
    Terapeuta Autoajuda Lista de espera
  1         2         0               0
  2         1         3               1
  3         1         1               2
  4         1         0               2
  5         0         2               2
    item          group1 vars n mean   sd median trimmed  mad min max range  skew kurtosis
X11    1       Terapeuta    1 5 2.20 1.30    2.0    2.20 1.48   1   4     3  0.26    -1.96
X12    2       Autoajuda    1 6 3.17 1.47    2.5    3.17 0.74   2   5     3  0.39    -2.00
X13    3 Lista de espera    1 7 3.71 1.11    4.0    3.71 1.48   2   5     3 -0.15    -1.64
      se
X11 0.58
X12 0.60
X13 0.42

---------
Terapeuta
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            5.000000
mean         2.200000
median       2.000000
mode         1.429645
pseudomedian 2.000000

        ------------
        - quartiles:
        ------------
            
Q1(min)    1
Q2         1
Q3(median) 2
Q4         3
Q5(max)    4

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.30384
IQR    2.00000

        -----------
        - skewness:
        -----------
                      
Skewness     0.2598658
skwns.lower -0.8229083
skwns.upper  1.0733126

        ------------------
        - kurtosis excess:
        ------------------
                    
Kurtosis   -1.958062
krts.lower -2.253333
krts.upper -0.920000

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.90202, p-value = 0.4211


---------
Autoajuda
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            6.000000
mean         3.166667
median       2.500000
mode         2.202567
pseudomedian 3.500000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         2.0
Q3(median) 2.5
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.47196
IQR    2.50000

        -----------
        - skewness:
        -----------
                      
Skewness     0.3948453
skwns.lower -0.6703371
skwns.upper  1.3608276

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.75467, p-value = 0.02212


---------------
Lista de espera
---------------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            7.000000
mean         3.714286
median       4.000000
mode         3.908236
pseudomedian 3.750000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         3.0
Q3(median) 4.0
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.112697
IQR    1.500000

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1523727
skwns.lower -1.0744714
skwns.upper  0.6823774

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 7

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92158, p-value = 0.4818

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  2  0.2278  0.799
      15               

Registered S3 method overwritten by 'gplots':
  method         from     
  reorder.factor DescTools


Legenda:
    A ... Terapeuta
    B ... Autoajuda
    C ... Lista de espera

ANOVA unifatorial independente de Fisher

VD = Sintoma2 
Fator = Grupo 

Analise de significancia estatistica: teste omnibus

ANOVAAnova Table (Type II tests)

Response: Sintoma2
           Sum Sq Df F value Pr(>F)
Grupo      6.7159  2  2.0098 0.1685
Residuals 25.0619 15               
 contrast estimate    SE df lower.CL upper.CL t.ratio p.value
 B - A       0.967 0.783 15   -0.956     2.89   1.235  0.3896
 C - A       1.514 0.757 15   -0.345     3.37   2.001  0.1164

Confidence level used: 0.95 
Conf-level adjustment: dunnettx method for 2 estimates 
P value adjustment: dunnettx method for 2 tests 
 Grupo emmean    SE df lower.CL upper.CL .group
 A       2.20 0.578 15    0.643     3.76  a    
 B       3.17 0.528 15    1.745     4.59  a    
 C       3.71 0.489 15    2.398     5.03  a    

Confidence level used: 0.95 
Conf-level adjustment: bonferroni method for 3 estimates 
P value adjustment: bonferroni method for 3 tests 
significance level used: alpha = 0.05 
NOTE: If two or more means share the same grouping symbol,
      then we cannot show them to be different.
      But we also did not show them to be the same. 

Analise de significancia pratica: tamanho de efeito
For one-way between subjects designs, partial eta squared is equivalent to eta
  squared. Returning eta squared.
# Effect Size for ANOVA

Parameter |   Eta2 |           95% CI | interpret
-------------------------------------------------
Grupo     | 0.2113 | [0.0000, 0.5019] |     large

ANOVA unifatorial independente de Welch

Considerando heterocedasticidade, ANOVA unifatorial independente de Welch está implementada em demo_KW_ANOVA_Welch.R, obtendo-se:

   Caso           Grupo Sintoma1 Sintoma2
1     1       Terapeuta        5        1
2     2       Terapeuta        4        3
3     3       Terapeuta        5        4
4     4       Terapeuta        5        2
5     5       Terapeuta        4        1
6     6       Autoajuda        4        2
7     7       Autoajuda        5        5
8     8       Autoajuda        4        3
9     9       Autoajuda        2        2
10   10       Autoajuda        3        5
11   11       Autoajuda        2        2
12   12 Lista de espera        3        5
13   13 Lista de espera        2        3
14   14 Lista de espera        4        4
15   15 Lista de espera        2        4
16   16 Lista de espera        3        5
17   17 Lista de espera        2        2
18   18 Lista de espera        3        3

Tabulando Sintoma2 por Grupo:   
    Terapeuta Autoajuda Lista de espera
  1         2         0               0
  2         1         3               1
  3         1         1               2
  4         1         0               2
  5         0         2               2

 Descriptive statistics by group 
group: Terapeuta
   vars n mean  sd median trimmed  mad min max range skew kurtosis   se
X1    1 5  2.2 1.3      2     2.2 1.48   1   4     3 0.26    -1.96 0.58
-------------------------------------------------------------------- 
group: Autoajuda
   vars n mean   sd median trimmed  mad min max range skew kurtosis  se
X1    1 6 3.17 1.47    2.5    3.17 0.74   2   5     3 0.39       -2 0.6
-------------------------------------------------------------------- 
group: Lista de espera
   vars n mean   sd median trimmed  mad min max range  skew kurtosis   se
X1    1 7 3.71 1.11      4    3.71 1.48   2   5     3 -0.15    -1.64 0.42

---------
Terapeuta
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            5.000000
mean         2.200000
median       2.000000
mode         1.429645
pseudomedian 2.000000

        ------------
        - quartiles:
        ------------
            
Q1(min)    1
Q2         1
Q3(median) 2
Q4         3
Q5(max)    4

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.30384
IQR    2.00000

        -----------
        - skewness:
        -----------
                      
Skewness     0.2598658
skwns.lower -0.8229083
skwns.upper  1.0733126

        ------------------
        - kurtosis excess:
        ------------------
                    
Kurtosis   -1.958062
krts.lower -2.253333
krts.upper -0.920000

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 0.4723, p-value = 0.6367
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 5

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.90202, p-value = 0.4211


---------
Autoajuda
---------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            6.000000
mean         3.166667
median       2.500000
mode         2.202567
pseudomedian 3.500000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         2.0
Q3(median) 2.5
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
              
st.dev 1.47196
IQR    2.50000

        -----------
        - skewness:
        -----------
                      
Skewness     0.3948453
skwns.lower -0.6703371
skwns.upper  1.3608276

        ------------------
        - kurtosis excess:
        ------------------
                      
Kurtosis   -2.00049310
krts.lower -2.30555556
krts.upper -0.08333333

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = 1.4782, p-value = 0.1394
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 6

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.75467, p-value = 0.02212


---------------
Lista de espera
---------------

    --------------------
    Distribution anatomy
    --------------------

        ----------------------------
        - central tendency measures:
        ----------------------------
                     
n            7.000000
mean         3.714286
median       4.000000
mode         3.908236
pseudomedian 3.750000

        ------------
        - quartiles:
        ------------
              
Q1(min)    2.0
Q2         3.0
Q3(median) 4.0
Q4         4.5
Q5(max)    5.0

        ----------------------
        - dispersion measures:
        ----------------------
               
st.dev 1.112697
IQR    1.500000

        -----------
        - skewness:
        -----------
                      
Skewness    -0.1523727
skwns.lower -0.9606666
skwns.upper  0.7528372

        ------------------
        - kurtosis excess:
        ------------------
                     
Kurtosis   -1.6360343
krts.lower -2.2040816
krts.upper -0.3579278

    --------------
    Symmetry test:
    --------------

    Symmetry test by Miao, Gel, and Gastwirth (2006)

data:  values
Test statistic = -0.93138, p-value = 0.3517
alternative hypothesis: the distribution is asymmetric.

    ---------------
    Normality test:
    ---------------

    testing with n = 7

    Shapiro-Wilk normality test

data:  sample(values, size = n)
W = 0.92158, p-value = 0.4818

    ----------------------
    Homoscedasticity test:
    ----------------------

    assuming interval variables

Levene's Test for Homogeneity of Variance (center = "median")
      Df F value Pr(>F)
group  2  0.2278  0.799
      15               


Legenda:
    A ... Terapeuta
    B ... Autoajuda
    C ... Lista de espera

ANOVA unifatorial independente de Welch

VD = Sintoma2 
Fator = Grupo 

Analise de significancia estatistica: testes omnibus e posthoc

 ONE-WAY ANOVA

 One-Way ANOVA (Welch's)                                  
 ──────────────────────────────────────────────────────── 
               F           df1    df2         p           
 ──────────────────────────────────────────────────────── 
   Sintoma2    2.067268      2    9.075617    0.1820512   
 ──────────────────────────────────────────────────────── 


 Group Descriptives                                              
 ─────────────────────────────────────────────────────────────── 
               Grupo    N    Mean        SD          SE          
 ─────────────────────────────────────────────────────────────── 
   Sintoma2    A        5    2.200000    1.303840    0.5830952   
               B        6    3.166667    1.471960    0.6009252   
               C        7    3.714286    1.112697    0.4205600   
 ─────────────────────────────────────────────────────────────── 


 POST HOC TESTS

 Games-Howell Post-Hoc Test – Sintoma2                             
 ───────────────────────────────────────────────────────────────── 
                           A            B             C            
 ───────────────────────────────────────────────────────────────── 
   A    Mean difference            —    -0.9666667    -1.5142857   
        t-value                    —     -1.154472    -2.1062836   
        df                         —      8.940607      7.831281   
        p-value                    —     0.5073843     0.1510932   
                                                                   
   B    Mean difference                          —    -0.5476190   
        t-value                                  —    -0.7466116   
        df                                       —      9.248525   
        p-value                                  —     0.7429239   
                                                                   
   C    Mean difference                                        —   
        t-value                                                —   
        df                                                     —   
        p-value                                                —   
 ───────────────────────────────────────────────────────────────── 
   Note. * p < .05, ** p < .01, *** p < .001


Analise de significancia pratica: tamanho de efeito
- eta^2 = 0.313 


Outra opcao de teste posthoc com rstatix::games_howell_test
       .y. group1 group2 estimate conf.low conf.high p.adj p.adj.signif
1 Sintoma2      A      B    0.967   -1.374      3.31 0.507           ns
2 Sintoma2      A      C    1.514   -0.549      3.58 0.151           ns
3 Sintoma2      B      C    0.548   -1.490      2.59 0.743           ns

implementado com demo_KW_ANOVA_Welch.R

A conclusão é a mesma: não temos evidêncial amostral para afirmar diferença entre os três grupos.

Testes para mais três ou mais condições dependentes

  • não-paramétrico
    • Q de Friedman
  • paramétrico
    • ANOVA unifatorial relacionada

Teste Q de Friedman

Milton Friedman (1912 - 2006)
https://pt.wikipedia.org/wiki/Milton_Friedman
    Milton Friedman foi um economista, estatístico e escritor norte-americano, que lecionou na Universidade de Chicago por mais de três décadas. Ele recebeu o Prémio de Ciências Económicas em Memória de Alfred Nobel de 1976 e é conhecido por sua pesquisa sobre a análise do consumo, a teoria e história monetária, bem como por sua demonstração da complexidade da política de estabilização.

Testa a hipótese nula de igualdade das pseudomedianas populacionais dos tratamentos. Utiliza VD intervalar em três ou mais condições dependentes.

Exemplo 4: seis diuréticos, seis pessoas em todas as condições

Seis pessoas (blocos) receberam seis diuréticos diferentes (tratamentos A a F). As respostas são medidas pela concentração de sódio na urina duas horas após o tratamento (VD intervalar). O tratamento A é assumido como controle.

Conforme documentação da função nativa do R friedman.test,

“The null hypothesis is that apart from an effect of blocks, the location parameter of y is the same in each of the groups.”

\[ \begin{cases} H_0: \text{pseudomediana}_\text{A} = \text{pseudomediana}_\text{B} =\cdots= \text{pseudomediana}_\text{F}\\ H_1: \text{Pelo menos duas pseudomedianas populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]

Os dados estão no próprio código R, demo_Q.R. O teste Q de Friedman em R está implementado em PMCMRplus::friedmanTest e os testes post-hoc em PMCMRplus::frdManyOneExactTest, que fixa uma condição como referência e PMCMRplus::frdAllPairsExactTest, e também com funções nativas friedman.test e pairwise.wilcox.test que comparam todos os pares de condições:

     A     B     C    D     E     F
1 3.88 30.58 25.24 4.44 29.41 38.87
2 5.64 30.14 33.52 7.94 30.72 33.12
3 5.76 16.92 25.45 4.04 32.92 39.15
4 4.25 23.19 18.85 4.40 28.23 28.06
5 5.91 26.74 20.45 4.23 23.35 38.23
6 4.33 10.91 26.67 4.36 12.00 26.65

    Friedman rank sum test

data:  y
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915

    Pairwise comparisons using Eisinga-Heskes-Pelzer and Grotenhuis many-to-one test for a two-way balanced complete block design
data: y
  A      
B 0.114  
C 0.043  
D 1.000  
E 0.014  
F 8.4e-05

P value adjustment method: bonferroni
alternative hypothesis: two.sided

    Pairwise comparisons using Eisinga, Heskes, Pelzer & Te Grotenhuis all-pairs test with exact p-values for a two-way balanced complete block design
data: y
  A       B       C       D       E      
B 0.34101 -       -       -       -      
C 0.12897 1.00000 -       -       -      
D 1.00000 0.78175 0.34101 -       -      
E 0.04094 1.00000 1.00000 0.12897 -      
F 0.00025 1.00000 1.00000 0.00197 1.00000

P value adjustment method: bonferroni

    Friedman rank sum test

data:  Data
Friedman chi-squared = 23.333, df = 5, p-value = 0.0002915


    Pairwise comparisons using Wilcoxon signed rank exact test 

data:  df_long$sodio and df_long$tratamento 

  A    B    C    D    E   
B 0.47 -    -    -    -   
C 0.47 1.00 -    -    -   
D 1.00 0.47 0.47 -    -   
E 0.47 1.00 1.00 0.47 -   
F 0.47 0.47 1.00 0.47 0.94

P value adjustment method: bonferroni 
implementado com demo_Q.R

Os valores p omnibus obtidos por PMCMRplus::friedmanTest e friedman.test são iguais.

Os efeitos populacionais do tratamento sobre a medida de sódio diferem com o uso dos diversos diuréticos para \(\alpha=0.05\).

Usando PMCMRplus::frdManyOneExactTest, o teste post-hoc que fixa o diurético A como referência, mostra diferença com C, E e F (é o que deve ser usado de acordo com o enredo deste exemplo).

Usando PMCMRplus::frdAllPairsExactTest, par a par não é adequada à pergunta de pesquisa deste exemplo, mas pode ser aplicável a outras situações e, por isso, foi implementada neste código R (além de mostrar diferenças entre A e E, A e F, também mostra diferença entre os diuréticos D e F - note que os valores p mudaram porque mais testes são feitos nesta segunda forma de teste post-hoc, modificando a correção por Bonferroni) e a diferença entre A e C desapareceu nesta comparação par a par. Além disso, usando pairwise.wilcox.test, o resultado difere substancialmente de PMCMRplus::frdAllPairsExactTest.

ANOVA unifatorial relacionada

Para comparação, implementamos uma versão de ANOVA unifatorial relacionada que admite valores faltantes, posto que isto acontece com frequência em estudos observacionais (e.g., falta do paciente em uma consulta).

\[ \begin{cases} H_0: \mu_\text{A} = \mu_\text{B} = \cdots =\mu_\text{F}\\ H_1: \text{Pelo menos duas médias populacionais são diferentes} \end{cases}\\ \alpha=0.05 \]

Este procedimento necessita dos dados em formato long, então a transformação é feita na própria implementação de demo_Q_ANOVA.R:

   Paciente Tratamento Sodio
1         1          A  3.88
2         1          B 30.58
3         1          C 25.24
4         1          D  4.44
5         1          E 29.41
6         1          F 38.87
7         2          A  5.64
8         2          B 30.14
9         2          C 33.52
10        2          D  7.94
11        2          E 30.72
12        2          F 33.12
13        3          A  5.76
14        3          B 16.92
15        3          C 25.45
16        3          D  4.04
17        3          E 32.92
18        3          F 39.15
19        4          A  4.25
20        4          B 23.19
21        4          C 18.85
22        4          D  4.40
23        4          E 28.23
24        4          F 28.06
25        5          A  5.91
26        5          B 26.74
27        5          C 20.45
28        5          D  4.23
29        5          E 23.35
30        5          F 38.23
31        6          A  4.33
32        6          B 10.91
33        6          C 26.67
34        6          D  4.36
35        6          E 12.00
36        6          F 26.65

GLMM: omnibus test

Analysis of Deviance Table (Type II Wald F tests with Kenward-Roger df)

Response: Sodio
                F Df Df.res    Pr(>F)    
Tratamento 37.981  5     25 6.769e-11 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Effect Size for ANOVA (Type II)

Parameter  | Eta2 (partial) |           95% CI | interpret
----------------------------------------------------------
Tratamento |         0.8837 | [0.7747, 0.9277] |     large

Post hoc test: Pairwise Contrasts

 contrast estimate   SE df lower.CL upper.CL t.ratio p.value
 A - B      -18.12 2.76 25   -26.62   -9.621  -6.571  <.0001
 A - C      -20.07 2.76 25   -28.57  -11.571  -7.278  <.0001
 A - D        0.06 2.76 25    -8.44    8.558   0.022  1.0000
 A - E      -21.14 2.76 25   -29.64  -12.646  -7.668  <.0001
 A - F      -29.05 2.76 25   -37.55  -20.554 -10.536  <.0001
 B - C       -1.95 2.76 25   -10.45    6.548  -0.707  0.9793
 B - D       18.18 2.76 25     9.68   26.676   6.593  <.0001
 B - E       -3.02 2.76 25   -11.52    5.473  -1.097  0.8779
 B - F      -10.93 2.76 25   -19.43   -2.436  -3.965  0.0064
 C - D       20.13 2.76 25    11.63   28.626   7.300  <.0001
 C - E       -1.07 2.76 25    -9.57    7.423  -0.390  0.9987
 C - F       -8.98 2.76 25   -17.48   -0.486  -3.258  0.0339
 D - E      -21.20 2.76 25   -29.70  -12.706  -7.690  <.0001
 D - F      -29.11 2.76 25   -37.61  -20.614 -10.558  <.0001
 E - F       -7.91 2.76 25   -16.41    0.589  -2.868  0.0787

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: tukey method for comparing a family of 6 estimates 
P value adjustment: tukey method for comparing a family of 6 estimates 


Post hoc test: Reference Level Contrasts contrast estimate   SE df lower.CL upper.CL t.ratio p.value
 B - A       18.12 2.76 25    10.66     25.6   6.571  <.0001
 C - A       20.07 2.76 25    12.61     27.5   7.278  <.0001
 D - A       -0.06 2.76 25    -7.52      7.4  -0.022  1.0000
 E - A       21.14 2.76 25    13.68     28.6   7.668  <.0001
 F - A       29.05 2.76 25    21.59     36.5  10.536  <.0001

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: dunnettx method for 5 estimates 
P value adjustment: dunnettx method for 5 tests 
 Tratamento emmean   SE   df lower.CL upper.CL .group
 D            4.90 2.24 23.2    -1.56     11.4  a    
 A            4.96 2.24 23.2    -1.50     11.4  a    
 B           23.08 2.24 23.2    16.62     29.5   b   
 C           25.03 2.24 23.2    18.57     31.5   b   
 E           26.11 2.24 23.2    19.65     32.6   bc  
 F           34.01 2.24 23.2    27.55     40.5    c  

Degrees-of-freedom method: kenward-roger 
Confidence level used: 0.95 
Conf-level adjustment: bonferroni method for 6 estimates 
P value adjustment: bonferroni method for 15 tests 
significance level used: alpha = 0.05 
NOTE: If two or more means share the same grouping symbol,
      then we cannot show them to be different.
      But we also did not show them to be the same. 

implementado com demo_Q_ANOVA.R

Aqui, da mesma forma que o teste Q de Friedman mostrou, a hipótese nula de igualdade de todos os tratamentos foi rejeitada.

Na versão não-paramétrica havíamos encontrado as seguintes diferenças:

  • comparando todos os pares, diferiam: AE, AF, DF.
  • usando A como referência, diferiam deste: C, E, F.

Nesta versão paramétrica, os procedimentos post hoc usam o método de Tukey (comparando todos os tratamentos, par a par) ou Dunnett (que fixa um dos tratamentos como referência - neste exemplo o tratamento A). As diferenças podem ser localizadas numericamente ou graficamente. Os gráficos mostram intervalos de confiança após a aplicação do modelo, i.e., já controlado pela variância intra-indivíduo. O primeiro mostra cada tratamento isoladamente. Os demais espelham os contrastes (em negrito estão os que o teste não-paramétrico também localizou):

  • comparando todos os pares há várias diferenças (no gráfico correspondem aos intervalos que não contém a diferença nula): AB, AC, AE, AF, BD, BF, CD, CF, DE, DF.
  • usando A como referência, diferiam deste: B, C, E, F.

Teste Paramétrico vs. Não-paramétrico

O que se segue são várias afirmações de autores diversos que, em função do que vimos até aqui, agora podemos responder ou analisar criticamente.

História do teste não-paramétrico

Os testes não-paramétricos são antigos. Observe as datas de suas publicações originais:

  • Friedman (1937)
  • Wilcoxon (1945)
  • Mann & Whitney (1947)
  • Kruskal & Wallis (1952)
  • Brunner & Munzel (2000)

Os testes não-paramétricos não evoluíram.

Enquanto para seus equivalentes paramétricos apareceram soluções multivariadas, controles estatísticos, transformações não lineares e técnicas para contornar as suposições desejadas, desdobrando-se em vários tipos de regressão múltiplas (com várias VIs e uma VD) ou multivariadas (com várias VIs e VDs).

Os testes não-paramétricos receberam poucas alterações e continuaram aplicáveis a delineamentos relativamente mais simples:

  • VI é nominal e apenas uma VD intervalar (exceto teste de Brunner-Munzel) é possível.
  • São testes simples, pois não admitem variáveis de controle ou confusão.

Significância estatística e prática

Os testes não-paramétricos computam apenas a significância estatística (valor \(p\)), mas não têm procedimentos para a significância prática (tamanho de efeito) que é fundamental para a epidemiologia.

Postos

“Toda a informação concernente às magnitudes das observações quantitativas é perdida ao convertê-las em postos (ranks).”

Runyon & Haber (1973)

“Os testes Mann-Whitney e Wilcoxon avaliam se existe diferença estatística significativa entre as médias dos postos [sic] de duas condições.”

Dancey & Ready (2019), p.508

Parte da confusão acontece porque o método para a execução dos cálculos, utilizando postos (ranks), acaba sendo visto como uma transformação não linear (monotônica e com passos unitários) da própria variável. Há alguns pesquisadores que pensam, então, que as conclusões alcançadas por um teste não-paramétrico é sobre os postos quando, de fato, a variável continua tendo sua natureza intervalar ou ordinal. Os postos são usados como artifício estatístico para comparar duas distribuições.

\[~\]
As conclusões de um teste não-paramétrico NÃO SÃO sobre os postos, mas sobre a VD em sua forma original.

Normalidade

Os testes paramétricos apresentados aqui costumam assumir normalidade da VD na população. Quando esta premissa não é conhecida ou, sabidamente, não é atendida, pesquisadores pensam em indicar testes não-paramétricos, justificando que são distribution free.

É verdade que dados assimétricos e amostras muito pequenas e desbalanceadas causam problemas para os testes paramétricos. No entanto, perturba bastante, também, os testes não-paramétricos.

No entanto, os testes não-paramétricos não servem para qualquer distribuição: prescindem da normalidade da VD, então devem ser lembrados como free of normal distribution. Muitos necessitam das suposições de simetria e de homoscedasticidade das distribuições das VDs nas condições do fator.

Este problema existe quando as amostras são pequenas. Com amostras maiores, a variável de interesse ou de desfecho não precisa ter distribuição normal: o teorema central do limite informa que a distribuição dos estimadores dos parâmetros da VD são aproximadamente normais e os testes paramétricos têm bom desempenho.

Quando há dificuldade em testar a normalidade, pesquisadores usam gráficos para ver o formato da distribuição. O habitual é que usem histogramas, mas nós já apontamos (veja, acima, “Inferência em população normal” -> “Avaliação do formato da distribuição”):

Histogramas [sic] para as duas condições foram inspecionados separadamente. Como os dados eram assimétricos e o número de participantes pequeno, o teste estatístico mais apropriado foi o de Mann-Whitney.”

Dancey & Ready (2019), p.511

\[~\]

Histogramas são instrumentos incompetentes para descrever distribuições de probabilidade: não servem para avaliar a forma da distribuição, nem sua assimetria, e muito menos podem servir para descartar um teste paramétrico em favor de um não-paramétrico.

\[~\]

“[…] there is the concept that a histogram can be useful with the right parametrization [but] there is no guarantee that the cutoff will fall between bars and the heights of histogram bars may be an illusion affected by the bin sizes […] a histogram, as traditional as it may be, is misleading.”

Silveira & Siqueira (2022)
https://doi.org/10.20982/tqmp.18.1.p091

Poder

Afirmam:

“Para um dado número de unidades experimentais no estudo, N, testes paramétricos são mais poderosos do que os não- paramétricos correspondentes, desde que todas as suposições dos testes paramétricos e dos não-paramétricos sejam satisfeitas.”

Runyon & Haber (1973)

O teste t de Student tem a suposição de normalidade a mais que o concorrente teste não-paramétrico U de Mann-Whitney; não supondo homocedasticidade, o teste t de Welch concorre com o teste de Brunner-Munzel. Há vezes em que a afirmação de que os testes paramétricos tendem a ser mais poderosos que os não-paramétricos quando suas suposições são atendidas foi transformada no reverso, de que “os testes não-paramétricos são mais poderosos quando as tais suposições não são atendidas.

Ao menos quando a amostra é suficientemente grande, os testes não-paramétricos são quase equivalentes aos paramétricos. Embora não explore amostras pequenas, Prajapati et al. (2010) sugere que talvez os testes não-paramétricos continuem, ainda, perdendo para os paramétricos em quaisquer condições; talvez os resultados sejam confusos ou erráticos. É difícil aferir o que acontece em todas as possíveis combinações de violações de suposições:

Problemas com empates

No teste U de Mann-Whitney, implementado em wilcox.test, qualquer valor igual em uma das duas condições resulta em um empate e impede o cálculo do valor p exato (parâmetro exact=TRUE), fornecendo o valor assintótico que pode não ser boa opção com amostras pequenas.

O teste W de Wilcoxon implementado com a mesma função, apresenta o mesmo problema para o cálculo do valor p exato se houver empates das diferenças mas, também, se houver diferenças nulas. Nestes casos a função oferece o cálculo assintótico do valor p, problemático para amostras pequenas. Agrava-se o problema pois os sujeitos com diferenças nulas são eliminados, reduzindo ainda mais o tamanho efetivo da amostra.

Robustez

Não poder atender às suposições dos testes paramétricos não implica, automaticamente, em atender àquelas dos testes não-paramétricos.

Há quem pense que testes não-paramétricos são robustos a quaisquer condições. A diferença, em geral, é que testes não-paramétricos são um pouco mais permissivos quanto às condições para sua aplicação e, por isso, também menos poderosos.

Os testes não-paramétricos não são métodos estatísticos robustos. Há alternativas para os métodos paramétricos:

  • Cálculos complexos com dados brutos ou transformações não-lineares:
    • Transformações potência de Tukey e de Box-Cox (transformation)
    • Aparamento (trimming)
    • Ponderação (weighting)
  • Heterocedasticidade da VD e tratável (e.g., teste t de Welch, ANOVA de Welch etc.).
  • Reamostragem (bootstrapping): quando feitos com bootstrapping supõem apenas a independência das observações e são robustos à falta de normalidade da VD.

Estatística não-paramétrica

  • “Cálculos elementares com probabilidades ou postos (ranking)”
  • “em geral não são robustos à heterocedasticidade da VD.”
  • “não precisam de normalidade da VD (quando a amostra é pequena), mas podem necessitar de simetria da distribuição.”
Wonnacott & Wonnacott (1990), página 536.
Kirkwood & Sterne (2006), Chapter 30: Relaxing model assumptions.

Observe o que diz Zimmerman (1998):

A maioria dos artigos na literatura estudam violações isoladas. Este artigo propõe violações simultâneas das suposições de normalidade e homocedasticidade em graus variados, com amostras de tamanhos modestos (de 15 a 40 por grupo) por simulação. Surpreendentemente, os testes paramétricos, ainda assim, saíram-se melhor que seus concorrentes não-paramétricos.

Cálculos

Dancey & Reidy (2019), na defesa dos testes não-paramétricos, afirmam:
(os negritos são nossos):

“Esses testes (Mann-Whitney e Wilcoxon) são muito mais simples do que os testes t, pois não envolvem [sic] cálculos de médias, desvios-padrão e erros-padrão.”

Dancey & Ready (2019), p.508

Em R, muitas vezes, a simplicidade aparente é a mesma; basta escolher o pacote e a função adequada. Anteriormente aos computadores, o cálculo era feito manualmente e esta simplicidade não parece sustentável. Em ambos os mesmos tipos de cálculos eram feitos e, pelo contrário, etapas adicionais e tediosas eram requeridas para computar os testes não-paramétricos.

Para mostrar o cálculo manual, confrontamos um teste U e um teste t. Observe:

Teste U de Mann-Whitney

Para o Teste de Mann-Whitney, o referido cálculo simples para dois grupos, \(A\) e B, implica em: juntar as amostras de diferentes condições experimentais, ordenar os valores preservando a informação do grupo de origem, encontrar os empates e atribuir os postos, voltar os postos de acordo com a condição de origem para somar os postos e encontrar os valores \(U_A\) e \(U_B\), então escolher o valor U mínimo (ou calcular diretamente o valor U) para confrontar com uma tabela (se \(n < 20\)) com \(U_{crítico}\) ou assintoticamente (para \(n \ge 20\)) calcular \(z\) e usar outra tabela, obtendo o valor p.

Por exemplo:

\[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[ A \cup B = \{288, 283, 120, 119, 432, 274, 890, \\ 119, 43, 153, 854, 588\}\]

\[ \text{order}(A \cup B) = \{43, 119, 119, 120, 153, 274, \\ 283, 288, 432, 588, 854, 890 \}\] \[\text{groups, order}(A \cup B) = \{B, A, B, A, B, A, \\ A, A, A, B, B, A \}\]

\[\text{Postos} = \{1, 2.5, 2.5, 4, 5, 6, \\ 7, 8, 9, 10, 11, 12 \}\]

\[\text{Postos}_A = \{2.5, 4, 6, 7, 8, 9, 12 \}\] \[\text{Postos}_B = \{1, 2.5, 5, 10, 11 \}\] Soma dos postos (de onde vem o nome do teste):

\[R_A = 2.5+4+6+7+8+9+12 = 48.5\] \[R_B = 1+2.5+5+10+11 = 29.5\] Calcula-se a estatística de Mann-Whitney: \[ U_A = {n_A n_B + \frac{n_A(n_A+1)}{2} - R_A} = \\ = 7 \cdot 5 + \frac{7(7+1)}{2} - 48.5 = 14.5\] \[ U_B = {n_A n_B + \frac{n_B(n_B+1)}{2} - R_B} = \\ = 7 \cdot 5 + \frac{5(5+1)}{2} - 29.5 = 20.5\]

Assume-se \(U = \min(U_A,U_B)\),

Alternativamente, para não calcular os dois valores de U, o mesmo resultado pode ser calculado diretamente usando o \(n_{max}\) do grupo com maior \(R\) e os valores \(R_A\) e \(R_B\): \[U = n_A n_B + \frac{n_{max}(n_{max}+1)}{2} - \\ max(R_A,R_B) = \\ = 7 \cdot 5 + \frac{7 \cdot 8}{2} - 48.5 = 14.5\]

Para amostras pequenas há tabelas a serem consultadas, verificando-se se o valor U está abaixo ou acima do valor crítico para se tomar a decisão inferencial.

Para \(n_A=7\) e \(n_B=5\) o valor crítico é 5. Rejeita-se a hipótese nula quando \(U < U_{crítico}\). Neste exemplo, não se rejeita a igualdade das condições \(A\) e B.

Para amostras maiores era recomendado o cálculo assintótico, com mais alguma álgebra para converter em seu equivalente valor \(z\), o paradigma da situação paramétrica; quase um contra-senso! utilizando-se

\[z = {\frac{U-\frac{n_A n_B}{2}}{\sqrt{\frac{n_A n_B (n_A + n_B + 1)}{12}} } } = \\ = {\frac{14.5-\frac{7 \cdot 5}{2}}{\sqrt{\frac{7 \cdot 5 (7 + 5 + 1)}{12}} } } = -0.4118\]

Aqui vemos que as estatísticas de teste dos testes não-paramétricos também necessitam ter distribuição normal assintótica para qualquer distribuição da VD nas condições do fator. Tendo o valor \(z\) calculado, recorria-se a uma segunda tabela para comparar este valor calculado com as áreas sob a distribuição normal padrão já calculadas para obter o valor p correspondente:

Neste exemplo, a tabela fornece o valor p da cauda esquerda que, para \(z=0.41 \Leftrightarrow p_{\text{lower tail}}=0.3409\). Nosso teste é bicaudal, então \(p=2p_{\text{lower tail}}=0.6818\) e não rejeitamos a igualdade entre os grupos \(A\) e B.

Mundry & Fischer (1998) comentam que os testes não-paramétricos baseados em valor p assintótico de escore \(z\) provocam rejeição excessiva da hipótese nula e, portanto, busca-se desenvolver implementações com o cálculo exato do valor p.

Em R,

A <- c(288,283,120,119,432,274,890)
B <- c(119,43,153,854,588)
print(wilcox.test(A,B,
                  exact=FALSE,
                  correct=FALSE,
                  conf.int=TRUE,
                  conf.level=0.95))

    Wilcoxon rank sum test

data:  A and B
W = 20.5, p-value = 0.6255
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -469.0000  302.0001
sample estimates:
difference in location 
              75.99995 
implementado com demo_MWW_AB.R

Teste t para condições independentes

Por comparação, no teste t (paramétrico) para duas condições independentes, calcula-se as médias (\(\bar{x}_A\) e \(\bar{x}_B\)) e as variâncias (\(s_a^2\) e \(s_B^2\)) dos dois grupos e calcula-se a estatística t com os seguintes passos:

\[A = \{ 288,283,120,119,432,274,890 \} \] \[B = \{ 119, 43, 153, 854, 588 \} \] \[\bar{x}_A = (288+283+120+119+432+274+890)/7 = 343.7\] \[s_A^2 = \frac{\sum_{i=1}^{7}{(A_i-\bar{x}_A)^2}}{7-1} = 264.1\] \[\bar{x}_B = (119+43+153+854+588)/5 = 351.4\] \[s_B^2 = \frac{\sum_{i=1}^{5}{(B_i-\bar{x}_B)^2}}{5-1} = 352.5\]

\[t = { \frac{\bar{x}_A-\bar{x}_B}{ \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A+n_B-2} } \sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}} = \\ = { \frac{343.7-351.4}{ \sqrt{\frac{(7-1)264.1 + (5-1)352.5}{7+5-2} } \sqrt{\frac{1}{7}+\frac{1}{5}}}} = -0.4338\]

Antes dos computadores recorria-se, também, a uma tabela para comparar este valor calculado com o valor crítico, rejeitando-se a hipótese nula caso o valor \(t > t_{crítico}\). Neste exemplo, como o teste é bicaudal, precisamos encontrar o valor \(t_{crítico}\) associado com \(\alpha/2=0.025\); como \(t < t_{crítico}\) não rejeitamos a igualdade entre os grupos \(A\) e B:

Em R,

A <- c(288,283,120,119,432,274,890)
B <- c(119,43,153,854,588)
print(t.test(A,B))

    Welch Two Sample t-test

data:  A and B
t = -0.04119, df = 7.09, p-value = 0.9683
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -447.7680  432.3966
sample estimates:
mean of x mean of y 
 343.7143  351.4000 
implementado com demo_MWW_ABt.R

Existem condições para usarmos os não-paramétricos em lugar dos paramétricos?

Dancey & Reidy (2019)

Em Dancey & Reidy (2019) aparece a tabela 1.2, que busca associar os delineamentos dos estudos com os testes estatísticos. Porém…

Conover (1999)

   

After teaching at the U.S. Naval Academy at Annapolis, Iowa State University, Kansas State University, the University of California at Davis, and the University of Zurich (Switzerland), he joined the Math Department at Texas Tech in 1973. From 1978-2015 he was in the TTU Rawls College of Business, becoming the Area Coordinator of Information Systems and Quantitative Sciences. In 2015 Dr. Conover returned to the TTU Department of Mathematics & Statistics. While a member of the Rawls College faculty he won several research awards, including the Barney E. Rushing Distinguished Faculty Research Award from the TTU Parents Association, The Don Owen award from the San Antonio Chapter of the American Statistical Association, and the Wilks Medal from the U. S. Army. [He was elected as a Fellow of the American Statistical Association, and appointed a Paul Whitfield Horn Professor by the Texas Tech Board of Regents, becoming a Horn Professor of Statistics for the Texas Tech Department of Mathematics & Statistics in 2015. […] He was named a Highly Cited Researcher by the ISI Thompson Scientific, and currently has over 38,000 citations to his many books and papers. He is listed in Who’s Who in America, and Who’s Who in the World.

No entanto, em Conover (1999) aparece esta tabela:

Norušis (1998) tem a palavra

   

Marija Norušis obteve o título de Ph.D. em bioestatística pela Universidade de Michigan. Foi a primeira estatística profissional da SPSS. A McGraw-Hill publicou seu primeiro livro, The SPSS Introductory Guide. Desde então, escreveu inúmeros volumes de documentação e livros didáticos altamente reconhecidos sobre SPSS, que desmistificam a estatística e o próprio SPSS. A Dra. Norušis integrou o corpo docente da Universidade de Chicago e da Rush Medical College, ensinando estatística a públicos diversos. Quando não está trabalhando nos guias do IBM SPSS, Marija analisa dados reais como consultora estatística. .

For those whose Lithuanian is rusty:
   “Marija” is pronounced “Maria,” not “Mar-eye-ja.”
   “Norušis” is pronounced “Norooshis,” not “Neurosis.”

na página 332, pergunta:

“Se os testes não-paramétricos têm menos suposições sobre os dados, por que não usar apenas eles?”

e responde:

“Os testes paramétricos, tais como t, ANOVA e ANCOVA, são naturalmente robustos para normalidade, desde que a distribuição dos dados seja simétrica e tenha poucos outliers; além disso, se a amostra é grande, o TCL funciona. Os testes não-paramétricos ignoram a informação de distribuição exata dos dados gerando, e.g., IC95% mais largos, i.e., com menos poder, que os paramétricos.”

“O que eu deveria fazer se não estou certo se eu tenho que usar um teste paramétrico ou não-paramétrico?”

resposta:

“Na dúvida, use ambos! Se conseguir a mesma decisão sobre a hipótese nula nos testes paramétrico e não-paramétrico, não há nada com o que se preocupar. Se o teste não-paramétrico é estatisticamente não-significante e o paramétrico é significante, tente descobrir o motivo. Há outliers? Valores influentes? A distribuição da VD nos grupos é simétrica? Normal? Há desbalanceamento? Há heterocedasticidade? Se a VD é intervalar e a amostra é grande, tente transformação potência de Tukey para simetrizar as distribuições da VD nas condições, homegeneizar as variâncias das condições e linearizar as relações entre as variáveis.”

Conforme Nahm (2016), de quem discordamos:

Abstract: Conventional statistical tests are usually called parametric tests. Parametric tests are used more frequently than nonparametric tests in many medical articles, because most of the medical researchers are familiar with and the statistical software packages strongly support parametric tests. Parametric tests require important assumption; assumption of normality which means that distribution of sample means is normally distributed. However, parametric test can be misleading when this assumption is not satisfied. In this circumstance, nonparametric tests are the alternative methods available, because they do not required the normality assumption. Nonparametric tests are the statistical methods based on signs and ranks. In this article, we will discuss about the basic concepts and practical use of nonparametric tests for the guide to the proper use.”

Conclusion: Nonparametric tests and parametric tests: which should we use? As there is more than one treatment modality for a disease, there is also more than one method of statistical analysis. Nonparametric analysis methods are clearly the correct choice when the assumption of normality is clearly violated; however, they are not always the top choice for cases with small sample sizes because they have less statistical power compared to parametric techniques and difficulties in calculating the “95% confidence interval,” which assists the understanding of the readers. Parametric methods may lead to significant results in some cases, while nonparametric methods may result in more significant results in other cases. Whatever methods can be selected to support the researcher’s arguments most powerfully and to help the reader’s easy understandings, when parametric methods are selected, researchers should ensure that the required assumptions are all satisfied. If this is not the case, it is more valid to use nonparametric methods because they are “always valid, but not always efficient,” while parametric methods are “always efficient, but not always valid”.”

\(~\)

“Os testes estatísticos convencionais são geralmente chamados de testes paramétricos.”

“Testes paramétricos são usados com mais frequência do que testes não-paramétricos em muitos artigos médicos”

[sic: Fagerland (2012) mostra empate], porque a maioria dos pesquisadores médicos está familiarizada com eles e os softwares estatísticos oferecem forte suporte para testes paramétricos.

“Testes paramétricos requerem uma suposição importante; a suposição de normalidade, que significa que a distribuição das médias amostrais é normalmente distribuída.”

[sic: distribuição da média amostra é normal por TLC; VD normal é suposição].

“No entanto, o teste paramétrico pode ser enganoso quando essa suposição não é satisfeita.”

[sic: o que vimos nessa aula foi o oposto].

“Nessa circunstância, os testes não-paramétricos são os métodos alternativos disponíveis, pois não exigem a suposição de normalidade.”

[sic: sim, mas têm outras exigências].

“Testes não-paramétricos são os métodos estatísticos baseados em sinais e ranqueamentos.”

[sic: é a confusão entre o que é testado com como é feito seu cálculo].

“Neste artigo, discutiremos os conceitos básicos e o uso prático dos testes não-paramétricos como um guia para o uso adequado.”

[sic: considerando a sequência de equívocos sobre suas indicações, duvidamos que atinja esse objetivo].

“Testes não-paramétricos e testes paramétricos: qual devemos usar? Assim como há mais de uma modalidade de tratamento para uma doença, também existem diversos métodos de análise estatística. Os métodos de análise não-paramétricos são claramente a escolha correta quando a suposição de normalidade é claramente violada […]”

[sic: SKOVLUND, E & FENSTAD, GU (2001): e.g.: MW depende fortemente de distribuições de mesmo formato nos grupos e homocedasticidade da VD que pode ser ordinal, sendo que mesmo para o caso da VD ordinal (e.g., item Likert de 5 pontos), teste t de Student são praticamente equivalentes (Winter & Dodou, 2012) e teste t é tão robusto que ele pode ser recomendado para quase todas as aplicações (Rasch et al., 2007, 2011); W de Wilcoxon depende fortemente da suposição de simetria da diferença da VD nas condições dependentes]

“[…] no entanto, eles nem sempre são a melhor escolha para casos com tamanhos de amostra pequenos porque possuem menor poder estatístico em comparação com as técnicas paramétricas”

[sic: Fagerland (2012): “Testes não-paramétricos são mais úteis para estudos pequenos; em estudos grandes podem fornecer respostas para questões erradas.”] e dificuldades no cálculo do “intervalo de confiança de 95%”, que auxilia na compreensão dos leitores.

“Os métodos paramétricos podem levar a resultados significativos em alguns casos, enquanto os métodos não-paramétricos podem resultar em resultados mais significativos em outros casos”

[sic: usando o R como laboratório vimos que isso é verdade, mas os métodos não-paramétricos erraram mais do que os seus concorrentes paramétricos.].

“Quaisquer que sejam os métodos selecionados, eles devem suportar os argumentos do pesquisador de maneira mais robusta e ajudar na fácil compreensão dos leitores.”

[sic: é a crença equivocada de que métodos não-paramétricos são robustos.]

“Quando os métodos paramétricos são selecionados, os pesquisadores devem garantir que todas as suposições necessárias estejam satisfeitas.”

[sic: suposições são condições suficientes; a eterna testagem das suposições.]

“Caso contrário, é mais válido usar métodos não-paramétricos, pois eles são ‘sempre válidos, mas nem sempre eficientes’ […]”

[sic: teste não-paramétrico tem suposições sobre a VD; e.g.: simetria, homocedasticidade, mesmo formato de distribuição, portanto facilmente podem não ser válidos.]

“[…] enquanto os métodos paramétricos são ‘sempre eficientes, mas nem sempre válidos’.”

[sic: Prajapati et al. (2010): têm eficiência relativa assintótica de 0.955 quando a amostra é suficientemente grande; quando não são válidos, não-paramétricos em geral também não o serão.]

Conforme Politi et al. (2021), que também traz confusão aos pesquisadores

“HOW TO CHOOSE BETWEEN PARAMETRIC AND NONPARAMETRIC TESTS?

When sample sizes are large, that is, greater than 100, parametric tests can usually be applied regardless of the outcome variable distribution. This is due to the central limit theorem, which states that if the sample size is large enough, the distribution of a given variable is approximately normal. The farther the distribution departs from being normal, the larger the sample size will be necessary to approximate normality. When sample sizes are small, and outcome variable distributions are extremely non-normal, nonparametric tests are more appropriate. For example, some variables are naturally skewed, such as hospital LOS or number of asthma exacerbations per year. In these cases, extremely skewed variables should always be analyzed with nonparametric tests, even with large sample sizes.”

\(~\)

“Como escolher entre testes paramétricos e não-paramétricoS?

Quando os tamanhos das amostras são grandes, ou seja, maiores que 100, os testes paramétricos geralmente podem ser aplicados independentemente da distribuição da variável de desfecho.

Isso se deve ao teorema do limite central, que afirma que se o tamanho da amostra for suficientemente grande, a distribuição de uma variável dada é aproximadamente normal.”

[sic: TLC não altera o formato da VD; confunde a distribuição da variável dependente com a distribuição das médias amostrais].

“Quanto mais a distribuição se afasta da normalidade, maior será o tamanho da amostra necessário para aproximar a normalidade.

Quando os tamanhos das amostras são pequenos e as distribuições das variáveis de desfecho são extremamente não normais, os testes não-paramétricos são mais apropriados.

Por exemplo, algumas variáveis são naturalmente enviesadas, como o tempo de permanência no hospital ou o número de exacerbações de asma por ano.

Nestes casos, variáveis extremamente enviesadas devem sempre ser analisadas com testes não-paramétricos, mesmo com grandes tamanhos de amostra.”

[sic: o que será extremamente não normal? ou extremamente enviesadas?].

Além disso, existe confusão entre a distribuição da VD e a aproximação da normalidade da distribuição das médias amostrais que faz parte do teorema central do limite.

O que mais dizem por aí…

“Talvez você tenha ouvido em algum lugar que deve usar testes não-paramétricos quando seus dados não atendem às suposições do teste paramétrico, especialmente a suposição sobre dados normalmente distribuídos. Essa parece ser uma maneira boa e simples de escolher, mas há outras coisas a serem consideradas.”

Lembrar que:

  • as suposições em geral são condições suficientes (mas não necessárias) para os testes estatísticos.
  • nos testes paramétricos, o TCL vale para tamanhos de amostra suficiente grandes (e bootstrapping pode ser usado para as menores).

Dizem Dancey & Reidy (2019), página 502, mas não concordamos:

“Nos capítulos anteriores, você foi apresentado aos testes paramétricos. Os testes paramétricos, como você sabe, têm certas suposições.

  • Não é isto o que diferencia os testes paramétricos dos não-paramétricos, que também têm suposições.

Os dados precisam ser obtidos de uma população normalmente distribuída (consulte o Capítulo 5).

  • Isto não faz sentido. Na população, a variável (implicitamente, a variável de interesse ou de desfecho) não precisa ter distribuição normal necessariamente. Além disto, quando recorremos ao teorema central do limite (TCL), a preocupação está em saber se a distribuição dos estimadores dos parâmetros da VD são aproximadamente normais, de forma a sustentar as respectivas distribuições das estatísticas de teste. No entanto, esta também é necessidade dos testes não-paramétricos.

Quando você atende aos pressupostos dos testes paramétricos, eles são mais poderosos do que os testes não-paramétricos, e os psicólogos os preferem.

  • Há duas dificuldades nesta sentença. Em primeiro lugar, segundo Prajapati et al. (2010), os testes não-paramétricos podem ser praticamente equivalentes às suas contrapartes paramétricas para amostras grandes mas, mesmo nestas condições, tendem a ser um pouco inferiores. Em segundo lugar, Dancey & Reidy (2019) não citam a fonte dos estudos que indicam esta preferência dos psicólogos. Talvez seja a preferência destes autores (ousamos dizer, uma preferência que talvez seja equivocada).

Em muitas situações de pesquisa, não podemos usar testes paramétricos porque nossos dados não atendem às suposições subjacentes ao seu uso.

  • Sim, embora dizer que “não podemos” é um tanto exagerado. Há vários artifícios que utilizamos para contornar várias destas dificuldades (e.g., bootstrapping, propriedades do TCL, transformações potência de Tukey, correções para heterocedasticidade de Welch e de White estão entre os vários procedimentos vistos em capítulos anteriores).

Por exemplo, podemos ter dados assimétricos ou com tamanhos de amostra muito pequenos ou desiguais - então não teríamos certeza se nossos dados foram extraídos de uma população normalmente distribuída.

  • Esta é outra lenda sobre os testes não-paramétricos. É verdade que dados assimétricos e amostras muito pequenas e desbalanceadas causam problemas para os testes paramétricos. No entanto, perturba também os testes não-paramétricos. Além disto, nunca temos certezas; o problema mal compreendido da normalidade (da VD) na população é recorrente e já foi discutido acima.

Os testes não-paramétricos não fazem suposições sobre os dados e você pode usar com segurança os testes descritos neste capítulo para analisar os dados quando achar que pode não ser capaz de atender às suposições dos testes paramétricos.”

  • Isto é falso. As suposições são populacionais. Há suposições, sempre, em qualquer teste estatístico e os testes não-paramétricos não são uma exceção. Segurança é outro mito. Não poder atender às suposições dos testes paramétricos não implica, automaticamente, em atender àquelas dos testes não-paramétricos.

“Estamos somente interessados em U, embora a conversão para um valor-z seja útil, pois o valor-z dá uma medida do tamanho do efeito [sic] (veja a Seção 4.2).” (Dancey & Ready, 2019, p. 511)

O erro principal desta afirmação é confundir o valor \(z\) com tamanho de efeito: NÃO É, pois \(z\) é uma estatística de teste dependente do tamanho do estudo. Uma agravante é que esta é uma aproximação de \(z\) calculada a partir do artifício dos postos.

A Lenda do Teste Não-Paramétrico

Você pensa que um cirurgião ficaria confortável em operar sem suposições sobre o paciente?

Você gostaria de ser operado sem que houvesse qualquer suposição sobre seu diagnóstico?

Caso fosse verdadeiro que testes não-paramétricos pudessem prescindir de suposições (que é uma crença generalizada e, esperamos, você não tenha mais)…

… por que, então, alguém pode pensar que a ausência de suposições poderia fazer bem para um procedimento estatístico?

\(~\)

Conforme, Houaiss Eletrônico (2009):

Lenda (substantivo feminino)

1 narrativa de caráter maravilhoso em que um fato histórico se amplifica e transforma sob o efeito da evocação poética ou da imaginação popular; legenda
2 m.q. mito (‘relato fantástico’)
Ex.: a lenda da cobra-d’água
3 Derivação: por extensão de sentido.
tradição popular
Ex.: uma cultura com raízes na lenda e não na ciência
4 Derivação: sentido figurado.
atitude enganadora, falsa; engodo, fraude, mentira
Ex.: as curas apregoadas pelo charlatão eram pura lenda
5 Derivação: sentido figurado.
narrativa fastidiosa; ladainha, lenga-lenga.

Apêndice A: Existe espaço para teste não-paramétrico?

Skovlund & Fenstad (2001)

Segundo estes autores, para amostras pequenas, na comparação entre os testes t de Student e Satterthwaite/Welch e U de Mann-Whitney (delineamento entre participantes):

  • U é o método de escolha sem competição quando há homocedasticidade populacional entre grupos e assimetria populacional em cada grupo.
  • note que t de Welch também é o método de escolha quando há heterocedasticidade mas a distribuição da VD populacional é normal em cada grupo e as amostras são desbalanceadas.
  • nas situações de heterocedasticidade, U nunca é o método de escolha.
  • nenhum dos métodos é adequado quando há heterocedasticidade populacional e assimetria populacional em cada grupo; os autores recomendam transformações não linearesa, mas para amostras pequenas tais transformações são arriscadas (JCE Editor 2011, Neuhauser 2010).
“Conclusion: The generalized Wilcoxon test [Brunner-Munzel] should be applied when it cannot be assumed that variances are equal and that the distribution is symmetric. This test is preferable to a transformation, because the use of transformations can be problematic, in particular when sample sizes are small.”
Neuhauser 2010

Apêndice B: Distribuição de probabalidade e seus parâmetros

A distribuição normal tem dois parâmetros, média (\(\mu\)) e desvio-padrão (\(\sigma\)). Outras características existem, mas não são seus parâmetros: mediana, percentil, moda, intervalo interquartílico, assimetria e curtose, para citar alguns.

Isto fica claro na própria função dnorm(), cuja documentação mostra:

The Normal Distribution

Description
Density, distribution function, quantile function and
random generation for the normal distribution with
mean equal to mean and standard deviation equal to sd.

Usage
dnorm(x, mean = 0, sd = 1, log = FALSE)

Além do valor solicitado (x) bastam a média (mean) e o desvio-padrão (sd, standard deviation) para que a distribuição normal seja completamente definida.

A VD, além da normal, pode assumir distribuição contínua, discreta ou mista, assimétrica ou simétrica, unimodal ou multimodal, truncada ou não, limitada ou infinita. Várias delas são formalmente definidas por um ou poucos parâmetros; outras são casos particulares, sem propriedades conhecidas. Portanto, a quantidade de distribuições que a VD pode assumir é infinita e variada.

Por exemplo, vamos experimentar com uma distribuição qui-quadrado centrada, cujo domínio se inicia em zero e vai a infinito (assimetria positiva). Esta distribuição tem apenas um parâmetro, os graus de liberdade. Sabe-se que a média destas distribuições qui-quadrado é igual ao número de graus de liberdade (df).

Na distribuição normal, a média se modifica independentemente da variância. Em uma distribuição assimétrica como a qui-quadrado centrada, o comportamento de seu formato é complexo (Hart, 2001), como podemos demonstrar com demo_quiquadrado.R:

baseado em https://en.wikipedia.org/wiki/Chi-square_distribution

Observe que o formato da distribuição se altera quando a média muda: a mediana acompanha a média quase linearmente, a variância aumenta linearmente mas com inclinação maior que a média, enquanto a assimetria e o excesso de curtose reduzem-se (sabe-se que tende a uma distribuição normal). Este resultado é válido, em geral, para distribuições assimétricas.

Porém, uma das suposições fundamentais para que o teste U de Mann-Whitney seja aplicado para comparar medianas populacionais é que as distribuições da VD nos dois grupos sejam iguais. Portanto, ao contrário da crença geral, quando uma condição tem efeito na média ou mediana em VDs com distribuição assimétrica, este teste não-paramétrico pode não ser adequado.

Apêndice C: Tipo de hipótese nula

Os testes de hipótese nula não são apenas para os parâmetros de uma distribuição (Landoni et al., 2016). Podem ser comparações das condições experimentais:

  • de parâmetros (e.g., média de normal),
  • de características (e.g., mediana de distribuição qui-quadrado ou lognormal),
  • das distribuições inteiras.
Ogassavara et al. (2020)

Apêndice D: Teorema central do limite

Para a média amostral aceita-se, em geral, que o teorema central do limite (TCL) leva a uma distribuição normal das médias amostrais para \(n \ge 30\). Para a discussão dos testes não-paramétricos, qual é o comportamento em relação às medianas amostrais? Implementamos demo_Estatura.R utilizando os dados de estatura dos estudantes do sexo masculino disponibilizados em Adm2008.xlsx:

Nesta saída exibimos o resultado obtido por bootstrapping das médias e das medianas amostrais com \(n=51\) (o tamanho da amostra). Observa-se que a distribuição das médias adere bastante bem à distribuição normal, mas a distribuição das medianas amostrais tem aderência sofrível.

Apêndice E: A matemática dos testes U de Mann-Whitney e de Brunner-Munzel

No teste U de Mann-Whitney, temos duas condições independentes:

\[ X_1, X_2, \dots, X_{n_1} \quad \text{e} \quad Y_1, Y_2, \dots, Y_{n_2} \]

provenientes de duas populações distintas.

Sejam as variáveis aleatórias intervalares genéricas:

\[ X \sim F_X \qquad Y \sim F_Y \]

O teste baseia-se na probabilidade

\[ P(X > Y) \]

sendo que \(X\) representa um valor aleatório da primeira população e \(Y\) da segunda.

A hipótese nula é

\[ H_0: P(X > Y) = 0.5 \]

equivalente a

\[ H_0: P(X > Y) = P(X < Y) \]

A interpretação é:

  • Se \(P(X > Y) = 0.5\), as distribuições são estocasticamente equivalentes (mesma tendência central).
  • Se \(P(X > Y) > 0.5\), o grupo \(X\) tende a ter valores maiores.
  • Se \(P(X > Y) < 0.5\), o grupo \(Y\) tende a ter valores maiores.

Portanto, \(X\) e \(Y\) representam as variáveis aleatórias das duas condições comparadas no teste.

Há relação direta e bem estabelecida entre o d de Cohen, a área de sobreposição (OVL) e a probabilidade estocástica \(P(X>Y)\).

Suponha \(X \sim N(\mu_1, \sigma)\) e \(Y \sim N(\mu_2, \sigma)\), com variâncias iguais.

O Cohen’s d é

\[ d = \dfrac{\mu_1 - \mu_2}{\sigma} \]

Daí seguem três relações úteis:

  1. Probabilidade estocástica

\[ P(X > Y) = \Phi\left( \dfrac{d}{\sqrt{2}} \right) \]

onde \(\Phi\) é a CDF da normal padrão.

  1. Área de sobreposição (OVL) entre as duas curvas normais (Pastore & Calcagni, 2019, overlapping::overlap)

\[ \text{OVL} = 2\,\Phi\left( -\dfrac{|d|}{2} \right) \]

  1. Área não sobreposta \((1 - \text{OVL})\) mede o tamanho do efeito graficamente.

Exemplo numérico: para \(d = 0.8\),

\[ P(X > Y) = \Phi\left( \dfrac{0.8}{\sqrt{2}} \right) \approx 0.713 \qquad \text{OVL} \approx 2\,\Phi(-0.4) \approx 0.655 \]

Portanto:

  • quanto maior \(d\), menor a sobreposição e maior \(P(X>Y)\);
  • \(P(X>Y)\) é uma interpretação probabilística do tamanho de efeito;
  • \(\text{OVL}\) é uma interpretação geométrica do mesmo efeito.

Conforme Demidenko (2016), \(P(X>Y)\) é uma medida de tamanho de efeito relaciona com d de Cohen.

  1. Sinal e orientação de \(d\) e de \(P(X>Y)\) O psych::d2CL(d) devolve a probabilidade de superioridade do grupo com maior média (usa \(|d|\)). Já o seu “manual \(P(X>Y)\)” fixa a ordem \(X\) vs \(Y\).

    Logo, se \(d<0\) (significa que o “grupo 2” tem média maior que o “grupo 1”), então

    \[ \text{d2CL}(|d|)=\Phi\left(\dfrac{|d|}{\sqrt{2}}\right)=1-\Phi\left(\dfrac{d}{\sqrt{2}}\right)=1-P(X>Y) \]

    No seu exemplo: \(d=-2.497\). \(\Phi(d/\sqrt{2})=\Phi(-1.766)\approx 0.0387\) → este é \(P(X>Y)\) com a orientação que você usou. O d2CL(d) reporta \(0.9613=1-0.0387\) (probabilidade de o grupo “melhor” ganhar). Não há erro; é apenas convenção de sinal/orientação.

  2. OVL com \(d\) vs OVL por integração As fórmulas com \(d\) (e d2OVL) assumem \(\sigma_1=\sigma_2\):

    \[ \text{OVL}=2\,\Phi\left(-\dfrac{|d|}{2}\right) \]

    Você integrou para \(\sigma_1\neq\sigma_2\) e obteve \(\text{OVL}=0.3159\). Já d2OVL(d) deu \(0.2118\) porque está no modelo homocedástico. Diferença esperada.

  3. O que é “interpretação conjunta” (d2OVL2) É o índice de sobreposição conjunta (estilo Jaccard): interseção sobre a união. Se \(\text{OVL}\) é a área de interseção (cada densidade integra a 1), então

    \[ \text{OVL}_{\text{conj}} = \dfrac{\text{Interseção}}{\text{União}} = \dfrac{\text{OVL}}{2-\text{OVL}} \]

    Com \(\text{OVL}=0.2118\): \(\text{OVL}_{\text{conj}}=0.2118/(2-0.2118)=0.1185\), exatamente o que você encontra na saída.

Resumindo:

– Para comparar com \(P(X>Y)\) manual, use sempre a mesma orientação (defina quem é \(X\)). – d2CL(d) retorna a probabilidade de superioridade do grupo de maior média (valor \(\ge 0.5\)). Se quiser \(P(X>Y)\) com uma ordem fixa, use \(\Phi(d/\sqrt{2})\). – d2OVL(d) e d2OVL2(d) assumem \(\sigma_1=\sigma_2\); com heterocedasticidade, use integração.

           Grupo Media  SD
          Homens 175.0 7.0
        Mulheres 162.0 6.0
 Diferença (H−M)  13.0 1.0
     Razão (H/M)   1.1 1.2


=== Estimativa probabilística ===
theta_hat = 0.933
IC 95% bootstrap de theta: [0.8992, 0.9612]
theta_teor (Normal) = 0.9207

=== Brunner–Munzel (heterocedástico) ===
statistic = -26.7654, df = 202.075, p-value = 0

=== Mann-Whitney (Wilcoxon rank-sum) ===
p-value = 8.6616e-30
difference in location (Hodges–Lehmann) = 13.4206
IC 95% (HL) = [11.8529, 15.0419]


Parâmetros:
  N1 ~ N(175.000, 7.000^2), N2 ~ N(162.000, 6.000^2)
Interseções em x*: 83.5049, 168.4951
Área de sobreposição (OVL) = 0.315886  (31.59%)
Área não sobreposta = 0.684114  (68.41%)

d (Cohen) = -2.497
psych::d2CL(d)   = 0.9613  | manual P(X>Y) = 0.0387
psych::d2OVL(d)  = 0.2118  | manual OVL     = 0.2118
psych::d2OVL2(d) = 0.1185  | (interpretação conjunta)

[Hetero] P(X>Y) = 0.9371 | OVL geral = 0.2788

Se VD é ordinal, não há base teórica ou estatística sólida para supor nem testar simetria. A razão é simples: a simetria é uma propriedade métrica, dependente de distâncias numéricas em torno de um ponto central (mediana, média, etc.). Escalas ordinais só preservam ordem, não diferenças. Assim, não faz sentido afirmar que uma distribuição ordinal é “simétrica” ou “assimétrica”, pois não existe eixo de referência contínuo nem unidade de medida.

Para VD ordinal, o teste U de Mann-Whitney não pode ser formulado em termos de pseudomedianas, porque a definição de pseudomediana requer operações aritméticas \((X + X')/2\) que só fazem sentido em escala intervalar.

Logo, para VD ordinal, a hipótese nula é mais geral:

\[ H_0: P(X > Y) = P(X < Y) \]

ou seja, as distribuições são estocasticamente equivalentes (mesma tendência central ordinal).

A interpretação como teste de pseudomedianas iguais só é válida quando a VD é intervalar.

Tem-se, mais precisamente:

  1. Para duas variáveis intervalares independentes \(X\) e \(Y\), tem-se \[ P(X>Y) + P(X<Y) = 1 \]

Logo,

\[ P(X>Y) = 0.5 \Longleftrightarrow P(X>Y) = P(X<Y) = 0.5 \]

  1. Se há empates possíveis (\(P(X=Y)>0\)), a forma correta é

    \[ H_0: P(X>Y) = P(X<Y) \]

Nesse caso, \(P(X=Y)\) não precisa ser nulo, apenas igual entre grupos.

A hipótese nula para VD intervalar é igualdade de pseudomedianas populacionais ou equivalemente diferença nula de pseudomedianas populacionais (diferença nula de localização estocástica: \(P(X>Y)=0.5\)).

Se as distribuições não são simétricas, o termo location shift, usado nos testes de postos como U de Mann-Whitney, deve ser traduzido como diferença de pseudomedianas.

Em outras palavras:

\[ H_0:\ \theta_1 = \theta_2 \quad\text{versus}\quad H_1:\ \theta_1 \ne \theta_2\\ \alpha=0.05 \]

sendo que \(\theta_j\) é a pseudomediana do grupo \(j=1,2\).

Se as distribuições forem simétricas, a pseudomediana coincide com a mediana, e location shift pode então ser entendido como diferença de medianas.

Demonstração:

Seja \(X\) contínua e simétrica em torno de \(m\), isto é, \(F_X(m+t) = 1 - F_X(m-t)\) para todo \(t \in \mathbb{R}\).

Defina a pseudomediana \(\theta = \operatorname{med}\left(\tfrac{X + X'}{2}\right)\), com \(X'\) i.i.d. de \(X\), e ponha \(Y = \tfrac{X + X'}{2}\).

Como \(X - m\) e \(X' - m\) são i.i.d. simétricas em torno de \(0\), a soma \(S = (X - m) + (X' - m)\) é simétrica em torno de \(0\).

Para variáveis contínuas simétricas, vale \(P(S \le 0) = \tfrac{1}{2}\).

Logo,

\[ F_Y(m) = P\left(Y \le m\right) = P\left(\dfrac{X + X'}{2} \le m\right) = P\left(S \le 0\right) = \dfrac{1}{2} \]

Como \(Y\) é contínua, \(\operatorname{med}(Y) = m\). Portanto,

\[ \theta = m \]

\[\Diamond\]

Referências

  • BEHRENS, J. & Yu, C. (2003) Exploratory data analysis. Willey.
  • BRUNNER, E & MUNZEL, U (2000) The nonparametric Behrens-Fisher problem: Asymptotic theory and a small-sample approximation. Biometrical Journal 42(1): 17–25.
  • CONOVER, WJ (1999) Practical nonparametric Statistics. 3rd ed. NJ: Wiley.
  • DANCEY CP & REIDY J. (2019) Estatística sem matemática para Psicologia, 7a. ed., Porto Alegre: Penso.
  • DEMIDENKO, E (2016) The p-value you can’t buy. The American Statistician 70(1): 33–38. https://doi.org/10.1080/00031305.2015.1069760
  • FAGERLAND, MW (2012) t-tests, non-parametric tests, and large studies - a paradox of statistical practice? BMC Med Res Methodol 12, 78: 1-7. https://doi.org/10.1186/1471-2288-12-78
  • FAGERLAND, MW & SANDVIK, L (2009), The Wilcoxon-Mann-Whitney test under scrutiny. Statistics in Medicine, 28: 1487-1497. https://doi.org/10.1002/sim.3561
  • FRIEDMAN, M (1937) The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association 32 (200): 675–701. doi:10.1080/01621459.1937.10503522.
  • FRIEDMAN, M (1939). A correction: The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association 34 (205): 109. doi:10.1080/01621459.1939.10502372.
  • FRIEDMAN, M (1940) A comparison of alternative tests of significance for the problem of m rankings. The Annals of Mathematical Statistics 11 (1): 86-92. doi:10.1214/aoms/1177731944.
  • HART, A (2001) Mann-Whitney test is not just a test of medians: differences in spread can be importante. British Medical Journal 323: 391-3.
  • HODGES Jr. & JL & LEHMANN, EL (1963) Estimates of Location Based on Rank Tests. Ann. Math. Statist. 34(2): 598-611.
  • HOLLANDER, M et al. (2014) Nonparametric Statistical Methods, 3rd ed. NJ: Wiley.
  • HOLLEY, JW & GUILFORD, JP (1964) A note on the G index of agreement. Educational and Psychological Measurement 24(4). https://doi.org/10.1177/001316446402400402
  • JCE Editor in reply to FAGERLAND MW (2011) Transformations can be avoided when comparing skewed distributions with unequal variances. Journal of Clinical Epidemiology 64: 451-5.
  • KARCH, JD (2021) Psychologists Should Use Brunner-Munzel’s Instead of Mann-Whitney’s U Test as the Default Nonparametric Procedure. Advances in Methods and Practices in Psychological Science 4(2). doi:10.1177/2515245921999602
  • KIRKWOOD, BR & STERNE, JAC (2006) Essential medical statistics. 2nd ed. USA: Blackwell.
  • KRUSKAL, WH & WALLIS, WA (1952). Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association 47 (260): 583–621. 10.1080/01621459.1952.10483441
  • LANDONI, E et al. (2016) Parametric and nonparametric two-sample tests for feature screening in class comparison: a simulation study. Epidemiology Biostatistics and Public Health, 13(2): 1-11.
  • LUDBROOK, J (1996) The Wilcoxon-Mann-Whitney test condemned. British Journal of Surgery 83: 132-8.
  • MANN, HB & WHITNEY DR (1947) On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. Annals of Mathematical Statistics 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058.
  • MARÔCO, J (2014) Análise estatística com SPSS Statistics. 6a ed. Lisboa: ReportNumber.
  • MUNDRY, R & FISCHER, J (1998) Use of statistical programs for nonparametric tests of small samples often leads to incorrect P values. Animal Behavior 56, 256-59.
  • MUNZEL, U (1999) Nonparametric methods for paired. Statistica Neerdanlica, 53(3): 277-86.
  • NAHM, FS (2016) Nonparametric statistical tests for the continuous data: the basic concept and the practical use. Korean journal of anesthesiology, 69(1), 8–14. https://doi.org/10.4097/kjae.2016.69.1.8
  • NEUHAUSER, M (2010) A nonparametric two-sample comparison for skewed data with unequal variances. Journal of Clinical Epidemiology 63: 691-3.
  • NEUHAUSER, M (2010) A nonparametric two-sample comparison for skewed data with unequal variances. Journal of Clinical Epidemiology 63:691-3.
  • NORUSIS, M (1998) SPSS 8 Guide to data analysis. NJ: Prentice-Hall.
  • OGASSAVARA, NC et al. (2020) The Edmonton Obesity Staging System: assessing a potential tool to improve the management of obesity surgery in the Brazilian public health services. Surgery for Obesity and Related Diseases 16(1): 40-47.
  • PASTORE, M & CALCAGNI, A (2019) Measuring Distribution Similarities Between Samples: A Distribution-Free Overlapping Index. Frontiers in psychology 10: 1089. https://doi.org/10.3389/fpsyg.2019.01089
  • POLITI, MT et al. (2021) Nonparametric statistical tests: friend or foe?. Jornal brasileiro de pneumologia : publicacao oficial da Sociedade Brasileira de Pneumologia e Tisilogia, 47(4), e20210292. https://doi.org/10.36416/1806-3756/e20210292
  • PRAJAPATI, B; DUNNE, M & ARMSTRONG, R (2010) Sample size estimation and statistical power analyses. Clinical. Disponível para download.
  • RASCH, D et al. (2007) How robust are tests for two independent samples? Journal of Statistical Planning and Inference 137: 2706-20.
  • RASCH, D et al. (2011) The two-sample t test: pre-testing its assumptions does not pay off. Stat Papers 52: 219-31.
  • ROSNER, B (1995) Fundamentals of Biostatistics. 4th ed. Belmont: Duxbury.
  • ROSENKRANZ GK (2010) A note on the Hodges-Lehmann estimator. Pharm Stat. 9(2): 162-7. doi: 10.1002/pst.387.
  • RUNYON, R & HABER, A (1973) Fundamentals of behavioral statistics. USA: Addison-Wesley, p. 235-6.
  • SCHOBER, P & VETTER, TR (2020) Nonparametric Statistical Methods in Medical Research, Anesthesia & Analgesia 131(6): 1862-3. doi:10.1213/ANE.0000000000005101
  • SILVEIRA, PSP & SIQUEIRA, JO (2023) Better to be in agreement than in bad company : A critical analysis of many kappa-like tests. Behav Res Methods. 55(7): 3326-47. doi: 10.3758/s13428-022-01950-0.
  • SILVEIRA, PSP & SIQUEIRA, JO (2022). Histogram lies about distribution shape and Pearson’s coefficient of variation lies about relative variability. The Quantitative Methods for Psychology 18(1): 91–111. https://doi.org/10.20982/tqmp.18.1.p091
  • SKOVLUND, E & FENSTAD, GU (2001) Should we always choose a nonparametric test when comparing two apparently nonnormal distributions? Journal of Clinical Epidemiology 54: 86-92.
  • WILCOXON, F (1945). Individual comparisons by ranking methods. Biometrics Bulletin 1 (6): 80–83. doi:10.2307/3001968.
  • WINTER, JCF & DODOU, D (2012) Five-point Likert items: t test versus Mann-Whitney-Wilcoxon. Practical Assessment, Research & Evaluation 15(11).
  • WONNACOTT, T & WONNACOTT, R (1990) Introductory statistics for business and economics, 4th ed. NJ: Wiley.
  • XIAOFENG, LIU (2011) The Effect of a Covariate on Standard Error and Confidence Interval Width. Communications in Statistics - Theory and Methods 40(3): 449-56, DOI: 10.1080/03610920903391337
  • ZIMMERMAN, DW (1998) Invalidation of parametric and nonparametric statistical tests by concurrent violation of two assumptions, The Journal of Experimental Education, 67(1): 55-68. DOI: 10.1080/00220979809598344