Parte prática
Vamos começar pela parte prática. A parte teórica pode ficar de consulta.
Vamos carregar os pacotes necessários com o script abaixo
Descrição do experimento
Agora, vamos importar os dados do próprio R e dá uma olhada com a função glimpse() e head() . O nome dos dados é chamado ToothGrowth. A variável de resposta é o comprimento dos odontoblastos (células responsáveis pelo crescimento dos dentes) em 60 porquinhos-da-índia. Cada animal recebeu uma de três doses de vitamina C (0,5 mg/dia, 1 mg/dia ou 2 mg/dia) por um de dois métodos de administração que foi Suco de laranja (OJ) ou Ácido ascórbico (uma forma de vitamina C, codificado como VC).
Vamos avaliar se existe uma diferença entre os métodos de administração com a dose de 2 mg/dia.
Rows: 60
Columns: 3
$ len <dbl> 4.2, 11.5, 7.3, 5.8, 6.4, 10.0, 11.2, 11.2, 5.2, 7.0, 16.5, 16.5,…
$ supp <fct> VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, VC, V…
$ dose <dbl> 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 1.0, 1.0, 1.0, …
Preparação dos dados
Vamos filtrar os dados para ficar apenas com a dose de 2 mg/dia
Como a variável dose ficou apenas com um único valor, eu vou remover a coluna dessa variável da planilha para trabalharmos somente com o que importa.
Agora, vamos verificar se não tem dados faltantes (NA). No R dados faltantes são chamados de Not Annoted. Para isso, vamos utilizar função miss_var_summary() o pacote naniar.
Podemos observar que não há dados faltantes.
Fazendo a descrição dos grupos
Como vamos comparar dois grupos, precisamos analisar cada um deles. Para isso, pediremos ao R que analise separe os grupos por função que iremos fazer. Vamos fazer isso utilizando a função group_by().
Parâmetros estatísticos
Nos dados acima, podemos observar que as médias entre os grupos é muito parecida. Embora a proximidade sugira que a diferença estatística possa não ser significativa, o teste de hipótese é necessário para a conclusão formal. Vejam que mediana e média de cada grupo são similares, o que sugere grupos simétricos e provavelmente com distribuição normal.
Avaliação da distribuição
Um dos pressupostos dos testes paramétricos é a distribuição normal (veja Seção 2.1.3). Vamos verificar esse pressuposto utilizando o teste de Shapiro Wilk.
Observe que na coluna statistic, temos o valor do teste que esta bem próximo de 1. Vejam que na coluna p o seu valor é maior do que alfa (0.05). Isso sugere que os grupos tem uma distribuição normal.
Podemos também ter uma percepção visual desse teste com o qqplot. Vou utilizar a função ggplot juntamente com o facet_grid para avaliarmos cada grupo.
Observem que a maioria dos pontos estão próximos da reta, indicando pequenos desvios de normalidade, confirmando que não houve a quebra dessa suposição, confirmando o teste de normalidade da Tabela 1
Checando outliers
A descrição sobre outliers encontra-se na Seção 2.1.2. Observe que a procura por outliers é por grupo.
Vejam na tabela acima que temos um outlier no grupo OJ. Podemos mantê-lo ou removê-lo. Vou remover a título de demonstração.
Para isso, vou utilizar a função slice(). Nessa função, você inclue o número do índice (ou da linha) onde o outlier esta localizado. Se olharmos nos dados, o valor 30.9 desse grupo é a linha 16.
Avaliação da homogeneidade de variância entre grupos
Esse assunto esta detalhado na Seção 2.1.4. Para iniciarmos a análise, vamos visualizar a distribuição dos dados com o boxplot, utilizando o ggplot().
Observe no gráfico acima que o tamanho das caixas do boxplot entre os grupos é diferente, sugerindo quebra de homogeneidade.
No entanto, para confirmação formal, faremos a validação estatística por meio de um teste apropriado como o teste de Levene.
O valor de p é marginalmente não significativo, indicando que por muito pouco o teste não rejeita a hipótese da homogeneidade. Este é um excelente exemplo da importância da inspeção visual do boxplot. Como esse gráfico mostrou que temos caixas bem diferentes, e sabendo que o teste de Levene, em amostra pequenas (menor do que 30) tem a chance do erro do tipo II (falso negativo), optei por considerar que os grupos não são homogêneos entre si.
Realização do teste T e calculando o tamanho do efeito
Agora, podemos realizar o teste T. Observe que vou utilizar os seguintes argumentos baseado na premissa definida anteiormente. Na função t.test, var.equal = F: digo para o teste que os grupos não são homogêneos.
Welch Two Sample t-test
data: len by supp
t = -0.36778, df = 12.789, p-value = 0.719
alternative hypothesis: true difference in means between group OJ and group VC is not equal to 0
95 percent confidence interval:
-4.252700 3.017145
sample estimates:
mean in group OJ mean in group VC
25.52222 26.14000
Vamos intepretar a tabela acima
t = -0.36778: O valor da estatística t calculada é -0.368, indicando a magnitude da diferença entre as médias dos grupos, ajustada para as variâncias desiguais.
df = 12.789: Os graus de liberdade foram ajustados pela correção de Welch e são aproximadamente 12.79. Esse ajuste é feito para compensar a desigualdade de variâncias.
-
p-value = 0.719: O p-valor associado ao teste é 0.719, que é muito maior que 0.05 (alfa comum).
- Interpretação: Como p > 0.05, não há evidência estatística suficiente para rejeitar a hipótese nula. Isso significa que não há diferença significativa entre as médias dos grupos OJ e VC.
Podemos analisar a magnitude da diferença das médias entre os grupos calculando o tamanho do efeito. Veja detalhes desse assunto na seção Seção 2.2.
O valor -0.16 do Hedges’ g sugere que a média do grupo OJ é 0.16 desvios padrão menor que a média do grupo VC.
Interpretação: Um valor de -0.16 é considerado trivial/pequeno, indicando uma diferença mínima entre os grupos.
Magnitude do efeito:
|g| < 0.2: Efeito trivial ou pequeno.
0.2 ≤ |g| < 0.5: Efeito pequeno.
0.5 ≤ |g| < 0.8: Efeito moderado.
|g| ≥ 0.8: Efeito grande.
Descrevendo os resultados no texto
Os resultados do experimento não demonstraram diferença significativa entre os grupos que receberam suco de laranja (OJ) e vitamina C (VC) em relação ao comprimento celular. A diferença observada entre as médias dos grupos foi de 0.62 micrômetros (IC 95%: −4,25 a 3,02; p > 0,05). A diferença não foi considerada significativa (\(t(12.79) = -0.368, p = 0.719\)). Além disso, o tamanho do efeito, medido pelo Hedges’ g, foi de -0.16 (IC95% [-1.06 a 0.74]), indicando um efeito trivial e reforçando que não há evidência de uma diferença relevante entre os suplementos.
Apresentação dos resultados
Para isso, vamos utilizar o pacote ggstatsplot.
Código
library(ggstatsplot)
ggbetweenstats(
data = clean_ds,
x = supp,
y = len,
type = "parametric",
pairwise.display = "significant",
p.adjust.method = "holm",
effsize.type = "unbiased",
bf.prior = 0.707,
bf.message = F,
results.subtitle = F,
xlab = NULL,
ylab = NULL,
caption = NULL,
title = NULL,
subtitle = NULL,
digits = 2L,
var.equal = FALSE,
conf.level = 0.95,
nboot = 100L,
tr = 0.2,
centrality.plotting = TRUE,
centrality.type = 'p',
centrality.point.args = list(size = 6, color = "darkred"),
centrality.label.args = list(size = 5, nudge_x = 0.4, segment.linetype = 4,
min.segment.length = 0),
point.args = list(position = ggplot2::position_jitterdodge(dodge.width = 0.8), alpha =
0.4, size = 5, stroke = 0, na.rm = TRUE),
boxplot.args = list(width = 0.3, alpha = 0.2, na.rm = TRUE),
violin.args = list(width = 0.0, alpha = 0.2, na.rm = TRUE),
ggsignif.args = list(textsize = 3, tip_length = 0.01, na.rm = TRUE),
ggtheme = ggstatsplot::theme_ggstatsplot(),
package = "RColorBrewer",
palette = "Dark2",
ggplot.component = NULL
)Parte teórica
O teste de hipótese para dois grupos pode ser classificado em independentes (não pareados) e dependentes (pareados). O primeiro é definido quando as amostras pertencentes a um grupo são diferentes das amostras do outro grupo. O segundo é definido quando as amostras de um grupo são as mesmas amostras do outro grupo. Exemplo: temos um grupo de participantes em que o nível de ansiedade é medido antes (grupo 1) da aplicação de uma terapia de relaxamento. Após a terapia, o nível de ansiedade é medido nesse mesmo grupo (grupo 2).
Pressupostos comuns
Quando falamos de pressupostos, podemos pensar que são pré-requisitos que o teste estatístico espera dos dados em cada grupo e entre grupos. Os testes que esperam esses pressupostos são chamados de paramétricos. Aqueles testes que não esperam esses pressupostos ou que são robustos (pouco influenciáveis) a violações desses pressupostos são chamados de testes robustos ou testes não-paramétricos.
Para o teste de hipótese entre dois grupos, o teste paramétrico mais conhecido é o teste t. Se algum dos pressupostos for violado, costuma-se utilizar o teste não paramétrico. No entanto, particularmente, evito utilizar os testes não paramétricos porque eles transformam os dados em postos (ranks), o que altera a natureza dos dados. Portanto, prefiro trabalhar com testes robustos ou alternativas que não exijam transformações. Ao longo desse material, falarei desses testes.
Em relação aos pressupostos, vou detalhar cada um deles.
As amostras são independentes
Os testes paramétricos esperam que as amostras sejam independentes. Amostras independentes são aquelas que não são réplicas ou repetidas. Exemplo: vamos supor que eu tenha obtido o nível de ansiedade do mesmo participante do estudo duas vezes. Isso é uma réplica. Eu não posso incluir os dois valores na análise como observações independentes. Eu devo usar a média desses valores ou escolher apenas uma das medidas, dependendo do contexto.
Outro exemplo: em um ensaio de citotoxicidade, se você obtém duas leituras da mesma placa de cultura celular, não pode tratar essas leituras como independentes, pois são réplicas técnicas. Nesse caso, deve-se usar a média dessas leituras ou uma única medida representativa.
Presença de outliers
Embora não seja um pressuposto formal, outliers são valores que podem distorcer a distribuição dos dados, torná-los assimétricos ou enviesar as estimativas. É importante investigá-los, pois podem ser:
Erros de medida ou anotação;
Amostras atípicas;
Ou simplesmente uma característica natural do grupo estudado.
Os outliers devem ser revistos pelo pesquisador e, se necessário, tratados ou justificados.
A distribuição das amostras é normal
A normalidade refere-se à distribuição dos dados dentro de cada grupo. Podemos avaliá-la de várias formas:
Teste estatístico: O teste mais utilizado é o de Shapiro-Wilk, que fornece uma estatística W e um valor de p. Se p < 0,05, não temos evidência suficiente para assumir normalidade, e os dados são considerados não-normais. Atenção: testes de normalidade podem cometer erro tipo I (rejeitar a normalidade quando ela existe) em amostras grandes (n > 30). Por isso, é importante complementar a análise com gráficos, como histograma e qqplot.
-
Representações gráficas:
Gráfico qqplot: Permite avaliar quanto os dados desviam da distribuição normal teórica. Não existe um ajuste perfeito, mas desvios graves devem ser investigados.
Histograma: Mostra a distribuição dos dados. Distribuições simétricas sugerem normalidade, enquanto assimetrias acentuadas indicam não-normalidade.
-
Parâmetros estatísticos:
- Se a média e a mediana forem muito diferentes, isso sugere assimetria.
- Curtose e assimetria próximas de zero indicam simetria e, possivelmente, normalidade. Valores muito diferentes de zero sugerem assimetria.
Em grupos dependentes (pareados), a avaliação da normalidade é feita nas diferenças entre as medidas (ex.: antes e depois da intervenção), não nos valores brutos.
Exemplo prático: Se um participante teve ansiedade = 40 antes da terapia e 35 depois, a diferença é 5. Repetindo isso para todos os participantes, cria-se uma nova variável (“diferença”), que deve ser avaliada quanto à normalidade.
Homogeneidade da variância entre grupos
Homogeneidade da variância (ou homocedasticidade) refere-se à suposição de que as variâncias das variáveis dependentes são iguais entre os grupos comparados. Em outras palavras, a dispersão dos dados em torno da média deve ser semelhante em todos os grupos. Esse pressuposto é fundamental para muitos testes estatísticos paramétricos, como o teste t de Student e a ANOVA, pois garante que as comparações entre médias sejam válidas e não enviesadas por diferenças na variabilidade dos dados.
A variância é uma medida de dispersão que quantifica quão distantes os valores de um conjunto de dados estão da sua média. Matematicamente, é calculada como a média dos quadrados das diferenças entre cada ponto e a média do grupo. Uma variância alta indica que os dados estão mais espalhados, enquanto uma variância baixa sugere que os valores estão mais próximos da média.
A desigualdade de variâncias (heterocedasticidade) pode aumentar a probabilidade de erros do Tipo I (falsos positivos) ou do Tipo II (falsos negativos).
Se as variâncias não forem homogêneas, utiliza-se a correção de Welch que ajusta o teste t para considerar variâncias desiguais, calculando os graus de liberdade de forma aproximada.
Em amostras pequenas (n < 30), o teste de Levene pode cometer erro tipo II (aceitar homogeneidade quando ela não existe). Por isso, @zimmerman2004 recomenda usar a correção de Welch por padrão, especialmente quando os tamanhos amostrais são diferentes entre os grupos.
Um boxplot pode ajudar a visualizar a homogeneidade. Caixas com tamanhos muito diferentes sugerem heterogeneidade.
Em grupos dependentes (pareados), a homogeneidade não é um pressuposto relevante, pois as comparações são feitas dentro dos mesmos indivíduos.
Tamanho do efeito
O tamanho do efeito quantifica a magnitude da diferença entre os grupos, enquanto o p-valor apenas indica se essa diferença é estatisticamente significativa (Cohen, 1988). Essa medida é fundamental para avaliar a relevância prática de um resultado, especialmente em estudos aplicados, onde a significância estatística nem sempre reflete a importância clínica, biológica ou social de uma intervenção.
Para comparações entre dois grupos independentes, as medidas mais comuns são:
Cohen’s d: Calculado como a diferença entre as médias dos grupos dividida pelo desvio padrão pooled (combinado). É amplamente utilizado em pesquisas psicológicas, educacionais e biomédicas [@cohen2013]. No entanto, tende a superestimar o tamanho do efeito em amostras pequenas [@hedges1981].
Hedges’ g: Similar ao Cohen’s d, mas inclui uma correção para viés em amostras pequenas, fornecendo uma estimativa mais precisa do efeito populacional [@hedges1981]. É recomendado quando o tamanho amostral é reduzido [@borenstein2009].
Exemplo de descrição: O nível de ansiedade após a terapia foi menor em comparação ao nível antes da terapia (diferença = -5, IC95% [-7 a -3], p = 0,003). O tamanho do efeito indicou um impacto moderado da terapia (g de Hedges = -0,56, IC95% [-0,76 a -0,44]).
Representação dos resultados
Os resultados devem ser descritos no texto de forma clara e completa. Uma sugestão de estrutura: 1. Diferença entre grupos (ex.: “O grupo A apresentou maior média que o grupo B”). 2. Intervalo de confiança (ex.: “IC95% [X, Y]”). 3. Valor de p (ex.: “p = 0,003”). 4. Tamanho do efeito (ex.: “d de Cohen = 0,6”).
Exemplo: A ansiedade após a terapia foi significativamente menor (diferença = -5, IC95% [-7 a -3], p = 0,003), com um efeito moderado (g de Hedges = -0,56, IC95% [-0,76 a -0,44]).