O Problema Geral
Por que comparar duas populações? Parâmetros e perguntas estatísticas.
02
Pareadas e Independentes
Desenho amostral, definição de $D_i$, tabela de decisão.
03
EDA e Pressupostos
Por que a análise exploratória vem antes do teste. Os quatro pressupostos.
04
Teste de Shapiro-Wilk
Pipeline do cálculo, estatística $W$, exemplo manual com $n=10$.
05
Síntese
Mapa de escolha, resumo conceitual, próxima aula.
📚
Referências
Bussab & Morettin, Devore, Montgomery & Runger e outros.
🔗 Fio Condutor: Benchmark de Algoritmos
Usaremos este exemplo ao longo de toda a aula.
Contexto
Uma equipe de Ciência da Computação quer saber se o Algoritmo B é mais lento que o Algoritmo A ao processar consultas de banco de dados. Eles executam os dois algoritmos nas mesmas 10 consultas (pareamento natural) e registram o tempo em milissegundos.
Consulta
1
2
3
4
5
6
7
8
9
10
Algo. A (ms)
142
138
145
141
139
143
140
144
137
146
Algo. B (ms)
151
145
149
148
143
152
147
150
144
153
$D_i = B - A$
9
7
4
7
4
9
7
6
7
7
Por que este exemplo é pareado?
Cada coluna corresponde à mesma consulta nos dois algoritmos. A consulta 1 do Algo. A é o par natural da consulta 1 do Algo. B. Isso elimina a variabilidade entre consultas e foca no efeito do algoritmo.
📊 O que os Dados Sugerem?
141,5
Média Algo. A
ms
148,2
Média Algo. B
ms
6,7
Média de Dᵢ
diferença média
1,77
Desvio-padrão de Dᵢ
ms
Pergunta inferencial
A diferença média de 6,7 ms pode ser explicada apenas pelo acaso (variação amostral), ou há evidência de que o Algoritmo B é sistematicamente mais lento?
Caminho até a resposta
Para responder com um teste $t$ pareado, precisamos antes verificar se as diferenças $D_i$ são aproximadamente normais — é aí que entra o Shapiro-Wilk.
❓ Por que Comparar Duas Populações?
Ideia central
Muitos problemas não perguntam apenas se uma média assume certo valor, mas se duas populações diferem quanto a uma característica de interesse.
Mudança conceitual
Agora o parâmetro de interesse costuma ser uma diferença: $\mu_1 - \mu_2$ ou, no caso pareado, $\mu_D$.
A pergunta inferencial pode ser bilateral
$$H_0: \theta_1-\theta_2=\Delta_0 \quad \text{vs} \quad H_1: \theta_1-\theta_2 \neq \Delta_0$$
ou unilateral, quando a direção é definida antes de observar os dados.
$\Delta_0$ é a diferença postulada sob $H_0$. Em comparações iniciais, usa-se $\Delta_0 = 0$ (ausência de diferença).
Exemplos de contexto
O tempo médio do Algoritmo A é menor que o do B?
A refatoração reduziu a latência média do mesmo sistema?
Dois grupos de usuários têm a mesma taxa média de resposta?
Foco pedagógico
A fórmula do teste é consequência do desenho amostral. Antes de calcular, é preciso saber como os dados foram coletados.
📐 Amostras Pareadas
Definição
Ocorrem quando cada observação de um grupo tem um par natural no outro grupo — medimos a mesma pessoa, objeto ou item em dois momentos ou condições diferentes.
Exemplo — Algoritmos
As mesmas 10 consultas são executadas pelo Algo. A e pelo Algo. B. A consulta 3 de A e a consulta 3 de B formam um par. Interessa a diferença dentro de cada par: $D_i = B_i - A_i$.
Exemplo — Educação
Um aluno faz uma prova antes de uma aula de revisão e outra depois. As duas notas formam um par — são do mesmo aluno.
A estrutura pareada controla a variabilidade entre unidades, concentrando a análise no efeito de interesse.
🔀 Amostras Independentes
Definição
Ocorrem quando os dois grupos são formados por indivíduos diferentes, sem nenhuma relação entre quem está em um grupo e quem está no outro.
Exemplo — Medicina
Um grupo de 30 pacientes recebe o remédio A e outro grupo, diferente, recebe o remédio B. Nenhum paciente aparece nos dois grupos. Comparamos as médias dos grupos.
Exemplo — Sistemas
50 consultas enviadas ao servidor A e 50 consultas diferentes enviadas ao servidor B. Não há correspondência entre as consultas dos grupos.
Aqui o parâmetro de interesse é $\mu_1 - \mu_2$, estimado por $\bar{X} - \bar{Y}$.
🔗 Visualizando o Pareamento
Cada linha conecta as duas medições de uma mesma unidade. Passe o mouse para inspecionar.
Analisamos a diferença dentro de cada par: $D_i = A_i - B_i$. As linhas mostram como cada unidade muda da condição A para a B — a inclinação é o efeito individual.
🔀 Visualizando a Independência
Dois grupos de unidades distintas. Comparamos a distribuição de cada um.
Analisamos a diferença entre médias amostrais: $\bar{X} - \bar{Y}$. Não há linhas conectando pontos porque não existe correspondência entre as unidades dos dois grupos.
➖ Caso Pareado: Uma População de Diferenças
$$D_i = X_i - Y_i, \qquad i = 1, \ldots, n$$
Comparar duas condições vira inferência para uma média: $\mu_D$.
Hipóteses usuais
$$H_0: \mu_D = \Delta_0 \quad \text{vs} \quad H_1: \mu_D \neq \Delta_0$$
Quando $\Delta_0 = 0$, $H_0$ representa ausência de diferença média entre as condições.
Pressuposto de normalidade
No teste $t$ pareado, o pressuposto relevante é a normalidade das diferenças $D_i$ — e não a normalidade separada de $X_i$ e $Y_i$.
Vantagem: o par elimina a variação entre unidades que não interessa, aumentando o poder do teste.
Cuidado: tratar dados pareados como independentes desperdiça informação e enfraquece o teste.
Todos os $D_i > 0$: o Algoritmo B foi sempre mais lento nesta amostra. Resta saber se isso é estatisticamente significativo — o que exige verificar os pressupostos antes do teste $t$ pareado.
💪 Por que o Pareamento Aumenta o Poder?
A mesma diferença de 6,7 ms é muito mais "detectável" quando aproveitamos o pareamento.
A chave é a covariância
Como A e B rodam nas mesmas consultas, são fortemente correlacionados ($r = 0{,}87$): consulta difícil é lenta nos dois. A variância das diferenças encolhe:
$$\mathrm{Var}(D) = \mathrm{Var}(A) + \mathrm{Var}(B) - 2\,\mathrm{Cov}(A,B)$$
$$2{,}9 = 20{,}9 - 18{,}0$$
Resultado no fio condutor
O erro-padrão cai de 1,45 → 0,54 ms (2,7× menor). Isso eleva a estatística do teste de $|t| \approx 4{,}6$ (independente) para $|t| \approx 12{,}4$ (pareado).
Tratar esses dados como independentes jogaria fora a covariância — desperdício que enfraquece o teste.
Unidades distintas em cada grupo. Parâmetro típico: $\mu_1 - \mu_2$.
Estimador e variância
$$\bar{X} - \bar{Y}$$
Sob independência entre as amostras,
$$\mathrm{Var}(\bar{X} - \bar{Y}) = \mathrm{Var}(\bar{X}) + \mathrm{Var}(\bar{Y})$$
As variâncias se somam porque os grupos não têm relação.
Quando $\sigma_1^2, \sigma_2^2$ são desconhecidas: teste $t$ pooled ou Welch, conforme o teste de Levene.
⚖️ Pareado ou Independente?
Pergunta
Diagnóstico
O que fazer
A mesma unidade foi medida em duas condições (antes/depois ou A/B)?
Dados pareados
Calcule $D_i = X_i - Y_i$ e analise as diferenças
As unidades foram agrupadas por característica comum (mesma turma, lote, dia)?
Dados em blocos
Preserve o agrupamento: não misture nem ignore a estrutura
Os grupos têm itens completamente diferentes, sem relação?
Dados independentes
Compare as médias: analise $\bar{X} - \bar{Y}$
Uma observação pode influenciar outra (medições em sequência)?
Independência duvidosa
Revise o desenho antes de prosseguir
Regra prática
Pareados tratados como independentes → desperdiça informação e enfraquece o teste.
Independentes tratados como pareados → cria dependência inexistente e distorce resultados.
🔍 Por que a EDA é Parte da Inferência?
Objetivo da EDA
A análise exploratória (Exploratory Data Analysis) não serve só para "descrever". Ela avalia se o modelo inferencial escolhido é plausível para o desenho e a escala da variável.
Por que antes do teste?
A EDA evidencia assimetrias, outliers, dispersões diferentes e violações de estrutura — antes de fixar o teste.
Ferramentas usuais
Tabelas de resumo por grupo
Histogramas e densidades
Boxplots e gráficos de pontos
QQ-plots para normalidade
Gráficos pareados quando há dependência planejada
Atenção: o teste não avisa automaticamente que os pressupostos foram violados — essa responsabilidade é do analista.
✅ Pressuposto 1: Escala da Variável
Testes paramétricos para médias pressupõem que a variável resposta seja quantitativa, com diferença e média fazendo sentido substantivo.
Tipo
Exemplo
Adequação à comparação de médias
Quant. contínua
tempo, latência, memória, nota
geralmente adequada ✓
Quant. discreta
contagens, nº de erros
pode ser adequada, com cautela ⚠️
Ordinal
satisfação (1–5)
média discutível; ver alternativas ⚠️
Nominal
linguagem usada, categoria
média não interpretável ✗
Atenção
Conseguir calcular um teste não significa que ele responde à pergunta certa. Se a variável não for quantitativa, o resultado sai — mas sem interpretação válida.
🔗 Pressuposto 2: Independência
O que significa?
Uma observação não carrega informação sistemática sobre o erro aleatório de outra — exceto quando a dependência foi explicitamente modelada, como no pareamento.
A independência é principalmente uma propriedade do planejamento amostral, não algo que se "prova" apenas com um gráfico.
Sinais de alerta
Medições repetidas do mesmo sujeito tratadas como independentes
Dados temporais com autocorrelação
Respostas agrupadas por turma, laboratório ou servidor
Múltiplas execuções do mesmo item sem controle de dependência
📈 Pressuposto 3: Normalidade — Dados Normais
Histograma, boxplot e QQ-plot de uma amostra aproximadamente normal. Todos interativos.
Padrão esperado: histograma simétrico, boxplot sem outliers extremos e pontos do QQ-plot sobre a linha de referência.
📉 Pressuposto 3: Normalidade — Dados Assimétricos
Mesmos gráficos para uma amostra assimétrica. Compare o padrão.
Padrão de assimetria: histograma com cauda longa, boxplot deslocado com outliers e QQ-plot em "curva" — pontos fora da linha nos extremos.
🔎 Como Interpretar os Gráficos
Como ler o QQ-plot
Pontos sobre a linha: compatível com normalidade
Curva em "S" ou "J": assimetria
Pontos extremos fora da linha: caudas pesadas / outliers
Interpretação conjunta
Histograma, boxplot e QQ-plot devem ser lidos juntos, não como provas isoladas. Um histograma com poucos dados pode enganar — o QQ-plot ajuda a confirmar.
📏 Pressuposto 4: Homogeneidade de Variâncias
Quando aparece?
Relevante nos testes para duas médias independentes com variância combinada (pooled). Afirma que $\sigma_1^2 \approx \sigma_2^2$.
Cuidado
Dispersões muito diferentes afetam o nível real do teste, sobretudo com tamanhos desbalanceados ($n_1 \neq n_2$).
O teste de Levene avalia isso formalmente (próxima aula). Boxplots de alturas muito diferentes já são um sinal de alerta → usar Welch.
📋 Checklist dos Pressupostos
Pressuposto
O que verificar
Ferramenta
Escala
A variável é quantitativa? Faz sentido comparar médias?
Domínio
Independência
Observações independentes ou pareamento planejado?
Desenho do estudo
Normalidade
Distribuição ~normal no grupo, ou nas diferenças $D_i$?
Histograma, QQ, Shapiro-Wilk
Homog. variâncias
Dispersões semelhantes entre grupos independentes?
Boxplots, Levene
Outliers
Há valores extremos que distorcem médias e variâncias?
Boxplot, pontos
Mensagem-chave
O teste não deve ser escolhido apenas pela fórmula. Ele deve ser compatível com o desenho do estudo e com os pressupostos observados nos dados.
🧪 Por que um Teste Formal de Normalidade?
Motivação
Gráficos são indispensáveis, mas podem gerar interpretações subjetivas. Um teste de normalidade oferece uma regra formal para avaliar a compatibilidade com a normal.
Por que Shapiro-Wilk?
É amplamente usado por ser sensível a diferentes formas de afastamento da normalidade, especialmente em amostras pequenas e moderadas ($3 \leq n \leq 5000$).
Limitação importante
Com amostras grandes ($n \gg 100$), o Teorema Central do Limite garante que $\bar{X}$ se comporta bem mesmo com dados não normais. Rejeições do Shapiro-Wilk com $n$ grande podem não ter consequência prática — use o QQ-plot como complemento.
⚖️ Hipóteses e Regra de Decisão
$$H_0: \text{os dados vêm de uma população normal}$$
$$H_1: \text{os dados não vêm de uma população normal}$$
Se $p > \alpha$
Não rejeitamos $H_0$. Os dados são compatíveis com a normalidade (não é prova de normalidade perfeita).
Se $p \leq \alpha$
Rejeitamos $H_0$. Há evidência contra a normalidade — considere transformação ou método não paramétrico.
No fio condutor: antes do teste $t$ pareado, aplicamos o Shapiro-Wilk às diferenças $D_i$ para checar se a normalidade é plausível.
⚙️ Como a Estatística W é Calculada
Ordenar os dados $X_{(1)} \leq \cdots \leq X_{(n)}$
→
Diferenças simétricas $X_{(n+1-i)} - X_{(i)}$
→
Ponderar por $a_i$ quantis normais
→
W
Com a amostra ordenada $X_{(1)} \leq \cdots \leq X_{(n)}$:
$W \in (0, 1]$. $W \approx 1$ → alinhamento com a normal (não rejeitar $H_0$). $W \ll 1$ → desvio forte (evidência contra $H_0$).
Decisão sempre pelo p-valor
Não se decide só pelo valor de $W$: o p-valor vem da distribuição de $W$ sob $H_0$, que depende de $n$.
🧪 Laboratório: Como W Reage a Cada Distribuição
Clique nos botões e observe o QQ-plot mudar e o valor de $W$ acompanhar. Todas as amostras têm $n = 60$.
Leitura: à medida que a distribuição se afasta da normal — assimetria, bimodalidade, outliers — os pontos saem da linha e $W$ cai de ~1 em direção a 0, derrubando o p-valor.
🔢 Exemplo Manual: Shapiro-Wilk ($n = 10$)
Amostra de tamanho $n = 10$, já em ordem crescente:
O termo $i=1$ (maior diferença, entre o máximo e o mínimo) domina o cálculo de $b$. Quanto mais os extremos se afastam do padrão normal, maior o impacto em $W$.
Shapiro-Wilk normality test
data: x
W = 0.98103, p-value = 0.9704
Interpretação
$W = 0{,}9811$ está próximo de 1 e o p-valor é alto: não rejeitamos $H_0$. Os dados são compatíveis com a normalidade — a inferência paramétrica é adequada.
🗂️ Usando o Shapiro-Wilk na Comparação
Situação
Aplicação correta
Interpretação
Dados pareados
Aplicar às diferenças $D_i = X_i - Y_i$
Verifica a normalidade da variável de fato testada
Grupos independentes
Aplicar separadamente a cada grupo (ou aos resíduos)
Avalia cada distribuição individualmente
Amostras grandes
Combinar com o QQ-plot; o TCL protege a média
Rejeições leves raramente invalidam o teste
Outliers
Investigar a causa antes de escolher o teste
Outliers podem dominar $W$ e gerar rejeição enganosa
Mensagem importante
O teste de normalidade não substitui o QQ-plot e o histograma. Juntos dão resposta mais confiável que qualquer um isolado.
Fio condutor
Os $D_i = \{9,7,4,7,4,9,7,6,7,7\}$ devem passar pelo Shapiro-Wilk antes do $t$ pareado. Com $n=10$ e $\bar{D}=6{,}7$ ms, o teste indica se a normalidade é plausível.
🏁 Fechando o Caso: Os $D_i$ do Benchmark São Normais?
Antes de rodar o teste $t$ pareado, aplicamos o Shapiro-Wilk às diferenças reais do benchmark.
d <- c(9, 7, 4, 7, 4,
9, 7, 6, 7, 7) # B - A
shapiro.test(d)
Shapiro-Wilk normality test
data: d
W = 0.85639, p-value = 0.06918
Conclusão
$W = 0{,}856$, $p = 0{,}069 > 0{,}05$ → não rejeitamos $H_0$. A normalidade dos $D_i$ é plausível e o caminho para o teste $t$ pareado está aberto.
Nuance honesta: o p-valor está perto de 0,05 e o QQ-plot tem "degraus" porque os $D_i$ são inteiros com empates (cinco valores 7). Por isso combinamos o teste com o gráfico e o bom senso — exatamente a mensagem da aula.
🗺️ Mapa Final de Escolha
Há pareamento natural?
→
Sim
Usar diferenças $D_i$
Shapiro-Wilk + QQ nos $D_i$ → teste $t$ pareado
↓
Não
Grupos independentes?
→
Sim
Comparar $\bar{X} - \bar{Y}$
EDA nos grupos; Shapiro-Wilk + Levene
↓
Verificar
Pressupostos plausíveis?
→
Resultado
Sim → Teste paramétrico
$t$ pooled ou Welch — reportar IC + p-valor
Não → Revisar abordagem
Transformar variável ou alternativa não paramétrica
Cada bifurcação depende do desenho amostral e dos resultados da EDA.
💡 Resumo Conceitual
O que deve ficar claro
Comparar duas populações é comparar parâmetros, geralmente médias
O desenho define se o caso é pareado ou independente
Pareamento transforma o problema em inferência sobre $\mu_D$
A EDA é parte da escolha metodológica
O Shapiro-Wilk quantifica a compatibilidade com a normal
Pressupostos essenciais
Independência (exceto dependência planejada)
Escala quantitativa interpretável
Normalidade apropriada à variável analisada
Homogeneidade de variâncias quando o teste exige
Próxima aula — variâncias desconhecidas
Teste de Levene (homogeneidade de variâncias)
Caso 2.1 — $t$ pooled: quando $\sigma_1^2 = \sigma_2^2$
Caso 2.2 — $t$ de Welch: quando $\sigma_1^2 \neq \sigma_2^2$
📚 Referências Recomendadas
Bussab, W. O.; Morettin, P. A.Estatística Básica. São Paulo: Saraiva.
Devore, J. L.Probabilidade e Estatística para Engenharia e Ciências. Cengage.
Montgomery, D. C.; Runger, G. C.Estatística Aplicada e Probabilidade para Engenheiros. LTC.
Casella, G.; Berger, R. L.Statistical Inference. Duxbury.
Shapiro, S. S.; Wilk, M. B.An Analysis of Variance Test for Normality. Biometrika, 1965.
Mensagem final
A inferência correta para duas populações começa pela pergunta e pelo desenho amostral, passa pela EDA e pela verificação dos pressupostos. Os testes paramétricos só devem ser aplicados após avaliar escala, independência, normalidade e, quando necessário, homogeneidade de variâncias.
Obrigado
Profa. Dra. Amanda Gomes · Prof. Dr. Gilberto Matos · Prof. Dr. Jerfson BrunoUAEst / CCT / UFCG