UAEst / CCT / UFCG

Inferência para Duas Populações

Contexto, desenho amostral, pressupostos e teste de Shapiro-Wilk

Profa. Dra. Amanda Gomes Prof. Dr. Gilberto Matos Prof. Dr. Jerfson Bruno
Estatística Aplicada  |  UFCG  |  2026
🗺️ Roteiro da Aula

01

O Problema Geral Por que comparar duas populações? Parâmetros e perguntas estatísticas.

02

Pareadas e Independentes Desenho amostral, definição de $D_i$, tabela de decisão.

03

EDA e Pressupostos Por que a análise exploratória vem antes do teste. Os quatro pressupostos.

04

Teste de Shapiro-Wilk Pipeline do cálculo, estatística $W$, exemplo manual com $n=10$.

05

Síntese Mapa de escolha, resumo conceitual, próxima aula.

📚

Referências Bussab & Morettin, Devore, Montgomery & Runger e outros.
🔗 Fio Condutor: Benchmark de Algoritmos

Usaremos este exemplo ao longo de toda a aula.

Contexto

Uma equipe de Ciência da Computação quer saber se o Algoritmo B é mais lento que o Algoritmo A ao processar consultas de banco de dados. Eles executam os dois algoritmos nas mesmas 10 consultas (pareamento natural) e registram o tempo em milissegundos.
Consulta12345678910
Algo. A (ms)142138145141139143140144137146
Algo. B (ms)151145149148143152147150144153
$D_i = B - A$9747497677

Por que este exemplo é pareado?

Cada coluna corresponde à mesma consulta nos dois algoritmos. A consulta 1 do Algo. A é o par natural da consulta 1 do Algo. B. Isso elimina a variabilidade entre consultas e foca no efeito do algoritmo.
📊 O que os Dados Sugerem?
141,5
Média Algo. A
ms
148,2
Média Algo. B
ms
6,7
Média de Dᵢ
diferença média
1,77
Desvio-padrão de Dᵢ
ms

Pergunta inferencial

A diferença média de 6,7 ms pode ser explicada apenas pelo acaso (variação amostral), ou há evidência de que o Algoritmo B é sistematicamente mais lento?

Caminho até a resposta

Para responder com um teste $t$ pareado, precisamos antes verificar se as diferenças $D_i$ são aproximadamente normais — é aí que entra o Shapiro-Wilk.
Por que Comparar Duas Populações?

Ideia central

Muitos problemas não perguntam apenas se uma média assume certo valor, mas se duas populações diferem quanto a uma característica de interesse.

Mudança conceitual

Agora o parâmetro de interesse costuma ser uma diferença: $\mu_1 - \mu_2$ ou, no caso pareado, $\mu_D$.

Em Ciência da Computação

  • O Algoritmo A é mais rápido que o B?
  • A nova versão reduziu a latência do sistema?
  • Dois grupos de usuários têm a mesma taxa de erro?
  • Duas arquiteturas consomem a mesma memória?
Forma geral das hipóteses
$$H_0: \theta_1 - \theta_2 = \Delta_0 \qquad \text{vs} \qquad H_1: \theta_1 - \theta_2 \neq \Delta_0$$

Na maioria das comparações iniciais: $\Delta_0 = 0$

🎯 Duas Populações, Dois Parâmetros

Passe o mouse sobre os pontos. Cada nuvem representa uma população com seu próprio parâmetro.

O que observamos

Cada população tem um centro (parâmetro $\mu$) e uma dispersão própria. A inferência busca decidir se $\mu_1$ e $\mu_2$ diferem.
Pergunta inferencial
$$\mu_1 - \mu_2 = \Delta_0\ ?$$

Comparar exige modelo + desenho amostral + pressupostos.

💬 Perguntas Estatísticas Típicas

Forma geral

A pergunta inferencial pode ser bilateral $$H_0: \theta_1-\theta_2=\Delta_0 \quad \text{vs} \quad H_1: \theta_1-\theta_2 \neq \Delta_0$$ ou unilateral, quando a direção é definida antes de observar os dados.
$\Delta_0$ é a diferença postulada sob $H_0$. Em comparações iniciais, usa-se $\Delta_0 = 0$ (ausência de diferença).

Exemplos de contexto

  • O tempo médio do Algoritmo A é menor que o do B?
  • A refatoração reduziu a latência média do mesmo sistema?
  • Dois grupos de usuários têm a mesma taxa média de resposta?

Foco pedagógico

A fórmula do teste é consequência do desenho amostral. Antes de calcular, é preciso saber como os dados foram coletados.
📐 Amostras Pareadas

Definição

Ocorrem quando cada observação de um grupo tem um par natural no outro grupo — medimos a mesma pessoa, objeto ou item em dois momentos ou condições diferentes.

Exemplo — Algoritmos

As mesmas 10 consultas são executadas pelo Algo. A e pelo Algo. B. A consulta 3 de A e a consulta 3 de B formam um par. Interessa a diferença dentro de cada par: $D_i = B_i - A_i$.

Exemplo — Educação

Um aluno faz uma prova antes de uma aula de revisão e outra depois. As duas notas formam um par — são do mesmo aluno.
A estrutura pareada controla a variabilidade entre unidades, concentrando a análise no efeito de interesse.
🔀 Amostras Independentes

Definição

Ocorrem quando os dois grupos são formados por indivíduos diferentes, sem nenhuma relação entre quem está em um grupo e quem está no outro.

Exemplo — Medicina

Um grupo de 30 pacientes recebe o remédio A e outro grupo, diferente, recebe o remédio B. Nenhum paciente aparece nos dois grupos. Comparamos as médias dos grupos.

Exemplo — Sistemas

50 consultas enviadas ao servidor A e 50 consultas diferentes enviadas ao servidor B. Não há correspondência entre as consultas dos grupos.
Aqui o parâmetro de interesse é $\mu_1 - \mu_2$, estimado por $\bar{X} - \bar{Y}$.
🔗 Visualizando o Pareamento

Cada linha conecta as duas medições de uma mesma unidade. Passe o mouse para inspecionar.

Analisamos a diferença dentro de cada par: $D_i = A_i - B_i$. As linhas mostram como cada unidade muda da condição A para a B — a inclinação é o efeito individual.
🔀 Visualizando a Independência

Dois grupos de unidades distintas. Comparamos a distribuição de cada um.

Analisamos a diferença entre médias amostrais: $\bar{X} - \bar{Y}$. Não há linhas conectando pontos porque não existe correspondência entre as unidades dos dois grupos.
Caso Pareado: Uma População de Diferenças
$$D_i = X_i - Y_i, \qquad i = 1, \ldots, n$$

Comparar duas condições vira inferência para uma média: $\mu_D$.

Hipóteses usuais

$$H_0: \mu_D = \Delta_0 \quad \text{vs} \quad H_1: \mu_D \neq \Delta_0$$ Quando $\Delta_0 = 0$, $H_0$ representa ausência de diferença média entre as condições.

Pressuposto de normalidade

No teste $t$ pareado, o pressuposto relevante é a normalidade das diferenças $D_i$ — e não a normalidade separada de $X_i$ e $Y_i$.
Vantagem: o par elimina a variação entre unidades que não interessa, aumentando o poder do teste.
Cuidado: tratar dados pareados como independentes desperdiça informação e enfraquece o teste.
🧮 Caso Pareado: Cálculo dos $D_i$

Fio condutor — diferenças $D_i = \text{Algo. B}_i - \text{Algo. A}_i$.

Consulta $i$Algo. A (ms)Algo. B (ms)$D_i$ (ms)
11421519
21381457
31451494
41411487
51391434
61431529
71401477
81441506
91371447
101461537
Média141,5148,26,7
Todos os $D_i > 0$: o Algoritmo B foi sempre mais lento nesta amostra. Resta saber se isso é estatisticamente significativo — o que exige verificar os pressupostos antes do teste $t$ pareado.
💪 Por que o Pareamento Aumenta o Poder?

A mesma diferença de 6,7 ms é muito mais "detectável" quando aproveitamos o pareamento.

A chave é a covariância

Como A e B rodam nas mesmas consultas, são fortemente correlacionados ($r = 0{,}87$): consulta difícil é lenta nos dois. A variância das diferenças encolhe: $$\mathrm{Var}(D) = \mathrm{Var}(A) + \mathrm{Var}(B) - 2\,\mathrm{Cov}(A,B)$$ $$2{,}9 = 20{,}9 - 18{,}0$$

Resultado no fio condutor

O erro-padrão cai de 1,45 → 0,54 ms (2,7× menor). Isso eleva a estatística do teste de $|t| \approx 4{,}6$ (independente) para $|t| \approx 12{,}4$ (pareado).
Tratar esses dados como independentes jogaria fora a covariância — desperdício que enfraquece o teste.
📊 Caso Independente: Médias de Grupos Distintos
$$X_1, \ldots, X_{n_1} \quad \text{e} \quad Y_1, \ldots, Y_{n_2}$$

Unidades distintas em cada grupo. Parâmetro típico: $\mu_1 - \mu_2$.

Estimador e variância

$$\bar{X} - \bar{Y}$$ Sob independência entre as amostras, $$\mathrm{Var}(\bar{X} - \bar{Y}) = \mathrm{Var}(\bar{X}) + \mathrm{Var}(\bar{Y})$$ As variâncias se somam porque os grupos não têm relação.

Erro-padrão (variâncias conhecidas)

$$\mathrm{EP}(\bar{X} - \bar{Y}) = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$$

Próxima aula

Quando $\sigma_1^2, \sigma_2^2$ são desconhecidas: teste $t$ pooled ou Welch, conforme o teste de Levene.
⚖️ Pareado ou Independente?
PerguntaDiagnósticoO que fazer
A mesma unidade foi medida em duas condições (antes/depois ou A/B)? Dados pareados Calcule $D_i = X_i - Y_i$ e analise as diferenças
As unidades foram agrupadas por característica comum (mesma turma, lote, dia)? Dados em blocos Preserve o agrupamento: não misture nem ignore a estrutura
Os grupos têm itens completamente diferentes, sem relação? Dados independentes Compare as médias: analise $\bar{X} - \bar{Y}$
Uma observação pode influenciar outra (medições em sequência)? Independência duvidosa Revise o desenho antes de prosseguir

Regra prática

  • Pareados tratados como independentes → desperdiça informação e enfraquece o teste.
  • Independentes tratados como pareados → cria dependência inexistente e distorce resultados.
🔍 Por que a EDA é Parte da Inferência?

Objetivo da EDA

A análise exploratória (Exploratory Data Analysis) não serve só para "descrever". Ela avalia se o modelo inferencial escolhido é plausível para o desenho e a escala da variável.

Por que antes do teste?

A EDA evidencia assimetrias, outliers, dispersões diferentes e violações de estrutura — antes de fixar o teste.

Ferramentas usuais

  • Tabelas de resumo por grupo
  • Histogramas e densidades
  • Boxplots e gráficos de pontos
  • QQ-plots para normalidade
  • Gráficos pareados quando há dependência planejada
Atenção: o teste não avisa automaticamente que os pressupostos foram violados — essa responsabilidade é do analista.
Pressuposto 1: Escala da Variável
Testes paramétricos para médias pressupõem que a variável resposta seja quantitativa, com diferença e média fazendo sentido substantivo.
TipoExemploAdequação à comparação de médias
Quant. contínuatempo, latência, memória, notageralmente adequada ✓
Quant. discretacontagens, nº de errospode ser adequada, com cautela ⚠️
Ordinalsatisfação (1–5)média discutível; ver alternativas ⚠️
Nominallinguagem usada, categoriamédia não interpretável ✗

Atenção

Conseguir calcular um teste não significa que ele responde à pergunta certa. Se a variável não for quantitativa, o resultado sai — mas sem interpretação válida.
🔗 Pressuposto 2: Independência

O que significa?

Uma observação não carrega informação sistemática sobre o erro aleatório de outra — exceto quando a dependência foi explicitamente modelada, como no pareamento.
A independência é principalmente uma propriedade do planejamento amostral, não algo que se "prova" apenas com um gráfico.

Sinais de alerta

  • Medições repetidas do mesmo sujeito tratadas como independentes
  • Dados temporais com autocorrelação
  • Respostas agrupadas por turma, laboratório ou servidor
  • Múltiplas execuções do mesmo item sem controle de dependência
📈 Pressuposto 3: Normalidade — Dados Normais

Histograma, boxplot e QQ-plot de uma amostra aproximadamente normal. Todos interativos.

Padrão esperado: histograma simétrico, boxplot sem outliers extremos e pontos do QQ-plot sobre a linha de referência.
📉 Pressuposto 3: Normalidade — Dados Assimétricos

Mesmos gráficos para uma amostra assimétrica. Compare o padrão.

Padrão de assimetria: histograma com cauda longa, boxplot deslocado com outliers e QQ-plot em "curva" — pontos fora da linha nos extremos.
🔎 Como Interpretar os Gráficos

Como ler o QQ-plot

  • Pontos sobre a linha: compatível com normalidade
  • Curva em "S" ou "J": assimetria
  • Pontos extremos fora da linha: caudas pesadas / outliers

Interpretação conjunta

Histograma, boxplot e QQ-plot devem ser lidos juntos, não como provas isoladas. Um histograma com poucos dados pode enganar — o QQ-plot ajuda a confirmar.
📏 Pressuposto 4: Homogeneidade de Variâncias

Quando aparece?

Relevante nos testes para duas médias independentes com variância combinada (pooled). Afirma que $\sigma_1^2 \approx \sigma_2^2$.

Cuidado

Dispersões muito diferentes afetam o nível real do teste, sobretudo com tamanhos desbalanceados ($n_1 \neq n_2$).
O teste de Levene avalia isso formalmente (próxima aula). Boxplots de alturas muito diferentes já são um sinal de alerta → usar Welch.
📋 Checklist dos Pressupostos
PressupostoO que verificarFerramenta
EscalaA variável é quantitativa? Faz sentido comparar médias?Domínio
IndependênciaObservações independentes ou pareamento planejado?Desenho do estudo
NormalidadeDistribuição ~normal no grupo, ou nas diferenças $D_i$?Histograma, QQ, Shapiro-Wilk
Homog. variânciasDispersões semelhantes entre grupos independentes?Boxplots, Levene
OutliersHá valores extremos que distorcem médias e variâncias?Boxplot, pontos

Mensagem-chave

O teste não deve ser escolhido apenas pela fórmula. Ele deve ser compatível com o desenho do estudo e com os pressupostos observados nos dados.
🧪 Por que um Teste Formal de Normalidade?

Motivação

Gráficos são indispensáveis, mas podem gerar interpretações subjetivas. Um teste de normalidade oferece uma regra formal para avaliar a compatibilidade com a normal.

Por que Shapiro-Wilk?

É amplamente usado por ser sensível a diferentes formas de afastamento da normalidade, especialmente em amostras pequenas e moderadas ($3 \leq n \leq 5000$).

Limitação importante

Com amostras grandes ($n \gg 100$), o Teorema Central do Limite garante que $\bar{X}$ se comporta bem mesmo com dados não normais. Rejeições do Shapiro-Wilk com $n$ grande podem não ter consequência prática — use o QQ-plot como complemento.
⚖️ Hipóteses e Regra de Decisão
$$H_0: \text{os dados vêm de uma população normal}$$ $$H_1: \text{os dados não vêm de uma população normal}$$

Se $p > \alpha$

Não rejeitamos $H_0$. Os dados são compatíveis com a normalidade (não é prova de normalidade perfeita).

Se $p \leq \alpha$

Rejeitamos $H_0$. Há evidência contra a normalidade — considere transformação ou método não paramétrico.
No fio condutor: antes do teste $t$ pareado, aplicamos o Shapiro-Wilk às diferenças $D_i$ para checar se a normalidade é plausível.
⚙️ Como a Estatística W é Calculada
Ordenar os dados
$X_{(1)} \leq \cdots \leq X_{(n)}$
Diferenças simétricas
$X_{(n+1-i)} - X_{(i)}$
Ponderar por $a_i$
quantis normais
W

Com a amostra ordenada $X_{(1)} \leq \cdots \leq X_{(n)}$:

$$W = \frac{\left(\displaystyle\sum_{i=1}^{n} a_i\, X_{(i)}\right)^2}{\displaystyle\sum_{i=1}^{n}(X_i - \bar{X})^2}$$

Os coeficientes $a_i$ vêm dos valores esperados e da covariância dos quantis de uma amostra normal.

Forma computacional ($n$ par)

$$b = \sum_{i=1}^{n/2} a_i\!\left(X_{(n+1-i)} - X_{(i)}\right), \qquad W = \frac{b^2}{\sum(X_i - \bar{X})^2}$$
📐 Interpretando W (Interativo)

Interpretação de $W$

$W \in (0, 1]$. $W \approx 1$ → alinhamento com a normal (não rejeitar $H_0$). $W \ll 1$ → desvio forte (evidência contra $H_0$).

Decisão sempre pelo p-valor

Não se decide só pelo valor de $W$: o p-valor vem da distribuição de $W$ sob $H_0$, que depende de $n$.
🧪 Laboratório: Como W Reage a Cada Distribuição

Clique nos botões e observe o QQ-plot mudar e o valor de $W$ acompanhar. Todas as amostras têm $n = 60$.

Leitura: à medida que a distribuição se afasta da normal — assimetria, bimodalidade, outliers — os pontos saem da linha e $W$ cai de ~1 em direção a 0, derrubando o p-valor.
🔢 Exemplo Manual: Shapiro-Wilk ($n = 10$)

Amostra de tamanho $n = 10$, já em ordem crescente:

$$7{,}1 \quad 7{,}4 \quad 7{,}6 \quad 7{,}9 \quad 8{,}0 \quad 8{,}2 \quad 8{,}5 \quad 8{,}7 \quad 9{,}0 \quad 9{,}3$$
1
Diferenças simétricas $\Delta_i = x_{(11-i)} - x_{(i)}$, para $i = 1, \ldots, 5$
2
Coeficientes $a_i$ tabelados para $n = 10$
3
Calcular $b$ = soma ponderada $\sum a_i \Delta_i$
4
Calcular $W$ = $b^2 / \sum(x_i - \bar{x})^2$
🧮 Exemplo Manual: Cálculo de $b$
$i$$a_i$$\Delta_i$$a_i \Delta_i$
10,57392,21,2626
20,32911,60,5266
30,21411,10,2355
40,12240,60,0734
50,03990,20,0080
$b = \sum a_i \Delta_i$2,1061
O termo $i=1$ (maior diferença, entre o máximo e o mínimo) domina o cálculo de $b$. Quanto mais os extremos se afastam do padrão normal, maior o impacto em $W$.
🎯 Exemplo Manual: Estatística $W$ Final

Denominador e $W$

$$\bar{x} = 8{,}17 \qquad \sum_{i=1}^{10}(x_i - \bar{x})^2 = 4{,}521$$ $$W = \frac{b^2}{\sum(x_i-\bar{x})^2} = \frac{(2{,}1061)^2}{4{,}521} = \mathbf{0{,}9811}$$

Verificando com R

x <- c(7.1, 7.4, 7.6, 7.9, 8.0,
       8.2, 8.5, 8.7, 9.0, 9.3)
shapiro.test(x)
    Shapiro-Wilk normality test

data:  x
W = 0.98103, p-value = 0.9704

Interpretação

$W = 0{,}9811$ está próximo de 1 e o p-valor é alto: não rejeitamos $H_0$. Os dados são compatíveis com a normalidade — a inferência paramétrica é adequada.
🗂️ Usando o Shapiro-Wilk na Comparação
SituaçãoAplicação corretaInterpretação
Dados pareadosAplicar às diferenças $D_i = X_i - Y_i$Verifica a normalidade da variável de fato testada
Grupos independentesAplicar separadamente a cada grupo (ou aos resíduos)Avalia cada distribuição individualmente
Amostras grandesCombinar com o QQ-plot; o TCL protege a médiaRejeições leves raramente invalidam o teste
OutliersInvestigar a causa antes de escolher o testeOutliers podem dominar $W$ e gerar rejeição enganosa

Mensagem importante

O teste de normalidade não substitui o QQ-plot e o histograma. Juntos dão resposta mais confiável que qualquer um isolado.

Fio condutor

Os $D_i = \{9,7,4,7,4,9,7,6,7,7\}$ devem passar pelo Shapiro-Wilk antes do $t$ pareado. Com $n=10$ e $\bar{D}=6{,}7$ ms, o teste indica se a normalidade é plausível.
🏁 Fechando o Caso: Os $D_i$ do Benchmark São Normais?

Antes de rodar o teste $t$ pareado, aplicamos o Shapiro-Wilk às diferenças reais do benchmark.

d <- c(9, 7, 4, 7, 4,
       9, 7, 6, 7, 7)   # B - A
shapiro.test(d)
    Shapiro-Wilk normality test

data:  d
W = 0.85639, p-value = 0.06918

Conclusão

$W = 0{,}856$, $p = 0{,}069 > 0{,}05$ → não rejeitamos $H_0$. A normalidade dos $D_i$ é plausível e o caminho para o teste $t$ pareado está aberto.
Nuance honesta: o p-valor está perto de 0,05 e o QQ-plot tem "degraus" porque os $D_i$ são inteiros com empates (cinco valores 7). Por isso combinamos o teste com o gráfico e o bom senso — exatamente a mensagem da aula.
🗺️ Mapa Final de Escolha
Há pareamento natural?
Sim
Usar diferenças $D_i$ Shapiro-Wilk + QQ nos $D_i$ → teste $t$ pareado
Não
Grupos independentes?
Sim
Comparar $\bar{X} - \bar{Y}$ EDA nos grupos; Shapiro-Wilk + Levene
Verificar
Pressupostos plausíveis?
Resultado
Sim → Teste paramétrico $t$ pooled ou Welch — reportar IC + p-valor
Não → Revisar abordagem Transformar variável ou alternativa não paramétrica
Cada bifurcação depende do desenho amostral e dos resultados da EDA.
💡 Resumo Conceitual

O que deve ficar claro

  • Comparar duas populações é comparar parâmetros, geralmente médias
  • O desenho define se o caso é pareado ou independente
  • Pareamento transforma o problema em inferência sobre $\mu_D$
  • A EDA é parte da escolha metodológica
  • O Shapiro-Wilk quantifica a compatibilidade com a normal

Pressupostos essenciais

  • Independência (exceto dependência planejada)
  • Escala quantitativa interpretável
  • Normalidade apropriada à variável analisada
  • Homogeneidade de variâncias quando o teste exige

Próxima aula — variâncias desconhecidas

  • Teste de Levene (homogeneidade de variâncias)
  • Caso 2.1 — $t$ pooled: quando $\sigma_1^2 = \sigma_2^2$
  • Caso 2.2 — $t$ de Welch: quando $\sigma_1^2 \neq \sigma_2^2$
📚 Referências Recomendadas
Bussab, W. O.; Morettin, P. A. Estatística Básica. São Paulo: Saraiva.
Devore, J. L. Probabilidade e Estatística para Engenharia e Ciências. Cengage.
Montgomery, D. C.; Runger, G. C. Estatística Aplicada e Probabilidade para Engenheiros. LTC.
Casella, G.; Berger, R. L. Statistical Inference. Duxbury.
Shapiro, S. S.; Wilk, M. B. An Analysis of Variance Test for Normality. Biometrika, 1965.

Mensagem final

A inferência correta para duas populações começa pela pergunta e pelo desenho amostral, passa pela EDA e pela verificação dos pressupostos. Os testes paramétricos só devem ser aplicados após avaliar escala, independência, normalidade e, quando necessário, homogeneidade de variâncias.
Obrigado
Profa. Dra. Amanda Gomes  ·  Prof. Dr. Gilberto Matos  ·  Prof. Dr. Jerfson Bruno UAEst / CCT / UFCG
1/1