Testes de Hipóteses

.title[
# Testes de Hipóteses
]
.subtitle[
## Engenharia de Produção
]
.author[
### Estatística Aplicada
]
.date[
### 02/07/2026
]

---

# Testes de Hipóteses

### Engenharia de Produção

### Parte 0 — A lógica da decisão (H₀, H₁, α)
### Parte 1 — O primeiro teste de μ (passo a passo)
### Parte 2 — Poder, valor-p, protocolo 7 etapas
### Partes 3–4 — p e σ²

---

## Roteiro · Sumário clicável

| # | Bloco | Conteúdo | Foco |
|---|---|---|---|
| **0** | **Decisão sob incerteza** | H₀/H₁, matriz 2×2, α no contexto | Antes de qualquer fórmula |
| **1** | **TH para μ** | t Welch — bilateral e unilateral | Máquina A vs B |
| **2** | **Poder, valor-p, protocolo 7 etapas** | β, poder, retrospecto | Agora sim faz sentido |
| **3** | **TH para p** | Z duas proporções | Fornecedor X vs Y |
| **4** | **TH para σ²** | F de Fisher | Linha A vs B estabilidade |

> **Inversão didática corrigida:** β e poder só aparecem **depois** que o aluno fez seu primeiro teste completo.
> Sequência: o aluno **vê um teste acontecer** antes de ouvir a palavra "poder".

---
class: inverse, center, middle

# Parte 0 · A lógica da decisão

### H₀, H₁, α — antes de qualquer teste

---
## 0.0 O que é um teste de hipótese — em linguagem natural

Antes de qualquer fórmula, um teste de hipótese responde a **uma única pergunta**:
*"Os dados que coletei são consistentes com o que eu já acreditava, ou me obrigam a mudar de ideia?"*

> **Três exemplos do cotidiano de engenharia** (sem estatística):
>
> 1. O operador de CEP vê um ponto **fora dos limites de controle**. Ele já acreditava que o processo estava "sob controle" (hipótese de日常工作). O ponto fora do limite é evidência **contra** essa crença.
> 2. O inspetor de recebimento abre um lote de 1000 peças, amostra 50, encontra 8 defeituosas. A taxa de defeito contratual é 1%. As 8 em 50 são **evidência** de que o lote viola o contrato?
> 3. O time de QA roda 200 testes de regressão após um deploy. 3 falham. A taxa histórica de falha é 0,5%. Os 3 em 200 são flutuação normal, ou o deploy **regrediu**?

| Crença atual | Evidência observada | Decisão |
|---|---|---|
| "Está tudo bem" (H₀) | "Achei algo estranho" (dados) | Rejeitar ou não a crença? |
]

> **O teste de hipótese é o **ritual estatístico** que transforma essa intuição em uma decisão com **risco controlado**.**
> Tudo que vem a seguir (H₀, H₁, α, p-valor) é **formalização** dessa lógica — não uma nova lógica.

---

## 0.1 A pergunta que move o teste

Toda decisão em engenharia parte de uma **incerteza**:

- A Máquina B é **mais rápida** que a A?
- O Fornecedor Y tem **mais defeitos** que o X?
- A Linha B é **mais estável** que a A?

Cada uma dessas perguntas admite **duas respostas possíveis**:

| Símbolo | Significado | Exemplo (Máquina A vs B) |
|---|---|---|
| **H₀** | Hipótese **nula** (status quo) | "As duas máquinas têm **a mesma** média de tempo de ciclo" |
| **H₁** | Hipótese **alternativa** (o que queremos evidenciar) | "A Máquina A tem média **maior** que a B" |

> **Regra fundamental:** H₀ sempre **contém igualdade** (=). H₁ é o **novo** que queremos provar.
> A **direção** de H₁ (maior, menor, diferente) define o tipo de teste — e **vem da pergunta de pesquisa, não do resultado desejado**.

---

## 0.2 Três formulações possíveis para H₁

| Tipo | H₀ | H₁ | Pergunta típica |
|---|---|---|---|
| **Bilateral** | μ = μ₀ | μ ≠ μ₀ | "A média **diferiu** do esperado?" |
| **Unilateral à direita** | μ = μ₀ | μ > μ₀ | "A média **cresceu**?" |
| **Unilateral à esquerda** | μ = μ₀ | μ < μ₀ | "A média **diminuiu**?" |

> **Para troca de máquina:** se você quer **adotar B** só se ela for **mais rápida**, H₁ é "μ_A > μ_B" (unilateral à direita).
> Se quer **detectar qualquer diferença**, H₁ é "μ_A ≠ μ_B" (bilateral).
> A escolha é **da pergunta**, não do resultado.

---

## 0.3a α — o nível de significância

- **α = P(rejeitar H₀ | H₀ é verdadeira) = P(Erro Tipo I)**
- Convenção: α = 0,05 (5%).
- α não é "0,05 por convenção" — depende do **custo relativo dos erros**.

.center[
| Contexto (Produção) | Erro pior | α usual |
|---|---|---|
| Recall de produto | Tipo I (recall sem necessidade) | 0,001 – 0,01 |
| Inspeção de recebimento (NBR ISO 2859) | Tipo II (aceitar lote ruim) | 0,05 – 0,10 |
| Carta de controle X-barra (CEP) | depende do uso | 0,0027 (regra 3σ) |
| Segurança de processo (indústria química) | Tipo II (deixar acidente) | 0,001 – 0,01 |
| Defeito cosmético | Tipo I (rejeitar sem necessidade) | 0,05 – 0,10 |
]

---

## 0.3b Justificativas de cada α

| Contexto | Por que este α |
|---|---|
| **Recall** | Custo de recall + imagem altíssimo; recall desnecessário custa milhões |
| **NBR ISO 2859** | Custo de retrabalho >> custo de rejeitar lote; aceita-se errar para o lado da segurança |
| **CEP** (regra 3σ) | Convenção industrial histórica; 0,0027 → ~1 alarme falso a cada 370 pontos |
| **Segurança química** | Custo humano/ambiental altíssimo; tipo II é fatal |
| **Defeito cosmético** | Cliente não vê; rejeitar gera retrabalho caro sem ganho real |

---

## 0.4a A matriz 2×2 — quatro desfechos possíveis

|  | **H₀ é verdadeira** | **H₀ é falsa** |
|---|---|---|
| **Rejeitar H₀** | **α** — Erro Tipo I (Falso Positivo) | **1 − β** — Acerto (Verdadeiro Positivo) |
| **Não rejeitar H₀** | **1 − α** — Acerto (Verdadeiro Negativo) | **β** — Erro Tipo II (Falso Negativo) |

> **A frase-âncora (vale para produção):**
> *"O que vocês vão ver em CEP, em recall de produto, em inspeção por amostragem (NBR ISO 2859), em auditoria de processo, em teste de software — é a mesma tabela. Os nomes mudam: alarme falso, defeito que passa, recall desnecessário, lote rejeitado por engano. A lógica é uma só."*

---

## 0.4b Equivalências (Produção / Qualidade)

| Conceito TH | Estatística | Produção / Qualidade |
|---|---|---|
| **α** (Erro Tipo I) | Falso Positivo | Alarme falso no CEP, recall desnecessário |
| **β** (Erro Tipo II) | Falso Negativo | Defeito chega ao cliente |
| **1 − β** | VP | Sensibilidade do CEP, recall verdadeiro |
| **1 − α** | VN | Taxa de não-alarme |

> **Guardamos o nome "poder (1 − β)" para depois.** Por enquanto, basta saber que existem **quatro desfechos possíveis**, e dois deles são **erros** (α e β).

---

## 0.5 O que significa "rejeitar H₀" na prática

| Linguagem | Significado |
|---|---|
| "Rejeito H₀ a 5%" | Os dados são **incompatíveis** com H₀ se ela for verdadeira |
| "p < 0,05" | A **probabilidade** dos dados sob H₀ é menor que 5% |
| "O resultado é **estatisticamente significativo**" | Linguagem padrão em publicações; cuidado — "significativo" não é "importante" |

> **Erro conceitual grave 1:** "p = 0,03 significa que H₀ tem 3% de chance de ser verdadeira". **Errado.** p é a probabilidade **do dado**, não da hipótese.
> **Erro conceitual grave 2:** "resultado significativo = resultado importante". **Errado.** Em uma amostra de 100 mil, qualquer diferença de 0,1% é "significativa"; nem por isso é relevante.
> **Erro conceitual grave 3:** "não rejeitar H₀ = H₀ é verdadeira". **Errado.** "Não rejeitar" significa "**não há evidência suficiente** para rejeitar" — não é endosso.

> **Aula 1** vai mostrar um teste acontecendo. **Aula 2** vai dissecar o valor-p, β e poder **em cima do que você acabou de fazer**.

# Parte 1 · TH para μ — o primeiro teste completo

### Máquina A vs Máquina B: vale a pena **trocar**?
### Teste **t de Welch** — bilateral e unilateral

---
## 1.1 Situação-problema

Você é **engenheiro(a) de produção** e precisa decidir se vale a pena **trocar a Máquina A** (antiga) **pela Máquina B** (nova).

Você coletou tempos de ciclo (s) em **duas amostras independentes**:

| Máquina | n | x̄ | s |
|---|---|---|---|
| **A** (atual) | 10 | 52 s | 5 s |
| **B** (nova) | 10 | 48 s | 6 s |

> Diferença observada: 4 s a favor da B. Mas isso é **real** ou variação aleatória?

---
## 1.2 Perguntas a responder

1. A diferença de 4 s é **estatisticamente significativa** a 5%?
2. Como o resultado muda entre **bilateral** e **unilateral**?
3. Vale a pena **trocar** de máquina?

---
## 1.3a H₀ e H₁ — três formulações possíveis

| Tipo | H₀ | H₁ | Quando usar |
|---|---|---|---|
| **Bilateral** | μ_A = μ_B | μ_A ≠ μ_B | "Médias diferem?" |
| **Unilateral à direita** | μ_A = μ_B | μ_A > μ_B | "A é mais lenta que B" |
| **Unilateral à esquerda** | μ_A = μ_B | μ_A < μ_B | "A é mais rápida que B" |

---
## 1.3b A escolha para troca de máquina

- **Pergunta genérica** ("diferem?") → **bilateral** (μ_A ≠ μ_B)
- **Troca condicional** ("troco só se A for mais lenta") → **unilateral à direita** (μ_A > μ_B)
- Decidimos pelas **duas** (bilateral + unilateral à direita) para mostrar como a direção muda o resultado.

> A escolha é **da pergunta**, não do resultado. Trocar a regra depois de ver o dado é **p-hacking**.

---
## 1.4 α e premissas

- **α = 0,05** (decisão de troca de máquina; convenção industrial).
- **Premissas:**
  - Amostras **independentes** (turnos ou lotes diferentes).
  - **Normalidade** aproximada.
  - **Welch** não exige σ²_A = σ²_B.

---
## 1.5 Estatística de teste — t de Welch

`$$t = \frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}}$$`

**Por que Welch (e não Student clássico)?** Não exige variâncias iguais. É o **default moderno** em R (`t.test(..., var.equal = FALSE)`).

---
## 1.6a Regra de decisão — bilateral

- **H₁:** μ_A ≠ μ_B (qualquer direção)
- **Valor crítico:** ±t_{0,975; gl}
- **p-valor:** p_bi = 2·P(T ≥ |t_obs|)
- **Decisão:** rejeita H₀ se p < α

---
## 1.6b Regra de decisão — unilateral à direita

- **H₁:** μ_A > μ_B ("A é mais lenta")
- **Valor crítico:** +t_{0,95; gl}
- **p-valor:** p_uni = P(T ≥ t_obs)
- **Decisão:** rejeita H₀ se p < α

> A regra de decisão é **fixada antes** de calcular o teste. Olhar o dado para decidir qual regra usar é **p-hacking**.

---
## 1.7 Cálculo — bilateral e unilateral

```
## Máquina A: n=10, x̄=52.0 s, s=5.0 s
```

```
## Máquina B: n=10, x̄=48.0 s, s=6.0 s
```

```
## 
## Diferença: 52.0 − 48.0 = 4.0 s | EP = 2.4698 s
```

```
## t_obs = 1.6196 | gl (Welch) = 17.43 → 17
```

```
## 
## Bilateral  (H₁: μ_A ≠ μ_B): t_crit = ±2.110 | p = 0.1233 → NÃO REJEITA
```

```
## Unicaudal D (H₁: μ_A > μ_B): t_crit = +1.740 | p = 0.0616 → NÃO REJEITA
```

---
## 1.8 Visualização

```
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once per session.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
```

![](TH_Engenharia_Producao_files/figure-html/unnamed-chunk-2-1.png)

> `t_obs = 1,620` está **abaixo** do valor crítico **bilateral** (2,110) e do **unilateral** (1,734). → **Não rejeita H₀** em nenhum dos dois.

---
## 1.9 Interpretação

| Cenário | Decisão | Implicação prática |
|---|---|---|
| **Bilateral** (p = 0,124) | Não rejeita H₀ | Não há evidência de **qualquer** diferença |
| **Unilateral dir.** (p = 0,062) | Não rejeita H₀ | Não há evidência de que A é mais lenta (com 5% de risco) |

**Conclusão geral:** com n = 10 em cada grupo, **não há poder estatístico suficiente** para detectar a diferença observada de 4 s.

> Diferença economicamente relevante precisa ser **estatisticamente** confirmável antes de trocar uma máquina. **Aumentar n** é o caminho.

---
class: inverse, center, middle

# Parte 2 · Valor-p, β e poder — agora sim, fazem sentido

### O aluno já viu um teste acontecer. Conceitos avançados aterrissam aqui.

---
## 2.1 O valor-p — o que ele realmente diz

Da Aula 1, calculamos **dois p-valores** (0,124 bilateral e 0,062 unilateral). O que eles significam?

> **Definição:** o **valor-p** é a **probabilidade de observar um resultado igual ou mais extremo que o obtido**, **assumindo H₀ verdadeira**.

- p = 0,124 → se H₀ for verdadeira, há 12,4% de chance de observar uma diferença tão grande (ou maior) entre as médias.
- p = 0,062 → se H₀ for verdadeira, há 6,2% de chance de observar uma diferença tão grande **na direção prevista**.
- p < α → resultado **incompatível com H₀** → rejeitamos H₀.

> **Erro comum 1:** p é **a probabilidade de H₀ ser verdadeira** — NÃO. É a probabilidade do **dado**, sob H₀.
> **Erro comum 2:** p = 0,05 é a "fronteira mágica" — NÃO. É convenção, ajustável ao contexto.

---
## 2.2 Retrospecto — as 7 etapas que você acabou de fazer

.center[
| # | Etapa | O que você decidiu na Aula 1 |
|---|---|---|
| **1** | **Formular H₀ e H₁** | "μ_A = μ_B" vs "μ_A ≠ μ_B" (bilateral) / "μ_A > μ_B" (unilateral dir.) |
| **2** | **Escolher α** | 0,05 (decisão de troca de máquina) |
| **3** | **Identificar a estatística e sua distribuição** | t de Welch, distribuição t com gl = 17 |
| **4** | **Definir a regra de decisão** | Rejeitar se \|t_obs\| > 2,110 (bilateral) ou se t_obs > 1,734 (unilateral) |
| **5** | **Calcular a estatística com os dados** | t_obs = 1,620 |
| **6** | **Tomar a decisão** | p_bi = 0,124 → não rejeita; p_uni = 0,062 → não rejeita |
| **7** | **Interpretar no contexto** | Com n = 10, não há poder suficiente para detectar 4 s de diferença |
]

> Agora que você **fez** o protocolo, ele vira um **mapa mental** aplicável a qualquer teste — média, proporção, variância.

---
## 2.3a Voltando à matriz 2×2 — β e poder

Lembra da matriz 2×2 (slide 0.4)? Agora podemos preencher **tudo** com os números da Aula 1:

|  | **H₀ é verdadeira** (μ_A = μ_B) | **H₀ é falsa** (μ_A ≠ μ_B) |
|---|---|---|
| **Rejeitar H₀** | α = 0,05 (Falso Positivo) | **1 − β = poder** (Verdadeiro Positivo) |
| **Não rejeitar H₀** | 1 − α = 0,95 (Verdadeiro Negativo) | **β** (Falso Negativo) |

- **α = 0,05** — a probabilidade de rejeitar H₀ quando ela é verdadeira.
- **β = ?** — a probabilidade de **não rejeitar** H₀ quando ela **é falsa**.
- **Poder = 1 − β** — a probabilidade de **rejeitar H₀ quando ela é falsa**.

---
## 2.3b Por que β era alto na Aula 1

> **Na Aula 1, ficamos em dúvida porque o n era pequeno.** O β era provavelmente **muito alto** (poder muito baixo). Daí a recomendação de aumentar n.

A diferença observada de 4 s com n = 10 e σ ≈ 5,5 gera um **tamanho de efeito d ≈ 0,4** — pequeno. Para detectar d = 0,4 com poder 0,80 são necessários **≈ 100 observações por grupo** (próximo slide mostra o cálculo).

---
## 2.4 As duas distribuições lado a lado

![](TH_Engenharia_Producao_files/figure-html/unnamed-chunk-3-1.png)

> **Cauda vermelha** (sob H₀) = α. **Cauda laranja** (sob H₁, dentro do limite) = β. **Verde-escuro** (sob H₁, fora do limite) = poder.

---
## 2.5 Os 4 fatores que afetam o poder (1 − β)

| Fator | Efeito no poder | Exemplo em Produção |
|---|---|---|
| **α cresce** | poder ↑ | Aceitar α = 0,01 em vez de 0,005 no CEP |
| **n cresce** | poder ↑ | Aumentar tamanho do subgrupo no CEP |
| **\|efeito\| cresce** | poder ↑ | Desvio grande é mais fácil de detectar |
| **σ (ruído) diminui** | poder ↑ | Processo mais estável = menos variação |

> **Regra prática:** se a diferença observada é **economicamente relevante** mas o teste **não rejeita**, a causa mais provável é **n pequeno**, não "a diferença não existe".

---
## 2.6 Fórmula do poder e cálculo de n

**Poder para uma média (aproximação):**

`$$\text{poder} = 1 - \beta \approx \Phi\!\left(\frac{|\mu_1 - \mu_0|}{\sigma/\sqrt{n}} - z_{1-\alpha}\right)$$`

**Fórmula de n para detectar um efeito d com poder 0,80:**

`$$n \approx \frac{(z_{1-\alpha/2} + z_{0,80})^2 \cdot 2\sigma^2}{(\mu_1 - \mu_2)^2}$$`

**Exemplo (Aula 1) — voltar e calcular o n necessário:**

```
## z_{0,975} = 1.960 | z_{0,80} = 0.842
```

```
## n ≈ (1.960 + 0.842)² · 2 · 5.5² / 4.0² = 30.0 por grupo
```

```
## Arredondando para cima: **30 observações por grupo**
```

```
## Atual: 10 por grupo → poder de apenas ~30%
```

> Em **CEP**, n é o **tamanho do subgrupo** (n = 5 para X-barra). Em **NBR ISO 2859**, n é o **tamanho da amostra de inspeção** por lote.

---
class: inverse, center, middle

# Parte 3 · TH para proporções (duas independentes)

### Fornecedor X vs Fornecedor Y: vale a pena **trocar**?
### Teste **Z para duas proporções** — bilateral e unilateral

---
## 3.1 Situação-problema

Você é **engenheiro(a) de qualidade** e a fábrica compra matéria-prima de dois fornecedores. Você quer saber: **a taxa de defeito difere entre eles?**

| Fornecedor | n | defeitos (x) | p̂ |
|---|---|---|---|
| **X** (atual) | 500 | 18 | 0,036 |
| **Y** (alternativo) | 500 | 35 | 0,070 |

> Diferença observada: 3,4 pp a favor do X. Real ou variação aleatória?

---
## 3.2 Perguntas a responder

1. A diferença de 3,4 pp é **estatisticamente significativa** a 5%?
2. Como muda o resultado entre **bilateral** e **unilateral**?
3. Vale a pena **trocar** (ou renegociar) com o fornecedor Y?

---
## 3.3a H₀, H₁ e premissas

| Tipo | H₀ | H₁ | Quando usar |
|---|---|---|---|
| **Bilateral** | p_X = p_Y | p_X ≠ p_Y | "Taxas diferem?" |
| **Unilateral à direita** | p_X = p_Y | p_X > p_Y | "X tem mais defeitos" |
| **Unilateral à esquerda** | p_X = p_Y | p_X < p_Y | "Y tem mais defeitos" |

- **α = 0,05** (em auditoria de fornecedor crítico, α = 0,01).
- **Premissa:** `n·p̂ ≥ 5` e `n·(1−p̂) ≥ 5` em ambos os grupos.

---
## 3.3b Estatística Z para duas proporções

**Z com pooled sob H₀:**

`$$\hat{p} = \frac{x_X + x_Y}{n_X + n_Y} \qquad Z = \frac{\hat{p}_X - \hat{p}_Y}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_X} + \frac{1}{n_Y}\right)}}$$`

> **Por que pooled?** Sob H₀, as duas taxas são iguais — a melhor estimativa comum é a **média ponderada**. Sem pooling, o teste é **viesado**.

---
## 3.4 Regra de decisão

| Tipo de teste | Valor crítico | p-valor | Decisão |
|---|---|---|---|
| **Bilateral** (α = 0,05) | `\|Z_obs\| > 1,960` | p_bi = 2·(1 − Φ(\|Z\|)) | Rejeita se p < 0,05 |
| **Unilateral esq.** (α = 0,05) | `Z_obs < −1,645` | p_uni = Φ(Z) | Rejeita se p < 0,05 |

---
## 3.5 Cálculo — bilateral e unilateral

```
## X: n=500, x=18, p̂_X = 0.0360
```

```
## Y: n=500, x=35, p̂_Y = 0.0700
```

```
## 
## Pooled: p̂ = 0.0530 | EP = 0.01417
```

```
## Z_obs = -2.3996
```

```
## 
## Bilateral  (H₁: p_X ≠ p_Y): Z_crit = ±1.960 | p = 0.0164 → REJEITA
```

```
## Unicaudal E (H₁: p_X < p_Y): Z_crit = −1.645 | p = 0.0082 → REJEITA
```

```
## 
## Premissa: n·p̂_X=18.0 ≥ 5 ✓ | n·p̂_Y=35.0 ≥ 5 ✓
```

---
## 3.6 Visualização

![](TH_Engenharia_Producao_files/figure-html/unnamed-chunk-6-1.png)

> `Z_obs = −2,399` cai na cauda de rejeição **bilateral** e **unilateral à esquerda**.

---
## 3.7 Interpretação

| Cenário | Decisão | p-valor | Implicação |
|---|---|---|---|
| **Bilateral** | Rejeita H₀ | 0,016 | X e Y **diferem** em taxa de defeito |
| **Unilateral esq.** | Rejeita H₀ | 0,008 | Y tem **mais** defeitos que X (com 5% de risco) |

**Concordância:** os dois testes rejeitam — **decisão clara**. A diferença é **estatisticamente robusta** e **economicamente relevante** (3,4 pp × escala de produção = muito defeito).

**Recomendação operacional:** renegociar contrato com Y ou trocar de fornecedor, mas investigar **causas** (lote? máquina? turno?) antes da decisão final.

---
## 3.8 Reflexão + poder + para casa

- **Bilateral p = 0,016:** rejeita. **Unilateral esq. p = 0,008:** rejeita (com mais evidência).
- **Decisão:** sim, Y tem **taxa de defeito maior** que X. Vale a pena trocar (ou renegociar).
- **Poder observado:** com n = 500 em cada grupo, detectar 3,4 pp tem poder > 0,90. **Decisão robusta**.
- **Tamanho de efeito:** 3,4 pp é relevante — em escala industrial, é muito defeito.
- **Erro comum:** usar p̂_X e p̂_Y **separados** no erro padrão (sem pooled). Viesado.
- **Erro comum:** rodar o teste **várias vezes** (ex.: a cada novo lote) até dar significativo — infla o erro tipo I. **Planejamento a priori.**
- **Análise complementar:** comparar **variabilidade** entre fornecedores (teste F) — talvez Y seja também mais **instável** lote a lote.

> **Para casa:** Se o fornecedor Y **melhorar** para 2,5% de defeito (mantendo X em 3,6%), ainda rejeitaríamos H₀? Calcule o novo Z_obs e o novo p-valor.

---
class: inverse, center, middle

# Parte 4 · TH para variâncias (Teste F)

### Duas linhas de envase: a Linha B é de fato **mais estável**?
### Teste **F de Fisher-Snedecor** — unicaudal (cauda direita)

---
## 4.1 Situação-problema

A fábrica opera **duas linhas de envase** em paralelo:
- **Linha A** — antiga
- **Linha B** — recém-reformada

A gerência quer **padronizar** a operação na Linha B, mas precisa de evidência estatística: a **variabilidade** do volume na Linha B é **menor** que na Linha A?

Amostras independentes:
- **Linha A:** `n_A = 13`, `s_A = 1,9 mL`
- **Linha B:** `n_B = 11`, `s_B = 1,1 mL`

> A diferença parece grande (1,9 vs 1,1), mas com amostras pequenas, pode ser acaso.

---
## 4.2 Perguntas a responder

1. A redução da variabilidade é **estatisticamente significativa** a 5%?
2. Vale a pena padronizar na Linha B?

---
## 4.3a H₀ e H₁ (Teste F)

| Tipo | H₀ | H₁ | Quando usar |
|---|---|---|---|
| **Bilateral** (raro) | σ²_A = σ²_B | σ²_A ≠ σ²_B | "Variâncias diferem?" |
| **Unicaudal à direita** | σ²_A = σ²_B | σ²_A > σ²_B | "A é **mais** instável" |

> Aqui: **unicaudal à direita** (A mais instável que B — o que queremos evidenciar). Em geral, F é **unicaudal** porque a razão é sempre ≥ 1 quando se coloca a maior variância no numerador.

- **α = 0,05** (decisão de padronização; em segurança, α = 0,01).

---
## 4.3b Estatística F de Fisher-Snedecor

`$$F = \frac{s_A^2}{s_B^2} \sim F_{(n_A-1), (n_B-1)}$$`

**Premissas (rígidas):**
- As duas populações são **aproximadamente normais** (volumes de envase costumam atender).
- Sem outliers (o teste F é sensível).

---
## 4.4 Regra de decisão

| Tipo de teste | Valor crítico | p-valor |
|---|---|---|
| **Bilateral** (raro) | `F_obs > F_{α/2, gl₁, gl₂}` ou `F_obs < F_{1−α/2, ...}` | p_bi = 2·min(p_dir, 1−p_dir) |
| **Unicaudal à direita** | `F_obs > F_{α, gl₁, gl₂}` | p = P(F_{gl₁,gl₂} ≥ F_obs) |

---
## 4.5 Cálculo — unicaudal

```
## Linha A: nA=13, sA=1.9 mL, glA=12
```

```
## Linha B: nB=11, sB=1.1 mL, glB=10
```

```
## 
## F_obs = sA²/sB² = 3.610/1.210 = 2.983
```

```
## F_crit = F_{0,05; 12, 10} = 2.913
```

```
## p-valor = P(F_{12,10} ≥ 2.983) = 0.0465
```

```
## 
## Decisão: F_obs=2.983 vs F_crit=2.913 → REJEITA H₀
```

```
## Bilateral (controle): p_bi = 0.0930 (mesma conclusão)
```

---
## 4.6 Visualização

```
## Warning: Computation failed in `stat_function()`.
## Caused by error in `fun()`:
## ! não foi possível encontrar a função "fun"
```

![](TH_Engenharia_Producao_files/figure-html/unnamed-chunk-8-1.png)

> A área à direita de `F_crit` (cauda tracejada) corresponde a α = 5%. `F_obs = 2,98` cai **dentro** dessa cauda — rejeitamos H₀.

---
## 4.7 Interpretação

- `F_obs = 2,98` > `F_crit = 2,91` → **rejeita H₀**.
- **p-valor ≈ 0,048** — significativo a 5%, mas **no limite**.
- **Decisão:** Linha B é **mais estável** que a Linha A.
- **Bilateral (controle):** p_bi ≈ 0,096 — **não rejeita** a 5%. Mostra como a **direção unilateral** dá mais poder.
- **Tamanho de efeito:** a variância caiu de 3,61 para 1,21 mL² (~66% de redução). **Operacionalmente** é um ganho enorme em controle de qualidade.

---
## 4.8 Reflexão + poder + para casa

- **Poder do teste F:** com n = 13 e 11, detectar uma redução de ~66% tem poder de apenas ~0,50. **Margem apertada**.
- **Premissa crítica:** os volumes são **aproximadamente normais**? Outliers (garrafas enguiçadas) podem distorcer o teste F. **Sempre olhe um boxplot antes.**
- **Erro comum:** esquecer a **direção do teste F**. Convenção: **maior variância no numerador** (F ≥ 1, unicaudal à direita).
- **Erro comum:** aplicar F sem verificar normalidade — em pequenas amostras, é catastrófico.
- **Análise complementar:** rodar um **teste de Levene** (robusto à não-normalidade) ou **bootstrap** para confirmar.
- **Generalização:** as amostras vieram de dias específicos. Variações de matéria-prima, turnos e temperatura podem inflar σ_A. **Estabilidade observada ≠ estabilidade real.**

> **Para casa:** Em R, simule duas linhas com **mesmo** σ = 1,5 mL (H₀ verdadeira), cada uma com `n = 13`. Repita o teste F 1000 vezes. Em que proporção você rejeita H₀? **Esse número deveria ser ~5%. O que acontece se σ_A for na verdade 2,0 e σ_B continuar 1,5?**

---
class: inverse, center, middle

# Tabela de consulta · qual teste para qual estatística

| Comparação | Teste | Bilateral | Unilateral | Premissa |
|---|---|---|---|---|
| **Médias** (2 grupos) | **t Welch** | sim | sim (dir./esq.) | Normalidade |
| **Proporções** (2 grupos) | **Z duas prop.** | sim | sim (dir./esq.) | n·p̂ ≥ 5 |
| **Variâncias** (2 grupos) | **F de Fisher** | sim (raro) | sim (dir.) | Normalidade rígida |

**Lembre-se:** a escolha entre bilateral e unilateral vem da **pergunta de pesquisa**, não do resultado desejado.

---
class: inverse, center, middle

# Dúvidas?