class: center, middle, inverse, title-slide .title[ # Testes de Hipóteses ] .subtitle[ ## Engenharia de Produção ] .author[ ### Estatística Aplicada ] .date[ ### 02/07/2026 ] --- class: inverse, center, middle # Testes de Hipóteses ### Engenharia de Produção ### Parte 0 — A lógica da decisão (H₀, H₁, α) ### Parte 1 — O primeiro teste de μ (passo a passo) ### Parte 2 — Poder, valor-p, protocolo 7 etapas ### Partes 3–4 — p e σ² --- ## Roteiro · Sumário clicável | # | Bloco | Conteúdo | Foco | |---|---|---|---| | **0** | **Decisão sob incerteza** | H₀/H₁, matriz 2×2, α no contexto | Antes de qualquer fórmula | | **1** | **TH para μ** | t Welch — bilateral e unilateral | Máquina A vs B | | **2** | **Poder, valor-p, protocolo 7 etapas** | β, poder, retrospecto | Agora sim faz sentido | | **3** | **TH para p** | Z duas proporções | Fornecedor X vs Y | | **4** | **TH para σ²** | F de Fisher | Linha A vs B estabilidade | > **Inversão didática corrigida:** β e poder só aparecem **depois** que o aluno fez seu primeiro teste completo. > Sequência: o aluno **vê um teste acontecer** antes de ouvir a palavra "poder". --- class: inverse, center, middle # Parte 0 · A lógica da decisão ### H₀, H₁, α — antes de qualquer teste --- ## 0.0 O que é um teste de hipótese — em linguagem natural Antes de qualquer fórmula, um teste de hipótese responde a **uma única pergunta**: *"Os dados que coletei são consistentes com o que eu já acreditava, ou me obrigam a mudar de ideia?"* > **Três exemplos do cotidiano de engenharia** (sem estatística): > > 1. O operador de CEP vê um ponto **fora dos limites de controle**. Ele já acreditava que o processo estava "sob controle" (hipótese de日常工作). O ponto fora do limite é evidência **contra** essa crença. > 2. O inspetor de recebimento abre um lote de 1000 peças, amostra 50, encontra 8 defeituosas. A taxa de defeito contratual é 1%. As 8 em 50 são **evidência** de que o lote viola o contrato? > 3. O time de QA roda 200 testes de regressão após um deploy. 3 falham. A taxa histórica de falha é 0,5%. Os 3 em 200 são flutuação normal, ou o deploy **regrediu**? .center[ **Em todos os casos, a estrutura é idêntica:** | Crença atual | Evidência observada | Decisão | |---|---|---| | "Está tudo bem" (H₀) | "Achei algo estranho" (dados) | Rejeitar ou não a crença? | ] > **O teste de hipótese é o **ritual estatístico** que transforma essa intuição em uma decisão com **risco controlado**.** > Tudo que vem a seguir (H₀, H₁, α, p-valor) é **formalização** dessa lógica — não uma nova lógica. --- ## 0.1 A pergunta que move o teste Toda decisão em engenharia parte de uma **incerteza**: - A Máquina B é **mais rápida** que a A? - O Fornecedor Y tem **mais defeitos** que o X? - A Linha B é **mais estável** que a A? Cada uma dessas perguntas admite **duas respostas possíveis**: | Símbolo | Significado | Exemplo (Máquina A vs B) | |---|---|---| | **H₀** | Hipótese **nula** (status quo) | "As duas máquinas têm **a mesma** média de tempo de ciclo" | | **H₁** | Hipótese **alternativa** (o que queremos evidenciar) | "A Máquina A tem média **maior** que a B" | > **Regra fundamental:** H₀ sempre **contém igualdade** (=). H₁ é o **novo** que queremos provar. > A **direção** de H₁ (maior, menor, diferente) define o tipo de teste — e **vem da pergunta de pesquisa, não do resultado desejado**. --- ## 0.2 Três formulações possíveis para H₁ | Tipo | H₀ | H₁ | Pergunta típica | |---|---|---|---| | **Bilateral** | μ = μ₀ | μ ≠ μ₀ | "A média **diferiu** do esperado?" | | **Unilateral à direita** | μ = μ₀ | μ > μ₀ | "A média **cresceu**?" | | **Unilateral à esquerda** | μ = μ₀ | μ < μ₀ | "A média **diminuiu**?" | > **Para troca de máquina:** se você quer **adotar B** só se ela for **mais rápida**, H₁ é "μ_A > μ_B" (unilateral à direita). > Se quer **detectar qualquer diferença**, H₁ é "μ_A ≠ μ_B" (bilateral). > A escolha é **da pergunta**, não do resultado. --- ## 0.3a α — o nível de significância - **α = P(rejeitar H₀ | H₀ é verdadeira) = P(Erro Tipo I)** - Convenção: α = 0,05 (5%). - α não é "0,05 por convenção" — depende do **custo relativo dos erros**. .center[ | Contexto (Produção) | Erro pior | α usual | |---|---|---| | Recall de produto | Tipo I (recall sem necessidade) | 0,001 – 0,01 | | Inspeção de recebimento (NBR ISO 2859) | Tipo II (aceitar lote ruim) | 0,05 – 0,10 | | Carta de controle X-barra (CEP) | depende do uso | 0,0027 (regra 3σ) | | Segurança de processo (indústria química) | Tipo II (deixar acidente) | 0,001 – 0,01 | | Defeito cosmético | Tipo I (rejeitar sem necessidade) | 0,05 – 0,10 | ] --- ## 0.3b Justificativas de cada α | Contexto | Por que este α | |---|---| | **Recall** | Custo de recall + imagem altíssimo; recall desnecessário custa milhões | | **NBR ISO 2859** | Custo de retrabalho >> custo de rejeitar lote; aceita-se errar para o lado da segurança | | **CEP** (regra 3σ) | Convenção industrial histórica; 0,0027 → ~1 alarme falso a cada 370 pontos | | **Segurança química** | Custo humano/ambiental altíssimo; tipo II é fatal | | **Defeito cosmético** | Cliente não vê; rejeitar gera retrabalho caro sem ganho real | --- ## 0.4a A matriz 2×2 — quatro desfechos possíveis | | **H₀ é verdadeira** | **H₀ é falsa** | |---|---|---| | **Rejeitar H₀** | **α** — Erro Tipo I (Falso Positivo) | **1 − β** — Acerto (Verdadeiro Positivo) | | **Não rejeitar H₀** | **1 − α** — Acerto (Verdadeiro Negativo) | **β** — Erro Tipo II (Falso Negativo) | > **A frase-âncora (vale para produção):** > *"O que vocês vão ver em CEP, em recall de produto, em inspeção por amostragem (NBR ISO 2859), em auditoria de processo, em teste de software — é a mesma tabela. Os nomes mudam: alarme falso, defeito que passa, recall desnecessário, lote rejeitado por engano. A lógica é uma só."* --- ## 0.4b Equivalências (Produção / Qualidade) | Conceito TH | Estatística | Produção / Qualidade | |---|---|---| | **α** (Erro Tipo I) | Falso Positivo | Alarme falso no CEP, recall desnecessário | | **β** (Erro Tipo II) | Falso Negativo | Defeito chega ao cliente | | **1 − β** | VP | Sensibilidade do CEP, recall verdadeiro | | **1 − α** | VN | Taxa de não-alarme | > **Guardamos o nome "poder (1 − β)" para depois.** Por enquanto, basta saber que existem **quatro desfechos possíveis**, e dois deles são **erros** (α e β). --- ## 0.5 O que significa "rejeitar H₀" na prática .center[ **Três formulações equivalentes da mesma decisão:** ] | Linguagem | Significado | |---|---| | "Rejeito H₀ a 5%" | Os dados são **incompatíveis** com H₀ se ela for verdadeira | | "p < 0,05" | A **probabilidade** dos dados sob H₀ é menor que 5% | | "O resultado é **estatisticamente significativo**" | Linguagem padrão em publicações; cuidado — "significativo" não é "importante" | > **Erro conceitual grave 1:** "p = 0,03 significa que H₀ tem 3% de chance de ser verdadeira". **Errado.** p é a probabilidade **do dado**, não da hipótese. > **Erro conceitual grave 2:** "resultado significativo = resultado importante". **Errado.** Em uma amostra de 100 mil, qualquer diferença de 0,1% é "significativa"; nem por isso é relevante. > **Erro conceitual grave 3:** "não rejeitar H₀ = H₀ é verdadeira". **Errado.** "Não rejeitar" significa "**não há evidência suficiente** para rejeitar" — não é endosso. > **Aula 1** vai mostrar um teste acontecendo. **Aula 2** vai dissecar o valor-p, β e poder **em cima do que você acabou de fazer**. class: inverse, center, middle # Parte 1 · TH para μ — o primeiro teste completo ### Máquina A vs Máquina B: vale a pena **trocar**? ### Teste **t de Welch** — bilateral e unilateral --- ## 1.1 Situação-problema Você é **engenheiro(a) de produção** e precisa decidir se vale a pena **trocar a Máquina A** (antiga) **pela Máquina B** (nova). Você coletou tempos de ciclo (s) em **duas amostras independentes**: | Máquina | n | x̄ | s | |---|---|---|---| | **A** (atual) | 10 | 52 s | 5 s | | **B** (nova) | 10 | 48 s | 6 s | > Diferença observada: 4 s a favor da B. Mas isso é **real** ou variação aleatória? --- ## 1.2 Perguntas a responder 1. A diferença de 4 s é **estatisticamente significativa** a 5%? 2. Como o resultado muda entre **bilateral** e **unilateral**? 3. Vale a pena **trocar** de máquina? --- ## 1.3a H₀ e H₁ — três formulações possíveis | Tipo | H₀ | H₁ | Quando usar | |---|---|---|---| | **Bilateral** | μ_A = μ_B | μ_A ≠ μ_B | "Médias diferem?" | | **Unilateral à direita** | μ_A = μ_B | μ_A > μ_B | "A é mais lenta que B" | | **Unilateral à esquerda** | μ_A = μ_B | μ_A < μ_B | "A é mais rápida que B" | --- ## 1.3b A escolha para troca de máquina - **Pergunta genérica** ("diferem?") → **bilateral** (μ_A ≠ μ_B) - **Troca condicional** ("troco só se A for mais lenta") → **unilateral à direita** (μ_A > μ_B) - Decidimos pelas **duas** (bilateral + unilateral à direita) para mostrar como a direção muda o resultado. > A escolha é **da pergunta**, não do resultado. Trocar a regra depois de ver o dado é **p-hacking**. --- ## 1.4 α e premissas - **α = 0,05** (decisão de troca de máquina; convenção industrial). - **Premissas:** - Amostras **independentes** (turnos ou lotes diferentes). - **Normalidade** aproximada. - **Welch** não exige σ²_A = σ²_B. --- ## 1.5 Estatística de teste — t de Welch `$$t = \frac{\bar{x}_A - \bar{x}_B}{\sqrt{\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}}}$$` **Por que Welch (e não Student clássico)?** Não exige variâncias iguais. É o **default moderno** em R (`t.test(..., var.equal = FALSE)`). --- ## 1.6a Regra de decisão — bilateral - **H₁:** μ_A ≠ μ_B (qualquer direção) - **Valor crítico:** ±t_{0,975; gl} - **p-valor:** p_bi = 2·P(T ≥ |t_obs|) - **Decisão:** rejeita H₀ se p < α --- ## 1.6b Regra de decisão — unilateral à direita - **H₁:** μ_A > μ_B ("A é mais lenta") - **Valor crítico:** +t_{0,95; gl} - **p-valor:** p_uni = P(T ≥ t_obs) - **Decisão:** rejeita H₀ se p < α > A regra de decisão é **fixada antes** de calcular o teste. Olhar o dado para decidir qual regra usar é **p-hacking**. --- ## 1.7 Cálculo — bilateral e unilateral class: compact ``` ## Máquina A: n=10, x̄=52.0 s, s=5.0 s ``` ``` ## Máquina B: n=10, x̄=48.0 s, s=6.0 s ``` ``` ## ## Diferença: 52.0 − 48.0 = 4.0 s | EP = 2.4698 s ``` ``` ## t_obs = 1.6196 | gl (Welch) = 17.43 → 17 ``` ``` ## ## Bilateral (H₁: μ_A ≠ μ_B): t_crit = ±2.110 | p = 0.1233 → NÃO REJEITA ``` ``` ## Unicaudal D (H₁: μ_A > μ_B): t_crit = +1.740 | p = 0.0616 → NÃO REJEITA ``` --- ## 1.8 Visualização class: compact ``` ## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0. ## ℹ Please use `linewidth` instead. ## This warning is displayed once per session. ## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was ## generated. ``` <!-- --> > `t_obs = 1,620` está **abaixo** do valor crítico **bilateral** (2,110) e do **unilateral** (1,734). → **Não rejeita H₀** em nenhum dos dois. --- ## 1.9 Interpretação | Cenário | Decisão | Implicação prática | |---|---|---| | **Bilateral** (p = 0,124) | Não rejeita H₀ | Não há evidência de **qualquer** diferença | | **Unilateral dir.** (p = 0,062) | Não rejeita H₀ | Não há evidência de que A é mais lenta (com 5% de risco) | **Conclusão geral:** com n = 10 em cada grupo, **não há poder estatístico suficiente** para detectar a diferença observada de 4 s. > Diferença economicamente relevante precisa ser **estatisticamente** confirmável antes de trocar uma máquina. **Aumentar n** é o caminho. --- class: inverse, center, middle # Parte 2 · Valor-p, β e poder — agora sim, fazem sentido ### O aluno já viu um teste acontecer. Conceitos avançados aterrissam aqui. --- ## 2.1 O valor-p — o que ele realmente diz Da Aula 1, calculamos **dois p-valores** (0,124 bilateral e 0,062 unilateral). O que eles significam? > **Definição:** o **valor-p** é a **probabilidade de observar um resultado igual ou mais extremo que o obtido**, **assumindo H₀ verdadeira**. - p = 0,124 → se H₀ for verdadeira, há 12,4% de chance de observar uma diferença tão grande (ou maior) entre as médias. - p = 0,062 → se H₀ for verdadeira, há 6,2% de chance de observar uma diferença tão grande **na direção prevista**. - p < α → resultado **incompatível com H₀** → rejeitamos H₀. > **Erro comum 1:** p é **a probabilidade de H₀ ser verdadeira** — NÃO. É a probabilidade do **dado**, sob H₀. > **Erro comum 2:** p = 0,05 é a "fronteira mágica" — NÃO. É convenção, ajustável ao contexto. --- ## 2.2 Retrospecto — as 7 etapas que você acabou de fazer .center[ | # | Etapa | O que você decidiu na Aula 1 | |---|---|---| | **1** | **Formular H₀ e H₁** | "μ_A = μ_B" vs "μ_A ≠ μ_B" (bilateral) / "μ_A > μ_B" (unilateral dir.) | | **2** | **Escolher α** | 0,05 (decisão de troca de máquina) | | **3** | **Identificar a estatística e sua distribuição** | t de Welch, distribuição t com gl = 17 | | **4** | **Definir a regra de decisão** | Rejeitar se \|t_obs\| > 2,110 (bilateral) ou se t_obs > 1,734 (unilateral) | | **5** | **Calcular a estatística com os dados** | t_obs = 1,620 | | **6** | **Tomar a decisão** | p_bi = 0,124 → não rejeita; p_uni = 0,062 → não rejeita | | **7** | **Interpretar no contexto** | Com n = 10, não há poder suficiente para detectar 4 s de diferença | ] > Agora que você **fez** o protocolo, ele vira um **mapa mental** aplicável a qualquer teste — média, proporção, variância. --- ## 2.3a Voltando à matriz 2×2 — β e poder Lembra da matriz 2×2 (slide 0.4)? Agora podemos preencher **tudo** com os números da Aula 1: | | **H₀ é verdadeira** (μ_A = μ_B) | **H₀ é falsa** (μ_A ≠ μ_B) | |---|---|---| | **Rejeitar H₀** | α = 0,05 (Falso Positivo) | **1 − β = poder** (Verdadeiro Positivo) | | **Não rejeitar H₀** | 1 − α = 0,95 (Verdadeiro Negativo) | **β** (Falso Negativo) | - **α = 0,05** — a probabilidade de rejeitar H₀ quando ela é verdadeira. - **β = ?** — a probabilidade de **não rejeitar** H₀ quando ela **é falsa**. - **Poder = 1 − β** — a probabilidade de **rejeitar H₀ quando ela é falsa**. --- ## 2.3b Por que β era alto na Aula 1 > **Na Aula 1, ficamos em dúvida porque o n era pequeno.** O β era provavelmente **muito alto** (poder muito baixo). Daí a recomendação de aumentar n. A diferença observada de 4 s com n = 10 e σ ≈ 5,5 gera um **tamanho de efeito d ≈ 0,4** — pequeno. Para detectar d = 0,4 com poder 0,80 são necessários **≈ 100 observações por grupo** (próximo slide mostra o cálculo). --- ## 2.4 As duas distribuições lado a lado class: compact <!-- --> > **Cauda vermelha** (sob H₀) = α. **Cauda laranja** (sob H₁, dentro do limite) = β. **Verde-escuro** (sob H₁, fora do limite) = poder. --- ## 2.5 Os 4 fatores que afetam o poder (1 − β) | Fator | Efeito no poder | Exemplo em Produção | |---|---|---| | **α cresce** | poder ↑ | Aceitar α = 0,01 em vez de 0,005 no CEP | | **n cresce** | poder ↑ | Aumentar tamanho do subgrupo no CEP | | **\|efeito\| cresce** | poder ↑ | Desvio grande é mais fácil de detectar | | **σ (ruído) diminui** | poder ↑ | Processo mais estável = menos variação | > **Regra prática:** se a diferença observada é **economicamente relevante** mas o teste **não rejeita**, a causa mais provável é **n pequeno**, não "a diferença não existe". --- ## 2.6 Fórmula do poder e cálculo de n class: compact **Poder para uma média (aproximação):** `$$\text{poder} = 1 - \beta \approx \Phi\!\left(\frac{|\mu_1 - \mu_0|}{\sigma/\sqrt{n}} - z_{1-\alpha}\right)$$` **Fórmula de n para detectar um efeito d com poder 0,80:** `$$n \approx \frac{(z_{1-\alpha/2} + z_{0,80})^2 \cdot 2\sigma^2}{(\mu_1 - \mu_2)^2}$$` **Exemplo (Aula 1) — voltar e calcular o n necessário:** ``` ## z_{0,975} = 1.960 | z_{0,80} = 0.842 ``` ``` ## n ≈ (1.960 + 0.842)² · 2 · 5.5² / 4.0² = 30.0 por grupo ``` ``` ## Arredondando para cima: **30 observações por grupo** ``` ``` ## Atual: 10 por grupo → poder de apenas ~30% ``` > Em **CEP**, n é o **tamanho do subgrupo** (n = 5 para X-barra). Em **NBR ISO 2859**, n é o **tamanho da amostra de inspeção** por lote. --- class: inverse, center, middle # Parte 3 · TH para proporções (duas independentes) ### Fornecedor X vs Fornecedor Y: vale a pena **trocar**? ### Teste **Z para duas proporções** — bilateral e unilateral --- ## 3.1 Situação-problema Você é **engenheiro(a) de qualidade** e a fábrica compra matéria-prima de dois fornecedores. Você quer saber: **a taxa de defeito difere entre eles?** | Fornecedor | n | defeitos (x) | p̂ | |---|---|---|---| | **X** (atual) | 500 | 18 | 0,036 | | **Y** (alternativo) | 500 | 35 | 0,070 | > Diferença observada: 3,4 pp a favor do X. Real ou variação aleatória? --- ## 3.2 Perguntas a responder 1. A diferença de 3,4 pp é **estatisticamente significativa** a 5%? 2. Como muda o resultado entre **bilateral** e **unilateral**? 3. Vale a pena **trocar** (ou renegociar) com o fornecedor Y? --- ## 3.3a H₀, H₁ e premissas | Tipo | H₀ | H₁ | Quando usar | |---|---|---|---| | **Bilateral** | p_X = p_Y | p_X ≠ p_Y | "Taxas diferem?" | | **Unilateral à direita** | p_X = p_Y | p_X > p_Y | "X tem mais defeitos" | | **Unilateral à esquerda** | p_X = p_Y | p_X < p_Y | "Y tem mais defeitos" | - **α = 0,05** (em auditoria de fornecedor crítico, α = 0,01). - **Premissa:** `n·p̂ ≥ 5` e `n·(1−p̂) ≥ 5` em ambos os grupos. --- ## 3.3b Estatística Z para duas proporções **Z com pooled sob H₀:** `$$\hat{p} = \frac{x_X + x_Y}{n_X + n_Y} \qquad Z = \frac{\hat{p}_X - \hat{p}_Y}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_X} + \frac{1}{n_Y}\right)}}$$` > **Por que pooled?** Sob H₀, as duas taxas são iguais — a melhor estimativa comum é a **média ponderada**. Sem pooling, o teste é **viesado**. --- ## 3.4 Regra de decisão | Tipo de teste | Valor crítico | p-valor | Decisão | |---|---|---|---| | **Bilateral** (α = 0,05) | `\|Z_obs\| > 1,960` | p_bi = 2·(1 − Φ(\|Z\|)) | Rejeita se p < 0,05 | | **Unilateral esq.** (α = 0,05) | `Z_obs < −1,645` | p_uni = Φ(Z) | Rejeita se p < 0,05 | --- ## 3.5 Cálculo — bilateral e unilateral class: compact ``` ## X: n=500, x=18, p̂_X = 0.0360 ``` ``` ## Y: n=500, x=35, p̂_Y = 0.0700 ``` ``` ## ## Pooled: p̂ = 0.0530 | EP = 0.01417 ``` ``` ## Z_obs = -2.3996 ``` ``` ## ## Bilateral (H₁: p_X ≠ p_Y): Z_crit = ±1.960 | p = 0.0164 → REJEITA ``` ``` ## Unicaudal E (H₁: p_X < p_Y): Z_crit = −1.645 | p = 0.0082 → REJEITA ``` ``` ## ## Premissa: n·p̂_X=18.0 ≥ 5 ✓ | n·p̂_Y=35.0 ≥ 5 ✓ ``` --- ## 3.6 Visualização class: compact <!-- --> > `Z_obs = −2,399` cai na cauda de rejeição **bilateral** e **unilateral à esquerda**. --- ## 3.7 Interpretação | Cenário | Decisão | p-valor | Implicação | |---|---|---|---| | **Bilateral** | Rejeita H₀ | 0,016 | X e Y **diferem** em taxa de defeito | | **Unilateral esq.** | Rejeita H₀ | 0,008 | Y tem **mais** defeitos que X (com 5% de risco) | **Concordância:** os dois testes rejeitam — **decisão clara**. A diferença é **estatisticamente robusta** e **economicamente relevante** (3,4 pp × escala de produção = muito defeito). **Recomendação operacional:** renegociar contrato com Y ou trocar de fornecedor, mas investigar **causas** (lote? máquina? turno?) antes da decisão final. --- ## 3.8 Reflexão + poder + para casa - **Bilateral p = 0,016:** rejeita. **Unilateral esq. p = 0,008:** rejeita (com mais evidência). - **Decisão:** sim, Y tem **taxa de defeito maior** que X. Vale a pena trocar (ou renegociar). - **Poder observado:** com n = 500 em cada grupo, detectar 3,4 pp tem poder > 0,90. **Decisão robusta**. - **Tamanho de efeito:** 3,4 pp é relevante — em escala industrial, é muito defeito. - **Erro comum:** usar p̂_X e p̂_Y **separados** no erro padrão (sem pooled). Viesado. - **Erro comum:** rodar o teste **várias vezes** (ex.: a cada novo lote) até dar significativo — infla o erro tipo I. **Planejamento a priori.** - **Análise complementar:** comparar **variabilidade** entre fornecedores (teste F) — talvez Y seja também mais **instável** lote a lote. > **Para casa:** Se o fornecedor Y **melhorar** para 2,5% de defeito (mantendo X em 3,6%), ainda rejeitaríamos H₀? Calcule o novo Z_obs e o novo p-valor. --- class: inverse, center, middle # Parte 4 · TH para variâncias (Teste F) ### Duas linhas de envase: a Linha B é de fato **mais estável**? ### Teste **F de Fisher-Snedecor** — unicaudal (cauda direita) --- ## 4.1 Situação-problema A fábrica opera **duas linhas de envase** em paralelo: - **Linha A** — antiga - **Linha B** — recém-reformada A gerência quer **padronizar** a operação na Linha B, mas precisa de evidência estatística: a **variabilidade** do volume na Linha B é **menor** que na Linha A? Amostras independentes: - **Linha A:** `n_A = 13`, `s_A = 1,9 mL` - **Linha B:** `n_B = 11`, `s_B = 1,1 mL` > A diferença parece grande (1,9 vs 1,1), mas com amostras pequenas, pode ser acaso. --- ## 4.2 Perguntas a responder 1. A redução da variabilidade é **estatisticamente significativa** a 5%? 2. Vale a pena padronizar na Linha B? --- ## 4.3a H₀ e H₁ (Teste F) | Tipo | H₀ | H₁ | Quando usar | |---|---|---|---| | **Bilateral** (raro) | σ²_A = σ²_B | σ²_A ≠ σ²_B | "Variâncias diferem?" | | **Unicaudal à direita** | σ²_A = σ²_B | σ²_A > σ²_B | "A é **mais** instável" | > Aqui: **unicaudal à direita** (A mais instável que B — o que queremos evidenciar). Em geral, F é **unicaudal** porque a razão é sempre ≥ 1 quando se coloca a maior variância no numerador. - **α = 0,05** (decisão de padronização; em segurança, α = 0,01). --- ## 4.3b Estatística F de Fisher-Snedecor `$$F = \frac{s_A^2}{s_B^2} \sim F_{(n_A-1), (n_B-1)}$$` **Premissas (rígidas):** - As duas populações são **aproximadamente normais** (volumes de envase costumam atender). - Sem outliers (o teste F é sensível). --- ## 4.4 Regra de decisão | Tipo de teste | Valor crítico | p-valor | |---|---|---| | **Bilateral** (raro) | `F_obs > F_{α/2, gl₁, gl₂}` ou `F_obs < F_{1−α/2, ...}` | p_bi = 2·min(p_dir, 1−p_dir) | | **Unicaudal à direita** | `F_obs > F_{α, gl₁, gl₂}` | p = P(F_{gl₁,gl₂} ≥ F_obs) | --- ## 4.5 Cálculo — unicaudal class: compact ``` ## Linha A: nA=13, sA=1.9 mL, glA=12 ``` ``` ## Linha B: nB=11, sB=1.1 mL, glB=10 ``` ``` ## ## F_obs = sA²/sB² = 3.610/1.210 = 2.983 ``` ``` ## F_crit = F_{0,05; 12, 10} = 2.913 ``` ``` ## p-valor = P(F_{12,10} ≥ 2.983) = 0.0465 ``` ``` ## ## Decisão: F_obs=2.983 vs F_crit=2.913 → REJEITA H₀ ``` ``` ## Bilateral (controle): p_bi = 0.0930 (mesma conclusão) ``` --- ## 4.6 Visualização class: compact ``` ## Warning: Computation failed in `stat_function()`. ## Caused by error in `fun()`: ## ! não foi possível encontrar a função "fun" ``` <!-- --> > A área à direita de `F_crit` (cauda tracejada) corresponde a α = 5%. `F_obs = 2,98` cai **dentro** dessa cauda — rejeitamos H₀. --- ## 4.7 Interpretação - `F_obs = 2,98` > `F_crit = 2,91` → **rejeita H₀**. - **p-valor ≈ 0,048** — significativo a 5%, mas **no limite**. - **Decisão:** Linha B é **mais estável** que a Linha A. - **Bilateral (controle):** p_bi ≈ 0,096 — **não rejeita** a 5%. Mostra como a **direção unilateral** dá mais poder. - **Tamanho de efeito:** a variância caiu de 3,61 para 1,21 mL² (~66% de redução). **Operacionalmente** é um ganho enorme em controle de qualidade. --- ## 4.8 Reflexão + poder + para casa - **Poder do teste F:** com n = 13 e 11, detectar uma redução de ~66% tem poder de apenas ~0,50. **Margem apertada**. - **Premissa crítica:** os volumes são **aproximadamente normais**? Outliers (garrafas enguiçadas) podem distorcer o teste F. **Sempre olhe um boxplot antes.** - **Erro comum:** esquecer a **direção do teste F**. Convenção: **maior variância no numerador** (F ≥ 1, unicaudal à direita). - **Erro comum:** aplicar F sem verificar normalidade — em pequenas amostras, é catastrófico. - **Análise complementar:** rodar um **teste de Levene** (robusto à não-normalidade) ou **bootstrap** para confirmar. - **Generalização:** as amostras vieram de dias específicos. Variações de matéria-prima, turnos e temperatura podem inflar σ_A. **Estabilidade observada ≠ estabilidade real.** > **Para casa:** Em R, simule duas linhas com **mesmo** σ = 1,5 mL (H₀ verdadeira), cada uma com `n = 13`. Repita o teste F 1000 vezes. Em que proporção você rejeita H₀? **Esse número deveria ser ~5%. O que acontece se σ_A for na verdade 2,0 e σ_B continuar 1,5?** --- class: inverse, center, middle # Tabela de consulta · qual teste para qual estatística | Comparação | Teste | Bilateral | Unilateral | Premissa | |---|---|---|---|---| | **Médias** (2 grupos) | **t Welch** | sim | sim (dir./esq.) | Normalidade | | **Proporções** (2 grupos) | **Z duas prop.** | sim | sim (dir./esq.) | n·p̂ ≥ 5 | | **Variâncias** (2 grupos) | **F de Fisher** | sim (raro) | sim (dir.) | Normalidade rígida | **Lembre-se:** a escolha entre bilateral e unilateral vem da **pergunta de pesquisa**, não do resultado desejado. --- class: inverse, center, middle # Dúvidas?