Modelos Lineares Generalizados

Apostila — Capítulo 5: Inferência

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de junho de 2026

Nota ao leitor: Esta apostila resume o Capítulo 5 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo apresenta as ferramentas de inferência estatística para MLGs: distribuições amostrais do escore, do EMV e da deviance; testes de hipóteses por comparação de modelos aninhados; e intervalos de confiança. Todas as demonstrações são explicadas passo a passo, e os exemplos numéricos são reproduzidos com tabelas e gráficos.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.

1 Introdução: As Duas Ferramentas de Inferência

As duas ferramentas principais de inferência estatística são:

Intervalos de confiança (estimativas intervalares): Cada vez mais considerados mais úteis que testes de hipóteses, pois a largura do intervalo fornece uma medida direta da precisão com que as inferências podem ser feitas — de forma conceitualmente mais simples do que a “potência” de um teste.
Testes de hipóteses: Em MLGs, realizados comparando o ajuste de dois modelos relacionados (aninhados), com a mesma distribuição e função de ligação, mas componentes lineares de tamanhos diferentes.

1.1 A Lógica do Teste por Comparação de Modelos

O processo de teste de hipóteses via modelos pode ser resumido em cinco etapas:

Importante

Protocolo de teste por comparação de modelos:

Especificar o modelo simples $M_0$ (sob $H_0$) e o modelo mais geral $M_1$ (com $M_0$ como caso especial de $M_1$).
Ajustar $M_0$ e calcular sua estatística de bondade de ajuste $G_0$; ajustar $M_1$ e calcular $G_1$.
Calcular a melhoria no ajuste: $G_1 - G_0$ (ou $G_1/G_0$).
Usar a distribuição amostral de $G_1 - G_0$ para testar $H_0: G_1 = G_0$.
Decidir: se $G_1 \approx G_0$, prefere-se $M_0$ por parcimônia; se $G_1 \gg G_0$, rejeita-se $H_0$ em favor de $M_1$.

As distribuições amostrais necessárias dependem da distribuição de $Y_i$. Para variáveis normais, são exatas; para as demais, são assintóticas (Teorema Central do Limite).

2 Distribuição Amostral do Escore

2.1 Resultado Geral

Para um MLG com parâmetros $\boldsymbol{\beta}$, as estatísticas escore (Equação 4.18) satisfazem:

\[ E(U_j) = 0 \quad \text{para todo } j \tag{5.2} \]

e a matriz de variância-covariância do vetor escore $\mathbf{U}$ é a matriz de informação de Fisher:

\[ I_{jk} = E[U_j U_k] \]

Distribuição assintótica do escore:

Caso univariado ($p = 1$): \[ \frac{U}{\sqrt{I}} \sim N(0,1) \qquad \text{ou equivalentemente} \qquad \frac{U^2}{I} \sim \chi^2(1) \]
Caso multivariado ($p > 1$): \[ \mathbf{U} \sim \text{MVN}(\mathbf{0},\, \mathbf{I}) \qquad \Rightarrow \qquad \mathbf{U}^T \mathbf{I}^{-1} \mathbf{U} \sim \chi^2(p) \tag{5.3} \]

Por que isso é útil? A distribuição do escore pode ser avaliada em qualquer valor de $\boldsymbol{\beta}$, não apenas no EMV. Isso permite construir testes para hipóteses como $H_0: \beta_j = \beta_{j0}$ sem precisar estimar o modelo completo — particularmente conveniente para modelos complexos onde o ajuste é custoso.

2.2 Exemplo 5.2.1 — Escore para a Distribuição Normal

Seja $Y_i \sim N(\mu, \sigma^2)$ independentes, com $\sigma^2$ conhecido e $\mu$ o parâmetro de interesse.

Log-verossimilhança: \[ \ell(\mu;\,\mathbf{y}) = -\frac{1}{2\sigma^2}\sum_{i=1}^N (y_i - \mu)^2 - N\log(\sigma\sqrt{2\pi}) \]

Escore: \[ U = \frac{d\ell}{d\mu} = \frac{1}{\sigma^2}\sum_{i=1}^N (Y_i - \mu) = \frac{N(\bar{Y} - \mu)}{\sigma^2} \]

Verificação de $E(U) = 0$: Como $E(Y_i) = \mu$, temos $E(\bar{Y}) = \mu$, portanto $E(U) = 0$. ✓

Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\sigma^4}\sum_{i=1}^N \text{var}(Y_i) = \frac{N\sigma^2}{\sigma^4} = \frac{N}{\sigma^2} \]

Padronização: \[ \frac{U}{\sqrt{I}} = \frac{N(\bar{Y}-\mu)/\sigma^2}{\sqrt{N/\sigma^2}} = \frac{\bar{Y} - \mu}{\sigma/\sqrt{N}} \sim N(0,1) \]

Este é um resultado exato (não apenas assintótico), porque $\bar{Y} \sim N(\mu, \sigma^2/N)$ exatamente.

Intervalo de confiança de 95% para $\mu$ (com $\sigma$ conhecido): \[ \bar{y} \pm 1{,}96\,\frac{\sigma}{\sqrt{N}} \]

2.3 Exemplo 5.2.2 — Escore para a Distribuição Binomial

Seja $Y \sim \text{Bin}(n, \pi)$.

Escore: \[ U = \frac{d\ell}{d\pi} = \frac{Y - n\pi}{\pi(1-\pi)} \]

Como $E(Y) = n\pi$, temos $E(U) = 0$. ✓

Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\pi^2(1-\pi)^2}\text{var}(Y) = \frac{n\pi(1-\pi)}{\pi^2(1-\pi)^2} = \frac{n}{\pi(1-\pi)} \]

Padronização: \[ \frac{U}{\sqrt{I}} = \frac{(Y - n\pi)/[\pi(1-\pi)]}{\sqrt{n/[\pi(1-\pi)]}} = \frac{Y - n\pi}{\sqrt{n\pi(1-\pi)}} \sim N(0,1) \]

Este é a aproximação Normal para a Binomial (sem correção de continuidade). Serve de base para testes e intervalos de confiança para proporções.

3 Aproximações de Taylor e Distribuição do EMV

3.1 Expansão de Taylor da Log-verossimilhança

Para um único parâmetro $\beta$, a expansão de Taylor da log-verossimilhança em torno do estimador $b$ é:

\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) + \frac{1}{2}(\beta - b)^2 U'(b) \tag{5.4a} \]

Aproximando $U' = d^2\ell/d\beta^2$ pelo seu valor esperado $E(U') = -I$ (veja Capítulo 3, Eq. 3.17):

\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) - \frac{1}{2}(\beta - b)^2 I(b) \]

Para o vetor de parâmetros $\boldsymbol{\beta}$:

\[ \ell(\boldsymbol{\beta}) \approx \ell(\mathbf{b}) + (\boldsymbol{\beta} - \mathbf{b})^T \mathbf{U}(\mathbf{b}) - \frac{1}{2}(\boldsymbol{\beta} - \mathbf{b})^T \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.4} \]

Intuição: Esta expansão diz que, perto do máximo $\mathbf{b}$, a log-verossimilhança se parece com uma parábola (ou uma quadrática, no caso multivariado). A “abertura” da parábola é controlada por $\mathbf{I}$ — quanto maior a informação, mais “pontiaguda” é a verossimilhança e mais precisa é a estimativa.

3.2 Expansão de Taylor do Escore

Expandindo o escore em torno de $\mathbf{b}$:

\[ \mathbf{U}(\boldsymbol{\beta}) \approx \mathbf{U}(\mathbf{b}) - \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.5} \]

4 Distribuição Amostral do EMV

4.1 Derivação

Por definição, o EMV $\mathbf{b}$ maximiza $\ell(\mathbf{b})$, portanto $\mathbf{U}(\mathbf{b}) = \mathbf{0}$. Substituindo em (5.5):

\[ \mathbf{U}(\boldsymbol{\beta}) = -\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \]

Portanto (multiplicando por $-\mathbf{I}^{-1}$):

\[ (\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}) \tag{*} \]

Passo a passo da derivação da distribuição de $\mathbf{b}$:

Passo 1 — Esperança de $\mathbf{b}$:

Como $\mathbf{I}$ é tratada como constante e $E(\mathbf{U}) = \mathbf{0}$ (Eq. 5.2): \[ E(\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}E(\mathbf{U}) = \mathbf{0} \implies E(\mathbf{b}) = \boldsymbol{\beta} \] O EMV é assintoticamente não-viesado. ✓

Passo 2 — Variância-covariância de $\mathbf{b}$:

\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = \mathbf{I}^{-1}\underbrace{E[\mathbf{U}\mathbf{U}^T]}_{=\,\mathbf{I}}\mathbf{I}^{-1} = \mathbf{I}^{-1} \tag{5.6} \]

A matriz de variância-covariância do EMV é a inversa da matriz de informação de Fisher.

Passo 3 — Distribuição assintótica:

Como $\mathbf{U} \sim \text{MVN}(\mathbf{0}, \mathbf{I})$ assintoticamente e $\mathbf{b} - \boldsymbol{\beta} = \mathbf{I}^{-1}\mathbf{U}$:

\[ (\mathbf{b} - \boldsymbol{\beta})^T\mathbf{I}(\mathbf{b} - \boldsymbol{\beta}) \sim \chi^2(p) \tag{5.7} \]

Esta é a estatística de Wald. Para o caso univariado, a forma equivalente e mais usual é:

\[ b \sim N(\beta,\, I^{-1}) \tag{5.8} \]

Importante

Resumo — Distribuição assintótica do EMV:

\[\mathbf{b} \overset{\text{assint.}}{\sim} \text{MVN}(\boldsymbol{\beta},\, \mathbf{I}^{-1})\]

Intervalo de confiança de $(1-\alpha)\times 100\%$ para $\beta_j$: $\; b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}}$
Erro padrão de $b_j$: $\;\widehat{\text{ep}}(b_j) = \sqrt{[\hat{\mathbf{I}}^{-1}]_{jj}}$

4.2 Exemplo 5.4.1 — Modelo Normal Linear

Para o MLG Normal com ligação identidade: \[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2) \]

Como $\partial\mu_i/\partial\eta_i = 1$ e $\text{var}(Y_i) = \sigma^2$, a informação (Eq. 4.20) é:

\[ I_{jk} = \sum_{i=1}^N \frac{x_{ij}\,x_{ik}}{\sigma^2} \implies \mathbf{I} = \frac{1}{\sigma^2}\mathbf{X}^T\mathbf{X} \tag{5.10} \]

O estimador de mínimos quadrados (= EMV para a Normal) é:

\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{5.11} \]

Para o modelo Normal, todos os resultados são exatos (não apenas assintóticos):

\[ \mathbf{b} \sim \text{MVN}\!\left(\boldsymbol{\beta},\, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}\right) \]

Por quê exato? Porque $\mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ é combinação linear de $Y_i$’s que são normais — portanto $\mathbf{b}$ também é exatamente normal, independentemente do tamanho de amostra.

Derivação da variância-covariância de $\mathbf{b}$:

De (5.11): $\mathbf{b} - \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})$

\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\underbrace{\text{var}(\mathbf{y})}_{=\,\sigma^2\mathbf{I}}\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} = \mathbf{I}^{-1} \checkmark \]

Distribuição amostral de b₁ e b₂ (1000 réplicas de simulação Monte Carlo) comparada com as distribuições teóricas. O modelo é y = 2 + 3x + ε com ε ~ N(0, 1) e N = 30 observações.

5 A Deviance

5.1 Modelo Saturado e Razão de Verossimilhança

O modelo saturado é o MLG com o número máximo de parâmetros que podem ser estimados — um parâmetro para cada padrão de covariável distinto. Seja $m$ esse número máximo. O modelo saturado fornece o melhor ajuste possível aos dados.

A razão de verossimilhança entre o modelo saturado e o modelo de interesse é:

\[ \lambda = \frac{L(\mathbf{b}_{\max};\,\mathbf{y})}{L(\mathbf{b};\,\mathbf{y})} \geq 1 \]

Valores grandes de $\lambda$ indicam que o modelo de interesse é um ajuste ruim em comparação ao saturado.

5.2 Definição da Deviance

O logaritmo da razão de verossimilhança multiplicado por 2 — chamado de deviance por Nelder e Wedderburn (1972) — é a estatística de bondade de ajuste padrão para MLGs:

\[ \boxed{D = 2\bigl[\ell(\mathbf{b}_{\max};\,\mathbf{y}) - \ell(\mathbf{b};\,\mathbf{y})\bigr]} \tag{5.D} \]

5.3 Distribuição Amostral da Deviance

Derivação: Partindo da expansão de Taylor (5.4) avaliada no EMV $\mathbf{b}$ (onde $\mathbf{U}(\mathbf{b}) = \mathbf{0}$):

\[ 2\bigl[\ell(\mathbf{b};\,\mathbf{y}) - \ell(\boldsymbol{\beta};\,\mathbf{y})\bigr] = (\boldsymbol{\beta} - \mathbf{b})^T\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \sim \chi^2(p) \tag{5.7} \]

A deviance pode ser decomposta como:

\[ D = \underbrace{2\bigl[\ell(\mathbf{b}_{\max}) - \ell(\boldsymbol{\beta}_{\max})\bigr]}_{\chi^2(m)} - \underbrace{2\bigl[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta})\bigr]}_{\chi^2(p)} + \underbrace{2\bigl[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})\bigr]}_{\upsilon \text{ (constante)}} \tag{5.12} \]

Portanto, a distribuição assintótica da deviance é:

\[ D \sim \chi^2(m - p,\, \upsilon) \]

onde $m - p$ são os graus de liberdade e $\upsilon = 2[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})]$ é o parâmetro de não-centralidade.

Importante

Interpretação prática:

Se o modelo ajusta bem: $\upsilon \approx 0$ e $D \sim \chi^2(m-p)$ (central). Como $E[\chi^2(m-p)] = m-p$, espera-se $D \approx m-p$.
Se o modelo ajusta mal: $\upsilon > 0$ e $D$ terá distribuição não-central, com média $m-p+\upsilon > m-p$.

Regra prática: $D/(m-p)$ próximo de 1 indica bom ajuste; muito maior que 1 indica ajuste inadequado.

5.4 Exemplo 5.6.1 — Deviance para Modelo Binomial

Para $Y_i \sim \text{Bin}(n_i, \pi_i)$ independentes, o modelo saturado tem $\hat\pi_i = y_i/n_i$, e a deviance é:

\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat{y}_i} + (n_i - y_i)\log\frac{n_i - y_i}{n_i - \hat{y}_i}\right] \]

onde $\hat{y}_i = n_i\hat\pi_i$ são os valores ajustados pelo modelo de interesse.

Esta expressão pode ser escrita na forma $D = 2\sum o_i\log(o_i/e_i)$, onde $o_i$ são as frequências observadas e $e_i$ as esperadas — análoga à estatística G de bondade de ajuste.

5.5 Exemplo 5.6.2 — Deviance para Modelo Normal

Para o modelo Normal, o modelo saturado tem $\hat\mu_i = y_i$ (cada observação é sua própria média). A deviance é:

\[ D = \frac{1}{\sigma^2}\sum_{i=1}^N (y_i - \hat\mu_i)^2 = \frac{\text{SQR}}{\sigma^2} \tag{5.13} \]

onde SQR é a soma de quadrados dos resíduos.

Problema: $D$ depende de $\sigma^2$, que geralmente é desconhecido para a Normal. Portanto, $D$ não pode ser usado diretamente como estatística de bondade de ajuste para a Normal.

Solução: estimamos $\sigma^2$ a partir dos próprios dados: \[ \hat\sigma^2 = \frac{\sum(y_i - \hat\mu_i)^2}{N - p} = \frac{\sigma^2 D}{N - p} \]

A deviance escalada $\sigma^2 D = \sum(y_i - \hat\mu_i)^2$ é o que a maioria dos programas reporta como “deviance” para modelos normais.

Distribuição exata: Para o modelo Normal com $p$ parâmetros estimados: \[ D \sim \chi^2(N - p) \quad \text{exatamente} \]

Isso decorre da teoria da matriz chapéu (hat matrix) $\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$:

\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \frac{\mathbf{y}^T(\mathbf{I}-\mathbf{H})\mathbf{y}}{\sigma^2} \]

Como $\mathbf{I} - \mathbf{H}$ é idempotente com posto $N - p$, pelo Teorema de Cochran, $D \sim \chi^2(N-p)$.

5.6 Exemplo 5.6.3 — Deviance para Modelo de Poisson

Para $Y_i \sim \text{Po}(\lambda_i)$, o modelo saturado tem $\hat\lambda_i = y_i$. A deviance é:

\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat\lambda_i} - (y_i - \hat\lambda_i)\right] = 2\sum_{i=1}^N o_i\log\frac{o_i}{e_i} \tag{5.D.Poisson} \]

(usando que $\sum y_i = \sum \hat\lambda_i$ para a maioria dos modelos de Poisson).

Vantagem em relação à Normal: $D$ pode ser calculado diretamente a partir dos dados, sem necessitar de nenhum parâmetro desconhecido.

5.6.1 Exemplo Numérico: Regressão de Poisson (Dados da Seção 4.4)

Tabela 5.1 — Contribuições à deviance para a regressão de Poisson (dados da Seção 4.4).
				Termos
i	x	y	ŷ	y log(y/ŷ)	contrib. D
1	-1	2	2.51633	-0.45931	0.05702
2	-1	3	2.51633	0.52743	0.04376
3	0	6	7.45163	-1.30004	0.15159
4	0	7	7.45163	-0.43766	0.01397
5	0	8	7.45163	0.56807	0.01970
6	0	9	7.45163	1.69913	0.15076
7	1	10	12.38693	-2.14057	0.24636
8	1	12	12.38693	-0.38082	0.00611
9	1	15	12.38693	2.87112	0.25805
Total	NA	NA	NA	0.94736	0.94733

Resultados:

$D = 2 \times 0{,}94735 = 1{,}8947$
Graus de liberdade: $N - p = 9 - 2 = 7$
$E[\chi^2(7)] = 7 \implies D/\text{gl} = 0{,}27$ — muito abaixo de 1, indicando excelente ajuste
$D$ está abaixo do percentil 5% inferior de $\chi^2(7)$ — consistente com dados artificiais onde a relação é exatamente linear

Distribuição χ²(7) com a deviance observada marcada. O valor D = 1.89 está bem abaixo da região crítica, indicando bom ajuste.

6 Testes de Hipóteses

6.1 Três Estatísticas de Teste

Para testar $H_0: \boldsymbol{\beta} = \boldsymbol{\beta}_0$ contra $H_1: \boldsymbol{\beta} \neq \boldsymbol{\beta}_0$, existem três estatísticas assintoticamente equivalentes (todas $\sim \chi^2(p)$ sob $H_0$):

Estatística	Fórmula	Quando usar
Wald	$(\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b})(\mathbf{b}-\boldsymbol{\beta}_0)$	Quando o EMV $\mathbf{b}$ é fácil de obter
Escore	$\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}(\boldsymbol{\beta}_0)\mathbf{U}(\boldsymbol{\beta}_0)$	Quando o EMV sob $H_0$ é simples
Razão de verossimilhanças (deviance)	$2[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta}_0)]$	Mais geral; requer ajuste de ambos os modelos

Equivalência assintótica: Sob condições de regularidade, as três estatísticas são assintoticamente iguais — mas em amostras finitas podem diferir, especialmente para distribuições assimétricas ou parâmetros perto das fronteiras do espaço paramétrico.

6.2 Teste pela Diferença de Deviances (Modelos Aninhados)

Sejam $M_0$ ($q$ parâmetros) e $M_1$ ($p$ parâmetros, $q < p$) modelos aninhados. A diferença de deviances é:

\[ \Delta D = D_0 - D_1 = 2\bigl[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)\bigr] \]

Importante

Distribuição de $\Delta D$:

Sob $H_0$ ($M_0$ correto): $\Delta D \sim \chi^2(p - q)$ (central)
Sob $H_1$ ($M_0$ incorreto): $\Delta D$ tem distribuição $\chi^2$ não-central com média $> p - q$

Regra de decisão: rejeitar $H_0$ se $\Delta D > \chi^2_{1-\alpha}(p-q)$.

A distribuição amostral de $\Delta D$ é geralmente melhor aproximada pelo $\chi^2$ do que a de cada deviance individual.

Comportamento de ΔD sob H₀ (curva azul, χ²(1)) e sob H₁ com não-centralidade crescente (curvas coloridas). Sob H₁, a distribuição desloca-se para a direita, aumentando a probabilidade de rejeição.

6.3 Exemplo 5.7.1 — Teste para o Modelo Normal: Peso ao Nascer

Este é o exemplo do Capítulo 2 (Seção 2.2.2). Dois modelos são comparados para o peso ao nascer ($Y$) em função da idade gestacional ($x$) para meninos e meninas:

$M_0$ — modelo restrito: mesma inclinação para meninos e meninas ($q = 3$ parâmetros: $\alpha_1, \alpha_2, \beta$)
$M_1$ — modelo completo: inclinações separadas ($p = 4$ parâmetros: $\alpha_1, \alpha_2, \beta_1, \beta_2$)

Deviances e teste F:

Como a Normal tem $\sigma^2$ desconhecido, a deviance não pode ser usada diretamente. Usa-se a estatística $F$:

\[ F = \frac{(D_0 - D_1)/(p-q)}{D_1/(N-p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \]

Tabela — Comparação de modelos para peso ao nascer (N = 24).
Modelo	Parâmetros	gl (N−p)	SQR	SQR/gl
M₀ (inclinação comum)	3	21	658770.8	31370.0
M₁ (inclinações separadas)	4	20	652424.5	32621.2

ΔS = S₀ − S₁ = 6346.3

F  = (6346.3 / 1) / (652424.5 / 20) = 0.19

Sob H₀: F ~ F(1, 20)

p-valor = 0.6639

Conclusão: Não há evidência contra H₀ (inclinações iguais)

Distribuição F(1, 20) e o valor observado F = 0.19. O valor está muito abaixo da região crítica: não há evidência de que as inclinações diferem entre meninos e meninas.

Conclusão: $F = 0{,}19$ é muito menor que o valor crítico $F_{0{,}95}(1,20) \approx 4{,}35$. Não há evidência de que as inclinações diferem — os dados são consistentes com o modelo mais simples $M_0$ (retas paralelas, mesma taxa de crescimento fetal para meninos e meninas).

7 Intervalos de Confiança

7.1 Via Estatística de Wald

O intervalo de confiança de $(1-\alpha)\times 100\%$ para $\beta_j$ baseado na normalidade assintótica do EMV é:

\[ b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}} \]

Para $\alpha = 0{,}05$: $z_{0{,}025} = 1{,}96$.

7.2 Via Perfil de Log-verossimilhança

Uma abordagem alternativa inverte o teste de razão de verossimilhanças. O intervalo de confiança de $(1-\alpha)\times 100\%$ para $\beta_j$ é o conjunto de valores $\beta_{j0}$ para os quais o teste não rejeita $H_0$:

\[ \left\{\beta_{j0} : 2\bigl[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)\bigr] \leq \chi^2_{1-\alpha}(1)\right\} \]

onde $\boldsymbol{\beta}^*$ é o EMV com $\beta_j = \beta_{j0}$ fixado (perfil).

Qual preferir? Para amostras grandes, ambos coincidem. Para amostras pequenas ou parâmetros perto das fronteiras do espaço paramétrico, o intervalo de perfil tende a ser mais preciso — especialmente para parâmetros como probabilidades ($\pi \in [0,1]$) ou variâncias ($\sigma^2 > 0$).

Comparação entre IC de Wald (simétrico em torno do EMV) e IC de perfil (baseado na log-verossimilhança). Para a Normal, são idênticos; para a Poisson, o perfil é ligeiramente assimétrico.

8 Síntese: Quadro Completo de Inferência para MLGs

Quadro de ferramentas de inferência para MLGs.
Ferramenta	Fórmula	Distrib..sob.H0	Normal..exato.
Intervalo de confiança (Wald)	$$b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}}$$	—	Sim
Intervalo de confiança (perfil ℓ)	$$\{\beta_j : 2[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)] \leq \chi^2_{1-\alpha}(1)\}$$	—	Sim
Teste de Wald	$$(\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b}-\boldsymbol{\beta}_0)$$	$$\chi^2(p)$$	Sim
Teste do escore	$$\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}_0)$$	$$\chi^2(p)$$	Sim
Teste da deviance (razão de veross.)	$$\Delta D = D_0 - D_1 = 2[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)]$$	$$\chi^2(p-q)$$	Sim (via F)

9 Mapa Conceitual do Capítulo 5

INFERÊNCIA EM MLGs
══════════════════════════════════════════════════════════════════════
                    
  ESCORE U(β)              EMV b                DEVIANCE D
  ══════════              ═════                ══════════
  E(U) = 0                b = argmax ℓ         D = 2[ℓ(b_max) − ℓ(b)]
  var(U) = I              E(b) = β (assint.)
                          Var(b) = I⁻¹         Sob H₀ correto:
  U/√I ~ N(0,1)                                D ~ χ²(m − p)
  UᵀI⁻¹U ~ χ²(p)         b ~ MVN(β, I⁻¹)      
                          (b−β)ᵀI(b−β)~χ²(p)  Normal: D = SQR/σ²
                          (Wald)               Poisson/Binomial:
                                               D calculada diretamente
  
  ──────────────────────────────────────────────────────────────────
  COMPARAÇÃO DE MODELOS ANINHADOS (M₀ ⊂ M₁)
  
  ΔD = D₀ − D₁ = 2[ℓ(b₁) − ℓ(b₀)]  ~  χ²(p − q)  sob H₀
  
  Para Normal (σ² desconhecido):
  F = [ΔD/(p−q)] / [D₁/(N−p)]  ~  F(p−q, N−p)  sob H₀
  ══════════════════════════════════════════════════════════════════════

9.1 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.

Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, Series A, 135(3), 370–384.

Fahrmeir, L. & Kaufmann, H. (1985). Consistency and Asymptotic Normality of the Maximum Likelihood Estimator in Generalized Linear Models. The Annals of Statistics, 13(1), 342–368.

Estatística	Fórmula	Quando usar
Wald	\((\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b})(\mathbf{b}-\boldsymbol{\beta}_0)\)	Quando o EMV \(\mathbf{b}\) é fácil de obter
Escore	\(\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}(\boldsymbol{\beta}_0)\mathbf{U}(\boldsymbol{\beta}_0)\)	Quando o EMV sob \(H_0\) é simples
Razão de verossimilhanças (deviance)	\(2[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta}_0)]\)	Mais geral; requer ajuste de ambos os modelos