Modelos Lineares Generalizados

Apostila — Capítulo 5: Inferência

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de junho de 2026


Nota ao leitor: Esta apostila resume o Capítulo 5 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo apresenta as ferramentas de inferência estatística para MLGs: distribuições amostrais do escore, do EMV e da deviance; testes de hipóteses por comparação de modelos aninhados; e intervalos de confiança. Todas as demonstrações são explicadas passo a passo, e os exemplos numéricos são reproduzidos com tabelas e gráficos.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.


1 Introdução: As Duas Ferramentas de Inferência

As duas ferramentas principais de inferência estatística são:

Intervalos de confiança (estimativas intervalares)
Cada vez mais considerados mais úteis que testes de hipóteses, pois a largura do intervalo fornece uma medida direta da precisão com que as inferências podem ser feitas — de forma conceitualmente mais simples do que a “potência” de um teste.
Testes de hipóteses
Em MLGs, realizados comparando o ajuste de dois modelos relacionados (aninhados), com a mesma distribuição e função de ligação, mas componentes lineares de tamanhos diferentes.

1.1 A Lógica do Teste por Comparação de Modelos

O processo de teste de hipóteses via modelos pode ser resumido em cinco etapas:

Importante

Protocolo de teste por comparação de modelos:

  1. Especificar o modelo simples \(M_0\) (sob \(H_0\)) e o modelo mais geral \(M_1\) (com \(M_0\) como caso especial de \(M_1\)).
  2. Ajustar \(M_0\) e calcular sua estatística de bondade de ajuste \(G_0\); ajustar \(M_1\) e calcular \(G_1\).
  3. Calcular a melhoria no ajuste: \(G_1 - G_0\) (ou \(G_1/G_0\)).
  4. Usar a distribuição amostral de \(G_1 - G_0\) para testar \(H_0: G_1 = G_0\).
  5. Decidir: se \(G_1 \approx G_0\), prefere-se \(M_0\) por parcimônia; se \(G_1 \gg G_0\), rejeita-se \(H_0\) em favor de \(M_1\).

As distribuições amostrais necessárias dependem da distribuição de \(Y_i\). Para variáveis normais, são exatas; para as demais, são assintóticas (Teorema Central do Limite).


2 Distribuição Amostral do Escore

2.1 Resultado Geral

Para um MLG com parâmetros \(\boldsymbol{\beta}\), as estatísticas escore (Equação 4.18) satisfazem:

\[ E(U_j) = 0 \quad \text{para todo } j \tag{5.2} \]

e a matriz de variância-covariância do vetor escore \(\mathbf{U}\) é a matriz de informação de Fisher:

\[ I_{jk} = E[U_j U_k] \]

Distribuição assintótica do escore:

  • Caso univariado (\(p = 1\)): \[ \frac{U}{\sqrt{I}} \sim N(0,1) \qquad \text{ou equivalentemente} \qquad \frac{U^2}{I} \sim \chi^2(1) \]

  • Caso multivariado (\(p > 1\)): \[ \mathbf{U} \sim \text{MVN}(\mathbf{0},\, \mathbf{I}) \qquad \Rightarrow \qquad \mathbf{U}^T \mathbf{I}^{-1} \mathbf{U} \sim \chi^2(p) \tag{5.3} \]

Por que isso é útil? A distribuição do escore pode ser avaliada em qualquer valor de \(\boldsymbol{\beta}\), não apenas no EMV. Isso permite construir testes para hipóteses como \(H_0: \beta_j = \beta_{j0}\) sem precisar estimar o modelo completo — particularmente conveniente para modelos complexos onde o ajuste é custoso.


2.2 Exemplo 5.2.1 — Escore para a Distribuição Normal

Seja \(Y_i \sim N(\mu, \sigma^2)\) independentes, com \(\sigma^2\) conhecido e \(\mu\) o parâmetro de interesse.

Log-verossimilhança: \[ \ell(\mu;\,\mathbf{y}) = -\frac{1}{2\sigma^2}\sum_{i=1}^N (y_i - \mu)^2 - N\log(\sigma\sqrt{2\pi}) \]

Escore: \[ U = \frac{d\ell}{d\mu} = \frac{1}{\sigma^2}\sum_{i=1}^N (Y_i - \mu) = \frac{N(\bar{Y} - \mu)}{\sigma^2} \]

Verificação de \(E(U) = 0\): Como \(E(Y_i) = \mu\), temos \(E(\bar{Y}) = \mu\), portanto \(E(U) = 0\). ✓

Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\sigma^4}\sum_{i=1}^N \text{var}(Y_i) = \frac{N\sigma^2}{\sigma^4} = \frac{N}{\sigma^2} \]

Padronização: \[ \frac{U}{\sqrt{I}} = \frac{N(\bar{Y}-\mu)/\sigma^2}{\sqrt{N/\sigma^2}} = \frac{\bar{Y} - \mu}{\sigma/\sqrt{N}} \sim N(0,1) \]

Este é um resultado exato (não apenas assintótico), porque \(\bar{Y} \sim N(\mu, \sigma^2/N)\) exatamente.

Intervalo de confiança de 95% para \(\mu\) (com \(\sigma\) conhecido): \[ \bar{y} \pm 1{,}96\,\frac{\sigma}{\sqrt{N}} \]


2.3 Exemplo 5.2.2 — Escore para a Distribuição Binomial

Seja \(Y \sim \text{Bin}(n, \pi)\).

Escore: \[ U = \frac{d\ell}{d\pi} = \frac{Y - n\pi}{\pi(1-\pi)} \]

Como \(E(Y) = n\pi\), temos \(E(U) = 0\). ✓

Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\pi^2(1-\pi)^2}\text{var}(Y) = \frac{n\pi(1-\pi)}{\pi^2(1-\pi)^2} = \frac{n}{\pi(1-\pi)} \]

Padronização: \[ \frac{U}{\sqrt{I}} = \frac{(Y - n\pi)/[\pi(1-\pi)]}{\sqrt{n/[\pi(1-\pi)]}} = \frac{Y - n\pi}{\sqrt{n\pi(1-\pi)}} \sim N(0,1) \]

Este é a aproximação Normal para a Binomial (sem correção de continuidade). Serve de base para testes e intervalos de confiança para proporções.


3 Aproximações de Taylor e Distribuição do EMV

3.1 Expansão de Taylor da Log-verossimilhança

Para um único parâmetro \(\beta\), a expansão de Taylor da log-verossimilhança em torno do estimador \(b\) é:

\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) + \frac{1}{2}(\beta - b)^2 U'(b) \tag{5.4a} \]

Aproximando \(U' = d^2\ell/d\beta^2\) pelo seu valor esperado \(E(U') = -I\) (veja Capítulo 3, Eq. 3.17):

\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) - \frac{1}{2}(\beta - b)^2 I(b) \]

Para o vetor de parâmetros \(\boldsymbol{\beta}\):

\[ \ell(\boldsymbol{\beta}) \approx \ell(\mathbf{b}) + (\boldsymbol{\beta} - \mathbf{b})^T \mathbf{U}(\mathbf{b}) - \frac{1}{2}(\boldsymbol{\beta} - \mathbf{b})^T \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.4} \]

Intuição: Esta expansão diz que, perto do máximo \(\mathbf{b}\), a log-verossimilhança se parece com uma parábola (ou uma quadrática, no caso multivariado). A “abertura” da parábola é controlada por \(\mathbf{I}\) — quanto maior a informação, mais “pontiaguda” é a verossimilhança e mais precisa é a estimativa.

3.2 Expansão de Taylor do Escore

Expandindo o escore em torno de \(\mathbf{b}\):

\[ \mathbf{U}(\boldsymbol{\beta}) \approx \mathbf{U}(\mathbf{b}) - \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.5} \]


4 Distribuição Amostral do EMV

4.1 Derivação

Por definição, o EMV \(\mathbf{b}\) maximiza \(\ell(\mathbf{b})\), portanto \(\mathbf{U}(\mathbf{b}) = \mathbf{0}\). Substituindo em (5.5):

\[ \mathbf{U}(\boldsymbol{\beta}) = -\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \]

Portanto (multiplicando por \(-\mathbf{I}^{-1}\)):

\[ (\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}) \tag{*} \]

Passo a passo da derivação da distribuição de \(\mathbf{b}\):

Passo 1 — Esperança de \(\mathbf{b}\):

Como \(\mathbf{I}\) é tratada como constante e \(E(\mathbf{U}) = \mathbf{0}\) (Eq. 5.2): \[ E(\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}E(\mathbf{U}) = \mathbf{0} \implies E(\mathbf{b}) = \boldsymbol{\beta} \] O EMV é assintoticamente não-viesado. ✓

Passo 2 — Variância-covariância de \(\mathbf{b}\):

\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = \mathbf{I}^{-1}\underbrace{E[\mathbf{U}\mathbf{U}^T]}_{=\,\mathbf{I}}\mathbf{I}^{-1} = \mathbf{I}^{-1} \tag{5.6} \]

A matriz de variância-covariância do EMV é a inversa da matriz de informação de Fisher.

Passo 3 — Distribuição assintótica:

Como \(\mathbf{U} \sim \text{MVN}(\mathbf{0}, \mathbf{I})\) assintoticamente e \(\mathbf{b} - \boldsymbol{\beta} = \mathbf{I}^{-1}\mathbf{U}\):

\[ (\mathbf{b} - \boldsymbol{\beta})^T\mathbf{I}(\mathbf{b} - \boldsymbol{\beta}) \sim \chi^2(p) \tag{5.7} \]

Esta é a estatística de Wald. Para o caso univariado, a forma equivalente e mais usual é:

\[ b \sim N(\beta,\, I^{-1}) \tag{5.8} \]

Importante

Resumo — Distribuição assintótica do EMV:

\[\mathbf{b} \overset{\text{assint.}}{\sim} \text{MVN}(\boldsymbol{\beta},\, \mathbf{I}^{-1})\]

  • Intervalo de confiança de \((1-\alpha)\times 100\%\) para \(\beta_j\): \(\; b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}}\)
  • Erro padrão de \(b_j\): \(\;\widehat{\text{ep}}(b_j) = \sqrt{[\hat{\mathbf{I}}^{-1}]_{jj}}\)

4.2 Exemplo 5.4.1 — Modelo Normal Linear

Para o MLG Normal com ligação identidade: \[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2) \]

Como \(\partial\mu_i/\partial\eta_i = 1\) e \(\text{var}(Y_i) = \sigma^2\), a informação (Eq. 4.20) é:

\[ I_{jk} = \sum_{i=1}^N \frac{x_{ij}\,x_{ik}}{\sigma^2} \implies \mathbf{I} = \frac{1}{\sigma^2}\mathbf{X}^T\mathbf{X} \tag{5.10} \]

O estimador de mínimos quadrados (= EMV para a Normal) é:

\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{5.11} \]

Para o modelo Normal, todos os resultados são exatos (não apenas assintóticos):

\[ \mathbf{b} \sim \text{MVN}\!\left(\boldsymbol{\beta},\, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}\right) \]

Por quê exato? Porque \(\mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}\) é combinação linear de \(Y_i\)’s que são normais — portanto \(\mathbf{b}\) também é exatamente normal, independentemente do tamanho de amostra.

Derivação da variância-covariância de \(\mathbf{b}\):

De (5.11): \(\mathbf{b} - \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\)

\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\underbrace{\text{var}(\mathbf{y})}_{=\,\sigma^2\mathbf{I}}\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} = \mathbf{I}^{-1} \checkmark \]

Distribuição amostral de b₁ e b₂ (1000 réplicas de simulação Monte Carlo) comparada com as distribuições teóricas. O modelo é y = 2 + 3x + ε com ε ~ N(0, 1) e N = 30 observações.

5 A Deviance

5.1 Modelo Saturado e Razão de Verossimilhança

O modelo saturado é o MLG com o número máximo de parâmetros que podem ser estimados — um parâmetro para cada padrão de covariável distinto. Seja \(m\) esse número máximo. O modelo saturado fornece o melhor ajuste possível aos dados.

A razão de verossimilhança entre o modelo saturado e o modelo de interesse é:

\[ \lambda = \frac{L(\mathbf{b}_{\max};\,\mathbf{y})}{L(\mathbf{b};\,\mathbf{y})} \geq 1 \]

Valores grandes de \(\lambda\) indicam que o modelo de interesse é um ajuste ruim em comparação ao saturado.

5.2 Definição da Deviance

O logaritmo da razão de verossimilhança multiplicado por 2 — chamado de deviance por Nelder e Wedderburn (1972) — é a estatística de bondade de ajuste padrão para MLGs:

\[ \boxed{D = 2\bigl[\ell(\mathbf{b}_{\max};\,\mathbf{y}) - \ell(\mathbf{b};\,\mathbf{y})\bigr]} \tag{5.D} \]

5.3 Distribuição Amostral da Deviance

Derivação: Partindo da expansão de Taylor (5.4) avaliada no EMV \(\mathbf{b}\) (onde \(\mathbf{U}(\mathbf{b}) = \mathbf{0}\)):

\[ 2\bigl[\ell(\mathbf{b};\,\mathbf{y}) - \ell(\boldsymbol{\beta};\,\mathbf{y})\bigr] = (\boldsymbol{\beta} - \mathbf{b})^T\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \sim \chi^2(p) \tag{5.7} \]

A deviance pode ser decomposta como:

\[ D = \underbrace{2\bigl[\ell(\mathbf{b}_{\max}) - \ell(\boldsymbol{\beta}_{\max})\bigr]}_{\chi^2(m)} - \underbrace{2\bigl[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta})\bigr]}_{\chi^2(p)} + \underbrace{2\bigl[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})\bigr]}_{\upsilon \text{ (constante)}} \tag{5.12} \]

Portanto, a distribuição assintótica da deviance é:

\[ D \sim \chi^2(m - p,\, \upsilon) \]

onde \(m - p\) são os graus de liberdade e \(\upsilon = 2[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})]\) é o parâmetro de não-centralidade.

Importante

Interpretação prática:

  • Se o modelo ajusta bem: \(\upsilon \approx 0\) e \(D \sim \chi^2(m-p)\) (central). Como \(E[\chi^2(m-p)] = m-p\), espera-se \(D \approx m-p\).
  • Se o modelo ajusta mal: \(\upsilon > 0\) e \(D\) terá distribuição não-central, com média \(m-p+\upsilon > m-p\).

Regra prática: \(D/(m-p)\) próximo de 1 indica bom ajuste; muito maior que 1 indica ajuste inadequado.


5.4 Exemplo 5.6.1 — Deviance para Modelo Binomial

Para \(Y_i \sim \text{Bin}(n_i, \pi_i)\) independentes, o modelo saturado tem \(\hat\pi_i = y_i/n_i\), e a deviance é:

\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat{y}_i} + (n_i - y_i)\log\frac{n_i - y_i}{n_i - \hat{y}_i}\right] \]

onde \(\hat{y}_i = n_i\hat\pi_i\) são os valores ajustados pelo modelo de interesse.

Esta expressão pode ser escrita na forma \(D = 2\sum o_i\log(o_i/e_i)\), onde \(o_i\) são as frequências observadas e \(e_i\) as esperadas — análoga à estatística G de bondade de ajuste.


5.5 Exemplo 5.6.2 — Deviance para Modelo Normal

Para o modelo Normal, o modelo saturado tem \(\hat\mu_i = y_i\) (cada observação é sua própria média). A deviance é:

\[ D = \frac{1}{\sigma^2}\sum_{i=1}^N (y_i - \hat\mu_i)^2 = \frac{\text{SQR}}{\sigma^2} \tag{5.13} \]

onde SQR é a soma de quadrados dos resíduos.

Problema: \(D\) depende de \(\sigma^2\), que geralmente é desconhecido para a Normal. Portanto, \(D\) não pode ser usado diretamente como estatística de bondade de ajuste para a Normal.

Solução: estimamos \(\sigma^2\) a partir dos próprios dados: \[ \hat\sigma^2 = \frac{\sum(y_i - \hat\mu_i)^2}{N - p} = \frac{\sigma^2 D}{N - p} \]

A deviance escalada \(\sigma^2 D = \sum(y_i - \hat\mu_i)^2\) é o que a maioria dos programas reporta como “deviance” para modelos normais.

Distribuição exata: Para o modelo Normal com \(p\) parâmetros estimados: \[ D \sim \chi^2(N - p) \quad \text{exatamente} \]

Isso decorre da teoria da matriz chapéu (hat matrix) \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\):

\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \frac{\mathbf{y}^T(\mathbf{I}-\mathbf{H})\mathbf{y}}{\sigma^2} \]

Como \(\mathbf{I} - \mathbf{H}\) é idempotente com posto \(N - p\), pelo Teorema de Cochran, \(D \sim \chi^2(N-p)\).


5.6 Exemplo 5.6.3 — Deviance para Modelo de Poisson

Para \(Y_i \sim \text{Po}(\lambda_i)\), o modelo saturado tem \(\hat\lambda_i = y_i\). A deviance é:

\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat\lambda_i} - (y_i - \hat\lambda_i)\right] = 2\sum_{i=1}^N o_i\log\frac{o_i}{e_i} \tag{5.D.Poisson} \]

(usando que \(\sum y_i = \sum \hat\lambda_i\) para a maioria dos modelos de Poisson).

Vantagem em relação à Normal: \(D\) pode ser calculado diretamente a partir dos dados, sem necessitar de nenhum parâmetro desconhecido.

5.6.1 Exemplo Numérico: Regressão de Poisson (Dados da Seção 4.4)

Tabela 5.1 — Contribuições à deviance para a regressão de Poisson (dados da Seção 4.4).
Termos
i x y ŷ y log(y/ŷ) contrib. D
1 -1 2 2.51633 -0.45931 0.05702
2 -1 3 2.51633 0.52743 0.04376
3 0 6 7.45163 -1.30004 0.15159
4 0 7 7.45163 -0.43766 0.01397
5 0 8 7.45163 0.56807 0.01970
6 0 9 7.45163 1.69913 0.15076
7 1 10 12.38693 -2.14057 0.24636
8 1 12 12.38693 -0.38082 0.00611
9 1 15 12.38693 2.87112 0.25805
Total NA NA NA 0.94736 0.94733

Resultados:

  • \(D = 2 \times 0{,}94735 = 1{,}8947\)
  • Graus de liberdade: \(N - p = 9 - 2 = 7\)
  • \(E[\chi^2(7)] = 7 \implies D/\text{gl} = 0{,}27\)muito abaixo de 1, indicando excelente ajuste
  • \(D\) está abaixo do percentil 5% inferior de \(\chi^2(7)\) — consistente com dados artificiais onde a relação é exatamente linear

Distribuição χ²(7) com a deviance observada marcada. O valor D = 1.89 está bem abaixo da região crítica, indicando bom ajuste.

6 Testes de Hipóteses

6.1 Três Estatísticas de Teste

Para testar \(H_0: \boldsymbol{\beta} = \boldsymbol{\beta}_0\) contra \(H_1: \boldsymbol{\beta} \neq \boldsymbol{\beta}_0\), existem três estatísticas assintoticamente equivalentes (todas \(\sim \chi^2(p)\) sob \(H_0\)):

Estatística Fórmula Quando usar
Wald \((\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b})(\mathbf{b}-\boldsymbol{\beta}_0)\) Quando o EMV \(\mathbf{b}\) é fácil de obter
Escore \(\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}(\boldsymbol{\beta}_0)\mathbf{U}(\boldsymbol{\beta}_0)\) Quando o EMV sob \(H_0\) é simples
Razão de verossimilhanças (deviance) \(2[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta}_0)]\) Mais geral; requer ajuste de ambos os modelos

Equivalência assintótica: Sob condições de regularidade, as três estatísticas são assintoticamente iguais — mas em amostras finitas podem diferir, especialmente para distribuições assimétricas ou parâmetros perto das fronteiras do espaço paramétrico.

6.2 Teste pela Diferença de Deviances (Modelos Aninhados)

Sejam \(M_0\) (\(q\) parâmetros) e \(M_1\) (\(p\) parâmetros, \(q < p\)) modelos aninhados. A diferença de deviances é:

\[ \Delta D = D_0 - D_1 = 2\bigl[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)\bigr] \]

Importante

Distribuição de \(\Delta D\):

  • Sob \(H_0\) (\(M_0\) correto): \(\Delta D \sim \chi^2(p - q)\) (central)
  • Sob \(H_1\) (\(M_0\) incorreto): \(\Delta D\) tem distribuição \(\chi^2\) não-central com média \(> p - q\)

Regra de decisão: rejeitar \(H_0\) se \(\Delta D > \chi^2_{1-\alpha}(p-q)\).

A distribuição amostral de \(\Delta D\) é geralmente melhor aproximada pelo \(\chi^2\) do que a de cada deviance individual.

Comportamento de ΔD sob H₀ (curva azul, χ²(1)) e sob H₁ com não-centralidade crescente (curvas coloridas). Sob H₁, a distribuição desloca-se para a direita, aumentando a probabilidade de rejeição.

6.3 Exemplo 5.7.1 — Teste para o Modelo Normal: Peso ao Nascer

Este é o exemplo do Capítulo 2 (Seção 2.2.2). Dois modelos são comparados para o peso ao nascer (\(Y\)) em função da idade gestacional (\(x\)) para meninos e meninas:

  • \(M_0\) — modelo restrito: mesma inclinação para meninos e meninas (\(q = 3\) parâmetros: \(\alpha_1, \alpha_2, \beta\))
  • \(M_1\) — modelo completo: inclinações separadas (\(p = 4\) parâmetros: \(\alpha_1, \alpha_2, \beta_1, \beta_2\))

Deviances e teste F:

Como a Normal tem \(\sigma^2\) desconhecido, a deviance não pode ser usada diretamente. Usa-se a estatística \(F\):

\[ F = \frac{(D_0 - D_1)/(p-q)}{D_1/(N-p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \]

Tabela — Comparação de modelos para peso ao nascer (N = 24).
Modelo Parâmetros gl (N−p) SQR SQR/gl
M₀ (inclinação comum) 3 21 658770.8 31370.0
M₁ (inclinações separadas) 4 20 652424.5 32621.2
ΔS = S₀ − S₁ = 6346.3
F  = (6346.3 / 1) / (652424.5 / 20) = 0.19
Sob H₀: F ~ F(1, 20)
p-valor = 0.6639
Conclusão: Não há evidência contra H₀ (inclinações iguais)

Distribuição F(1, 20) e o valor observado F = 0.19. O valor está muito abaixo da região crítica: não há evidência de que as inclinações diferem entre meninos e meninas.

Conclusão: \(F = 0{,}19\) é muito menor que o valor crítico \(F_{0{,}95}(1,20) \approx 4{,}35\). Não há evidência de que as inclinações diferem — os dados são consistentes com o modelo mais simples \(M_0\) (retas paralelas, mesma taxa de crescimento fetal para meninos e meninas).


7 Intervalos de Confiança

7.1 Via Estatística de Wald

O intervalo de confiança de \((1-\alpha)\times 100\%\) para \(\beta_j\) baseado na normalidade assintótica do EMV é:

\[ b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}} \]

Para \(\alpha = 0{,}05\): \(z_{0{,}025} = 1{,}96\).

7.2 Via Perfil de Log-verossimilhança

Uma abordagem alternativa inverte o teste de razão de verossimilhanças. O intervalo de confiança de \((1-\alpha)\times 100\%\) para \(\beta_j\) é o conjunto de valores \(\beta_{j0}\) para os quais o teste não rejeita \(H_0\):

\[ \left\{\beta_{j0} : 2\bigl[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)\bigr] \leq \chi^2_{1-\alpha}(1)\right\} \]

onde \(\boldsymbol{\beta}^*\) é o EMV com \(\beta_j = \beta_{j0}\) fixado (perfil).

Qual preferir? Para amostras grandes, ambos coincidem. Para amostras pequenas ou parâmetros perto das fronteiras do espaço paramétrico, o intervalo de perfil tende a ser mais preciso — especialmente para parâmetros como probabilidades (\(\pi \in [0,1]\)) ou variâncias (\(\sigma^2 > 0\)).

Comparação entre IC de Wald (simétrico em torno do EMV) e IC de perfil (baseado na log-verossimilhança). Para a Normal, são idênticos; para a Poisson, o perfil é ligeiramente assimétrico.

8 Síntese: Quadro Completo de Inferência para MLGs

Quadro de ferramentas de inferência para MLGs.
Ferramenta Fórmula Distrib..sob.H0 Normal..exato.
Intervalo de confiança (Wald) $$b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}}$$ Sim
Intervalo de confiança (perfil ℓ) $$\{\beta_j : 2[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)] \leq \chi^2_{1-\alpha}(1)\}$$ Sim
Teste de Wald $$(\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b}-\boldsymbol{\beta}_0)$$ $$\chi^2(p)$$ Sim
Teste do escore $$\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}_0)$$ $$\chi^2(p)$$ Sim
Teste da deviance (razão de veross.) $$\Delta D = D_0 - D_1 = 2[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)]$$ $$\chi^2(p-q)$$ Sim (via F)

9 Mapa Conceitual do Capítulo 5

INFERÊNCIA EM MLGs
══════════════════════════════════════════════════════════════════════
                    
  ESCORE U(β)              EMV b                DEVIANCE D
  ══════════              ═════                ══════════
  E(U) = 0                b = argmax ℓ         D = 2[ℓ(b_max) − ℓ(b)]
  var(U) = I              E(b) = β (assint.)
                          Var(b) = I⁻¹         Sob H₀ correto:
  U/√I ~ N(0,1)                                D ~ χ²(m − p)
  UᵀI⁻¹U ~ χ²(p)         b ~ MVN(β, I⁻¹)      
                          (b−β)ᵀI(b−β)~χ²(p)  Normal: D = SQR/σ²
                          (Wald)               Poisson/Binomial:
                                               D calculada diretamente
  
  ──────────────────────────────────────────────────────────────────
  COMPARAÇÃO DE MODELOS ANINHADOS (M₀ ⊂ M₁)
  
  ΔD = D₀ − D₁ = 2[ℓ(b₁) − ℓ(b₀)]  ~  χ²(p − q)  sob H₀
  
  Para Normal (σ² desconhecido):
  F = [ΔD/(p−q)] / [D₁/(N−p)]  ~  F(p−q, N−p)  sob H₀
  ══════════════════════════════════════════════════════════════════════

9.1 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.

Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, Series A, 135(3), 370–384.

Fahrmeir, L. & Kaufmann, H. (1985). Consistency and Asymptotic Normality of the Maximum Likelihood Estimator in Generalized Linear Models. The Annals of Statistics, 13(1), 342–368.