Modelos Lineares Generalizados
Apostila — Capítulo 5: Inferência
Nota ao leitor: Esta apostila resume o Capítulo 5 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo apresenta as ferramentas de inferência estatística para MLGs: distribuições amostrais do escore, do EMV e da deviance; testes de hipóteses por comparação de modelos aninhados; e intervalos de confiança. Todas as demonstrações são explicadas passo a passo, e os exemplos numéricos são reproduzidos com tabelas e gráficos.
Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.
1 Introdução: As Duas Ferramentas de Inferência
As duas ferramentas principais de inferência estatística são:
- Intervalos de confiança (estimativas intervalares)
- Cada vez mais considerados mais úteis que testes de hipóteses, pois a largura do intervalo fornece uma medida direta da precisão com que as inferências podem ser feitas — de forma conceitualmente mais simples do que a “potência” de um teste.
- Testes de hipóteses
- Em MLGs, realizados comparando o ajuste de dois modelos relacionados (aninhados), com a mesma distribuição e função de ligação, mas componentes lineares de tamanhos diferentes.
1.1 A Lógica do Teste por Comparação de Modelos
O processo de teste de hipóteses via modelos pode ser resumido em cinco etapas:
As distribuições amostrais necessárias dependem da distribuição de \(Y_i\). Para variáveis normais, são exatas; para as demais, são assintóticas (Teorema Central do Limite).
2 Distribuição Amostral do Escore
2.1 Resultado Geral
Para um MLG com parâmetros \(\boldsymbol{\beta}\), as estatísticas escore (Equação 4.18) satisfazem:
\[ E(U_j) = 0 \quad \text{para todo } j \tag{5.2} \]
e a matriz de variância-covariância do vetor escore \(\mathbf{U}\) é a matriz de informação de Fisher:
\[ I_{jk} = E[U_j U_k] \]
Distribuição assintótica do escore:
Caso univariado (\(p = 1\)): \[ \frac{U}{\sqrt{I}} \sim N(0,1) \qquad \text{ou equivalentemente} \qquad \frac{U^2}{I} \sim \chi^2(1) \]
Caso multivariado (\(p > 1\)): \[ \mathbf{U} \sim \text{MVN}(\mathbf{0},\, \mathbf{I}) \qquad \Rightarrow \qquad \mathbf{U}^T \mathbf{I}^{-1} \mathbf{U} \sim \chi^2(p) \tag{5.3} \]
Por que isso é útil? A distribuição do escore pode ser avaliada em qualquer valor de \(\boldsymbol{\beta}\), não apenas no EMV. Isso permite construir testes para hipóteses como \(H_0: \beta_j = \beta_{j0}\) sem precisar estimar o modelo completo — particularmente conveniente para modelos complexos onde o ajuste é custoso.
2.2 Exemplo 5.2.1 — Escore para a Distribuição Normal
Seja \(Y_i \sim N(\mu, \sigma^2)\) independentes, com \(\sigma^2\) conhecido e \(\mu\) o parâmetro de interesse.
Log-verossimilhança: \[ \ell(\mu;\,\mathbf{y}) = -\frac{1}{2\sigma^2}\sum_{i=1}^N (y_i - \mu)^2 - N\log(\sigma\sqrt{2\pi}) \]
Escore: \[ U = \frac{d\ell}{d\mu} = \frac{1}{\sigma^2}\sum_{i=1}^N (Y_i - \mu) = \frac{N(\bar{Y} - \mu)}{\sigma^2} \]
Verificação de \(E(U) = 0\): Como \(E(Y_i) = \mu\), temos \(E(\bar{Y}) = \mu\), portanto \(E(U) = 0\). ✓
Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\sigma^4}\sum_{i=1}^N \text{var}(Y_i) = \frac{N\sigma^2}{\sigma^4} = \frac{N}{\sigma^2} \]
Padronização: \[ \frac{U}{\sqrt{I}} = \frac{N(\bar{Y}-\mu)/\sigma^2}{\sqrt{N/\sigma^2}} = \frac{\bar{Y} - \mu}{\sigma/\sqrt{N}} \sim N(0,1) \]
Este é um resultado exato (não apenas assintótico), porque \(\bar{Y} \sim N(\mu, \sigma^2/N)\) exatamente.
Intervalo de confiança de 95% para \(\mu\) (com \(\sigma\) conhecido): \[ \bar{y} \pm 1{,}96\,\frac{\sigma}{\sqrt{N}} \]
2.3 Exemplo 5.2.2 — Escore para a Distribuição Binomial
Seja \(Y \sim \text{Bin}(n, \pi)\).
Escore: \[ U = \frac{d\ell}{d\pi} = \frac{Y - n\pi}{\pi(1-\pi)} \]
Como \(E(Y) = n\pi\), temos \(E(U) = 0\). ✓
Informação de Fisher: \[ I = \text{var}(U) = \frac{1}{\pi^2(1-\pi)^2}\text{var}(Y) = \frac{n\pi(1-\pi)}{\pi^2(1-\pi)^2} = \frac{n}{\pi(1-\pi)} \]
Padronização: \[ \frac{U}{\sqrt{I}} = \frac{(Y - n\pi)/[\pi(1-\pi)]}{\sqrt{n/[\pi(1-\pi)]}} = \frac{Y - n\pi}{\sqrt{n\pi(1-\pi)}} \sim N(0,1) \]
Este é a aproximação Normal para a Binomial (sem correção de continuidade). Serve de base para testes e intervalos de confiança para proporções.
3 Aproximações de Taylor e Distribuição do EMV
3.1 Expansão de Taylor da Log-verossimilhança
Para um único parâmetro \(\beta\), a expansão de Taylor da log-verossimilhança em torno do estimador \(b\) é:
\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) + \frac{1}{2}(\beta - b)^2 U'(b) \tag{5.4a} \]
Aproximando \(U' = d^2\ell/d\beta^2\) pelo seu valor esperado \(E(U') = -I\) (veja Capítulo 3, Eq. 3.17):
\[ \ell(\beta) \approx \ell(b) + (\beta - b)U(b) - \frac{1}{2}(\beta - b)^2 I(b) \]
Para o vetor de parâmetros \(\boldsymbol{\beta}\):
\[ \ell(\boldsymbol{\beta}) \approx \ell(\mathbf{b}) + (\boldsymbol{\beta} - \mathbf{b})^T \mathbf{U}(\mathbf{b}) - \frac{1}{2}(\boldsymbol{\beta} - \mathbf{b})^T \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.4} \]
Intuição: Esta expansão diz que, perto do máximo \(\mathbf{b}\), a log-verossimilhança se parece com uma parábola (ou uma quadrática, no caso multivariado). A “abertura” da parábola é controlada por \(\mathbf{I}\) — quanto maior a informação, mais “pontiaguda” é a verossimilhança e mais precisa é a estimativa.
3.2 Expansão de Taylor do Escore
Expandindo o escore em torno de \(\mathbf{b}\):
\[ \mathbf{U}(\boldsymbol{\beta}) \approx \mathbf{U}(\mathbf{b}) - \mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \tag{5.5} \]
4 Distribuição Amostral do EMV
4.1 Derivação
Por definição, o EMV \(\mathbf{b}\) maximiza \(\ell(\mathbf{b})\), portanto \(\mathbf{U}(\mathbf{b}) = \mathbf{0}\). Substituindo em (5.5):
\[ \mathbf{U}(\boldsymbol{\beta}) = -\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \]
Portanto (multiplicando por \(-\mathbf{I}^{-1}\)):
\[ (\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}) \tag{*} \]
Passo a passo da derivação da distribuição de \(\mathbf{b}\):
Passo 1 — Esperança de \(\mathbf{b}\):
Como \(\mathbf{I}\) é tratada como constante e \(E(\mathbf{U}) = \mathbf{0}\) (Eq. 5.2): \[ E(\mathbf{b} - \boldsymbol{\beta}) = \mathbf{I}^{-1}E(\mathbf{U}) = \mathbf{0} \implies E(\mathbf{b}) = \boldsymbol{\beta} \] O EMV é assintoticamente não-viesado. ✓
Passo 2 — Variância-covariância de \(\mathbf{b}\):
\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = \mathbf{I}^{-1}\underbrace{E[\mathbf{U}\mathbf{U}^T]}_{=\,\mathbf{I}}\mathbf{I}^{-1} = \mathbf{I}^{-1} \tag{5.6} \]
A matriz de variância-covariância do EMV é a inversa da matriz de informação de Fisher.
Passo 3 — Distribuição assintótica:
Como \(\mathbf{U} \sim \text{MVN}(\mathbf{0}, \mathbf{I})\) assintoticamente e \(\mathbf{b} - \boldsymbol{\beta} = \mathbf{I}^{-1}\mathbf{U}\):
\[ (\mathbf{b} - \boldsymbol{\beta})^T\mathbf{I}(\mathbf{b} - \boldsymbol{\beta}) \sim \chi^2(p) \tag{5.7} \]
Esta é a estatística de Wald. Para o caso univariado, a forma equivalente e mais usual é:
\[ b \sim N(\beta,\, I^{-1}) \tag{5.8} \]
4.2 Exemplo 5.4.1 — Modelo Normal Linear
Para o MLG Normal com ligação identidade: \[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2) \]
Como \(\partial\mu_i/\partial\eta_i = 1\) e \(\text{var}(Y_i) = \sigma^2\), a informação (Eq. 4.20) é:
\[ I_{jk} = \sum_{i=1}^N \frac{x_{ij}\,x_{ik}}{\sigma^2} \implies \mathbf{I} = \frac{1}{\sigma^2}\mathbf{X}^T\mathbf{X} \tag{5.10} \]
O estimador de mínimos quadrados (= EMV para a Normal) é:
\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{5.11} \]
Para o modelo Normal, todos os resultados são exatos (não apenas assintóticos):
\[ \mathbf{b} \sim \text{MVN}\!\left(\boldsymbol{\beta},\, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}\right) \]
Por quê exato? Porque \(\mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}\) é combinação linear de \(Y_i\)’s que são normais — portanto \(\mathbf{b}\) também é exatamente normal, independentemente do tamanho de amostra.
Derivação da variância-covariância de \(\mathbf{b}\):
De (5.11): \(\mathbf{b} - \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})\)
\[ E\bigl[(\mathbf{b}-\boldsymbol{\beta})(\mathbf{b}-\boldsymbol{\beta})^T\bigr] = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\underbrace{\text{var}(\mathbf{y})}_{=\,\sigma^2\mathbf{I}}\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} = \mathbf{I}^{-1} \checkmark \]
5 A Deviance
5.1 Modelo Saturado e Razão de Verossimilhança
O modelo saturado é o MLG com o número máximo de parâmetros que podem ser estimados — um parâmetro para cada padrão de covariável distinto. Seja \(m\) esse número máximo. O modelo saturado fornece o melhor ajuste possível aos dados.
A razão de verossimilhança entre o modelo saturado e o modelo de interesse é:
\[ \lambda = \frac{L(\mathbf{b}_{\max};\,\mathbf{y})}{L(\mathbf{b};\,\mathbf{y})} \geq 1 \]
Valores grandes de \(\lambda\) indicam que o modelo de interesse é um ajuste ruim em comparação ao saturado.
5.2 Definição da Deviance
O logaritmo da razão de verossimilhança multiplicado por 2 — chamado de deviance por Nelder e Wedderburn (1972) — é a estatística de bondade de ajuste padrão para MLGs:
\[ \boxed{D = 2\bigl[\ell(\mathbf{b}_{\max};\,\mathbf{y}) - \ell(\mathbf{b};\,\mathbf{y})\bigr]} \tag{5.D} \]
5.3 Distribuição Amostral da Deviance
Derivação: Partindo da expansão de Taylor (5.4) avaliada no EMV \(\mathbf{b}\) (onde \(\mathbf{U}(\mathbf{b}) = \mathbf{0}\)):
\[ 2\bigl[\ell(\mathbf{b};\,\mathbf{y}) - \ell(\boldsymbol{\beta};\,\mathbf{y})\bigr] = (\boldsymbol{\beta} - \mathbf{b})^T\mathbf{I}(\mathbf{b})(\boldsymbol{\beta} - \mathbf{b}) \sim \chi^2(p) \tag{5.7} \]
A deviance pode ser decomposta como:
\[ D = \underbrace{2\bigl[\ell(\mathbf{b}_{\max}) - \ell(\boldsymbol{\beta}_{\max})\bigr]}_{\chi^2(m)} - \underbrace{2\bigl[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta})\bigr]}_{\chi^2(p)} + \underbrace{2\bigl[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})\bigr]}_{\upsilon \text{ (constante)}} \tag{5.12} \]
Portanto, a distribuição assintótica da deviance é:
\[ D \sim \chi^2(m - p,\, \upsilon) \]
onde \(m - p\) são os graus de liberdade e \(\upsilon = 2[\ell(\boldsymbol{\beta}_{\max}) - \ell(\boldsymbol{\beta})]\) é o parâmetro de não-centralidade.
5.4 Exemplo 5.6.1 — Deviance para Modelo Binomial
Para \(Y_i \sim \text{Bin}(n_i, \pi_i)\) independentes, o modelo saturado tem \(\hat\pi_i = y_i/n_i\), e a deviance é:
\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat{y}_i} + (n_i - y_i)\log\frac{n_i - y_i}{n_i - \hat{y}_i}\right] \]
onde \(\hat{y}_i = n_i\hat\pi_i\) são os valores ajustados pelo modelo de interesse.
Esta expressão pode ser escrita na forma \(D = 2\sum o_i\log(o_i/e_i)\), onde \(o_i\) são as frequências observadas e \(e_i\) as esperadas — análoga à estatística G de bondade de ajuste.
5.5 Exemplo 5.6.2 — Deviance para Modelo Normal
Para o modelo Normal, o modelo saturado tem \(\hat\mu_i = y_i\) (cada observação é sua própria média). A deviance é:
\[ D = \frac{1}{\sigma^2}\sum_{i=1}^N (y_i - \hat\mu_i)^2 = \frac{\text{SQR}}{\sigma^2} \tag{5.13} \]
onde SQR é a soma de quadrados dos resíduos.
Problema: \(D\) depende de \(\sigma^2\), que geralmente é desconhecido para a Normal. Portanto, \(D\) não pode ser usado diretamente como estatística de bondade de ajuste para a Normal.
Solução: estimamos \(\sigma^2\) a partir dos próprios dados: \[ \hat\sigma^2 = \frac{\sum(y_i - \hat\mu_i)^2}{N - p} = \frac{\sigma^2 D}{N - p} \]
A deviance escalada \(\sigma^2 D = \sum(y_i - \hat\mu_i)^2\) é o que a maioria dos programas reporta como “deviance” para modelos normais.
Distribuição exata: Para o modelo Normal com \(p\) parâmetros estimados: \[ D \sim \chi^2(N - p) \quad \text{exatamente} \]
Isso decorre da teoria da matriz chapéu (hat matrix) \(\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\):
\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \frac{\mathbf{y}^T(\mathbf{I}-\mathbf{H})\mathbf{y}}{\sigma^2} \]
Como \(\mathbf{I} - \mathbf{H}\) é idempotente com posto \(N - p\), pelo Teorema de Cochran, \(D \sim \chi^2(N-p)\).
5.6 Exemplo 5.6.3 — Deviance para Modelo de Poisson
Para \(Y_i \sim \text{Po}(\lambda_i)\), o modelo saturado tem \(\hat\lambda_i = y_i\). A deviance é:
\[ D = 2\sum_{i=1}^N \left[y_i\log\frac{y_i}{\hat\lambda_i} - (y_i - \hat\lambda_i)\right] = 2\sum_{i=1}^N o_i\log\frac{o_i}{e_i} \tag{5.D.Poisson} \]
(usando que \(\sum y_i = \sum \hat\lambda_i\) para a maioria dos modelos de Poisson).
Vantagem em relação à Normal: \(D\) pode ser calculado diretamente a partir dos dados, sem necessitar de nenhum parâmetro desconhecido.
5.6.1 Exemplo Numérico: Regressão de Poisson (Dados da Seção 4.4)
| i | x | y | ŷ | y log(y/ŷ) | contrib. D |
|---|---|---|---|---|---|
| 1 | -1 | 2 | 2.51633 | -0.45931 | 0.05702 |
| 2 | -1 | 3 | 2.51633 | 0.52743 | 0.04376 |
| 3 | 0 | 6 | 7.45163 | -1.30004 | 0.15159 |
| 4 | 0 | 7 | 7.45163 | -0.43766 | 0.01397 |
| 5 | 0 | 8 | 7.45163 | 0.56807 | 0.01970 |
| 6 | 0 | 9 | 7.45163 | 1.69913 | 0.15076 |
| 7 | 1 | 10 | 12.38693 | -2.14057 | 0.24636 |
| 8 | 1 | 12 | 12.38693 | -0.38082 | 0.00611 |
| 9 | 1 | 15 | 12.38693 | 2.87112 | 0.25805 |
| Total | NA | NA | NA | 0.94736 | 0.94733 |
Resultados:
- \(D = 2 \times 0{,}94735 = 1{,}8947\)
- Graus de liberdade: \(N - p = 9 - 2 = 7\)
- \(E[\chi^2(7)] = 7 \implies D/\text{gl} = 0{,}27\) — muito abaixo de 1, indicando excelente ajuste
- \(D\) está abaixo do percentil 5% inferior de \(\chi^2(7)\) — consistente com dados artificiais onde a relação é exatamente linear
6 Testes de Hipóteses
6.1 Três Estatísticas de Teste
Para testar \(H_0: \boldsymbol{\beta} = \boldsymbol{\beta}_0\) contra \(H_1: \boldsymbol{\beta} \neq \boldsymbol{\beta}_0\), existem três estatísticas assintoticamente equivalentes (todas \(\sim \chi^2(p)\) sob \(H_0\)):
| Estatística | Fórmula | Quando usar |
|---|---|---|
| Wald | \((\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b})(\mathbf{b}-\boldsymbol{\beta}_0)\) | Quando o EMV \(\mathbf{b}\) é fácil de obter |
| Escore | \(\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}(\boldsymbol{\beta}_0)\mathbf{U}(\boldsymbol{\beta}_0)\) | Quando o EMV sob \(H_0\) é simples |
| Razão de verossimilhanças (deviance) | \(2[\ell(\mathbf{b}) - \ell(\boldsymbol{\beta}_0)]\) | Mais geral; requer ajuste de ambos os modelos |
Equivalência assintótica: Sob condições de regularidade, as três estatísticas são assintoticamente iguais — mas em amostras finitas podem diferir, especialmente para distribuições assimétricas ou parâmetros perto das fronteiras do espaço paramétrico.
6.2 Teste pela Diferença de Deviances (Modelos Aninhados)
Sejam \(M_0\) (\(q\) parâmetros) e \(M_1\) (\(p\) parâmetros, \(q < p\)) modelos aninhados. A diferença de deviances é:
\[ \Delta D = D_0 - D_1 = 2\bigl[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)\bigr] \]
6.3 Exemplo 5.7.1 — Teste para o Modelo Normal: Peso ao Nascer
Este é o exemplo do Capítulo 2 (Seção 2.2.2). Dois modelos são comparados para o peso ao nascer (\(Y\)) em função da idade gestacional (\(x\)) para meninos e meninas:
- \(M_0\) — modelo restrito: mesma inclinação para meninos e meninas (\(q = 3\) parâmetros: \(\alpha_1, \alpha_2, \beta\))
- \(M_1\) — modelo completo: inclinações separadas (\(p = 4\) parâmetros: \(\alpha_1, \alpha_2, \beta_1, \beta_2\))
Deviances e teste F:
Como a Normal tem \(\sigma^2\) desconhecido, a deviance não pode ser usada diretamente. Usa-se a estatística \(F\):
\[ F = \frac{(D_0 - D_1)/(p-q)}{D_1/(N-p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \]
| Modelo | Parâmetros | gl (N−p) | SQR | SQR/gl |
|---|---|---|---|---|
| M₀ (inclinação comum) | 3 | 21 | 658770.8 | 31370.0 |
| M₁ (inclinações separadas) | 4 | 20 | 652424.5 | 32621.2 |
ΔS = S₀ − S₁ = 6346.3
F = (6346.3 / 1) / (652424.5 / 20) = 0.19
Sob H₀: F ~ F(1, 20)
p-valor = 0.6639
Conclusão: Não há evidência contra H₀ (inclinações iguais)
Conclusão: \(F = 0{,}19\) é muito menor que o valor crítico \(F_{0{,}95}(1,20) \approx 4{,}35\). Não há evidência de que as inclinações diferem — os dados são consistentes com o modelo mais simples \(M_0\) (retas paralelas, mesma taxa de crescimento fetal para meninos e meninas).
7 Intervalos de Confiança
7.1 Via Estatística de Wald
O intervalo de confiança de \((1-\alpha)\times 100\%\) para \(\beta_j\) baseado na normalidade assintótica do EMV é:
\[ b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}} \]
Para \(\alpha = 0{,}05\): \(z_{0{,}025} = 1{,}96\).
7.2 Via Perfil de Log-verossimilhança
Uma abordagem alternativa inverte o teste de razão de verossimilhanças. O intervalo de confiança de \((1-\alpha)\times 100\%\) para \(\beta_j\) é o conjunto de valores \(\beta_{j0}\) para os quais o teste não rejeita \(H_0\):
\[ \left\{\beta_{j0} : 2\bigl[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)\bigr] \leq \chi^2_{1-\alpha}(1)\right\} \]
onde \(\boldsymbol{\beta}^*\) é o EMV com \(\beta_j = \beta_{j0}\) fixado (perfil).
Qual preferir? Para amostras grandes, ambos coincidem. Para amostras pequenas ou parâmetros perto das fronteiras do espaço paramétrico, o intervalo de perfil tende a ser mais preciso — especialmente para parâmetros como probabilidades (\(\pi \in [0,1]\)) ou variâncias (\(\sigma^2 > 0\)).
8 Síntese: Quadro Completo de Inferência para MLGs
| Ferramenta | Fórmula | Distrib..sob.H0 | Normal..exato. |
|---|---|---|---|
| Intervalo de confiança (Wald) | $$b_j \pm z_{\alpha/2}\,\sqrt{[\mathbf{I}^{-1}]_{jj}}$$ | — | Sim |
| Intervalo de confiança (perfil ℓ) | $$\{\beta_j : 2[\ell(\hat{\boldsymbol{\beta}}) - \ell(\boldsymbol{\beta}^*)] \leq \chi^2_{1-\alpha}(1)\}$$ | — | Sim |
| Teste de Wald | $$(\mathbf{b}-\boldsymbol{\beta}_0)^T\mathbf{I}(\mathbf{b}-\boldsymbol{\beta}_0)$$ | $$\chi^2(p)$$ | Sim |
| Teste do escore | $$\mathbf{U}(\boldsymbol{\beta}_0)^T\mathbf{I}^{-1}\mathbf{U}(\boldsymbol{\beta}_0)$$ | $$\chi^2(p)$$ | Sim |
| Teste da deviance (razão de veross.) | $$\Delta D = D_0 - D_1 = 2[\ell(\mathbf{b}_1) - \ell(\mathbf{b}_0)]$$ | $$\chi^2(p-q)$$ | Sim (via F) |
9 Mapa Conceitual do Capítulo 5
INFERÊNCIA EM MLGs
══════════════════════════════════════════════════════════════════════
ESCORE U(β) EMV b DEVIANCE D
══════════ ═════ ══════════
E(U) = 0 b = argmax ℓ D = 2[ℓ(b_max) − ℓ(b)]
var(U) = I E(b) = β (assint.)
Var(b) = I⁻¹ Sob H₀ correto:
U/√I ~ N(0,1) D ~ χ²(m − p)
UᵀI⁻¹U ~ χ²(p) b ~ MVN(β, I⁻¹)
(b−β)ᵀI(b−β)~χ²(p) Normal: D = SQR/σ²
(Wald) Poisson/Binomial:
D calculada diretamente
──────────────────────────────────────────────────────────────────
COMPARAÇÃO DE MODELOS ANINHADOS (M₀ ⊂ M₁)
ΔD = D₀ − D₁ = 2[ℓ(b₁) − ℓ(b₀)] ~ χ²(p − q) sob H₀
Para Normal (σ² desconhecido):
F = [ΔD/(p−q)] / [D₁/(N−p)] ~ F(p−q, N−p) sob H₀
══════════════════════════════════════════════════════════════════════
9.1 Referências
Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.
Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, Series A, 135(3), 370–384.
Fahrmeir, L. & Kaufmann, H. (1985). Consistency and Asymptotic Normality of the Maximum Likelihood Estimator in Generalized Linear Models. The Annals of Statistics, 13(1), 342–368.