Modelos Lineares Generalizados

Apostila — Capítulo 2: Ajuste de Modelos

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de abril de 2026

Nota ao leitor: Esta apostila resume o Capítulo 2 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo apresenta o processo de ajuste de modelos por meio de dois exemplos concretos — dados de contagem (Poisson) e dados contínuos (Normal) — e depois discute os princípios gerais de modelagem estatística, incluindo resíduos, inferência e notação matricial.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.

1 As Quatro Etapas do Ajuste de Modelos

Todo processo de modelagem estatística descrito no livro segue quatro etapas fundamentais:

Importante

As 4 etapas do ajuste de modelos:

Especificação do modelo — o modelo tem duas partes:
- Uma equação que relaciona a resposta às variáveis explicativas;
- A distribuição de probabilidade da variável resposta.
Estimação dos parâmetros — por máxima verossimilhança ou mínimos quadrados.
Verificação da adequação — o quão bem o modelo descreve os dados observados.
Inferência — intervalos de confiança, testes de hipóteses e interpretação dos resultados.

Essas quatro etapas são ilustradas a seguir com dois exemplos reais.

2 Exemplos Introdutórios

2.1 Condições Médicas Crônicas (dados de contagem)

2.1.1 Contexto

Dados do Australian Longitudinal Study on Women’s Health mostram que mulheres de áreas rurais tendem a ter menos consultas médicas. A questão é: mulheres com padrão de uso semelhante de serviços de saúde têm a mesma necessidade, medida pelo número de condições médicas crônicas?

A amostra consiste em dois grupos de mulheres com 70–75 anos e mesmo status socioeconômico:

Grupo	\(n\)	Média	Variância
Urbano	26	1,423	1,374
Rural	23	0,913	0,810

Por que Poisson? Os dados são contagens (número de condições crônicas) e, dentro de cada grupo, a média e a variância são próximas — propriedade característica da distribuição de Poisson (\(E(Y) = \text{var}(Y) = \theta\)).

2.1.2 Especificação dos Modelos

Seja \(Y_{jk}\) o número de condições da \(k\)-ésima mulher do grupo \(j\) (\(j = 1\): urbano, \(j = 2\): rural).

Modelo simples (hipótese nula \(H_0: \theta_1 = \theta_2 = \theta\)): \[ E(Y_{jk}) = \theta; \quad Y_{jk} \sim \text{Poisson}(\theta) \tag{2.1} \]

Modelo completo (hipótese alternativa \(H_1: \theta_1 \neq \theta_2\)): \[ E(Y_{jk}) = \theta_j; \quad Y_{jk} \sim \text{Poisson}(\theta_j), \quad j = 1, 2 \tag{2.2} \]

Lógica do teste: Ajustar dois modelos e comparar o ajuste. Se o modelo mais simples (2.1) descrever os dados quase tão bem quanto o mais complexo (2.2), não há razão para rejeitar \(H_0\).

2.1.3 Estimação

Sob \(H_0\) (Modelo 2.1), a log-verossimilhança é: \[ \ell_0 = \sum_{j=1}^2 \sum_{k=1}^{K_j} (y_{jk} \log\theta - \theta - \log y_{jk}!) \]

O EMV é a média geral: \[ \hat{\theta} = \frac{\sum_j \sum_k y_{jk}}{N} = 1{,}184 \]

O valor máximo da log-verossimilhança é \(\ell_0 = -68{,}39\).

Sob \(H_1\) (Modelo 2.2), o EMV por grupo é a média de cada grupo: \[ \hat{\theta}_j = \frac{\sum_k y_{jk}}{K_j} \]

Logo \(\hat{\theta}_1 = 1{,}423\) e \(\hat{\theta}_2 = 0{,}913\), com \(\ell_1 = -67{,}02\).

Importante: \(\ell_1 \geq \ell_0\) sempre — o modelo com mais parâmetros nunca pode ter verossimilhança menor. A questão é se a melhoria é estatisticamente significativa.

2.1.4 Valores Ajustados e Resíduos

Para qualquer observação \(Y_i\), o valor ajustado \(\hat{\mu}_i = \hat{\theta}\) é a estimativa de \(E(Y_i)\).

O resíduo padronizado (para Poisson) é: \[ r_i = \frac{Y_i - \hat{\theta}_i}{\sqrt{\hat{\theta}_i}} \]

Por que dividir por \(\sqrt{\hat{\theta}}\)? Para Poisson, \(\text{var}(Y) = \theta\), então \(\text{dp}(Y) = \sqrt{\theta}\). Dividir pelo desvio padrão estimado “coloca todos os resíduos na mesma escala”, permitindo compará-los entre si e com \(N(0,1)\).

2.1.5 Estatística Qui-Quadrado de Pearson

Quando os valores ajustados \(\hat{\theta}_i\) não são muito pequenos, os resíduos padronizados são aproximadamente \(N(0,1)\), e portanto \(r_i^2 \approx \chi^2(1)\). Somando sobre todas as \(m\) observações:

\[ X^2 = \sum_i r_i^2 = \sum_i \frac{(Y_i - \hat{\theta}_i)^2}{\hat{\theta}_i} \;\sim\; \chi^2(m) \tag{2.5} \]

onde \(m\) = número de observações \(-\) número de parâmetros estimados.

Esta é a clássica estatística de bondade de ajuste de Pearson: \[ X^2 = \sum_i \frac{(o_i - e_i)^2}{e_i} \] com \(o_i =\) frequência observada e \(e_i =\) frequência esperada (ajustada).

Resultados para este exemplo:

Modelo	\(X^2\) observado	gl (\(m\))	\(E(X^2) = m\)
(2.1) — 1 parâmetro	46,759	\(49 - 1 = 48\)	48
(2.2) — 2 parâmetros	43,659	\(49 - 2 = 47\)	47

A diferença entre os dois qui-quadrados é \(46{,}759 - 43{,}659 = 3{,}10\), que é pequena. Isso sugere que o Modelo (2.1) é adequado e não há evidência forte contra \(H_0\).

2.2 Peso ao Nascer e Idade Gestacional (dados contínuos)

2.2.1 Contexto

Dados de 12 meninos e 12 meninas recém-nascidos com suas idades gestacionais e pesos ao nascer. A questão: a taxa de crescimento fetal (variação do peso por semana gestacional) é igual para meninos e meninas?

2.2.2 Especificação dos Modelos

Seja \(Y_{jk}\) o peso do \(k\)-ésimo bebê do grupo \(j\) (\(j = 1\): meninos, \(j = 2\): meninas).

Modelo restrito (hipótese nula \(H_0: \beta_1 = \beta_2 = \beta\) — mesma inclinação): \[ E(Y_{jk}) = \alpha_j + \beta x_{jk}; \quad Y_{jk} \sim N(\mu_{jk}, \sigma^2) \tag{2.6} \]

Modelo completo (hipótese alternativa \(H_1: \beta_1 \neq \beta_2\) — inclinações diferentes): \[ E(Y_{jk}) = \alpha_j + \beta_j x_{jk}; \quad Y_{jk} \sim N(\mu_{jk}, \sigma^2) \tag{2.7} \]

Interpretação geométrica: O Modelo (2.6) especifica duas retas paralelas (mesmo \(\beta\), interceptos \(\alpha_j\) diferentes). O Modelo (2.7) permite retas com inclinações diferentes. Se os dados não rejeitam \(H_0\), usamos o modelo mais simples (parcimônia).

2.2.3 Estimação: Equivalência entre MV e Mínimos Quadrados

Log-verossimilhança do Modelo (2.7): \[ \ell_1 = -\frac{JK}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2}\sum_j\sum_k(y_{jk} - \alpha_j - \beta_j x_{jk})^2 \]

Maximizar \(\ell_1\) em relação a \(\alpha_j\) e \(\beta_j\) (tratando \(\sigma^2\) como constante conhecida) é equivalente a minimizar a soma dos quadrados dos resíduos: \[ S_1 = \sum_j\sum_k (y_{jk} - \alpha_j - \beta_j x_{jk})^2 \]

Equivalência MV ↔︎ MQ: Para o modelo Normal com variância homogênea, maximizar a verossimilhança e minimizar a soma de quadrados levam às mesmas equações — e portanto aos mesmos estimadores.

2.2.4 As Equações Normais

As condições de primeira ordem \(\partial S_1/\partial \alpha_j = 0\) e \(\partial S_1/\partial \beta_j = 0\) simplificam-se para o sistema linear (as “equações normais”):

\[ \sum_k y_{jk} - K\alpha_j - \beta_j \sum_k x_{jk} = 0 \] \[ \sum_k x_{jk} y_{jk} - \alpha_j \sum_k x_{jk} - \beta_j \sum_k x_{jk}^2 = 0 \]

Por que “equações normais”? O nome vem do fato de que as condições de primeira ordem equivalem a exigir que os resíduos sejam ortogonais (normais, no sentido geométrico) às colunas da matriz de planejamento \(\mathbf{X}\) — não da distribuição Normal!

A solução explícita é: \[ b_j = \frac{K\sum_k x_{jk}y_{jk} - \left(\sum_k x_{jk}\right)\left(\sum_k y_{jk}\right)}{K\sum_k x_{jk}^2 - \left(\sum_k x_{jk}\right)^2}, \qquad a_j = \bar{y}_j - b_j\bar{x}_j \]

2.2.5 Resultados Numéricos

Modelo	Inclinação(s)	Intercepto(s)	\(S_{\min}\)
(2.6) — \(H_0\), \(\beta\) comum	\(b = 120{,}894\)	\(a_1 = -1610{,}3\); \(a_2 = -1773{,}3\)	\(S_0 = 658770{,}8\)
(2.7) — \(H_1\), \(\beta_j\) distintos	\(b_1 = 111{,}983\); \(b_2 = 130{,}400\)	\(a_1 = -1268{,}7\); \(a_2 = -2141{,}7\)	\(S_1 = 652424{,}5\)

2.2.6 Distribuições das Somas de Quadrados

Para usar a diferença \(S_0 - S_1\) como estatística de teste, precisamos de suas distribuições amostrais.

Demonstração (Exercício 2.3):

A soma de quadrados \(S_1\) pode ser decomposta como:

\[ S_1 = \underbrace{\sum_j\sum_k [Y_{jk} - (\alpha_j + \beta_j x_{jk})]^2}_{\text{variação total não explicada}} - \underbrace{K\sum_j(\bar{Y}_j - \alpha_j - \beta_j\bar{x}_j)^2}_{\text{variação das médias}} - \underbrace{\sum_j(b_j - \beta_j)^2\left(\sum_k x_{jk}^2 - K\bar{x}_j^2\right)}_{\text{variação dos slopes}} \]

Os três grupos de termos são independentes e cada um tem distribuição \(\chi^2(1)\). No total:

\[ \frac{S_1}{\sigma^2} \sim \chi^2(JK - 2J) \]

Como contar os graus de liberdade? O Modelo (2.7) estima \(2J = 4\) parâmetros (\(\alpha_1, \alpha_2, \beta_1, \beta_2\)) a partir de \(JK = 24\) observações, restando \(JK - 2J = 20\) gl.

Analogamente, se \(H_0\) é verdadeira: \[ \frac{S_0}{\sigma^2} \sim \chi^2(JK - (J+1)) \]

O Modelo (2.6) estima \(J + 1 = 3\) parâmetros (\(\alpha_1, \alpha_2, \beta\)), restando \(JK - (J+1) = 21\) gl.

2.2.7 A Estatística \(F\) e o Teste de Hipóteses

Se \(H_0\) é verdadeira, a diferença: \[ \frac{S_0 - S_1}{\sigma^2} \sim \chi^2(J-1) \]

Problema: \(\sigma^2\) é desconhecido. Solução: eliminamos \(\sigma^2\) dividindo numerador e denominador por suas respectivas variáveis qui-quadrado e seus graus de liberdade:

\[ F = \frac{(S_0 - S_1)/(J-1)}{S_1/(JK-2J)} \]

Importante

Distribuição de \(F\):

Se \(H_0\) é verdadeira: \(F \sim F(J-1,\; JK-2J)\) (distribuição central)
Se \(H_0\) é falsa: \(F\) segue uma distribuição \(F\) não-central, com valor esperado maior

Valores de \(F\) muito grandes fornecem evidência contra \(H_0\).

Intuição: \(S_0 - S_1\) mede a melhoria em ajuste ao usar o modelo mais complexo. Se essa melhoria for muito grande em relação à variação residual (\(S_1\)), é improvável que ela ocorra por acaso — e rejeitamos \(H_0\).

Para o exemplo: \[ F = \frac{(658770{,}8 - 652424{,}5)/1}{652424{,}5/20} = \frac{6346{,}3}{32621{,}2} = 0{,}19 \]

Este valor é muito pequeno comparado à distribuição \(F(1, 20)\). Conclusão: não há evidência contra \(H_0\); os dados são consistentes com retas paralelas (mesma taxa de crescimento).

2.2.8 Análise dos Resíduos

Para cada observação, o resíduo padronizado é: \[ r_{jk} = \frac{y_{jk} - \hat{y}_{jk}}{s} \] onde \(\hat{y}_{jk}\) é o valor ajustado e \(s\) é o desvio padrão dos resíduos.

Os autores constroem três tipos de gráficos de resíduos (Figuras 2.3 e 2.4):

Resíduos vs. valores ajustados → detecta heterocedasticidade (variância não-constante)
Resíduos vs. variável explicativa → detecta não-linearidade
Gráfico de probabilidade Normal (Normal probability plot) → verifica normalidade

Os três gráficos mostram comportamento adequado: sem padrões sistemáticos e distribuição aproximadamente Normal.

3 Princípios Gerais de Modelagem Estatística

3.1 Análise Exploratória dos Dados

Toda análise deve começar examinando cada variável separadamente, verificando:

Escala de medição: contínua ou categórica? Nominal ou ordinal?
Forma da distribuição: tabelas de frequência, histogramas, dotplots, boxplots.
Associações: tabelas cruzadas (para categóricas), gráficos de dispersão (para contínuas), boxplots lado a lado.

Por quê? A análise exploratória orienta a escolha da distribuição (Normal? Poisson? Binomial?) e a forma funcional do modelo (linear? logarítmica?). Surpresas nos dados — assimetria, outliers, não-linearidade — devem ser identificadas antes de qualquer ajuste formal.

3.2 Formulação do Modelo

Um MLG tem dois componentes:

Componente aleatório: distribuição de \(Y\), ex.: \(Y \sim N(\mu, \sigma^2)\) ou \(Y \sim \text{Poisson}(\theta)\).
Componente sistemático (equação de ligação): \[ g[E(Y)] = \beta_0 + \beta_1 x_1 + \cdots + \beta_m x_m \]

A função \(g\) é chamada de função de ligação (link function). Ela conecta a média da distribuição ao preditor linear.

Distribuição	Função de ligação típica	Forma
Normal	Identidade	\(\mu = \eta\)
Poisson	Logarítmica	\(\log\mu = \eta\)
Binomial	Logit	\(\log[\pi/(1-\pi)] = \eta\)

A parte \(\beta_0 + \beta_1 x_1 + \cdots + \beta_m x_m\) é chamada de componente linear \(\eta\).

3.3 Estimação de Parâmetros

Os métodos mais comuns são:

Máxima Verossimilhança (MV): requer especificação completa da distribuição; fornece estimadores com boas propriedades assintóticas.
Mínimos Quadrados (MQ): requer apenas especificação de \(E(Y_i)\) e eventualmente \(\text{var}(Y_i)\); mais robusto a premissas.

Para o modelo Normal com variância constante, MV e MQ são equivalentes.

Quando não há solução analítica, usa-se otimização numérica — aspecto central dos MLGs.

3.4 Resíduos e Verificação do Modelo

3.4.1 Resíduos Padronizados

Para a Normal: \[ r_i = \frac{y_i - \hat{\mu}_i}{\hat{\sigma}} \]

Para Poisson: \[ r_i = \frac{y_i - \hat{\theta}_i}{\sqrt{\hat{\theta}_i}} \]

Estes são raízes quadradas com sinal das contribuições à estatística de Pearson \(X^2 = \sum (o_i - e_i)^2/e_i\).

O que esperar de resíduos bem comportados? Sob um modelo adequado, os resíduos padronizados devem ser: - Aproximadamente independentes - Aproximadamente \(N(0, 1)\) - Sem padrão em relação às variáveis explicativas ou aos valores ajustados

3.4.2 Gráficos de Diagnóstico

Gráfico	O que detecta
Resíduos vs. valores ajustados	Heterocedasticidade (variância não-constante)
Resíduos vs. variável explicativa	Não-linearidade, variável omitida
Resíduos vs. outras covariáveis	Necessidade de incluir novas variáveis
Normal probability plot	Desvios da normalidade, outliers
Resíduos em sequência temporal/espacial	Falta de independência (autocorrelação)

Sobre o Normal probability plot: os resíduos são plotados contra os quantis teóricos da distribuição \(N(0,1)\) (chamados de estatísticas de ordem Normal). Num modelo adequado, os pontos devem estar próximos de uma reta. Desvios sistemáticos ou pontos afastados indicam problemas.

Regra prática: para resíduos padronizados \(r_i\): - No máximo 5% devem estar fora de \([-1{,}96;\; +1{,}96]\) - No máximo 1% devem estar fora de \([-2{,}58;\; +2{,}58]\)

Sequência temporal: se as observações têm uma ordem natural (tempo, espaço), plotar os resíduos nessa ordem permite detectar autocorrelação — se os resíduos não flutuam aleatoriamente, modelos especiais para dados correlacionados são necessários (Capítulo 11).

3.5 Inferência e Interpretação

3.5.1 Parcimônia (Navalha de Occam)

“Nenhuma causa a mais deve ser assumida do que a necessária para explicar o efeito.”

Em modelagem estatística: um modelo mais simples que descreve os dados adequadamente é preferível a um mais complexo. Buscamos o modelo mais parcimonioso consistente com os dados.

Como determinar parcimônia? Testando hipóteses por meio de modelos aninhados (nested):

Modelo simples (sob \(H_0\)) é um caso particular do modelo complexo (sob \(H_1\)).
Comparamos o quão bem cada modelo descreve os dados.
Se o modelo simples se ajusta quase tão bem quanto o complexo, a evidência favorece \(H_0\).

3.5.2 Limitação dos Valores-\(p\)

Embora o teste de hipóteses seja útil para identificar um bom modelo, é pouco informativo para interpretá-lo. O livro defende o uso prioritário de:

Estimativas pontuais dos parâmetros (com interpretação substantiva)
Erros padrão e intervalos de confiança

Exemplo: saber que a inclinação é \(b = 120{,}9\) gramas por semana gestacional e que o IC 95% é \([80{,}3;\; 161{,}5]\) é muito mais informativo do que um valor-\(p < 0{,}001\).

A pergunta relevante não é apenas “existe efeito?” mas: “o efeito é estimado com precisão suficiente para ser útil prática, social ou biologicamente?”

4 Notação e Codificação de Variáveis Explicativas

4.1 Forma Geral: Notação Matricial

Para as respostas \(Y_1, \ldots, Y_N\), o componente sistemático do modelo pode ser escrito em notação matricial como: \[ g[E(\mathbf{y})] = \mathbf{X}\boldsymbol{\beta} \tag{2.13} \]

onde:

Símbolo	Dimensão	Significado
\(\mathbf{y}\)	\(N \times 1\)	Vetor de respostas
\(\boldsymbol{\beta}\)	\(p \times 1\)	Vetor de parâmetros
\(\mathbf{X}\)	\(N \times p\)	Matriz de planejamento (design matrix)

Os elementos de \(\mathbf{X}\) são constantes conhecidas: valores de variáveis contínuas ou variáveis indicadoras (0/1) para níveis de fatores.

Variáveis dummy/indicadoras: para variáveis categóricas, criamos colunas em \(\mathbf{X}\) que “ligam” ou “desligam” os parâmetros correspondentes a cada categoria. Isso permite representar qualquer estrutura de grupos dentro do framework linear.

4.2 Exemplos de Codificação

4.2.1 Médias de Dois Grupos (Exemplo 2.4.1)

Modelo: \(E(Y_{jk}) = \theta_j\), \(Y_{jk} \sim \text{Poisson}(\theta_j)\) com \(g(\theta_j) = \theta_j\) (identidade).

\[ \mathbf{y} = \begin{bmatrix} Y_{1,1} \\ \vdots \\ Y_{1,26} \\ Y_{2,1} \\ \vdots \\ Y_{2,23} \end{bmatrix}, \quad \boldsymbol{\beta} = \begin{bmatrix} \theta_1 \\ \theta_2 \end{bmatrix}, \quad \mathbf{X} = \begin{bmatrix} 1 & 0 \\ \vdots & \vdots \\ 1 & 0 \\ 0 & 1 \\ \vdots & \vdots \\ 0 & 1 \end{bmatrix} \]

A coluna 1 “seleciona” \(\theta_1\) para as observações do Grupo 1, e a coluna 2 “seleciona” \(\theta_2\) para as do Grupo 2.

4.2.2 Regressão Linear para Dois Grupos (Exemplo 2.4.2)

Modelo: \(E(Y_{jk}) = \alpha_j + \beta_j x_{jk}\), com identidade como link.

\[ \boldsymbol{\beta} = \begin{bmatrix} \alpha_1 \\ \alpha_2 \\ \beta_1 \\ \beta_2 \end{bmatrix}, \quad \mathbf{X} = \begin{bmatrix} 1 & 0 & x_{11} & 0 \\ \vdots & & \vdots & \\ 1 & 0 & x_{1K} & 0 \\ 0 & 1 & 0 & x_{21} \\ \vdots & & & \vdots \\ 0 & 1 & 0 & x_{2K} \end{bmatrix} \]

4.2.3 Diferentes Parametrizações para Dois Grupos

Existem várias maneiras de parametrizar um modelo para dois grupos. Cada uma tem vantagens interpretativas diferentes:

(a) Parametrização direta — \(E(Y_{1k}) = \beta_1\), \(E(Y_{2k}) = \beta_2\)

\[ \boldsymbol{\beta} = \begin{bmatrix}\beta_1 \\ \beta_2\end{bmatrix}, \quad \text{Grupo 1: } \mathbf{x}^T = [1\; 0], \quad \text{Grupo 2: } \mathbf{x}^T = [0\; 1] \]

(b) Média geral + desvios — \(E(Y_{1k}) = \mu + \alpha_1\), \(E(Y_{2k}) = \mu + \alpha_2\)

\[ \boldsymbol{\beta} = \begin{bmatrix}\mu \\ \alpha_1 \\ \alpha_2\end{bmatrix}, \quad \text{Grupo 1: } [1\; 1\; 0], \quad \text{Grupo 2: } [1\; 0\; 1] \]

Problema de identificabilidade: esta parametrização tem 3 parâmetros para estimar apenas 2 quantidades (as médias dos grupos). O sistema é sobredeterminado e precisa de uma restrição.

(c) Parametrização de ponto de referência (corner point) — \(E(Y_{1k}) = \mu\), \(E(Y_{2k}) = \mu + \alpha\)

\[ \boldsymbol{\beta} = \begin{bmatrix}\mu \\ \alpha\end{bmatrix}, \quad \text{Grupo 1: } [1\; 0], \quad \text{Grupo 2: } [1\; 1] \]

O Grupo 1 é o grupo de referência; \(\alpha\) é a diferença do Grupo 2 em relação ao Grupo 1.

Vantagem: \(\alpha\) tem interpretação direta como contraste entre grupos. Esta é a parametrização mais comum em software estatístico (ex.: lm() no R).

(d) Restrição soma-zero — \(E(Y_{1k}) = \mu + \alpha\), \(E(Y_{2k}) = \mu - \alpha\)

\[ \boldsymbol{\beta} = \begin{bmatrix}\mu \\ \alpha\end{bmatrix}, \quad \text{Grupo 1: } [1\; 1], \quad \text{Grupo 2: } [1\; -1] \]

A restrição é \([E(Y_{1k}) - \mu] + [E(Y_{2k}) - \mu] = \alpha + (-\alpha) = 0\).

\(\mu\) representa o efeito médio geral; \(\alpha\) representa a metade da diferença entre os grupos. Os grupos são tratados simetricamente.

4.2.4 Variáveis Explicativas Ordinais (Exemplo 2.4.4)

Para três grupos com doença leve, moderada e grave:

\[ E(Y_{1k}) = \mu, \quad E(Y_{2k}) = \mu + \alpha_1, \quad E(Y_{3k}) = \mu + \alpha_1 + \alpha_2 \]

\[ \boldsymbol{\beta} = \begin{bmatrix}\mu \\ \alpha_1 \\ \alpha_2\end{bmatrix}, \quad \text{Grupo 1: } [1\; 0\; 0], \quad \text{Grupo 2: } [1\; 1\; 0], \quad \text{Grupo 3: } [1\; 1\; 1] \]

Interpretação: \(\alpha_1\) é o efeito do Grupo 2 em relação ao Grupo 1; \(\alpha_2\) é o efeito adicional do Grupo 3 em relação ao Grupo 2. Este esquema captura o ordenamento natural da variável ordinal.

5 Demonstrações Didáticas

5.1 Distribuição de \(S_1/\sigma^2\)

O objetivo é mostrar que \(S_1/\sigma^2 \sim \chi^2(JK - 2J)\).

Passo 1: Decomposição de \(S_1\)

Adicionamos e subtraímos \(\alpha_j + \beta_j x_{jk}\) (os verdadeiros parâmetros, não as estimativas): \[ S_1 = \sum_j\sum_k (Y_{jk} - a_j - b_j x_{jk})^2 \]

Por algebra, esta soma pode ser reescrita como três componentes: \[ S_1 = \underbrace{\sum_j\sum_k [Y_{jk} - (\alpha_j + \beta_j x_{jk})]^2}_{A} - \underbrace{K\sum_j(\bar{Y}_j - \alpha_j - \beta_j \bar{x}_j)^2}_{B} - \underbrace{\sum_j (b_j - \beta_j)^2 \left(\sum_k x_{jk}^2 - K\bar{x}_j^2\right)}_{C} \]

Passo 2: Distribuições dos componentes

Usando o fato de que \(Y_{jk} \sim N(\alpha_j + \beta_j x_{jk}, \sigma^2)\):

Componente A: \(\sum_j\sum_k [(Y_{jk} - \mu_{jk})/\sigma]^2 \sim \chi^2(JK)\), pois é soma de \(JK\) normais padrão ao quadrado.
Componente B: \(\bar{Y}_j \sim N(\alpha_j + \beta_j\bar{x}_j,\, \sigma^2/K)\), então \(B/\sigma^2 \sim \chi^2(J)\).
Componente C: \(b_j \sim N(\beta_j,\, \sigma^2/\sum_k(x_{jk} - \bar{x}_j)^2)\), então \(C/\sigma^2 \sim \chi^2(J)\).

Passo 3: Aplicação do Teorema de Cochran

Os três componentes são independentes e seus graus de liberdade somam \(JK = JK - J - J + 2J\). Pelo Teorema de Cochran: \[ \frac{S_1}{\sigma^2} = \frac{A - B - C}{\sigma^2} \sim \chi^2(JK - 2J) \]

5.2 Derivação da Estatística \(F\)

Situação: queremos comparar \(H_0\) (Modelo 2.6, \(J+1\) parâmetros) com \(H_1\) (Modelo 2.7, \(2J\) parâmetros).

Passo 1: Sob \(H_0\) verdadeira, as distribuições são: \[ \frac{S_0}{\sigma^2} \sim \chi^2(JK - (J+1)) \quad \text{e} \quad \frac{S_1}{\sigma^2} \sim \chi^2(JK - 2J) \]

Passo 2: Pela propriedade reprodutiva da \(\chi^2\) (Seção 1.5.6 do livro), a diferença também tem distribuição qui-quadrado: \[ \frac{S_0 - S_1}{\sigma^2} \sim \chi^2(J-1) \]

Os graus de liberdade da diferença são \((JK - J - 1) - (JK - 2J) = J - 1\). Neste exemplo, \(J = 2\), então \(J - 1 = 1\) gl.

Passo 3: Como \(\sigma^2\) é desconhecido, não podemos usar \((S_0 - S_1)/\sigma^2\) diretamente. Porém, podemos eliminar \(\sigma^2\) formando o quociente de duas \(\chi^2\) independentes, cada uma dividida por seus graus de liberdade — que é exatamente a distribuição \(F\):

\[ F = \frac{(S_0 - S_1)/\sigma^2 \div (J-1)}{S_1/\sigma^2 \div (JK - 2J)} = \frac{(S_0 - S_1)/(J-1)}{S_1/(JK - 2J)} \]

Passo 4: Sob \(H_0\), os numerador e denominador são qui-quadrados centrais e independentes → \(F \sim F(J-1,\; JK-2J)\).

Sob \(H_1\) (se \(\beta_1 \neq \beta_2\)), o numerador terá distribuição \(\chi^2\) não-central (pois \(S_0\) terá variação extra por tentar ajustar um único \(\beta\) para dois grupos distintos) → \(F\) terá distribuição \(F\) não-central, com média maior. Portanto, valores grandes de \(F\) fornecem evidência contra \(H_0\).

6 Resumo das Ideias Centrais do Capítulo 2

PROCESSO DE AJUSTE DE MODELOS
═════════════════════════════

1. ESPECIFICAÇÃO
   ├── Distribuição de Y  (Normal, Poisson, Binomial, ...)
   └── Equação de ligação  g[E(Y)] = Xβ

2. ESTIMAÇÃO
   ├── Máxima Verossimilhança → resolve ∂ℓ/∂β = 0
   ├── Mínimos Quadrados     → minimiza Σ(Yᵢ - μᵢ)²
   └── Para Normal: MV ≡ MQ

3. VERIFICAÇÃO
   ├── Resíduos padronizados  rᵢ = (yᵢ - μ̂ᵢ)/dp̂(Yᵢ)
   ├── Qui-quadrado de Pearson X² = Σrᵢ² ~ χ²(m)
   └── Gráficos: vs. ajustados, vs. explicativas, Normal QQ

4. INFERÊNCIA
   ├── Modelos aninhados: H₀ ⊂ H₁
   ├── Estatística F = [(S₀−S₁)/(J−1)] / [S₁/(JK−2J)]
   │    Sob H₀: F ~ F(J−1, JK−2J)
   │    Sob H₁: F não-central, valores maiores
   └── Parcimônia: modelo mais simples adequado é preferível

Conceito	Resultado
Valores ajustados	\(\hat{\mu}_i\): estimativa de \(E(Y_i)\) sob o modelo
Resíduo (Poisson)	\(r_i = (y_i - \hat{\theta}_i)/\sqrt{\hat{\theta}_i}\)
Pearson \(X^2\)	\(\sum_i (o_i - e_i)^2/e_i \approx \chi^2(n - p)\)
MV ≡ MQ	Verdadeiro para a Normal com variância constante
\(S_1/\sigma^2\)	\(\chi^2(JK - 2J)\) (gl = obs \(-\) parâmetros)
\(F\) sob \(H_0\)	\(F(J-1,\; JK-2J)\) — distribuição central
Ponto de referência	Parametrização preferida: \(\alpha\) = diferença do ref.

Próximo capítulo: O Capítulo 3 apresenta a família exponencial de distribuições e formaliza a definição geral de Modelos Lineares Generalizados, unificando os exemplos vistos aqui sob um único arcabouço teórico.

Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.