Modelos Lineares Generalizados
Apostila — Capítulo 3: Família Exponencial e Modelos Lineares Generalizados
Nota ao leitor: Esta apostila resume o Capítulo 3 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo é o coração teórico do livro: introduz a família exponencial de distribuições e define formalmente os Modelos Lineares Generalizados (MLGs). Todas as demonstrações relevantes são detalhadas de forma didática.
Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.
1 Motivação: Por que Precisamos de uma Estrutura Unificadora?
O modelo linear clássico,
\[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \qquad Y_i \sim N(\mu_i, \sigma^2), \]
é a base das análises de dados contínuos. Porém, ele tem duas limitações importantes:
- Distribucional: a resposta \(Y_i\) precisa ser Normal — mas na prática temos contagens (Poisson), proporções (Binomial), tempos de falha (Gamma/Exponencial), etc.
- Funcional: a relação \(E(Y_i) = \mathbf{x}_i^T\boldsymbol{\beta}\) é estritamente linear — mas muitas vezes a relação natural é não-linear (ex.: taxa de mortalidade aumenta exponencialmente com a idade).
O Capítulo 3 resolve ambas as limitações ao identificar uma família ampla de distribuições — a família exponencial — cujos membros compartilham propriedades matemáticas elegantes que permitem estender toda a maquinaria de estimação e inferência do modelo Normal para situações muito mais gerais.
2 A Família Exponencial de Distribuições
2.1 Definição
Tomando logaritmos e definindo \(c(\theta) = \log t(\theta)\) e \(d(y) = \log s(y)\), a forma equivalente — e mais conveniente — é:
\[ \boxed{f(y;\,\theta) = \exp\!\bigl[a(y)\,b(\theta) + c(\theta) + d(y)\bigr]} \tag{3.3} \]
O que torna esta forma especial? Observe a simetria entre \(y\) e \(\theta\) na equação: \(y\) e \(\theta\) aparecem de forma separada nos expoentes, ligados apenas pelo produto \(a(y) \cdot b(\theta)\). Essa estrutura multiplicativa é o que permite derivar fórmulas gerais para média, variância e a estatística escore sem depender da distribuição específica.
2.1.1 Forma Canônica
Quando \(a(y) = y\), a distribuição está na forma canônica e \(b(\theta)\) recebe o nome de parâmetro natural (ou canônico) da distribuição.
2.1.2 Parâmetros de Perturbação (Nuisance)
Se a distribuição tem outros parâmetros além do parâmetro de interesse \(\theta\) — como \(\sigma^2\) na Normal — eles são chamados de parâmetros de perturbação (nuisance parameters) e são tratados como constantes conhecidas dentro das funções \(a\), \(b\), \(c\) e \(d\).
2.2 As Três Distribuições Fundamentais
2.2.1 Distribuição de Poisson
A função de probabilidade é: \[ f(y;\,\theta) = \frac{\theta^y e^{-\theta}}{y!}, \qquad y = 0, 1, 2, \ldots \]
Reescrevendo na forma exponencial:
\[ f(y;\,\theta) = \exp\!\left(y\log\theta - \theta - \log y!\right) \]
Identificação dos termos de (3.3):
| Termo | Expressão | Significado |
|---|---|---|
| \(a(y)\) | \(y\) | Forma canônica (\(a(y) = y\)) ✓ |
| \(b(\theta)\) | \(\log\theta\) | Parâmetro natural |
| \(c(\theta)\) | \(-\theta\) | Parte que depende só de \(\theta\) |
| \(d(y)\) | \(-\log y!\) | Parte que depende só de \(y\) |
Uso prático: A distribuição de Poisson modela contagens de eventos raros e independentes em um intervalo de tempo ou espaço fixo. Uma propriedade fundamental: \(E(Y) = \text{var}(Y) = \theta\). Quando os dados reais têm variância maior que a média, diz-se que são superdispersos (overdispersed) — e o modelo Poisson precisa ser adaptado.
2.2.2 Distribuição Normal
A função de densidade é (com parâmetro de interesse \(\mu\) e nuisância \(\sigma^2\)): \[ f(y;\,\mu) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left\{-\frac{(y-\mu)^2}{2\sigma^2}\right\} \]
Reescrevendo na forma exponencial:
Expandindo \((y - \mu)^2 = y^2 - 2y\mu + \mu^2\):
\[ f(y;\,\mu) = \exp\!\left(\frac{y\mu}{\sigma^2} - \frac{\mu^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) - \frac{y^2}{2\sigma^2}\right) \]
Identificação dos termos de (3.3):
| Termo | Expressão |
|---|---|
| \(a(y)\) | \(y\) (forma canônica ✓) |
| \(b(\mu)\) | \(\mu/\sigma^2\) (parâmetro natural) |
| \(c(\mu)\) | \(-\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\) |
| \(d(y)\) | \(-y^2/(2\sigma^2)\) |
Nota: Aqui \(\sigma^2\) aparece dentro dos termos, tratado como constante. Por isso ele é “parâmetro de perturbação”.
2.2.3 Distribuição Binomial
A função de probabilidade é (\(n\) conhecido, parâmetro de interesse \(\pi\)): \[ f(y;\,\pi) = \binom{n}{y}\pi^y(1-\pi)^{n-y}, \qquad y = 0, 1, \ldots, n \]
Reescrevendo na forma exponencial:
\[ f(y;\,\pi) = \exp\!\left[y\log\pi - y\log(1-\pi) + n\log(1-\pi) + \log\binom{n}{y}\right] \]
\[ = \exp\!\left[y\log\frac{\pi}{1-\pi} + n\log(1-\pi) + \log\binom{n}{y}\right] \]
Identificação dos termos de (3.3):
| Termo | Expressão |
|---|---|
| \(a(y)\) | \(y\) (forma canônica ✓) |
| \(b(\pi)\) | \(\log\!\left[\pi/(1-\pi)\right]\) (parâmetro natural = logit) |
| \(c(\pi)\) | \(n\log(1-\pi)\) |
| \(d(y)\) | \(\log\binom{n}{y}\) |
O parâmetro natural da Binomial é o logit! A função \(\log[\pi/(1-\pi)]\) é o logaritmo das chances (log-odds) e será o coração da regressão logística (Capítulo 7). Isso não é coincidência — a família exponencial “revela” qual é a transformação mais natural para cada distribuição.
2.2.4 Tabela Resumo
| Distribuição | Param. natural \(b(\theta)\) | \(c(\theta)\) | \(d(y)\) |
|---|---|---|---|
| Poisson | \(\log\theta\) | \(-\theta\) | \(-\log y!\) |
| Normal | \(\mu/\sigma^2\) | \(-\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\) | \(-y^2/(2\sigma^2)\) |
| Binomial | \(\log[\pi/(1-\pi)]\) | \(n\log(1-\pi)\) | \(\log\binom{n}{y}\) |
3 Propriedades das Distribuições da Família Exponencial
3.1 Lema Fundamental: Dois Resultados Auxiliares
Antes de derivar média e variância, precisamos de dois resultados que valem para qualquer função de densidade de probabilidade, desde que a ordem de integração e diferenciação possa ser trocada.
Resultado 1: A integral de qualquer fdp é 1, portanto: \[ \int f(y;\,\theta)\,dy = 1 \tag{3.4} \]
Diferenciando ambos os lados em relação a \(\theta\) e trocando a ordem de integração e diferenciação: \[ \int \frac{\partial f(y;\,\theta)}{\partial \theta}\,dy = 0 \tag{3.6} \]
Resultado 2: Diferenciando (3.4) duas vezes em relação a \(\theta\): \[ \int \frac{\partial^2 f(y;\,\theta)}{\partial \theta^2}\,dy = 0 \tag{3.7} \]
Por que precisamos desses resultados? A ideia é a mesma da derivação do EMV: em vez de integrar diretamente (o que geralmente é difícil), usamos a condição de normalização (\(\int f = 1\)) e suas derivadas para extrair informações sobre \(E[a(Y)]\) e \(\text{var}[a(Y)]\) de forma algébrica.
3.2 Derivação da Esperança: \(E[a(Y)]\)
Objetivo: encontrar \(E[a(Y)]\) para qualquer distribuição da família exponencial.
Passo 1 — Calcular \(\partial f/\partial\theta\):
De (3.3), \(f = \exp[a(y)b(\theta) + c(\theta) + d(y)]\). Pela regra da cadeia: \[ \frac{\partial f}{\partial\theta} = \bigl[a(y)\,b'(\theta) + c'(\theta)\bigr]\,f(y;\,\theta) \]
em que \(b'(\theta) = db/d\theta\) e \(c'(\theta) = dc/d\theta\).
Passo 2 — Aplicar o Resultado 1 (equação 3.6): \[ \int \bigl[a(y)\,b'(\theta) + c'(\theta)\bigr]\,f(y;\,\theta)\,dy = 0 \]
Passo 3 — Separar a integral: \[ b'(\theta)\underbrace{\int a(y)\,f(y;\,\theta)\,dy}_{= E[a(Y)]} + c'(\theta)\underbrace{\int f(y;\,\theta)\,dy}_{= 1} = 0 \]
Passo 4 — Isolar \(E[a(Y)]\): \[ b'(\theta)\,E[a(Y)] + c'(\theta) = 0 \]
\[ \boxed{E[a(Y)] = -\frac{c'(\theta)}{b'(\theta)}} \tag{3.9} \]
Intuição: A fórmula diz que a esperança de \(a(Y)\) é determinada inteiramente pela razão entre as derivadas de \(c(\theta)\) e \(b(\theta)\) — as funções que aparecem na forma exponencial. Não precisamos calcular nenhuma integral diretamente!
3.3 Derivação da Variância: \(\text{var}[a(Y)]\)
Objetivo: encontrar \(\text{var}[a(Y)]\) usando o Resultado 2 (equação 3.7).
Passo 1 — Calcular \(\partial^2 f/\partial\theta^2\):
Diferenciando \(\partial f/\partial\theta = [a(y)b' + c']\,f\) novamente: \[ \frac{\partial^2 f}{\partial\theta^2} = \bigl[a(y)\,b'' + c''\bigr]\,f + \bigl[a(y)\,b' + c'\bigr]^2\,f \tag{3.10} \]
Passo 2 — Reescrever o segundo termo:
O segundo termo pode ser reescrito como: \[ \bigl[a(y)\,b' + c'\bigr]^2 f = [b'(\theta)]^2\bigl\{a(y) - E[a(Y)]\bigr\}^2 f \]
usando a fórmula de \(E[a(Y)]\) obtida em (3.9): \(c' = -b' E[a(Y)]\), portanto \(a(y)b' + c' = b'(a(y) - E[a(Y)])\).
Passo 3 — Aplicar o Resultado 2 (equação 3.7):
\[ \int \frac{\partial^2 f}{\partial\theta^2}\,dy = 0 \implies b''(\theta)\,E[a(Y)] + c''(\theta) + [b'(\theta)]^2\,\text{var}[a(Y)] = 0 \tag{3.11} \]
pois \(\int \{a(y) - E[a(Y)]\}^2 f\,dy = \text{var}[a(Y)]\) por definição.
Passo 4 — Isolar \(\text{var}[a(Y)]\):
Substituindo (3.9) em (3.11) e resolvendo:
\[ \boxed{\text{var}[a(Y)] = \frac{b''(\theta)\,c'(\theta) - c''(\theta)\,b'(\theta)}{[b'(\theta)]^3}} \tag{3.12} \]
Resumo: As fórmulas (3.9) e (3.12) são universais dentro da família exponencial — funcionam para Poisson, Normal, Binomial, Gamma, e qualquer outra distribuição membro. Basta identificar \(b(\theta)\) e \(c(\theta)\) e derivar.
3.4 Verificação para a Distribuição de Poisson
Para \(Y \sim \text{Poisson}(\theta)\): \(b(\theta) = \log\theta\) e \(c(\theta) = -\theta\).
Derivadas: \[ b'(\theta) = \frac{1}{\theta}, \quad b''(\theta) = -\frac{1}{\theta^2}, \quad c'(\theta) = -1, \quad c''(\theta) = 0 \]
Esperança pela fórmula (3.9): \[ E[Y] = -\frac{c'(\theta)}{b'(\theta)} = -\frac{-1}{1/\theta} = \theta \quad \checkmark \]
Variância pela fórmula (3.12): \[ \text{var}[Y] = \frac{b''(\theta)\,c'(\theta) - c''(\theta)\,b'(\theta)}{[b'(\theta)]^3} = \frac{(-1/\theta^2)(-1) - 0}{(1/\theta)^3} = \frac{1/\theta^2}{1/\theta^3} = \theta \quad \checkmark \]
Confirmamos \(E(Y) = \text{var}(Y) = \theta\) — a propriedade fundamental da Poisson.
3.5 Verificação para a Distribuição Binomial
Para \(Y \sim \text{Bin}(n,\pi)\): \(b(\pi) = \log[\pi/(1-\pi)]\) e \(c(\pi) = n\log(1-\pi)\).
Derivadas: \[ b'(\pi) = \frac{1}{\pi(1-\pi)}, \quad b''(\pi) = \frac{2\pi - 1}{\pi^2(1-\pi)^2} \] \[ c'(\pi) = \frac{-n}{1-\pi}, \quad c''(\pi) = \frac{-n}{(1-\pi)^2} \]
Esperança pela fórmula (3.9): \[ E[Y] = -\frac{c'(\pi)}{b'(\pi)} = -\frac{-n/(1-\pi)}{1/[\pi(1-\pi)]} = n\pi \quad \checkmark \]
Variância pela fórmula (3.12) (o desenvolvimento algébrico é mais longo, mas o resultado é): \[ \text{var}[Y] = n\pi(1-\pi) \quad \checkmark \]
3.6 A Estatística Escore e a Informação de Fisher
3.6.1 Estatística Escore \(U\)
Para uma única observação \(y\) de uma distribuição da família exponencial, a log-verossimilhança é: \[ \ell(\theta;\,y) = a(y)\,b(\theta) + c(\theta) + d(y) \]
A derivada em relação a \(\theta\) é chamada de estatística escore (score statistic): \[ U(\theta;\,y) = \frac{d\ell}{d\theta} = a(y)\,b'(\theta) + c'(\theta) \]
Como \(U\) depende de \(y\), ela é uma variável aleatória quando \(Y\) é aleatória: \[ U = a(Y)\,b'(\theta) + c'(\theta) \tag{3.13} \]
3.6.2 Esperança do Escore: \(E(U) = 0\)
\[ E(U) = b'(\theta)\,E[a(Y)] + c'(\theta) = b'(\theta)\cdot\left(-\frac{c'(\theta)}{b'(\theta)}\right) + c'(\theta) = 0 \tag{3.14} \]
Resultado fundamental: A esperança do escore é sempre zero — para qualquer distribuição da família exponencial, em qualquer valor do verdadeiro parâmetro \(\theta\).
Isso é equivalente ao fato de que, ao diferenciar a equação de normalização \(\int f\,dy = 1\), obtemos \(\int (\partial\log f/\partial\theta)\,f\,dy = 0\), ou seja, \(E[\partial\log f/\partial\theta] = 0\).
3.6.3 Informação de Fisher: \(I = \text{var}(U)\)
A variância do escore é chamada de informação de Fisher \(I\). Usando (1.3) com \(a(Y)\) como variável: \[ I = \text{var}(U) = [b'(\theta)]^2\,\text{var}[a(Y)] \]
Substituindo (3.12): \[ I = \text{var}(U) = \frac{b''(\theta)\,c'(\theta)}{b'(\theta)} - c''(\theta) \tag{3.15} \]
Por que a informação importa? A informação de Fisher mede quanta informação uma única observação contém sobre o parâmetro \(\theta\). Quanto maior \(I\), mais precisa é a estimativa do parâmetro. O Limite de Cramér-Rao diz que a variância de qualquer estimador não-viesado de \(\theta\) é no mínimo \(1/I\) — e o EMV atinge este limite assintoticamente.
3.6.4 Propriedade Adicional: \(\text{var}(U) = E(U^2) = -E(U')\)
Esta propriedade conecta três formas de calcular a informação:
Primeira igualdade (\(\text{var}(U) = E(U^2)\)):
Como \(E(U) = 0\), temos: \[ \text{var}(U) = E(U^2) - [E(U)]^2 = E(U^2) - 0 = E(U^2) \quad \checkmark \]
Segunda igualdade (\(E(U^2) = -E(U')\)):
Diferenciando \(U = a(Y)b'(\theta) + c'(\theta)\) com respeito a \(\theta\): \[ U' = \frac{dU}{d\theta} = a(Y)\,b''(\theta) + c''(\theta) \]
Calculando \(E(U')\): \[ E(U') = b''(\theta)\,E[a(Y)] + c''(\theta) = b''(\theta)\cdot\left(-\frac{c'(\theta)}{b'(\theta)}\right) + c''(\theta) \]
Substituindo (3.9) e comparando com (3.15): \[ E(U') = -I = -\text{var}(U) \tag{3.17} \]
Portanto: \(\boxed{\text{var}(U) = E(U^2) = -E(U')}\)
Intuição geométrica: \(U' = d^2\ell/d\theta^2\) é a curvatura da log-verossimilhança. A igualdade \(I = -E(U')\) diz que a informação é a curvatura média esperada de \(\ell\) — quanto mais “curvada” (côncava) for a log-verossimilhança ao redor do máximo, mais precisa é a estimativa. Esta identidade é a base do método de Newton-Raphson para maximização (Capítulo 4).
4 Modelos Lineares Generalizados: Definição Formal
4.1 Os Três Componentes de um MLG
A unidade de muitos métodos estatísticos foi demonstrada por Nelder e Wedderburn (1972) com a definição de Modelos Lineares Generalizados. Um MLG é definido por:
O que a monotonicidade da função de ligação garante? Que a relação entre \(\mu_i\) e \(\eta_i\) seja invertível — dado o preditor linear, sempre podemos recuperar a média prevista, e vice-versa. Uma função que fosse crescente para alguns valores e decrescente para outros tornaria o modelo não identificável.
4.2 A Função de Ligação Canônica
Quando a função de ligação é escolhida de forma que \(g(\mu_i) = b(\theta_i)\) (o parâmetro natural da distribuição), ela é chamada de ligação canônica. Para as três distribuições principais:
| Distribuição | \(E(Y) = \mu\) | Ligação canônica \(g(\mu)\) | Nome |
|---|---|---|---|
| Normal | \(\mu\) | \(g(\mu) = \mu\) | Identidade |
| Poisson | \(\theta\) | \(g(\mu) = \log\mu\) | Log |
| Binomial | \(n\pi\) | \(g(\pi) = \log[\pi/(1-\pi)]\) | Logit |
Por que a ligação canônica é especial? Ela simplifica a teoria de estimação (Capítulo 4) e garante certas propriedades ótimas dos estimadores. Porém, na prática podem-se usar outras funções de ligação — a escolha deve se basear na estrutura do problema.
5 Exemplos de MLGs
5.1 Modelo Normal Linear (Caso Especial Mais Conhecido)
\[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \qquad Y_i \sim N(\mu_i, \sigma^2) \]
Função de ligação: identidade, \(g(\mu_i) = \mu_i\).
Na forma matricial: \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{e}\), em que \(e_i \sim N(0,\sigma^2)\) i.i.d.
Aqui o componente linear \(\boldsymbol{\mu} = \mathbf{X}\boldsymbol{\beta}\) representa o sinal e \(\mathbf{e}\) representa o ruído.
Regressão múltipla, ANOVA e ANCOVA são todos casos especiais deste modelo.
5.2 Linguística Histórica (MLG Binário)
Contexto: Dois idiomas descendentes de um ancestral comum (ex.: francês e espanhol, ambos descendentes do latim). Se eles foram separados há \(t\) unidades de tempo, a probabilidade de terem palavras cognatas para um dado significado é \(e^{-\theta t}\).
Resposta: \(Y_i = 1\) (cognata) ou \(Y_i = 0\) (não cognata), para \(i = 1, \ldots, N\) significados de uma lista teste.
Distribuição: Bernoulli \(B(\pi)\), caso especial da Binomial com \(n = 1\): \[ P(Y_i = 1) = \pi = e^{-\theta t}, \quad E(Y_i) = \pi \]
Ligação: logarítmica \[ g(\pi) = \log\pi = -\theta t \]
Portanto, \(g[E(Y_i)] = -\theta t\) é linear em \(\theta\).
Em notação matricial: \(\mathbf{x}_i = [-t]\) (o mesmo para todos \(i\)) e \(\boldsymbol{\beta} = [\theta]\).
Ponto importante: A escolha da função de ligação logarítmica é motivada pela estrutura do problema (a probabilidade de cognatos decai exponencialmente com o tempo). A família exponencial não impõe qual ligação usar — ela fornece as ferramentas; o pesquisador escolhe a ligação mais adequada ao fenômeno.
5.3 Taxas de Mortalidade (MLG de Poisson com Offset)
Contexto: Dados de mortes por doença coronariana em grupos etários de homens na região de Hunter, Austrália (1991).
| Grupo etário | Mortes \(y_i\) | Pop. \(n_i\) | Taxa/100.000 |
|---|---|---|---|
| 30–34 | 1 | 17.742 | 5,6 |
| 35–39 | 5 | 16.554 | 30,2 |
| 40–44 | 5 | 16.059 | 31,1 |
| 45–49 | 12 | 13.083 | 91,7 |
| 50–54 | 25 | 10.784 | 231,8 |
| 55–59 | 38 | 9.645 | 394,0 |
| 60–64 | 54 | 10.706 | 504,4 |
| 65–69 | 65 | 9.933 | 654,4 |
Observação: O gráfico da taxa \(y_i/n_i\) numa escala logarítmica é aproximadamente linear em \(i\) (grupo etário). Isso sugere crescimento exponencial da taxa com a idade.
Modelo: \[ E(Y_i) = \mu_i = n_i\,e^{\theta i}; \qquad Y_i \sim \text{Poisson}(\mu_i) \]
Função de ligação: logarítmica \[ g(\mu_i) = \log\mu_i = \log n_i + \theta i \]
Em notação matricial: \(\mathbf{x}_i^T\boldsymbol{\beta} = \log n_i + \theta i\), com \(\mathbf{x}_i^T = [\log n_i,\; i]\) e \(\boldsymbol{\beta} = [1,\; \theta]^T\).
O conceito de offset: O termo \(\log n_i\) é um preditor cujo coeficiente é fixado em 1 (não estimado). Ele “ajusta” a contagem pelo tamanho da população exposta, permitindo modelar a taxa \(\lambda_i = \mu_i/n_i\) em vez do número absoluto de mortes. Em software estatístico (ex.: R), este termo é especificado com offset(log(n)).
6 A Estrutura Unificadora: Comparando os Três MLGs
COMPONENTE ALEATÓRIO LIGAÇÃO PREDITOR LINEAR
══════════════════════ ════════════ ═══════════════════
Normal Y ~ N(μ, σ²) g(μ) = μ η = Xβ
(contínuo, simétrico) identidade
Poisson Y ~ Po(θ) g(μ) = log μ η = Xβ
(contagens) logarítmica (inclui offset)
Binomial Y ~ Bin(n, π) g(π) = logit π η = Xβ
(proporções/binários) logit
Os três modelos diferem apenas no componente aleatório e na função de ligação. O preditor linear \(\eta_i = \mathbf{x}_i^T\boldsymbol{\beta}\) tem a mesma forma em todos eles — daí o nome “generalizado”.
7 Demonstrações Consolidadas: Esperança e Variância das Três Distribuições
7.1 Poisson: \(E(Y) = \text{var}(Y) = \theta\)
Identificação: \(b(\theta) = \log\theta\), \(c(\theta) = -\theta\).
\[ b'(\theta) = \frac{1}{\theta}, \quad b''(\theta) = -\frac{1}{\theta^2}, \quad c'(\theta) = -1, \quad c''(\theta) = 0 \]
Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-1}{1/\theta} = \theta \checkmark \]
Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{(-1/\theta^2)(-1) - 0}{(1/\theta)^3} = \frac{1/\theta^2}{1/\theta^3} = \theta \checkmark \]
7.2 Normal: \(E(Y) = \mu\), \(\text{var}(Y) = \sigma^2\)
Identificação: \(b(\mu) = \mu/\sigma^2\), \(c(\mu) = -\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\).
\[ b'(\mu) = \frac{1}{\sigma^2}, \quad b''(\mu) = 0, \quad c'(\mu) = -\frac{\mu}{\sigma^2}, \quad c''(\mu) = -\frac{1}{\sigma^2} \]
Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-\mu/\sigma^2}{1/\sigma^2} = \mu \checkmark \]
Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{0 - (-1/\sigma^2)(1/\sigma^2)}{(1/\sigma^2)^3} = \frac{1/\sigma^4}{1/\sigma^6} = \sigma^2 \checkmark \]
7.3 Binomial: \(E(Y) = n\pi\), \(\text{var}(Y) = n\pi(1-\pi)\)
Identificação: \(b(\pi) = \log[\pi/(1-\pi)]\), \(c(\pi) = n\log(1-\pi)\).
\[ b'(\pi) = \frac{1}{\pi(1-\pi)}, \quad c'(\pi) = \frac{-n}{1-\pi} \]
Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-n/(1-\pi)}{1/[\pi(1-\pi)]} = \frac{n\pi(1-\pi)}{1-\pi} = n\pi \checkmark \]
Para a variância, calculamos as derivadas de segunda ordem: \[ b''(\pi) = \frac{2\pi - 1}{\pi^2(1-\pi)^2}, \quad c''(\pi) = \frac{-n}{(1-\pi)^2} \]
Após substituição em (3.12) e simplificação algébrica: \[ \text{var}(Y) = n\pi(1-\pi) \checkmark \]
8 Exercícios Selecionados com Soluções Guiadas
8.1 Distribuição Gamma (Exercício 3.2)
Enunciado: \(Y\) tem distribuição Gamma com parâmetro de escala \(\beta\) (interesse) e forma \(\alpha\) (conhecido): \[ f(y;\,\beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}\,y^{\alpha-1}\,e^{-y\beta} \]
Tarefa: mostrar que pertence à família exponencial, identificar o parâmetro natural, e encontrar \(E(Y)\) e \(\text{var}(Y)\).
Solução:
Reescrevendo: \[ f(y;\,\beta) = \exp\!\left[-y\beta + \alpha\log\beta - \log\Gamma(\alpha) + (\alpha-1)\log y\right] \]
Identificação com a forma (3.3):
| Termo | Expressão |
|---|---|
| \(a(y)\) | \(y\) (forma canônica ✓) |
| \(b(\beta)\) | \(-\beta\) (parâmetro natural) |
| \(c(\beta)\) | \(\alpha\log\beta - \log\Gamma(\alpha)\) |
| \(d(y)\) | \((\alpha-1)\log y\) |
Derivadas: \[ b'(\beta) = -1, \quad b''(\beta) = 0, \quad c'(\beta) = \frac{\alpha}{\beta}, \quad c''(\beta) = -\frac{\alpha}{\beta^2} \]
Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{\alpha/\beta}{-1} = \frac{\alpha}{\beta} \]
Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{0 - (-\alpha/\beta^2)(-1)}{(-1)^3} = \frac{-\alpha/\beta^2}{-1} = \frac{\alpha}{\beta^2} \]
8.2 Distribuição de Bernoulli (Exercício 3.7)
Enunciado: \(Y_i\) são variáveis binárias com \(P(Y_i = 1) = \pi_i\).
(a) Mostrar que \(f(y;\,\pi) = \pi^y(1-\pi)^{1-y}\) pertence à família exponencial.
Solução: \[ f(y;\,\pi) = \exp\!\left[y\log\pi + (1-y)\log(1-\pi)\right] = \exp\!\left[y\log\frac{\pi}{1-\pi} + \log(1-\pi)\right] \]
Forma (3.3) com \(a(y) = y\), \(b(\pi) = \log[\pi/(1-\pi)]\) (logit), \(c(\pi) = \log(1-\pi)\), \(d(y) = 0\). ✓
(b) O parâmetro natural é \(b(\pi) = \log[\pi/(1-\pi)]\) — o logit, logaritmo das chances.
(d) Se \(g(\pi) = \log[\pi/(1-\pi)] = \mathbf{x}^T\boldsymbol{\beta}\), mostrar que isso equivale a: \[ \pi = \frac{e^{\mathbf{x}^T\boldsymbol{\beta}}}{1 + e^{\mathbf{x}^T\boldsymbol{\beta}}} \]
Solução: Seja \(\eta = \mathbf{x}^T\boldsymbol{\beta}\). Então \(\log[\pi/(1-\pi)] = \eta \implies \pi/(1-\pi) = e^\eta \implies\) \(\pi = e^\eta(1-\pi) \implies \pi(1 + e^\eta) = e^\eta \implies \pi = e^\eta/(1+e^\eta)\). ✓
(e) Para \(\mathbf{x}^T\boldsymbol{\beta} = \beta_1 + \beta_2 x\): \[ \pi = \frac{e^{\beta_1 + \beta_2 x}}{1 + e^{\beta_1 + \beta_2 x}} \]
Esta é a função logística — uma curva em forma de S (sigmoide) que sempre produz valores em \((0, 1)\). Se \(x\) é a dose de um inseticida e \(\pi\) a probabilidade de morte:
- Quando \(x \to -\infty\): \(\pi \to 0\) (dose mínima, sem efeito)
- Quando \(x \to +\infty\): \(\pi \to 1\) (dose elevada, morte certa)
- O parâmetro \(\beta_2 > 0\) controla a inclinação da curva (velocidade de transição)
- O parâmetro \(\beta_1\) desloca a curva horizontalmente (dose mediana letal)
9 Resumo do Capítulo 3
9.1 Mapa Conceitual
FAMÍLIA EXPONENCIAL
══════════════════════════════════════════════════════
f(y;θ) = exp[a(y)b(θ) + c(θ) + d(y)]
┌─────────────────────────────────────┐
│ Forma canônica: a(y) = y │
│ Parâmetro natural: b(θ) │
└─────────────────────────────────────┘
Propriedades universais (via derivação de ∫f dy = 1):
┌─────────────────────────────────────────────────┐
│ E[a(Y)] = -c'(θ)/b'(θ) (3.9) │
│ var[a(Y)] = [b''c' - c''b'] / (b')³ (3.12) │
│ E(U) = 0 [escore tem média zero] (3.14) │
│ I = var(U) = -E(U') [informação] (3.16) │
└─────────────────────────────────────────────────┘
MODELO LINEAR GENERALIZADO (Nelder & Wedderburn, 1972)
══════════════════════════════════════════════════════
1. Y_i ~ família exponencial (mesmo tipo)
2. η_i = x_iᵀβ [preditor linear]
3. g(μ_i) = η_i [função de ligação monótona]
Distribuição Ligação canônica Exemplo de uso
───────────── ───────────────── ──────────────────────
Normal Identidade Regressão, ANOVA
Poisson Log Contagens, taxas
Binomial Logit Proporções, binários
Gamma Inversa Tempos positivos
9.2 Tabela de Resultados Chave
| Distribuição | Param. natural | \(E(Y)\) | \(\text{var}(Y)\) | Ligação canônica |
|---|---|---|---|---|
| Normal \(N(\mu,\sigma^2)\) | \(\mu/\sigma^2\) | \(\mu\) | \(\sigma^2\) | Identidade |
| Poisson \(\text{Po}(\theta)\) | \(\log\theta\) | \(\theta\) | \(\theta\) | Log |
| Binomial \(\text{Bin}(n,\pi)\) | \(\text{logit}(\pi)\) | \(n\pi\) | \(n\pi(1-\pi)\) | Logit |
| Gamma \(G(\alpha,\beta)\) | \(-\beta\) | \(\alpha/\beta\) | \(\alpha/\beta^2\) | Inversa |
| Bernoulli \(B(\pi)\) | \(\text{logit}(\pi)\) | \(\pi\) | \(\pi(1-\pi)\) | Logit |
9.3 Relações Entre Distribuições da Família
A Figura 3.3 do livro mostra relações assintoticas (\(n \to \infty\), \(r \to \infty\), etc.) e transformações entre membros da família exponencial. Destaques:
- \(\text{Bin}(n,\pi) \to \text{Po}(\lambda)\) quando \(n \to \infty\) e \(n\pi \to \lambda\)
- \(\text{Po}(\lambda) \to N(\lambda, \lambda)\) para \(\lambda\) grande (pelo TCL)
- \(\text{Bin}(n,\pi) \to N(n\pi, n\pi(1-\pi))\) para \(n\) grande
- \(\text{Gamma}(\alpha,\beta) \to N(\alpha/\beta, \alpha/\beta^2)\) para \(\alpha\) grande
- \(\text{Exp}(\theta)\) é caso especial de \(\text{Gamma}(\alpha=1, \beta=\theta)\)
Próximo capítulo: O Capítulo 4 desenvolve os métodos de estimação para MLGs — como encontrar \(\hat{\boldsymbol{\beta}}\) numericamente usando o algoritmo de Newton-Raphson e o método dos mínimos quadrados iterativamente reponderados (IRLS), aproveitando as propriedades da família exponencial derivadas neste capítulo.
9.4 Referências
Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.
Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, Series A, 135(3), 370–384.