Modelos Lineares Generalizados

Apostila — Capítulo 3: Família Exponencial e Modelos Lineares Generalizados

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de abril de 2026

Nota ao leitor: Esta apostila resume o Capítulo 3 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo é o coração teórico do livro: introduz a família exponencial de distribuições e define formalmente os Modelos Lineares Generalizados (MLGs). Todas as demonstrações relevantes são detalhadas de forma didática.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.

1 Motivação: Por que Precisamos de uma Estrutura Unificadora?

O modelo linear clássico,

\[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \qquad Y_i \sim N(\mu_i, \sigma^2), \]

é a base das análises de dados contínuos. Porém, ele tem duas limitações importantes:

Distribucional: a resposta \(Y_i\) precisa ser Normal — mas na prática temos contagens (Poisson), proporções (Binomial), tempos de falha (Gamma/Exponencial), etc.
Funcional: a relação \(E(Y_i) = \mathbf{x}_i^T\boldsymbol{\beta}\) é estritamente linear — mas muitas vezes a relação natural é não-linear (ex.: taxa de mortalidade aumenta exponencialmente com a idade).

O Capítulo 3 resolve ambas as limitações ao identificar uma família ampla de distribuições — a família exponencial — cujos membros compartilham propriedades matemáticas elegantes que permitem estender toda a maquinaria de estimação e inferência do modelo Normal para situações muito mais gerais.

2 A Família Exponencial de Distribuições

2.1 Definição

Nota

Definição: Uma distribuição pertence à família exponencial se sua função de densidade (ou massa) de probabilidade puder ser escrita na forma

\[ f(y;\,\theta) = s(y)\,t(\theta)\,e^{a(y)\,b(\theta)}, \tag{3.2} \]

em que \(a\), \(b\), \(s\) e \(t\) são funções conhecidas.

Tomando logaritmos e definindo \(c(\theta) = \log t(\theta)\) e \(d(y) = \log s(y)\), a forma equivalente — e mais conveniente — é:

\[ \boxed{f(y;\,\theta) = \exp\!\bigl[a(y)\,b(\theta) + c(\theta) + d(y)\bigr]} \tag{3.3} \]

O que torna esta forma especial? Observe a simetria entre \(y\) e \(\theta\) na equação: \(y\) e \(\theta\) aparecem de forma separada nos expoentes, ligados apenas pelo produto \(a(y) \cdot b(\theta)\). Essa estrutura multiplicativa é o que permite derivar fórmulas gerais para média, variância e a estatística escore sem depender da distribuição específica.

2.1.1 Forma Canônica

Quando \(a(y) = y\), a distribuição está na forma canônica e \(b(\theta)\) recebe o nome de parâmetro natural (ou canônico) da distribuição.

2.1.2 Parâmetros de Perturbação (Nuisance)

Se a distribuição tem outros parâmetros além do parâmetro de interesse \(\theta\) — como \(\sigma^2\) na Normal — eles são chamados de parâmetros de perturbação (nuisance parameters) e são tratados como constantes conhecidas dentro das funções \(a\), \(b\), \(c\) e \(d\).

2.2 As Três Distribuições Fundamentais

2.2.1 Distribuição de Poisson

A função de probabilidade é: \[ f(y;\,\theta) = \frac{\theta^y e^{-\theta}}{y!}, \qquad y = 0, 1, 2, \ldots \]

Reescrevendo na forma exponencial:

\[ f(y;\,\theta) = \exp\!\left(y\log\theta - \theta - \log y!\right) \]

Identificação dos termos de (3.3):

Termo	Expressão	Significado
\(a(y)\)	\(y\)	Forma canônica (\(a(y) = y\)) ✓
\(b(\theta)\)	\(\log\theta\)	Parâmetro natural
\(c(\theta)\)	\(-\theta\)	Parte que depende só de \(\theta\)
\(d(y)\)	\(-\log y!\)	Parte que depende só de \(y\)

Uso prático: A distribuição de Poisson modela contagens de eventos raros e independentes em um intervalo de tempo ou espaço fixo. Uma propriedade fundamental: \(E(Y) = \text{var}(Y) = \theta\). Quando os dados reais têm variância maior que a média, diz-se que são superdispersos (overdispersed) — e o modelo Poisson precisa ser adaptado.

2.2.2 Distribuição Normal

A função de densidade é (com parâmetro de interesse \(\mu\) e nuisância \(\sigma^2\)): \[ f(y;\,\mu) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\left\{-\frac{(y-\mu)^2}{2\sigma^2}\right\} \]

Reescrevendo na forma exponencial:

Expandindo \((y - \mu)^2 = y^2 - 2y\mu + \mu^2\):

\[ f(y;\,\mu) = \exp\!\left(\frac{y\mu}{\sigma^2} - \frac{\mu^2}{2\sigma^2} - \frac{1}{2}\log(2\pi\sigma^2) - \frac{y^2}{2\sigma^2}\right) \]

Identificação dos termos de (3.3):

Termo	Expressão
\(a(y)\)	\(y\) (forma canônica ✓)
\(b(\mu)\)	\(\mu/\sigma^2\) (parâmetro natural)
\(c(\mu)\)	\(-\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\)
\(d(y)\)	\(-y^2/(2\sigma^2)\)

Nota: Aqui \(\sigma^2\) aparece dentro dos termos, tratado como constante. Por isso ele é “parâmetro de perturbação”.

2.2.3 Distribuição Binomial

A função de probabilidade é (\(n\) conhecido, parâmetro de interesse \(\pi\)): \[ f(y;\,\pi) = \binom{n}{y}\pi^y(1-\pi)^{n-y}, \qquad y = 0, 1, \ldots, n \]

Reescrevendo na forma exponencial:

\[ f(y;\,\pi) = \exp\!\left[y\log\pi - y\log(1-\pi) + n\log(1-\pi) + \log\binom{n}{y}\right] \]

\[ = \exp\!\left[y\log\frac{\pi}{1-\pi} + n\log(1-\pi) + \log\binom{n}{y}\right] \]

Identificação dos termos de (3.3):

Termo	Expressão
\(a(y)\)	\(y\) (forma canônica ✓)
\(b(\pi)\)	\(\log\!\left[\pi/(1-\pi)\right]\) (parâmetro natural = logit)
\(c(\pi)\)	\(n\log(1-\pi)\)
\(d(y)\)	\(\log\binom{n}{y}\)

O parâmetro natural da Binomial é o logit! A função \(\log[\pi/(1-\pi)]\) é o logaritmo das chances (log-odds) e será o coração da regressão logística (Capítulo 7). Isso não é coincidência — a família exponencial “revela” qual é a transformação mais natural para cada distribuição.

2.2.4 Tabela Resumo

Distribuição	Param. natural \(b(\theta)\)	\(c(\theta)\)	\(d(y)\)
Poisson	\(\log\theta\)	\(-\theta\)	\(-\log y!\)
Normal	\(\mu/\sigma^2\)	\(-\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\)	\(-y^2/(2\sigma^2)\)
Binomial	\(\log[\pi/(1-\pi)]\)	\(n\log(1-\pi)\)	\(\log\binom{n}{y}\)

3 Propriedades das Distribuições da Família Exponencial

3.1 Lema Fundamental: Dois Resultados Auxiliares

Antes de derivar média e variância, precisamos de dois resultados que valem para qualquer função de densidade de probabilidade, desde que a ordem de integração e diferenciação possa ser trocada.

Resultado 1: A integral de qualquer fdp é 1, portanto: \[ \int f(y;\,\theta)\,dy = 1 \tag{3.4} \]

Diferenciando ambos os lados em relação a \(\theta\) e trocando a ordem de integração e diferenciação: \[ \int \frac{\partial f(y;\,\theta)}{\partial \theta}\,dy = 0 \tag{3.6} \]

Resultado 2: Diferenciando (3.4) duas vezes em relação a \(\theta\): \[ \int \frac{\partial^2 f(y;\,\theta)}{\partial \theta^2}\,dy = 0 \tag{3.7} \]

Por que precisamos desses resultados? A ideia é a mesma da derivação do EMV: em vez de integrar diretamente (o que geralmente é difícil), usamos a condição de normalização (\(\int f = 1\)) e suas derivadas para extrair informações sobre \(E[a(Y)]\) e \(\text{var}[a(Y)]\) de forma algébrica.

3.2 Derivação da Esperança: \(E[a(Y)]\)

Objetivo: encontrar \(E[a(Y)]\) para qualquer distribuição da família exponencial.

Passo 1 — Calcular \(\partial f/\partial\theta\):

De (3.3), \(f = \exp[a(y)b(\theta) + c(\theta) + d(y)]\). Pela regra da cadeia: \[ \frac{\partial f}{\partial\theta} = \bigl[a(y)\,b'(\theta) + c'(\theta)\bigr]\,f(y;\,\theta) \]

em que \(b'(\theta) = db/d\theta\) e \(c'(\theta) = dc/d\theta\).

Passo 2 — Aplicar o Resultado 1 (equação 3.6): \[ \int \bigl[a(y)\,b'(\theta) + c'(\theta)\bigr]\,f(y;\,\theta)\,dy = 0 \]

Passo 3 — Separar a integral: \[ b'(\theta)\underbrace{\int a(y)\,f(y;\,\theta)\,dy}_{= E[a(Y)]} + c'(\theta)\underbrace{\int f(y;\,\theta)\,dy}_{= 1} = 0 \]

Passo 4 — Isolar \(E[a(Y)]\): \[ b'(\theta)\,E[a(Y)] + c'(\theta) = 0 \]

\[ \boxed{E[a(Y)] = -\frac{c'(\theta)}{b'(\theta)}} \tag{3.9} \]

Intuição: A fórmula diz que a esperança de \(a(Y)\) é determinada inteiramente pela razão entre as derivadas de \(c(\theta)\) e \(b(\theta)\) — as funções que aparecem na forma exponencial. Não precisamos calcular nenhuma integral diretamente!

3.3 Derivação da Variância: \(\text{var}[a(Y)]\)

Objetivo: encontrar \(\text{var}[a(Y)]\) usando o Resultado 2 (equação 3.7).

Passo 1 — Calcular \(\partial^2 f/\partial\theta^2\):

Diferenciando \(\partial f/\partial\theta = [a(y)b' + c']\,f\) novamente: \[ \frac{\partial^2 f}{\partial\theta^2} = \bigl[a(y)\,b'' + c''\bigr]\,f + \bigl[a(y)\,b' + c'\bigr]^2\,f \tag{3.10} \]

Passo 2 — Reescrever o segundo termo:

O segundo termo pode ser reescrito como: \[ \bigl[a(y)\,b' + c'\bigr]^2 f = [b'(\theta)]^2\bigl\{a(y) - E[a(Y)]\bigr\}^2 f \]

usando a fórmula de \(E[a(Y)]\) obtida em (3.9): \(c' = -b' E[a(Y)]\), portanto \(a(y)b' + c' = b'(a(y) - E[a(Y)])\).

Passo 3 — Aplicar o Resultado 2 (equação 3.7):

\[ \int \frac{\partial^2 f}{\partial\theta^2}\,dy = 0 \implies b''(\theta)\,E[a(Y)] + c''(\theta) + [b'(\theta)]^2\,\text{var}[a(Y)] = 0 \tag{3.11} \]

pois \(\int \{a(y) - E[a(Y)]\}^2 f\,dy = \text{var}[a(Y)]\) por definição.

Passo 4 — Isolar \(\text{var}[a(Y)]\):

Substituindo (3.9) em (3.11) e resolvendo:

\[ \boxed{\text{var}[a(Y)] = \frac{b''(\theta)\,c'(\theta) - c''(\theta)\,b'(\theta)}{[b'(\theta)]^3}} \tag{3.12} \]

Resumo: As fórmulas (3.9) e (3.12) são universais dentro da família exponencial — funcionam para Poisson, Normal, Binomial, Gamma, e qualquer outra distribuição membro. Basta identificar \(b(\theta)\) e \(c(\theta)\) e derivar.

3.4 Verificação para a Distribuição de Poisson

Para \(Y \sim \text{Poisson}(\theta)\): \(b(\theta) = \log\theta\) e \(c(\theta) = -\theta\).

Derivadas: \[ b'(\theta) = \frac{1}{\theta}, \quad b''(\theta) = -\frac{1}{\theta^2}, \quad c'(\theta) = -1, \quad c''(\theta) = 0 \]

Esperança pela fórmula (3.9): \[ E[Y] = -\frac{c'(\theta)}{b'(\theta)} = -\frac{-1}{1/\theta} = \theta \quad \checkmark \]

Variância pela fórmula (3.12): \[ \text{var}[Y] = \frac{b''(\theta)\,c'(\theta) - c''(\theta)\,b'(\theta)}{[b'(\theta)]^3} = \frac{(-1/\theta^2)(-1) - 0}{(1/\theta)^3} = \frac{1/\theta^2}{1/\theta^3} = \theta \quad \checkmark \]

Confirmamos \(E(Y) = \text{var}(Y) = \theta\) — a propriedade fundamental da Poisson.

3.5 Verificação para a Distribuição Binomial

Para \(Y \sim \text{Bin}(n,\pi)\): \(b(\pi) = \log[\pi/(1-\pi)]\) e \(c(\pi) = n\log(1-\pi)\).

Derivadas: \[ b'(\pi) = \frac{1}{\pi(1-\pi)}, \quad b''(\pi) = \frac{2\pi - 1}{\pi^2(1-\pi)^2} \] \[ c'(\pi) = \frac{-n}{1-\pi}, \quad c''(\pi) = \frac{-n}{(1-\pi)^2} \]

Esperança pela fórmula (3.9): \[ E[Y] = -\frac{c'(\pi)}{b'(\pi)} = -\frac{-n/(1-\pi)}{1/[\pi(1-\pi)]} = n\pi \quad \checkmark \]

Variância pela fórmula (3.12) (o desenvolvimento algébrico é mais longo, mas o resultado é): \[ \text{var}[Y] = n\pi(1-\pi) \quad \checkmark \]

3.6 A Estatística Escore e a Informação de Fisher

3.6.1 Estatística Escore \(U\)

Para uma única observação \(y\) de uma distribuição da família exponencial, a log-verossimilhança é: \[ \ell(\theta;\,y) = a(y)\,b(\theta) + c(\theta) + d(y) \]

A derivada em relação a \(\theta\) é chamada de estatística escore (score statistic): \[ U(\theta;\,y) = \frac{d\ell}{d\theta} = a(y)\,b'(\theta) + c'(\theta) \]

Como \(U\) depende de \(y\), ela é uma variável aleatória quando \(Y\) é aleatória: \[ U = a(Y)\,b'(\theta) + c'(\theta) \tag{3.13} \]

3.6.2 Esperança do Escore: \(E(U) = 0\)

\[ E(U) = b'(\theta)\,E[a(Y)] + c'(\theta) = b'(\theta)\cdot\left(-\frac{c'(\theta)}{b'(\theta)}\right) + c'(\theta) = 0 \tag{3.14} \]

Importante

Resultado fundamental: A esperança do escore é sempre zero — para qualquer distribuição da família exponencial, em qualquer valor do verdadeiro parâmetro \(\theta\).

Isso é equivalente ao fato de que, ao diferenciar a equação de normalização \(\int f\,dy = 1\), obtemos \(\int (\partial\log f/\partial\theta)\,f\,dy = 0\), ou seja, \(E[\partial\log f/\partial\theta] = 0\).

3.6.3 Informação de Fisher: \(I = \text{var}(U)\)

A variância do escore é chamada de informação de Fisher \(I\). Usando (1.3) com \(a(Y)\) como variável: \[ I = \text{var}(U) = [b'(\theta)]^2\,\text{var}[a(Y)] \]

Substituindo (3.12): \[ I = \text{var}(U) = \frac{b''(\theta)\,c'(\theta)}{b'(\theta)} - c''(\theta) \tag{3.15} \]

Por que a informação importa? A informação de Fisher mede quanta informação uma única observação contém sobre o parâmetro \(\theta\). Quanto maior \(I\), mais precisa é a estimativa do parâmetro. O Limite de Cramér-Rao diz que a variância de qualquer estimador não-viesado de \(\theta\) é no mínimo \(1/I\) — e o EMV atinge este limite assintoticamente.

3.6.4 Propriedade Adicional: \(\text{var}(U) = E(U^2) = -E(U')\)

Esta propriedade conecta três formas de calcular a informação:

Primeira igualdade (\(\text{var}(U) = E(U^2)\)):

Como \(E(U) = 0\), temos: \[ \text{var}(U) = E(U^2) - [E(U)]^2 = E(U^2) - 0 = E(U^2) \quad \checkmark \]

Segunda igualdade (\(E(U^2) = -E(U')\)):

Diferenciando \(U = a(Y)b'(\theta) + c'(\theta)\) com respeito a \(\theta\): \[ U' = \frac{dU}{d\theta} = a(Y)\,b''(\theta) + c''(\theta) \]

Calculando \(E(U')\): \[ E(U') = b''(\theta)\,E[a(Y)] + c''(\theta) = b''(\theta)\cdot\left(-\frac{c'(\theta)}{b'(\theta)}\right) + c''(\theta) \]

Substituindo (3.9) e comparando com (3.15): \[ E(U') = -I = -\text{var}(U) \tag{3.17} \]

Portanto: \(\boxed{\text{var}(U) = E(U^2) = -E(U')}\)

Intuição geométrica: \(U' = d^2\ell/d\theta^2\) é a curvatura da log-verossimilhança. A igualdade \(I = -E(U')\) diz que a informação é a curvatura média esperada de \(\ell\) — quanto mais “curvada” (côncava) for a log-verossimilhança ao redor do máximo, mais precisa é a estimativa. Esta identidade é a base do método de Newton-Raphson para maximização (Capítulo 4).

4 Modelos Lineares Generalizados: Definição Formal

4.1 Os Três Componentes de um MLG

A unidade de muitos métodos estatísticos foi demonstrada por Nelder e Wedderburn (1972) com a definição de Modelos Lineares Generalizados. Um MLG é definido por:

Importante

Definição de MLG: Sejam \(Y_1, \ldots, Y_N\) variáveis aleatórias independentes, cada uma com distribuição da família exponencial na forma canônica: \[ f(y_i;\,\theta_i) = \exp\!\bigl[y_i\,b(\theta_i) + c(\theta_i) + d(y_i)\bigr] \]

Um Modelo Linear Generalizado consiste em três componentes:

1. Componente aleatório: As respostas \(Y_1, \ldots, Y_N\) seguem a mesma família de distribuições (todas Poisson, todas Normal, etc.), podendo ter parâmetros \(\theta_i\) distintos.

2. Componente sistemático (preditor linear): \[ \eta_i = \mathbf{x}_i^T\boldsymbol{\beta} = \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} \]

em que \(\mathbf{X}\) é a matriz de planejamento (\(N \times p\)) e \(\boldsymbol{\beta}\) é o vetor de \(p < N\) parâmetros de interesse.

3. Função de ligação: Uma função monótona e diferenciável \(g\) tal que: \[ g(\mu_i) = \mathbf{x}_i^T\boldsymbol{\beta} = \eta_i, \qquad \text{em que } \mu_i = E(Y_i) \]

O que a monotonicidade da função de ligação garante? Que a relação entre \(\mu_i\) e \(\eta_i\) seja invertível — dado o preditor linear, sempre podemos recuperar a média prevista, e vice-versa. Uma função que fosse crescente para alguns valores e decrescente para outros tornaria o modelo não identificável.

4.2 A Função de Ligação Canônica

Quando a função de ligação é escolhida de forma que \(g(\mu_i) = b(\theta_i)\) (o parâmetro natural da distribuição), ela é chamada de ligação canônica. Para as três distribuições principais:

Distribuição	\(E(Y) = \mu\)	Ligação canônica \(g(\mu)\)	Nome
Normal	\(\mu\)	\(g(\mu) = \mu\)	Identidade
Poisson	\(\theta\)	\(g(\mu) = \log\mu\)	Log
Binomial	\(n\pi\)	\(g(\pi) = \log[\pi/(1-\pi)]\)	Logit

Por que a ligação canônica é especial? Ela simplifica a teoria de estimação (Capítulo 4) e garante certas propriedades ótimas dos estimadores. Porém, na prática podem-se usar outras funções de ligação — a escolha deve se basear na estrutura do problema.

5 Exemplos de MLGs

5.1 Modelo Normal Linear (Caso Especial Mais Conhecido)

\[ E(Y_i) = \mu_i = \mathbf{x}_i^T\boldsymbol{\beta}; \qquad Y_i \sim N(\mu_i, \sigma^2) \]

Função de ligação: identidade, \(g(\mu_i) = \mu_i\).

Na forma matricial: \(\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{e}\), em que \(e_i \sim N(0,\sigma^2)\) i.i.d.

Aqui o componente linear \(\boldsymbol{\mu} = \mathbf{X}\boldsymbol{\beta}\) representa o sinal e \(\mathbf{e}\) representa o ruído.

Regressão múltipla, ANOVA e ANCOVA são todos casos especiais deste modelo.

5.2 Linguística Histórica (MLG Binário)

Contexto: Dois idiomas descendentes de um ancestral comum (ex.: francês e espanhol, ambos descendentes do latim). Se eles foram separados há \(t\) unidades de tempo, a probabilidade de terem palavras cognatas para um dado significado é \(e^{-\theta t}\).

Resposta: \(Y_i = 1\) (cognata) ou \(Y_i = 0\) (não cognata), para \(i = 1, \ldots, N\) significados de uma lista teste.

Distribuição: Bernoulli \(B(\pi)\), caso especial da Binomial com \(n = 1\): \[ P(Y_i = 1) = \pi = e^{-\theta t}, \quad E(Y_i) = \pi \]

Ligação: logarítmica \[ g(\pi) = \log\pi = -\theta t \]

Portanto, \(g[E(Y_i)] = -\theta t\) é linear em \(\theta\).

Em notação matricial: \(\mathbf{x}_i = [-t]\) (o mesmo para todos \(i\)) e \(\boldsymbol{\beta} = [\theta]\).

Ponto importante: A escolha da função de ligação logarítmica é motivada pela estrutura do problema (a probabilidade de cognatos decai exponencialmente com o tempo). A família exponencial não impõe qual ligação usar — ela fornece as ferramentas; o pesquisador escolhe a ligação mais adequada ao fenômeno.

5.3 Taxas de Mortalidade (MLG de Poisson com Offset)

Contexto: Dados de mortes por doença coronariana em grupos etários de homens na região de Hunter, Austrália (1991).

Grupo etário	Mortes \(y_i\)	Pop. \(n_i\)	Taxa/100.000
30–34	1	17.742	5,6
35–39	5	16.554	30,2
40–44	5	16.059	31,1
45–49	12	13.083	91,7
50–54	25	10.784	231,8
55–59	38	9.645	394,0
60–64	54	10.706	504,4
65–69	65	9.933	654,4

Observação: O gráfico da taxa \(y_i/n_i\) numa escala logarítmica é aproximadamente linear em \(i\) (grupo etário). Isso sugere crescimento exponencial da taxa com a idade.

Modelo: \[ E(Y_i) = \mu_i = n_i\,e^{\theta i}; \qquad Y_i \sim \text{Poisson}(\mu_i) \]

Função de ligação: logarítmica \[ g(\mu_i) = \log\mu_i = \log n_i + \theta i \]

Em notação matricial: \(\mathbf{x}_i^T\boldsymbol{\beta} = \log n_i + \theta i\), com \(\mathbf{x}_i^T = [\log n_i,\; i]\) e \(\boldsymbol{\beta} = [1,\; \theta]^T\).

O conceito de offset: O termo \(\log n_i\) é um preditor cujo coeficiente é fixado em 1 (não estimado). Ele “ajusta” a contagem pelo tamanho da população exposta, permitindo modelar a taxa \(\lambda_i = \mu_i/n_i\) em vez do número absoluto de mortes. Em software estatístico (ex.: R), este termo é especificado com offset(log(n)).

6 A Estrutura Unificadora: Comparando os Três MLGs

             COMPONENTE ALEATÓRIO       LIGAÇÃO         PREDITOR LINEAR
             ══════════════════════     ════════════     ═══════════════════
Normal       Y ~ N(μ, σ²)              g(μ) = μ         η = Xβ
             (contínuo, simétrico)      identidade

Poisson      Y ~ Po(θ)                 g(μ) = log μ     η = Xβ
             (contagens)               logarítmica      (inclui offset)

Binomial     Y ~ Bin(n, π)             g(π) = logit π   η = Xβ
             (proporções/binários)     logit

Os três modelos diferem apenas no componente aleatório e na função de ligação. O preditor linear \(\eta_i = \mathbf{x}_i^T\boldsymbol{\beta}\) tem a mesma forma em todos eles — daí o nome “generalizado”.

7 Demonstrações Consolidadas: Esperança e Variância das Três Distribuições

7.1 Poisson: \(E(Y) = \text{var}(Y) = \theta\)

Identificação: \(b(\theta) = \log\theta\), \(c(\theta) = -\theta\).

\[ b'(\theta) = \frac{1}{\theta}, \quad b''(\theta) = -\frac{1}{\theta^2}, \quad c'(\theta) = -1, \quad c''(\theta) = 0 \]

Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-1}{1/\theta} = \theta \checkmark \]

Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{(-1/\theta^2)(-1) - 0}{(1/\theta)^3} = \frac{1/\theta^2}{1/\theta^3} = \theta \checkmark \]

7.2 Normal: \(E(Y) = \mu\), \(\text{var}(Y) = \sigma^2\)

Identificação: \(b(\mu) = \mu/\sigma^2\), \(c(\mu) = -\mu^2/(2\sigma^2) - \tfrac{1}{2}\log(2\pi\sigma^2)\).

\[ b'(\mu) = \frac{1}{\sigma^2}, \quad b''(\mu) = 0, \quad c'(\mu) = -\frac{\mu}{\sigma^2}, \quad c''(\mu) = -\frac{1}{\sigma^2} \]

Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-\mu/\sigma^2}{1/\sigma^2} = \mu \checkmark \]

Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{0 - (-1/\sigma^2)(1/\sigma^2)}{(1/\sigma^2)^3} = \frac{1/\sigma^4}{1/\sigma^6} = \sigma^2 \checkmark \]

7.3 Binomial: \(E(Y) = n\pi\), \(\text{var}(Y) = n\pi(1-\pi)\)

Identificação: \(b(\pi) = \log[\pi/(1-\pi)]\), \(c(\pi) = n\log(1-\pi)\).

\[ b'(\pi) = \frac{1}{\pi(1-\pi)}, \quad c'(\pi) = \frac{-n}{1-\pi} \]

Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{-n/(1-\pi)}{1/[\pi(1-\pi)]} = \frac{n\pi(1-\pi)}{1-\pi} = n\pi \checkmark \]

Para a variância, calculamos as derivadas de segunda ordem: \[ b''(\pi) = \frac{2\pi - 1}{\pi^2(1-\pi)^2}, \quad c''(\pi) = \frac{-n}{(1-\pi)^2} \]

Após substituição em (3.12) e simplificação algébrica: \[ \text{var}(Y) = n\pi(1-\pi) \checkmark \]

8 Exercícios Selecionados com Soluções Guiadas

8.1 Distribuição Gamma (Exercício 3.2)

Enunciado: \(Y\) tem distribuição Gamma com parâmetro de escala \(\beta\) (interesse) e forma \(\alpha\) (conhecido): \[ f(y;\,\beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}\,y^{\alpha-1}\,e^{-y\beta} \]

Tarefa: mostrar que pertence à família exponencial, identificar o parâmetro natural, e encontrar \(E(Y)\) e \(\text{var}(Y)\).

Solução:

Reescrevendo: \[ f(y;\,\beta) = \exp\!\left[-y\beta + \alpha\log\beta - \log\Gamma(\alpha) + (\alpha-1)\log y\right] \]

Identificação com a forma (3.3):

Termo	Expressão
\(a(y)\)	\(y\) (forma canônica ✓)
\(b(\beta)\)	\(-\beta\) (parâmetro natural)
\(c(\beta)\)	\(\alpha\log\beta - \log\Gamma(\alpha)\)
\(d(y)\)	\((\alpha-1)\log y\)

Derivadas: \[ b'(\beta) = -1, \quad b''(\beta) = 0, \quad c'(\beta) = \frac{\alpha}{\beta}, \quad c''(\beta) = -\frac{\alpha}{\beta^2} \]

Esperança: \[ E(Y) = -\frac{c'}{b'} = -\frac{\alpha/\beta}{-1} = \frac{\alpha}{\beta} \]

Variância: \[ \text{var}(Y) = \frac{b''c' - c''b'}{(b')^3} = \frac{0 - (-\alpha/\beta^2)(-1)}{(-1)^3} = \frac{-\alpha/\beta^2}{-1} = \frac{\alpha}{\beta^2} \]

8.2 Distribuição de Bernoulli (Exercício 3.7)

Enunciado: \(Y_i\) são variáveis binárias com \(P(Y_i = 1) = \pi_i\).

(a) Mostrar que \(f(y;\,\pi) = \pi^y(1-\pi)^{1-y}\) pertence à família exponencial.

Solução: \[ f(y;\,\pi) = \exp\!\left[y\log\pi + (1-y)\log(1-\pi)\right] = \exp\!\left[y\log\frac{\pi}{1-\pi} + \log(1-\pi)\right] \]

Forma (3.3) com \(a(y) = y\), \(b(\pi) = \log[\pi/(1-\pi)]\) (logit), \(c(\pi) = \log(1-\pi)\), \(d(y) = 0\). ✓

(b) O parâmetro natural é \(b(\pi) = \log[\pi/(1-\pi)]\) — o logit, logaritmo das chances.

(d) Se \(g(\pi) = \log[\pi/(1-\pi)] = \mathbf{x}^T\boldsymbol{\beta}\), mostrar que isso equivale a: \[ \pi = \frac{e^{\mathbf{x}^T\boldsymbol{\beta}}}{1 + e^{\mathbf{x}^T\boldsymbol{\beta}}} \]

Solução: Seja \(\eta = \mathbf{x}^T\boldsymbol{\beta}\). Então \(\log[\pi/(1-\pi)] = \eta \implies \pi/(1-\pi) = e^\eta \implies\) \(\pi = e^\eta(1-\pi) \implies \pi(1 + e^\eta) = e^\eta \implies \pi = e^\eta/(1+e^\eta)\). ✓

(e) Para \(\mathbf{x}^T\boldsymbol{\beta} = \beta_1 + \beta_2 x\): \[ \pi = \frac{e^{\beta_1 + \beta_2 x}}{1 + e^{\beta_1 + \beta_2 x}} \]

Esta é a função logística — uma curva em forma de S (sigmoide) que sempre produz valores em \((0, 1)\). Se \(x\) é a dose de um inseticida e \(\pi\) a probabilidade de morte:

Quando \(x \to -\infty\): \(\pi \to 0\) (dose mínima, sem efeito)
Quando \(x \to +\infty\): \(\pi \to 1\) (dose elevada, morte certa)
O parâmetro \(\beta_2 > 0\) controla a inclinação da curva (velocidade de transição)
O parâmetro \(\beta_1\) desloca a curva horizontalmente (dose mediana letal)

9 Resumo do Capítulo 3

9.1 Mapa Conceitual

FAMÍLIA EXPONENCIAL
══════════════════════════════════════════════════════
f(y;θ) = exp[a(y)b(θ) + c(θ) + d(y)]

         ┌─────────────────────────────────────┐
         │  Forma canônica: a(y) = y           │
         │  Parâmetro natural: b(θ)            │
         └─────────────────────────────────────┘

Propriedades universais (via derivação de ∫f dy = 1):
  ┌─────────────────────────────────────────────────┐
  │  E[a(Y)] = -c'(θ)/b'(θ)              (3.9)     │
  │  var[a(Y)] = [b''c' - c''b'] / (b')³  (3.12)   │
  │  E(U) = 0   [escore tem média zero]   (3.14)   │
  │  I = var(U) = -E(U')  [informação]    (3.16)   │
  └─────────────────────────────────────────────────┘

MODELO LINEAR GENERALIZADO (Nelder & Wedderburn, 1972)
══════════════════════════════════════════════════════
  1. Y_i ~ família exponencial (mesmo tipo)
  2. η_i = x_iᵀβ    [preditor linear]
  3. g(μ_i) = η_i   [função de ligação monótona]

  Distribuição   Ligação canônica   Exemplo de uso
  ─────────────  ─────────────────  ──────────────────────
  Normal         Identidade         Regressão, ANOVA
  Poisson        Log                Contagens, taxas
  Binomial       Logit              Proporções, binários
  Gamma          Inversa            Tempos positivos

9.2 Tabela de Resultados Chave

Distribuição	Param. natural	\(E(Y)\)	\(\text{var}(Y)\)	Ligação canônica
Normal \(N(\mu,\sigma^2)\)	\(\mu/\sigma^2\)	\(\mu\)	\(\sigma^2\)	Identidade
Poisson \(\text{Po}(\theta)\)	\(\log\theta\)	\(\theta\)	\(\theta\)	Log
Binomial \(\text{Bin}(n,\pi)\)	\(\text{logit}(\pi)\)	\(n\pi\)	\(n\pi(1-\pi)\)	Logit
Gamma \(G(\alpha,\beta)\)	\(-\beta\)	\(\alpha/\beta\)	\(\alpha/\beta^2\)	Inversa
Bernoulli \(B(\pi)\)	\(\text{logit}(\pi)\)	\(\pi\)	\(\pi(1-\pi)\)	Logit

9.3 Relações Entre Distribuições da Família

A Figura 3.3 do livro mostra relações assintoticas (\(n \to \infty\), \(r \to \infty\), etc.) e transformações entre membros da família exponencial. Destaques:

\(\text{Bin}(n,\pi) \to \text{Po}(\lambda)\) quando \(n \to \infty\) e \(n\pi \to \lambda\)
\(\text{Po}(\lambda) \to N(\lambda, \lambda)\) para \(\lambda\) grande (pelo TCL)
\(\text{Bin}(n,\pi) \to N(n\pi, n\pi(1-\pi))\) para \(n\) grande
\(\text{Gamma}(\alpha,\beta) \to N(\alpha/\beta, \alpha/\beta^2)\) para \(\alpha\) grande
\(\text{Exp}(\theta)\) é caso especial de \(\text{Gamma}(\alpha=1, \beta=\theta)\)

Próximo capítulo: O Capítulo 4 desenvolve os métodos de estimação para MLGs — como encontrar \(\hat{\boldsymbol{\beta}}\) numericamente usando o algoritmo de Newton-Raphson e o método dos mínimos quadrados iterativamente reponderados (IRLS), aproveitando as propriedades da família exponencial derivadas neste capítulo.

9.4 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.

Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society, Series A, 135(3), 370–384.