Modelos Lineares Generalizados

Apostila — Capítulo 1: Introdução

Autor

Baseado em Dobson & Barnett (2018)

Data de Publicação

23 de março de 2026

Nota ao leitor: Esta apostila resume o Capítulo 1 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O objetivo é apresentar de forma didática os conceitos, notações e resultados teóricos que servem de base para todo o livro.

1 Apresentação do Livro e Escopo

1.1 O que são Modelos Lineares Generalizados?

Os Modelos Lineares Generalizados (MLGs) fornecem uma estrutura unificadora para uma grande variedade de métodos estatísticos, incluindo:

Regressão linear múltipla
Análise de variância (ANOVA)
Regressão logística
Modelos de Poisson
Modelos de sobrevivência (paramétricos)

A grande vantagem dos MLGs é que técnicas aparentemente distintas — que em outros contextos exigem procedimentos computacionais separados — passam a ser casos particulares de uma única teoria geral.

1.2 Variáveis: Resposta e Explicativas

Em qualquer análise estatística descrita no livro, estudamos relações entre medições feitas em grupos de sujeitos ou objetos.

Papel	Outros nomes	Caráter probabilístico
Variável resposta	outcome, variável dependente	Tratada como variável aleatória
Variável explicativa	predictor, variável independente	Geralmente tratada como fixa (não aleatória)

1.3 Escalas de Medição

As variáveis podem ser medidas em diferentes escalas, e a escolha do método estatístico adequado depende delas:

Nominal: categorias sem ordem (ex.: cores, sexo biológico, morto/vivo).
Ordinal: categorias com ordenação natural (ex.: jovem / meia-idade / idoso; pressão arterial em faixas).
Contínua: valores em um continuum (ex.: peso, comprimento, tempo até um evento — este último chamado de tempo de falha).

Dados nominais e ordinais são chamados de categóricos ou discretos; para eles, registramos contagens em cada categoria. Para dados contínuos, registramos as medições individuais.

Uma variável explicativa qualitativa recebe o nome de fator; suas categorias são chamadas de níveis. Uma variável explicativa quantitativa contínua é às vezes chamada de covariável.

1.4 Visão Geral dos Capítulos e Métodos

A tabela abaixo (Tabela 1.1 do livro) resume os principais métodos de análise conforme o tipo de variável resposta e explicativa:

Resposta	Variáveis explicativas	Método
Contínua	Binária	Teste t
Contínua	Nominal (>2 cat.) ou ordinal	ANOVA
Contínua	Contínua	Regressão múltipla
Contínua	Mistas	ANCOVA
Binária	Qualquer	Regressão logística, modelos dose-resposta
Nominal (>2 cat.)	Qualquer	Regressão logística nominal
Ordinal	Qualquer	Regressão logística ordinal
Contagens	Qualquer	Modelos log-lineares, Regressão de Poisson
Tempos de falha	Qualquer	Análise de sobrevivência
Respostas correlacionadas	Qualquer	GEE, modelos multinível

Os três últimos capítulos do livro dedicam-se a métodos Bayesianos, que estendem substancialmente todas as análises acima.

2 Notação

2.1 Variáveis, Parâmetros e Estimadores

Variáveis aleatórias: letras maiúsculas em itálico, ex.: \(Y_1, Y_2, \ldots, Y_n\).
Valores observados (realizações): letras minúsculas, ex.: \(y_1, y_2, \ldots, y_n\).
Parâmetros: letras gregas, ex.: \(\beta, \theta, \mu, \sigma^2\).
Estimadores e estimativas: letras romanas minúsculas ou símbolo chapéu, ex.: \(b\) ou \(\hat{\beta}\) para estimar \(\beta\).

2.2 Vetores e Matrizes

Vetores (coluna): letras minúsculas em negrito, ex.:

\[ \mathbf{y} = \begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix}, \quad \boldsymbol{\beta} = \begin{bmatrix} \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} \]

Matrizes: letras maiúsculas em negrito, ex.: \(\mathbf{X}\) (matriz de planejamento/design).
O superscrito \(T\) indica transposta: \(\mathbf{y}^T = [Y_1, \ldots, Y_n]\).

2.3 Função de Densidade de Probabilidade

A função de densidade (para variáveis contínuas) ou função de massa de probabilidade (para discretas) é denotada genericamente por:

\[ f(y;\, \boldsymbol{\theta}) \]

onde \(\boldsymbol{\theta}\) representa o vetor de parâmetros da distribuição.

2.4 Notação de Somas e Médias

Ponto na subscrito indica soma: \(y_{\cdot} = \displaystyle\sum_{i=1}^N y_i\)
Barra indica média: \(\bar{y} = \dfrac{1}{N} y_{\cdot} = \dfrac{1}{N}\displaystyle\sum_{i=1}^N y_i\)

2.5 Combinações Lineares de Variáveis Aleatórias

Seja \(W = a_1 Y_1 + a_2 Y_2 + \cdots + a_n Y_n\) uma combinação linear de variáveis aleatórias independentes, com \(E(Y_i) = \mu_i\) e \(\text{var}(Y_i) = \sigma_i^2\). Então:

\[ \boxed{E(W) = \sum_{i=1}^n a_i \mu_i} \qquad \text{e} \qquad \boxed{\text{var}(W) = \sum_{i=1}^n a_i^2 \sigma_i^2} \]

Intuição: A esperança é linear — sempre. A variância também é linear (na soma dos quadrados dos coeficientes), mas apenas quando as variáveis são independentes (caso contrário, surgem termos de covariância).

3 Distribuições Relacionadas à Normal

Grande parte dos resultados de inferência estatística ao longo do livro depende, direta ou assintoticamente, da distribuição Normal. Esta seção reúne as definições e relações entre as principais distribuições derivadas da Normal.

3.1 Distribuição Normal

Definição: Se \(Y \sim N(\mu, \sigma^2)\), sua função de densidade é: \[ f(y;\, \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{-\frac{1}{2}\left(\frac{y - \mu}{\sigma}\right)^2\right\} \]

Propriedades importantes:

A Normal padrão tem \(\mu = 0\) e \(\sigma^2 = 1\): \(Z \sim N(0,1)\).
Normal Multivariada: se \(Y_1, \ldots, Y_n\) são conjuntamente normais, com vetor de médias \(\boldsymbol{\mu}\) e matriz de variância-covariância \(\mathbf{V}\) (elementos diagonais \(\sigma_i^2\) e não-diagonais \(\rho_{ij}\sigma_i\sigma_j\)), escrevemos: \[ \mathbf{y} \sim \text{MVN}(\boldsymbol{\mu},\, \mathbf{V}) \]
Estabilidade sob combinações lineares: se \(Y_i \sim N(\mu_i, \sigma_i^2)\) independentes, então: \[ W = \sum_{i=1}^n a_i Y_i \;\sim\; N\!\left(\sum a_i \mu_i,\; \sum a_i^2 \sigma_i^2\right) \]

Por que isso é útil? Médias amostrais de populações normais também são normalmente distribuídas — o que permite construir testes exatos para amostras de qualquer tamanho.

3.2 Distribuição Qui-Quadrado

Definição (central): A distribuição \(\chi^2(n)\) é definida como a soma de quadrados de \(n\) variáveis \(Z_i \sim N(0,1)\) independentes: \[ X^2 = \sum_{i=1}^n Z_i^2 \;\sim\; \chi^2(n) \] Em notação matricial: se \(\mathbf{z} = [Z_1, \ldots, Z_n]^T\), então \(X^2 = \mathbf{z}^T\mathbf{z} \sim \chi^2(n)\).

Propriedades:

Propriedade	Fórmula
Esperança	\(E(X^2) = n\)
Variância	\(\text{var}(X^2) = 2n\)

Como obter uma \(\chi^2\) a partir de normais não-padrão:

Se \(Y_i \sim N(\mu_i, \sigma_i^2)\) independentes, a padronização \(Z_i = (Y_i - \mu_i)/\sigma_i\) gera \(Z_i \sim N(0,1)\), e portanto:

\[ \sum_{i=1}^n \left(\frac{Y_i - \mu_i}{\sigma_i}\right)^2 \;\sim\; \chi^2(n) \]

Atenção: Esta fórmula exige que \(\mu_i\) e \(\sigma_i^2\) sejam conhecidos. Quando são estimados a partir dos próprios dados, os graus de liberdade se reduzem.

Distribuição Qui-Quadrado Não-Central:

Se \(Y_i = Z_i + \mu_i\) com \(Z_i \sim N(0,1)\) e pelo menos um \(\mu_i \neq 0\), então: \[ \sum Y_i^2 \;\sim\; \chi^2(n,\, \lambda), \quad \lambda = \sum \mu_i^2 \] O parâmetro \(\lambda\) é chamado de parâmetro de não-centralidade. A média aumenta para \(n + \lambda\) e a variância para \(2n + 4\lambda\).

Forma Quadrática com Normal Multivariada:

Se \(\mathbf{y} \sim \text{MVN}(\boldsymbol{\mu}, \mathbf{V})\) com \(\mathbf{V}\) não-singular: \[ (\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1} (\mathbf{y} - \boldsymbol{\mu}) \;\sim\; \chi^2(n) \]

Como entender esta fórmula?
Na Normal univariada, padronizamos \(Y\) subtraindo \(\mu\) e dividindo por \(\sigma\). Na versão multivariada, a “divisão” pela variância é substituída pela multiplicação pela inversa da matriz de covariância \(\mathbf{V}^{-1}\). Esta forma quadrática generaliza a ideia de distância padronizada ao espaço \(n\)-dimensional — e é chamada de distância de Mahalanobis.

Propriedade Reprodutiva:

Se \(X_1^2 \sim \chi^2(n_1, \lambda_1)\) e \(X_2^2 \sim \chi^2(n_2, \lambda_2)\) são independentes, então: \[ X_1^2 + X_2^2 \;\sim\; \chi^2(n_1 + n_2,\; \lambda_1 + \lambda_2) \]

Relação com a Distribuição de Wishart:

A Distribuição de Wishart \(W(\mathbf{V}, n)\) generaliza a \(\chi^2\) para matrizes. Se \(p = 1\), a distribuição de Wishart reduz-se à \(\chi^2\).

3.3 Distribuição \(t\) de Student

Definição: A distribuição \(t(n)\) é o quociente entre uma normal padrão e a raiz quadrada de uma \(\chi^2\) dividida por seus graus de liberdade: \[ T = \frac{Z}{\left(X^2/n\right)^{1/2}}, \quad Z \sim N(0,1),\; X^2 \sim \chi^2(n),\; Z \perp X^2 \]

Intuição: A distribuição \(t\) surge naturalmente quando estimamos a variância populacional a partir dos dados (em vez de conhecê-la). O denominador \(\sqrt{X^2/n}\) é um estimador da variância; suas “caudas pesadas” em relação à Normal refletem a incerteza adicional introduzida pela estimação.

3.4 Distribuição \(F\)

Definição (central): A distribuição \(F(n, m)\) é o quociente de duas \(\chi^2\) centrais independentes, cada uma dividida por seus respectivos graus de liberdade: \[ F = \frac{X_1^2/n}{X_2^2/m}, \quad X_1^2 \sim \chi^2(n),\; X_2^2 \sim \chi^2(m),\; X_1^2 \perp X_2^2 \]

Relação entre \(t\) e \(F\):

Elevando ao quadrado a definição da distribuição \(t\): \[ T^2 = \frac{Z^2}{X^2/n} = \frac{X_1^2/1}{X^2/n} \;\sim\; F(1, n) \]

Por que isso importa? Um teste \(t\) bilateral é equivalente a um teste \(F\) com 1 grau de liberdade no numerador. Isso significa que a distribuição \(F\) é uma generalização da distribuição \(t^2\) — o que unifica vários testes de hipótese.

Distribuição \(F\) Não-Central: quando o numerador segue uma \(\chi^2\) não-central \(\chi^2(n, \lambda)\) e o denominador uma \(\chi^2\) central \(\chi^2(m)\), obtemos a distribuição \(F\) não-central. Sua média é maior do que a da distribuição \(F\) central com os mesmos graus de liberdade.

4 Formas Quadráticas

4.1 Definição

Uma forma quadrática em \(y_1, \ldots, y_n\) é uma expressão polinomial em que cada termo tem grau exatamente 2. Exemplos:

\(y_1^2 + y_2^2\) ✓ (forma quadrática)
\(2y_1^2 + y_2^2 + 3y_1 y_2\) ✓ (forma quadrática)
\(y_1^2 + y_2^2 + 2y_1\) ✗ (o termo \(2y_1\) tem grau 1)

4.2 Representação Matricial

Seja \(\mathbf{A}\) uma matriz simétrica (\(a_{ij} = a_{ji}\)). Então: \[ Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y} = \sum_i \sum_j a_{ij}\, y_i\, y_j \] é uma forma quadrática nos \(y_i\)’s.

Exemplo: A expressão \((\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1}(\mathbf{y} - \boldsymbol{\mu})\) é uma forma quadrática nos termos \((y_i - \mu_i)\), não nos \(y_i\) diretamente.

4.3 Positividade Definida

A forma quadrática \(Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y}\) e a matriz \(\mathbf{A}\) são ditas positivas definidas se \(Q > 0\) sempre que \(\mathbf{y} \neq \mathbf{0}\).

Condição necessária e suficiente: todos os menores principais de \(\mathbf{A}\) são positivos, isto é:

\[ |a_{11}| > 0, \quad \left|\begin{matrix}a_{11} & a_{12}\\ a_{21} & a_{22}\end{matrix}\right| > 0, \quad \ldots, \quad \det(\mathbf{A}) > 0 \]

Por que importa? Matrizes positivas definidas são invertíveis e possuem uma raiz quadrada \(\mathbf{A}^*\) tal que \(\mathbf{A}^* \mathbf{A}^* = \mathbf{A}\). Estas propriedades são essenciais para deduzir distribuições de estimadores e construir estatísticas de teste.

4.4 Graus de Liberdade de uma Forma Quadrática

O posto (rank) da matriz \(\mathbf{A}\) é chamado de graus de liberdade da forma quadrática \(Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y}\).

4.5 Teorema de Cochran

Importante

Teorema de Cochran:
Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes, cada uma com distribuição \(N(0, \sigma^2)\). Seja \(Q = \sum_{i=1}^n Y_i^2\) e suponha que \(Q = Q_1 + Q_2 + \cdots + Q_k\) onde \(Q_i\) é uma forma quadrática com \(m_i\) graus de liberdade.

Então \(Q_1, Q_2, \ldots, Q_k\) são independentes e \(Q_i/\sigma^2 \sim \chi^2(m_i)\) se e somente se: \[ m_1 + m_2 + \cdots + m_k = n \]

Como entender o Teorema de Cochran?

Imagine que \(Q = \sum Y_i^2\) é o “total de variação”. O teorema diz que é possível decompor essa variação total em \(k\) partes independentes — cada uma seguindo uma qui-quadrado — desde que os graus de liberdade se somem corretamente. Isso é exatamente o que ocorre na Análise de Variância (ANOVA): a variação total é particionada em variação “entre grupos” e “dentro dos grupos”, cada parte sendo uma forma quadrática independente.

Corolário: A diferença de duas \(\chi^2\) independentes também tem distribuição \(\chi^2\): \[ X_1^2 \sim \chi^2(m),\; X_2^2 \sim \chi^2(k),\; X_1^2 \geq 0 \;\Rightarrow\; X_1^2 - X_2^2 \sim \chi^2(m - k) \quad (m > k) \]

5 Estimação

5.1 Estimação por Máxima Verossimilhança

5.1.1 Conceito

Seja \(\mathbf{y} = [Y_1, \ldots, Y_n]^T\) um vetor aleatório com distribuição conjunta \(f(\mathbf{y};\, \boldsymbol{\theta})\), dependente do vetor de parâmetros \(\boldsymbol{\theta} = [\theta_1, \ldots, \theta_p]^T\).

A função de verossimilhança \(L(\boldsymbol{\theta};\, \mathbf{y})\) é algebraicamente a mesma que \(f(\mathbf{y};\, \boldsymbol{\theta})\), mas a mudança de notação reflete uma mudança de perspectiva: agora \(\mathbf{y}\) é fixo (observado) e \(\boldsymbol{\theta}\) é o argumento de interesse.

Estimador de Máxima Verossimilhança (EMV): o valor \(\hat{\boldsymbol{\theta}}\) que maximiza \(L(\boldsymbol{\theta};\, \mathbf{y})\) sobre todo o espaço paramétrico \(\Omega\): \[ L(\hat{\boldsymbol{\theta}};\, \mathbf{y}) \;\geq\; L(\boldsymbol{\theta};\, \mathbf{y}) \quad \forall\, \boldsymbol{\theta} \in \Omega \]

5.1.2 Log-verossimilhança

Como \(\log\) é uma função monotônica crescente, maximizar \(L\) é equivalente a maximizar \(\ell = \log L\). A log-verossimilhança é: \[ \ell(\boldsymbol{\theta};\, \mathbf{y}) = \log L(\boldsymbol{\theta};\, \mathbf{y}) \]

Trabalhar com \(\ell\) é geralmente mais simples: produtos viram somas, e as derivadas são mais fáceis de calcular.

5.1.3 Equações de Score

O EMV é tipicamente obtido resolvendo o sistema de equações: \[ \frac{\partial \ell(\boldsymbol{\theta};\, \mathbf{y})}{\partial \theta_j} = 0, \quad j = 1, \ldots, p \]

Para confirmar que a solução é um máximo (e não um mínimo ou ponto de sela), verificamos se a matriz de segundas derivadas avaliada em \(\hat{\boldsymbol{\theta}}\) é negativa definida.

5.1.4 Propriedade da Invariância

Importante

Propriedade da Invariância do EMV: se \(\hat{\boldsymbol{\theta}}\) é o EMV de \(\boldsymbol{\theta}\) e \(g(\boldsymbol{\theta})\) é qualquer função de \(\boldsymbol{\theta}\), então \(g(\hat{\boldsymbol{\theta}})\) é o EMV de \(g(\boldsymbol{\theta})\).

Por que isso é útil? Podemos trabalhar com a parametrização mais conveniente para maximizar a verossimilhança e depois transformar para obter o estimador na escala desejada. Por exemplo: se for mais fácil estimar \(\log\theta\), estimamos \(\log\hat\theta\) e exponenciamos para obter \(\hat\theta\).

Outras propriedades do EMV (demonstradas em livros de teoria estatística):

Consistência: \(\hat{\boldsymbol{\theta}} \xrightarrow{p} \boldsymbol{\theta}\) quando \(n \to \infty\)
Eficiência assintótica: entre todos os estimadores não-viesados, o EMV tem a menor variância assintótica possível
Normalidade assintótica: \(\hat{\boldsymbol{\theta}} \approx N(\boldsymbol{\theta}, \mathbf{I}^{-1}(\boldsymbol{\theta}))\) para \(n\) grande, onde \(\mathbf{I}\) é a matriz de informação de Fisher

5.1.5 Exemplo: Distribuição de Poisson

Contexto: Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes, cada uma com distribuição de Poisson com parâmetro \(\theta\) (desconhecido): \[ P(Y_i = y_i) = \frac{\theta^{y_i} e^{-\theta}}{y_i!}, \quad y_i = 0, 1, 2, \ldots \]

Passo 1 — Função de verossimilhança conjunta:

Como as variáveis são independentes, a densidade conjunta é o produto das densidades marginais: \[ L(\theta;\, y_1, \ldots, y_n) = \prod_{i=1}^n \frac{\theta^{y_i} e^{-\theta}}{y_i!} = \frac{\theta^{\sum y_i}\, e^{-n\theta}}{y_1!\, y_2!\, \cdots\, y_n!} \]

Passo 2 — Log-verossimilhança:

Tomando o logaritmo: \[ \ell(\theta) = \left(\sum_{i=1}^n y_i\right) \log\theta - n\theta - \sum_{i=1}^n \log(y_i!) \]

O último termo não depende de \(\theta\) e pode ser ignorado na maximização.

Passo 3 — Equação de score:

\[ \frac{d\ell}{d\theta} = \frac{\sum y_i}{\theta} - n = 0 \]

Passo 4 — Resolução:

\[ \hat{\theta} = \frac{\sum y_i}{n} = \bar{y} \]

Passo 5 — Verificação (segunda derivada):

\[ \frac{d^2\ell}{d\theta^2} = -\frac{\sum y_i}{\theta^2} < 0 \quad \checkmark \]

A segunda derivada é negativa, confirmando que \(\bar{y}\) é de fato um máximo.

Nota

Conclusão: O EMV do parâmetro \(\theta\) da distribuição de Poisson é simplesmente a média amostral \(\hat{\theta} = \bar{y}\).

5.1.6 Exemplo: Ciclones Tropicais

Como ilustração numérica, o livro apresenta dados do número de ciclones tropicais no nordeste da Austrália em 13 temporadas consecutivas (1956-57 a 1968-69):

Temporada:    1   2   3   4   5   6   7   8   9  10  11  12  13
Nº ciclones:  6   5   4   6   6   3  12   7   4   2   6   7   4

Supondo que os \(Y_i \sim \text{Poisson}(\theta)\) independentes:

\[ \hat{\theta} = \bar{y} = \frac{72}{13} \approx 5{,}538 \]

A log-verossimilhança (sem a constante) é \(\ell^*(\theta) = \sum(y_i \log\theta - \theta)\). A Figura 1.2 do livro mostra \(\ell^*\) graficamente; o máximo ocorre visivelmente entre \(\theta = 5\) e \(\theta = 6\).

Para localizar o máximo numericamente (ilustrando o papel dos métodos iterativos), pode-se usar o método da bissecção:

Iteração \(k\)	\(\theta^{(k)}\)	\(\ell^*(\theta^{(k)})\)
1	5,0000	50,878
2	6,0000	51,007
3	5,5000	51,242
4	5,7500	51,192
5	5,6250	51,235
6	5,5625	51,243
7	5,5313	51,244
…	…	…

Após algumas iterações, \(\hat\theta \approx 5{,}54\) — coerente com \(\bar{y} = 72/13\).

Ponto pedagógico: Para modelos mais complexos (MLGs em geral), não há solução analítica para as equações de score. O exemplo dos ciclones antecipa a necessidade de métodos numéricos iterativos — que serão centrais no restante do livro.

5.2 Estimação por Mínimos Quadrados

5.2.1 Caso Simples (Homocedástico)

Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes com médias \(\mu_i(\boldsymbol{\beta})\) que dependem do vetor de parâmetros \(\boldsymbol{\beta} = [\beta_1, \ldots, \beta_p]^T\). O estimador de mínimos quadrados minimiza: \[ S(\boldsymbol{\beta}) = \sum_{i=1}^n [Y_i - \mu_i(\boldsymbol{\beta})]^2 \]

5.2.2 Caso Heterocedástico (Mínimos Quadrados Ponderados)

Se as variâncias \(\sigma_i^2\) não são todas iguais, usa-se o critério: \[ S(\boldsymbol{\beta}) = \sum_{i=1}^n w_i [Y_i - \mu_i(\boldsymbol{\beta})]^2, \quad w_i = \frac{1}{\sigma_i^2} \]

Observações menos confiáveis (maior variância) recebem menor peso.

5.2.3 Caso Geral (Mínimos Quadrados Generalizados)

Se \(\mathbf{y} \sim (\boldsymbol{\mu}, \mathbf{V})\) (vetor aleatório com média \(\boldsymbol{\mu}\) e matriz de covariância \(\mathbf{V}\)), minimiza-se: \[ S = (\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1} (\mathbf{y} - \boldsymbol{\mu}) \]

Relação com a qui-quadrado: Repare que esta expressão é exatamente a forma quadrática da Seção 1.4.2! Sob normalidade, ela se distribui como \(\chi^2(n)\), o que permite construir testes de hipótese.

5.3 Comparação entre Máxima Verossimilhança e Mínimos Quadrados

Aspecto	Máxima Verossimilhança	Mínimos Quadrados
Pressuposto distribucional	Requer especificação completa da distribuição de \(Y_i\)	Requer apenas \(E(Y_i)\) e, no caso ponderado, \(\text{var}(Y_i)\)
Coincidência	Em muitos modelos, os dois estimadores são idênticos	—
Solução	Analítica ou numérica	Analítica ou numérica
Uso em MLGs	Método principal	Formulação alternativa (equivalente sob normalidade)

Em suma: Mínimos Quadrados é mais robusto a premissas (exige menos), enquanto Máxima Verossimilhança é mais eficiente (extrai mais informação quando a distribuição é corretamente especificada).

6 Exercícios Selecionados

Os exercícios ao final do Capítulo 1 servem para praticar os resultados desta seção. Alguns são reproduzidos aqui com dicas de resolução.

Exercício 1.1 — Combinações lineares de normais independentes.

Sejam \(Y_1 \sim N(1,3)\) e \(Y_2 \sim N(2,5)\) independentes. Determine a distribuição conjunta de \(W_1 = Y_1 + 2Y_2\) e \(W_2 = 4Y_1 - Y_2\).

Dica: Use as propriedades de combinações lineares da Normal (Seção 2). A distribuição conjunta de \((W_1, W_2)\) é bivariada Normal; calcule médias, variâncias e covariância.

Exercício 1.2 — Formas quadráticas com normais padrão.

Sejam \(Y_1 \sim N(0,1)\) e \(Y_2 \sim N(3,4)\) independentes.

Qual a distribuição de \(Y_1^2\)?
Seja \(\mathbf{y} = [(Y_1),\, (Y_2-3)/2]^T\). Obtenha \(\mathbf{y}^T\mathbf{y}\) e sua distribuição.
Seja \(\mathbf{y} = [Y_1, Y_2]^T\) com \(\mathbf{y} \sim \text{MVN}(\boldsymbol{\mu}, \mathbf{V})\). Obtenha \(\mathbf{y}^T\mathbf{V}^{-1}\mathbf{y}\) e sua distribuição.

Dica: Para (a): \(Y_1^2 \sim \chi^2(1)\) (caso não-central com \(\lambda = 0\)). Para (b): após padronização, cada componente de \(\mathbf{y}\) é \(N(0,1)\), e a soma dos quadrados é \(\chi^2(2)\).

Exercício 1.5 — EMV da distribuição de Poisson com reparametrização.

Sejam \(Y_1, \ldots, Y_n\) independentes com \(Y_i \sim \text{Poisson}(\theta)\). Faça \(\theta = e^\beta\).

Mostre que \(E(Y_i) = \theta\) para todo \(i\).
Encontre o EMV de \(\beta\).
Minimize \(S = \sum(Y_i - e^\beta)^2\) para obter um estimador de mínimos quadrados de \(\beta\).

Dica para (b): Reescreva a log-verossimilhança em termos de \(\beta\) (substitua \(\theta = e^\beta\)) e diferencie. Pela propriedade da invariância, o EMV de \(\beta\) é \(\hat\beta = \log\hat\theta = \log\bar{y}\).

Exercício 1.6 — EMV da distribuição Binomial.

Sejam \(Y_i \sim \text{Binomial}(n_i, \theta)\) independentes, representando o número de fêmeas em grupos de progênies de mariposas. Encontre o EMV de \(\theta\).

Dica: A log-verossimilhança é \(\ell(\theta) = (\sum y_i)\log\theta + (\sum n_i - \sum y_i)\log(1-\theta) + \text{const}\). Diferenciando e igualando a zero, obtém-se \(\hat\theta = \sum y_i / \sum n_i\), a proporção total de fêmeas.

7 Resumo dos Principais Resultados

Conceito	Resultado Principal
Combinação linear	\(E(W) = \sum a_i \mu_i\); \(\text{var}(W) = \sum a_i^2 \sigma_i^2\) (independência)
\(\chi^2\) central	\(\sum Z_i^2 \sim \chi^2(n)\); \(E = n\), \(\text{var} = 2n\)
\(\chi^2\) via MVN	\((\mathbf{y}-\boldsymbol{\mu})^T\mathbf{V}^{-1}(\mathbf{y}-\boldsymbol{\mu}) \sim \chi^2(n)\)
Distribuição \(t\)	\(T = Z/\sqrt{X^2/n} \sim t(n)\)
Distribuição \(F\)	\(F = (X_1^2/n)/(X_2^2/m) \sim F(n,m)\)
Relação \(t^2 = F\)	\(T^2 \sim F(1, n)\)
Teorema de Cochran	Decomposição de \(\chi^2\); graus de liberdade se somam
EMV de \(\theta\) Poisson	\(\hat\theta = \bar{y}\)
Invariância do EMV	\(\widehat{g(\theta)} = g(\hat\theta)\)
MQ ponderado	Minimiza \(\sum w_i(Y_i - \mu_i)^2\) com \(w_i = 1/\sigma_i^2\)

Próximo capítulo: O Capítulo 2 apresenta dois exemplos concretos para ilustrar as quatro etapas do processo de ajuste de modelos: especificação, estimação, verificação de ajuste e inferência.

7.1 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.