Modelos Lineares Generalizados
Apostila — Capítulo 1: Introdução
Nota ao leitor: Esta apostila resume o Capítulo 1 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O objetivo é apresentar de forma didática os conceitos, notações e resultados teóricos que servem de base para todo o livro.
1 Apresentação do Livro e Escopo
1.1 O que são Modelos Lineares Generalizados?
Os Modelos Lineares Generalizados (MLGs) fornecem uma estrutura unificadora para uma grande variedade de métodos estatísticos, incluindo:
- Regressão linear múltipla
- Análise de variância (ANOVA)
- Regressão logística
- Modelos de Poisson
- Modelos de sobrevivência (paramétricos)
A grande vantagem dos MLGs é que técnicas aparentemente distintas — que em outros contextos exigem procedimentos computacionais separados — passam a ser casos particulares de uma única teoria geral.
1.2 Variáveis: Resposta e Explicativas
Em qualquer análise estatística descrita no livro, estudamos relações entre medições feitas em grupos de sujeitos ou objetos.
| Papel | Outros nomes | Caráter probabilístico |
|---|---|---|
| Variável resposta | outcome, variável dependente | Tratada como variável aleatória |
| Variável explicativa | predictor, variável independente | Geralmente tratada como fixa (não aleatória) |
1.3 Escalas de Medição
As variáveis podem ser medidas em diferentes escalas, e a escolha do método estatístico adequado depende delas:
- Nominal: categorias sem ordem (ex.: cores, sexo biológico, morto/vivo).
- Ordinal: categorias com ordenação natural (ex.: jovem / meia-idade / idoso; pressão arterial em faixas).
- Contínua: valores em um continuum (ex.: peso, comprimento, tempo até um evento — este último chamado de tempo de falha).
Dados nominais e ordinais são chamados de categóricos ou discretos; para eles, registramos contagens em cada categoria. Para dados contínuos, registramos as medições individuais.
Uma variável explicativa qualitativa recebe o nome de fator; suas categorias são chamadas de níveis. Uma variável explicativa quantitativa contínua é às vezes chamada de covariável.
1.4 Visão Geral dos Capítulos e Métodos
A tabela abaixo (Tabela 1.1 do livro) resume os principais métodos de análise conforme o tipo de variável resposta e explicativa:
| Resposta | Variáveis explicativas | Método |
|---|---|---|
| Contínua | Binária | Teste t |
| Contínua | Nominal (>2 cat.) ou ordinal | ANOVA |
| Contínua | Contínua | Regressão múltipla |
| Contínua | Mistas | ANCOVA |
| Binária | Qualquer | Regressão logística, modelos dose-resposta |
| Nominal (>2 cat.) | Qualquer | Regressão logística nominal |
| Ordinal | Qualquer | Regressão logística ordinal |
| Contagens | Qualquer | Modelos log-lineares, Regressão de Poisson |
| Tempos de falha | Qualquer | Análise de sobrevivência |
| Respostas correlacionadas | Qualquer | GEE, modelos multinível |
Os três últimos capítulos do livro dedicam-se a métodos Bayesianos, que estendem substancialmente todas as análises acima.
2 Notação
2.1 Variáveis, Parâmetros e Estimadores
- Variáveis aleatórias: letras maiúsculas em itálico, ex.: \(Y_1, Y_2, \ldots, Y_n\).
- Valores observados (realizações): letras minúsculas, ex.: \(y_1, y_2, \ldots, y_n\).
- Parâmetros: letras gregas, ex.: \(\beta, \theta, \mu, \sigma^2\).
- Estimadores e estimativas: letras romanas minúsculas ou símbolo chapéu, ex.: \(b\) ou \(\hat{\beta}\) para estimar \(\beta\).
2.2 Vetores e Matrizes
- Vetores (coluna): letras minúsculas em negrito, ex.:
\[ \mathbf{y} = \begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix}, \quad \boldsymbol{\beta} = \begin{bmatrix} \beta_1 \\ \vdots \\ \beta_p \end{bmatrix} \]
- Matrizes: letras maiúsculas em negrito, ex.: \(\mathbf{X}\) (matriz de planejamento/design).
- O superscrito \(T\) indica transposta: \(\mathbf{y}^T = [Y_1, \ldots, Y_n]\).
2.3 Função de Densidade de Probabilidade
A função de densidade (para variáveis contínuas) ou função de massa de probabilidade (para discretas) é denotada genericamente por:
\[ f(y;\, \boldsymbol{\theta}) \]
onde \(\boldsymbol{\theta}\) representa o vetor de parâmetros da distribuição.
2.4 Notação de Somas e Médias
- Ponto na subscrito indica soma: \(y_{\cdot} = \displaystyle\sum_{i=1}^N y_i\)
- Barra indica média: \(\bar{y} = \dfrac{1}{N} y_{\cdot} = \dfrac{1}{N}\displaystyle\sum_{i=1}^N y_i\)
2.5 Combinações Lineares de Variáveis Aleatórias
Seja \(W = a_1 Y_1 + a_2 Y_2 + \cdots + a_n Y_n\) uma combinação linear de variáveis aleatórias independentes, com \(E(Y_i) = \mu_i\) e \(\text{var}(Y_i) = \sigma_i^2\). Então:
\[ \boxed{E(W) = \sum_{i=1}^n a_i \mu_i} \qquad \text{e} \qquad \boxed{\text{var}(W) = \sum_{i=1}^n a_i^2 \sigma_i^2} \]
Intuição: A esperança é linear — sempre. A variância também é linear (na soma dos quadrados dos coeficientes), mas apenas quando as variáveis são independentes (caso contrário, surgem termos de covariância).
3 Distribuições Relacionadas à Normal
Grande parte dos resultados de inferência estatística ao longo do livro depende, direta ou assintoticamente, da distribuição Normal. Esta seção reúne as definições e relações entre as principais distribuições derivadas da Normal.
3.1 Distribuição Normal
Definição: Se \(Y \sim N(\mu, \sigma^2)\), sua função de densidade é: \[ f(y;\, \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left\{-\frac{1}{2}\left(\frac{y - \mu}{\sigma}\right)^2\right\} \]
Propriedades importantes:
A Normal padrão tem \(\mu = 0\) e \(\sigma^2 = 1\): \(Z \sim N(0,1)\).
Normal Multivariada: se \(Y_1, \ldots, Y_n\) são conjuntamente normais, com vetor de médias \(\boldsymbol{\mu}\) e matriz de variância-covariância \(\mathbf{V}\) (elementos diagonais \(\sigma_i^2\) e não-diagonais \(\rho_{ij}\sigma_i\sigma_j\)), escrevemos: \[ \mathbf{y} \sim \text{MVN}(\boldsymbol{\mu},\, \mathbf{V}) \]
Estabilidade sob combinações lineares: se \(Y_i \sim N(\mu_i, \sigma_i^2)\) independentes, então: \[ W = \sum_{i=1}^n a_i Y_i \;\sim\; N\!\left(\sum a_i \mu_i,\; \sum a_i^2 \sigma_i^2\right) \]
Por que isso é útil? Médias amostrais de populações normais também são normalmente distribuídas — o que permite construir testes exatos para amostras de qualquer tamanho.
3.2 Distribuição Qui-Quadrado
Definição (central): A distribuição \(\chi^2(n)\) é definida como a soma de quadrados de \(n\) variáveis \(Z_i \sim N(0,1)\) independentes: \[ X^2 = \sum_{i=1}^n Z_i^2 \;\sim\; \chi^2(n) \] Em notação matricial: se \(\mathbf{z} = [Z_1, \ldots, Z_n]^T\), então \(X^2 = \mathbf{z}^T\mathbf{z} \sim \chi^2(n)\).
Propriedades:
| Propriedade | Fórmula |
|---|---|
| Esperança | \(E(X^2) = n\) |
| Variância | \(\text{var}(X^2) = 2n\) |
Como obter uma \(\chi^2\) a partir de normais não-padrão:
Se \(Y_i \sim N(\mu_i, \sigma_i^2)\) independentes, a padronização \(Z_i = (Y_i - \mu_i)/\sigma_i\) gera \(Z_i \sim N(0,1)\), e portanto:
\[ \sum_{i=1}^n \left(\frac{Y_i - \mu_i}{\sigma_i}\right)^2 \;\sim\; \chi^2(n) \]
Atenção: Esta fórmula exige que \(\mu_i\) e \(\sigma_i^2\) sejam conhecidos. Quando são estimados a partir dos próprios dados, os graus de liberdade se reduzem.
Distribuição Qui-Quadrado Não-Central:
Se \(Y_i = Z_i + \mu_i\) com \(Z_i \sim N(0,1)\) e pelo menos um \(\mu_i \neq 0\), então: \[ \sum Y_i^2 \;\sim\; \chi^2(n,\, \lambda), \quad \lambda = \sum \mu_i^2 \] O parâmetro \(\lambda\) é chamado de parâmetro de não-centralidade. A média aumenta para \(n + \lambda\) e a variância para \(2n + 4\lambda\).
Forma Quadrática com Normal Multivariada:
Se \(\mathbf{y} \sim \text{MVN}(\boldsymbol{\mu}, \mathbf{V})\) com \(\mathbf{V}\) não-singular: \[ (\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1} (\mathbf{y} - \boldsymbol{\mu}) \;\sim\; \chi^2(n) \]
Como entender esta fórmula?
Na Normal univariada, padronizamos \(Y\) subtraindo \(\mu\) e dividindo por \(\sigma\). Na versão multivariada, a “divisão” pela variância é substituída pela multiplicação pela inversa da matriz de covariância \(\mathbf{V}^{-1}\). Esta forma quadrática generaliza a ideia de distância padronizada ao espaço \(n\)-dimensional — e é chamada de distância de Mahalanobis.
Propriedade Reprodutiva:
Se \(X_1^2 \sim \chi^2(n_1, \lambda_1)\) e \(X_2^2 \sim \chi^2(n_2, \lambda_2)\) são independentes, então: \[ X_1^2 + X_2^2 \;\sim\; \chi^2(n_1 + n_2,\; \lambda_1 + \lambda_2) \]
Relação com a Distribuição de Wishart:
A Distribuição de Wishart \(W(\mathbf{V}, n)\) generaliza a \(\chi^2\) para matrizes. Se \(p = 1\), a distribuição de Wishart reduz-se à \(\chi^2\).
3.3 Distribuição \(t\) de Student
Definição: A distribuição \(t(n)\) é o quociente entre uma normal padrão e a raiz quadrada de uma \(\chi^2\) dividida por seus graus de liberdade: \[ T = \frac{Z}{\left(X^2/n\right)^{1/2}}, \quad Z \sim N(0,1),\; X^2 \sim \chi^2(n),\; Z \perp X^2 \]
Intuição: A distribuição \(t\) surge naturalmente quando estimamos a variância populacional a partir dos dados (em vez de conhecê-la). O denominador \(\sqrt{X^2/n}\) é um estimador da variância; suas “caudas pesadas” em relação à Normal refletem a incerteza adicional introduzida pela estimação.
3.4 Distribuição \(F\)
Definição (central): A distribuição \(F(n, m)\) é o quociente de duas \(\chi^2\) centrais independentes, cada uma dividida por seus respectivos graus de liberdade: \[ F = \frac{X_1^2/n}{X_2^2/m}, \quad X_1^2 \sim \chi^2(n),\; X_2^2 \sim \chi^2(m),\; X_1^2 \perp X_2^2 \]
Relação entre \(t\) e \(F\):
Elevando ao quadrado a definição da distribuição \(t\): \[ T^2 = \frac{Z^2}{X^2/n} = \frac{X_1^2/1}{X^2/n} \;\sim\; F(1, n) \]
Por que isso importa? Um teste \(t\) bilateral é equivalente a um teste \(F\) com 1 grau de liberdade no numerador. Isso significa que a distribuição \(F\) é uma generalização da distribuição \(t^2\) — o que unifica vários testes de hipótese.
Distribuição \(F\) Não-Central: quando o numerador segue uma \(\chi^2\) não-central \(\chi^2(n, \lambda)\) e o denominador uma \(\chi^2\) central \(\chi^2(m)\), obtemos a distribuição \(F\) não-central. Sua média é maior do que a da distribuição \(F\) central com os mesmos graus de liberdade.
4 Formas Quadráticas
4.1 Definição
Uma forma quadrática em \(y_1, \ldots, y_n\) é uma expressão polinomial em que cada termo tem grau exatamente 2. Exemplos:
- \(y_1^2 + y_2^2\) ✓ (forma quadrática)
- \(2y_1^2 + y_2^2 + 3y_1 y_2\) ✓ (forma quadrática)
- \(y_1^2 + y_2^2 + 2y_1\) ✗ (o termo \(2y_1\) tem grau 1)
4.2 Representação Matricial
Seja \(\mathbf{A}\) uma matriz simétrica (\(a_{ij} = a_{ji}\)). Então: \[ Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y} = \sum_i \sum_j a_{ij}\, y_i\, y_j \] é uma forma quadrática nos \(y_i\)’s.
Exemplo: A expressão \((\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1}(\mathbf{y} - \boldsymbol{\mu})\) é uma forma quadrática nos termos \((y_i - \mu_i)\), não nos \(y_i\) diretamente.
4.3 Positividade Definida
A forma quadrática \(Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y}\) e a matriz \(\mathbf{A}\) são ditas positivas definidas se \(Q > 0\) sempre que \(\mathbf{y} \neq \mathbf{0}\).
Condição necessária e suficiente: todos os menores principais de \(\mathbf{A}\) são positivos, isto é:
\[ |a_{11}| > 0, \quad \left|\begin{matrix}a_{11} & a_{12}\\ a_{21} & a_{22}\end{matrix}\right| > 0, \quad \ldots, \quad \det(\mathbf{A}) > 0 \]
Por que importa? Matrizes positivas definidas são invertíveis e possuem uma raiz quadrada \(\mathbf{A}^*\) tal que \(\mathbf{A}^* \mathbf{A}^* = \mathbf{A}\). Estas propriedades são essenciais para deduzir distribuições de estimadores e construir estatísticas de teste.
4.4 Graus de Liberdade de uma Forma Quadrática
O posto (rank) da matriz \(\mathbf{A}\) é chamado de graus de liberdade da forma quadrática \(Q = \mathbf{y}^T \mathbf{A}\, \mathbf{y}\).
4.5 Teorema de Cochran
Teorema de Cochran:
Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes, cada uma com distribuição \(N(0, \sigma^2)\). Seja \(Q = \sum_{i=1}^n Y_i^2\) e suponha que \(Q = Q_1 + Q_2 + \cdots + Q_k\) onde \(Q_i\) é uma forma quadrática com \(m_i\) graus de liberdade.
Então \(Q_1, Q_2, \ldots, Q_k\) são independentes e \(Q_i/\sigma^2 \sim \chi^2(m_i)\) se e somente se: \[ m_1 + m_2 + \cdots + m_k = n \]
Como entender o Teorema de Cochran?
Imagine que \(Q = \sum Y_i^2\) é o “total de variação”. O teorema diz que é possível decompor essa variação total em \(k\) partes independentes — cada uma seguindo uma qui-quadrado — desde que os graus de liberdade se somem corretamente. Isso é exatamente o que ocorre na Análise de Variância (ANOVA): a variação total é particionada em variação “entre grupos” e “dentro dos grupos”, cada parte sendo uma forma quadrática independente.
Corolário: A diferença de duas \(\chi^2\) independentes também tem distribuição \(\chi^2\): \[ X_1^2 \sim \chi^2(m),\; X_2^2 \sim \chi^2(k),\; X_1^2 \geq 0 \;\Rightarrow\; X_1^2 - X_2^2 \sim \chi^2(m - k) \quad (m > k) \]
5 Estimação
5.1 Estimação por Máxima Verossimilhança
5.1.1 Conceito
Seja \(\mathbf{y} = [Y_1, \ldots, Y_n]^T\) um vetor aleatório com distribuição conjunta \(f(\mathbf{y};\, \boldsymbol{\theta})\), dependente do vetor de parâmetros \(\boldsymbol{\theta} = [\theta_1, \ldots, \theta_p]^T\).
A função de verossimilhança \(L(\boldsymbol{\theta};\, \mathbf{y})\) é algebraicamente a mesma que \(f(\mathbf{y};\, \boldsymbol{\theta})\), mas a mudança de notação reflete uma mudança de perspectiva: agora \(\mathbf{y}\) é fixo (observado) e \(\boldsymbol{\theta}\) é o argumento de interesse.
Estimador de Máxima Verossimilhança (EMV): o valor \(\hat{\boldsymbol{\theta}}\) que maximiza \(L(\boldsymbol{\theta};\, \mathbf{y})\) sobre todo o espaço paramétrico \(\Omega\): \[ L(\hat{\boldsymbol{\theta}};\, \mathbf{y}) \;\geq\; L(\boldsymbol{\theta};\, \mathbf{y}) \quad \forall\, \boldsymbol{\theta} \in \Omega \]
5.1.2 Log-verossimilhança
Como \(\log\) é uma função monotônica crescente, maximizar \(L\) é equivalente a maximizar \(\ell = \log L\). A log-verossimilhança é: \[ \ell(\boldsymbol{\theta};\, \mathbf{y}) = \log L(\boldsymbol{\theta};\, \mathbf{y}) \]
Trabalhar com \(\ell\) é geralmente mais simples: produtos viram somas, e as derivadas são mais fáceis de calcular.
5.1.3 Equações de Score
O EMV é tipicamente obtido resolvendo o sistema de equações: \[ \frac{\partial \ell(\boldsymbol{\theta};\, \mathbf{y})}{\partial \theta_j} = 0, \quad j = 1, \ldots, p \]
Para confirmar que a solução é um máximo (e não um mínimo ou ponto de sela), verificamos se a matriz de segundas derivadas avaliada em \(\hat{\boldsymbol{\theta}}\) é negativa definida.
5.1.4 Propriedade da Invariância
Propriedade da Invariância do EMV: se \(\hat{\boldsymbol{\theta}}\) é o EMV de \(\boldsymbol{\theta}\) e \(g(\boldsymbol{\theta})\) é qualquer função de \(\boldsymbol{\theta}\), então \(g(\hat{\boldsymbol{\theta}})\) é o EMV de \(g(\boldsymbol{\theta})\).
Por que isso é útil? Podemos trabalhar com a parametrização mais conveniente para maximizar a verossimilhança e depois transformar para obter o estimador na escala desejada. Por exemplo: se for mais fácil estimar \(\log\theta\), estimamos \(\log\hat\theta\) e exponenciamos para obter \(\hat\theta\).
Outras propriedades do EMV (demonstradas em livros de teoria estatística):
- Consistência: \(\hat{\boldsymbol{\theta}} \xrightarrow{p} \boldsymbol{\theta}\) quando \(n \to \infty\)
- Eficiência assintótica: entre todos os estimadores não-viesados, o EMV tem a menor variância assintótica possível
- Normalidade assintótica: \(\hat{\boldsymbol{\theta}} \approx N(\boldsymbol{\theta}, \mathbf{I}^{-1}(\boldsymbol{\theta}))\) para \(n\) grande, onde \(\mathbf{I}\) é a matriz de informação de Fisher
5.1.5 Exemplo: Distribuição de Poisson
Contexto: Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes, cada uma com distribuição de Poisson com parâmetro \(\theta\) (desconhecido): \[ P(Y_i = y_i) = \frac{\theta^{y_i} e^{-\theta}}{y_i!}, \quad y_i = 0, 1, 2, \ldots \]
Passo 1 — Função de verossimilhança conjunta:
Como as variáveis são independentes, a densidade conjunta é o produto das densidades marginais: \[ L(\theta;\, y_1, \ldots, y_n) = \prod_{i=1}^n \frac{\theta^{y_i} e^{-\theta}}{y_i!} = \frac{\theta^{\sum y_i}\, e^{-n\theta}}{y_1!\, y_2!\, \cdots\, y_n!} \]
Passo 2 — Log-verossimilhança:
Tomando o logaritmo: \[ \ell(\theta) = \left(\sum_{i=1}^n y_i\right) \log\theta - n\theta - \sum_{i=1}^n \log(y_i!) \]
O último termo não depende de \(\theta\) e pode ser ignorado na maximização.
Passo 3 — Equação de score:
\[ \frac{d\ell}{d\theta} = \frac{\sum y_i}{\theta} - n = 0 \]
Passo 4 — Resolução:
\[ \hat{\theta} = \frac{\sum y_i}{n} = \bar{y} \]
Passo 5 — Verificação (segunda derivada):
\[ \frac{d^2\ell}{d\theta^2} = -\frac{\sum y_i}{\theta^2} < 0 \quad \checkmark \]
A segunda derivada é negativa, confirmando que \(\bar{y}\) é de fato um máximo.
5.1.6 Exemplo: Ciclones Tropicais
Como ilustração numérica, o livro apresenta dados do número de ciclones tropicais no nordeste da Austrália em 13 temporadas consecutivas (1956-57 a 1968-69):
Temporada: 1 2 3 4 5 6 7 8 9 10 11 12 13
Nº ciclones: 6 5 4 6 6 3 12 7 4 2 6 7 4
Supondo que os \(Y_i \sim \text{Poisson}(\theta)\) independentes:
\[ \hat{\theta} = \bar{y} = \frac{72}{13} \approx 5{,}538 \]
A log-verossimilhança (sem a constante) é \(\ell^*(\theta) = \sum(y_i \log\theta - \theta)\). A Figura 1.2 do livro mostra \(\ell^*\) graficamente; o máximo ocorre visivelmente entre \(\theta = 5\) e \(\theta = 6\).
Para localizar o máximo numericamente (ilustrando o papel dos métodos iterativos), pode-se usar o método da bissecção:
| Iteração \(k\) | \(\theta^{(k)}\) | \(\ell^*(\theta^{(k)})\) |
|---|---|---|
| 1 | 5,0000 | 50,878 |
| 2 | 6,0000 | 51,007 |
| 3 | 5,5000 | 51,242 |
| 4 | 5,7500 | 51,192 |
| 5 | 5,6250 | 51,235 |
| 6 | 5,5625 | 51,243 |
| 7 | 5,5313 | 51,244 |
| … | … | … |
Após algumas iterações, \(\hat\theta \approx 5{,}54\) — coerente com \(\bar{y} = 72/13\).
Ponto pedagógico: Para modelos mais complexos (MLGs em geral), não há solução analítica para as equações de score. O exemplo dos ciclones antecipa a necessidade de métodos numéricos iterativos — que serão centrais no restante do livro.
5.2 Estimação por Mínimos Quadrados
5.2.1 Caso Simples (Homocedástico)
Sejam \(Y_1, \ldots, Y_n\) variáveis aleatórias independentes com médias \(\mu_i(\boldsymbol{\beta})\) que dependem do vetor de parâmetros \(\boldsymbol{\beta} = [\beta_1, \ldots, \beta_p]^T\). O estimador de mínimos quadrados minimiza: \[ S(\boldsymbol{\beta}) = \sum_{i=1}^n [Y_i - \mu_i(\boldsymbol{\beta})]^2 \]
5.2.2 Caso Heterocedástico (Mínimos Quadrados Ponderados)
Se as variâncias \(\sigma_i^2\) não são todas iguais, usa-se o critério: \[ S(\boldsymbol{\beta}) = \sum_{i=1}^n w_i [Y_i - \mu_i(\boldsymbol{\beta})]^2, \quad w_i = \frac{1}{\sigma_i^2} \]
Observações menos confiáveis (maior variância) recebem menor peso.
5.2.3 Caso Geral (Mínimos Quadrados Generalizados)
Se \(\mathbf{y} \sim (\boldsymbol{\mu}, \mathbf{V})\) (vetor aleatório com média \(\boldsymbol{\mu}\) e matriz de covariância \(\mathbf{V}\)), minimiza-se: \[ S = (\mathbf{y} - \boldsymbol{\mu})^T \mathbf{V}^{-1} (\mathbf{y} - \boldsymbol{\mu}) \]
Relação com a qui-quadrado: Repare que esta expressão é exatamente a forma quadrática da Seção 1.4.2! Sob normalidade, ela se distribui como \(\chi^2(n)\), o que permite construir testes de hipótese.
5.3 Comparação entre Máxima Verossimilhança e Mínimos Quadrados
| Aspecto | Máxima Verossimilhança | Mínimos Quadrados |
|---|---|---|
| Pressuposto distribucional | Requer especificação completa da distribuição de \(Y_i\) | Requer apenas \(E(Y_i)\) e, no caso ponderado, \(\text{var}(Y_i)\) |
| Coincidência | Em muitos modelos, os dois estimadores são idênticos | — |
| Solução | Analítica ou numérica | Analítica ou numérica |
| Uso em MLGs | Método principal | Formulação alternativa (equivalente sob normalidade) |
Em suma: Mínimos Quadrados é mais robusto a premissas (exige menos), enquanto Máxima Verossimilhança é mais eficiente (extrai mais informação quando a distribuição é corretamente especificada).
6 Exercícios Selecionados
Os exercícios ao final do Capítulo 1 servem para praticar os resultados desta seção. Alguns são reproduzidos aqui com dicas de resolução.
Exercício 1.1 — Combinações lineares de normais independentes.
Sejam \(Y_1 \sim N(1,3)\) e \(Y_2 \sim N(2,5)\) independentes. Determine a distribuição conjunta de \(W_1 = Y_1 + 2Y_2\) e \(W_2 = 4Y_1 - Y_2\).
Dica: Use as propriedades de combinações lineares da Normal (Seção 2). A distribuição conjunta de \((W_1, W_2)\) é bivariada Normal; calcule médias, variâncias e covariância.
Exercício 1.2 — Formas quadráticas com normais padrão.
Sejam \(Y_1 \sim N(0,1)\) e \(Y_2 \sim N(3,4)\) independentes.
- Qual a distribuição de \(Y_1^2\)?
- Seja \(\mathbf{y} = [(Y_1),\, (Y_2-3)/2]^T\). Obtenha \(\mathbf{y}^T\mathbf{y}\) e sua distribuição.
- Seja \(\mathbf{y} = [Y_1, Y_2]^T\) com \(\mathbf{y} \sim \text{MVN}(\boldsymbol{\mu}, \mathbf{V})\). Obtenha \(\mathbf{y}^T\mathbf{V}^{-1}\mathbf{y}\) e sua distribuição.
Dica: Para (a): \(Y_1^2 \sim \chi^2(1)\) (caso não-central com \(\lambda = 0\)). Para (b): após padronização, cada componente de \(\mathbf{y}\) é \(N(0,1)\), e a soma dos quadrados é \(\chi^2(2)\).
Exercício 1.5 — EMV da distribuição de Poisson com reparametrização.
Sejam \(Y_1, \ldots, Y_n\) independentes com \(Y_i \sim \text{Poisson}(\theta)\). Faça \(\theta = e^\beta\).
- Mostre que \(E(Y_i) = \theta\) para todo \(i\).
- Encontre o EMV de \(\beta\).
- Minimize \(S = \sum(Y_i - e^\beta)^2\) para obter um estimador de mínimos quadrados de \(\beta\).
Dica para (b): Reescreva a log-verossimilhança em termos de \(\beta\) (substitua \(\theta = e^\beta\)) e diferencie. Pela propriedade da invariância, o EMV de \(\beta\) é \(\hat\beta = \log\hat\theta = \log\bar{y}\).
Exercício 1.6 — EMV da distribuição Binomial.
Sejam \(Y_i \sim \text{Binomial}(n_i, \theta)\) independentes, representando o número de fêmeas em grupos de progênies de mariposas. Encontre o EMV de \(\theta\).
Dica: A log-verossimilhança é \(\ell(\theta) = (\sum y_i)\log\theta + (\sum n_i - \sum y_i)\log(1-\theta) + \text{const}\). Diferenciando e igualando a zero, obtém-se \(\hat\theta = \sum y_i / \sum n_i\), a proporção total de fêmeas.
7 Resumo dos Principais Resultados
| Conceito | Resultado Principal |
|---|---|
| Combinação linear | \(E(W) = \sum a_i \mu_i\); \(\text{var}(W) = \sum a_i^2 \sigma_i^2\) (independência) |
| \(\chi^2\) central | \(\sum Z_i^2 \sim \chi^2(n)\); \(E = n\), \(\text{var} = 2n\) |
| \(\chi^2\) via MVN | \((\mathbf{y}-\boldsymbol{\mu})^T\mathbf{V}^{-1}(\mathbf{y}-\boldsymbol{\mu}) \sim \chi^2(n)\) |
| Distribuição \(t\) | \(T = Z/\sqrt{X^2/n} \sim t(n)\) |
| Distribuição \(F\) | \(F = (X_1^2/n)/(X_2^2/m) \sim F(n,m)\) |
| Relação \(t^2 = F\) | \(T^2 \sim F(1, n)\) |
| Teorema de Cochran | Decomposição de \(\chi^2\); graus de liberdade se somam |
| EMV de \(\theta\) Poisson | \(\hat\theta = \bar{y}\) |
| Invariância do EMV | \(\widehat{g(\theta)} = g(\hat\theta)\) |
| MQ ponderado | Minimiza \(\sum w_i(Y_i - \mu_i)^2\) com \(w_i = 1/\sigma_i^2\) |
Próximo capítulo: O Capítulo 2 apresenta dois exemplos concretos para ilustrar as quatro etapas do processo de ajuste de modelos: especificação, estimação, verificação de ajuste e inferência.
7.1 Referências
Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.