Modelos Lineares Generalizados

Apostila — Capítulo 6: Modelos Lineares Normais

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de junho de 2026


Nota ao leitor. Esta apostila resume o Capítulo 6 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo cobre os Modelos Lineares Normais — caso especial dos MLGs com distribuição Normal e ligação identidade — incluindo regressão múltipla, ANOVA de um e dois fatores, ANCOVA, seleção de variáveis e associações não-lineares. Todos os exemplos numéricos são reproduzidos com código R, tabelas e gráficos.


Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.


1 Introdução

O modelo linear normal tem a forma geral:

\[ E(Y_i) = \mu_i = \mathbf{x}_i^T \mathbf{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2), \qquad i = 1, \ldots, N \tag{6.1} \]

escrito em notação vetorial como

\[ \mathbf{y} = \mathbf{X}\mathbf{\beta} + \mathbf{e}, \qquad \mathbf{e} \sim N(\mathbf{0},\, \sigma^2 \mathbf{I}) \tag{6.2} \]

onde \(\mathbf{X}\) (\(N \times p\)) é a matriz de planejamento e \(\mathbf{e}\) é o vetor de erros aleatórios independentes.

A função de ligação é a identidade: \(g(\mu_i) = \mu_i\). Por isso este modelo é também chamado de modelo linear geral (distinguindo-se dos MLGs com outras ligações).

Casos especiais importantes:

Variáveis explicativas Nome do método
Todas contínuas Regressão linear múltipla
Todas categóricas (fatores) Análise de variância (ANOVA)
Mistas (contínuas + categóricas) Análise de covariância (ANCOVA)

2 Resultados Fundamentais

2.1 Estimação por Máxima Verossimilhança

O EMV de \(\mathbf{\beta}\) é a solução das equações normais \(\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}\):

\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{6.3} \]

desde que \(\mathbf{X}^T\mathbf{X}\) seja não-singular. Como visto no Capítulo 5:

\[ E(\mathbf{b}) = \mathbf{\beta}, \qquad \text{Var}(\mathbf{b}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} \]

O estimador não-viesado de \(\sigma^2\) é:

\[ \hat{\sigma}^2 = \frac{(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b})}{N - p} \tag{6.4} \]

2.2 Mínimos Quadrados Generalizados

Se \(E[(\mathbf{y} - \mathbf{X}\mathbf{\beta})(\mathbf{y} - \mathbf{X}\mathbf{\beta})^T] = \mathbf{V}\) (com \(\mathbf{V}\) conhecida), o estimador de mínimos quadrados generalizados que minimiza \((\mathbf{y} - \mathbf{X}\mathbf{\beta})^T\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\mathbf{\beta})\) é:

\[ \tilde{\mathbf{\beta}} = (\mathbf{X}^T\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{V}^{-1}\mathbf{y} \]

Para o modelo (6.1) com variância homogênea, \(\mathbf{V} = \sigma^2\mathbf{I}\) e os estimadores de MQ e MV coincidem com (6.3).

2.3 Deviance e Soma de Quadrados dos Resíduos

A deviance do modelo normal é:

\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) \sim \chi^2(N-p) \]

Como \(\sigma^2\) é desconhecido, trabalhamos com a soma de quadrados dos resíduos (= deviance escalada):

\[ \sigma^2 D = (\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \mathbf{y}^T\mathbf{y} - \mathbf{b}^T\mathbf{X}^T\mathbf{y} \tag{6.5} \]

A simplificação na segunda igualdade usa \(\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}\) (equações normais).

2.4 Testes de Hipóteses e Tabela ANOVA

Para comparar \(H_0\) (\(q\) parâmetros) com \(H_1\) (\(p\) parâmetros, \(q < p\)), como \(\sigma^2\) é desconhecido, usa-se a estatística \(F\):

\[ F = \frac{(\sigma^2 D_0 - \sigma^2 D_1)/(p - q)}{\sigma^2 D_1 / (N - p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \sim F(p-q,\, N-p) \quad \text{sob } H_0 \tag{6.6} \]

onde \(S_j = \mathbf{y}^T\mathbf{y} - \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}\) são as somas de quadrados dos resíduos de cada modelo.

Interpretação geométrica: A estatística \(F\) compara a “melhoria” no ajuste devida aos parâmetros extras (\(p-q\) graus de liberdade) com a variação residual já presente no modelo completo. Se \(H_0\) for verdadeira, as duas quantidades estimam a mesma \(\sigma^2\), e \(F \approx 1\).

2.5 Ortogonalidade

Se \(\mathbf{X}\) pode ser particionado em blocos \(\mathbf{X}_1, \ldots, \mathbf{X}_m\) com \(\mathbf{X}_j^T\mathbf{X}_k = \mathbf{0}\) para \(j \neq k\), diz-se que \(\mathbf{X}\) é ortogonal. Nesse caso:

  • Os estimadores \(\mathbf{b}_j = (\mathbf{X}_j^T\mathbf{X}_j)^{-1}\mathbf{X}_j^T\mathbf{y}\) são independentes entre si
  • Cada hipótese \(H_j: \mathbf{\beta}_j = \mathbf{0}\) pode ser testada sem levar em conta os demais termos do modelo
  • As somas de quadrados são aditivas: \(\mathbf{b}^T\mathbf{X}^T\mathbf{y} = \sum_j \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}\)

Na prática, a ortogonalidade ocorre principalmente em experimentos balanceados bem planejados.

2.6 Resíduos e Diagnósticos

Resíduos padronizados:

\[ r_i = \frac{e_i}{\hat{\sigma}(1 - h_{ii})^{1/2}}, \qquad \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \tag{6.7} \]

onde \(h_{ii}\) é o \(i\)-ésimo elemento diagonal da matriz chapéu (hat matrix) \(\mathbf{H}\) e representa a alavancagem (leverage) da observação \(i\).

Medidas de influência:

Estatística Fórmula Limiar de alerta
Leverage \(h_{ii}\) diagonal de \(\mathbf{H}\) \(h_{ii} > 2p/N\)
DFFITS \(r_i\sqrt{h_{ii}/(1-h_{ii})}\) \(\lvert \text{DFFITS}\rvert > 1\)
Distância de Cook \(D_i = \frac{h_{ii}}{p(1-h_{ii})}r_i^2\) \(D_i > 1\)
Delta-beta \(\Delta\beta_j = b_j - b_{j(i)}\) padronizado \(> 2\)

Nota sobre a hat matrix \(\mathbf{H}\): ela “projeta” \(\mathbf{y}\) sobre o espaço coluna de \(\mathbf{X}\). Por isso os valores ajustados são \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\) e os resíduos são \(\mathbf{e} = (\mathbf{I} - \mathbf{H})\mathbf{y}\). A variância dos resíduos é \(\text{Var}(\mathbf{e}) = \sigma^2(\mathbf{I} - \mathbf{H})\), daí o denominador \((1 - h_{ii})\) na padronização.


3 Regressão Linear Múltipla

3.1 Exemplo 6.3.1 — Dieta com Carboidratos

Vinte diabéticos do tipo 1 seguiram uma dieta rica em carboidratos por seis meses. A resposta \(Y\) é a percentagem de calorias provenientes de carboidratos complexos. As variáveis explicativas são: \(x_1\) = idade (anos), \(x_2\) = peso relativo (% do ideal) e \(x_3\) = proteína (% das calorias).

**Tabela 6.3** — Carboidratos, idade, peso relativo e proteína para 20 diabéticos.
Carboidratos (y) Idade (x₁) Peso (x₂) Proteína (x₃)
33 33 100 14
40 47 92 15
37 49 135 18
27 35 144 12
30 46 140 15
43 52 101 15
34 62 95 14
48 23 101 17
30 32 98 15
38 42 105 14
50 31 108 17
51 61 85 19
30 63 130 19
36 40 127 20
41 50 109 15
42 64 107 16
46 56 117 18
24 61 100 13
35 48 118 18
37 28 102 14

3.1.1 Análise exploratória

Figura 6.1A — Gráficos de dispersão da resposta (carboidratos) contra cada variável explicativa. Peso e proteína mostram relações mais claras com a resposta.

3.1.2 Ajuste e estimativas

**Tabela 6.4** — Estimativas para o Modelo (6.6) (carboidratos ~ idade + peso + proteína).
Termo Estimativa βⱼ Erro padrão
(Intercept) Constante 36.9601 13.0713
age Coef. para idade -0.1137 0.1093
weight Coef. para peso -0.2280 0.0833
protein Coef. para proteína 1.9577 0.6349

Interpretação: O coeficiente para proteína é positivo (\(b_3 \approx 1{,}96\)): cada ponto percentual a mais de proteína está associado, em média, a \(\approx 2\) pontos percentuais a mais de carboidratos, mantendo idade e peso constantes.

3.1.3 Teste da hipótese \(H_0: \beta_1 = 0\) (sem efeito da idade)

**Tabela 6.5** — ANOVA comparando Modelos (6.6) e (6.7) — teste $H_0: \beta_1 = 0$.
Fonte de variação gl SQ QM F
Modelo (6.7) 3 28761.978 NA NA
Melhoria (idade) 1 38.359 38.359 1.08
Resíduo 16 567.663 35.479 NA
Total 20 29368.000 NA NA

Conclusão: \(F = 1.08\) não é significativo comparado com \(F(1,16)\) (valor crítico \(\approx 4{,}49\)). Os dados não fornecem evidência contra \(H_0\) — a resposta parece não depender da idade.

3.1.4 Coeficiente de Determinação \(R^2\)

O \(R^2\) mede a proporção da variação total explicada pelo modelo:

\[ R^2 = \frac{\mathbf{b}^T\mathbf{X}^T\mathbf{y} - N\bar{y}^2}{\mathbf{y}^T\mathbf{y} - N\bar{y}^2} = 1 - \frac{S_{\text{res}}}{S_{\text{total}}} \]

  • Modelo (6.6) completo: \(R^2 = 0.481\)\(48.1\)% da variação explicada
  • Modelo (6.7) sem idade: \(R^2 = 0.445\)\(44.5\)% da variação explicada

Limitação do \(R^2\): Ele sempre aumenta ao adicionar variáveis ao modelo, independentemente de sua relevância. Por isso, não é adequado para seleção de variáveis sem penalização.

3.1.5 Diagnósticos do Modelo (6.6)

**Tabela 6.6** — Diagnósticos para o Modelo (6.6) ajustado aos dados da Tabela 6.3.
Obs. y ŷ Resíduo Resid. pad. DFFITS Cook
1 33 37.8150 -4.8150 -0.8756 -0.3615 0.03318
2 40 40.0054 -0.0054 -0.0010 -0.0003 0.00000
3 37 35.8464 1.1536 0.2155 0.1019 0.00276
4 27 23.6394 3.3606 0.7936 0.7754 0.15403
5 30 29.1742 0.8258 0.1590 0.0864 0.00199
6 43 37.3848 5.6152 0.9866 0.3043 0.02320
7 34 35.6584 -1.6584 -0.3161 -0.1650 0.00722
8 48 44.5969 3.4031 0.6811 0.4343 0.04884
9 30 40.3424 -10.3424 -1.8828 -0.8663 0.15577
10 38 35.6518 2.3482 0.4139 0.1288 0.00438
11 50 42.0913 7.9087 1.4475 0.6528 0.09875
12 51 47.8409 3.1591 0.6576 0.4731 0.05808
13 30 37.3527 -7.3527 -1.4451 -0.9133 0.19342
14 36 42.6090 -6.6090 -1.3170 -0.8636 0.17730
15 41 35.7880 5.2120 0.9057 0.2403 0.01461
16 42 36.6103 5.3897 0.9852 0.4238 0.04498
17 46 39.1550 6.8450 1.2252 0.4608 0.05131
18 24 32.6743 -8.6743 -1.6879 -1.0563 0.24457
19 35 39.8364 -4.8364 -0.8568 -0.2860 0.02081
20 37 37.9273 -0.9273 -0.1727 -0.0805 0.00172

Figura 6.1 — Gráficos diagnósticos para o Modelo (6.6). Da esquerda para a direita: QQ-plot, resíduos vs. ajustados e distância de Cook.

Comentário: Nenhum resíduo padronizado ultrapassa \(\pm 2\); o QQ-plot não mostra desvios graves da normalidade; nenhuma observação tem distância de Cook \(> 1\). O modelo parece adequado.


3.2 Seleção de Variáveis

3.2.1 \(R^2\) Ajustado e Validação Cruzada

O \(R^2\) simples sempre aumenta ao adicionar variáveis. Alternativas mais robustas são:

  • \(R^2\) ajustado: \(\bar{R}^2 = 1 - (1-R^2)\frac{N-1}{N-p}\) — penaliza modelos com muitos parâmetros
  • Validação cruzada \(k\)-fold: divide os dados em \(k\) grupos; ajusta no conjunto de treino, avalia no conjunto de teste; repete \(k\) vezes; escolhe o modelo com menor RMSE de previsão

Figura 6.2 — Erro médio de previsão (RMSE, validação cruzada 5-fold repetida 10×) para todas as combinações de variáveis explicativas dos dados de carboidratos. O modelo com peso + proteína tem o menor erro.

3.2.2 Lasso

O lasso minimiza a soma de quadrados com uma penalidade sobre os parâmetros:

\[ \sum_{i=1}^N \left(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j\right)^2 + \lambda\sum_{j=1}^p |\beta_j| \]

Para \(\lambda\) grande, coeficientes irrelevantes são encolhidos a zero (seleção automática). O \(\lambda\) ótimo é escolhido por validação cruzada.

Figura 6.3 — Estimativas do lasso em função de \(\lambda\) para os dados de carboidratos. A linha vertical indica o \(\lambda\) ótimo por validação cruzada (glmnet). Proteína e peso permanecem; a idade vai a zero.
**Tabela 6.8** — Comparação de estimativas para diferentes métodos de seleção. A idade não é selecionada pelo stepwise nem pelo lasso.
Variável Modelo completo Stepwise Lasso
Intercepto 36.960 33.130 34.200
Idade -0.114 0.000 0.000
Peso -0.228 -0.222 -0.093
Proteína 1.958 1.824 0.858

3.2.3 Colinaridade

Quando as variáveis explicativas são altamente correlacionadas (colinearidade):

  • \(\mathbf{X}^T\mathbf{X}\) fica quase singular → estimativas instáveis
  • Variâncias de \(b_j\) ficam muito grandes
  • É difícil identificar qual variável incluir no modelo

Diagnóstico — Fator de Inflação da Variância (VIF):

\[ \text{VIF}_j = \frac{1}{1 - R^2_{(j)}} \]

onde \(R^2_{(j)}\) é o \(R^2\) obtido ao regredir \(x_j\) sobre todas as outras variáveis explicativas. Se \(\text{VIF}_j > 5\) (ou \(>10\)), há motivo para preocupação.

VIF para o modelo (6.6):
    age  weight protein 
  1.045   1.028   1.066 

4 Análise de Variância (ANOVA)

4.1 ANOVA de Um Fator

Quando todas as variáveis explicativas são categóricas, o modelo linear normal é chamado de ANOVA. Com \(J\) grupos e \(K\) observações por grupo:

4.1.1 As Três Parametrizações Equivalentes

Parametrização Modelo Restrição Parâmetros
(a) Médias diretas \(E(Y_{jk}) = \mu_j\) Nenhuma \(J\)
(b) Média geral + desvios \(E(Y_{jk}) = \mu + \alpha_j\) \(\sum \alpha_j = 0\) \(J+1\) (singular)
(c) Ponto de referência \(E(Y_{jk}) = \mu + \alpha_j\), \(\alpha_1 = 0\) \(J\) (padrão em R)

As três parametrizações produzem idênticos valores ajustados, somas de quadrados e estatísticas de teste — diferem apenas na interpretação dos coeficientes.

4.1.2 Exemplo 6.4.1 — Peso de Plantas

Pesos secos de plantas cultivadas sob uma condição controle e dois tratamentos.

**Tabela 6.9 (resumo)** — Estatísticas descritivas para os três grupos de plantas.
Grupo n Média DP Total
Controle 10 5.032 0.583 50.32
Tratamento A 10 4.661 0.794 46.61
Tratamento B 10 5.526 0.443 55.26

Figura — Boxplots dos pesos secos por grupo. O Tratamento B apresenta valores visivelmente maiores.
**Tabela 6.11** — ANOVA para os dados de peso de plantas.
Fonte de variação gl SQ QM F p-valor
Média geral 1 772.0599 NA NA NA
Entre tratamentos 2 3.7663 1.883 4.85 0.0159
Resíduo 27 10.4921 0.389 NA NA
Total 30 786.3183 NA NA NA

Conclusão: \(F = 4.85\) com \(p = 0.0159\) — significativo ao nível de 5%. As médias diferem entre os grupos. Inspecionando as médias: \(\hat{\mu}_1 = 5.032\), \(\hat{\mu}_2 = 4.661\), \(\hat{\mu}_3 = 5.526\). O efeito significativo é devido ao Tratamento B ter média mais alta (mais de dois erros padrão acima das demais).


4.2 ANOVA de Dois Fatores

4.2.1 Exemplo 6.4.2 — Dados Fictícios Balanceados

Fator A (3 níveis) \(\times\) Fator B (2 níveis), \(L = 2\) replicatas por célula (\(N = 12\)).

**Tabela 6.12 (médias)** — Médias por subgrupo para a ANOVA de dois fatores.
B₁ (média) B₂ (média) Total
A1 6.05 6.35 6.20
A2 7.35 6.95 7.15
A3 8.30 9.10 8.70

Figura — Médias por subgrupo. As linhas aproximadamente paralelas sugerem ausência de interação entre A e B.
**Tabela 6.13** — Resumo das deviances escaladas para a ANOVA de dois fatores.
Modelo gl 𝐛ᵀ𝐗ᵀ𝐲 σ²D
Saturado (µ+α+β+αβ) 6 662.620 2.2000
Aditivo (µ+α+β) 8 661.413 2.9267
Apenas A (µ+α) 9 661.010 3.0900
Apenas B (µ+β) 10 648.673 15.6667
Média (µ) 11 648.270 15.8300
**Tabela 6.14** — ANOVA de dois fatores para os dados da Tabela 6.12.
Fonte gl SQ QM F p-valor
Média 1 648.270 NA NA NA
Fator A 2 12.740 6.3700 0.22 0.8067
Fator B 1 0.403 0.4030 34.75 0.0011
Interação A×B 2 1.207 0.6035 0.99 0.4248
Resíduo 6 2.200 0.3667 NA NA
Total 12 664.100 NA NA NA

Conclusões:

  • Interação (\(F = 0.99\)): não significativa — os efeitos de A e B são aditivos
  • Fator B (\(F = 34.75\)): não significativo
  • Fator A (\(F = 0.22\)): significativo — os níveis de A diferem

5 Análise de Covariância (ANCOVA)

5.1 Exemplo 6.5 — Escores de Desempenho e Aptidão

Resposta \(Y\): escore de desempenho após treinamento. Fator: método de treinamento (A, B, C). Covariável \(x\): aptidão prévia.

Figura 6.6 — Escores de desempenho vs. aptidão prévia por método de treinamento. Os três grupos mostram relação linear positiva com a aptidão, e os métodos B e C têm valores geralmente mais altos do que o método A.
**Tabela 6.16** — ANCOVA para os dados de escore de desempenho.
Fonte gl SQ QM F p-valor
Média e covariável 2 853.766 NA NA NA
Efeito do método 2 16.932 8.466 13.97 3e-04
Resíduo 17 10.302 0.606 NA NA
Total 21 881.000 NA NA NA

Conclusão: \(F = 13.97\) é altamente significativo (\(p = 3\times 10^{-4}\)). Após ajuste para aptidão prévia, há diferença significativa nos escores de desempenho entre os métodos de treinamento.


6 Associações Não-Lineares

6.1 Polinômios e Polinômios Fracionários

Quando a relação entre \(Y\) e \(x\) não é linear, podemos ainda usar o modelo linear adicionando termos polinomiais:

\[ E(Y_i) = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 \tag{6.16} \]

O modelo continua sendo linear nos parâmetros \(\beta_0, \beta_1, \beta_2\) — apenas a relação com \(x\) é não-linear.

Polinômios fracionários generalizam para potências \(p \in \{-2,-1,-0{,}5,0,0{,}5,1,2,3\}\):

\[ E(Y_i) = \beta_0 + \beta_1 x_i^p \tag{6.17} \]

onde \(x^0 \equiv \log(x)\).

6.2 Exemplo 6.7.1 — Dados da PLOS Medicine

878 artigos da revista PLOS Medicine (2011–2015): comprimento do título (\(Y\)) vs. número de autores (\(x\)).

Figura 6.7 — Comprimento do título vs. número de autores (jitter aplicado para evitar sobreposição). A relação não-linear sugere que títulos aumentam rapidamente para poucos autores e estabilizam-se depois.
**Tabela 6.19** — Estimativas para modelo linear e quadrático.
Parâmetro Modelo linear Modelo quadrático
(Intercept) β₀ 96.76 82.130
x β₁ 2.28 5.790
β₂ NA -0.133
**Tabela 6.20** — ANOVA comparando modelo linear e quadrático para os dados da PLOS Medicine.
Modelo gl resid. SQ resid. F p-valor
Linear 876 833620 NA NA
Quadrático 875 780672 NA NA
Diferença 1 52949 59.346 3.58e-14

Figura 6.8 — Média de comprimento de título por número de autores, com as curvas ajustadas pelos modelos linear e quadrático.

Conclusão: O modelo quadrático é significativamente melhor (\(p < 0{,}001\)). Títulos crescem rapidamente para poucos autores e a taxa de crescimento diminui com mais autores.


7 Mapa Conceitual do Capítulo 6

MODELOS LINEARES NORMAIS
══════════════════════════════════════════════════════════
Modelo: E(Y) = X β ;  Y ~ N(μ, σ²I)

  ┌─────────────────┬──────────────────────────────────┐
  │ Estimação       │ b = (XᵀX)⁻¹Xᵀy (MV ≡ MQ)       │
  │                 │ σ̂² = SQR/(N−p)                  │
  │                 │ Var(b) = σ²(XᵀX)⁻¹              │
  ├─────────────────┼──────────────────────────────────┤
  │ Teste H₀ vs H₁  │ F = [(S₀−S₁)/(p−q)] / [S₁/(N−p)]│
  │                 │ F ~ F(p−q, N−p) sob H₀           │
  │                 │ → Tabela ANOVA                   │
  ├─────────────────┼──────────────────────────────────┤
  │ Bondade ajuste  │ R² = 1 − SQR/SQT                 │
  │                 │ VIF para colinearidade            │
  │                 │ Cross-validation para seleção    │
  ├─────────────────┼──────────────────────────────────┤
  │ Diagnósticos    │ rᵢ = eᵢ/[σ̂√(1−hᵢᵢ)] (res. pad.)│
  │                 │ Cooks Dᵢ, DFFITS, delta-beta     │
  │                 │ Gráficos: QQ, resid × ajust.     │
  ├─────────────────┼──────────────────────────────────┤
  │ Casos especiais │ Reg. múltipla: X contínuo        │
  │                 │ ANOVA: X categórico               │
  │                 │ ANCOVA: X misto                  │
  │                 │ Não-linear: polinom., fracionário │
  └─────────────────┴──────────────────────────────────┘

7.1 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.

Kutner, M. H., Nachtsheim, C. J., Neter, J. & Li, W. (2005). Applied Linear Statistical Models (5ª ed.). McGraw-Hill.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society B, 58(1), 267–288.

Royston, P. & Altman, D. G. (1994). Regression using fractional polynomials. Applied Statistics, 43(3), 429–467.