| Carboidratos (y) | Idade (x₁) | Peso (x₂) | Proteína (x₃) |
|---|---|---|---|
| 33 | 33 | 100 | 14 |
| 40 | 47 | 92 | 15 |
| 37 | 49 | 135 | 18 |
| 27 | 35 | 144 | 12 |
| 30 | 46 | 140 | 15 |
| 43 | 52 | 101 | 15 |
| 34 | 62 | 95 | 14 |
| 48 | 23 | 101 | 17 |
| 30 | 32 | 98 | 15 |
| 38 | 42 | 105 | 14 |
| 50 | 31 | 108 | 17 |
| 51 | 61 | 85 | 19 |
| 30 | 63 | 130 | 19 |
| 36 | 40 | 127 | 20 |
| 41 | 50 | 109 | 15 |
| 42 | 64 | 107 | 16 |
| 46 | 56 | 117 | 18 |
| 24 | 61 | 100 | 13 |
| 35 | 48 | 118 | 18 |
| 37 | 28 | 102 | 14 |
Modelos Lineares Generalizados
Apostila — Capítulo 6: Modelos Lineares Normais
Nota ao leitor. Esta apostila resume o Capítulo 6 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo cobre os Modelos Lineares Normais — caso especial dos MLGs com distribuição Normal e ligação identidade — incluindo regressão múltipla, ANOVA de um e dois fatores, ANCOVA, seleção de variáveis e associações não-lineares. Todos os exemplos numéricos são reproduzidos com código R, tabelas e gráficos.
Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.
1 Introdução
O modelo linear normal tem a forma geral:
\[ E(Y_i) = \mu_i = \mathbf{x}_i^T \mathbf{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2), \qquad i = 1, \ldots, N \tag{6.1} \]
escrito em notação vetorial como
\[ \mathbf{y} = \mathbf{X}\mathbf{\beta} + \mathbf{e}, \qquad \mathbf{e} \sim N(\mathbf{0},\, \sigma^2 \mathbf{I}) \tag{6.2} \]
onde \(\mathbf{X}\) (\(N \times p\)) é a matriz de planejamento e \(\mathbf{e}\) é o vetor de erros aleatórios independentes.
A função de ligação é a identidade: \(g(\mu_i) = \mu_i\). Por isso este modelo é também chamado de modelo linear geral (distinguindo-se dos MLGs com outras ligações).
Casos especiais importantes:
| Variáveis explicativas | Nome do método |
|---|---|
| Todas contínuas | Regressão linear múltipla |
| Todas categóricas (fatores) | Análise de variância (ANOVA) |
| Mistas (contínuas + categóricas) | Análise de covariância (ANCOVA) |
2 Resultados Fundamentais
2.1 Estimação por Máxima Verossimilhança
O EMV de \(\mathbf{\beta}\) é a solução das equações normais \(\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}\):
\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{6.3} \]
desde que \(\mathbf{X}^T\mathbf{X}\) seja não-singular. Como visto no Capítulo 5:
\[ E(\mathbf{b}) = \mathbf{\beta}, \qquad \text{Var}(\mathbf{b}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} \]
O estimador não-viesado de \(\sigma^2\) é:
\[ \hat{\sigma}^2 = \frac{(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b})}{N - p} \tag{6.4} \]
2.2 Mínimos Quadrados Generalizados
Se \(E[(\mathbf{y} - \mathbf{X}\mathbf{\beta})(\mathbf{y} - \mathbf{X}\mathbf{\beta})^T] = \mathbf{V}\) (com \(\mathbf{V}\) conhecida), o estimador de mínimos quadrados generalizados que minimiza \((\mathbf{y} - \mathbf{X}\mathbf{\beta})^T\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\mathbf{\beta})\) é:
\[ \tilde{\mathbf{\beta}} = (\mathbf{X}^T\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{V}^{-1}\mathbf{y} \]
Para o modelo (6.1) com variância homogênea, \(\mathbf{V} = \sigma^2\mathbf{I}\) e os estimadores de MQ e MV coincidem com (6.3).
2.3 Deviance e Soma de Quadrados dos Resíduos
A deviance do modelo normal é:
\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) \sim \chi^2(N-p) \]
Como \(\sigma^2\) é desconhecido, trabalhamos com a soma de quadrados dos resíduos (= deviance escalada):
\[ \sigma^2 D = (\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \mathbf{y}^T\mathbf{y} - \mathbf{b}^T\mathbf{X}^T\mathbf{y} \tag{6.5} \]
A simplificação na segunda igualdade usa \(\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}\) (equações normais).
2.4 Testes de Hipóteses e Tabela ANOVA
Para comparar \(H_0\) (\(q\) parâmetros) com \(H_1\) (\(p\) parâmetros, \(q < p\)), como \(\sigma^2\) é desconhecido, usa-se a estatística \(F\):
\[ F = \frac{(\sigma^2 D_0 - \sigma^2 D_1)/(p - q)}{\sigma^2 D_1 / (N - p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \sim F(p-q,\, N-p) \quad \text{sob } H_0 \tag{6.6} \]
onde \(S_j = \mathbf{y}^T\mathbf{y} - \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}\) são as somas de quadrados dos resíduos de cada modelo.
Interpretação geométrica: A estatística \(F\) compara a “melhoria” no ajuste devida aos parâmetros extras (\(p-q\) graus de liberdade) com a variação residual já presente no modelo completo. Se \(H_0\) for verdadeira, as duas quantidades estimam a mesma \(\sigma^2\), e \(F \approx 1\).
2.5 Ortogonalidade
Se \(\mathbf{X}\) pode ser particionado em blocos \(\mathbf{X}_1, \ldots, \mathbf{X}_m\) com \(\mathbf{X}_j^T\mathbf{X}_k = \mathbf{0}\) para \(j \neq k\), diz-se que \(\mathbf{X}\) é ortogonal. Nesse caso:
- Os estimadores \(\mathbf{b}_j = (\mathbf{X}_j^T\mathbf{X}_j)^{-1}\mathbf{X}_j^T\mathbf{y}\) são independentes entre si
- Cada hipótese \(H_j: \mathbf{\beta}_j = \mathbf{0}\) pode ser testada sem levar em conta os demais termos do modelo
- As somas de quadrados são aditivas: \(\mathbf{b}^T\mathbf{X}^T\mathbf{y} = \sum_j \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}\)
Na prática, a ortogonalidade ocorre principalmente em experimentos balanceados bem planejados.
2.6 Resíduos e Diagnósticos
Resíduos padronizados:
\[ r_i = \frac{e_i}{\hat{\sigma}(1 - h_{ii})^{1/2}}, \qquad \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \tag{6.7} \]
onde \(h_{ii}\) é o \(i\)-ésimo elemento diagonal da matriz chapéu (hat matrix) \(\mathbf{H}\) e representa a alavancagem (leverage) da observação \(i\).
Medidas de influência:
| Estatística | Fórmula | Limiar de alerta |
|---|---|---|
| Leverage \(h_{ii}\) | diagonal de \(\mathbf{H}\) | \(h_{ii} > 2p/N\) |
| DFFITS | \(r_i\sqrt{h_{ii}/(1-h_{ii})}\) | \(\lvert \text{DFFITS}\rvert > 1\) |
| Distância de Cook | \(D_i = \frac{h_{ii}}{p(1-h_{ii})}r_i^2\) | \(D_i > 1\) |
| Delta-beta | \(\Delta\beta_j = b_j - b_{j(i)}\) | padronizado \(> 2\) |
Nota sobre a hat matrix \(\mathbf{H}\): ela “projeta” \(\mathbf{y}\) sobre o espaço coluna de \(\mathbf{X}\). Por isso os valores ajustados são \(\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}\) e os resíduos são \(\mathbf{e} = (\mathbf{I} - \mathbf{H})\mathbf{y}\). A variância dos resíduos é \(\text{Var}(\mathbf{e}) = \sigma^2(\mathbf{I} - \mathbf{H})\), daí o denominador \((1 - h_{ii})\) na padronização.
3 Regressão Linear Múltipla
3.1 Exemplo 6.3.1 — Dieta com Carboidratos
Vinte diabéticos do tipo 1 seguiram uma dieta rica em carboidratos por seis meses. A resposta \(Y\) é a percentagem de calorias provenientes de carboidratos complexos. As variáveis explicativas são: \(x_1\) = idade (anos), \(x_2\) = peso relativo (% do ideal) e \(x_3\) = proteína (% das calorias).
3.1.1 Análise exploratória
3.1.2 Ajuste e estimativas
| Termo | Estimativa βⱼ | Erro padrão | |
|---|---|---|---|
| (Intercept) | Constante | 36.9601 | 13.0713 |
| age | Coef. para idade | -0.1137 | 0.1093 |
| weight | Coef. para peso | -0.2280 | 0.0833 |
| protein | Coef. para proteína | 1.9577 | 0.6349 |
Interpretação: O coeficiente para proteína é positivo (\(b_3 \approx 1{,}96\)): cada ponto percentual a mais de proteína está associado, em média, a \(\approx 2\) pontos percentuais a mais de carboidratos, mantendo idade e peso constantes.
3.1.3 Teste da hipótese \(H_0: \beta_1 = 0\) (sem efeito da idade)
| Fonte de variação | gl | SQ | QM | F |
|---|---|---|---|---|
| Modelo (6.7) | 3 | 28761.978 | NA | NA |
| Melhoria (idade) | 1 | 38.359 | 38.359 | 1.08 |
| Resíduo | 16 | 567.663 | 35.479 | NA |
| Total | 20 | 29368.000 | NA | NA |
Conclusão: \(F = 1.08\) não é significativo comparado com \(F(1,16)\) (valor crítico \(\approx 4{,}49\)). Os dados não fornecem evidência contra \(H_0\) — a resposta parece não depender da idade.
3.1.4 Coeficiente de Determinação \(R^2\)
O \(R^2\) mede a proporção da variação total explicada pelo modelo:
\[ R^2 = \frac{\mathbf{b}^T\mathbf{X}^T\mathbf{y} - N\bar{y}^2}{\mathbf{y}^T\mathbf{y} - N\bar{y}^2} = 1 - \frac{S_{\text{res}}}{S_{\text{total}}} \]
- Modelo (6.6) completo: \(R^2 = 0.481\) → \(48.1\)% da variação explicada
- Modelo (6.7) sem idade: \(R^2 = 0.445\) → \(44.5\)% da variação explicada
Limitação do \(R^2\): Ele sempre aumenta ao adicionar variáveis ao modelo, independentemente de sua relevância. Por isso, não é adequado para seleção de variáveis sem penalização.
3.1.5 Diagnósticos do Modelo (6.6)
| Obs. | y | ŷ | Resíduo | Resid. pad. | DFFITS | Cook |
|---|---|---|---|---|---|---|
| 1 | 33 | 37.8150 | -4.8150 | -0.8756 | -0.3615 | 0.03318 |
| 2 | 40 | 40.0054 | -0.0054 | -0.0010 | -0.0003 | 0.00000 |
| 3 | 37 | 35.8464 | 1.1536 | 0.2155 | 0.1019 | 0.00276 |
| 4 | 27 | 23.6394 | 3.3606 | 0.7936 | 0.7754 | 0.15403 |
| 5 | 30 | 29.1742 | 0.8258 | 0.1590 | 0.0864 | 0.00199 |
| 6 | 43 | 37.3848 | 5.6152 | 0.9866 | 0.3043 | 0.02320 |
| 7 | 34 | 35.6584 | -1.6584 | -0.3161 | -0.1650 | 0.00722 |
| 8 | 48 | 44.5969 | 3.4031 | 0.6811 | 0.4343 | 0.04884 |
| 9 | 30 | 40.3424 | -10.3424 | -1.8828 | -0.8663 | 0.15577 |
| 10 | 38 | 35.6518 | 2.3482 | 0.4139 | 0.1288 | 0.00438 |
| 11 | 50 | 42.0913 | 7.9087 | 1.4475 | 0.6528 | 0.09875 |
| 12 | 51 | 47.8409 | 3.1591 | 0.6576 | 0.4731 | 0.05808 |
| 13 | 30 | 37.3527 | -7.3527 | -1.4451 | -0.9133 | 0.19342 |
| 14 | 36 | 42.6090 | -6.6090 | -1.3170 | -0.8636 | 0.17730 |
| 15 | 41 | 35.7880 | 5.2120 | 0.9057 | 0.2403 | 0.01461 |
| 16 | 42 | 36.6103 | 5.3897 | 0.9852 | 0.4238 | 0.04498 |
| 17 | 46 | 39.1550 | 6.8450 | 1.2252 | 0.4608 | 0.05131 |
| 18 | 24 | 32.6743 | -8.6743 | -1.6879 | -1.0563 | 0.24457 |
| 19 | 35 | 39.8364 | -4.8364 | -0.8568 | -0.2860 | 0.02081 |
| 20 | 37 | 37.9273 | -0.9273 | -0.1727 | -0.0805 | 0.00172 |
Comentário: Nenhum resíduo padronizado ultrapassa \(\pm 2\); o QQ-plot não mostra desvios graves da normalidade; nenhuma observação tem distância de Cook \(> 1\). O modelo parece adequado.
3.2 Seleção de Variáveis
3.2.1 \(R^2\) Ajustado e Validação Cruzada
O \(R^2\) simples sempre aumenta ao adicionar variáveis. Alternativas mais robustas são:
- \(R^2\) ajustado: \(\bar{R}^2 = 1 - (1-R^2)\frac{N-1}{N-p}\) — penaliza modelos com muitos parâmetros
- Validação cruzada \(k\)-fold: divide os dados em \(k\) grupos; ajusta no conjunto de treino, avalia no conjunto de teste; repete \(k\) vezes; escolhe o modelo com menor RMSE de previsão
3.2.2 Lasso
O lasso minimiza a soma de quadrados com uma penalidade sobre os parâmetros:
\[ \sum_{i=1}^N \left(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j\right)^2 + \lambda\sum_{j=1}^p |\beta_j| \]
Para \(\lambda\) grande, coeficientes irrelevantes são encolhidos a zero (seleção automática). O \(\lambda\) ótimo é escolhido por validação cruzada.
| Variável | Modelo completo | Stepwise | Lasso |
|---|---|---|---|
| Intercepto | 36.960 | 33.130 | 34.200 |
| Idade | -0.114 | 0.000 | 0.000 |
| Peso | -0.228 | -0.222 | -0.093 |
| Proteína | 1.958 | 1.824 | 0.858 |
3.2.3 Colinaridade
Quando as variáveis explicativas são altamente correlacionadas (colinearidade):
- \(\mathbf{X}^T\mathbf{X}\) fica quase singular → estimativas instáveis
- Variâncias de \(b_j\) ficam muito grandes
- É difícil identificar qual variável incluir no modelo
Diagnóstico — Fator de Inflação da Variância (VIF):
\[ \text{VIF}_j = \frac{1}{1 - R^2_{(j)}} \]
onde \(R^2_{(j)}\) é o \(R^2\) obtido ao regredir \(x_j\) sobre todas as outras variáveis explicativas. Se \(\text{VIF}_j > 5\) (ou \(>10\)), há motivo para preocupação.
VIF para o modelo (6.6):
age weight protein
1.045 1.028 1.066
4 Análise de Variância (ANOVA)
4.1 ANOVA de Um Fator
Quando todas as variáveis explicativas são categóricas, o modelo linear normal é chamado de ANOVA. Com \(J\) grupos e \(K\) observações por grupo:
4.1.1 As Três Parametrizações Equivalentes
| Parametrização | Modelo | Restrição | Parâmetros |
|---|---|---|---|
| (a) Médias diretas | \(E(Y_{jk}) = \mu_j\) | Nenhuma | \(J\) |
| (b) Média geral + desvios | \(E(Y_{jk}) = \mu + \alpha_j\) | \(\sum \alpha_j = 0\) | \(J+1\) (singular) |
| (c) Ponto de referência | \(E(Y_{jk}) = \mu + \alpha_j\), \(\alpha_1 = 0\) | — | \(J\) (padrão em R) |
As três parametrizações produzem idênticos valores ajustados, somas de quadrados e estatísticas de teste — diferem apenas na interpretação dos coeficientes.
4.1.2 Exemplo 6.4.1 — Peso de Plantas
Pesos secos de plantas cultivadas sob uma condição controle e dois tratamentos.
| Grupo | n | Média | DP | Total |
|---|---|---|---|---|
| Controle | 10 | 5.032 | 0.583 | 50.32 |
| Tratamento A | 10 | 4.661 | 0.794 | 46.61 |
| Tratamento B | 10 | 5.526 | 0.443 | 55.26 |
| Fonte de variação | gl | SQ | QM | F | p-valor |
|---|---|---|---|---|---|
| Média geral | 1 | 772.0599 | NA | NA | NA |
| Entre tratamentos | 2 | 3.7663 | 1.883 | 4.85 | 0.0159 |
| Resíduo | 27 | 10.4921 | 0.389 | NA | NA |
| Total | 30 | 786.3183 | NA | NA | NA |
Conclusão: \(F = 4.85\) com \(p = 0.0159\) — significativo ao nível de 5%. As médias diferem entre os grupos. Inspecionando as médias: \(\hat{\mu}_1 = 5.032\), \(\hat{\mu}_2 = 4.661\), \(\hat{\mu}_3 = 5.526\). O efeito significativo é devido ao Tratamento B ter média mais alta (mais de dois erros padrão acima das demais).
4.2 ANOVA de Dois Fatores
4.2.1 Exemplo 6.4.2 — Dados Fictícios Balanceados
Fator A (3 níveis) \(\times\) Fator B (2 níveis), \(L = 2\) replicatas por célula (\(N = 12\)).
| B₁ (média) | B₂ (média) | Total | |
|---|---|---|---|
| A1 | 6.05 | 6.35 | 6.20 |
| A2 | 7.35 | 6.95 | 7.15 |
| A3 | 8.30 | 9.10 | 8.70 |
| Modelo | gl | 𝐛ᵀ𝐗ᵀ𝐲 | σ²D |
|---|---|---|---|
| Saturado (µ+α+β+αβ) | 6 | 662.620 | 2.2000 |
| Aditivo (µ+α+β) | 8 | 661.413 | 2.9267 |
| Apenas A (µ+α) | 9 | 661.010 | 3.0900 |
| Apenas B (µ+β) | 10 | 648.673 | 15.6667 |
| Média (µ) | 11 | 648.270 | 15.8300 |
| Fonte | gl | SQ | QM | F | p-valor |
|---|---|---|---|---|---|
| Média | 1 | 648.270 | NA | NA | NA |
| Fator A | 2 | 12.740 | 6.3700 | 0.22 | 0.8067 |
| Fator B | 1 | 0.403 | 0.4030 | 34.75 | 0.0011 |
| Interação A×B | 2 | 1.207 | 0.6035 | 0.99 | 0.4248 |
| Resíduo | 6 | 2.200 | 0.3667 | NA | NA |
| Total | 12 | 664.100 | NA | NA | NA |
Conclusões:
- Interação (\(F = 0.99\)): não significativa — os efeitos de A e B são aditivos
- Fator B (\(F = 34.75\)): não significativo
- Fator A (\(F = 0.22\)): significativo — os níveis de A diferem
5 Análise de Covariância (ANCOVA)
5.1 Exemplo 6.5 — Escores de Desempenho e Aptidão
Resposta \(Y\): escore de desempenho após treinamento. Fator: método de treinamento (A, B, C). Covariável \(x\): aptidão prévia.
| Fonte | gl | SQ | QM | F | p-valor |
|---|---|---|---|---|---|
| Média e covariável | 2 | 853.766 | NA | NA | NA |
| Efeito do método | 2 | 16.932 | 8.466 | 13.97 | 3e-04 |
| Resíduo | 17 | 10.302 | 0.606 | NA | NA |
| Total | 21 | 881.000 | NA | NA | NA |
Conclusão: \(F = 13.97\) é altamente significativo (\(p = 3\times 10^{-4}\)). Após ajuste para aptidão prévia, há diferença significativa nos escores de desempenho entre os métodos de treinamento.
6 Associações Não-Lineares
6.1 Polinômios e Polinômios Fracionários
Quando a relação entre \(Y\) e \(x\) não é linear, podemos ainda usar o modelo linear adicionando termos polinomiais:
\[ E(Y_i) = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 \tag{6.16} \]
O modelo continua sendo linear nos parâmetros \(\beta_0, \beta_1, \beta_2\) — apenas a relação com \(x\) é não-linear.
Polinômios fracionários generalizam para potências \(p \in \{-2,-1,-0{,}5,0,0{,}5,1,2,3\}\):
\[ E(Y_i) = \beta_0 + \beta_1 x_i^p \tag{6.17} \]
onde \(x^0 \equiv \log(x)\).
6.2 Exemplo 6.7.1 — Dados da PLOS Medicine
878 artigos da revista PLOS Medicine (2011–2015): comprimento do título (\(Y\)) vs. número de autores (\(x\)).
| Parâmetro | Modelo linear | Modelo quadrático | |
|---|---|---|---|
| (Intercept) | β₀ | 96.76 | 82.130 |
| x | β₁ | 2.28 | 5.790 |
| β₂ | NA | -0.133 |
| Modelo | gl resid. | SQ resid. | F | p-valor |
|---|---|---|---|---|
| Linear | 876 | 833620 | NA | NA |
| Quadrático | 875 | 780672 | NA | NA |
| Diferença | 1 | 52949 | 59.346 | 3.58e-14 |
Conclusão: O modelo quadrático é significativamente melhor (\(p < 0{,}001\)). Títulos crescem rapidamente para poucos autores e a taxa de crescimento diminui com mais autores.
7 Mapa Conceitual do Capítulo 6
MODELOS LINEARES NORMAIS
══════════════════════════════════════════════════════════
Modelo: E(Y) = X β ; Y ~ N(μ, σ²I)
┌─────────────────┬──────────────────────────────────┐
│ Estimação │ b = (XᵀX)⁻¹Xᵀy (MV ≡ MQ) │
│ │ σ̂² = SQR/(N−p) │
│ │ Var(b) = σ²(XᵀX)⁻¹ │
├─────────────────┼──────────────────────────────────┤
│ Teste H₀ vs H₁ │ F = [(S₀−S₁)/(p−q)] / [S₁/(N−p)]│
│ │ F ~ F(p−q, N−p) sob H₀ │
│ │ → Tabela ANOVA │
├─────────────────┼──────────────────────────────────┤
│ Bondade ajuste │ R² = 1 − SQR/SQT │
│ │ VIF para colinearidade │
│ │ Cross-validation para seleção │
├─────────────────┼──────────────────────────────────┤
│ Diagnósticos │ rᵢ = eᵢ/[σ̂√(1−hᵢᵢ)] (res. pad.)│
│ │ Cooks Dᵢ, DFFITS, delta-beta │
│ │ Gráficos: QQ, resid × ajust. │
├─────────────────┼──────────────────────────────────┤
│ Casos especiais │ Reg. múltipla: X contínuo │
│ │ ANOVA: X categórico │
│ │ ANCOVA: X misto │
│ │ Não-linear: polinom., fracionário │
└─────────────────┴──────────────────────────────────┘
7.1 Referências
Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.
Kutner, M. H., Nachtsheim, C. J., Neter, J. & Li, W. (2005). Applied Linear Statistical Models (5ª ed.). McGraw-Hill.
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society B, 58(1), 267–288.
Royston, P. & Altman, D. G. (1994). Regression using fractional polynomials. Applied Statistics, 43(3), 429–467.