1 Introdução

O modelo linear normal tem a forma geral:

\[ E(Y_i) = \mu_i = \mathbf{x}_i^T \mathbf{\beta}; \quad Y_i \sim N(\mu_i, \sigma^2), \qquad i = 1, \ldots, N \tag{6.1} \]

escrito em notação vetorial como

\[ \mathbf{y} = \mathbf{X}\mathbf{\beta} + \mathbf{e}, \qquad \mathbf{e} \sim N(\mathbf{0},\, \sigma^2 \mathbf{I}) \tag{6.2} \]

onde $\mathbf{X}$ ($N \times p$) é a matriz de planejamento e $\mathbf{e}$ é o vetor de erros aleatórios independentes.

A função de ligação é a identidade: $g(\mu_i) = \mu_i$. Por isso este modelo é também chamado de modelo linear geral (distinguindo-se dos MLGs com outras ligações).

Casos especiais importantes:

Variáveis explicativas	Nome do método
Todas contínuas	Regressão linear múltipla
Todas categóricas (fatores)	Análise de variância (ANOVA)
Mistas (contínuas + categóricas)	Análise de covariância (ANCOVA)

2 Resultados Fundamentais

2.1 Estimação por Máxima Verossimilhança

O EMV de $\mathbf{\beta}$ é a solução das equações normais $\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}$:

\[ \mathbf{b} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \tag{6.3} \]

desde que $\mathbf{X}^T\mathbf{X}$ seja não-singular. Como visto no Capítulo 5:

\[ E(\mathbf{b}) = \mathbf{\beta}, \qquad \text{Var}(\mathbf{b}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} \]

O estimador não-viesado de $\sigma^2$ é:

\[ \hat{\sigma}^2 = \frac{(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b})}{N - p} \tag{6.4} \]

2.2 Mínimos Quadrados Generalizados

Se $E[(\mathbf{y} - \mathbf{X}\mathbf{\beta})(\mathbf{y} - \mathbf{X}\mathbf{\beta})^T] = \mathbf{V}$ (com $\mathbf{V}$ conhecida), o estimador de mínimos quadrados generalizados que minimiza $(\mathbf{y} - \mathbf{X}\mathbf{\beta})^T\mathbf{V}^{-1}(\mathbf{y} - \mathbf{X}\mathbf{\beta})$ é:

\[ \tilde{\mathbf{\beta}} = (\mathbf{X}^T\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^T\mathbf{V}^{-1}\mathbf{y} \]

Para o modelo (6.1) com variância homogênea, $\mathbf{V} = \sigma^2\mathbf{I}$ e os estimadores de MQ e MV coincidem com (6.3).

2.3 Deviance e Soma de Quadrados dos Resíduos

A deviance do modelo normal é:

\[ D = \frac{1}{\sigma^2}(\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) \sim \chi^2(N-p) \]

Como $\sigma^2$ é desconhecido, trabalhamos com a soma de quadrados dos resíduos (= deviance escalada):

\[ \sigma^2 D = (\mathbf{y} - \mathbf{X}\mathbf{b})^T(\mathbf{y} - \mathbf{X}\mathbf{b}) = \mathbf{y}^T\mathbf{y} - \mathbf{b}^T\mathbf{X}^T\mathbf{y} \tag{6.5} \]

A simplificação na segunda igualdade usa $\mathbf{X}^T\mathbf{X}\mathbf{b} = \mathbf{X}^T\mathbf{y}$ (equações normais).

2.4 Testes de Hipóteses e Tabela ANOVA

Para comparar $H_0$ ($q$ parâmetros) com $H_1$ ($p$ parâmetros, $q < p$), como $\sigma^2$ é desconhecido, usa-se a estatística $F$:

\[ F = \frac{(\sigma^2 D_0 - \sigma^2 D_1)/(p - q)}{\sigma^2 D_1 / (N - p)} = \frac{(S_0 - S_1)/(p-q)}{S_1/(N-p)} \sim F(p-q,\, N-p) \quad \text{sob } H_0 \tag{6.6} \]

onde $S_j = \mathbf{y}^T\mathbf{y} - \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}$ são as somas de quadrados dos resíduos de cada modelo.

Interpretação geométrica: A estatística $F$ compara a “melhoria” no ajuste devida aos parâmetros extras ($p-q$ graus de liberdade) com a variação residual já presente no modelo completo. Se $H_0$ for verdadeira, as duas quantidades estimam a mesma $\sigma^2$, e $F \approx 1$.

2.5 Ortogonalidade

Se $\mathbf{X}$ pode ser particionado em blocos $\mathbf{X}_1, \ldots, \mathbf{X}_m$ com $\mathbf{X}_j^T\mathbf{X}_k = \mathbf{0}$ para $j \neq k$, diz-se que $\mathbf{X}$ é ortogonal. Nesse caso:

Os estimadores $\mathbf{b}_j = (\mathbf{X}_j^T\mathbf{X}_j)^{-1}\mathbf{X}_j^T\mathbf{y}$ são independentes entre si
Cada hipótese $H_j: \mathbf{\beta}_j = \mathbf{0}$ pode ser testada sem levar em conta os demais termos do modelo
As somas de quadrados são aditivas: $\mathbf{b}^T\mathbf{X}^T\mathbf{y} = \sum_j \mathbf{b}_j^T\mathbf{X}_j^T\mathbf{y}$

Na prática, a ortogonalidade ocorre principalmente em experimentos balanceados bem planejados.

2.6 Resíduos e Diagnósticos

Resíduos padronizados:

\[ r_i = \frac{e_i}{\hat{\sigma}(1 - h_{ii})^{1/2}}, \qquad \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \tag{6.7} \]

onde $h_{ii}$ é o $i$-ésimo elemento diagonal da matriz chapéu (hat matrix) $\mathbf{H}$ e representa a alavancagem (leverage) da observação $i$.

Medidas de influência:

Estatística	Fórmula	Limiar de alerta
Leverage $h_{ii}$	diagonal de $\mathbf{H}$	$h_{ii} > 2p/N$
DFFITS	$r_i\sqrt{h_{ii}/(1-h_{ii})}$	$\lvert \text{DFFITS}\rvert > 1$
Distância de Cook	$D_i = \frac{h_{ii}}{p(1-h_{ii})}r_i^2$	$D_i > 1$
Delta-beta	$\Delta\beta_j = b_j - b_{j(i)}$	padronizado $> 2$

Nota sobre a hat matrix $\mathbf{H}$: ela “projeta” $\mathbf{y}$ sobre o espaço coluna de $\mathbf{X}$. Por isso os valores ajustados são $\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}$ e os resíduos são $\mathbf{e} = (\mathbf{I} - \mathbf{H})\mathbf{y}$. A variância dos resíduos é $\text{Var}(\mathbf{e}) = \sigma^2(\mathbf{I} - \mathbf{H})$, daí o denominador $(1 - h_{ii})$ na padronização.

3 Regressão Linear Múltipla

3.1 Exemplo 6.3.1 — Dieta com Carboidratos

Vinte diabéticos do tipo 1 seguiram uma dieta rica em carboidratos por seis meses. A resposta $Y$ é a percentagem de calorias provenientes de carboidratos complexos. As variáveis explicativas são: $x_1$ = idade (anos), $x_2$ = peso relativo (% do ideal) e $x_3$ = proteína (% das calorias).

**Tabela 6.3** — Carboidratos, idade, peso relativo e proteína para 20 diabéticos.
Carboidratos (y)	Idade (x₁)	Peso (x₂)	Proteína (x₃)
33	33	100	14
40	47	92	15
37	49	135	18
27	35	144	12
30	46	140	15
43	52	101	15
34	62	95	14
48	23	101	17
30	32	98	15
38	42	105	14
50	31	108	17
51	61	85	19
30	63	130	19
36	40	127	20
41	50	109	15
42	64	107	16
46	56	117	18
24	61	100	13
35	48	118	18
37	28	102	14

3.1.1 Análise exploratória

**Figura 6.1A** — Gráficos de dispersão da resposta (carboidratos) contra cada variável explicativa. Peso e proteína mostram relações mais claras com a resposta.

3.1.2 Ajuste e estimativas

**Tabela 6.4** — Estimativas para o Modelo (6.6) (carboidratos ~ idade + peso + proteína).
	Termo	Estimativa βⱼ	Erro padrão
(Intercept)	Constante	36.9601	13.0713
age	Coef. para idade	-0.1137	0.1093
weight	Coef. para peso	-0.2280	0.0833
protein	Coef. para proteína	1.9577	0.6349

Interpretação: O coeficiente para proteína é positivo ($b_3 \approx 1{,}96$): cada ponto percentual a mais de proteína está associado, em média, a $\approx 2$ pontos percentuais a mais de carboidratos, mantendo idade e peso constantes.

3.1.3 Teste da hipótese $H_0: \beta_1 = 0$ (sem efeito da idade)

**Tabela 6.5** — ANOVA comparando Modelos (6.6) e (6.7) — teste $H_0: \beta_1 = 0$.
Fonte de variação	gl	SQ	QM	F
Modelo (6.7)	3	28761.978	NA	NA
Melhoria (idade)	1	38.359	38.359	1.08
Resíduo	16	567.663	35.479	NA
Total	20	29368.000	NA	NA

Conclusão: $F = 1.08$ não é significativo comparado com $F(1,16)$ (valor crítico $\approx 4{,}49$). Os dados não fornecem evidência contra $H_0$ — a resposta parece não depender da idade.

3.1.4 Coeficiente de Determinação $R^2$

O $R^2$ mede a proporção da variação total explicada pelo modelo:

\[ R^2 = \frac{\mathbf{b}^T\mathbf{X}^T\mathbf{y} - N\bar{y}^2}{\mathbf{y}^T\mathbf{y} - N\bar{y}^2} = 1 - \frac{S_{\text{res}}}{S_{\text{total}}} \]

Modelo (6.6) completo: $R^2 = 0.481$ → $48.1$% da variação explicada
Modelo (6.7) sem idade: $R^2 = 0.445$ → $44.5$% da variação explicada

Limitação do $R^2$: Ele sempre aumenta ao adicionar variáveis ao modelo, independentemente de sua relevância. Por isso, não é adequado para seleção de variáveis sem penalização.

3.1.5 Diagnósticos do Modelo (6.6)

**Tabela 6.6** — Diagnósticos para o Modelo (6.6) ajustado aos dados da Tabela 6.3.
Obs.	y	ŷ	Resíduo	Resid. pad.	DFFITS	Cook
1	33	37.8150	-4.8150	-0.8756	-0.3615	0.03318
2	40	40.0054	-0.0054	-0.0010	-0.0003	0.00000
3	37	35.8464	1.1536	0.2155	0.1019	0.00276
4	27	23.6394	3.3606	0.7936	0.7754	0.15403
5	30	29.1742	0.8258	0.1590	0.0864	0.00199
6	43	37.3848	5.6152	0.9866	0.3043	0.02320
7	34	35.6584	-1.6584	-0.3161	-0.1650	0.00722
8	48	44.5969	3.4031	0.6811	0.4343	0.04884
9	30	40.3424	-10.3424	-1.8828	-0.8663	0.15577
10	38	35.6518	2.3482	0.4139	0.1288	0.00438
11	50	42.0913	7.9087	1.4475	0.6528	0.09875
12	51	47.8409	3.1591	0.6576	0.4731	0.05808
13	30	37.3527	-7.3527	-1.4451	-0.9133	0.19342
14	36	42.6090	-6.6090	-1.3170	-0.8636	0.17730
15	41	35.7880	5.2120	0.9057	0.2403	0.01461
16	42	36.6103	5.3897	0.9852	0.4238	0.04498
17	46	39.1550	6.8450	1.2252	0.4608	0.05131
18	24	32.6743	-8.6743	-1.6879	-1.0563	0.24457
19	35	39.8364	-4.8364	-0.8568	-0.2860	0.02081
20	37	37.9273	-0.9273	-0.1727	-0.0805	0.00172

**Figura 6.1** — Gráficos diagnósticos para o Modelo (6.6). Da esquerda para a direita: QQ-plot, resíduos vs. ajustados e distância de Cook.

Comentário: Nenhum resíduo padronizado ultrapassa $\pm 2$; o QQ-plot não mostra desvios graves da normalidade; nenhuma observação tem distância de Cook $> 1$. O modelo parece adequado.

3.2 Seleção de Variáveis

3.2.1 $R^2$ Ajustado e Validação Cruzada

O $R^2$ simples sempre aumenta ao adicionar variáveis. Alternativas mais robustas são:

$R^2$ ajustado: $\bar{R}^2 = 1 - (1-R^2)\frac{N-1}{N-p}$ — penaliza modelos com muitos parâmetros
Validação cruzada $k$-fold: divide os dados em $k$ grupos; ajusta no conjunto de treino, avalia no conjunto de teste; repete $k$ vezes; escolhe o modelo com menor RMSE de previsão

**Figura 6.2** — Erro médio de previsão (RMSE, validação cruzada 5-fold repetida 10×) para todas as combinações de variáveis explicativas dos dados de carboidratos. O modelo com peso + proteína tem o menor erro.

3.2.2 Lasso

O lasso minimiza a soma de quadrados com uma penalidade sobre os parâmetros:

\[ \sum_{i=1}^N \left(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j\right)^2 + \lambda\sum_{j=1}^p |\beta_j| \]

Para $\lambda$ grande, coeficientes irrelevantes são encolhidos a zero (seleção automática). O $\lambda$ ótimo é escolhido por validação cruzada.

**Figura 6.3** — Estimativas do lasso em função de $\lambda$ para os dados de carboidratos. A linha vertical indica o $\lambda$ ótimo por validação cruzada (glmnet). Proteína e peso permanecem; a idade vai a zero.

**Tabela 6.8** — Comparação de estimativas para diferentes métodos de seleção. A idade não é selecionada pelo stepwise nem pelo lasso.
Variável	Modelo completo	Stepwise	Lasso
Intercepto	36.960	33.130	34.200
Idade	-0.114	0.000	0.000
Peso	-0.228	-0.222	-0.093
Proteína	1.958	1.824	0.858

3.2.3 Colinaridade

Quando as variáveis explicativas são altamente correlacionadas (colinearidade):

$\mathbf{X}^T\mathbf{X}$ fica quase singular → estimativas instáveis
Variâncias de $b_j$ ficam muito grandes
É difícil identificar qual variável incluir no modelo

Diagnóstico — Fator de Inflação da Variância (VIF):

\[ \text{VIF}_j = \frac{1}{1 - R^2_{(j)}} \]

onde $R^2_{(j)}$ é o $R^2$ obtido ao regredir $x_j$ sobre todas as outras variáveis explicativas. Se $\text{VIF}_j > 5$ (ou $>10$), há motivo para preocupação.

VIF para o modelo (6.6):
    age  weight protein 
  1.045   1.028   1.066

4 Análise de Variância (ANOVA)

4.1 ANOVA de Um Fator

Quando todas as variáveis explicativas são categóricas, o modelo linear normal é chamado de ANOVA. Com $J$ grupos e $K$ observações por grupo:

4.1.1 As Três Parametrizações Equivalentes

Parametrização	Modelo	Restrição	Parâmetros
(a) Médias diretas	$E(Y_{jk}) = \mu_j$	Nenhuma	$J$
(b) Média geral + desvios	$E(Y_{jk}) = \mu + \alpha_j$	$\sum \alpha_j = 0$	$J+1$ (singular)
(c) Ponto de referência	$E(Y_{jk}) = \mu + \alpha_j$, $\alpha_1 = 0$	—	$J$ (padrão em R)

As três parametrizações produzem idênticos valores ajustados, somas de quadrados e estatísticas de teste — diferem apenas na interpretação dos coeficientes.

4.1.2 Exemplo 6.4.1 — Peso de Plantas

Pesos secos de plantas cultivadas sob uma condição controle e dois tratamentos.

**Tabela 6.9 (resumo)** — Estatísticas descritivas para os três grupos de plantas.
Grupo	n	Média	DP	Total
Controle	10	5.032	0.583	50.32
Tratamento A	10	4.661	0.794	46.61
Tratamento B	10	5.526	0.443	55.26

**Figura** — Boxplots dos pesos secos por grupo. O Tratamento B apresenta valores visivelmente maiores.

**Tabela 6.11** — ANOVA para os dados de peso de plantas.
Fonte de variação	gl	SQ	QM	F	p-valor
Média geral	1	772.0599	NA	NA	NA
Entre tratamentos	2	3.7663	1.883	4.85	0.0159
Resíduo	27	10.4921	0.389	NA	NA
Total	30	786.3183	NA	NA	NA

Conclusão: $F = 4.85$ com $p = 0.0159$ — significativo ao nível de 5%. As médias diferem entre os grupos. Inspecionando as médias: $\hat{\mu}_1 = 5.032$, $\hat{\mu}_2 = 4.661$, $\hat{\mu}_3 = 5.526$. O efeito significativo é devido ao Tratamento B ter média mais alta (mais de dois erros padrão acima das demais).

4.2 ANOVA de Dois Fatores

4.2.1 Exemplo 6.4.2 — Dados Fictícios Balanceados

Fator A (3 níveis) $\times$ Fator B (2 níveis), $L = 2$ replicatas por célula ($N = 12$).

**Tabela 6.12 (médias)** — Médias por subgrupo para a ANOVA de dois fatores.
	B₁ (média)	B₂ (média)	Total
A1	6.05	6.35	6.20
A2	7.35	6.95	7.15
A3	8.30	9.10	8.70

**Figura** — Médias por subgrupo. As linhas aproximadamente paralelas sugerem ausência de interação entre A e B.

**Tabela 6.13** — Resumo das deviances escaladas para a ANOVA de dois fatores.
Modelo	gl	𝐛ᵀ𝐗ᵀ𝐲	σ²D
Saturado (µ+α+β+αβ)	6	662.620	2.2000
Aditivo (µ+α+β)	8	661.413	2.9267
Apenas A (µ+α)	9	661.010	3.0900
Apenas B (µ+β)	10	648.673	15.6667
Média (µ)	11	648.270	15.8300

**Tabela 6.14** — ANOVA de dois fatores para os dados da Tabela 6.12.
Fonte	gl	SQ	QM	F	p-valor
Média	1	648.270	NA	NA	NA
Fator A	2	12.740	6.3700	0.22	0.8067
Fator B	1	0.403	0.4030	34.75	0.0011
Interação A×B	2	1.207	0.6035	0.99	0.4248
Resíduo	6	2.200	0.3667	NA	NA
Total	12	664.100	NA	NA	NA

Conclusões:

Interação ($F = 0.99$): não significativa — os efeitos de A e B são aditivos
Fator B ($F = 34.75$): não significativo
Fator A ($F = 0.22$): significativo — os níveis de A diferem

5 Análise de Covariância (ANCOVA)

5.1 Exemplo 6.5 — Escores de Desempenho e Aptidão

Resposta $Y$: escore de desempenho após treinamento. Fator: método de treinamento (A, B, C). Covariável $x$: aptidão prévia.

**Figura 6.6** — Escores de desempenho vs. aptidão prévia por método de treinamento. Os três grupos mostram relação linear positiva com a aptidão, e os métodos B e C têm valores geralmente mais altos do que o método A.

**Tabela 6.16** — ANCOVA para os dados de escore de desempenho.
Fonte	gl	SQ	QM	F	p-valor
Média e covariável	2	853.766	NA	NA	NA
Efeito do método	2	16.932	8.466	13.97	3e-04
Resíduo	17	10.302	0.606	NA	NA
Total	21	881.000	NA	NA	NA

Conclusão: $F = 13.97$ é altamente significativo ($p = 3\times 10^{-4}$). Após ajuste para aptidão prévia, há diferença significativa nos escores de desempenho entre os métodos de treinamento.

6 Associações Não-Lineares

6.1 Polinômios e Polinômios Fracionários

Quando a relação entre $Y$ e $x$ não é linear, podemos ainda usar o modelo linear adicionando termos polinomiais:

\[ E(Y_i) = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 \tag{6.16} \]

O modelo continua sendo linear nos parâmetros $\beta_0, \beta_1, \beta_2$ — apenas a relação com $x$ é não-linear.

Polinômios fracionários generalizam para potências $p \in \{-2,-1,-0{,}5,0,0{,}5,1,2,3\}$:

\[ E(Y_i) = \beta_0 + \beta_1 x_i^p \tag{6.17} \]

onde $x^0 \equiv \log(x)$.

6.2 Exemplo 6.7.1 — Dados da PLOS Medicine

878 artigos da revista PLOS Medicine (2011–2015): comprimento do título ($Y$) vs. número de autores ($x$).

**Figura 6.7** — Comprimento do título vs. número de autores (jitter aplicado para evitar sobreposição). A relação não-linear sugere que títulos aumentam rapidamente para poucos autores e estabilizam-se depois.

**Tabela 6.19** — Estimativas para modelo linear e quadrático.
	Parâmetro	Modelo linear	Modelo quadrático
(Intercept)	β₀	96.76	82.130
x	β₁	2.28	5.790
	β₂	NA	-0.133

**Tabela 6.20** — ANOVA comparando modelo linear e quadrático para os dados da PLOS Medicine.
Modelo	gl resid.	SQ resid.	F	p-valor
Linear	876	833620	NA	NA
Quadrático	875	780672	NA	NA
Diferença	1	52949	59.346	3.58e-14

**Figura 6.8** — Média de comprimento de título por número de autores, com as curvas ajustadas pelos modelos linear e quadrático.

Conclusão: O modelo quadrático é significativamente melhor ($p < 0{,}001$). Títulos crescem rapidamente para poucos autores e a taxa de crescimento diminui com mais autores.

7 Mapa Conceitual do Capítulo 6

MODELOS LINEARES NORMAIS
══════════════════════════════════════════════════════════
Modelo: E(Y) = X β ;  Y ~ N(μ, σ²I)

  ┌─────────────────┬──────────────────────────────────┐
  │ Estimação       │ b = (XᵀX)⁻¹Xᵀy (MV ≡ MQ)       │
  │                 │ σ̂² = SQR/(N−p)                  │
  │                 │ Var(b) = σ²(XᵀX)⁻¹              │
  ├─────────────────┼──────────────────────────────────┤
  │ Teste H₀ vs H₁  │ F = [(S₀−S₁)/(p−q)] / [S₁/(N−p)]│
  │                 │ F ~ F(p−q, N−p) sob H₀           │
  │                 │ → Tabela ANOVA                   │
  ├─────────────────┼──────────────────────────────────┤
  │ Bondade ajuste  │ R² = 1 − SQR/SQT                 │
  │                 │ VIF para colinearidade            │
  │                 │ Cross-validation para seleção    │
  ├─────────────────┼──────────────────────────────────┤
  │ Diagnósticos    │ rᵢ = eᵢ/[σ̂√(1−hᵢᵢ)] (res. pad.)│
  │                 │ Cooks Dᵢ, DFFITS, delta-beta     │
  │                 │ Gráficos: QQ, resid × ajust.     │
  ├─────────────────┼──────────────────────────────────┤
  │ Casos especiais │ Reg. múltipla: X contínuo        │
  │                 │ ANOVA: X categórico               │
  │                 │ ANCOVA: X misto                  │
  │                 │ Não-linear: polinom., fracionário │
  └─────────────────┴──────────────────────────────────┘

7.1 Referências

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4ª ed.). CRC Press / Chapman & Hall.

Kutner, M. H., Nachtsheim, C. J., Neter, J. & Li, W. (2005). Applied Linear Statistical Models (5ª ed.). McGraw-Hill.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society B, 58(1), 267–288.

Royston, P. & Altman, D. G. (1994). Regression using fractional polynomials. Applied Statistics, 43(3), 429–467.

Estatística	Fórmula	Limiar de alerta
Leverage \(h_{ii}\)	diagonal de \(\mathbf{H}\)	\(h_{ii} > 2p/N\)
DFFITS	\(r_i\sqrt{h_{ii}/(1-h_{ii})}\)	\(\lvert \text{DFFITS}\rvert > 1\)
Distância de Cook	\(D_i = \frac{h_{ii}}{p(1-h_{ii})}r_i^2\)	\(D_i > 1\)
Delta-beta	\(\Delta\beta_j = b_j - b_{j(i)}\)	padronizado \(> 2\)

Modelos Lineares Generalizados