Modelos Lineares Generalizados

Apostila — Capítulo 7: Variáveis Binárias e Regressão Logística

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de junho de 2026

Nota ao leitor. Esta apostila resume o Capítulo 7 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo cobre Regressão Logística e modelos dose-resposta para respostas binárias e binomiais. Inclui modelos probit, logístico e log-log complementar; inferência, resíduos, diagnósticos e interpretação de razões de chances vs. razões de prevalência.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.

1 Distribuições de Probabilidade para Respostas Binárias

1.1 Variável Bernoulli

\[ Z = \begin{cases} 1 & \text{sucesso} \\ 0 & \text{fracasso} \end{cases} \]

com \(\Pr(Z=1)=\pi\). Distribuição de Bernoulli \(B(\pi)\).

1.2 Distribuição Binomial

\[ \Pr(Y=y)=\binom{n}{y}\pi^{y}(1-\pi)^{n-y}, \quad y=0,1,\ldots,n \tag{7.2} \]

\(E(Y)=n\pi\), \(\text{var}(Y)=n\pi(1-\pi)\).

1.3 \(N\) Grupos Independentes

Se \(Y_{i}\sim\text{Bin}(n_{i},\pi_{i})\), a log-verossimilhança é:

\[ \ell(\boldsymbol{\pi};\mathbf{y})=\sum_{i=1}^{N}\left[y_{i}\log\frac{\pi_{i}}{1-\pi_{i}}+n_{i}\log(1-\pi_{i})+\log\binom{n_{i}}{y_{i}}\right] \tag{7.3} \]

2 MLGs para Respostas Binárias

2.1 Função de Ligação

\[g(\pi_{i})=\mathbf{x}_{i}^{T}\boldsymbol{\beta}\]

**Resumo das ligacoes** para modelos com resposta binaria.
Distribuicao tolerancia	Ligacao	Forma
Uniforme	Identidade	Linear restrita
Normal	Probit	Simetrica (caudas leves)
Logistica	Logit	Simetrica (caudas pesadas)
Valor extremo	Log-log compl.	Assimetrica

Curvas de probabilidade para logistico, probit e log-log complementar.

3 Modelos Dose-Resposta

3.1 Exemplo 7.3.1 — Mortalidade de Besouros

**Tabela 7.2** — Dados de mortalidade de besouros.
Dose xi	Total ni	Mortos yi	Proporcao pi
1.6907	59	6	0.1017
1.7242	60	13	0.2167
1.7552	62	18	0.2903
1.7842	56	28	0.5000
1.8113	63	52	0.8254
1.8369	59	53	0.8983
1.8610	62	61	0.9839
1.8839	60	60	1.0000

**Tabela 7.4** — Observados e valores ajustados.
	Valores ajustados
Observado	Logistico	Probit	Log-log compl.
6	3.46	3.36	5.59
13	9.84	10.72	11.28
18	22.45	23.48	20.95
28	33.90	33.82	30.37
52	50.10	49.62	47.78
53	53.29	53.32	54.14
61	59.22	59.66	61.11
60	58.74	59.23	59.95

**Tabela** — Estimativas (EP) e deviances.
Parametro	Logistico	Probit	Log-log compl.
b1 (intercepto)	-60.72 (5.18)	-34.94 (2.65)	-39.57 (3.24)
b2 (dose)	34.27 (2.91)	19.73 (1.49)	22.04 (1.80)
Deviance D	11.23	10.12	3.45
gl (N-p)	6	6	6

Proporcoes observadas e curvas ajustadas pelos tres modelos.

Conclusao: Log-log complementar ajusta melhor (\(D=3{,}45\) vs. \(D\approx11\)).

4 Modelo Logistico Geral

4.1 Definicao

\[ \text{logit}(\pi_{i})=\log\frac{\pi_{i}}{1-\pi_{i}}=\mathbf{x}_{i}^{T}\boldsymbol{\beta} \tag{7.4a} \]

\[ \pi_{i}=\frac{e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}}{1+e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}} \tag{7.4b} \]

4.2 Deviance Binomial

\[ D=2\sum_{i=1}^{N}\left[y_{i}\log\frac{y_{i}}{\hat{y}_{i}}+(n_{i}-y_{i})\log\frac{n_{i}-y_{i}}{n_{i}-\hat{y}_{i}}\right]\sim\chi^{2}(N-p) \tag{7.5} \]

5 Exemplo 7.4.1 — Anteras Embriogenicas

**Tabela 7.5** — Dados de anteras embriogenicas.
Condicao	xk=ln(g)	yjk	njk	pjk
Controle	3.689	55	102	0.539
Controle	5.011	52	99	0.525
Controle	5.858	57	108	0.528
Tratamento	3.689	55	76	0.724
Tratamento	5.011	50	81	0.617
Tratamento	5.858	50	90	0.556

Proporcao de anteras embriogenicas vs. log(forca de centrifugacao).

**Tabela 7.6** — EMV e deviances para os tres modelos (anteras).
Modelo	a1 (EP)	a2-a1 (EP)	b (EP)	b2-b1 (EP)	D	gl
Modelo 1: aj + bj*xk	0.234 (0.628)	1.977 (0.998)	-0.023 (0.127)	-0.319 (0.199)	0.028	2
Modelo 2: aj + b*xk	0.877 (0.487)	0.407 (0.175)	-0.155 (0.097)	---	2.619	3
Modelo 3: a + b*xk	1.021 (0.481)	---	-0.148 (0.096)	---	8.092	4

Inclinacoes iguais (Mod 1 vs 2): \(\Delta D = 2.591\), \(p = 0.107\) — sem evidencia contra \(H_0\).

Efeito armazenamento (Mod 2 vs 3): \(\Delta D = 5.473\), \(p = 0.019\) — efeito significativo.

**Tabela 7.7** — Frequencias observadas e esperadas.
Condicao	xk	Observado	Modelo 1	Modelo 2	Modelo 3
Controle	3.69	55	54.82	58.75	62.91
Controle	5.01	52	52.47	52.03	56.40
Controle	5.86	57	56.72	53.22	58.18
Tratamento	3.69	55	54.83	51.01	46.88
Tratamento	5.01	50	50.43	50.59	46.14
Tratamento	5.86	50	49.74	53.40	48.49

6 Estatisticas de Bondade de Ajuste

6.1 Pearson e Deviance

\[X^{2}=\sum_{k=1}^{m}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})} \tag{7.6}\]

Ambas \(D\) e \(X^{2}\) \(\sim\chi^{2}(N-p)\).

6.1.1 Por que \(D\approx X^{2}\)?

Expansao de Taylor de \(s\log(s/t)\) em torno de \(s=t\):

\[s\log(s/t)=(s-t)+\frac{(s-t)^{2}}{2t}+\ldots\]

Os termos lineares se cancelam pelas equacoes de score; os quadraticos dao:

\[D\approx\sum_{k}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}=X^{2}\]

6.2 AIC e BIC

\[\text{AIC}=-2\,\ell(\hat{\boldsymbol{\pi}};\mathbf{y})+2p \tag{7.7}\]

**Resumo** das estatisticas de bondade de ajuste.
Estatistica	Formula	Distrib. sob H0	Uso
D (Deviance)	2 sum oi*log(oi/ei)	chi2(N-p)	Bondade ajuste
X2 (Pearson)	sum(oi-ei)^2/ei	chi2(N-p)	Bondade ajuste
C (vs. minimo)	D0 - D1	chi2(p-1)	Testa preditores
Pseudo-R2	1 - l(pi_hat)/l(pi_tilde)	---	Melhoria log-lik
AIC	-2l + 2p	---	Comparacao modelos
BIC	-2l + p*ln(N)	---	Comparacao (penaliza)

7 Residuos e Diagnosticos

7.1 Tipos de Residuos

Pearson: \(X_{k}=(y_{k}-n_{k}\hat{\pi}_{k})/\sqrt{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}\) \(\quad(7.8)\)

Deviance: \(d_{k}=\text{sign}(y_{k}-n_{k}\hat{\pi}_{k})\sqrt{2[\ldots]}\) \(\quad(7.9)\)

Padronizados: \(r_{Pk}=X_{k}/\sqrt{1-h_{k}}\), \(\quad r_{Dk}=d_{k}/\sqrt{1-h_{k}}\)

7.2 Hosmer-Lemeshow

\[X^{2}_{HL}=\sum_{\text{celulas}}\frac{(o-e)^{2}}{e}\sim\chi^{2}(g-2)\]

8 Exemplo 7.8 — Senilidade e WAIS

**Tabela 7.9** — Padroes de covariavel, frequencias, probabilidades e residuos.
x (WAIS)	yi	ni	pi_hat	Xk (Pearson)	dk (deviance)
4	1	2	0.752	-0.826	-0.766
5	1	1	0.687	0.675	0.866
6	1	2	0.614	-0.330	-0.326
7	2	3	0.535	0.458	0.464
8	2	2	0.454	1.551	1.777
9	2	6	0.376	-0.214	-0.216
10	1	6	0.303	-0.728	-0.771
11	1	6	0.240	-0.419	-0.436
12	0	2	0.186	-0.675	-0.906
13	1	6	0.142	0.176	0.172
14	2	7	0.107	1.535	1.306
15	0	3	0.080	-0.509	-0.705
16	0	4	0.059	-0.500	-0.696
17	0	1	0.043	-0.213	-0.297
18	0	1	0.032	-0.181	-0.254
19	0	1	0.023	-0.154	-0.216
20	0	1	0.017	-0.131	-0.184
Soma dos quadrados: X2 = 8.083, D = 9.419

Proporcao com sintomas de senilidade vs. WAIS.

**Tabela 7.10** — Teste de Hosmer-Lemeshow (g = 3 grupos).
Faixa pi_hat	Com sint.obs	Com sint.esp	Sem sint.obs	Sem sint.esp	Total
ate 0.107	2	1.335	16	16.665	18
0.108 a 0.303	2	2.659	12	11.341	14
acima 0.303	10	10.006	12	11.994	22
X2_HL = 0.56 ~ chi2(1); p-valor = 0.454

**Resumo** das estatisticas de ajuste — senilidade x WAIS.
Estatistica	Valor
b1 (intercepto)	2.404 (EP=1.192)
b2 (inclinacao)	-0.3235 (EP=0.1140)
X2 Pearson (gl=15)	8.083 (p=0.920)
D deviance (gl=15)	9.419 (p=0.855)
C vs. minimo (gl=1)	10.789 (p<0.001)
Pseudo-R2	0.3120
AIC	27.792
X2_HL Hosmer-Lemeshow (gl=1)	0.56 (p=0.454)

9 Razoes de Chances e Razoes de Prevalencia

Para dois grupos com probabilidades \(\pi_{1}\) e \(\pi_{2}\):

\[\text{RC}=\frac{\pi_{1}/(1-\pi_{1})}{\pi_{2}/(1-\pi_{2})}, \qquad \text{RP}=\frac{\pi_{1}}{\pi_{2}}\]

No modelo logistico \(g(\pi_{i})=\beta_{1}+\beta_{2}x_{i}\):

\[\text{RC}=e^{\beta_{2}}\]

**Tabela 7.12** — Tabela 2x2 resumida (anteras).
Condicao	Sucesso	Fracasso	Total
Controle	164	145	309
Tratamento	155	92	247
Total	319	237	556

**Tabela 7.13** — OR e RP para o efeito do tratamento.
Modelo	Medida	Estimativa	IC 95%
Logistico (logit)	Razao de chances (OR)	1.490	(1.059, 2.095)
Log-binomial (log)	Razao de prevalencia (RP)	1.182	(1.026, 1.363)

OR vs. RP mantendo RP=1.5. O OR diverge quando a probabilidade basal e elevada.

10 Resumo do Capitulo 7

**Quadro-resumo** do Capitulo 7.
Elemento	Resultado/Formula
Modelo	logit(pi_i) = xi' beta
Distribuicao	Yi ~ Bin(ni, pi_i)
Ligacao canonica	log[pi/(1-pi)] (logit)
Deviance	D = 2 sum[yi*log(yi/y_hat_i) + ...]
Escore U1	U1 = sum(yi - ni*pi_hat_i)
Peso IRLS wi	wi = nipi_hat_i(1-pi_hat_i)
Resp. ajustada zi	zi = eta_hat_i + (yi - ni*pi_hat_i)/wi
Diagnosticos	Pearson Xk, deviance dk, padronizados, H-L
OR vs RP	OR = exp(bj); RP via link log

10.1 Referencias

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4 ed.). CRC Press.

Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22(1), 134–167.

Hosmer, D. W. & Lemeshow, S. (1980). A goodness-of-fit test for the multiple logistic regression model. Communications in Statistics, 10(10), 1043–1069.