Modelos Lineares Generalizados

Apostila — Capítulo 7: Variáveis Binárias e Regressão Logística

Autor

Prof. Dr. Dennison Carvalho - Baseado em Dobson & Barnett (2018)

Data de Publicação

7 de junho de 2026


Nota ao leitor. Esta apostila resume o Capítulo 7 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo cobre Regressão Logística e modelos dose-resposta para respostas binárias e binomiais. Inclui modelos probit, logístico e log-log complementar; inferência, resíduos, diagnósticos e interpretação de razões de chances vs. razões de prevalência.

Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.


1 Distribuições de Probabilidade para Respostas Binárias

1.1 Variável Bernoulli

\[ Z = \begin{cases} 1 & \text{sucesso} \\ 0 & \text{fracasso} \end{cases} \]

com \(\Pr(Z=1)=\pi\). Distribuição de Bernoulli \(B(\pi)\).

1.2 Distribuição Binomial

\[ \Pr(Y=y)=\binom{n}{y}\pi^{y}(1-\pi)^{n-y}, \quad y=0,1,\ldots,n \tag{7.2} \]

\(E(Y)=n\pi\), \(\text{var}(Y)=n\pi(1-\pi)\).

1.3 \(N\) Grupos Independentes

Se \(Y_{i}\sim\text{Bin}(n_{i},\pi_{i})\), a log-verossimilhança é:

\[ \ell(\boldsymbol{\pi};\mathbf{y})=\sum_{i=1}^{N}\left[y_{i}\log\frac{\pi_{i}}{1-\pi_{i}}+n_{i}\log(1-\pi_{i})+\log\binom{n_{i}}{y_{i}}\right] \tag{7.3} \]


2 MLGs para Respostas Binárias

2.1 Função de Ligação

\[g(\pi_{i})=\mathbf{x}_{i}^{T}\boldsymbol{\beta}\]

**Resumo das ligacoes** para modelos com resposta binaria.
Distribuicao tolerancia Ligacao Forma
Uniforme Identidade Linear restrita
Normal Probit Simetrica (caudas leves)
Logistica Logit Simetrica (caudas pesadas)
Valor extremo Log-log compl. Assimetrica

Curvas de probabilidade para logistico, probit e log-log complementar.

3 Modelos Dose-Resposta

3.1 Exemplo 7.3.1 — Mortalidade de Besouros

**Tabela 7.2** — Dados de mortalidade de besouros.
Dose xi Total ni Mortos yi Proporcao pi
1.6907 59 6 0.1017
1.7242 60 13 0.2167
1.7552 62 18 0.2903
1.7842 56 28 0.5000
1.8113 63 52 0.8254
1.8369 59 53 0.8983
1.8610 62 61 0.9839
1.8839 60 60 1.0000

Proporcao de mortos vs. dose.
**Tabela 7.4** — Observados e valores ajustados.
Valores ajustados
Observado Logistico Probit Log-log compl.
6 3.46 3.36 5.59
13 9.84 10.72 11.28
18 22.45 23.48 20.95
28 33.90 33.82 30.37
52 50.10 49.62 47.78
53 53.29 53.32 54.14
61 59.22 59.66 61.11
60 58.74 59.23 59.95
**Tabela** — Estimativas (EP) e deviances.
Parametro Logistico Probit Log-log compl.
b1 (intercepto) -60.72 (5.18) -34.94 (2.65) -39.57 (3.24)
b2 (dose) 34.27 (2.91) 19.73 (1.49) 22.04 (1.80)
Deviance D 11.23 10.12 3.45
gl (N-p) 6 6 6

Proporcoes observadas e curvas ajustadas pelos tres modelos.

Conclusao: Log-log complementar ajusta melhor (\(D=3{,}45\) vs. \(D\approx11\)).


4 Modelo Logistico Geral

4.1 Definicao

\[ \text{logit}(\pi_{i})=\log\frac{\pi_{i}}{1-\pi_{i}}=\mathbf{x}_{i}^{T}\boldsymbol{\beta} \tag{7.4a} \]

\[ \pi_{i}=\frac{e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}}{1+e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}} \tag{7.4b} \]

4.2 Deviance Binomial

\[ D=2\sum_{i=1}^{N}\left[y_{i}\log\frac{y_{i}}{\hat{y}_{i}}+(n_{i}-y_{i})\log\frac{n_{i}-y_{i}}{n_{i}-\hat{y}_{i}}\right]\sim\chi^{2}(N-p) \tag{7.5} \]


5 Exemplo 7.4.1 — Anteras Embriogenicas

**Tabela 7.5** — Dados de anteras embriogenicas.
Condicao xk=ln(g) yjk njk pjk
Controle 3.689 55 102 0.539
Controle 5.011 52 99 0.525
Controle 5.858 57 108 0.528
Tratamento 3.689 55 76 0.724
Tratamento 5.011 50 81 0.617
Tratamento 5.858 50 90 0.556

Proporcao de anteras embriogenicas vs. log(forca de centrifugacao).
**Tabela 7.6** — EMV e deviances para os tres modelos (anteras).
Modelo a1 (EP) a2-a1 (EP) b (EP) b2-b1 (EP) D gl
Modelo 1: aj + bj*xk 0.234 (0.628) 1.977 (0.998) -0.023 (0.127) -0.319 (0.199) 0.028 2
Modelo 2: aj + b*xk 0.877 (0.487) 0.407 (0.175) -0.155 (0.097) --- 2.619 3
Modelo 3: a + b*xk 1.021 (0.481) --- -0.148 (0.096) --- 8.092 4

Inclinacoes iguais (Mod 1 vs 2): \(\Delta D = 2.591\), \(p = 0.107\) — sem evidencia contra \(H_0\).

Efeito armazenamento (Mod 2 vs 3): \(\Delta D = 5.473\), \(p = 0.019\) — efeito significativo.

**Tabela 7.7** — Frequencias observadas e esperadas.
Condicao xk Observado Modelo 1 Modelo 2 Modelo 3
Controle 3.69 55 54.82 58.75 62.91
Controle 5.01 52 52.47 52.03 56.40
Controle 5.86 57 56.72 53.22 58.18
Tratamento 3.69 55 54.83 51.01 46.88
Tratamento 5.01 50 50.43 50.59 46.14
Tratamento 5.86 50 49.74 53.40 48.49

6 Estatisticas de Bondade de Ajuste

6.1 Pearson e Deviance

\[X^{2}=\sum_{k=1}^{m}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})} \tag{7.6}\]

Ambas \(D\) e \(X^{2}\) \(\sim\chi^{2}(N-p)\).

6.1.1 Por que \(D\approx X^{2}\)?

Expansao de Taylor de \(s\log(s/t)\) em torno de \(s=t\):

\[s\log(s/t)=(s-t)+\frac{(s-t)^{2}}{2t}+\ldots\]

Os termos lineares se cancelam pelas equacoes de score; os quadraticos dao:

\[D\approx\sum_{k}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}=X^{2}\]

6.2 AIC e BIC

\[\text{AIC}=-2\,\ell(\hat{\boldsymbol{\pi}};\mathbf{y})+2p \tag{7.7}\]

**Resumo** das estatisticas de bondade de ajuste.
Estatistica Formula Distrib. sob H0 Uso
D (Deviance) 2 sum oi*log(oi/ei) chi2(N-p) Bondade ajuste
X2 (Pearson) sum(oi-ei)^2/ei chi2(N-p) Bondade ajuste
C (vs. minimo) D0 - D1 chi2(p-1) Testa preditores
Pseudo-R2 1 - l(pi_hat)/l(pi_tilde) --- Melhoria log-lik
AIC -2l + 2p --- Comparacao modelos
BIC -2l + p*ln(N) --- Comparacao (penaliza)

7 Residuos e Diagnosticos

7.1 Tipos de Residuos

Pearson: \(X_{k}=(y_{k}-n_{k}\hat{\pi}_{k})/\sqrt{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}\) \(\quad(7.8)\)

Deviance: \(d_{k}=\text{sign}(y_{k}-n_{k}\hat{\pi}_{k})\sqrt{2[\ldots]}\) \(\quad(7.9)\)

Padronizados: \(r_{Pk}=X_{k}/\sqrt{1-h_{k}}\), \(\quad r_{Dk}=d_{k}/\sqrt{1-h_{k}}\)

7.2 Hosmer-Lemeshow

\[X^{2}_{HL}=\sum_{\text{celulas}}\frac{(o-e)^{2}}{e}\sim\chi^{2}(g-2)\]


8 Exemplo 7.8 — Senilidade e WAIS

**Tabela 7.9** — Padroes de covariavel, frequencias, probabilidades e residuos.
x (WAIS) yi ni pi_hat Xk (Pearson) dk (deviance)
4 1 2 0.752 -0.826 -0.766
5 1 1 0.687 0.675 0.866
6 1 2 0.614 -0.330 -0.326
7 2 3 0.535 0.458 0.464
8 2 2 0.454 1.551 1.777
9 2 6 0.376 -0.214 -0.216
10 1 6 0.303 -0.728 -0.771
11 1 6 0.240 -0.419 -0.436
12 0 2 0.186 -0.675 -0.906
13 1 6 0.142 0.176 0.172
14 2 7 0.107 1.535 1.306
15 0 3 0.080 -0.509 -0.705
16 0 4 0.059 -0.500 -0.696
17 0 1 0.043 -0.213 -0.297
18 0 1 0.032 -0.181 -0.254
19 0 1 0.023 -0.154 -0.216
20 0 1 0.017 -0.131 -0.184
Soma dos quadrados: X2 = 8.083, D = 9.419

Proporcao com sintomas de senilidade vs. WAIS.
**Tabela 7.10** — Teste de Hosmer-Lemeshow (g = 3 grupos).
Faixa pi_hat Com sint.obs Com sint.esp Sem sint.obs Sem sint.esp Total
ate 0.107 2 1.335 16 16.665 18
0.108 a 0.303 2 2.659 12 11.341 14
acima 0.303 10 10.006 12 11.994 22
X2_HL = 0.56 ~ chi2(1); p-valor = 0.454
**Resumo** das estatisticas de ajuste — senilidade x WAIS.
Estatistica Valor
b1 (intercepto) 2.404 (EP=1.192)
b2 (inclinacao) -0.3235 (EP=0.1140)
X2 Pearson (gl=15) 8.083 (p=0.920)
D deviance (gl=15) 9.419 (p=0.855)
C vs. minimo (gl=1) 10.789 (p<0.001)
Pseudo-R2 0.3120
AIC 27.792
X2_HL Hosmer-Lemeshow (gl=1) 0.56 (p=0.454)

9 Razoes de Chances e Razoes de Prevalencia

Para dois grupos com probabilidades \(\pi_{1}\) e \(\pi_{2}\):

\[\text{RC}=\frac{\pi_{1}/(1-\pi_{1})}{\pi_{2}/(1-\pi_{2})}, \qquad \text{RP}=\frac{\pi_{1}}{\pi_{2}}\]

No modelo logistico \(g(\pi_{i})=\beta_{1}+\beta_{2}x_{i}\):

\[\text{RC}=e^{\beta_{2}}\]

**Tabela 7.12** — Tabela 2x2 resumida (anteras).
Condicao Sucesso Fracasso Total
Controle 164 145 309
Tratamento 155 92 247
Total 319 237 556
**Tabela 7.13** — OR e RP para o efeito do tratamento.
Modelo Medida Estimativa IC 95%
Logistico (logit) Razao de chances (OR) 1.490 (1.059, 2.095)
Log-binomial (log) Razao de prevalencia (RP) 1.182 (1.026, 1.363)

OR vs. RP mantendo RP=1.5. O OR diverge quando a probabilidade basal e elevada.

10 Resumo do Capitulo 7

**Quadro-resumo** do Capitulo 7.
Elemento Resultado/Formula
Modelo logit(pi_i) = xi' beta
Distribuicao Yi ~ Bin(ni, pi_i)
Ligacao canonica log[pi/(1-pi)] (logit)
Deviance D = 2 sum[yi*log(yi/y_hat_i) + ...]
Escore U1 U1 = sum(yi - ni*pi_hat_i)
Peso IRLS wi wi = ni*pi_hat_i*(1-pi_hat_i)
Resp. ajustada zi zi = eta_hat_i + (yi - ni*pi_hat_i)/wi
Diagnosticos Pearson Xk, deviance dk, padronizados, H-L
OR vs RP OR = exp(bj); RP via link log

10.1 Referencias

Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4 ed.). CRC Press.

Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22(1), 134–167.

Hosmer, D. W. & Lemeshow, S. (1980). A goodness-of-fit test for the multiple logistic regression model. Communications in Statistics, 10(10), 1043–1069.