| Distribuicao tolerancia | Ligacao | Forma |
|---|---|---|
| Uniforme | Identidade | Linear restrita |
| Normal | Probit | Simetrica (caudas leves) |
| Logistica | Logit | Simetrica (caudas pesadas) |
| Valor extremo | Log-log compl. | Assimetrica |
Modelos Lineares Generalizados
Apostila — Capítulo 7: Variáveis Binárias e Regressão Logística
Nota ao leitor. Esta apostila resume o Capítulo 7 de An Introduction to Generalized Linear Models (Dobson & Barnett, 4ª ed., 2018). O capítulo cobre Regressão Logística e modelos dose-resposta para respostas binárias e binomiais. Inclui modelos probit, logístico e log-log complementar; inferência, resíduos, diagnósticos e interpretação de razões de chances vs. razões de prevalência.
Este material foi produzido em Quarto Markdown, com apoio de ferramentas de inteligência artificial na organização e síntese do conteúdo, tendo sido integralmente revisado e validado pelo autor.
1 Distribuições de Probabilidade para Respostas Binárias
1.1 Variável Bernoulli
\[ Z = \begin{cases} 1 & \text{sucesso} \\ 0 & \text{fracasso} \end{cases} \]
com \(\Pr(Z=1)=\pi\). Distribuição de Bernoulli \(B(\pi)\).
1.2 Distribuição Binomial
\[ \Pr(Y=y)=\binom{n}{y}\pi^{y}(1-\pi)^{n-y}, \quad y=0,1,\ldots,n \tag{7.2} \]
\(E(Y)=n\pi\), \(\text{var}(Y)=n\pi(1-\pi)\).
1.3 \(N\) Grupos Independentes
Se \(Y_{i}\sim\text{Bin}(n_{i},\pi_{i})\), a log-verossimilhança é:
\[ \ell(\boldsymbol{\pi};\mathbf{y})=\sum_{i=1}^{N}\left[y_{i}\log\frac{\pi_{i}}{1-\pi_{i}}+n_{i}\log(1-\pi_{i})+\log\binom{n_{i}}{y_{i}}\right] \tag{7.3} \]
2 MLGs para Respostas Binárias
2.1 Função de Ligação
\[g(\pi_{i})=\mathbf{x}_{i}^{T}\boldsymbol{\beta}\]
3 Modelos Dose-Resposta
3.1 Exemplo 7.3.1 — Mortalidade de Besouros
| Dose xi | Total ni | Mortos yi | Proporcao pi |
|---|---|---|---|
| 1.6907 | 59 | 6 | 0.1017 |
| 1.7242 | 60 | 13 | 0.2167 |
| 1.7552 | 62 | 18 | 0.2903 |
| 1.7842 | 56 | 28 | 0.5000 |
| 1.8113 | 63 | 52 | 0.8254 |
| 1.8369 | 59 | 53 | 0.8983 |
| 1.8610 | 62 | 61 | 0.9839 |
| 1.8839 | 60 | 60 | 1.0000 |
| Observado | Logistico | Probit | Log-log compl. |
|---|---|---|---|
| 6 | 3.46 | 3.36 | 5.59 |
| 13 | 9.84 | 10.72 | 11.28 |
| 18 | 22.45 | 23.48 | 20.95 |
| 28 | 33.90 | 33.82 | 30.37 |
| 52 | 50.10 | 49.62 | 47.78 |
| 53 | 53.29 | 53.32 | 54.14 |
| 61 | 59.22 | 59.66 | 61.11 |
| 60 | 58.74 | 59.23 | 59.95 |
| Parametro | Logistico | Probit | Log-log compl. |
|---|---|---|---|
| b1 (intercepto) | -60.72 (5.18) | -34.94 (2.65) | -39.57 (3.24) |
| b2 (dose) | 34.27 (2.91) | 19.73 (1.49) | 22.04 (1.80) |
| Deviance D | 11.23 | 10.12 | 3.45 |
| gl (N-p) | 6 | 6 | 6 |
Conclusao: Log-log complementar ajusta melhor (\(D=3{,}45\) vs. \(D\approx11\)).
4 Modelo Logistico Geral
4.1 Definicao
\[ \text{logit}(\pi_{i})=\log\frac{\pi_{i}}{1-\pi_{i}}=\mathbf{x}_{i}^{T}\boldsymbol{\beta} \tag{7.4a} \]
\[ \pi_{i}=\frac{e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}}{1+e^{\mathbf{x}_{i}^{T}\boldsymbol{\beta}}} \tag{7.4b} \]
4.2 Deviance Binomial
\[ D=2\sum_{i=1}^{N}\left[y_{i}\log\frac{y_{i}}{\hat{y}_{i}}+(n_{i}-y_{i})\log\frac{n_{i}-y_{i}}{n_{i}-\hat{y}_{i}}\right]\sim\chi^{2}(N-p) \tag{7.5} \]
5 Exemplo 7.4.1 — Anteras Embriogenicas
| Condicao | xk=ln(g) | yjk | njk | pjk |
|---|---|---|---|---|
| Controle | 3.689 | 55 | 102 | 0.539 |
| Controle | 5.011 | 52 | 99 | 0.525 |
| Controle | 5.858 | 57 | 108 | 0.528 |
| Tratamento | 3.689 | 55 | 76 | 0.724 |
| Tratamento | 5.011 | 50 | 81 | 0.617 |
| Tratamento | 5.858 | 50 | 90 | 0.556 |
| Modelo | a1 (EP) | a2-a1 (EP) | b (EP) | b2-b1 (EP) | D | gl |
|---|---|---|---|---|---|---|
| Modelo 1: aj + bj*xk | 0.234 (0.628) | 1.977 (0.998) | -0.023 (0.127) | -0.319 (0.199) | 0.028 | 2 |
| Modelo 2: aj + b*xk | 0.877 (0.487) | 0.407 (0.175) | -0.155 (0.097) | --- | 2.619 | 3 |
| Modelo 3: a + b*xk | 1.021 (0.481) | --- | -0.148 (0.096) | --- | 8.092 | 4 |
Inclinacoes iguais (Mod 1 vs 2): \(\Delta D = 2.591\), \(p = 0.107\) — sem evidencia contra \(H_0\).
Efeito armazenamento (Mod 2 vs 3): \(\Delta D = 5.473\), \(p = 0.019\) — efeito significativo.
| Condicao | xk | Observado | Modelo 1 | Modelo 2 | Modelo 3 |
|---|---|---|---|---|---|
| Controle | 3.69 | 55 | 54.82 | 58.75 | 62.91 |
| Controle | 5.01 | 52 | 52.47 | 52.03 | 56.40 |
| Controle | 5.86 | 57 | 56.72 | 53.22 | 58.18 |
| Tratamento | 3.69 | 55 | 54.83 | 51.01 | 46.88 |
| Tratamento | 5.01 | 50 | 50.43 | 50.59 | 46.14 |
| Tratamento | 5.86 | 50 | 49.74 | 53.40 | 48.49 |
6 Estatisticas de Bondade de Ajuste
6.1 Pearson e Deviance
\[X^{2}=\sum_{k=1}^{m}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})} \tag{7.6}\]
Ambas \(D\) e \(X^{2}\) \(\sim\chi^{2}(N-p)\).
6.1.1 Por que \(D\approx X^{2}\)?
Expansao de Taylor de \(s\log(s/t)\) em torno de \(s=t\):
\[s\log(s/t)=(s-t)+\frac{(s-t)^{2}}{2t}+\ldots\]
Os termos lineares se cancelam pelas equacoes de score; os quadraticos dao:
\[D\approx\sum_{k}\frac{(y_{k}-n_{k}\hat{\pi}_{k})^{2}}{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}=X^{2}\]
6.2 AIC e BIC
\[\text{AIC}=-2\,\ell(\hat{\boldsymbol{\pi}};\mathbf{y})+2p \tag{7.7}\]
| Estatistica | Formula | Distrib. sob H0 | Uso |
|---|---|---|---|
| D (Deviance) | 2 sum oi*log(oi/ei) | chi2(N-p) | Bondade ajuste |
| X2 (Pearson) | sum(oi-ei)^2/ei | chi2(N-p) | Bondade ajuste |
| C (vs. minimo) | D0 - D1 | chi2(p-1) | Testa preditores |
| Pseudo-R2 | 1 - l(pi_hat)/l(pi_tilde) | --- | Melhoria log-lik |
| AIC | -2l + 2p | --- | Comparacao modelos |
| BIC | -2l + p*ln(N) | --- | Comparacao (penaliza) |
7 Residuos e Diagnosticos
7.1 Tipos de Residuos
Pearson: \(X_{k}=(y_{k}-n_{k}\hat{\pi}_{k})/\sqrt{n_{k}\hat{\pi}_{k}(1-\hat{\pi}_{k})}\) \(\quad(7.8)\)
Deviance: \(d_{k}=\text{sign}(y_{k}-n_{k}\hat{\pi}_{k})\sqrt{2[\ldots]}\) \(\quad(7.9)\)
Padronizados: \(r_{Pk}=X_{k}/\sqrt{1-h_{k}}\), \(\quad r_{Dk}=d_{k}/\sqrt{1-h_{k}}\)
7.2 Hosmer-Lemeshow
\[X^{2}_{HL}=\sum_{\text{celulas}}\frac{(o-e)^{2}}{e}\sim\chi^{2}(g-2)\]
8 Exemplo 7.8 — Senilidade e WAIS
| x (WAIS) | yi | ni | pi_hat | Xk (Pearson) | dk (deviance) |
|---|---|---|---|---|---|
| 4 | 1 | 2 | 0.752 | -0.826 | -0.766 |
| 5 | 1 | 1 | 0.687 | 0.675 | 0.866 |
| 6 | 1 | 2 | 0.614 | -0.330 | -0.326 |
| 7 | 2 | 3 | 0.535 | 0.458 | 0.464 |
| 8 | 2 | 2 | 0.454 | 1.551 | 1.777 |
| 9 | 2 | 6 | 0.376 | -0.214 | -0.216 |
| 10 | 1 | 6 | 0.303 | -0.728 | -0.771 |
| 11 | 1 | 6 | 0.240 | -0.419 | -0.436 |
| 12 | 0 | 2 | 0.186 | -0.675 | -0.906 |
| 13 | 1 | 6 | 0.142 | 0.176 | 0.172 |
| 14 | 2 | 7 | 0.107 | 1.535 | 1.306 |
| 15 | 0 | 3 | 0.080 | -0.509 | -0.705 |
| 16 | 0 | 4 | 0.059 | -0.500 | -0.696 |
| 17 | 0 | 1 | 0.043 | -0.213 | -0.297 |
| 18 | 0 | 1 | 0.032 | -0.181 | -0.254 |
| 19 | 0 | 1 | 0.023 | -0.154 | -0.216 |
| 20 | 0 | 1 | 0.017 | -0.131 | -0.184 |
| Soma dos quadrados: X2 = 8.083, D = 9.419 |
| Faixa pi_hat | Com sint.obs | Com sint.esp | Sem sint.obs | Sem sint.esp | Total |
|---|---|---|---|---|---|
| ate 0.107 | 2 | 1.335 | 16 | 16.665 | 18 |
| 0.108 a 0.303 | 2 | 2.659 | 12 | 11.341 | 14 |
| acima 0.303 | 10 | 10.006 | 12 | 11.994 | 22 |
| X2_HL = 0.56 ~ chi2(1); p-valor = 0.454 |
| Estatistica | Valor |
|---|---|
| b1 (intercepto) | 2.404 (EP=1.192) |
| b2 (inclinacao) | -0.3235 (EP=0.1140) |
| X2 Pearson (gl=15) | 8.083 (p=0.920) |
| D deviance (gl=15) | 9.419 (p=0.855) |
| C vs. minimo (gl=1) | 10.789 (p<0.001) |
| Pseudo-R2 | 0.3120 |
| AIC | 27.792 |
| X2_HL Hosmer-Lemeshow (gl=1) | 0.56 (p=0.454) |
9 Razoes de Chances e Razoes de Prevalencia
Para dois grupos com probabilidades \(\pi_{1}\) e \(\pi_{2}\):
\[\text{RC}=\frac{\pi_{1}/(1-\pi_{1})}{\pi_{2}/(1-\pi_{2})}, \qquad \text{RP}=\frac{\pi_{1}}{\pi_{2}}\]
No modelo logistico \(g(\pi_{i})=\beta_{1}+\beta_{2}x_{i}\):
\[\text{RC}=e^{\beta_{2}}\]
| Condicao | Sucesso | Fracasso | Total |
|---|---|---|---|
| Controle | 164 | 145 | 309 |
| Tratamento | 155 | 92 | 247 |
| Total | 319 | 237 | 556 |
| Modelo | Medida | Estimativa | IC 95% |
|---|---|---|---|
| Logistico (logit) | Razao de chances (OR) | 1.490 | (1.059, 2.095) |
| Log-binomial (log) | Razao de prevalencia (RP) | 1.182 | (1.026, 1.363) |
10 Resumo do Capitulo 7
| Elemento | Resultado/Formula |
|---|---|
| Modelo | logit(pi_i) = xi' beta |
| Distribuicao | Yi ~ Bin(ni, pi_i) |
| Ligacao canonica | log[pi/(1-pi)] (logit) |
| Deviance | D = 2 sum[yi*log(yi/y_hat_i) + ...] |
| Escore U1 | U1 = sum(yi - ni*pi_hat_i) |
| Peso IRLS wi | wi = ni*pi_hat_i*(1-pi_hat_i) |
| Resp. ajustada zi | zi = eta_hat_i + (yi - ni*pi_hat_i)/wi |
| Diagnosticos | Pearson Xk, deviance dk, padronizados, H-L |
| OR vs RP | OR = exp(bj); RP via link log |
10.1 Referencias
Dobson, A. J. & Barnett, A. G. (2018). An Introduction to Generalized Linear Models (4 ed.). CRC Press.
Bliss, C. I. (1935). The calculation of the dosage-mortality curve. Annals of Applied Biology, 22(1), 134–167.
Hosmer, D. W. & Lemeshow, S. (1980). A goodness-of-fit test for the multiple logistic regression model. Communications in Statistics, 10(10), 1043–1069.