Em geral
\[D*(y,\hat\mu)^{\phi\rightarrow\infty}\sim\chi^2_{(n-p)}\]
Binomial
\[y_i\sim Bin(n_i,\mu_i); i=1,\ldots,k \\ D(y,\hat\mu)^{n_i\rightarrow \infty}\sim \chi^2_{(k-p)}\]
Poisson
\[y_i\sim Poisson(\mu_i)\\ D(y,\hat\mu)^{\mu_i\rightarrow\infty}\longrightarrow\chi^2_{n-p}\]
Teste
Rejeita-se \(H_0\) se \(D*(y,\hat\mu)>c\) .
A distribuição de \(D*(y,\hat\mu)\) em geral não é conhecida. Da mesma forma, não existe um resultado único para a distribuição assintótica de \(D*(y_i,\hat\mu).\)
Um teste aproximado é feito através da distribuição \(\chi^2_{(n-p)}\). Há indícios de modelo mal ajustado se \(D*(y_i,\hat\mu)>\chi^2_{(n-p,1-\alpha)}\) é usual comparar \(D*(y_i,\hat\mu)\) com \(n-p\).
Quando o desvio é muito maior que os g.l. pode ser indício de superdispersão. O que queremos: um desvio pequeno e poucos parâmentros.
\[\beta=\begin{bmatrix} \beta_1 \\ \cdots \\ \beta_q \\ \beta_{q+1}\\ \cdots \\ \beta_p \end{bmatrix}= \begin{bmatrix} \beta_1\\ \beta_2 \end{bmatrix}\],
sendo \(\beta_1 \} q\) e \(\beta_2\}p-q\).
Consideremos a partição \(\beta=(\beta_1^T,\beta_2^T)\) em que \(\beta_1\) e \(\beta_2\) são vetores com \(q\) e \((p-q)\) componentes, respectivamente. Queremos testar:
Temos que
\[\xi_{RV}=-2\log\lambda=-2\log\left \{ \frac{max \mu_0f(y,\mu,\phi)}{maxf(y,\mu,\phi)}\right \}=-2\log\left \{ \frac{f(y,\mu,\phi)}{f(y,\mu,\phi)}\right \}\] Em que \(\hat\mu_0\) é o E.M.V de \(\mu\) sob \(H_0\) e \(\hat\mu\) é o E.M.V. Além disso, assumimos \(\phi\) fixo ou conhecido. Logo,
\[\xi_{RV}=-2\log[f(y,\hat\mu_0,\phi)]+2\log[f(y,\mu,\phi)]\\ =-2\{-L(\hat\mu_0,y)+L(\hat\mu,y)\}\\ =2\{L(y,y)-L(\hat\mu_0,y)-[L(y,y)-L(\hat\mu,y)] \}\\ =2\{L(y,y)-L(\hat\mu,y)\}-2\{L(y,y)-L(\hat\mu,y)\}\\ =D*(y,\hat\mu_0)-D*(y,\hat\mu)\]
Como \(\phi\) é conhecido, segue que sob \(H_0\) \(\xi_{RV}\sim\chi^2_q\), quando \(n\rightarrow\infty\).
Um outro teste é atraves da estatística
\[F=\frac{D(y,\hat\mu_0)-D(y,\hat\mu)}{D(y,\hat\mu)/n-p} \]
Obs: O teste F tem a vantagem de não de pender do parâmetro \(\phi\).
Considerando \(\theta=(\beta^T,\phi)^T\) e denotando o logarítmo da função de verossimilhança por \(L(\theta)\), obtemos a dunção escore para o parâmetro \(\beta\) calculando as derivadas.
\[\frac{\partial L(\theta)}{\partial\beta_j}=\phi \sum^{n}_{i=1}\left \{ y_i\frac{\partial \theta_i}{\partial \beta_j}-\frac{\partial b(\theta_i)}{\partial \beta_j} \right \}\] \[=\phi \sum^{n}_{i=1}\left \{ y_i\frac{d \theta_i}{d\mu_i}\frac{d \mu_i}{d\eta_i}\frac{d\eta_i}{d\beta_j}-b'(\theta_i)\frac{d \theta_i}{d\mu_i}\frac{d \mu_i}{d\eta_i}\frac{d\eta_i}{d\beta_j} \right \}\] \[=\phi \sum^{n}_{i=1}\left \{ y_iv_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )x_{ij}-\mu_iv_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )x_{ij} \right \}\]
\[= \sum^{n}_{i=1}\phi\left \{ \sqrt{\frac{w_i}{v_i}}(y_i-\mu_i)x_{ij} \right \}\]
em que \(w_i=\frac{1}{v_i}\left ( \frac{d\mu_i}{d\eta_i} \right )^2\), \(1\leq i \leq n\).
Em forma matricial temos \[\eta_\beta=\phi X^{T}W^{\frac{1}{2}}V^{-\frac{1}{2}}(y-\mu)\]
em que x é uma matriz \(n\times p\) de posto completo cujas linhas são denotadas por \(x_i^{t}\); \(i=1,\ldots, n\); \(W=diag\{W_1,\ldots,W_n \}\) é a matriz de pesos, \(V=diag\{v1,\ldots,v_n\}\), \(y=(y_1,\ldots,y_n)^{T}\), \(\mu=(\mu_1,\ldots,\mu_n)^{T}\)
Para obtermos a matriz de informação de fisher precisamos das derivadas.
\[\frac{\partial^2 L(\theta)}{\partial\beta_j\partial\beta_l}=\frac{\partial}{\partial\beta_l}\left \{ \phi \sum^{n}_{i=1}x_{ij}V_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )(y_i-\mu_i) \right \}\] \[=\sum^{n}_{i=1}\phi x_{ij}\left \{ \frac{\partial}{\partial\beta_l} V_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )(y_i-\mu_i)+\frac{\partial}{\partial\beta_l} V_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )(y_i-\mu_i)+\frac{\partial}{\partial\beta_l} V_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )(y_i-\mu_i) \right \}\]
\[=\sum^{n}_{i=1}\phi x_{ij}\left \{ \frac{d^2\theta_i}{d^2\mu_i^2}\left ( \frac{d\mu_i}{d\eta_i} \right )^2 x_{il}(y_i-\mu_i)+V_i^{-1}\frac{\partial}{\partial\beta_l} \left ( \frac{d^2\mu_i}{d\eta_i^2} \right )x_{il}(y_i-\mu_i)+ V_i^{-1}\left (\frac{d\mu_i}{d\eta_i}\right )\left ( -\frac{d\mu_i}{d\eta_i} \right )x_{il} \right \}\]
\[=\sum^{n}_{i=1}\phi x_{ij}x_{il}\left \{ (y_i-\mu_i)\frac{d^2\theta_i}{d^2\mu_i^2}\left ( \frac{d\mu_i}{d\eta_i} \right )^2 +\frac{d\theta_i}{\mu_i} \left ( \frac{d^2\mu_i}{d\eta_i^2} \right )(y_i-\mu_i)- \frac{d\theta_i}{\mu_i}\left ( \frac{d\mu_i}{d\eta_i} \right )^2 \right \}\] Sabendo que: \(E[y_i-\mu_i]=0\), então
\[E\left [ \frac{\partial^2L(\theta)}{\partial\beta_j\partial\beta_l } \right ]=-\phi\sum^{n}_{i=1}x_{ij}x_{il}\frac{d\theta_i}{\mu_i}\left ( \frac{d\mu_i}{d\eta_i} \right )^2\\ =-\phi\sum^{n}_{i=1}x_{ij}x_{il}V_i^{-1}\left ( \frac{d\mu_i}{d\eta_i} \right )^2\\ =-\phi\sum^{n}_{i=1}x_{ij}x_{il}W_i\] em forma matricial \[E\left [ \frac{\partial^2L(\theta)}{\partial\beta_j\partial\beta_l } \right ]=-\phi X^TWX.\]
Portando, segue que a matriz de informação de Fisher é dada por: \(\kappa_{pp}(\theta)= \phi X^TWX\).
Quando \(\theta_i=\eta_i\) (ligação canônica), segue que:
\[\frac{\partial L(\theta)}{\partial\beta_j\partial\beta_l}=\phi\sum^{n}_{i=1}(y_i-\mu_i)x_{ij}\]
\(E\left [ \frac{\partial^2L(\theta)}{\partial\beta_j\partial\beta_l } \right ]=-\phi\sum^{n}_{i=1}x_{ij}x_{il}W_i\) (isso já sabemos)
Em notação matricial
\[\eta_\beta(\hat\theta)=\phi X^T(y-\mu)\] e
\[\kappa_{\beta \beta}( \theta)= \phi X^{T} V X \].