Modelos lineales generalizados

Familia exponencial y exponencial de dispersión para los GLM

logo

Especialización en Estadística Aplicada

Roberto Trespalacios

Modelos Lineales Generalizados - Recordemos

En el capítulo anterior estudiamos un modelo lineal con varianza no constante para los residuales en el cual tenemos que:
- \( E(Y_i|\boldsymbol{x}_i) = \boldsymbol{x}'_i \boldsymbol{\beta} \)
- \( Var(Y_i|\boldsymbol{x}_i) = \sigma^2 \mu^2_i = \sigma^2 (\boldsymbol{x}_i \boldsymbol{\beta})^2 \)
Lo anterior significa que:
- Un modelo en el cual la varianza de la variable depende de su media.
- La distribución de la variable es normal.

Estas dos características serán discutidas en más detalle en este capítulo en las llamadas distribuciones de la familia exponencial de la cual las distribuciones normal, poisson, binomial y otras más hacen parte.

Familia exponencial

Definición:

Asuma que la variable aleatoria \( Y \) tiene una distribución con un sólo parámetro \( \theta \). La densidad de \( Y \), que es \( f(y; \theta) \) se dice que pertenece a la familia exponencial si

\[ f(y| \theta) = e^{a(y)b(\theta)+c(\theta)+d(y)} \]

donde \( a(\cdot) \), \( b(\cdot) \), \( c(\cdot) \) y \( d(\cdot) \) son funciones conocidas; \( \theta \) se conoce como el parámetro natural y \( b(\theta) \) es una función del parámetro natural.

Observación:

En particular, si en la ecuación anterior, \( a(y) = y \), entonces se dice que la distribución es canónica; y escribimos así,

\[ f(y; \theta) = e^{yb(\theta)+c(\theta)+d(y)} \]

Familia exponencial (distribución Poisson)

Una de las distribución que pertenece a la familia exponencial, es la distribución de Poisson

\[ f (y| \lambda) = \frac{ \lambda^y e^{-\lambda}}{y!}, \qquad y = 0, 1,\dots \]

se puede reescribir como:

\[ \displaystyle f(y| \lambda) = \displaystyle e^{y \log(\lambda) - \lambda -\log(y!)}= \exp[ \underbrace{y}_{a(y)} \underbrace{\log(\lambda)}_{b(\theta)}- \underbrace{\lambda}_{c(\theta)}- \underbrace{\log(y!)}_{d(y)}] \]

Notemos que \( f(y; \theta) \) tiene forma canónica con \( a(y) = y \), \( b(\theta)=\log \lambda \), \( c(\theta)=-\lambda \) y \( d(y)=-\log(y!) \); donde \( \log \lambda \) es el parámetro natural.

Familia exponencial de dispersión

Ahora, asuma que la variable aleatoria \( Y \) tiene una distribución con parámetros \( \theta \) y \( \phi \). La densidad de \( Y \), \( f(y; \theta, \phi) \) se dice que pertenece a la familia exponencial de dispersión si

\[ \begin{align} f(y| \theta, \phi) =& e^{\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)} \nonumber\\ =& \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \nonumber \end{align} \]

En la ecuación anterior, tenemos las lo siguiente:

\( \theta \) - es el parámetro canónico de localización,
\( \phi \) - es el parámetro de dispersión y \( s(\phi) \) es una función de \( \phi \),
\( c(\theta) \) y \( d(y,\phi) \) - son funciones especificas para cada distribución.

Observación

Si \( \phi \) es conocido, entonces tenemos la definición de la familia exponencial.

Familia exponencial de dispersión (distribución Poisson)

Veamos como la estructura de la distribución de Poisson se encuentra dentro de la familia exponencial de dispersión. En efecto,

Sea \( y \sim Poisson(\lambda) \) entonces,

\[ f (y| \lambda) = \frac{ \lambda^y e^{-\lambda}}{y!}, \qquad y = 0, 1,\dots \]

Reescribiendo \( f (y| \lambda) \) en la forma

\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]

tenemos que

\[ f(y| \lambda) = \exp[y \log(\lambda) − \lambda − \log(y!)] \]

En la ecuación anterior, tenemos lo siguiente:

\( \theta =\log(\lambda) \): es el parámetro canónico (o de localización),
\( \phi=1 \): es el parámetro de dispersión,
por lo tanto,
- \( s(\phi) = \phi=1 \),
- \( c(\theta) = e^{\theta}=e^{\log(\lambda)}=\lambda \)
- \( d(y,\phi) = -\log(y!) \)
\( E(y)= c'(\theta) = \lambda \): Valor esperado
\( Var(y) = c''(\theta)s(\phi) = \lambda \cdot \phi=\lambda \cdot 1 = \lambda \): Varianza.

Familia exponencial de dispersión (distribución Normal)

Sea \( y \sim N(0, \sigma^2) \) entonces,

\[ f(y|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)} \]

Reescribiendo \( f(y|\mu,\sigma^2) \) en la forma

\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]

tenemos que

\[ f(y|\mu,\sigma^2) = \exp\left(\frac{y\mu -\frac{\mu^2}{2}}{\sigma^2}-\frac{y^2}{2\sigma^2}-\frac{\log(2\pi\sigma^2)}{2}\right) \]

En la ecuación anterior, tenemos lo siguiente:

\( \theta =\mu \): es el parámetro canónico (o de localización),
\( \phi=\sigma^2 \): es el parámetro de dispersión,
por lo tanto,
- \( s(\phi) = \phi =\sigma^2 \),
- \( c(\theta) = \frac{\theta^2}{2}=\frac{\mu^2}{2} \)
- \( d(y,\phi) = -\left(\frac{y^2}{2\phi}+\frac{\log(2\pi\phi)}{2}\right) \)
\( E(y)= c'(\theta) = \mu \): Valor esperado
\( Var(y) = c''(\theta)s(\phi) = 1\cdot \phi = 1 \cdot \sigma^2 =\sigma^2 \).
: Varianza.

Familia exponencial de dispersión (distribución Binomial)

Sea \( y \sim Bin(n, p) \) entonces,

\[ f(y|p) = \binom{n}{y} p^y(1-p)^{n-y} \]

Reescribiendo \( f(y|p) \) en la forma

\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]

tenemos que

\[ f(y| p) = \exp\left(\frac{y \log \left(\frac{p}{1-p}\right) + n\log(1-p)}{1} +\log\binom{n}{y} \right) \]

En la ecuación anterior, tenemos lo siguiente:

\( \theta =\log \left(\frac{p}{1-p}\right) \): es el parámetro canónico (o de localización),
\( \phi=1 \): es el parámetro de dispersión,
por lo tanto,
- \( s(\phi) = \phi= 1 \),
- \( c(\theta) = n\log(1+e^{\theta}) =n\log(1-p) \)
- \( d(y,\phi) = \log \binom{n}{y} \)
\( E(y)= c'(\theta) = np \): Valor esperado
\( Var(y) = c''(\theta)s(\phi) = np(1-p) \)
: Varianza.

Familia exponencial de dispersión otras distribuciones

Dentro de las distribuciones que pueden tienen una estructura de familia exponencial de dispersión, se encuentran la distribución: Normal, Binomial, Poisson, Gamma, Binomial Negativa, entre otras.

La importancia de esta familia exponencial es que la media de la variable se puede modelar usando covariables y diferentes funciones que enlazan las covariables con la media.
La teoría de estimación y asintótica se unifica para toda familia exponencial.
Un tratamiento más detallado de los modelos lineales generalizados (MLG) se puede encontrar en Agresti (2015).
En lo que resta del curso nos dedicaremos a estudiar los GLM más usados y su ajuste en R, así como la interpretación de los coeficientes en el modelo.

Modelos Lineales Generelizados (GLM)

Sean \( Y_1,\dots,Y_n \) variables aleatorias independientes con una distribución en la familia exponencial. Es decir,

\[ f(y_i; \theta_i) = e^{y_ib(\theta_i)+c(\theta_i)+d(y_i)}, \]

tiene la forma canónica y depende de un sólo parámetro \( \theta_i \). \( Y_i \) es la componente aleatoria del modelo.

Ahora, suponga que \( E(Y_i) = \mu_i \) donde \( \mu_i \) es alguna función de \( \theta_i \). Entonces podemos encontrar una función de \( \mu_i \) tal que

\[ g(\mu_i) = g(E(Y_i)) = \boldsymbol{x}'_i\boldsymbol{\beta}. \]

La expresión \( \boldsymbol{x}'_i\boldsymbol{\beta} \) se conoce como el componente sistemático del modelo y \( g \) es una función monótona y diferenciable llamada la función de enlace (link function). De lo anterior tenemos que

\[ \mu_i = g^{-1}(\boldsymbol{x}'_i\boldsymbol{\beta}). \]

Funcion enlace (link function)

Defición:
La funcion enlace de la distribución Poisson se define como \( g(\mu) = \log(\mu) \).

En efecto, puesto que: \( c(\theta) = e^{\theta}=e^{\log(\mu)} \), entonces,

\( \mu(\theta) = c'(\theta) = e^{\theta}= e^{\log(\mu)}=g^{-1}(\log(\mu))=\mu \),
es decir: \( \mu = g^{-1}(\log(\mu)) \rightarrow g(\mu) = \log(\mu) \)

Defición:
La funcion enlace de la distribución Normal se define como \( g(\mu) = \mu \).

En efecto, puesto que: \( c(\theta) = \frac{\theta^2}{2}=\frac{\mu^2}{2} \), entonces,

\( \mu(\theta) = c'(\theta) = \mu = g^{-1}(\mu) \) (es la función identidad),
es decir: \( \mu = g^{-1}(\mu) \rightarrow g(\mu) = \mu \)

Defición:
La funcion enlace de la distribución Binomial se define como \( g(\mu) = \log \left(\frac{p}{1-p}\right) \).

En efecto, puesto que: \( c(\theta) = n\log(1+e^{\theta}) =n\log(1-p) \), entonces,

\( \mu(\theta) = c'(\theta) = n\frac{e^{\theta}}{1+e^{\theta}}=n\frac{\exp \left[ \log \left(\frac{p}{1-p}\right) \right]}{1+\exp \left[ \log \left(\frac{p}{1-p}\right) \right]} \)
\( \hspace{2.3cm}= g^{-1}\left[\log \left(\frac{p}{1-p}\right)\right]=np=\mu \),
es decir: \( \mu=g^{-1}(\theta)=n\frac{e^{\theta}}{1+e^{\theta}} \) luego

\( \mu=g^{-1}\left[\log \left(\frac{p}{1-p}\right)\right] \rightarrow g(\mu) = \log \left(\frac{p}{1-p}\right) \)

Algunas observaciones importantes

Recuerde que en el modelo lineal tenemos que \( E(Y_i|\boldsymbol{x}_i) = \boldsymbol{x}'_i\boldsymbol{\beta} \).
Esto es, nuestro interés es modelar la media de la variable respuesta como una función lineal de covariables.
La varianza se asumió constante o no constante.
En un GLM el interés es modelar una función no lineal de la media a través de un combinación lineal de las covariables.
Una de las razones para hacer esto es que la media de una variable respuesta en general podría tener restricciones tales como estar en el intervalo (0,1) (Bernoulli) o positiva (Poisson).

La única forma de asegurar esto es usando transformaciones de la media ya que la cantidad \( \boldsymbol{x}'_i\boldsymbol{\beta} \) no tiene restricciones.
Por ejemplo, en el caso de una distribución Poisson si modelamos la media como: \( E(Y_i|\boldsymbol{x}_i) = \lambda_i = \boldsymbol{x}'_i\boldsymbol{\beta} \)

esta cantidad podría ser negativa, o en el caso de la distribución Bernoulli \( E(Y_i|\boldsymbol{x}_i) = p_i = \boldsymbol{x}'_i\boldsymbol{\beta} \) podría no estar en el intervalo (0,1).

Tabla: Distribuciones de la familia exponencial y de dispersión

Distribución	Media	Varianza	Función de enlace \( g(\mu) =\boldsymbol{x}'_i\boldsymbol{\beta} \)	\( \mu=g^{-1}( \boldsymbol{x}'_i\boldsymbol{\beta}) \)
Normal\( (\mu,\sigma^2) \)	\( \mu \)	\( \sigma^2 \)	\( g(\mu) = \mu \) (es la identidad)	\( \mu= \boldsymbol{x}'_i\boldsymbol{\beta} \)
Gamma\( (\alpha,\beta) \)	\( \alpha\beta \)	\( \alpha\beta^2 \)	\( g(\mu) = -\frac{1}{\mu} \)	\( \mu= -\frac{1}{\boldsymbol{x}'_i\boldsymbol{\beta}} \)
Poisson\( (\mu) \)	\( \mu \)	\( \mu \)	\( g(\mu)=\log(\mu) \)	\( \mu= \exp(\boldsymbol{x}'_i\boldsymbol{\beta}) \)
Bernoulli\( (1,p) \)	\( p \)	\( p(1-p) \)	\( g(p)=logit(p)=\log\left(\frac{p}{1-p}\right) \)	\( \mu= \frac{\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \)
Binomial\( (n,p) \)	\( np \)	\( np(1-p) \)	\( g(p)=logit(p)=\log\left(\frac{p}{1-p}\right) \)	\( \mu= \frac{\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \)
Binomial Negativa\( (\mu,\frac{1}{r}) \)	\( \mu \)	\( \mu (1+\frac{\mu}{r}) \)	\( g(\mu)=\log\left( \frac{\mu/r}{1-\mu/r}\right) \)	\( \mu= \frac{r\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+r\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \)

Notemos que en la distribución normal, la varianza se puede modelar separadamente de la media.
Otras distribuciones de la familia exponencia la varianza queda definida como una función de la media. Por ejemplo,
- Distribución Bernoulli \( Var(Y_i) = p(1 - p) = \mu(1 - \mu) \)
- Distribución de Poisson \( Var(Y_i) = \lambda_i = \mu_i \)
Esta relación entre la media y la varianza es característica de los GLM.
Aún más, \( Var(Y_i) \) suele escribirse como \( Var(Y_i)= \nu(\mu_i) \) para enfatizar en la relación media varianza en un GLM.

Inferencia en GLM

En un GLM espeficicamos una componente aleatoria (distribución) que pertenece a la familia exponencial, por lo tanto podemos encontrar la función de verosimilitud \( L \) para las \( n \) observaciones independientes

\[ L(\boldsymbol\beta|\boldsymbol y) = \prod_{i=1}^n f(y_i;\theta_i, \phi). \]

Recuerde que los parámetros \( \theta_i \) dependen del vector de coeficientes \( \boldsymbol{\beta} \) del modelo.
El logaritmo de la función de verosimilitud se debe maximizar y posteriormente se deben solucionar las ecuaciones de estimación usando métodos numéricos para la mayoría de GLM.

Bajo ciertas condiciones de regularidad y si el tamaño de muestra \( n \) es suficientemente grande se tiene que la distribución de \( \hat{\boldsymbol\beta}_{ML} \), es aproximadamente normal con
- media \( \boldsymbol{\beta} \) y
- varianza \( Var(\boldsymbol{X}' \boldsymbol{W} \boldsymbol{X})^{-1} \),
  donde \( \boldsymbol{W} \) es una matriz diagonal con elementos \( w_i = (\partial \mu_i /\partial \eta_i)^2/Var(Y_i) \), donde \( \eta_i = \boldsymbol{x}'_i\boldsymbol{\beta} \).

Como consecuencia del uso de la teoría de verosimilitud todos los resultados para modelos lineales vistos aplican a los GLM. En particular, pruebas de razón de verosimilitud, criterios de selección de modelos, entre otros (ver Agresti( 2015))

Bondad de ajuste en GLM: la devianza y el estadístico Chi-square

Devianza

La devianza, denotada por \( D(y, \mu) \), es una medida de bondad de ajuste que compara el modelo saturado con el modelo de interés.
La idea es la misma que se usa en la prueba de LRT pero con los dos modelos anteriores. Es decir,

\[ \begin{align*} D(\boldsymbol{y}, \boldsymbol{\mu}) &= -2[L(modelo) - L(saturado)] \\ &= -2[L(\hat{\boldsymbol\mu};\boldsymbol{y})-L(\hat{\boldsymbol\mu};\boldsymbol{\mu})] \end{align*} \]

donde \( l(\hat{\boldsymbol\mu};\boldsymbol{y}) \) es el logaritmo de la verosimilitud del modelo de interés y \( l(\hat{\boldsymbol\mu};\boldsymbol{\mu}) \) verosimilitud del modelo saturado.

Un modelo saturado es aquel en el cual se asume que hay tantos parámetros como observaciones, es decir, \( \hat{\mu}_i=y_i \)
En la familia de dispersión exponencial se utiliza la Devianza escalada \( \frac{D(\boldsymbol{y}, \boldsymbol{\mu})}{\phi} \).
Para \( n \) fijo, el parámetro de dispersión es pequeño y conocido y las observaciones individuales convergen a una distribución normal.
La devianza escalada tiene una distribución aproximada a una \( \chi^2 \) con \( gl= (\#Observaciones-\#Parametros) \) del modelo de interés.
Este resultado provee un valor de referencia para determinar la bondad de ajuste del modelo cuando el parámetro de dispersión es conocido.

Ejemplo, en un GLM con distribución Binomial o Poisson donde \(\phi = 1\)

Ejemplo: Binomial y Poisson

\( D(\boldsymbol{y}, \boldsymbol{\mu})/\phi \) es no negativa y un valor grande indica un ajuste pobre del modelo.
Cuando el parámetro de dispersión \( \phi \) es desconocido entonces el resultado asintótico de la devianza escalada no aplica.

Ahora considere el caso en el cual se quieren comparar dos GLM anidados \( M_0 \text{ y } M_1 \) con parámetro de dispersión \( \phi = 1 \), y \( M_0 \subset M_1 \) con las respectivas medias estimadas \( \hat{\boldsymbol{\mu}}_0 \) y \( \hat{\boldsymbol{\mu}}_1 \), y número de parámetros \( p_0 \) y \( p_1 \). La prueba LRT se convierte en una diferencia de devianzas, esto es,

\[ \Delta D=D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_0) -D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_1) \]

Bajo algunas condiciones de regularidad, esta cantidad se puede comparar con una distribución \( \chi^2 \) con \( p_1 - p_0 \) grados de libertad. Esta cantidad se suele denotar con \( G^2(M_0 | M_1) \). También se le llama la Devianza residual cuando se compara el modelo de interés con el saturado.

Note que el resultado anterior aplica a GLM con distribuciones tales como la Poisson y la Binomial donde \( \phi = 1 \).

El estadístico \(\chi^2\) (Chi cuadrado) de Pearson

Otra medida de bondad de ajuste en GLM es el estadístico \( X^2 \) (también conocida como Pearson chi-square statistics) que estima \( \chi^2 \).

Estadístico \( \chi^2 \) de Pearson:

\[ \chi^2 = \sum_i \frac{(y_i-\hat{\mu}_i)^2}{Var(Y_i)} \]

Ejemplo de \( \chi^2 \) para la distribución Poisson

\[ X^2 = \sum_i \frac{(y_i-\hat{\mu}_i)^2}{Var(Y_i)}= \sum_i \frac{({Observado}_i - {Ajustado}_i)^2}{{Ajustado}_i} \]

Residuales en GLM

En los GLM es que la ortogonalidad de los residuales y los valores ajustados no se cumple. +Es decir, la descomposición \( datos = ajustados + residuales \) no es ortogonal.
Sin embargo, estas cantidades están correlacionadas asintóticamente.

En general podemos definir tres tipos de residuales:

Residual de Pearson \[ e_i = \frac{y_i-\hat{\mu}_i}{\sqrt{\nu(\hat{\mu}_i)}} \]

Residual de devianza \[ e_i^2 = \sqrt{d_i}\times signo(y_i-\hat{\mu}_i) \quad \text{().} \]

\( d_i \) es depende de \( D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_1)= \sum_i d_i \)

Residual de Pearson \[ r_i = \frac{y_i-\hat{\mu}_i}{\sqrt{\nu(\hat{\mu}_i)(1-\hat{h}_{ii})}} \quad \text{().} \]
\( r_i \) también lo llamamos el residual estudentizado (internamente) en modelos lineales. Los residuales sirven para detectar datos atípicos y desvíos del modelo con relación a los datos.
En GLM se deben usar gráficas similares a las discutidas en modelos lineales.

Regresión para Conteos

Si la variable respuesta son conteos una forma de modelar estos datos usando un modelo lineal es aplicando la transformación \( \sqrt{y} \).
Con la transformación, se espera obtener varianza constante en los residuales.
Se puede mostrar que \( Var(Y) \approx 1/4 \), cuando \( Y \sim Poisson(\lambda) \).
Esta aproximación funciona mejor cuando \( \mu \) es grande.
Sin embargo, esto crea dificultad en las interpretaciones.

Una forma más razonable de modelar datos de conteos es asumir que \( Y_i \sim Poisson(\mu) \)
La idea sería explicar la media \( \mu_i \) en función de las covariables \( \boldsymbol{x}_i \), es decir

\[ \log(\mu_i) = \boldsymbol{x}'_i\boldsymbol{\beta} \]

Recuerde que si \( Y_i \sim Poisson(\mu) \) entonces la función de densidad de \( Y_i \) esta dada

\[ f (y; \theta) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \qquad y_i = 0, 1,\dots, \]

En este caso se tiene que \( E(Y_i) = Var(Y_i) = \mu_i \).

Regresión Poisson

Algunos ejemplos donde se usa regresión de Poisson

El número de personas muertas por patadas de mula o caballo en el ejército prusiano por año. Ladislaus Bortkiewicz recolectó datos de 20 volúmenes de Preussischen Statistik. Estos datos fueron recolectados en 10 cuerpos del ejército prusiano a fines del siglo XIX en el transcurso de 20 años.
La cantidad de personas en fila frente a usted en la tienda de comestibles. Los predictores pueden incluir la cantidad de artículos que se ofrecen actualmente a un precio con descuento especial y si un evento especial (por ejemplo, un día festivo, un gran evento deportivo) está a tres días o menos.
La cantidad de premios obtenidos por los estudiantes en una escuela secundaria. Los predictores de la cantidad de premios ganados incluyen el tipo de programa en el que el estudiante estuvo inscrito (por ejemplo, vocacional, general o académico) y el puntaje en su examen final de matemáticas.

Regresión Poisson

Sea \( Y_i \sim Poisson(\lambda) \), se asume que: \( Y_i \) es \( ind \) de \( Y_j \) para \( i \neq j \).

Sin entrar en detalles, el logaritmo de la función de verosimilitud para estos datos usando el modelo esta dado por

\[ \log(\boldsymbol{\beta}; \boldsymbol{y}) = \sum_i y_i \log(\lambda_i) +\sum_i \lambda_i -\sum_i \log(y_i!) \]

Recuerde que en un GLM asumimos que \( \lambda_i = \exp(\boldsymbol{x}'_i \boldsymbol{\beta}) \), es decir, los \( n \) parámetros iniciales \( \lambda_i \) se reducen a \( p \) coeficientes.
Una vez obtenemos el GLM de \( \boldsymbol{\beta} \), tenemos el estimador \( \hat{\lambda}_i= \hat{y}_i=\hat{E}(Y_i)=\boldsymbol{x}'_i \hat{\boldsymbol{\beta}} \).

Ahora, en lo que se conoce como un modelo saturado, todos los \( \lambda_i \) son diferentes y se deben estimar. Después de algún trabajo algebráico, se llega a que el MLE de \( \lambda_i \) es igual a \( \hat{\lambda}_i = y_i \). Por lo tanto, el logaritmo de la verosimilitud se reduce a

\[ \log(\boldsymbol{\beta}_{\max}; \boldsymbol{y}) = \sum_i y_i \log(\lambda_i) +\sum_i \lambda_i -\sum_i \log(y_i!) \]

Devianza en la regresión Poisson

En este modelo, la devianza es entonces igual a

\[ D =2\sum_i o_i\log(o_i/e_i), \]

donde \( o_i \) es el valor observado \( y_i \) y \( e_i \) es el valor esperado (ajustado) \( \hat{y}_i \).

De manera similar al modelo Poisson, todos los MLG tienen su devianza. Esta cantidad se usa para determinar bondad de ajuste y también se relaciona con la definición de los residuales. Una forma alternativa de pensar el modelo saturado es en el caso de ANOVA a una vía. Si tiene un factor numérico entonces usted puede ajustar un modelo de ANOVA (saturado, es decir, una media para cada nivel del factor) o ajustar un polinomio de menor grado para modelar las medias (el grado del polinomio debe ser menor que el número de niveles del factor). En el caso del ANOVA usted deberá estimar todas las medias de los niveles, pero en el modelo con el polinomio debe estimar solamente los coeficientes. La devianza en un MLG es por lo tanto un concepto similar a lo que se conoce como Lack of Fit en modelos lineales.

Interpretación de coeficientes

Supongamos que la variable repuesta es el número de personas que mostraron mejoría en un ensayo clínico y que se usa el siguiente modelo de regressión Poisson para explicar el conteo promedio: \( \log(\mu_i) = \beta_0 + \beta_1 f_i \) , donde \( f_i \) es una variable indicadora para un grupo experimental (\( f_i = 1 \)) y un grupo control \( f_i = 0 \). Interprete los \( \beta \)’s.
Más sobre interpretación de los coeficientes Siguiendo el ejercicio anterior, ahora suponga que se usa el siguiente modelo para el conteo promedio: \( \log(\mu_i) = \beta_0 + \beta_1 f_i + \beta_2 t_i +\beta_3 t_i*f_i \) , donde \( t_i \) representa el número de semanas de cada observación \( i \). Interprete los \( \beta \)’s.