En el capítulo anterior estudiamos un modelo lineal con varianza no constante para los residuales en el cual tenemos que:
Lo anterior significa que:
Estas dos características serán discutidas en más detalle en este capítulo en las llamadas distribuciones de la familia exponencial de la cual las distribuciones normal, poisson, binomial y otras más hacen parte.
Asuma que la variable aleatoria \( Y \) tiene una distribución con un sólo parámetro \( \theta \). La densidad de \( Y \), que es \( f(y; \theta) \) se dice que pertenece a la familia exponencial si
\[ f(y| \theta) = e^{a(y)b(\theta)+c(\theta)+d(y)} \]
donde \( a(\cdot) \), \( b(\cdot) \), \( c(\cdot) \) y \( d(\cdot) \) son funciones conocidas; \( \theta \) se conoce como el parámetro natural y \( b(\theta) \) es una función del parámetro natural.
En particular, si en la ecuación anterior, \( a(y) = y \), entonces se dice que la distribución es canónica; y escribimos así,
\[ f(y; \theta) = e^{yb(\theta)+c(\theta)+d(y)} \]
Una de las distribución que pertenece a la familia exponencial, es la distribución de Poisson
\[ f (y| \lambda) = \frac{ \lambda^y e^{-\lambda}}{y!}, \qquad y = 0, 1,\dots \]
se puede reescribir como:
\[ \displaystyle f(y| \lambda) = \displaystyle e^{y \log(\lambda) - \lambda -\log(y!)}= \exp[ \underbrace{y}_{a(y)} \underbrace{\log(\lambda)}_{b(\theta)}- \underbrace{\lambda}_{c(\theta)}- \underbrace{\log(y!)}_{d(y)}] \]
Notemos que \( f(y; \theta) \) tiene forma canónica con \( a(y) = y \), \( b(\theta)=\log \lambda \), \( c(\theta)=-\lambda \) y \( d(y)=-\log(y!) \); donde \( \log \lambda \) es el parámetro natural.
Ahora, asuma que la variable aleatoria \( Y \) tiene una distribución con parámetros \( \theta \) y \( \phi \). La densidad de \( Y \), \( f(y; \theta, \phi) \) se dice que pertenece a la familia exponencial de dispersión si
\[ \begin{align} f(y| \theta, \phi) =& e^{\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)} \nonumber\\ =& \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \nonumber \end{align} \]
En la ecuación anterior, tenemos las lo siguiente:
\( \theta \) - es el parámetro canónico de localización,
\( \phi \) - es el parámetro de dispersión y \( s(\phi) \) es una función de \( \phi \),
\( c(\theta) \) y \( d(y,\phi) \) - son funciones especificas para cada distribución.
Si \( \phi \) es conocido, entonces tenemos la definición de la familia exponencial.
Veamos como la estructura de la distribución de Poisson se encuentra dentro de la familia exponencial de dispersión. En efecto,
Sea \( y \sim Poisson(\lambda) \) entonces,
\[ f (y| \lambda) = \frac{ \lambda^y e^{-\lambda}}{y!}, \qquad y = 0, 1,\dots \]
Reescribiendo \( f (y| \lambda) \) en la forma
\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]
tenemos que
\[ f(y| \lambda) = \exp[y \log(\lambda) − \lambda − \log(y!)] \]
En la ecuación anterior, tenemos lo siguiente:
Sea \( y \sim N(0, \sigma^2) \) entonces,
\[ f(y|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)} \]
Reescribiendo \( f(y|\mu,\sigma^2) \) en la forma
\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]
tenemos que
\[ f(y|\mu,\sigma^2) = \exp\left(\frac{y\mu -\frac{\mu^2}{2}}{\sigma^2}-\frac{y^2}{2\sigma^2}-\frac{\log(2\pi\sigma^2)}{2}\right) \]
En la ecuación anterior, tenemos lo siguiente:
Sea \( y \sim Bin(n, p) \) entonces,
\[ f(y|p) = \binom{n}{y} p^y(1-p)^{n-y} \]
Reescribiendo \( f(y|p) \) en la forma
\[ f(y| \theta, \phi) = \exp\left(\frac{y\theta -c(\theta)}{s(\phi)}+d(y,\phi)\right) \]
tenemos que \[ f(y| p) = \exp\left(\frac{y \log \left(\frac{p}{1-p}\right) + n\log(1-p)}{1} +\log\binom{n}{y} \right) \]
En la ecuación anterior, tenemos lo siguiente:
Dentro de las distribuciones que pueden tienen una estructura de familia exponencial de dispersión, se encuentran la distribución: Normal, Binomial, Poisson, Gamma, Binomial Negativa, entre otras.
La importancia de esta familia exponencial es que la media de la variable se puede modelar usando covariables y diferentes funciones que enlazan las covariables con la media.
La teoría de estimación y asintótica se unifica para toda familia exponencial.
Un tratamiento más detallado de los modelos lineales generalizados (MLG) se puede encontrar en Agresti (2015).
En lo que resta del curso nos dedicaremos a estudiar los GLM más usados y su ajuste en R, así como la interpretación de los coeficientes en el modelo.
Sean \( Y_1,\dots,Y_n \) variables aleatorias independientes con una distribución en la familia exponencial. Es decir,
\[ f(y_i; \theta_i) = e^{y_ib(\theta_i)+c(\theta_i)+d(y_i)}, \]
tiene la forma canónica y depende de un sólo parámetro \( \theta_i \). \( Y_i \) es la componente aleatoria del modelo.
Ahora, suponga que \( E(Y_i) = \mu_i \) donde \( \mu_i \) es alguna función de \( \theta_i \). Entonces podemos encontrar una función de \( \mu_i \) tal que
\[ g(\mu_i) = g(E(Y_i)) = \boldsymbol{x}'_i\boldsymbol{\beta}. \]
La expresión \( \boldsymbol{x}'_i\boldsymbol{\beta} \) se conoce como el componente sistemático del modelo y \( g \) es una función monótona y diferenciable llamada la función de enlace (link function). De lo anterior tenemos que
\[ \mu_i = g^{-1}(\boldsymbol{x}'_i\boldsymbol{\beta}). \]
Defición: La funcion enlace de la distribución Poisson se define como \( g(\mu) = \log(\mu) \).
En efecto, puesto que: \( c(\theta) = e^{\theta}=e^{\log(\mu)} \), entonces,
Defición: La funcion enlace de la distribución Normal se define como \( g(\mu) = \mu \).
En efecto, puesto que: \( c(\theta) = \frac{\theta^2}{2}=\frac{\mu^2}{2} \), entonces,
es decir: \( \mu = g^{-1}(\mu) \rightarrow g(\mu) = \mu \)
Defición: La funcion enlace de la distribución Binomial se define como \( g(\mu) = \log \left(\frac{p}{1-p}\right) \).
En efecto, puesto que: \( c(\theta) = n\log(1+e^{\theta}) =n\log(1-p) \), entonces,
\( \mu=g^{-1}\left[\log \left(\frac{p}{1-p}\right)\right] \rightarrow g(\mu) = \log \left(\frac{p}{1-p}\right) \)
Recuerde que en el modelo lineal tenemos que \( E(Y_i|\boldsymbol{x}_i) = \boldsymbol{x}'_i\boldsymbol{\beta} \).
Esto es, nuestro interés es modelar la media de la variable respuesta como una función lineal de covariables.
La varianza se asumió constante o no constante.
En un GLM el interés es modelar una función no lineal de la media a través de un combinación lineal de las covariables.
Una de las razones para hacer esto es que la media de una variable respuesta en general podría tener restricciones tales como estar en el intervalo (0,1) (Bernoulli) o positiva (Poisson).
La única forma de asegurar esto es usando transformaciones de la media ya que la cantidad \( \boldsymbol{x}'_i\boldsymbol{\beta} \) no tiene restricciones.
Por ejemplo, en el caso de una distribución Poisson si modelamos la media como: \( E(Y_i|\boldsymbol{x}_i) = \lambda_i = \boldsymbol{x}'_i\boldsymbol{\beta} \)
esta cantidad podría ser negativa, o en el caso de la distribución Bernoulli \( E(Y_i|\boldsymbol{x}_i) = p_i = \boldsymbol{x}'_i\boldsymbol{\beta} \) podría no estar en el intervalo (0,1).
| Distribución | Media | Varianza | Función de enlace \( g(\mu) =\boldsymbol{x}'_i\boldsymbol{\beta} \) | \( \mu=g^{-1}( \boldsymbol{x}'_i\boldsymbol{\beta}) \) |
|---|---|---|---|---|
| Normal\( (\mu,\sigma^2) \) | \( \mu \) | \( \sigma^2 \) | \( g(\mu) = \mu \) (es la identidad) | \( \mu= \boldsymbol{x}'_i\boldsymbol{\beta} \) |
| Gamma\( (\alpha,\beta) \) | \( \alpha\beta \) | \( \alpha\beta^2 \) | \( g(\mu) = -\frac{1}{\mu} \) | \( \mu= -\frac{1}{\boldsymbol{x}'_i\boldsymbol{\beta}} \) |
| Poisson\( (\mu) \) | \( \mu \) | \( \mu \) | \( g(\mu)=\log(\mu) \) | \( \mu= \exp(\boldsymbol{x}'_i\boldsymbol{\beta}) \) |
| Bernoulli\( (1,p) \) | \( p \) | \( p(1-p) \) | \( g(p)=logit(p)=\log\left(\frac{p}{1-p}\right) \) | \( \mu= \frac{\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \) |
| Binomial\( (n,p) \) | \( np \) | \( np(1-p) \) | \( g(p)=logit(p)=\log\left(\frac{p}{1-p}\right) \) | \( \mu= \frac{\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \) |
| Binomial Negativa\( (\mu,\frac{1}{r}) \) | \( \mu \) | \( \mu (1+\frac{\mu}{r}) \) | \( g(\mu)=\log\left( \frac{\mu/r}{1-\mu/r}\right) \) | \( \mu= \frac{r\exp(\boldsymbol{x}'_i\boldsymbol{\beta})}{1+r\exp(\boldsymbol{x}'_i\boldsymbol{\beta})} \) |
En un GLM espeficicamos una componente aleatoria (distribución) que pertenece a la familia exponencial, por lo tanto podemos encontrar la función de verosimilitud \( L \) para las \( n \) observaciones independientes
\[ L(\boldsymbol\beta|\boldsymbol y) = \prod_{i=1}^n f(y_i;\theta_i, \phi). \]
Como consecuencia del uso de la teoría de verosimilitud todos los resultados para modelos lineales vistos aplican a los GLM. En particular, pruebas de razón de verosimilitud, criterios de selección de modelos, entre otros (ver Agresti( 2015))
Devianza
La devianza, denotada por \( D(y, \mu) \), es una medida de bondad de ajuste que compara el modelo saturado con el modelo de interés.
La idea es la misma que se usa en la prueba de LRT pero con los dos modelos anteriores. Es decir,
\[ \begin{align*} D(\boldsymbol{y}, \boldsymbol{\mu}) &= -2[L(modelo) - L(saturado)] \\ &= -2[L(\hat{\boldsymbol\mu};\boldsymbol{y})-L(\hat{\boldsymbol\mu};\boldsymbol{\mu})] \end{align*} \]
donde \( l(\hat{\boldsymbol\mu};\boldsymbol{y}) \) es el logaritmo de la verosimilitud del modelo de interés y \( l(\hat{\boldsymbol\mu};\boldsymbol{\mu}) \) verosimilitud del modelo saturado.
Un modelo saturado es aquel en el cual se asume que hay tantos parámetros como observaciones, es decir, \( \hat{\mu}_i=y_i \)
En la familia de dispersión exponencial se utiliza la Devianza escalada \( \frac{D(\boldsymbol{y}, \boldsymbol{\mu})}{\phi} \).
Para \( n \) fijo, el parámetro de dispersión es pequeño y conocido y las observaciones individuales convergen a una distribución normal.
La devianza escalada tiene una distribución aproximada a una \( \chi^2 \) con \( gl= (\#Observaciones-\#Parametros) \) del modelo de interés.
Este resultado provee un valor de referencia para determinar la bondad de ajuste del modelo cuando el parámetro de dispersión es conocido.
Ejemplo: Binomial y Poisson
\( D(\boldsymbol{y}, \boldsymbol{\mu})/\phi \) es no negativa y un valor grande indica un ajuste pobre del modelo.
Cuando el parámetro de dispersión \( \phi \) es desconocido entonces el resultado asintótico de la devianza escalada no aplica.
Ahora considere el caso en el cual se quieren comparar dos GLM anidados \( M_0 \text{ y } M_1 \) con parámetro de dispersión \( \phi = 1 \), y \( M_0 \subset M_1 \) con las respectivas medias estimadas \( \hat{\boldsymbol{\mu}}_0 \) y \( \hat{\boldsymbol{\mu}}_1 \), y número de parámetros \( p_0 \) y \( p_1 \). La prueba LRT se convierte en una diferencia de devianzas, esto es,
\[ \Delta D=D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_0) -D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_1) \]
Note que el resultado anterior aplica a GLM con distribuciones tales como la Poisson y la Binomial donde \( \phi = 1 \).
Estadístico \( \chi^2 \) de Pearson:
\[ \chi^2 = \sum_i \frac{(y_i-\hat{\mu}_i)^2}{Var(Y_i)} \]
Ejemplo de \( \chi^2 \) para la distribución Poisson
\[ X^2 = \sum_i \frac{(y_i-\hat{\mu}_i)^2}{Var(Y_i)}= \sum_i \frac{({Observado}_i - {Ajustado}_i)^2}{{Ajustado}_i} \]
En general podemos definir tres tipos de residuales:
\( d_i \) es depende de \( D(\boldsymbol{y}, \hat{\boldsymbol{\mu}}_1)= \sum_i d_i \)
Residual de Pearson \[ r_i = \frac{y_i-\hat{\mu}_i}{\sqrt{\nu(\hat{\mu}_i)(1-\hat{h}_{ii})}} \quad \text{().} \]
\( r_i \) también lo llamamos el residual estudentizado (internamente) en modelos lineales. Los residuales sirven para detectar datos atípicos y desvíos del modelo con relación a los datos.
En GLM se deben usar gráficas similares a las discutidas en modelos lineales.
\[ \log(\mu_i) = \boldsymbol{x}'_i\boldsymbol{\beta} \]
Recuerde que si \( Y_i \sim Poisson(\mu) \) entonces la función de densidad de \( Y_i \) esta dada
\[ f (y; \theta) = \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!}, \qquad y_i = 0, 1,\dots, \]
En este caso se tiene que \( E(Y_i) = Var(Y_i) = \mu_i \).
Algunos ejemplos donde se usa regresión de Poisson
Sea \( Y_i \sim Poisson(\lambda) \), se asume que: \( Y_i \) es \( ind \) de \( Y_j \) para \( i \neq j \).
Sin entrar en detalles, el logaritmo de la función de verosimilitud para estos datos usando el modelo esta dado por
\[ \log(\boldsymbol{\beta}; \boldsymbol{y}) = \sum_i y_i \log(\lambda_i) +\sum_i \lambda_i -\sum_i \log(y_i!) \]
Recuerde que en un GLM asumimos que \( \lambda_i = \exp(\boldsymbol{x}'_i \boldsymbol{\beta}) \), es decir, los \( n \) parámetros iniciales \( \lambda_i \) se reducen a \( p \) coeficientes.
Una vez obtenemos el GLM de \( \boldsymbol{\beta} \), tenemos el estimador \( \hat{\lambda}_i= \hat{y}_i=\hat{E}(Y_i)=\boldsymbol{x}'_i \hat{\boldsymbol{\beta}} \).
Ahora, en lo que se conoce como un modelo saturado, todos los \( \lambda_i \) son diferentes y se deben estimar. Después de algún trabajo algebráico, se llega a que el MLE de \( \lambda_i \) es igual a \( \hat{\lambda}_i = y_i \). Por lo tanto, el logaritmo de la verosimilitud se reduce a
\[ \log(\boldsymbol{\beta}_{\max}; \boldsymbol{y}) = \sum_i y_i \log(\lambda_i) +\sum_i \lambda_i -\sum_i \log(y_i!) \]
En este modelo, la devianza es entonces igual a
\[ D =2\sum_i o_i\log(o_i/e_i), \]
donde \( o_i \) es el valor observado \( y_i \) y \( e_i \) es el valor esperado (ajustado) \( \hat{y}_i \).
De manera similar al modelo Poisson, todos los MLG tienen su devianza. Esta cantidad se usa para determinar bondad de ajuste y también se relaciona con la definición de los residuales. Una forma alternativa de pensar el modelo saturado es en el caso de ANOVA a una vía. Si tiene un factor numérico entonces usted puede ajustar un modelo de ANOVA (saturado, es decir, una media para cada nivel del factor) o ajustar un polinomio de menor grado para modelar las medias (el grado del polinomio debe ser menor que el número de niveles del factor). En el caso del ANOVA usted deberá estimar todas las medias de los niveles, pero en el modelo con el polinomio debe estimar solamente los coeficientes. La devianza en un MLG es por lo tanto un concepto similar a lo que se conoce como Lack of Fit en modelos lineales.
Supongamos que la variable repuesta es el número de personas que mostraron mejoría en un ensayo clínico y que se usa el siguiente modelo de regressión Poisson para explicar el conteo promedio: \( \log(\mu_i) = \beta_0 + \beta_1 f_i \) , donde \( f_i \) es una variable indicadora para un grupo experimental (\( f_i = 1 \)) y un grupo control \( f_i = 0 \). Interprete los \( \beta \)’s.
Más sobre interpretación de los coeficientes Siguiendo el ejercicio anterior, ahora suponga que se usa el siguiente modelo para el conteo promedio: \( \log(\mu_i) = \beta_0 + \beta_1 f_i + \beta_2 t_i +\beta_3 t_i*f_i \) , donde \( t_i \) representa el número de semanas de cada observación \( i \). Interprete los \( \beta \)’s.