hllinas

1 La familia EDM

El modelo lineal generalizado o, más brevemente, GLM (en inglés: General Linear Model) es una clase bastante amplia de modelos introducidos por Nelder y Wedderburn (1972). Estos modelos asumen que las respuestas provienen de una distribución que pertenece a una familia de distribuciones llamada familia exponencial de distribuciones o familia de modelos de dispersión exponencial (o familia EDM, o simplemente EDM, que viene del inglés: Exponential Dispersion Model), concepto fue presentado por primera vez por Jorgensen (1987).

Los EDMs continuos incluyen las distribuciones Normal, Normal inversa, Exponencial, Weibull y Gamma. Los EDMs discretos incluyen las ditribuciones Binomial, Poisson y Binomial negativa. En la sección 5 se describen estos modelos (en especial, véase la tabla 5.1).

La familia de distribuciones EDM permite que los GLMs sean ajustados a un rango amplio de tipos de datos, como datos binarios, proporciones, recuentos, datos continuos positivos y datos continuos con ceros exactos.

2 Componentes de un GLM

Un GLM está especificado por tres componentes:

  1. Aleatoria.
  2. Sistemática.
  3. De enlace.

En la Figura 2.1 se ilustra, de manera resumida cada una de ellas. En las siguientes secciones, las explicaremos con más detalles.

Tipos de componentes en un GLM

Figure 2.1: Tipos de componentes en un GLM

2.0.1 Aleatoria

Identifica la distribución de probabilidad de la variable dependiente. Consiste de observaciones independientes \(Y=(Y_1, \cdots ,Y_n)^T\) de una distribución en la familia exponencial natural (el exponente \(T\) representa a la transpuesta). Esto es, cada variable muestral \(Y_i\) tiene función de densidad de la forma

\[\begin{equation} f(y_i,\theta _i,\phi) = \exp\left[ \frac{y_i \theta_i-b(\theta_i)}{\phi} + c(y_i,\phi)\right] = G(y_i,\phi)\cdot\exp\left[ \frac{y_i \theta_i-b(\theta_i)}{\phi}\right] \tag{2.1} \end{equation}\]

donde \(b(\cdot)\) y \(c(\cdot)\) son funciones específicas.

  • \(\theta _i\) son los llamados parámetros naturales o canónicos (de localización) de la distribución.

  • \(b(\theta_i)\) es una función conocida y es llamada la función acumulada.

  • \(\phi\) es el llamado parámetro de dispersión que puede existir o no.

  • \(G\) es una función normalizadora que asegura que (2.1) es una función de probabilidad. Es decir, \(G(y_i, \phi)\) es la función de \(\phi\) y asegura que \(\int f(y_i,\theta _i,\phi) dy = 1\) sobre el rango apropiado si \(Y_i\) es continua, o la función asegura que \(\sum_{y_i} f(y_i,\theta _i,\phi) = 1\) si \(y_i\) es discreta. La función \(G(y_i, \phi)\) no siempre se puede escribir en forma cerrada (explícita).

  • En la ecuación (2.1), es conveniente usar los parámetros naturales; aunque, a veces, son funciones de otros parámetros originalmente dados en el modelo.

2.0.2 Sistemática

Especifica una función lineal \(\eta\) de los valores fijados \(x_{1i},\cdots,x_{Ki}\) de las variables explicativas \({\bf X}_{1},\cdots,{\bf X}_{K}\), dada por:

\[\begin{equation} \eta_i := \delta + \beta_1x_{i1}+\cdots +\beta_Kx_{iK},\quad i=1,\cdots,n, \tag{2.2} \end{equation}\]

donde los \(\beta_k\) son los llamados parámetros del modelo lineal generalizado, incluyendo el llamado intercepto como \(\delta=\beta_0\), siendo \(x_{i0}=1\).

Si se reunen los valores observados de las variables explicativas en la llamada matriz de diseño:

\[ C=\left(\begin{array}{ccccc} 1 &x_{11} &x_{12} &\cdots &x_{1K}\\ \vdots &\vdots &\vdots & &\vdots\\ \vdots &\vdots &\vdots & &\vdots\\ 1 &x_{n1} &x_{n2} &\cdots &x_{nK}\\ \end{array}\right),\]

de tamaño \(n\times (1+K)\), los parámetros del modelo en el vector
\[\alpha=(\delta, \beta_1,\cdots, \beta_K)^T\]

y los \(\eta_i\) en el vector

\[\eta=(\eta_1, \cdots, \eta_n)^T,\]

entonces, la expresión (2.2) puede ser escrita en forma vectorial como

\[\eta=C\cdot\alpha\]

2.0.3 De enlace

Sea \(\mu _i\) la esperanza condicional de \(Y_i\) dada la condición \(x_{i1},\cdots,x_{iK}\), es decir, \(\mu_i:=E(Y_i|x_{i1},\cdots,x_{iK})\), \(i=1,\cdots, n\). Entonces, este enlace está dado por una llamada función de enlace:

\[g(\mu_i)=\eta_i\]

Particularmente, interesa el llamado enlace canónico, definido por

\[g(\mu _i)=\theta_i,\]

en cuyo caso resultan \(\theta_i = \eta_i\), y el enlace está descrito por la expresión

\[\theta _i = \delta + \beta_1x_{i1}+\cdots +\beta_Kx_{iK}\]

3 Media y varianza de una EDM

  1. La media es \(m:=E(Y)\).

  2. La varianza es \(V(m)= \frac{V(Y)}{\phi}\).

La tabla 5.1 da los resultados de estas dos funciones para algunas EDMs.

4 Tipos de GLMs

Los modelos lineales, loglineales y logísticos, entre otros, son clases particulares de los GLMs. Explicaremos cada uno de ellos.

4.0.1 Lineal

Supongamos que la variable \(Y_i\), \(i=1,\cdots,n\) está normalmente distribuida con esperanza \(\mu_i\) y varianza \(\sigma^2\). La función de densidad en los valores \(y_i\) viene dada por:

\[\begin{eqnarray} f(y_i,\mu_i,\sigma^2)&=&\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac {1}{2\sigma^2}(y_i-\mu_i)^2\right]\nonumber\\ &=&\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{y^{2}_{i}}{2\sigma^2} \right]\cdot\exp\left[\frac{y_i\mu_i- \mu^{2}_{i}/2} {\sigma^2}\right]\nonumber \end{eqnarray}\]

Aquí, \(\theta_i=\mu_i\) son los parámetros naturales y se tiene \(\phi=\sigma^2\) como parámetro de dispersión. Además,

\[ b(\theta_i)=\frac{\mu^{2}_{i}}{2}, \qquad G(y_i,\phi) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{y^{2}_{i}}{2\sigma^2}\right]\]

El enlace canónico está dado por la función identidad \(g(\mu_i)=\mu_i\). Los GLMs que usan el enlace identidad son llamados modelos lineales.

Un ejemplo gráfico de un modelo lineal

Figure 4.1: Un ejemplo gráfico de un modelo lineal

En la Figura 4.1 se muestra una representación gráfica de un modelo de regresión lineal. En la sección 25 del manual de Rpubs se describen con detalles estos modelos.

4.0.2 Loglineal

Supongamos que la \(Y_i\), \(i=1,\cdots,n,\) es una variable de Poisson con parámetro \(\lambda_i>0\). Su función de densidad viene dada por

\[f(y_i,\lambda_i) = \frac{\lambda_i^{y_i} \; e^{-\lambda_i}}{y_i!} \]

para todo \(y_i\in \{0,1,2,\cdots,\}\). Escribiendo esta función en la forma:

\[f(y_i,\lambda_i) = \frac{\exp[y_i\ln \lambda_i-\lambda_i]}{y_i!} = \exp[y_i\ln \lambda_i-\lambda_i - \ln(y_i!)]\]

Aquí, \(\theta_i=\ln \lambda_i\) son los parámetros naturales y el parámetro de dispersión es \(\phi=1\). Además,

\[b(\theta_i)= e^{\theta_i} = \lambda_i, \qquad G(y_i,\phi)= \frac{1}{y_i!} \]

El enlace canónico es \(g(\lambda_i)=\ln \lambda_i\). Los GLMs que usan el enlace log son llamados modelos loglineales.

Ejemplo de una visualización en mosaico para un modelo Loglineal.

Figure 4.2: Ejemplo de una visualización en mosaico para un modelo Loglineal.

En la Figura 4.2 se muestra una representación gráfica (en mosaico) de un modelo de regresión loglineal, que muestra los residuos estandarizados de las contribuciones de las celdas en el valor del estadístico de prueba correspondiente. En el manual de Rpubs se describen con detalles estos modelos.

4.0.3 Logístico (\(Y\) es de Bernoulli)

Muchas variables categóricas tienen únicamente dos categorías. La observación para cada caso puede ser clasificada como éxito o fracaso. En este caso, la variable \(Y_i\) tiene distribución de Bernoulli con parámetro \(p_i\). Su función de densidad es

\[f(y_i,p_i) = \exp\left[y_i\ln \left(\frac{p_i}{1-p_i}\right)- \ln\left(\frac{1}{1-p_i}\right)\right]\]

para todo \(0<p_i<1\) y \(y_i\in \{0,1\}\). Los parámetros naturales son \(\theta_i = \ln\left(\frac{p_i}{1-p_i}\right)\) y el parámetro de dispersión es \(\phi=1\). Además,

\[b(\theta_i) = \ln (1+e^{\theta_i}) = \ln\left(\frac{1}{1-p_i}\right), \qquad G(y_i,\phi)= 1 \]

El enlace canónico

\[g(p_i)=\ln\left(\frac{p_i}{1-p_i}\right)\]

es llamado el logit de \(p_i\). Los GLMs que usan el enlace logit son llamados modelos logit o logísticos.

Ejemplo de un gráfico logit condicional.

Figure 4.3: Ejemplo de un gráfico logit condicional.

En la Figura 4.3 se muestra un ejemplo de un gráfico logit condicional. En él se muestran los puntos separados de las edades y las curvas ajustadas, ambas estratificadas por género. En la sección 1 del documento Rpubs:: Modelos Logísticos-caso binario se describen con detalles estos modelos.

4.0.4 Logístico (\(Y\) es Binomial)

La variable \(Y_i\) tiene distribución Binomial con parámetros \(n\) y \(p_i\). Su función de densidad es

\[\begin{eqnarray} f(y_i,n, p_i) &=& {n \choose y_i} p^{y_i}(1-p)^{n-y_i} \nonumber \\ &=& {n \choose y_i} \exp\left[y_i\ln \left(\frac{p_i}{1-p_i}\right)- \ln\left(\frac{1}{1-p_i}\right)^n\right] \nonumber \end{eqnarray}\]

para todo \(0<p_i<1\) y \(y_i\in \{0,1, \ldots, n\}\). Los parámetros naturales son \(\theta_i = \ln\left(\frac{p_i}{1-p_i}\right)\) y el parámetro de dispersión es \(\phi=1\). Además,

\[ b(\theta_i) = \ln (1+e^{\theta_i})^n = \ln\left(\frac{1}{1-p_i}\right)^n, \qquad G(y_i,\phi) = {n \choose y_i} \]

El enlace canónico

\[g(p_i)=\ln\left(\frac{p_i}{1-p_i}\right)\]

es llamado el logit de \(p_i\). Los GLMs que usan el enlace logit son llamados modelos logit o logísticos.

5 Otros tipos de GLMs

Los modelos anteriores y otros que hacen parte de los GLM se pueden ver en la Tabla 5.1.

Table 5.1: Diferentes tipos de modelos GLM.
1 2 3 4 5 6 7 8 9 10
EDM \(\Gamma\) \(m\) \(V(m)\) \(b(\theta)\) \(\theta\) \(\phi\) \(c(y, \phi)=\ln G(y, \phi)\) \(M\) \(\Theta\)
Normal \(\mu\), \(\sigma^2\) \(\mu\) 1 \(\frac{\theta^2}{2}\) \(m\) \(\sigma^2\) \(-\frac{1}{2}\left[\frac{y^2}{\phi} + \ln(2\pi \phi)\right]\) \({\rm I\!R}\) \({\rm I\!R}\)
Bernoulli \(n\), \(p\) \(p\) \(m(1-m)\) \(\ln\left(1+e^\theta\right)\) \(\ln\left(\frac{m}{1-m}\right)\) \(\frac{1}{n}\) \(\ln{n \choose y}\) \((0,1)\) \({\rm I\!R}\)
Binomial negativa \(r\), \(p\) \(\frac{r(1-p)}{p}\) \(m + \frac{m^2}{r}\) \(-\ln(1-e^\theta)\) \(\ln\left(\frac{m}{m+r}\right)\) 1 \({\rm I\!R}^+\) \({\rm I\!R}^-\)
Poisson \(\lambda\) \(\lambda\) \(m\) \(e^\theta\) \(\ln(m)\) 1 \(-\ln(y!)\) \({\rm I\!R}^+\) \({\rm I\!R}\)
Exponencial \(\beta\) \(\frac{1}{\beta}\) \(m^2\) \(-\ln(-\theta)\) \(-\frac{1}{m}\) \(\phi\) \(\frac{1}{\phi^2}\ln\left(\frac{y}{\theta}\right) -ln(y) -\ln \left(\Gamma[\phi^{-1}]\right)\) \({\rm I\!R}^+\) \({\rm I\!R}\)
Gamma \(\alpha\), \(\beta\) \(\frac{\alpha}{\beta}\) \(m^2\) \(-\ln(-\theta)\) \(-\frac{1}{m}\) \(\phi\) \(\frac{1}{\phi^2}\ln\left(\frac{y}{\theta}\right) -ln(y) -\ln \left(\Gamma[\phi^{-1}]\right)\) \({\rm I\!R}^+\) \({\rm I\!R}\)
Normal inversa \(\mu\), \(\phi\) \(\mu\) \(m^3\) \(-\sqrt{-2\theta}\) \(-\frac{1}{2m^2}\) \(\phi\) \(-\frac{1}{2}\left[\ln(\pi \phi y^{3}) + \frac{1}{\phi y} \right]\) \({\rm I\!R}^+\) \({\rm I\!R}^-_0\)
General. \({\rm I\!R}\) se refiere a los números reales; superíndices + significa solamente a valores positivos; superíndices - significa solamente valores negativos; subíndice 0 significa que se incluye el 0 en el espacio; \((0,1)\) es el intervalo abierto de 0 a 1; \(n\) es el número de observaciones binomiales y \(\Gamma[\cdot]\) es la función gamma.
EDM (modelo de dispersión exponencial). 1 \(\Gamma\): vector de parámetros del modelo; 2 \(m\): esperanza; 3 \(V(m)\): función varianza; 4 \(M:\) Dominio para \(m\).
Parámetros GML. a \(\theta:\) canónico; b \(\phi\): de dispersión c \(\Theta:\) Dominio para \(\theta\).
Funciones GML. * \(b(\theta)\): acumulada; \(G(y,\phi)\): normalizadora, donde \(y\): un valor de la variable de respuesta.

6 Comparación de varios GLMs

En la Tabla 6.1 se presentan diferentes resultados con el fin de realizar algunas comparaciones entre diferentes modelos GLM.

Table 6.1: Comparación entre modelos GLM.
1 2 3 4 5 6 7
Modelo \(Y\) \(X\) Explican: Método de Estimación Teoría asintótica Estadístico
Logístiico Categórica discreta (de Bernoulli) Categóricas o continuas \(P(Y=1|\star)=E(Y=1|\star)\) Máxima verosimilitud (ML) Si Chi-cuadrada
Lineal Numérica continua Numéricas \(E(Y|\star)\) Mínimos cuadrados (LS) No \(F\) de Fisher
Anova Numérica continua Categóricas con niveles \(E(Y)\) Mínimos cuadrados (LS) No \(F\) de Fisher
General. \(Y\): variable de respuesta; \(X\): un vector de variables independientes (una población); el símbolo \(\star\) indica una población \(X\).

7 La función glm

Los modelos GLM son ajustados utilizando la función glm( ). La forma de esta función es:

glm(fórmula, family=Tipo(link=Función de enlace), data=)

En la Tabla 7.1 se presentan los argumentos para family y link al aplicar la función glm().

Table 7.1: Comparación entre modelos GLM.
1 2
Family= Función link por defecto
binomial (link = logit)
gaussian (link = identity)
Gamma (link = inverse)
inverse.gaussian (link = 1/mu^2)
poisson (link = log)
quasi (link = identity, variance = constant)
quasibinomial (link = logit)
quasipoisson (link = log)

Se puede consultar ?(glm) para conocer otras opciones de modelos y ?(family) para conocer otras funciones de enlace permitidas para cada familia.

8 Otros paquetes en el CRAN

  1. Es de resaltar que la función lsm() del paquete lsm analiza el modelo de regresión logística cuando la variable de respuesta es binaria. Para más detalles, véase la referencia LLinás, Fábregas y Villalba (2021).

  2. En la sección 26.6 del manual de Rpubs se presentan resultados relacionados con la búsqueda de paquetes en la CRAN para GLM, con métodos relacionados a los descitos anteriormente.

9 Ejercicios

Determine cuáles de las siguientes distribuciones son EDMs, identificando (donde sea posible) \(\theta\), \(b(\theta)\) y \(\phi\).

  1. La distribución Beta: \[f(y; a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\, \Gamma(b)} \, y^{a-1}\, (1-y)^{b-1}\]

para \(0 < y < 1\), \(a > 0\) y \(b > 0\), donde \(\Gamma(\cdot)\) es la función gamma.

  1. La distribución geométrica: \[f(y; p) = p(1 − p)^{y−1} \] para \(y = 1, 2, \cdots\) y \(0 < p < 1\).

  2. La distribución de Cauchy: \[f(y; c, s) = \frac{1}{\pi s\left\{1 + \left(\frac{y-c}{s}\right)^2\right\}}\] para \(−\infty < y < \infty\), \(−\infty < c < \infty\), y \(s > 0\).

  3. La distribución von Mises, usada para modelar datos angulares: \[f(y; \mu, \lambda) = \frac{1}{2\pi I_0(\lambda)} \, \exp\{\lambda \cos(y − \mu)\},\]

para \(0 \leq y < 2\pi\), \(0 \leq \mu < 2\pi\) y \(\lambda > 0\), where \(I_0(\cdot)\) es la función modificada de Bessel de orden 0:

\[I_0(z) = \sum\limits_{k=0}^{\infty} \frac{\left(\frac{1}{4} z^2\right)^k}{(k!)^2}\]

  1. La distribución arcoseno estricta (véase Kokonendji y Khoudar, 2004), usada para modelar datos de conteo: \[f(y; p) = A(y; 1)\,\frac{p^y}{y!} \, \exp(−\arcsin p),\]

para \(y = 0, 1, \cdots\) y \(0 < p < 1\), donde \(A(y; 1)\) es una función de normalización definida por:

\[ A(y;\alpha) = \left\{ \begin{array}{ll} \prod\limits_{k=0}^{z-1} ({\alpha}^2+4k^2) & \mbox{si $x=2z$ y $A(0;\alpha)=1$}\\ \alpha \prod\limits_{k=0}^{z-1} \left(\alpha^2+(2k+1)^2\right),& \mbox{si $x=2z+1$ y $A(1;\alpha)=\alpha$} \end{array}\right.\]

  1. La distribución Gamma:

\[f(y; \alpha,\beta) = \frac{1}{\Gamma(\alpha) \beta^\alpha} \, y^{\alpha-1}\, \exp(-y/\beta),\]

para \(y>0\) con \(\alpha>0\) (parámetro de forma) y \(\beta>0\) (parámetro de escala), donde \(\Gamma(\cdot)\) es la función Gamma. Adicionalmente, halle la función de enlace canónica \(g(\mu_i)\) y la función de probababilidad \(G(y_i,\phi)\) en el modelo de dispersión.

  1. La distribución Gaussiana inversa:

\[f(y; \mu, \phi) = (2 \pi y^3 \phi)^{-1/2} \, \exp\left\{-\frac{1}{2\phi}\cdot \frac{(y-\mu)^2}{y\mu^2}\right\}\] donde \(y>0\), \(\mu>0\) y \(\phi>0\). Adicionalmente, halle la función de enlace canónica \(g(\mu_i)\) y la función varianza \(V(\mu)\).

  1. La distribución de Weibull:

\[f(y; \alpha, \gamma) = \frac{\alpha}{\gamma}\cdot \left(\frac{y}{\gamma}\right)^{\alpha-1} \, \exp\left\{-\left(\frac{y}{\gamma}\right)^\alpha\right\}\] para \(y>0\) con \(\alpha>0\) y \(\gamma>0\).

  1. La distribución exponencial:

\[f(y; \gamma) = \frac{1}{\gamma} \, \exp\left\{-y/\gamma\right\}\] para \(y>0\) con \(\gamma>0\).

Bibliografía

Consultar el documento RPubs :: Modelo lineal generalizado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.