hllinas2023

1 La familia exponencial de distribuciones

Introducción.

El modelo lineal generalizado, o más brevemente GLM (por sus siglas en inglés: General Linear Model), constituye una extensión poderosa y flexible del modelo lineal clásico. Fue introducido formalmente por Nelder y Wedderburn en 1972 con el objetivo de unificar bajo un mismo marco teórico diferentes tipos de modelos estadísticos aplicables cuando la variable de respuesta no necesariamente sigue una distribución normal.

A diferencia del modelo lineal clásico, que asume normalidad y varianza constante de los errores, los GLMs permiten que la variable respuesta siga una distribución perteneciente a la familia exponencial de distribuciones, también conocida como familia de modelos de dispersión exponencial (o EDM, del inglés: Exponential Dispersion Models), un concepto formalizado posteriormente por Jørgensen (1987).

Los EDM abarcan una amplia gama de distribuciones:

  • EDMs continuos: incluyen la distribución Normal, Gamma, Weibull, Exponencial y Normal inversa.
  • EDMs discretos: comprenden la Binomial, Poisson y Binomial negativa.

Esta variedad permite que los GLMs se adapten a diferentes estructuras de datos, como:

1. Datos binarios (sí/no).

  • Matsumoto & Mazumdar (2025) presentan un algoritmo eficiente para estimar GLMs binarios dispersos en alta dimensión sin conocer la función de enlace, aplicable a regresión logística y probit.

  • Cai, Guo & Ma (2021, 2023) desarrollan inferencia estadística de alta dimensión para regresiones logísticas y probit, con estimadores des-biased aplicados a datos de expresión génica de células individuales. ResearchGate

2. Datos tipo proporciones.

  • Aunque no se trata de un estudio específico, el artículo de Number Analytics (2025) describe aplicaciones en finanzas, marketing y análisis de clientes basadas en modelos GLM aplicando logit o probit sobre proporciones.

3. Datos de recuentos (frecuencias).

  • Akram et al. (2023) aplican GLMs a datos de actividad física entre adultos mayores para modelar recuentos y resultados sesgados/bounded (como conteos o proporciones). BioMed Central

4. Datos continuos positivos.

  • En StackExchange (2024) recomiendan usar distribuciones Gamma con link log para variables continuas positivas que no siguen normalidad, argumentando que evitan predicciones negativas y se ajustan mejor a la variabilidad proporcional.

5. Datos continuos con ceros exactos o dispersión no constante.

  • Bar-Lev et al. (2024) estudian aplicaciones de GLMs dentro de la clase Tweedie (EDM), que incluye modelos con dispersiones complejas y ceros estructurales, mostrando que en varios conjuntos de datos reales estos modelos superan al modelo lineal normal.

En resumen,

Tipo de dato Referencia reciente
Datos binarios Matsumoto & Mazumdar (2025): GLMs binarios dispersos en alta dimensión
Datos binarios (inferencia) Cai et al. (2021‑23): inferencia de logit/probit en RNA‑seq
Proporciones Aplicaciones de negocio con GLMs logit en marketing y finanzas (2025)
Recuentos Akram et al. (2023): modelación de actividad física con conteos
Continuos positivos Uso de Gamma log link para datos continuos no normales
Dispersión variable / ceros estructurales GLMs Tweedie con EDM-EVF aplicados a datasets reales

Gracias a esta flexibilidad, los GLMs se han convertido en una herramienta fundamental en numerosos campos: medicina, biología, economía, psicología, ingeniería, educación, entre otros. En la sección 5 se describen estos modelos con mayor profundidad. Para una vista resumida de los distintos tipos de modelos GLM y sus componentes clave, se recomienda revisar la tabla 5.1.

2 Componentes de un GLM

2.0.1 Componentes

Un GLM está especificado por tres componentes:

  1. Aleatoria.
  2. Sistemática.
  3. De enlace.

En la Figura 2.1 se ilustra, de manera resumida cada una de ellas. En las siguientes secciones, las explicaremos con más detalles.

Tipos de componentes en un GLM

Figure 2.1: Tipos de componentes en un GLM

2.0.2 Componente aleatoria

Identifica la distribución de probabilidad de la variable dependiente. Consiste de observaciones independientes \(Y=(Y_1, \cdots ,Y_n)^T\) de una distribución en la familia exponencial natural (el exponente \(T\) representa a la transpuesta). Esto es, cada variable muestral \(Y_i\) tiene función de densidad de la forma

\[\begin{equation} f(y_i,\theta _i,\phi) = \exp\left[ \frac{y_i \theta_i-b(\theta_i)}{\phi} + c(y_i,\phi)\right] = G(y_i,\phi)\cdot\exp\left[ \frac{y_i \theta_i-b(\theta_i)}{\phi}\right] \tag{2.1} \end{equation}\]

donde \(b(\cdot)\) y \(c(\cdot)\) son funciones específicas.

Comentarios.

  • \(\theta _i\) son los llamados parámetros naturales o canónicos (de localización) de la distribución.

  • \(b(\theta_i)\) es una función conocida y es llamada la función acumulada.

  • \(\phi\) es el llamado parámetro de dispersión que puede existir o no.

  • \(G\) es una función normalizadora que asegura que (2.1) es una función de probabilidad. Es decir, \(G(y_i, \phi)\) es la función de \(\phi\) y asegura que:

    • \(\int f(y_i,\theta _i,\phi) dy = 1\) sobre el rango apropiado si \(Y_i\) es continua.

    • \(\sum_{y_i} f(y_i,\theta _i,\phi) = 1\) si \(Y_i\) es discreta.

  • La función \(G(y_i, \phi)\) no siempre se puede escribir en forma cerrada (explícita).

  • En la ecuación (2.1), es conveniente usar los parámetros naturales; aunque, a veces, son funciones de otros parámetros originalmente dados en el modelo.

2.0.3 Componente sistemática

Especifica una función lineal \(\eta\) de los valores fijados \(x_{1i},\cdots,x_{Ki}\) de las variables explicativas \({\bf X}_{1},\cdots,{\bf X}_{K}\), dada por:

\[\begin{equation} \eta_i := \delta + \beta_1x_{i1}+\cdots +\beta_Kx_{iK},\quad i=1,\cdots,n, \tag{2.2} \end{equation}\]

donde los \(\beta_k\) son los llamados parámetros del modelo lineal generalizado, incluyendo el llamado intercepto como \(\delta=\beta_0\), siendo \(x_{i0}=1\).

En forma vectorial.

Si se reunen los valores observados de las variables explicativas en la llamada matriz de diseño:

\[ C=\left(\begin{array}{ccccc} 1 &x_{11} &x_{12} &\cdots &x_{1K}\\ \vdots &\vdots &\vdots & &\vdots\\ \vdots &\vdots &\vdots & &\vdots\\ 1 &x_{n1} &x_{n2} &\cdots &x_{nK}\\ \end{array}\right),\]

de tamaño \(n\times (1+K)\), los parámetros del modelo en el vector
\[\alpha=(\delta, \beta_1,\cdots, \beta_K)^T\]

y los \(\eta_i\) en el vector

\[\eta=(\eta_1, \cdots, \eta_n)^T,\]

entonces, la expresión (2.2) puede ser escrita en forma vectorial como

\[\eta=C\cdot\alpha\]

2.0.4 Componente de enlace

Sea \(\mu _i\) la esperanza condicional de \(Y_i\) dada la condición \(x_{i1},\cdots,x_{iK}\), es decir, \(\mu_i:=E(Y_i|x_{i1},\cdots,x_{iK})\), para cada \(i=1,\cdots, n\). Entonces, este enlace está dado por una llamada función de enlace:

\[g(\mu_i)=\eta_i\]

Caso particular.

Particularmente, interesa el llamado enlace canónico, definido por

\[g(\mu _i)=\theta_i,\]

en cuyo caso resultan \(\theta_i = \eta_i\), y el enlace está descrito por la expresión

\[\theta _i = \delta + \beta_1x_{i1}+\cdots +\beta_Kx_{iK}\]

3 Media y varianza de una EDM

  1. La media es \(m:=E(Y)\).

  2. La varianza es \(V(m)= \frac{V(Y)}{\phi}\).

La tabla 5.1 da los resultados de estas dos funciones para algunas EDMs.

4 Tipos de GLMs

Los modelos lineales, loglineales y logísticos, entre otros, son clases particulares de los GLMs. Explicaremos cada uno de ellos.

4.0.1 Lineal

Función de densidad \(f\) de \(Y_i\).

Supongamos que la variable \(Y_i\), \(i=1,\cdots,n\) está normalmente distribuida con esperanza \(\mu_i\) y varianza \(\sigma^2\). La función de densidad en los valores \(y_i\) viene dada por:

\[f(y_i,\mu_i,\sigma^2) \;=\; \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2\sigma^2}(y_i-\mu_i)^2\right]\]

Reescribir \(f\) como aparece en (2.1).

Desarrollando el cuadrado, tenemos:

\[ f(y_i,\mu_i,\sigma^2) \;=\; \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{y^{2}_{i}}{2\sigma^2} \right]\cdot\exp\left[\frac{y_i\mu_i- \mu^{2}_{i}/2} {\sigma^2}\right]\]

Identificación de los parámetros.

Aquí, \(\theta_i=\mu_i\) son los parámetros naturales y se tiene \(\phi=\sigma^2\) como parámetro de dispersión. Además,

\[ b(\theta_i)=\frac{\mu^{2}_{i}}{2}, \qquad G(y_i,\phi) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{y^{2}_{i}}{2\sigma^2}\right]\]

El enlace canónico está dado por la función identidad \(g(\mu_i)=\mu_i\). Los GLMs que usan el enlace identidad son llamados modelos lineales.

Ejemplo.

En la Figura 4.1 se muestra una representación gráfica de un modelo de regresión lineal. En la sección 25 del manual de Rpubs se describen con detalles estos modelos.

Un ejemplo gráfico de un modelo lineal

Figure 4.1: Un ejemplo gráfico de un modelo lineal

4.0.2 Loglineal

Función de probabilidad \(f\) de \(Y_i\):

Supongamos que la \(Y_i\), \(i=1,\cdots,n,\) es una variable de Poisson con parámetro \(\lambda_i>0\). Su función de densidad viene dada por

\[f(y_i,\lambda_i) = \frac{\lambda_i^{y_i} \; e^{-\lambda_i}}{y_i!} \]

para todo \(y_i\in \{0,1,2,\cdots,\}\).

Reescribir \(f\) como aparece en (2.1).

Aplicando las siguientes propiedades de los logaritmos y exponenciales:

\[\begin{align*} a^x &= \exp(x \ln a) \\ \frac{a}{b} &= \exp(\ln a - \ln b) \\ \ln(ab) &= \ln a + \ln b \\ \ln\left( \frac{a}{b} \right) &= \ln a - \ln b \end{align*}\]

podemos reescribir la función de probabilidad de la distribución de Poisson como:

\[f(y_i,\lambda_i) = \frac{\exp[y_i\ln \lambda_i-\lambda_i]}{y_i!} = \exp[y_i\ln \lambda_i-\lambda_i - \ln(y_i!)]\] Identificación de los parámetros.

Aquí, \(\theta_i=\ln \lambda_i\) son los parámetros naturales y el parámetro de dispersión es \(\phi=1\). Además,

\[b(\theta_i)= e^{\theta_i} = \lambda_i, \qquad G(y_i,\phi)= \frac{1}{y_i!} \]

El enlace canónico es \(g(\lambda_i)=\ln \lambda_i\). Los GLMs que usan el enlace log son llamados modelos loglineales.

Ejemplo.

En la Figura 4.2 se muestra una representación gráfica de un modelo de regresión loglineal, en donde la variable independiente sería la frecuecia y las explicativas, Departamento y género. Este modelo asume independencia entre Departamento y Género. En el manual de Rpubs se describen con detalles estos modelos.

Ejemplo de una visualización para un modelo Loglineal.

Figure 4.2: Ejemplo de una visualización para un modelo Loglineal.

4.0.3 Logístico (\(Y\) es de Bernoulli)

Función de probabilidad de \(Y_i\):

Muchas variables categóricas tienen únicamente dos categorías. La observación para cada caso puede ser clasificada como éxito o fracaso. En este caso, la variable \(Y_i\) tiene distribución de Bernoulli con parámetro \(p_i\). Su función de densidad es

\[f(y_i,p_i) \;=\; p^{y_i} (1-p_i)^{1-y_i}\]

para todo \(0<p_i<1\) y \(y_i\in \{0,1\}\).

Reescribir \(f\) como aparece en (2.1).

Aplicando las siguientes propiedades de los logaritmos:

\[\begin{align*} \ln(ab) &= \ln a + \ln b \\ \ln\left(\frac{a}{b}\right) &= \ln a - \ln b \\ a^{x} &= \exp(x \ln a) \end{align*}\]

podemos reescribir la función de densidad de la distribución de Bernoulli como:

\[f(y_i,p_i) \;=\; \exp\left[y_i\ln \left(\frac{p_i}{1-p_i}\right)- \ln\left(\frac{1}{1-p_i}\right)\right]\]

Identificación de los parámetros.

Los parámetros naturales son \(\theta_i = \ln\left(\frac{p_i}{1-p_i}\right)\) y el parámetro de dispersión es \(\phi=1\). Además,

\[b(\theta_i) = \ln (1+e^{\theta_i}) = \ln\left(\frac{1}{1-p_i}\right), \qquad G(y_i,\phi)= 1 \]

El enlace canónico

\[g(p_i)=\ln\left(\frac{p_i}{1-p_i}\right)\]

es llamado el logit de \(p_i\). Los GLMs que usan el enlace logit son llamados modelos logit o logísticos.

Ejemplo.

La Figura 4.3 ilustra cómo un modelo de regresión logística puede predecir la probabilidad de un evento binario (por ejemplo, éxito = 1 o fracaso = 0) a partir de una variable continua (edad) y una variable categórica (sexo). En este caso simulado, la probabilidad de éxito aumenta con la edad y es diferente para hombres y mujeres. Las curvas representan las predicciones del modelo para cada grupo, mientras que las bandas de color muestran los intervalos de confianza del 95%. Los puntos dispersos indican las observaciones individuales (éxito o fracaso).

Este tipo de visualización permite observar cómo el modelo capta patrones no lineales en los datos binarios, gracias a la transformación logística aplicada a la combinación lineal de predictores. En la sección 1 del documento Rpubs:: Modelos Logísticos-caso binario se describen con detalles estos modelos.

Probabilidad de éxito según edad y sexo (Modelo logístico).

Figure 4.3: Probabilidad de éxito según edad y sexo (Modelo logístico).

4.0.4 Logístico (\(Y\) es Binomial)

Función de probabilidad de \(Y_i\):

La variable \(Y_i\) tiene distribución Binomial con parámetros \(n\) y \(p_i\). Su función de densidad es

\[ f(y_i,n, p_i) \;=\; {n \choose y_i} \, p^{y_i}\, (1-p)^{n-y_i} \]

para todo \(0<p_i<1\) y \(y_i\in \{0,1, \ldots, n\}\).

Reescribir \(f\) como aparece en (2.1).

Aplicando las siguientes propiedades de los logaritmos:

\[\begin{align*} \ln(ab) &= \ln a + \ln b \\ \ln\left(\frac{a}{b}\right) &= \ln a - \ln b \\ a^{x} &= \exp(x \ln a) \end{align*}\]

podemos reescribir la función de densidad de la distribución Binomial como:

\[ f(y_i,n, p_i) \;=\; {n \choose y_i} \, \exp\left[y_i\, \ln \left(\frac{p_i}{1-p_i}\right)\; -\; \ln\left(\frac{1}{1-p_i}\right)^n\right] \]

Esta forma es útil para identificar la estructura de familia exponencial.

Identificación de los parámetros.

Los parámetros naturales son \(\theta_i = \ln\left(\frac{p_i}{1-p_i}\right)\) y el parámetro de dispersión es \(\phi=1\). Además,

\[ b(\theta_i) = \ln (1+e^{\theta_i})^n = \ln\left(\frac{1}{1-p_i}\right)^n, \qquad G(y_i,\phi) = {n \choose y_i} \]

El enlace canónico

\[g(p_i)=\ln\left(\frac{p_i}{1-p_i}\right)\]

es llamado el logit de \(p_i\). Los GLMs que usan el enlace logit son llamados modelos logit o logísticos.

5 Otros tipos de GLMs

Los modelos anteriores y otros que hacen parte de los GLM se pueden ver en la Tabla 5.1.

Table 5.1: Diferentes tipos de modelos GLM.
1 2 3 4 5 6 7 8 9 10
EDM \(\Gamma\) \(m\) \(V(m)\) \(b(\theta)\) \(\theta\) \(\phi\) \(c(y,\phi) = \ln G(y,\phi)\) \(M\) \(\Theta\)
Normal \(\mu,\;\sigma^2\) \(\mu\) 1 \(\dfrac{\theta^2}{2}\) \(m\) \(\sigma^2\) \(-\dfrac{1}{2}\left[\dfrac{y^2}{\phi} + \ln(2\pi\phi)\right]\) \(\mathbb{R}\) \(\mathbb{R}\)
Bernoulli \(n,\;p\) \(p\) \(m(1 - m)\) \(-\ln(1 + e^\theta)\) \(\ln\left(\dfrac{m}{1 - m}\right)\) \(\dfrac{1}{n}\) \(\ln\binom{n}{y}\) \((0,1)\) \(\mathbb{R}\)
Binomial negativa \(r,\;p\) \(\dfrac{r(1-p)}{p}\) \(m + \dfrac{m^2}{r}\) \(-\ln(1 - e^\theta)\) \(\ln\left(\dfrac{m}{m + r}\right)\) \(1\) \(\mathbb{R}^+\) \(\mathbb{R}^-\)
Poisson \(\lambda\) \(\lambda\) \(m\) \(e^\theta\) \(\ln(m)\) \(1\) \(-\ln(y!)\) \(\mathbb{R}^+\) \(\mathbb{R}\)
Exponencial \(\beta\) \(\dfrac{1}{\beta}\) \(m^2\) \(-\ln(-\theta)\) \(-\dfrac{1}{m}\) \(\phi\) \(\dfrac{1}{\phi^2}\ln\left(\dfrac{y}{\theta}\right) - \ln(y) - \ln\left(\Gamma(\phi^{-1})\right)\) \(\mathbb{R}^+\) \(\mathbb{R}\)
Gamma \(\alpha,\;\beta\) \(\dfrac{\alpha}{\beta}\) \(m^2\) \(-\ln(-\theta)\) \(-\dfrac{1}{m}\) \(\phi\) \(\dfrac{1}{\phi^2}\ln\left(\dfrac{y}{\theta}\right) - \ln(y) - \ln\left(\Gamma(\phi^{-1})\right)\) \(\mathbb{R}^+\) \(\mathbb{R}\)
Normal inversa \(\mu,\;\phi\) \(\mu\) \(m^3\) \(-\sqrt{-2\theta}\) \(-\dfrac{1}{2m^2}\) \(\phi\) \(-\dfrac{1}{2}\left[\ln(\pi \phi y^3) + \dfrac{1}{\phi y}\right]\) \(\mathbb{R}^+\) \(\mathbb{R}_0^-\)
General. \(\mathbb{R}\) se refiere a los números reales; superíndices + significa solamente a valores positivos; superíndices - significa solamente valores negativos; subíndice 0 significa que se incluye el 0 en el espacio; \((0,1)\) es el intervalo abierto de 0 a 1; \(n\) es el número de observaciones binomiales y \(\Gamma[\cdot]\) es la función gamma.
EDM (modelo de dispersión exponencial). 1 \(\Gamma\): vector de parámetros del modelo; 2 \(m\): esperanza; 3 \(V(m)\): función varianza; 4 \(M\): Dominio para \(m\).
Parámetros GML. a \(\theta\): canónico; b \(\phi\): de dispersión c \(\Theta\): Dominio para \(\theta\).
Funciones GML. * \(b(\theta)\): acumulada; \(G(y,\phi)\): normalizadora, donde \(y\): un valor de la variable de respuesta.

6 Comparación de varios GLMs

En la Tabla 6.1 se presentan diferentes resultados con el fin de realizar algunas comparaciones entre diferentes modelos GLM.

Table 6.1: Comparación entre modelos GLM.
Modelo Y X Explican Metodo_Estimacion Teoria_Asintotica Estadistico
Logístico Categórica
discreta
(de Bernoulli)
Categóricas
o continuas
\(P(Y = 1 | \star) = E(Y = 1 | \star)\) Máxima
verosimilitud (ML)
Chi-cuadrada
Lineal Numérica
continua
Numéricas \(E(Y | \star)\) Mínimos
cuadrados (LS)
No F de Fisher
Anova Numérica
continua
Categóricas
con niveles
\(E(Y)\) Mínimos
cuadrados (LS)
No F de Fisher
Log-lineal Conteos
en tablas
Factores
categóricos
log(\(\mu\)) ML o
estimación Poisson
Chi-cuadrada
Beta Proporciones
continuas (0,1)
Continuas
o categóricas
logit(\(\mu\)) ML u
optimización beta
Chi-cuadrada
Probit Categórica
binaria
Continuas \(P(Y = 1 | \star) = f(\star, \beta)\) ML Chi-cuadrada
General.
\(Y\): variable de respuesta; \(X\): un vector de variables independientes (una población); el símbolo \(\star\) indica una población \(X\).

7 Funciones en R

7.0.1 La función glm

Los modelos GLM son ajustados utilizando la función glm( ). La forma de esta función es:

glm(fórmula, family=Tipo(link=Función de enlace), data=)

En la Tabla 7.1 se presentan los argumentos para family y link al aplicar la función glm().

Table 7.1: Comparación entre modelos GLM.
Family= Función link por defecto
binomial (link = logit)
gaussian (link = identity)
Gamma (link = inverse)
inverse.gaussian (link = 1/mu^2)
poisson (link = log)
quasi (link = identity, variance = constant)
quasibinomial (link = logit)
quasipoisson (link = log)

7.0.2 Ayudas en R

Se puede consultar ?glm para conocer otras opciones de modelos y ?family para conocer otras funciones de enlace permitidas para cada familia.

?glm      # Ayuda sobre la función glm

?glm abre la ayuda para la función glm(), donde se explican los argumentos como formula, family, data, etc., además de detalles sobre cómo se ajusta el modelo.

?family   # Ayuda sobre las familias y funciones link

?family abre la ayuda sobre el objeto family(), que describe:

  • Las familias disponibles (binomial, gaussian, Gamma, poisson, etc.).

  • Las funciones de enlace predeterminadas.

  • Y las opciones alternativas de enlace (logit, probit, identity, log, etc.).

8 Otros paquetes en el CRAN

  1. La función lsm() del paquete lsm (version 0.2.1.5) analiza el modelo de regresión logística cuando la variable de respuesta es binaria. Para más detalles, véase la referencia Villalba JL, Llinas HJ, Fabregas OJ (2025).

  2. La función glsm() del paquete glsm (0.0.0.6) analiza el modelo de regresión logística cuando la variable de respuesta es multinomial. Para más detalles, véase la referencia Llinás H, Villalba J, Borja J, Tilano J (2025).

  3. En el documento Paquetes CRAN relacionados con GLM se presentan resultados relacionados con la búsqueda de paquetes en la CRAN para GLM, con métodos relacionados a los descitos anteriormente.

9 Ejercicios

Determine cuáles de las siguientes distribuciones son EDMs, identificando (donde sea posible) a los parámetros \(\theta\), \(b(\theta)\) y \(\phi\). Interprete siempre el comportamiento de todas las gráficas correspondientes.

Ejercicio 1

La distribución Beta es una familia continua utilizada ampliamente para modelar proporciones o probabilidades en el intervalo \((0,1)\), con gran flexibilidad según los parámetros \(a\) y \(b\). Su función de densidad se define como:

\[ f(x; a, b) = \frac{\Gamma(\alpha \,+\,\beta)}{\Gamma(\alpha)\; \Gamma(\beta)} \, x^{\alpha-1}\, (1\,-\, x)^{\beta-1} \]

para \(0 < x < 1\), \(\alpha > 0\) y \(\beta > 0\). En la expresión anterior, \(\Gamma(\cdot)\) es la función gamma y se define por la integral impropia:

\[ \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt, \quad z > 0 \]

Se cumple que \(\Gamma(n) = (n - 1)!\) para cualquier número natural \(n\).

Los gráficos siguientes permiten visualizar el comportamiento de la distribución Beta (para diversos valores de \(\alpha\) y \(\beta\)) y la función Gamma, dos elementos fundamentales en estadística bayesiana y en teoría de distribuciones. Esta visualización conjunta destaca la interacción entre la forma de la distribución Beta y el comportamiento asintótico de la función Gamma, que actúa como constante de normalización en la densidad.

Ejercicio 2

La distribución geométrica describe el número de ensayos necesarios hasta obtener el primer éxito en un experimento de Bernoulli. Es útil en contextos donde se modela el tiempo de espera hasta un evento (Ross, 2014). Su función de masa de probabilidad está dada por:

\[ f(k; p) = p(1 − p)^{k−1}, \quad k = 1, 2, 3, \ldots,\quad 0 < p < 1. \]

A continuación, se presentan distintas formas de la distribución geométrica para valores seleccionados de \(p\):

Ejercicio 3

La distribución de Cauchy es una distribución continua simétrica con colas pesadas, utilizada en contextos donde la media y varianza no están definidas. Su función de densidad es:

\[ f(x; c, s) = \frac{1}{\pi \, s\left[1 + \left(\frac{x\,-\, c}{s}\right)^2\right]} \]

para \(x \in \mathbb{R}\), \(c \in \mathbb{R}\) y \(s > 0\). A continuación, se grafican distintas formas para diferentes valores de \(c\) (ubicación) y \(s\) (escala):

Ejercicio 4

La distribución von Mises es una distribución continua usada para modelar datos angulares o circulares, como direcciones o tiempos cíclicos. Su forma se asemeja a una distribución normal pero definida en el intervalo \([0, 2\pi)\). Su función de densidad se expresa como:

\[ f(x; \mu, \lambda) = \frac{1}{2\pi I_0(\lambda)} \, \exp\{\lambda \cos(x − \mu)\}, \]

para \(0 \leq x < 2\pi\), \(0 \leq \mu < 2\pi\) y \(\lambda > 0\), donde \(I_0(\lambda)\) es la función modificada de Bessel de orden 0, que sirve como constante de normalización:

\[ I_0(\lambda) = \sum\limits_{k=0}^{\infty} \frac{\left(\frac{1}{4} \,\lambda^2\right)^k}{(k!)^2} \]

La siguiente figura muestra la forma de la densidad para distintos valores del parámetro de concentración \(\lambda\), y una segunda gráfica ilustra cómo crece la función \(I_0(\lambda)\).

Ejercicio 5

La distribución arcoseno estricta (véase Kokonendji y Khoudar, 2004) es una distribución discreta utilizada para modelar datos de conteo con características particulares de dispersión. Su función de masa de probabilidad está dada por:

\[ f(k; p) = \frac{A(k; 1)}{k!} \, p^k \, \exp(-\arcsin p), \]

para \(k = 0, 1, 2, \dots\) y \(0 < p < 1\). En la expresión anterior, \(A(k; \alpha)\) es una función de normalización definida como:

\[ A(k; \alpha) = \begin{cases} 1, & \text{si } k = 0; \\[8pt] \alpha, & \text{si } k = 1; \\[8pt] \displaystyle\prod_{j=0}^{z-1} (\alpha^2 + 4j^2), & \text{si } k = 2z \text{ (par)}; \\[8pt] \displaystyle\alpha \prod_{j=0}^{z-1} (\alpha^2 + (2j+1)^2), & \text{si } k = 2z + 1 \text{ (impar)}. \end{cases} \]

Donde \(z\) es un número entero tal que \(k = 2z\) o \(k = 2z + 1\).

Los gráficos de abajo muestran tres aspectos fundamentales de esta distribución:

Ejercicio 6

La distribución Gamma es una distribución continua utilizada para modelar tiempos de espera, cantidades positivas o eventos raros acumulados. Su función de densidad está dada por:

\[f(x; \alpha,\beta) = \frac{1}{\Gamma(\alpha) \,\beta^\alpha} \, x^{\alpha-1}\, \exp(-x/\beta),\]

para \(x > 0\), donde:

  • \(\alpha > 0\) es el parámetro de forma.
  • \(\beta > 0\) es el parámetro de escala.
  • \(\Gamma(\cdot)\) es la función Gamma.

Adicionalmente, halle la función de enlace canónica \(g(\mu_i)\) y la función de probababilidad \(G(y_i,\phi)\) en el modelo de dispersión. A continuación, se grafican distintas formas de la distribución para diferentes combinaciones de \(\alpha\) y \(\beta\):

Ejercicio 7

La distribución Gaussiana inversa, también conocida como Wald distribution, es una distribución continua usada en contextos de tiempos de primer paso o modelos con colas pesadas. Su función de densidad es:

\[ f(x; \mu, \phi) = \frac{1}{\sqrt{2 \, \pi \, \sigma^2 \, x^3}} \, \exp\left\{-\frac{1}{2\, \sigma^2} \cdot \frac{(x - \mu)^2}{y \, \mu^2} \right\} \]

para \(x > 0\), donde:

  • \(\mu > 0\): media.
  • \(\sigma^2 > 0\): parámetro de dispersión y está relacionada con la varianza.

Adicionalmente, halle la función de enlace canónica \(g(\mu_i)\) y la función varianza \(V(\mu)\). A continuación, se grafican diferentes formas de la distribución para combinaciones típicas de \(\mu\) y \(\sigma^2\):

Ejercicio 8

La distribución de Weibull es una distribución continua muy usada en análisis de confiabilidad y tiempos de falla. Su función de densidad está dada por:

\[ f(x; \alpha, \lambda) = \frac{\alpha}{\lambda} \left(\frac{x}{\lambda}\right)^{\alpha - 1} \exp\left\{-\left(\frac{x}{\lambda}\right)^\alpha\right\} \]

para \(x > 0\), donde:

  • \(\alpha > 0\) es el parámetro de forma.
  • \(\lambda > 0\) es el parámetro de escala.

A continuación, se muestra cómo varía la densidad de Weibull para diferentes combinaciones de \(\alpha\) y \(\lambda\):

Ejercicio 9

La distribución exponencial es una distribución continua usada para modelar el tiempo entre eventos en un proceso de Poisson. Su función de densidad es:

\[ f(x; \gamma) = \frac{1}{\lambda} \, \exp\left\{-\frac{x}{\lambda}\right\} \]

para \(x > 0\) y \(\lambda > 0\), donde:

  • \(\lambda\) es el parámetro de escala (también interpretado como la media o el tiempo esperado entre eventos).

A continuación se muestra cómo varía la función de densidad para diferentes valores de \(\lambda\):

10 Otros ejercicios

Ejercicio 10

Considere un conjunto de datos en el cual cada punto \((y_i, x_i)\) está asociado a un factor de ponderación \(r_i > 0\), de forma que la función de error cuadrático en regresión lineal se vuelve:

\[ E(\mathbf{w}) = \sum_{i=1}^{N} r_i (y_i - \mathbf{w}^T \mathbf{x}_i)^2. \]

Encuentre una expresión para la solución \(\hat{\mathbf{w}}\) que minimiza esta función de error.

Ejercicio 11

Sea \(\mathbf{X}\) la matriz de datos de entrada. Sea \(\bar{\mathbf{x}}\) el vector de medias de las columnas de \(\mathbf{X}\). Suponga que \(\bar{\mathbf{x}} = \mathbf{0}\) (un vector de ceros), de modo que los datos están centrados. Demuestre que el optimizador del problema de optimización que minimiza la siguiente función objetivo:

\[ E(\mathbf{w}, w_0) = (\mathbf{y} - \mathbf{X}\mathbf{w} - w_0 \mathbf{1})^T (\mathbf{y} - \mathbf{X}\mathbf{w} - w_0 \mathbf{1}) + \lambda \mathbf{w}^T \mathbf{w} \]

es:

\[ \hat{w}_0 = \bar{y}, \quad \hat{\mathbf{w}} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}, \]

donde \(\mathbf{1}\) es un vector columna que contiene solo unos.

Ejercicio 12

La regresión lineal tiene la forma:

\[ y \approx f(\mathbf{x}; w_0, \mathbf{w}^T) = w_0 + \mathbf{w}^T \mathbf{x}. \]

Es común incluir una columna de unos en la matriz de diseño, por lo que podemos resolver por separado \(w_0\) y los otros parámetros \(\mathbf{w}\). Sea \((\hat{\mathbf{w}}, \hat{w}_0)\) el optimizador. Demuestre que:

\[ \hat{w}_0 \; = \; \frac{1}{N} \sum_i y_i \, - \, \frac{1}{N} \sum_i \mathbf{x}_i^T \hat{\mathbf{w}} \; = \; \bar{y} \, - \, \bar{\mathbf{x}}^T \hat{\mathbf{w}}. \]

Esto indica que \(\hat{w}_0\) modela la diferencia entre la salida promedio y la salida predicha promedio.

También demuestre que:

\[ \hat{\mathbf{w}} \; = \; (\mathbf{X}_c^T \mathbf{X}_c)^{-1} \mathbf{X}_c^T \mathbf{y}_c \; = \; \left[ \sum_{i=1}^N (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^T \right]^{-1} \left[ \sum_{i=1}^N (y_i - \bar{y})(\mathbf{x}_i - \bar{\mathbf{x}}) \right], \]

donde:

  • \(\mathbf{X}_c\) es la matriz de entrada centrada, con \(\mathbf{x}_i^c = \mathbf{x}_i - \bar{\mathbf{x}}\) a lo largo de sus filas.

  • \(\mathbf{y}_c = \mathbf{y} - \bar{y}\) es el vector de salida centrado.

Por consiguiente, primero, podemos calcular \(\hat{\mathbf{w}}\) sobre los datos centrados y entonces, estimar \(w_0\) usando \(\bar{y} - \bar{\mathbf{x}}^T \hat{\mathbf{w}}\).

Sugerencia. Sustituya \(w_0\) por \(\bar{y} - \bar{\mathbf{x}}^T \mathbf{w}\) en la función objetivo. Luego, calcula el gradiente de esa función con respecto a \(\mathbf{w}\), iguala a cero y resuelve la ecuación.

Bibliografía

Consultar el documento RPubs :: Modelo lineal generalizado (bibliografía).

 

 
If you found any ERRORS or have SUGGESTIONS, please report them to my email. Thanks.