Distribuciones de Probabilidad Relevantes para los Modelos Lineales Generalizados (GLM)

EP7120-Modelos Lineales Generalizados Aplicados

Enver Gerald Tarazona Vargas

Universidad Nacional Agraria La Molina (UNALM), Perú

Introducción

Motivación

En los modelos lineales generalizados, la elección de la distribución de la variable respuesta es un componente fundamental del modelo.

Según la naturaleza de la respuesta, pueden surgir situaciones como las siguientes:

  • respuestas binarias, como aprobar o no aprobar;
  • conteos, como número de eventos o llegadas;
  • tiempos o cantidades positivas;
  • respuestas continuas aproximadamente normales.

Por ello, antes de estudiar la formulación general de un modelo lineal generalizado, es necesario revisar algunas distribuciones de probabilidad que servirán como base para su construcción e interpretación.

En esta presentación se revisarán distribuciones discretas y continuas de especial interés, con énfasis en aquellas que luego aparecerán en el marco de la familia exponencial.

Distribuciones a revisar

En esta presentación se revisarán algunas distribuciones de probabilidad que resultan especialmente útiles como base para los modelos lineales generalizados.

Distribuciones discretas

  • Bernoulli
  • Binomial
  • Geométrica
  • Binomial negativa
  • Poisson

Distribuciones continuas

  • Exponencial
  • Gamma
  • Normal

En cada caso se pondrá atención en:

  • su función de probabilidad o densidad;
  • sus parámetros;
  • su esperanza y varianza.

Distribuciones Discretas

Experimento de Bernoulli

Un experimento de Bernoulli es un experimento aleatorio que cumple las siguientes condiciones:

  • tiene únicamente dos resultados posibles;
  • dichos resultados son mutuamente excluyentes y exhaustivos;
  • uno de los resultados se denomina éxito y el otro fracaso;
  • la probabilidad de éxito permanece constante en cada realización del experimento;
  • independencia entre distintas realizaciones del experimento

Si denotamos por \(p\) la probabilidad de éxito, entonces

\[ P(\text{éxito})=p, \qquad P(\text{fracaso})=1-p, \qquad 0<p<1. \]

Ejemplos

  • Un estudiante aprueba o no aprueba un examen.
  • Una pieza seleccionada resulta defectuosa o no defectuosa.
  • Un paciente responde o no responde a un tratamiento.

Este experimento constituye la base para varias distribuciones discretas, como la Bernoulli, la Binomial, la Geométrica y la Binomial negativa.

Distribución Bernoulli

Sea \(X\) una variable aleatoria asociada a un experimento de Bernoulli, definida por

\[ X = \begin{cases} 1, & \text{si ocurre éxito},\\ 0, & \text{si ocurre fracaso}. \end{cases} \]

Se dice que \(X\) sigue una distribución Bernoulli con parámetro \(p\), y se denota por

\[ X \sim \operatorname{Bernoulli}(p), \qquad 0<p<1. \]

Aquí, \(p\) representa la probabilidad de éxito del experimento; es decir,

\[ p=P(X=1). \]

Su función de probabilidad es

\[ P(X=x)= \begin{cases} p^x(1-p)^{1-x}, & x=0,1,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=p \qquad\text{y}\qquad \operatorname{Var}(X)=p(1-p). \]

Distribución Binomial

Sea \(X\) una variable aleatoria que representa el número de éxitos en \(n\) ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

Se dice que \(X\) sigue una distribución Binomial con parámetros \(n\) y \(p\), y se denota por

\[ X \sim \operatorname{Binomial}(n,p), \]

donde

  • \(n \in \mathbb{N}\) representa el número fijo de ensayos;
  • \(p\), con \(0<p<1\), representa la probabilidad de éxito en cada ensayo.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} \binom{n}{x}p^x(1-p)^{n-x}, & x=0,1,\dots,n,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=np \qquad\text{y}\qquad \operatorname{Var}(X)=np(1-p). \]

Efecto del parámetro \(p\) en la distribución Binomial

Con \(n\) fijo, el parámetro \(p\) modifica la localización y la forma de la distribución.

Caso 1: \(X \sim \operatorname{Binomial}(20,0.2)\)

La probabilidad se concentra en valores bajos de éxitos.

Caso 2: \(X \sim \operatorname{Binomial}(20,0.5)\)

La distribución es más simétrica y se centra alrededor de \(np=10\).

Caso 3: \(X \sim \operatorname{Binomial}(20,0.8)\)

La probabilidad se desplaza hacia valores altos de éxitos.

Conclusión: con \(n\) fijo, al aumentar \(p\), la distribución se desplaza hacia la derecha; además, su forma cambia según la cercanía de \(p\) a 0.5.

Distribución Geométrica

Sea \(X\) una variable aleatoria que representa el número de ensayos necesarios hasta obtener el primer éxito en una secuencia de ensayos de Bernoulli independientes, cada uno con probabilidad de éxito \(p\).

Se dice que \(X\) sigue una distribución Geométrica con parámetro \(p\), y se denota por

\[ X \sim \operatorname{Geom}(p), \qquad 0<p<1. \]

Aquí, \(p\) representa la probabilidad de éxito en cada ensayo.

Su función de probabilidad es

\[ P(X=x)= \begin{cases} (1-p)^{x-1}p, & x=1,2,3,\dots,\\ 0, & \text{en otro caso.} \end{cases} \]

Además,

\[ E(X)=\frac{1}{p} \qquad\text{y}\qquad \operatorname{Var}(X)=\frac{1-p}{p^2}. \]

Interpretación de los parámetros de la Geométrica

En la distribución Geométrica, el parámetro \(p\) cumple dos papeles importantes:

  • es la probabilidad de éxito en cada ensayo;
  • determina la localización y la dispersión de la distribución.

En particular:

  • si \(p\) es pequeño, el primer éxito tiende a tardar más;
  • si \(p\) aumenta, la probabilidad se concentra en valores pequeños de \(X\);
  • al aumentar \(p\), la esperanza \(\frac{1}{p}\) disminuye;
  • también disminuye la varianza \(\frac{1-p}{p^2}\).

Por tanto, valores grandes de \(p\) describen situaciones en las que el primer éxito suele ocurrir rápidamente.

Referencias

Agresti, A. (2015). Foundations of linear and generalized linear models. Wiley.
Blitzstein, J. K., & Hwang, J. (2019). Introduction to probability (2nd ed.). Chapman; Hall/CRC.
Casella, G., & Berger, R. L. (2002). Statistical inference (2nd ed.). Duxbury.
DeGroot, M. H., & Schervish, M. J. (2012). Probability and statistics (4th ed.). Pearson.
Dobson, A. J., & Barnett, A. G. (2018). An introduction to generalized linear models (4th ed.). Chapman; Hall/CRC.
Faraway, J. J. (2016). Extending the linear model with R: Generalized linear, mixed effects and nonparametric regression models (2nd ed.). Chapman; Hall/CRC.
Hogg, R. V., McKean, J. W., & Craig, A. T. (2019). Introduction to mathematical statistics (8th ed.). Pearson.
Larsen, R. J., & Marx, M. L. (2008). An introduction to mathematical statistics and its applications (4th ed.). Pearson.
McCullagh, P., & Nelder, J. A. (1989). Generalized linear models (2nd ed.). Chapman; Hall.
Pawitan, Y. (2001). In all likelihood: Statistical modelling and inference using likelihood. Oxford University Press.
Pitman, J. (1993). Probability. Springer.
Rice, J. A. (2006). Mathematical statistics and data analysis (3rd ed.). Duxbury Press.
Ross, S. (2014). A first course in probability (9th ed.). Pearson.
Wackerly, D. D., Mendenhall, W., & Scheaffer, R. L. (2008). Mathematical statistics with applications (7th ed.). Thomson Brooks/Cole.
Weisberg, S. (2014). Applied linear regression (4th ed.). Wiley.