En el estudio de la probabilidad, algunas distribuciones discretas han alcanzado un lugar privilegiado gracias a su relevancia teórica y a la gran variedad de fenómenos que logran modelar. Estas distribuciones con nombre propio no solo constituyen herramientas fundamentales en estadística, sino que también aparecen de manera recurrente en problemas reales que van desde la biología hasta la ingeniería.
En esta publicación indagaremos respecto a cuatro de las más representativas. Cada una será presentada con sus parámetros, propiedades esenciales y aplicaciones más comunes, destacando su importancia dentro del marco de las distribuciones discretas.
La distribución geométrica es uno de los modelos fundamentales dentro de la probabilidad. Surge en experimentos de tipo Bernoulli, en los que cada ensayo es independiente y tiene solo dos posibles resultados: éxito (con probabilidad p) o fracaso (con probabilidad 1-p).
Se utiliza para modelar el número de ensayos que deben realizarse hasta obtener el primer éxito. Una característica esencial es que, a diferencia de la distribución binomial (donde el número de ensayos está fijado y se cuenta cuántos éxitos ocurren), en la geométrica el número de ensayos es la variable aleatoria en sí misma.
En la distribución geométrica, la variable aleatoria X representa el número de ensayos necesarios hasta que ocurra el primer éxito. Por ejemplo, si lanzamos una moneda hasta obtener la primera cara, X es el número total de lanzamientos.
La función de probabilidad de una distribución geométrica con parámetro p se representa a través de la siguiente fórmula:
\[ F(k) = P(X \leq k) = 1 - (1-p)^k, \quad k=1,2,3,... \]
Esta probabilidad decrece a medida que aumenta k, lo que refleja que esperar más ensayos para obtener el primer éxito es cada vez menos probable. Además, como el éxito puede tardar tanto como sea necesario en aparecer, el conjunto de valores posibles es ilimitado.
\[ F(k) = P(X \leq k) = \sum_{i=r}^{k} \binom{i-1}{r-1} p^r (1-p)^{i-r} \] Comentario: Da la probabilidad de que el éxito ocurra en k o menos intentos.
En promedio, se necesitan 1/p intentos para obtener el primer éxito.
\[ E(X) = \frac{1}{p} \]
La varianza mide la dispersión de los valores de X alrededor de su media, y depende tanto de p como de 1−p.
\[ Var(X) = \frac{1-p}{p^2} \]
La falta de memoria es la única distribución discreta que cumple esta propiedad. Significa que la probabilidad de esperar un número adicional de ensayos no depende de lo que ya haya ocurrido. Formalmente:
\[ P(X>m+n∣X>m)=P(X>n) \] IMPORTANTE: La variable aleatoria, en este caso, no es el número de éxitos (como ocurre en la binomial), sino el número de ensayos necesarios hasta alcanzar el primer éxito. Es decir, la geométrica con parámetro p responde a la pregunta:
“¿Cuántas veces debo intentarlo hasta que ocurra lo que busco?”
La binomial negativa amplía la lógica de la geométrica. En lugar de detenerse en el primer éxito, describe el número total de ensayos necesarios hasta lograr𝑟 éxitos.
Se emplea cuando el número de ensayos hasta alcanzar ciertos éxitos
varía entre individuos o unidades.
Un ejemplo clásico es el número de accidentes
laborales: la distribución de Poisson supone igual probabilidad
para todos, pero en la práctica cada persona tiene distinta “propensión
al accidente”. En este caso, la Binomial Negativa describe mejor la
situación porque incorpora esa variabilidad.
En esta distribución, la variable aleatoria X representa el número de ensayos necesarios hasta lograr r éxitos.
La probabilidad disminuye a medida que se necesitan más intentos para alcanzar los𝑟 éxitos. \[ P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k=r, r+1,... \]
No tiene una forma cerrada sencilla, pero puede expresarse como suma de probabilidades. Da la probabilidad de que los r éxitos ocurran en k o menos ensayos. \[ F(k) = \sum_{i=r}^{k} \binom{i-1}{r-1} p^r (1-p)^{i-r} \] Comentario: Cuantos más éxitos se exijan o más difícil sea obtenerlos (p pequeño), mayor será el promedio de ensayos y su variabilidad.
En promedio, se necesitan 𝑟/𝑝 intentos para conseguir 𝑟éxitos. Es como sumar r veces la media de una geométrica. \[ E(X) = \frac{r}{p} \] En la varianza, la dispersión crece con 𝑟y con la dificultad del éxito (1−𝑝). Si el éxito es raro, la variabilidad del número de intentos será muy grande. \[ Var(X) = \frac{r(1-p)}{p^2} \]
IMPORTANTE: Generaliza la distribución geométrica: cuando r=1, la binomial negativa se convierte en una geométrica.
Es decir, la binomial negativa con parámetros (r, p) responde a la pregunta:
“¿Cuántas veces debo intentarlo hasta conseguir r éxitos?”
La distribución de Poisson describe el número de eventos que ocurren en un intervalo de tiempo o espacio, suponiendo que los eventos ocurren de manera independiente, que no pueden ocurrir dos o más de algunos de estos al mismo tiempo exacto y con una tasa constante λ. Es decir, la Poisson con parámetro λ responde a la pregunta:
“¿Cuántos eventos ocurrirán en cierto intervalo de tiempo o espacio?”
Se aplica para modelar sucesos raros o discretos, como el número de llamadas que llegan a una central en una hora, o el número de errores tipográficos en una página. El concepto de evento “raro” o poco frecuente debe ser entendido en el sentido de que la probabilidad de observar k eventos decrece rápidamente a medida que k aumenta.
La variable asociada es el número de ocurrencias del evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta que toma valores enteros de 0 en adelante (0, 1, 2,…). Así, el número de pacientes que llegan a un consultorio en un lapso dado, el número de llamadas que recibe un servicio de atención a urgencias durante 1 hora, el número de células anormales en una superficie histológica o el número de glóbulos blancos en un milímetro cúbico de sangre son ejemplos de variables que siguen una distribución de Poisson. En general, es una distribución muy utilizada en diversas áreas de la investigación médica y, en particular, en epidemiología.
La variable aleatoria X representa el número de eventos ocurridos en el intervalo considerado.
\[ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,... \]
No tiene expresión cerrada, pero se define como:
\[ F(k) = \sum_{i=0}^{k} \frac{e^{-\lambda} \lambda^i}{i!} \] Comentario: expresa la probabilidad de observar k o menos eventos.
El promedio de eventos en un intervalo es exactamente 𝜆. Por ejemplo, si 𝜆=5, esperamos 5 sucesos en promedio por hora.
\[ E(X) = \lambda \] La variabilidad es igual al promedio. Esto refleja la regularidad de la Poisson: la dispersión no es independiente de la media, sino que crece junto a ella. \[ Var(X) = \lambda \]
La distribución uniforme discreta describe el comportamiento de una variable discreta que puede tomar n valores distintos con la misma probabilidad cada uno de ellos. Es decir, la uniforme discreta responde a la pregunta:
“Si todos los resultados son igual de probables, ¿cuál de ellos ocurrirá al azar?”
Modela fenómenos donde todos los resultados son igualmente probables.
La variable aleatoria X toma valores en un conjunto finito de enteros consecutivos, digamos de a a b.
\[ \{a, a+1, a+2, ..., b\}, \quad a \leq b \] ## Función de probabilidad (f)
\[ P(X=k) = \frac{1}{b-a+1}, \quad k=a,a+1,...,b \] Comentario: Cada valor tiene la misma probabilidad.
\[ F(k) = \frac{k-a+1}{b-a+1}, \quad k=a,a+1,...,b \] Comentario: Aumenta en pasos iguales porque cada resultado es igual de probable.
El promedio es el punto medio del intervalo. Por ejemplo, si los valores posibles van de 1 a 10, la media será 5.5. \[ E(X) = \frac{a+b}{2} \] Mide qué tan extendido está el intervalo. Cuanto mayor sea la distancia entre a y b, más grande será la varianza. \[ Var(X) = \frac{(b-a+1)^2 - 1}{12} \] IMPORTANTE: Todos los valores del intervalo son igualmente probables. En consecuencia, es la base para definir el concepto de “azar puro” en probabilidad.