Introducción

La distribución binomial es la más usada de las distribuciones de probabilidad para variables aleatorias discretas. Esta distribución describe la probabilidad de que un resultado conocido de un experimento aleatorio sea observado x ocasiones en n número de repeticiones del experimento en cuestión.

La función de masa de probabilidad (PDF) está definida por la expresión que sigue \[P(X=x)=_{n}C_{x}\cdot p^{x}\cdot (1-p)^{n-x}\]

La función de distribución acumulada (CDF) esta definida por la expresión \[P\left( X\leq x\right) =\sum^{}_{x\leq x_{j}} P\left( x\right)\]

Casos de Uso

Caso de Uso 1

Calcule la probabilidad de que un avión con dos motores idénticos, que tienen cada uno una probabilidd de fallo de 0.05, termine un vuele sin fallos en ninguno de sus motores. La variable X se define como el número de motores sin fallo. A continuación, se definen las variables que se conocen de la situación planteada.

# Definición de variable X = Número de motores sin fallo.
n <- 2         # Número de motores que pueden fallar o no fallar
p <- 1 - 0.05  # Probabilidad de que un motor no falle

Para que el avión termine un vuelo sin fallo en ninguno de sus motores debería observarse que sean 2 los motores sin fallo. El enunciado anterior se implementa con la función de masa de probabilidad (PDF) de la forma siguente

# Número de motores sin fallo que se desea observar
x <- 2         
# Cálculo de la función de masa de probabilidad cuando P(X = 2)
(prob <- dbinom(x = x, size = n, prob = p))
## [1] 0.9025

Esto significa que el avión tiene una probabilidad de 0.902 de concluir un vuelo sin fallo en los motores.

Para extender la comprensión de la distribución binomial, se presenta ahora la totalidad de distribución del avión y sus dos motores. Evidentemente, los valores posibles de la variable aleatoria X, que representa el número de motores sin fallo que se desea observar, son 0, 1 y 2; los valores de probabilidad de ocurrencia para cada uno de estos valores posibles se encuentra igualmente con la función de masa de probabilidad. La implementación de la PDF se aprecia en el código siguiente

# Integración de data frame para distribución de probabilidad
dist_probab <- data.frame(
  x = c(0, 1, 2),                            # Valores posibles de la variable X
  Px = dbinom(x = 0:2, size = n, prob = p))  # Probabilidad de ocurrencia

La distribución de probabilidad queda entonces como la tabla que integra los valores posibles de la variable aleatoria y el valor de la probabilidad de ocurrencia de cada uno de estos valores. La tabla de la distribución se aprecia a continuación

dist_probab
##   x     Px
## 1 0 0.0025
## 2 1 0.0950
## 3 2 0.9025

Una vez completada la tabla de la distribición de probabilidad, es posible generar la gráfica de la función de masa de probabilidad tal como se muestra a continuación

# Generación de la gráfica
dist_probab %>% 
  ggplot(aes(x, Px)) +
    geom_segment(aes(xend = x, yend = 0), color = "red") +
    labs(title = "Función de Masa de Probabilidad",
         subtitle = "Binomial n = 2",
         y = "Probabilidad",
         x = "Número de motores sin fallo") +
    ylim(0, 1) + 
    scale_x_discrete(limits = c(0:2))

Si el avión puede continuar con su vuelo aun cuando uno de los motores haya fallado significa que el avión puede completar su vuelo aun si fallan 0 o 1 motores. De acuerdo con la definición del investigador que ha prevalecido, esta condición sería cumplida si se observan 1 o 2 motores sin fallo durante el vuelo. El modelo que satisfaría lo anterior correspondería a la función de distribución acumulada después de 0 hasta el último valor posible (cola derecha de la distribución). La expresión matemática queda de la forma que sigue \[P(X>0)=1-P(X=0) \]

La implementación de la CDF se realizaría restando de 1 el valor de CDF hasta que X = 0; esto se implementa con la función de la distribución acumulada para la distribución binomialpbinom.

# Cálculo de la distrbución acumulada cuando P(X > 0)
(prob0 <- 1- dbinom(x = 0, size = n, prob = p))
## [1] 0.9975

Esto significa que la probabilidad de que el avión continue funcionando aun después del fallo de algún motor es de 0.997.

Caso de Uso 2

Una aerolínea vendió 125 boletos para un vuelo de 120 asientos, sabiendo que los pasajeros tienen una probabilidad de 0.1 de no presentarse a su vuelo.

La variable aleatoria X se define como el número de pasajeros que se presentan a su vuelo. Las variables conocidas de la situación se definen a continuación

# Definición de variable X = Número de pasajeros que se presentan a su vuelo
pax <- 125          # Número de pasajeros que podrían o no presentarse a su vuelo
pro <- 1- 0.1       # Probabilidad de un pasajero de presentarse a su vuelo

Primeramente, se integra la distribución de probabilidad binomial para todo el espacio muestral planteado en el caso de uso.

# Integración de la tabla de la distribución
avion_distr <- data.frame(
  x = seq(0, 125, by = 1),     # Número de pasajeros que se presentan a su vuelo
  px = dbinom(x = 0:125, size = pax, prob = pro))  # PDF binomial

Se muestran los primeros 6 y los últimos 6 datos de la tabla de la distrubución binomial. La columna xcontiene el número de pasajeros que se presentan a su vuelo (todos los valores posibles de la variable aleatoria), mientras que la columna px contiene la probabilidad de ocurrencia de cada uno de los valores posibles.

head(avion_distr); tail(avion_distr)
##   x            px
## 1 0 1.000000e-125
## 2 1 1.125000e-122
## 3 2 6.277500e-120
## 4 3 2.316397e-117
## 5 4 6.358511e-115
## 6 5 1.384884e-112
##       x           px
## 121 120 7.573592e-03
## 122 121 2.816625e-03
## 123 122 8.311353e-04
## 124 123 1.824443e-04
## 125 124 2.648385e-05
## 126 125 1.906837e-06

La media de la distribución binomial está definida por la expresión \[\mu =n\cdot p\] Por tanto, la media de pasajeros que se presentarán a su vuelo es de

# Producto del número de pasajeros por la probabilidad de presentarse a su vuelo
pax * pro
## [1] 112.5

Esto significa que el número esperado de pasajeros que se presentan a su vuelo es de 112.5. Esto explica, al menos en parte, la decisión de sobrevender los asientos del vuelo.

Para generar la gráfica de la distribución binomial debe implementarse el código siguiente

avion_distr %>% 
  ggplot(aes(x, px)) +
    geom_segment(aes(xend = x, yend = 0), color = "red") +
    labs(title = "Función de Masa de Probabilidad",
         subtitle = "Binomial n = 125",
         y = "Probabilidad",
         x = "Número de pasajeros que se presentan a su vuelo") +
    geom_vline(xintercept = pax * pro, color = "grey") +
    xlim(0, 125)

En la gráfica es apreciable la cantidad de pasajeros que resulta más probable esperar que se presenten a su vuelo. La gráfica incluye la indicación del valor de la media de la distribución precisamente en el punto 112.5 del eje de las x.

Se desea calcular la probabilidad de que el avión despegue con, al menos, un asiento vacío. Esta situación corresponde a la probabilidad de que se hayan presentado al vuelo hasta 119 pasajeros, quedando así un asiento vacío. La implementación de esta situación requiere de la CDF de la distribución, cuyo código se presenta a continuación

# Cálculo de la función de distribución acumulada cuando P(X <= 119)
(av <- pbinom(q = 119, size = pax, prob = pro))
## [1] 0.9885678

Por tanto, existe una probabilidad de 0.989 de que el avión despegue con al menos un asiento vacío.

Caso de Uso 3

Se presenta una lista de 109 órdenes de producción con errores de procesamiento, junto con el operador que las procesó.

# Integración de la tabla
(ordenes <- data.frame(
  opera = c("A", "B", "C", "D", "E", "F", "G"),
  error = c(14, 16, 22, 13, 16, 15, 13)))
##   opera error
## 1     A    14
## 2     B    16
## 3     C    22
## 4     D    13
## 5     E    16
## 6     F    15
## 7     G    13

Puede apreciarse que los errores del operador C parecen ser muchos más que los del resto de los operadores; sin embargo, estos errores pueden ser producto de procesos aleatorios.

El supervisor desea tener al menos un nivel de confianza de 95% en que el desempeño del operador C es producto de causas asignables y que no se debe al azar antes de tomar alguna medida laboral.

Para resolver este caso de uso debe calcularse la probabilidad de que, por causa común, se obtengan 22 errores o más; para este efecto, debe considerarse que todos los operadores tienen la misma probabildad de cometer un error. El modelo que representa esta situación es la función de distribución acumulada para la cola derecha. La CDF se expresa de la forma siguiente \[P(X>21)=1-\sum^{21}_{i=0} P(X=x_{i}) \]

Se definen los valores conocidos.

# Variable X = Número de errores cometidos por un solo operador
exito <- 22        # Número de errores que se desea observar por un solo operador
intento <- 109     # Total de errores cometidos por todos los operadores
probab <- 1/7      # Probabilidad equitativa de cometer un error por cada operador

La implementación de la función de distribución acumulada debe indicar que se trata de la cola derecha de la distribución.

# Distribución acumulada cuando P(X > 22)
(err_C <- pbinom(q = exito - 1, size = intento, prob = probab, lower.tail = FALSE))
## [1] 0.0571366

Esto implica que existe una probabilidad de 5.71% de que el desempeño del operador C se deba solamente al azar. Por lo tanto, lo mas probable es que el desempeño sea producto de una causa asignable.

No obstante, el nivel de confianza es 1 - 0.0571366 lo que es igual a 94.3%. Este nivel de confianza se encuentra por debajo del 95% requerido para tomar una acción; por tanto, no debería ocurrir nada.