Fundamento teórico

La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo [@anderson2008].

La distribución de probabilidad de la variable aleatoria hipergeométrica \(x\), el número de éxitos en una muestra aleatoria de tamaño \(n\) que se selecciona de \(N\) artículos, en los que \(k\) se denomina éxito y \(N – k\) se le llama fracaso [@camacho_avila_probabilidad_2019].

La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.

Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad, para procesos experimentales en los que no es posible retornar a la situación de partida. [@cañas].

Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fi n de determinar si se acepta o no el lote completo [@walpole2012].

Fórmula de función de probabilidad

La fórmula de la distribución hipergeométrica

\[f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} \]

Dónde:

\(f(x)\) es la probabildiad de \(x\) o la función de distribución
\(n\) número de ensayos o longitud de la muestra casos exitosos
\(N\) número de elementos de la población
\(r \text{ o }k\) número de elementos de la población que se extraen de la población
\(x\) Valor de la variable aleatoria discreta \(0,1,2,3,,,,n\) [@anderson_estadistica_2008].
\({\binom{r}{x}}\) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman \(x\) éxitos de un total de \(r\) éxitos que hay en la población,
\(\binom{N-r}{n-x}\) parte derecha del numerador representa el número de maneras en que se puede tomar \(n - x\) fracasos de un total de \(N - r\) elementos que hay en la población.
\(\binom{N}{n}\) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño \(n\) de una población de tamaño \(N\); [@anderson_estadistica_2008].

Recordando la fórmula para determinar el número de combinaciones en grupos de \(n\) elementos de una población total de \(N\) está dada por:
\[C_{n}^{N} = \binom{N}{n} = \frac{N!}{n!\cdot(N-n)!}\]

Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:

\[ (x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} = \frac{ (\frac{r!}{x!\cdot(r-x)!})\cdot(\frac{(N-r)!}{(n-x)!\cdot((N-r) - (n-x))!})}{\frac{N!}{n!\cdot(N-n)!}} \]

Fórmula para valor esperado

\[E(x) = \mu = n \cdot\left(\frac{r}{N}\right)\]

Fórmula para varianza

\[Var(x) = \sigma^{2} = n \cdot\left(\frac{r}{N}\right)\cdot\left(1 - \frac{r}{N}\right)\cdot\left( \frac{N-n}{N-1}\right)\]

Fórmula de la desviación estándar

\[\sigma = \sqrt{Var(x)} = \sqrt{\sigma^{2}}\]

Ejemplo1: canicas:

Extraer canicas rojas

N <- 12 
n <- 3
r <- 5
VE <- f.va.hiper(n = n, N = N, r = r)
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  1.25"

Varianza y desviación

¿Cuál es la varianza y la desviación estándar?. También se utilizan las funciones previamente preparadas.

varianza <- f.varianza.hiper(VE = VE, n = 3, N = 12, r = 5)
desvstd <- sqrt(varianza)
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  0.5966  y la desviación std es de:  0.7724"

Interpretación

Existe una probabilidad de aproximadamente 47.72% de que suceda exactamente un fusible defectuoso.

Existe una probabilidad aproximada del 95% de que sucedan fusibles defectuosos menores a 3 componentes

El Valor esperado de 1.25 significa lo que en promedio se espera que suceda por cualquier valor de la variable discreta

La varianza es de 0.5966 y la desviación es de 0.7724 significan el grado de dispersión de los valores de la distribución o que tanto se alejan del valor medio en la distribución de probabilidad en este caso hipergeométrica.

Lote de Componentes

Lotes con \(40\) componentes cada uno que contengan 3 o más defectuosos se consideran inaceptables. El procedimiento para obtener muestras del lote consiste en seleccionar \(5\) componentes al azar y rechazar el lote si se encuentra un componente defectuoso. En todo el lote hay \(3\) defectuosos? [@camacho_avila_probabilidad_2019], [@walpole_probabilidad_2012]

\(n = 3\),
\(N = 40\),
\(k = 5\) y
\(x = 0,1,2,3,4...n\)

Tabla de probabilidad desde cero a cinco

Primero inicializar valores

N <- 40
m  <- n <- 3
r <- 5
x <- 0:n
m <-n; N <-N; k <- r; n <- N - m

Se construye la tabla de distribución

tabla <- data.frame(x=x, f.prob.x = round(dhyper(x = x,m = m, n = n, k = k), 8))
tabla <- cbind(tabla, f.acum.x = cumsum(tabla$f.prob.x))
tabla

##   x   f.prob.x  f.acum.x
## 1 0 0.66244939 0.6624494
## 2 1 0.30111336 0.9635628
## 3 2 0.03542510 0.9989879
## 4 3 0.00101215 1.0000000

Probabilidad de exactamente un componente

¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?. \(P(x=1)\)

x <- 1
prob <- tabla$f.prob.x[x+1]
paste("La probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso de tres es: ", round(prob * 100,4), "%")

## [1] "La probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso de tres es:  30.1113 %"

Probabilidad de al menos tres

¿Cuál es la probabilidad de encontrar menos de tres componentes defectuosos \(P(x \leq3) = P(x=0)+P(x=1)+P(x=2)+P(x=3)\) o la función acumulada \(F(x=3)\)

x <- 3
prob <- phyper(q = x,m = m, n = n, k = k)
paste ("La probabilidad de encontrar menos de tres componentes", round(prob, 4))

## [1] "La probabilidad de encontrar menos de tres componentes 1"

¿Cuál es el valor esperado

VE <- f.va.hiper(n = n, N = N, r = r)
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  4.625"

¿Cuál es la varianza y la desviación estándar?

varianza <- f.varianza.hiper(VE = VE, n = 3, N = 12, r = 5)
desvstd <- sqrt(varianza)
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  2.2074  y la desviación std es de:  1.4857"

Interpretación

En este ejercicio en su contexto, sólo 30% de las veces detecta un lote malo (con 3 componentes defectuosos). [@camacho_avila_probabilidad_2019].

Artículos defectuosos

Se tiene un lote de \(100\) artículos de los cuales \(12\) están defectuosos. Se extraen lotes de \(10\).

Tabla de distribución

Primero inicializar valores

N <- 100
m <- n <- 12
r <- 10
x <- 0:n
m <-n; N <-N; k <- r; n <- N - n

Distribución de la probabilidad por medio de la función creada llamada f.prob.hiper()

tabla <- data.frame(x=x, f.prob.x = round(dhyper(x = x, m = m, n = n, k = r), 8))
tabla <- cbind(tabla, f.acum.x = cumsum(tabla$f.prob.x))
tabla

##     x   f.prob.x  f.acum.x
## 1   0 0.26075027 0.2607503
## 2   1 0.39607636 0.6568266
## 3   2 0.24507225 0.9018989
## 4   3 0.08068222 0.9825811
## 5   4 0.01549689 0.9980780
## 6   5 0.00179241 0.9998704
## 7   6 0.00012447 0.9999949
## 8   7 0.00000502 0.9999999
## 9   8 0.00000011 1.0000000
## 10  9 0.00000000 1.0000000
## 11 10 0.00000000 1.0000000
## 12 11 0.00000000 1.0000000
## 13 12 0.00000000 1.0000000

Probabilidad de tres defectuosos

¿Cuál es la probabilidad de que haya 3 defectuosos en una muestra de 10? \(P(x=3)\)

x <- 3
prob <- tabla$f.prob.x[x+1]
paste("La probabilidad de que haya 3 defectuosos en una muestra de 10 es de", prob)

## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"

Con la función dhyper()

x <- 3
dhyper(x = x, m = m, n = n, k = k)

## [1] 0.08068222

paste("La probabilidad de que haya 3 defectuosos en una muestra de 10 es de", prob)

## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"

Valor esperado

¿Cuál es el valor esperado?

VE <- f.va.hiper(n = n, N = N, r = r)
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  8.8"

Varianza y desviación

¿Cuál es la varianza y la desviación estándar?

varianza <- f.varianza.hiper(VE = VE, n = 3, N = 12, r = 5)
desvstd <- sqrt(varianza)
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  4.2  y la desviación std es de:  2.0494"

Interpretación

Pendiente

Estudiante de leyes

Un estudiante tiene que preparar cien temas. En el examen se sacan tres a sorteo, de los cuales deberá exponer uno y aprobar al menos uno. El estudiante decide estudiar o preparar solamente la mitad y probar suerte. [@quintela2019].

Tabla de distribución

Valores iniciales

N <- 100
n <- 3
r <- 50 
x <- 0:n
m <-n; N <-N; k <- r; n <- N - n

Se construye la tabla de distribución

tabla <- data.frame(x=x, f.prob.x = round(dhyper(x = x, m = m, n = n, k = r), 8))
tabla <- cbind(tabla, f.acum.x = cumsum(tabla$f.prob.x))
tabla

##   x  f.prob.x  f.acum.x
## 1 0 0.1212121 0.1212121
## 2 1 0.3787879 0.5000000
## 3 2 0.3787879 0.8787879
## 4 3 0.1212121 1.0000000

Probabilidad de que no apruebe

Se calcula la probabilidad cuando \(P(x=0)\)

prob <- dhyper(x = 0, m = m, n = n, k = k)
paste ("La probabilidad de que no apruebe es de: ", prob, " o sea ", round(prob*100, 4), "%")

## [1] "La probabilidad de que no apruebe es de:  0.121212121212121  o sea  12.1212 %"

Probabilidad de que apruebe

Se requiere al menos 1 de los temas, o lo que es lo mismo \(1 - F(x=0)\)

prob <- 1 - phyper(q = 0, m = m, n = n, k = k)
paste ("La probabilidad de que apruebe es de: ", prob, " o sea ", round(prob*100, 4), "%")

## [1] "La probabilidad de que apruebe es de:  0.878787878787879  o sea  87.8788 %"

O se puede usar la función phyper() con el parámetro lower.tail = FALSE.

prob <- phyper(q = 0, m = m, n = n, k = k, lower.tail = FALSE)
paste ("La probabilidad de que apruebe es de: ", prob, " o sea ", round(prob*100, 4), "%")

## [1] "La probabilidad de que apruebe es de:  0.878787878787879  o sea  87.8788 %"

Caso 16. Distribución hipergeométrica

Carlos Alberto Soto Hernandez

3/11/2021

Objetivo

Descripción

Fundamento teórico

Fórmula de función de probabilidad

Fórmula para valor esperado

Fórmula para varianza

Fórmula de la desviación estándar

Varianza y desviación

Interpretación

Lote de Componentes

Tabla de probabilidad desde cero a cinco

Probabilidad de exactamente un componente

Probabilidad de al menos tres

¿Cuál es el valor esperado

¿Cuál es la varianza y la desviación estándar?

Interpretación

Artículos defectuosos

Tabla de distribución

Probabilidad de tres defectuosos

Valor esperado

Varianza y desviación

Interpretación

Estudiante de leyes

Tabla de distribución

Probabilidad de que no apruebe

Probabilidad de que apruebe

Interpretación