Objetivo

Calcular la función de densidad y la función de probabilidad probabilidad acumulada bajo la fórmula de distribución hipergeométrica.

Descripción

Realizar cálculos de probabilidad conforme a la distribución de probabilidad hipergeométrica a partir de valores iniciales de los ejercicios.

Se generan las tablas de probabilidad conforme a distribución hipergeométrica, se identifican los valores de probabilidad cuando la variable discreta \(x\) tenga algún exactamente algún valor, \(\leq\) a algún valor o \(\gt\) o \(\geq\), entre otros.

Se utilizan las funciones base dhyper() y phyper() para la probabilidad y función acumulada de la distribución hipergeométrica.

Se utilizan las funciones rhyper() para generación de valores aleatorios y qhyper() para encontrar valores de x a partir de probabilidades acumuladas.

Se utiliza también de manera alternativa la función del enlace f.prob.hiper() y f.prob.hiper.all() que se encuentra en el archivo:

https://raw.githubusercontenthttps://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R

Esta función, permite calcular la probabilidad de una variable aleatoria discreta bajo la distribución hipergeométrica y conforme a la fórmula.

Fundamento teórico

La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo [@anderson2008].

La distribución de probabilidad de la variable aleatoria hipergeométrica \(x\), el número de éxitos en una muestra aleatoria de tamaño \(n\) que se selecciona de \(N\) artículos, en los que \(k\) se denomina éxito y \(N – k\) se le llama fracaso [@camacho_avila_probabilidad_2019].

La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.

Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad, para procesos experimentales en los que no es posible retornar a la situación de partida [@cañas].

Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fin de determinar si se acepta o no el lote completo [@walpole2012].

Fórmula de función de probabilidad

La fórmula de la distribución hipergeométrica

\[f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} \]

Dónde:

  • \(f(x)\) es la probabilidad de \(x\) o la función de distribución

  • \(n\) número de ensayos o longitud de la muestra casos que se extraen

  • \(N\) número de elementos de la población

  • \(r\) número de elementos exitosos en relación a la población

  • \(x\) Valor de la variable aleatoria discreta \(0,1,2,3, ... ...,n.muestra\) hasta el valor \(n\) de la muestra [@anderson_estadistica_2008].

  • \({\binom{r}{x}}\) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman \(x\) éxitos de un total de \(r\) éxitos que hay en la población,

  • \(\binom{N-r}{n-x}\) parte derecha del numerador representa el número de maneras en que se puede tomar \(n - x\) fracasos de un total de \(N - r\) elementos que hay en la población.

  • \(\binom{N}{n}\) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño \(n\) de una población de tamaño \(N\); [@anderson_estadistica_2008].

Recordando la fórmula para determinar el número de combinaciones en grupos de \(n\) elementos de una población total de \(N\) está dada por:
\[C_{n}^{N} = \binom{N}{n} = \frac{N!}{n!\cdot(N-n)!}\]

Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:

\[ f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} = \frac{ (\frac{r!}{x!\cdot(r-x)!})\cdot(\frac{(N-r)!}{(n-x)!\cdot((N-r) - (n-x))!})}{\frac{N!}{n!\cdot(N-n)!}} \]

\(N\) es el tamaño de población,

\(n\) es el tamaño de la muestra extraída,

\(r\) es el número de elementos en la población original que pertenecen a la categoría deseada (exitosos) y

\(x\) es la variable aleatoria o el número de elementos en la muestra que pertenecen a dicha categoría.

Probabilidad acumulada

\[ F(x) = \sum_{0}^{n}f.x_i \]

Fórmula para valor esperado

\[E(x) = \mu = n \cdot\left(\frac{r}{N}\right)\]

Fórmula para varianza

\[Var(x) = \sigma^{2} = n \cdot\left(\frac{r}{N}\right)\cdot\left(1 - \frac{r}{N}\right)\cdot\left( \frac{N-n}{N-1}\right)\]

Fórmula de la desviación estándar

\[\sigma = \sqrt{Var(x)} = \sqrt{\sigma^{2}}\]

En los siguientes ejercicios también se utilizan funciones de paquetes base de R para la comprensión de la distribución hipergeométrica. Las funciones base que existen para este tipo de distribución son:

Imagen de distribuciones hipergeométrica

Ejemplos:

Ejemplo1: canicas blancas y negras:

Extraer canicas blancas

  • \(N=15\) Total de canicas de la Población

  • \(r = 9\) Canicas blancas. Casos exitosos

  • \(n =\) Cantidad que se extrae \(5\). Tamaño de la muestra

  • \(x=3\) Variable aleatoria que puede tener valores desde \(0\) hasta tamaño de la muestra \(n\)

En alguna literatura o referencias bibliográficas de la fórmula de hipergeométrica, la variable \(r\) es lo mismo que la literal \(k\).

¿Cuál es la probabilidad de extraer tres canicas si se sacan 5 canicas?.

\[ N = 15; r = 9; n = 5; (N-r) = 6; x = 3 \]

\[ f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} = \frac{ (\frac{r!}{x!\cdot(r-x)!})\cdot(\frac{(N-r)!}{(n-x)!\cdot((N-r) - (n-x))!})}{\frac{N!}{n!\cdot(N-n)!}} \]

Entonces, sustituyendo valores de literales:

\[ P(x=3) = \frac{\binom{9}{3} \cdot \binom{15-9}{5-3}}{\binom{15}{5}} = \frac{ (\frac{9!}{3!\cdot(9-3)!})\cdot(\frac{(15-9)!}{(5-3)!\cdot((15-9) - (5-3))!})}{\frac{15!}{5!\cdot(15-5)!}}=\frac{84\times15}{3003}=0.4195 \]

Existe un 41.95% de probabilidades de encontrar 3 canicas blancas de un experimento de extraer 5 de una bolsa que contiene 15 canicas de las cuales 9 son blancas y 6 de color negro.

Haciendo operaciones sería:

N <- 15  # Población
r <- k <- 9 # Canicas blancas Casos exitos
# negras <- (N-k) # Canicas negras # 6
n <- 5 # Extracción de canicas
x <- 3
numerador <- (factorial(r) / (factorial(x) * (factorial(r-x)))) * (factorial(N-r) / (factorial(n-x) * (factorial((N-r)-(n-x)))))
denominador<- factorial(N) / (factorial(n) * factorial(N-n))
prob <- numerador / denominador
prob
## [1] 0.4195804

Directamente con la función dhyper()

La función dhyper() como parte de los paquetes base recibe como m el tamaño de casos exitosos, como n los casos no exitosos o sea N - r y como k el tamaño de la muestra.

# Se inicializaron los valores en el bloque de código anterior.
prob <- dhyper(x=x, m = r, n = N - r, k = n)
prob
## [1] 0.4195804

Cargar script que contiene la función f.prob.hiper() que genera el mismo resultado que dhyper()

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R")

Ejecutando la función

N <- 15  # Población
r <- k <- 9 # Canicas rojas. Casos exitos
# negras <- (N-k) # Canicas negras # 6
n <- 5 # Extracción de canicas
x <- 3
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)
## [1] 0.4195804

Ejemplo2: Baraja española

Suponga la extracción aleatoria de 8 elementos de un conjunto formado por 40 elementos totales (cartas baraja española) de los cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario (no salir oro).


Si se realizan las extracciones sin devolver los elementos extraídos y se identifica a \(x\) al número de elementos del tipo A (oros obtenidos) que se extraen en las 8 cartas; \(x\) seguirá una distribución hipergeométrica de parámetros

AJUSTAR … - \(N = 40\) - Total de barajas

  • \(r = 10\) - Cantidad de oros \(10\)

  • \(n=8\) - Cuantas cartas se extraen \(8\)

¿Cuál es la probabilidad de obtener 4 oros?. Para calcular la probabilidad de obtener \(4\) oros:

  • \(x = 4\)

Calculando con la función dhyper()

N <- 40 # Total de casos
r <- 10  # Cantidad de oros
n <- 8 # Cantidad de extracción o muestra
x <- 4  # Variable aleatoria
dhyper(x = x, m = r, n = (N-r), k = n)
## [1] 0.07483354

Ejecutar función f.prob.hiper() del script previamente cargado

N <- 40 # Total de casos
r <- 10  # Cantidad de casos exitosos a evaluar. Cantidad de cartas que sea oros
n <- 8 # Cantidad de extracción
x <- 4  # Variable aleatoria
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)
## [1] 0.07483354

Ejemplo 3: Lotes de componentes

Lotes con 40 componentes, históricamente hay 3 defectuosos en todo el lote .Si se encuentra más de 3 es inaceptable el lote o es falta de calidad. El procedimiento para obtener muestras del lote consiste en seleccionar 5 componentes al azar y rechazar el lote si se encuentra un componente defectuoso.

¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?

Si se utiliza la distribución hipergeométrica con \(n = 5, N = 40, r = 3\) y \(x = 1\), se encuentra que la probabilidad de obtener un componente defectuoso es:

Solución con dhyper()

N <- 40 # Tamaño de lote
r <- 3  # Casos de Exito
n <- 5  # Extracción muestra
x <- 1  # Variable aleatoria
dhyper(x = x, m = r, n = (N - r), k = n)
## [1] 0.3011134
N <- 40 # Total de casos
r <- 3  # Cantidad de casos exitosos a evaluar. Cantidad de componentes defectuosos
n <- 5 # Cantidad de extracción muestra
x <- 1  # Variable aleatoria
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)
## [1] 0.3011134

Desarrollo

Se presentan ejercicios de distribuciones hipergeométricas, mostrando tablas de distribución y gráfica de la misma, se calculan probabilidades, valores esperados, varianza y desviaciones. Al final se busca la interpretación de cada ejercicio.

Cargar librerías

Para nuevas librerías se requiere instalar con anticipación, ejemplo, install.packages(“cowplot”).

library(dplyr)
library(ggplot2)
library(mosaic) # Gráficos de distribuciones
library(cowplot) #Imágenes en el mismo renglón
library(plotly)
options(scipen=999) # Notación normal
# options(scipen=1) # Notación científica

Cargar funciones

Se carga la función aunque ya estaba previamente cargada

#source("../funciones/funciones.distribuciones.r")
# o
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R")

Interpretación

El caso explica cómo calcular la función de densidad de probabilidad y la función de distribución acumulada utilizando la fórmula de la distribución hipergeométrica. La distribución hipergeométrica se utiliza para calcular la probabilidad de obtener un cierto número de éxitos en una muestra de tamaño n seleccionada de N elementos, donde k son éxitos y N-k son fracasos. El caso también describe las diferencias entre las distribuciones hipergeométrica y binomial, y la fórmula para la función de densidad de probabilidad de la distribución hipergeométrica.

El ejemplo de la fábrica de fusibles que empaca los productos en cajas de 12 unidades, de las cuales se seleccionan al azar 3 para ser inspeccionadas asume que si la caja contiene exactamente 5 fusibles defectuosos y se define la variable aleatoria discreta como el número de fusibles defectuosos en la muestra. A partir de esta situación, se utiliza la función f.hiper.all() para obtener la tabla de distribución, los estadísticos de valor esperado, varianza y desviación estándar, así como los gráficos histograma, densidad y acumulado con respecto a la distribución hipergeométrica.

Luego se realizan varios cálculos de probabilidad utilizando la tabla de distribución y las funciones dhyper(), phyper() y cumsum().