1 Objetivo

Calcular la función de densidad y la función de probabilidad probabilidad acumulada bajo la fórmula de distribución de hipergeométrica.

2 Descripción

Realizar distribuciones de probabilidad conforme a la distribución de probabilidad de Hipergeométrica a partir de valores iniciales de los ejercicios.

Se generan las tablas de probabilidad conforme a distribución hipergeométrica, se identifican los valores de probabilidad cuando la variable discreta xx tenga algún exactamente algún valor, ≤≤ a algún valor o >> o ≥≥, entre otros.

Se utilizan las funciones base dhyper() y phyper() para la probabilidad y función acumulada de la distribución hipergeométrica.

Se utiliza también de manera alternativa la función del enlace f.prob.hiper() https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/funciones/funciones.distribuciones.r que permite calcular la probabilidad de una variable aleatoria discreta bajo la distribución hipergeométrica y conforme a la fórmula.

3 Fundamento teórico

La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo (anderson2008?).

La distribución de probabilidad de la variable aleatoria hipergeométrica xx, el número de éxitos en una muestra aleatoria de tamaño nn que se selecciona de NN artículos, en los que kk se denomina éxito y N–kN–k se le llama fracaso (Camacho Avila 2019).

La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.

Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad para  procesos experimentales en los que no es posible retornar a la situación de partida. (Cañas, n.d.).

Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fi n de determinar si se acepta o no el lote completo (Walpole, Myers, and Myers 2012a).

3.1 Fórmula de función de probabilidad

La fórmula de la distribución hipergeométrica

f(x)=(rx)⋅(N−rn−x)(Nn)f(x)=(rx)⋅(N−rn−x)(Nn)

Dónde:

  • f(x)f(x) es la probabildiad de xx o la función de distribución

  • nn número de ensayos o longitud de la muestra casos exitosos

  • NN número de elementos de la población

  • r o kr o k número de elementos de la población que se extraen de la población

  • xx Valor de la variable aleatoria discreta 0,1,2,3,,,,n0,1,2,3,,,,n (Anderson, Sweeney, and Williams 2008).

  • (rx)(rx) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman xx éxitos de un total de rr éxitos que hay en la población,

  • (N−rn−x)(N−rn−x) parte derecha del numerador representa el número de maneras en que se puede tomar n−xn−x fracasos de un total de N−rN−r elementos que hay en la población.

  • (Nn)(Nn) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño nn de una población de tamaño NN; (Anderson, Sweeney, and Williams 2008).

Recordando la fórmula para determinar el número de combinaciones en grupos de nn elementos de una población total de NN está dada por:

CNn=(Nn)=N!n!⋅(N−n)!CnN=(Nn)=N!n!⋅(N−n)!

Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:

(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!

3.2 Fórmula para valor esperado

E(x)=μ=n⋅(rN)E(x)=μ=n⋅(rN)

3.3 Fórmula para varianza

Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)

3.4 Fórmula de la desviación estándar

σ=Var(x)−−−−−−√=σ2−−√


Ejemplo1: canicas:

  • N=15N=15 Total de canicas o bolitas

  • n=m=9n=m=9 Canicas rojas

  • k=r=5k=r=5 Cantidad que se extrae 55

  • x=3x=3 Variable aleatoria

En alguna literatura de la fórmula de hipergeométrica la variable mm es igual a la literal nn y rr es lo mismo que la literal kk.

(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!

Hide

Entonces, sustituyendo valores de literales:

P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195

Hide

N <- 15
m <- 9 # Canicas rojas
n <- (N-m) # Canicas negras
k <- 5 # Extracción de canicas
x <- 3

# Haciendo operaciones sería
numerador <- factorial(m) / (factorial(x) * (factorial(m-x))) * factorial(N-m) / (factorial(k-x) * (factorial((N-m)-(k-x))))

denominador<- factorial(N) / (factorial(k) * factorial(N-5))

prob <- numerador / denominador
prob
## [1] 0.4195804

Directamente con la función dhyper()

prob <- dhyper(x=x, m = m, n = n, k = k)
prob
## [1] 0.4195804


Ejemplo2: Suponga la extracción aleatoria de 8 elementos de un conjunto formado por 40 elementos totales (cartas baraja española) de los cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario (no salir oro).


Si se realizan las extracciones sin devolver los elementos extraídos y se identifica a xx al número de elementos del tipo A (oros obtenidos) que se extraen en las 8 cartas; xxseguirá una distribución hipergeométrica de parámetros

  • N=40N=40 - Total de barajas

  • m=n=10m=n=10 - Cantidad de oros 1010

  • k=8k=8 - Cuantas cartas se extraen 88

Para calcular la probabilidad de obtener 44 oros:

  • x=4x=4

Calculando con la función dhyper()

Hide

N <- 40 # Total de casos
m <- n <- 8  # Cantidad de oros
k <- r <- 10 # Cantidad de extracción
x <- 4  # Variable aleatoria


dhyper(x = x, m = m, n = (N-m), k = k)
## [1] 0.07483354

Ejemplo 3:

Solución con dhyper()

N <- 40 # Tamaño de lote
m <- 3  # Casos de Exito
k <- 5  # Extracción
x <- 1  # Variable aleatoria

dhyper(x = x, m = m, n = (N - m), k = k)
## [1] 0.3011134

4 Desarrollo

Se presentan ejercicios de distribuciones hipergeométricas, mostrando tablas de distribución y gráfica de la misma, se calculan probabilidades, valores esperados, varianza y desviaciones. Al final se busca la interpretación de cada ejercicio.

4.1 Cargar librerías

Para nuevas librerías se requiere instalar con anticipación, ejemplo, install.packages(“cowplot”).

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(mosaic) # Gráficos de distribuciones
## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2
## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.
## 
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
## 
##     mean
## The following object is masked from 'package:ggplot2':
## 
##     stat
## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally
## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var
## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum
library(cowplot) #Imágenes en el mismo renglón
## 
## Attaching package: 'cowplot'
## The following object is masked from 'package:mosaic':
## 
##     theme_map
options(scipen=999) # Notación normal

# options(scipen=1) # Notación científica