Calcular la función de densidad y la función de probabilidad probabilidad acumulada bajo la fórmula de distribución de hipergeométrica.
Realizar distribuciones de probabilidad conforme a la distribución de probabilidad de Hipergeométrica a partir de valores iniciales de los ejercicios.
Se generan las tablas de probabilidad conforme a distribución hipergeométrica, se identifican los valores de probabilidad cuando la variable discreta xx tenga algún exactamente algún valor, ≤≤ a algún valor o >> o ≥≥, entre otros.
Se utilizan las funciones base dhyper() y phyper() para la probabilidad y función acumulada de la distribución hipergeométrica.
Se utiliza también de manera alternativa la función del enlace f.prob.hiper() https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/funciones/funciones.distribuciones.r que permite calcular la probabilidad de una variable aleatoria discreta bajo la distribución hipergeométrica y conforme a la fórmula.
La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo (anderson2008?).
La distribución de probabilidad de la variable aleatoria hipergeométrica xx, el número de éxitos en una muestra aleatoria de tamaño nn que se selecciona de NN artículos, en los que kk se denomina éxito y N–kN–k se le llama fracaso (Camacho Avila 2019).
La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.
Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad para procesos experimentales en los que no es posible retornar a la situación de partida. (Cañas, n.d.).
Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fi n de determinar si se acepta o no el lote completo (Walpole, Myers, and Myers 2012a).
La fórmula de la distribución hipergeométrica
f(x)=(rx)⋅(N−rn−x)(Nn)f(x)=(rx)⋅(N−rn−x)(Nn)
Dónde:
f(x)f(x) es la probabildiad de xx o la función de distribución
nn número de ensayos o longitud de la muestra casos exitosos
NN número de elementos de la población
r o kr o k número de elementos de la población que se extraen de la población
xx Valor de la variable aleatoria discreta 0,1,2,3,,,,n0,1,2,3,,,,n (Anderson, Sweeney, and Williams 2008).
(rx)(rx) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman xx éxitos de un total de rr éxitos que hay en la población,
(N−rn−x)(N−rn−x) parte derecha del numerador representa el número de maneras en que se puede tomar n−xn−x fracasos de un total de N−rN−r elementos que hay en la población.
(Nn)(Nn) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño nn de una población de tamaño NN; (Anderson, Sweeney, and Williams 2008).
Recordando la fórmula para determinar el número de combinaciones en grupos de nn elementos de una población total de NN está dada por:
CNn=(Nn)=N!n!⋅(N−n)!CnN=(Nn)=N!n!⋅(N−n)!
Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:
(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!
E(x)=μ=n⋅(rN)E(x)=μ=n⋅(rN)
Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)
σ=Var(x)−−−−−−√=σ2−−√
Ejemplo1: canicas:
N=15N=15 Total de canicas o bolitas
n=m=9n=m=9 Canicas rojas
k=r=5k=r=5 Cantidad que se extrae 55
x=3x=3 Variable aleatoria
En alguna literatura de la fórmula de hipergeométrica la variable mm es igual a la literal nn y rr es lo mismo que la literal kk.
(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!
Hide
Entonces, sustituyendo valores de literales:
P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195
Hide
N <- 15
m <- 9 # Canicas rojas
n <- (N-m) # Canicas negras
k <- 5 # Extracción de canicas
x <- 3
# Haciendo operaciones sería
numerador <- factorial(m) / (factorial(x) * (factorial(m-x))) * factorial(N-m) / (factorial(k-x) * (factorial((N-m)-(k-x))))
denominador<- factorial(N) / (factorial(k) * factorial(N-5))
prob <- numerador / denominador
prob
## [1] 0.4195804
Directamente con la función dhyper()
prob <- dhyper(x=x, m = m, n = n, k = k)
prob
## [1] 0.4195804
Ejemplo2: Suponga la extracción aleatoria de 8 elementos de un conjunto formado por 40 elementos totales (cartas baraja española) de los cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario (no salir oro).
Si se realizan las extracciones sin devolver los elementos extraídos y se identifica a xx al número de elementos del tipo A (oros obtenidos) que se extraen en las 8 cartas; xxseguirá una distribución hipergeométrica de parámetros
N=40N=40 - Total de barajas
m=n=10m=n=10 - Cantidad de oros 1010
k=8k=8 - Cuantas cartas se extraen 88
Para calcular la probabilidad de obtener 44 oros:
Calculando con la función dhyper()
Hide
N <- 40 # Total de casos
m <- n <- 8 # Cantidad de oros
k <- r <- 10 # Cantidad de extracción
x <- 4 # Variable aleatoria
dhyper(x = x, m = m, n = (N-m), k = k)
## [1] 0.07483354
Ejemplo 3:
Solución con dhyper()
N <- 40 # Tamaño de lote
m <- 3 # Casos de Exito
k <- 5 # Extracción
x <- 1 # Variable aleatoria
dhyper(x = x, m = m, n = (N - m), k = k)
## [1] 0.3011134
Se presentan ejercicios de distribuciones hipergeométricas, mostrando tablas de distribución y gráfica de la misma, se calculan probabilidades, valores esperados, varianza y desviaciones. Al final se busca la interpretación de cada ejercicio.
Para nuevas librerías se requiere instalar con anticipación, ejemplo, install.packages(“cowplot”).
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(mosaic) # Gráficos de distribuciones
## Registered S3 method overwritten by 'mosaic':
## method from
## fortify.SpatialPolygonsDataFrame ggplot2
##
## The 'mosaic' package masks several functions from core packages in order to add
## additional features. The original behavior of these functions should not be affected by this.
##
## Attaching package: 'mosaic'
## The following object is masked from 'package:Matrix':
##
## mean
## The following object is masked from 'package:ggplot2':
##
## stat
## The following objects are masked from 'package:dplyr':
##
## count, do, tally
## The following objects are masked from 'package:stats':
##
## binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
## quantile, sd, t.test, var
## The following objects are masked from 'package:base':
##
## max, mean, min, prod, range, sample, sum
library(cowplot) #Imágenes en el mismo renglón
##
## Attaching package: 'cowplot'
## The following object is masked from 'package:mosaic':
##
## theme_map
options(scipen=999) # Notación normal
# options(scipen=1) # Notación científica