Calcular la función de densidad y la función de probabilidad probabilidad acumulada bajo la fórmula de distribución de hipergeométrica.
Realizar distribuciones de probabilidad conforme a la distribución de probabilidad de Hipergeométrica a partir de valores iniciales de los ejercicios.
Se generan las tablas de probabilidad conforme a distribución hipergeométrica, se identifican los valores de probabilidad cuando la variable discreta xx tenga algún exactamente algún valor, ≤≤ a algún valor o >> o ≥≥, entre otros.
Se utilizan las funciones base dhyper() y phyper() para la probabilidad y función acumulada de la distribución hipergeométrica.
Se utiliza también de manera alternativa la función del enlace f.prob.hiper() <https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/funciones/funciones.distribuciones.r> que permite calcular la probabilidad de una variable aleatoria discreta bajo la distribución hipergeométrica y conforme a la fórmula.
La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo [@anderson2008].
La distribución de probabilidad de la variable aleatoria hipergeométrica xx, el número de éxitos en una muestra aleatoria de tamaño nn que se selecciona de NN artículos, en los que kk se denomina éxito y N–kN–k se le llama fracaso [@camacho_avila_probabilidad_2019].
La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.
Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad, para procesos experimentales en los que no es posible retornar a la situación de partida. [@cañas].
Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fi n de determinar si se acepta o no el lote completo [@walpole2012].
La fórmula de la distribución hipergeométrica
f(x)=(rx)⋅(N−rn−x)(Nn)f(x)=(rx)⋅(N−rn−x)(Nn)
Dónde:
f(x)f(x) es la probabildiad de xx o la función de distribución
nn número de ensayos o longitud de la muestra casos exitosos
NN número de elementos de la población
r o kr o k número de elementos de la población que se extraen de la población
xx Valor de la variable aleatoria discreta 0,1,2,3,,,,n0,1,2,3,,,,n [@anderson_estadistica_2008].
(rx)(rx) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman xx éxitos de un total de rr éxitos que hay en la población,
(N−rn−x)(N−rn−x) parte derecha del numerador representa el número de maneras en que se puede tomar n−xn−x fracasos de un total de N−rN−r elementos que hay en la población.
(Nn)(Nn) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño nn de una población de tamaño NN; [@anderson_estadistica_2008].
Recordando la fórmula para determinar el número de combinaciones en grupos de nn elementos de una población total de NN está dada por:
CNn=(Nn)=N!n!⋅(N−n)!CnN=(Nn)=N!n!⋅(N−n)!
Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:
(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!
E(x)=μ=n⋅(rN)E(x)=μ=n⋅(rN)
Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)Var(x)=σ2=n⋅(rN)⋅(1−rN)⋅(N−nN−1)
σ=Var(x)−−−−−−√=σ2−−√σ=Var(x)=σ2
Ejemplo1: canicas:
Extraer canicas rojas
N=15N=15 Total de canicas o bolitas
n=m=9n=m=9 Canicas rojas
k=r=5k=r=5 Cantidad que se extrae 55
x=3x=3 Variable aleatoria
En alguna literatura de la fórmula de hipergeométrica la variable mm es igual a la literal nn y rr es lo mismo que la literal kk.
(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!(x)=(rx)⋅(N−rn−x)(Nn)=(r!x!⋅(r−x)!)⋅((N−r)!(n−x)!⋅((N−r)−(n−x))!)N!n!⋅(N−n)!
Entonces, sustituyendo valores de literales:
P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195P(x=3)=(93)⋅(15−95−3)(155)=(9!3!⋅(9−3)!)⋅((15−9)!(5−3)!⋅((15−9)−(5−3))!)15!5!⋅(15−5)!=84×153003=0.4195
Existe un 41.95% de probabilidades de extraer 3 canicas rojas de un experimento de extraer 5 de una bolsa que contiene 15 canicas de las cuales 9 son rojas y 6 de color negro.
Code
## [1] 0.4195804
Directamente con la función dhyper()
Code
## [1] 0.4195804
Ejemplo2: Suponga la extracción aleatoria de 8 elementos de un conjunto formado por 40 elementos totales (cartas baraja española) de los cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario (no salir oro).
Si se realizan las extracciones sin devolver los elementos extraídos y se identifica a xx al número de elementos del tipo A (oros obtenidos) que se extraen en las 8 cartas; xxseguirá una distribución hipergeométrica de parámetros
N=40N=40 - Total de barajas
m=n=10m=n=10 - Cantidad de oros 1010
k=8k=8 - Cuantas cartas se extraen 88
Para calcular la probabilidad de obtener 44 oros:
Calculando con la función dhyper()
Code
## [1] 0.07483354
Code
## [1] 0.07483354
Ejemplo 3:
Lotes con 40 componentes cada uno que contengan 3 o más defectuosos se consideran inaceptables. El procedimiento para obtener muestras del lote consiste en seleccionar 5 componentes al azar y rechazar el lote si se encuentra un componente defectuoso.
¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?
Si se utiliza la distribución hipergeométrica con n = 5, N = 40, k = 3 y x = 1, se encuentra que la probabilidad de obtener un componente defectuoso es:
Solución con dhyper()
Code
## [1] 0.3011134
Se presentan ejercicios de distribuciones hipergeométricas, mostrando tablas de distribución y gráfica de la misma, se calculan probabilidades, valores esperados, varianza y desviaciones. Al final se busca la interpretación de cada ejercicio.
Para nuevas librerías se requiere instalar con anticipación, ejemplo, install.packages(“cowplot”).
Code
Code
Una empresa fabrica fusibles que empaca en cajas de 12 unidades cada una.
Asuma que un inspector selecciona al azar 33 de los 1212 fusibles de una caja para inspeccionarlos.
Si la caja contiene exactamente 5 fusibles defectuosos,
En este ejercicio::
n=5n=5 Número de casos exitosos
N=12N=12 Total de elementos
r=3r=3 Extracción de la muestra
xx es la cantidad de fusible defectuosos como variable aleatoria discreta, desde 00 hasta nn o hasta un valor específico[@anderson_estadistica_2008].
Primero inicializar valores
Code
Distribución de la probabilidad por medio de la función creada llamada f.prob.hiper() y con cumsum()
Code
## x f.prob.x f.acum.x
## 1 0 0.04545455 0.04545455
## 2 1 0.31818182 0.36363636
## 3 2 0.47727273 0.84090909
## 4 3 0.15909091 1.00000000
Distribución de la probabilidad por medio de la función base de R llamada dhyper()
Deben generarse los mismos datos en tabla1 y tabla2
Code
## x f.prob.x f.acum.x
## 1 0 0.04545455 0.04545455
## 2 1 0.31818182 0.36363636
## 3 2 0.47727273 0.84090909
## 4 3 0.15909091 1.00000000
Se presentan la gráfica de probabilidad y la probabilidad acumulada en g1 y g2 respectivamente.
Code
¿Cuál es la probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso?
Utilizando la tabla de distribución.
Code
## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: 31.8182 %"
Utilizando dhyper()
Code
## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: 31.8182 %"
Probabilidad de menos de tres fusibles
¿Cuál es la probabilidad de encontrar menos de tres fusibles defectuosos
P(x≤2)=P(X=0)+P(x=1)+P(x=2)P(x≤2)=P(X=0)+P(x=1)+P(x=2) o la función acumulada hasta tres F(x=3)F(x=3)
Utilizando la tabla de distribución
Code
## [1] "La probabilidad de menos de tres fusibles: 84.0909 %"
Utilizando sum(dhyper())
Code
## [1] "La probabilidad de menos de tres fusibles: 84.0909 %"
Utilizando phyper()
Code
## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: 84.0909 %"
¿Cuál es el valor esperado?
Code
## [1] "El valor esperado o media de este ejercicios es de: 1.25"
¿Cuál es la varianza y la desviación estándar?. También se utilizan las funciones previamente preparadas.
Code
## [1] "El valor de la varianza es de: 0.5966 y la desviación std es de: 0.7724"
Existe una probabilidad de aproximadamente 47.72% de que suceda exactamente un fusible defectuoso.
Existe una probabilidad aproximada del 95% de que sucedan fusibles defectuosos menores a 3 componentes
El Valor esperado de 1.25 significa lo que en promedio se espera que suceda por cualquier valor de la variable discreta
La varianza es de 0.5966 y la desviación es de 0.7724 significan el grado de dispersión de los valores de la distribución o que tanto se alejan del valor medio en la distribución de probabilidad en este caso hipergeométrica.
Lotes con 4040 componentes cada uno que contengan 3 o más defectuosos se consideran inaceptables. El procedimiento para obtener muestras del lote consiste en seleccionar 55 componentes al azar y rechazar el lote si se encuentra un componente defectuoso. En todo el lote hay 33 defectuosos? [@camacho_avila_probabilidad_2019], [@walpole_probabilidad_2012]
n=3n=3,
N=40N=40,
k=5k=5 y
x=0,1,2,3,4…nx=0,1,2,3,4…n
Code
Se construye la tabla de distribución
Code
## x f.prob.x f.acum.x
## 1 0 0.66244939 0.6624494
## 2 1 0.30111336 0.9635628
## 3 2 0.03542510 0.9989879
## 4 3 0.00101215 1.0000000
Code
¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?. P(x=1)P(x=1)
Code
## [1] "La probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso de tres es: 30.1113 %"
¿Cuál es la probabilidad de encontrar menos de tres componentes defectuosos P(x≤3)=P(x=0)+P(x=1)+P(x=2)+P(x=3)P(x≤3)=P(x=0)+P(x=1)+P(x=2)+P(x=3) o la función acumulada F(x=3)F(x=3)
Code
## [1] "La probabilidad de encontrar menos de tres componentes 1"
Code
## [1] "El valor esperado o media de este ejercicios es de: 4.625"
Code
## [1] "El valor de la varianza es de: 2.2074 y la desviación std es de: 1.4857"
En este ejercicio en su contexto, sólo 30% de las veces detecta un lote malo (con 3 componentes defectuosos). [@camacho_avila_probabilidad_2019].
Se tiene un lote de 100100 artículos de los cuales 1212 están defectuosos. Se extraen lotes de 1010.
Code
Distribución de la probabilidad por medio de la función creada llamada f.prob.hiper()
Code
## x f.prob.x f.acum.x
## 1 0 0.26075027 0.2607503
## 2 1 0.39607636 0.6568266
## 3 2 0.24507225 0.9018989
## 4 3 0.08068222 0.9825811
## 5 4 0.01549689 0.9980780
## 6 5 0.00179241 0.9998704
## 7 6 0.00012447 0.9999949
## 8 7 0.00000502 0.9999999
## 9 8 0.00000011 1.0000000
## 10 9 0.00000000 1.0000000
## 11 10 0.00000000 1.0000000
## 12 11 0.00000000 1.0000000
## 13 12 0.00000000 1.0000000
Code
¿Cuál es la probabilidad de que haya 3 defectuosos en una muestra de 10? P(x=3)P(x=3)
Code
## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"
Con la función dhyper()
Code
## [1] 0.08068222
Code
## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"
¿Cuál es el valor esperado?
Code
## [1] "El valor esperado o media de este ejercicios es de: 8.8"
¿Cuál es la varianza y la desviación estándar?
Code
## [1] "El valor de la varianza es de: 4.2 y la desviación std es de: 2.0494"
Pendiente
Un estudiante tiene que preparar cien temas. En el examen se sacan tres a sorteo, de los cuales deberá exponer uno y aprobar al menos uno. El estudiante decide estudiar o preparar solamente la mitad y probar suerte. [@quintela2019].
Valores iniciales
Code
Se construye la tabla de distribución
Code
## x f.prob.x f.acum.x
## 1 0 0.1212121 0.1212121
## 2 1 0.3787879 0.5000000
## 3 2 0.3787879 0.8787879
## 4 3 0.1212121 1.0000000
Code
Se calcula la probabilidad cuando P(x=0)P(x=0)
Code
## [1] "La probabilidad de que no apruebe es de: 0.121212121212121 o sea 12.1212 %"
Se requiere al menos 1 de los temas, o lo que es lo mismo 1−F(x=0)1−F(x=0)
Code
## [1] "La probabilidad de que apruebe es de: 0.878787878787879 o sea 87.8788 %"
O se puede usar la función phyper() con el parámetro lower.tail = FALSE.
Code
## [1] "La probabilidad de que apruebe es de: 0.878787878787879 o sea 87.8788 %"
En este caso los ejercicios que vimos utilizamos una formula que se llama hipergeometrica esta es una distribución discreta que modela el número de eventos en una muestra de tamaño fijo cuando se conoce el número total de elementos en la población de la cual proviene la muestra.
T este caso porque se vieron las graficas de probabilidad ya que muestra en forma conjunta los datos que se estan viendo. y esto nos aporta una gran variedad de formas de interpretar de mejor manera el caso tomando en cuenta como como gracias a ellas identidicamos mejor las cosas