Objetivo

Calcular la función de densidad y la función de probabilidad probabilidad acumulada bajo la fórmula de distribución hipergeométrica.

Descripción

Realizar cálculos de probabilidad conforme a la distribución de probabilidad hipergeométrica a partir de valores iniciales de los ejercicios.

Se generan las tablas de probabilidad conforme a distribución hipergeométrica, se identifican los valores de probabilidad cuando la variable discreta x tenga algún exactamente algún valor, < a algún valor o > o >, entre otros.

Se utilizan las funciones base dhyper() y phyper() para la probabilidad y función acumulada de la distribución hipergeométrica.

Se utilizan las funciones rhyper() para generación de valores aleatorios y qhyper() para encontrar valores de x a partir de probabilidades acumuladas.

Se utiliza también de manera alternativa la función del enlace f.prob.hiper() y f.prob.hiper.all() que se encuentra en el archivo:

https://raw.githubusercontenthttps://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R

Esta función, permite calcular la probabilidad de una variable aleatoria discreta bajo la distribución hipergeométrica y conforme a la fórmula.

Fundamento teórico

La distribución de probabilidad hipergeométrica está estrechamente relacionada con la distribución binomial. Pero difieren en dos puntos: en la distribución hipergeométrica, los ensayos no son independientes y la probabilidad de éxito varía de ensayo a ensayo (anderson2008?).

La distribución de probabilidad de la variable aleatoria hipergeométrica x, el número de éxitos en una muestra aleatoria de tamaño n que se selecciona de N artículos, en los que k se denomina éxito y N - k se le llama fracaso (Camacho Avila 2019).

La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se extraigan muestras o se realicen experiencias repetidas sin devolución del elemento extraído o sin retornar a la situación experimental inicial.

Es una distribución fundamental en el estudio de muestras pequeñas de poblaciones pequeñas y en el cálculo de probabilidades de juegos de azar. Tiene grandes aplicaciones en el control de calidad, para procesos experimentales en los que no es posible retornar a la situación de partida (cañas?).

Como en el caso de la distribución binomial, la distribución hipergeométrica se aplica en el muestreo de aceptación, donde se toman muestras del material o las partes de los lotes con el fin de determinar si se acepta o no el lote completo (walpole2012?).

Fórmula de función de probabilidad

La fórmula de la distribución hipergeométrica

\[ f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} \]

Dónde:

f(x) es la probabilidad de x o la función de distribución
n número de ensayos o longitud de la muestra casos que se extraen
N número de elementos de la población
r número de elementos exitosos en relación a la población
x Valor de la variable aleatoria discreta 0,1,2,3,……, n muestra hasta el valor nn de la muestra (Anderson, Sweeney, and Williams 2008).
(rx)(rx) Parte izquierda del numerador, representan el número de formas (combinaciones) en que se toman xx éxitos de un total de rr éxitos que hay en la población,
(N−rn−x)(N−rn−x) parte derecha del numerador representa el número de maneras en que se puede tomar n−xn−x fracasos de un total de N−rN−r elementos que hay en la población.
(Nn)(Nn) como denominador representan el número de maneras (cantidad de combinaciones) en que es posible tomar una muestra de tamaño nn de una población de tamaño N; (Anderson, Sweeney, and Williams 2008).

Recordando la fórmula para determinar el número de combinaciones en grupos de n elementos de una población total de N está dada por:

\[ C_{n}^{N} = \binom{N}{n} = \frac{N!}{n!\cdot(N-n)!} \]

Entonces desarrollando la fórmula con las combinaciones la función de probabilidad hipergeométrica queda de la siguiente manera:

\[ f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} = \frac{ (\frac{r!}{x!\cdot(r-x)!})\cdot(\frac{(N-r)!}{(n-x)!\cdot((N-r) - (n-x))!})}{\frac{N!}{n!\cdot(N-n)!}} \]

N es el tamaño de población,

n es el tamaño de la muestra extraída,

r es el número de elementos en la población original que pertenecen a la categoría deseada (exitosos) y

x es la variable aleatoria o el número de elementos en la muestra que pertenecen a dicha categoría.

Probabilidad acumulada

\[ F(x) = \sum_{0}^{n}f.x_i \]

Fórmula para valor esperado

\[ E(x) = \mu = n \cdot\left(\frac{r}{N}\right) \]

Fórmula para varianza

\[ Var(x) = \sigma^{2} = n \cdot\left(\frac{r}{N}\right)\cdot\left(1 - \frac{r}{N}\right)\cdot\left( \frac{N-n}{N-1}\right) \]

Fórmula de la desviación estándar

\[ \sigma = \sqrt{Var(x)} = \sqrt{\sigma^{2}} \]

En los siguientes ejercicios también se utilizan funciones de paquetes base de R para la comprensión de la distribución hipergeométrica. Las funciones base que existen para este tipo de distribución son:

Imagen de distribuciones hipergeométrica

Ejemplos:

Ejemplo1: canicas blancas y negras:

Extraer canicas blancas

N = 15 Total de canicas de la Población
r = 9 Canicas blancas. Casos exitosos
n = Cantidad que se extrae 55. Tamaño de la muestra
x = 3 Variable aleatoria que puede tener valores desde 0 hasta tamaño de la muestra n

En alguna literatura o referencias bibliográficas de la fórmula de hipergeométrica, la variable r es lo mismo que la literal k.

¿Cuál es la probabilidad de extraer tres canicas si se sacan 5 canicas?.

\[ N = 15; r = 9; n = 5; (N-r) = 6; x = 3 \]

\[ f(x) = \frac{\binom{r}{x} \cdot \binom{N-r}{n-x}}{\binom{N}{n}} = \frac{ (\frac{r!}{x!\cdot(r-x)!})\cdot(\frac{(N-r)!}{(n-x)!\cdot((N-r) - (n-x))!})}{\frac{N!}{n!\cdot(N-n)!}} \]

Entonces, sustituyendo valores de literales:

\[ P(x=3) = \frac{\binom{9}{3} \cdot \binom{15-9}{5-3}}{\binom{15}{5}} = \frac{ (\frac{9!}{3!\cdot(9-3)!})\cdot(\frac{(15-9)!}{(5-3)!\cdot((15-9) - (5-3))!})}{\frac{15!}{5!\cdot(15-5)!}}=\frac{84\times15}{3003}=0.4195 \]

Existe un 41.95% de probabilidades de encontrar 3 canicas blancas de un experimento de extraer 5 de una bolsa que contiene 15 canicas de las cuales 9 son blancas y 6 de color negro.

Haciendo operaciones sería:

N <- 15  # Población
r <- k <- 9 # Canicas blancas Casos exitos
# negras <- (N-k) # Canicas negras # 6
n <- 5 # Extracción de canicas
x <- 3
numerador <- (factorial(r) / (factorial(x) * (factorial(r-x)))) * (factorial(N-r) / (factorial(n-x) * (factorial((N-r)-(n-x)))))
denominador<- factorial(N) / (factorial(n) * factorial(N-n))
prob <- numerador / denominador
prob

## [1] 0.4195804

Directamente con la función dhyper()

La función dhyper() como parte de los paquetes base recibe como m el tamaño de casos exitosos, como n los casos no exitosos o sea N - r y como k el tamaño de la muestra.

# Se inicializaron los valores en el bloque de código anterior.
prob <- dhyper(x=x, m = r, n = N - r, k = n)
prob

## [1] 0.4195804

Cargar script que contiene la función f.prob.hiper() que genera el mismo resultado que dhyper()

source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R")

## Registered S3 method overwritten by 'mosaic':
##   method                           from   
##   fortify.SpatialPolygonsDataFrame ggplot2

## 
## The 'mosaic' package masks several functions from core packages in order to add 
## additional features.  The original behavior of these functions should not be affected by this.

## 
## Attaching package: 'mosaic'

## The following objects are masked from 'package:dplyr':
## 
##     count, do, tally

## The following object is masked from 'package:Matrix':
## 
##     mean

## The following object is masked from 'package:gtools':
## 
##     logit

## The following object is masked from 'package:ggplot2':
## 
##     stat

## The following objects are masked from 'package:stats':
## 
##     binom.test, cor, cor.test, cov, fivenum, IQR, median, prop.test,
##     quantile, sd, t.test, var

## The following objects are masked from 'package:base':
## 
##     max, mean, min, prod, range, sample, sum

## 
## Attaching package: 'cowplot'

## The following object is masked from 'package:mosaic':
## 
##     theme_map

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:mosaic':
## 
##     do

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

Ejecutando la función

N <- 15  # Población
r <- k <- 9 # Canicas rojas. Casos exitos
# negras <- (N-k) # Canicas negras # 6
n <- 5 # Extracción de canicas
x <- 3
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)

## [1] 0.4195804

Ejemplo2: Baraja española

Suponga la extracción aleatoria de 8 elementos de un conjunto formado por 40 elementos totales (cartas baraja española) de los cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario (no salir oro).

Si se realizan las extracciones sin devolver los elementos extraídos y se identifica a x al número de elementos del tipo A (oros obtenidos) que se extraen en las 8 cartas; x seguirá una distribución hipergeométrica de parámetros

AJUSTAR … - N = 40 - Total de barajas

r = 10 - Cantidad de oros 10
n = 8 - Cuantas cartas se extraen 8

¿Cuál es la probabilidad de obtener 4 oros?. Para calcular la probabilidad de obtener 44 oros:

x = 4

Calculando con la función dhyper()

N <- 40 # Total de casos
r <- 10  # Cantidad de oros
n <- 8 # Cantidad de extracción o muestra
x <- 4  # Variable aleatoria
dhyper(x = x, m = r, n = (N-r), k = n)

## [1] 0.07483354

Ejecutar función f.prob.hiper() del script previamente cargado

N <- 40 # Total de casos
r <- 10  # Cantidad de casos exitosos a evaluar. Cantidad de cartas que sea oros
n <- 8 # Cantidad de extracción
x <- 4  # Variable aleatoria
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)

## [1] 0.07483354

Ejemplo 3: Lotes de componentes

Lotes con 40 componentes, históricamente hay 3 defectuosos en todo el lote .Si se encuentra más de 3 es inaceptable el lote o es falta de calidad. El procedimiento para obtener muestras del lote consiste en seleccionar 5 componentes al azar y rechazar el lote si se encuentra un componente defectuoso.

¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?

Si se utiliza la distribución hipergeométrica con n = 5, N = 40, r = 3 y x = 1, se encuentra que la probabilidad de obtener un componente defectuoso es:

Solución con dhyper()

N <- 40 # Tamaño de lote
r <- 3  # Casos de Exito
n <- 5  # Extracción muestra
x <- 1  # Variable aleatoria
dhyper(x = x, m = r, n = (N - r), k = n)

## [1] 0.3011134

N <- 40 # Total de casos
r <- 3  # Cantidad de casos exitosos a evaluar. Cantidad de componentes defectuosos
n <- 5 # Cantidad de extracción muestra
x <- 1  # Variable aleatoria
f.prob.hiper(x = x, poblacion = N, muestra = n, exitosos = r)

## [1] 0.3011134

Desarrollo

Se presentan ejercicios de distribuciones hipergeométricas, mostrando tablas de distribución y gráfica de la misma, se calculan probabilidades, valores esperados, varianza y desviaciones. Al final se busca la interpretación de cada ejercicio.

Cargar librerías

Para nuevas librerías se requiere instalar con anticipación, ejemplo, install.packages(“cowplot”).

library(dplyr)
library(ggplot2)
library(mosaic) # Gráficos de distribuciones
library(cowplot) #Imágenes en el mismo renglón
library(plotly)
options(scipen=999) # Notación normal
# options(scipen=1) # Notación científica

Cargar funciones

Se carga la función aunque ya estaba previamente cargada

#source("../funciones/funciones.distribuciones.r")
# o
source("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/2023/funciones/funciones%20para%20disribuciones%20de%20probabilidad.R")

Fábrica de fusibles

Una empresa fabrica fusibles que empaca en cajas de 12 unidades cada una.

Asuma que un inspector selecciona al azar 3 de los 12 fusibles de una caja para inspeccionarlos.
Si la caja contiene exactamente 5 fusibles defectuosos,
En este ejercicio::
N = 12 Total de elementos
n = 3 Extracción de la muestra
r = 5 Número de casos exitosos
x es la cantidad de fusible defectuosos como variable aleatoria discreta, desde 00 hasta nn o hasta un valor específico(Anderson, Sweeney, and Williams 2008).

A partir de este ejercicio se utiliza la función f.hiper.all() del script cargado con anticipación a través de la función source().

Esta función devuelve la tabla de distribución, los estadísticos de valor esperado o esperanza matemática (media de la distribución); la varianza y la desviación estándar como medidas para identificar que tanto varía con respecto al valor esperado; los gráficos histograma, densidad y acumulado con respecto a la distribución hipergeométrica.

Tabla de probabilidad desde cero a tres

Primero inicializar valores

N <- 12 # Población
n <- 3  # Muestra
r <- 5  # Casos exitosos
x <- 0:r

Se manda llamar la función y dejar todo en la variable resultado

resultado <- f.hiper.all(poblacion = N, muestra = n, exitosos = r)

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Distribución de la probabilidad por medio de la función creada llamada f.prob.hiper() y con cumsum()

tabla <- resultado$tabla
tabla

##   x        f.x       F.x
## 1 0 0.15909091 0.1590909
## 2 1 0.47727273 0.6363636
## 3 2 0.31818182 0.9545455
## 4 3 0.04545455 1.0000000

Gráfica de probabilidad

Se presentan la gráfica de probabilidad con histograma y la densidad respectivamente. Se utiliza la llamada de la variable resultado.

plot_grid(resultado$g.dens, resultado$g_all$acum)

Histograma y acumulado

plot_grid(resultado$g_barra, resultado$g_all$acum)

Usando plotly para visualizaciones dinámicas

resultado$g.hist.plotly

resultado$g.acum.plotly

Probabilidad uno de tres

¿Cuál es la probabilidad de que el inspector encuentre que uno de los tres fusibles esté defectuoso?

Utilizando la tabla de distribución.

x <- 1
prob <- tabla$f.x[x+1]
paste("La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: ", round(prob * 100,4), "%")

## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es:  47.7273 %"

Utilizando dhyper()

prob <- dhyper(x = 1, m = r, n = N - r, k = n)
paste("La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: ", round(prob * 100,4), "%")

## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es:  47.7273 %"

Probabilidad de menos de tres fusibles

¿Cuál es la probabilidad de encontrar menos de tres fusibles defectuosos

\[ P(x\leq2) = P(X=0) + P(x=1) + P(x=2) \]

o la función acumulada hasta tres F(x = 3)

Utilizando la tabla de distribución

x <- 2
prob <- tabla$F.x[x+1]
paste("La probabilidad de menos de tres fusibles: ", round(prob * 100,4), "%")

## [1] "La probabilidad de menos de tres fusibles:  95.4545 %"

Utilizando sum(dhyper())

prob <- sum(dhyper(x = 0:x, m = r, n = N - r, k = n))
paste("La probabilidad de menos de tres fusibles: ", round(prob * 100,4), "%")

## [1] "La probabilidad de menos de tres fusibles:  95.4545 %"

Utilizando phyper()

prob <- phyper(q = x,  m = r, n = N - r, k = n)
paste("La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es: ", round(prob * 100,4), "%")

## [1] "La probabilidad de que el inspector encuentre que uno de los tres fusibles está defectuoso es:  95.4545 %"

Valor esperado

¿Cuál es el valor esperado?

Mandar llamar la función creada anticipadamente f.va.hiper().

VE <- resultado$VE
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  1.25"

Varianza y desviación

¿Cuál es la varianza y la desviación estándar?. También se utilizan las funciones previamente preparadas.

varianza <- resultado$varianza
desvstd <- resultado$desv.std
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  0.5966  y la desviación std es de:  0.7724"

Interpretación

Existe una probabilidad de aproximadamente 47.72% de que suceda exactamente un fusible defectuoso.

Existe una probabilidad aproximada del 95% de que sucedan fusibles defectuosos menores a 3 componentes

El Valor esperado de 1.25 significa lo que en promedio se espera que suceda por cualquier valor de la variable discreta

La varianza es de 0.5966 y la desviación es de 0.7724 significan el grado de dispersión de los valores de la distribución o que tanto se alejan del valor medio en la distribución de probabilidad en este caso hipergeométrica.

Lote de Componentes

Lotes con 100 componentes cada uno que contengan 6 o más defectuosos se consideran inaceptables. El procedimiento para obtener muestras del lote consiste en seleccionar 10 componentes al azar y rechazar el lote si se encuentra un componente defectuoso. En todo el lote hay 6 defectuosos.

(Camacho Avila 2019), (Walpole, Myers, and Myers 2012)

N=100,
n=10,
r=6 y
x=0,1,2,3,4…n

Tabla de probabilidad

Primero inicializar valores

# Inicializar valores
N <- 100     # Tamaño total del lote
n <- 10      # Tamaño de la muestra
r <- 6       # Número total de defectuosos
x <- 0:n     # Valores posibles de defectuosos en la muestra

# Cálculo de probabilidades
fx <- dhyper(x, m = r, n = N - r, k = n)
Fx <- phyper(x, m = r, n = N - r, k = n)

# Construcción de la tabla
tabla <- data.frame(
  Defectuosos_en_muestra = x,
  Probabilidad_fx = round(fx, 5),
  Probabilidad_acumulada_Fx = round(Fx, 5)
)

# Mostrar la tabla
print(tabla)

##    Defectuosos_en_muestra Probabilidad_fx Probabilidad_acumulada_Fx
## 1                       0         0.52230                   0.52230
## 2                       1         0.36869                   0.89099
## 3                       2         0.09646                   0.98745
## 4                       3         0.01183                   0.99928
## 5                       4         0.00071                   0.99998
## 6                       5         0.00002                   1.00000
## 7                       6         0.00000                   1.00000
## 8                       7         0.00000                   1.00000
## 9                       8         0.00000                   1.00000
## 10                      9         0.00000                   1.00000
## 11                     10         0.00000                   1.00000

N <- 100  # Población
n <- 10   # Muestra
r <- 6   # Casos Exitosos
x <- 0:n # variable aleatoria discreta x

resultado <- f.hiper.all(poblacion = N, muestra = n, exitosos = r)

Se construye la tabla de distribución

tabla <- resultado$tabla
tabla

##     x        f.x       F.x
## 1   0 0.52230475 0.5223047
## 2   1 0.36868571 0.8909904
## 3   2 0.09645847 0.9874489
## 4   3 0.01182633 0.9992752
## 5   4 0.00070555 0.9999808
## 6   5 0.00001903 0.9999998
## 7   6 0.00000018 1.0000000
## 8   7 0.00000000 1.0000000
## 9   8 0.00000000 1.0000000
## 10  9 0.00000000 1.0000000
## 11 10 0.00000000 1.0000000

Gráfica de probabilidad

Se presentan la gráfica de probabilidad con histograma y la densidad respectivamente. Se utiliza la llamada de la variable resultado.

plot_grid(resultado$g.dens, resultado$g_all$dens)

Histograma y acumulado

plot_grid(resultado$g_barra, resultado$g_all$acum)

Usando plotly para visualizaciones dinámicas

resultado$g.hist.plotly

resultado$g.acum.plotly

Probabilidad de exactamente un componente

¿Cuál es la probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso, si en todo el lote hay 3 defectuosos?. f(x = 1)

x <- 1
prob <- tabla$f.x[x+1]
paste("La probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso de tres es: ", round(prob * 100,4), "%")

## [1] "La probabilidad de que, en la muestra, se encuentre exactamente un componente defectuoso de tres es:  36.8686 %"

Probabilidad de a lo más tres

¿Cuál es la probabilidad de encontrar menos de tres componentes defectuosos

\[ P(x \leq3) = P(x=0)+P(x=1)+P(x=2)+P(x=3) \]

o la función acumulada F(x = 3)

x <- 3
prob <- phyper(q = x,m = r, n = N - r, k = n)
paste ("La probabilidad de encontrar menos de tres componentes", round(prob, 4))

## [1] "La probabilidad de encontrar menos de tres componentes 0.9993"

¿Cuál es el valor esperado?

VE <- resultado$VE
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  0.6"

¿Cuál es la varianza y la desviación estándar?

varianza <- resultado$varianza
desvstd <- resultado$desv.std
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  0.5127  y la desviación std es de:  0.716"

Interpretación

En este ejercicio en su contexto, hay un 89% de probabilidades de detectar 1 componente malo de una muestra de 10 de entre 100. Por lo que el lote se rechaza (Camacho Avila 2019).

Artículos defectuosos

Se tiene un lote de 100 artículos de los cuales 12 están defectuosos. Se extraen lotes de 10.

Tabla de distribución

Primero inicializar valores

N <- 100
n <- 10
r <- 12
x <- 0:n

Distribución de la probabilidad por medio de la función creada llamada f.hiper.all() en la variable resultado

resultado <- f.hiper.all(poblacion = N, muestra = n, exitosos = r)

tabla <- resultado$tabla
tabla

##     x        f.x       F.x
## 1   0 0.26075027 0.2607503
## 2   1 0.39607636 0.6568266
## 3   2 0.24507225 0.9018989
## 4   3 0.08068222 0.9825811
## 5   4 0.01549689 0.9980780
## 6   5 0.00179241 0.9998704
## 7   6 0.00012447 0.9999949
## 8   7 0.00000502 0.9999999
## 9   8 0.00000011 1.0000000
## 10  9 0.00000000 1.0000000
## 11 10 0.00000000 1.0000000

Gráfica de probabilidad

Se presentan la gráfica de probabilidad con histograma y la densidad respectivamente. Se utiliza la llamada de la variable resultado.

plot_grid(resultado$g.dens, resultado$g_all$acum)

Histograma y acumulado

plot_grid(resultado$g_barra, resultado$g_all$acum)

Usando plotly para visualizaciones interactivas

resultado$g.hist.plotly

resultado$g.acum.plotly

Probabilidad de tres defectuosos

¿Cuál es la probabilidad de que haya 3 defectuosos en una muestra de 10? P(x = 3)

x <- 3
prob <- tabla$f.x[x+1]
paste("La probabilidad de que haya 3 defectuosos en una muestra de 10 es de", prob)

## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"

Con la función dhyper()

x <- 3
dhyper(x = x, m = r, n = N - r, k = n)

## [1] 0.08068222

paste("La probabilidad de que haya 3 defectuosos en una muestra de 10 es de", prob)

## [1] "La probabilidad de que haya 3 defectuosos en una muestra de 10 es de 0.08068222"

Valor esperado

¿Cuál es el valor esperado?

VE <- resultado$VE
paste("El valor esperado o media de este ejercicios es de: ", VE)

## [1] "El valor esperado o media de este ejercicios es de:  1.2"

Varianza y desviación

¿Cuál es la varianza y la desviación estándar?

varianza <- resultado$varianza
desvstd <- resultado$desv.std
paste("El valor de la varianza es de: ", round(varianza,4), " y la desviación std es de: ", round(desvstd, 4))

## [1] "El valor de la varianza es de:  0.96  y la desviación std es de:  0.9798"

Interpretación

Pendiente

Estudiante de leyes

Un estudiante tiene que preparar cien temas. En el examen se sacan tres a sorteo, de los cuales deberá exponer uno y aprobar al menos uno. El estudiante decide estudiar o preparar solamente la mitad y probar suerte. (quintela2019?).

N = 100 La población

n =3 La muestra

r = 50. Los que estudia, son los casos de éxito

x = 0,1,2,3

Tabla de distribución

Valores iniciales

N <- 100
n <- 3
r <- 50 
x <- 0:n

Se construye la tabla de distribución de la probabilidad por medio de la función creada llamada f.hiper.all() en la variable resultado.

resultado <- f.hiper.all(poblacion = N, muestra = n, exitosos = r)

tabla <- resultado$tabla
tabla

##   x       f.x       F.x
## 1 0 0.1212121 0.1212121
## 2 1 0.3787879 0.5000000
## 3 2 0.3787879 0.8787879
## 4 3 0.1212121 1.0000000

Gráfica de probabilidad

Se presentan la gráfica de probabilidad con histograma y la densidad respectivamente. Se utiliza la llamada de la variable resultado.

plot_grid(resultado$g.dens, resultado$g_all$acum)

Histograma y acumulado

plot_grid(resultado$g_barra, resultado$g_all$acum)

Usando plotly para visualizaciones dinámicas

resultado$g.hist.plotly

resultado$g.acum.plotly

Probabilidad de que no apruebe,

La probabilidad de que no sepa ninguna de entre la muestra extraída.

Se calcula la probabilidad cuando f(x = 0)

prob <- dhyper(x = 0, m = r, n = N - r, k = n)
paste ("La probabilidad de que no apruebe es de: ", prob, " o sea ", round(prob*100, 4), "%")

## [1] "La probabilidad de que no apruebe es de:  0.121212121212121  o sea  12.1212 %"

Probabilidad de que apruebe

Se requiere que sepa un tema f(x=1) y con eso pasa

prob <- dhyper(x = 1, m = r, n = N - r, k = n)
paste ("La probabilidad de que apruebe es de: ", prob, " o sea ", round(prob*100, 4), "%")

## [1] "La probabilidad de que apruebe es de:  0.378787878787879  o sea  37.8788 %"

Interpretación del ejercicio

Hay un 37% de probabilidades de que sepa una respuesta de entre las tres de la muestra, para aumentar esa probabilidad seguramente tendrá que estudiar más temas.

Existe una probabilidad aproximada del 12% de que no sepa ningún tema, es decir de que repruebe.

¿Cuál es la probabilidad de que sepa más de 0 preguntas?, que es la condición de aprobar.

\[ F(x >0) = f(x=1) + f(x=2) + f(x=3) = 1 - F(x=0) = 1 - 0.1212 \]

es decir, tiene un 88% de probabilidades de aprobar habiendo estudiado solo 50 de los cien reactivos. ¡Está bien!

Números aleatorios

Se utiliza rhyper() de los paquetes estadísticos de R

Con el último ejercicio se generan números aleatorios

paste("Valor de N: ", N)

## [1] "Valor de N:  100"

paste("Valor de n: ", n)

## [1] "Valor de n:  3"

paste("Valor de r: ", r)

## [1] "Valor de r:  50"

paste("Variable x: desde 0:",n)

## [1] "Variable x: desde 0: 3"

Se generan números aleatorios:

aleatorios <- rhyper(nn = N, m = r, n = N-r, k = n)
aleatorios

##   [1] 2 2 3 2 1 1 2 2 0 0 2 2 2 3 2 2 3 3 3 1 0 2 1 1 1 2 2 2 2 1 2 2 1 2 1 1 2
##  [38] 1 3 0 1 2 2 2 2 0 2 3 0 3 3 1 0 2 2 2 2 2 0 1 1 1 3 2 1 2 1 2 1 2 1 3 2 2
##  [75] 1 0 1 1 3 2 1 3 0 3 1 1 2 3 0 3 2 2 1 2 1 1 1 3 1 2

La media aritmética es similar al valor esperado

mean(aleatorios)

## [1] 1.64

resultado$VE

## [1] 1.5

Encontrar x a partir de F(x)

Se utiliza qhyper() de los paquetes estadísticos de R

¿Cual es el valor de x a una probabilidad acumulada del 50%

qhyper(p = 0.50, m = r, n = N-r, k = n)

## [1] 1

Con la funció plotly()

 g.plotly <- plot_ly(
    x = c(0:n),
    y = c(phyper(q = 0:n, m = r, n = N-r, k = n)),
    type = "scatter" ,
    mode = "lines") %>%
    layout(title = "Distribución binomial",
           xaxis = list(title = "x's"), 
           yaxis = list(title = "Función de Prob. f(X)")
    )
  g.plotly

Interpretación

La simulación con rhyper() muestra que la media de defectuosos por muestra es 1.5, que coincide con el valor esperado teórico.

La mayor parte de los valores simulados está entre 1 y 2 defectuosos, lo que indica consistencia con la proporción de defectuosos en la población (50%).

Según qhyper(), hay una probabilidad acumulada de al menos 50% para que haya un defectuoso o menos en una muestra de 3.

Estos resultados pueden apoyar la toma de decisiones en control de calidad, muestreo de productos, o auditoría.

Referencias Bibliográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,.

Camacho Avila, Marcela. 2019. “Probabilidad y Estadística. Modelos Probabilísticos.” 2019. http://148.215.1.182/bitstream/handle/20.500.11799/108238/secme-34236_1.pdf?sequence=1.

Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson.

caso 18 distribucion hipergeometrica

Miriam Lizeth Borja Berumen

2025-04-10

Objetivo

Descripción

Fundamento teórico

Fórmula de función de probabilidad

Probabilidad acumulada

Fórmula para valor esperado

Fórmula para varianza

Fórmula de la desviación estándar

Ejemplos:

Ejemplo1: canicas blancas y negras:

Ejemplo2: Baraja española

Ejemplo 3: Lotes de componentes

Desarrollo

Cargar librerías

Cargar funciones

Fábrica de fusibles

Tabla de probabilidad desde cero a tres

Gráfica de probabilidad

Probabilidad uno de tres

Utilizando la tabla de distribución.

Utilizando dhyper()

Probabilidad de menos de tres fusibles

Utilizando la tabla de distribución

Utilizando sum(dhyper())

Utilizando phyper()

Valor esperado

Varianza y desviación

Interpretación

Lote de Componentes

Tabla de probabilidad

Gráfica de probabilidad

Probabilidad de exactamente un componente

Probabilidad de a lo más tres

¿Cuál es el valor esperado?

¿Cuál es la varianza y la desviación estándar?

Interpretación

Artículos defectuosos

Tabla de distribución

Gráfica de probabilidad

Probabilidad de tres defectuosos

Valor esperado

Varianza y desviación

Interpretación

Estudiante de leyes

Tabla de distribución

Gráfica de probabilidad

Probabilidad de que no apruebe,

Probabilidad de que apruebe

Interpretación del ejercicio

Números aleatorios

Encontrar x a partir de F(x)

Interpretación

Referencias Bibliográficas