Distribuciones Discretas
Las distribuciones de probabilidad son funciones que asignan probabilidades a cada valor posible de una variable aleatoria 𝑋. Estas pueden ser discretas o continuas. Una distribución discreta significa que 𝑋 puede asumir uno de varios valores contabl, de las cuales existen las siguientes:
Distribución Binomial:
Diseñada por Jacobo Bernulli en 1700, inicialmente se hizo para un experimento, luego se generalizo para “n” eventos. Para denotar que una variable aleatoria 𝑋 sigue una distribución binomial de parámetros 𝑛 y 𝑝, se usa 𝑋 ~ 𝐵(𝑛, 𝑝). Este tipo de distribución se utilizad cuando queremos saber la probabilidad de que suceda un evento o no, y no tanto en su magnitud. La fórmula de la distribución binomial es:
\[ P(X = k) = {n \choose k} p^k (1-p)^{n-k} \\ k = 0,1,2,...,n, \\ 0 < p < 1 \] Un ensayo de Bernoulli describe un experimento probabilistico donde solo es posible dos posibles resultados. El parámetro \(p\) es la probabilidad de éxito de un solo ensayo, y la probabilidad de fracaso es \(1-p\). \(p\) solo toma valores entre cero y 1.
Características:
- Solo existe la posibilidad de éxito o fracaso. Por lo tanto es dicotómica.
- p representa la probabilidad de éxito y 1 − 𝑝, la probabilidad de fracaso.
- X es el número de éxitos.
- Pruebas independientes.
\[ p(r,p)=\left\{ \begin{array}{ll} 1-p,\ \text{si}\ r=0\ (\text{fracaso})\\ p,\ \text{si}\ r=1\ (\text{éxito}) \end{array} \right. \] en R tenemos las siguientes funciones para la distribución binomial
Funciones | Descripciones |
---|---|
dbinom(x, size, prob, log = FALSE) | Evalua la función de densidad |
pbinom(q, size, prob, lower.tail = TRUE, log.p = FALSE | Evalua la función acumulada |
qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función de cuantiles |
rbinom(n, size, prob) | Devuelve un vector de valores aleatorios |
Los argumentos de estas funciones son:
- x: Corresponde al valor \(x\) en que se evaluará la función de densidad.
- q: Corresponde al valor \(q\) en que se evaluará la función de distribución acumulada.
- p: Corresponde al valor \(p\) en que se evaluará la función de cuantiles.
- n: Corresponde al número de valores aleatorias a ser generados de la distribución binomial.
- size: Corresponde al número de ensayos de Bernoulli. En la notación del curso es \(n\).
- log, log.p: argumento booleano, si es TRUE, las probabilidades p son devueltas como \(log(p)\).
- lower.tail: argumento booleano, si es TRUE, (por defecto), las probabilidades son \(P(X\leq x)\), de
- lo contrario, se calcula \(P(X > x)\).
Ejemplo:
Suponer que se lanza un dado 50 veces y se quiere conocer la probabilidad de que el número 2 salga 15 veces. Entonces se tiene que: \[ X \thicksim B (50,\frac{1}{6})(X = 15) \] y la probabilidad sería: \[ P (X =15) \] Donde:
- \(n\) = 50
- \(p\) = 1/6 dado que de 6 números se escoge un número, que en este caso es el 2.
- \(k\) = 15
Con Fórmula: \[ P(X=15)={50 \choose 15}{1 \choose 6}^{15}(1-\frac{1}{6})^{50-15} = \frac{50!}{15!35!}{1 \choose 6}^{15}{5 \choose 6}^{35} = 0.00810457 \] En R:
Haciendo uso de la función \(dbinom\):
pbin<-dbinom(k,n,p)
paste("La probabilidad que el número 2 salga 15 veces es",
format(100*pbin,digits=4),"%.")
## [1] "La probabilidad que el número 2 salga 15 veces es 0.8105 %."
Distribución de Poisson
Diseñada por el matemático francés Possion en 1837. Para denotar que una variable aleatoria 𝑋 sigue una distribución de Poisson, se usa 𝑋 ~ 𝑃𝑜𝑖(𝜆𝑖 ), 𝑖 = 1, ⋯ , 𝑁.La distribución de Poisson se usa para describir el número de ocurrencias de eventos en un espacio de observación limitado. Por ejemplo, la distribución de Poisson puede describir la cantidad de defectos en el sistema mecánico de una aeronave o la cantidad de llamadas a un centro de llamadas en una hora. La distribución de Poisson se usa comúnmente para control de calidad, investigación de confiabilidad / vida útil y seguros. La ocurrencia de eventos de un cierto tipo en el tiempo o un espacio sigue un Proceso de Poisson con tasa de ocurrencia \(\lambda > 0\) por unidad de tiempo o espacio, si se cumple:
- La probabilidad que ocurra un evento en un intervalo de tamaño \(t\) suficientemente pequeño es aproximadamente \(\lambda t\)
- La probabilidad que ocurra dos o más eventos en intervalo de tamaño \(t\) sufienciemente pequeño es cero.
- El número de eventos ocurren en cierto intervalo es independiente del número de eventos que ocurran en otro intervalo disjunto.
Una variable aleatoria \(X\) se distribuye como una Poisson si su función de densidad es dada por:
\[ f(x)=\frac{e^{-\lambda}\lambda^x}{x!},\ x=0,1,2,\ldots,\ \lambda>0 \] Donde: 𝜆 es el promedio de veces en que ocurre el evento. 𝑘 es el número de veces en que puede ocurrir un evento.
Características: * Debe existir una razón, promedio o media 𝜆. * 𝑋 es el número de ocurrencias dentro de un intervalo. * Pruebas independientes.
En R tenemos las siguientes funciones para la distribución binomial
Funciones | Descripciones |
---|---|
dpois(x, lambda, log = FALSE) | Evalua la función de densidad |
ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) | Evalua la función acumulada |
qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) | Evalua la función de cuantiles |
rpois(n, lambda) | Devuelve un vector de valores aleatorios |
Los argumentos de estas funciones son:
- x: Corresponde al valor \(x\) en que se evaluará la función de probabilidad.
- q: Corresponde al valor \(q\) en que se evaluará la función de distribución acumulada.
- p: Corresponde al valor \(p\) en que se evaluará la función de cuantiles.
- n: Corresponde al número de valores aleatorias a ser generados de la distribución Poisson.
- lambda: Corresponde a la tasa de ocurrencia de un evento en un intervalo de tamaño \(t\).
- log, log.p: Parámetro booleano. Si es TRUE, las probabilidades \(p\) son devueltas como log(p).
- lower.tail: Parámetro booleano. Por defecto es TRUE. Las probabilidades son P(X < x); de lo contrario P(X > x).
Ejemplo:
Se ha observado que a un peaje de Apurímac llegan, en promedio, 10 autos en una hora. ¿Cuál es la probabilidad de que lleguen 9 autos en una hora? Solución: x = 9 𝜆 = 10
Donde X representa el número de autos que llegan al peaje por hora. El problema de la distribución de Poisson, aplicando la fórmula es: \[ P(X=9)= \frac{e^{-10}10^9}{9!} = 0.12511 = 12.511% \] En R:
x<-9
lambda<-10
p1<-dpois(x,lambda)
paste("La probabilidad de que lleguen",x,"autos en una hora es de",format(100*p1,digits = 4),"%.")
## [1] "La probabilidad de que lleguen 9 autos en una hora es de 12.51 %."
Distribución Geométrica
Para denotar que una variable aleatoria 𝑋 sigue una distribución geométrica, se usa 𝑋 ~ 𝐺𝑒𝑜𝑚(𝑝), 𝑖 = 1, ⋯ , 𝑁.La fórmula para hallar la distribución geométrica es:
\[ P(X = x)=p(1-p)^{x-1} \] Donde: * 𝑥 = 0,1,2, …, número de fallas en una secuencia antes de que ocurra el primer éxito. * 𝑝 es la probabilidad de éxito en cada prueba.
Características: * \(X\) es el número de ensayos hasta obtener el primer éxito. * Pruebas independientes.
En R tenemos las siguientes funciones para la distribución Geométricas:
Funciones | Descripciones |
---|---|
dgeom(x, prob, log = FALSE) | Evalua la función de densidad |
pgeom(q, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función acumulada |
qgeom(p, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función de cuantiles |
rgeom(n, prob) | Devuelve un vector de valores aleatorios |
Los argumentos de estas funciones son:
- x: vector de cuantiles que representa el número de fallos antes del primer éxito.
- prob: Probabiidad de éxito en cada ensayo.
- p: vector de probabilidades.
- n: número de valores aleatorios por devolver. log,log.p: parámetro booleano. Si es TRUE, las probabilidades p son devueltas como log(p). lower.tail: parámetro booleano, por defecto es TRUE. Las probabilidades son P(X < x), de lo contrario P(X > x).
Ejemplo:
Un experto tirador acierta en el blanco el 95 % de veces. ¿Cuál es la probabilidad de que falle por primera vez en su decimoquinto disparo?
Solución: Los datos que tenemos de x: 15-1, entonces x=14. Además, la prob comúnmente es 0.05. Como de antemano sabemos que es un problema de distribución geométrica se usará la fórmula anteriormente mostrada: \[ P(X=15)=0.05(1-0.05)^{14}=0.05(.95)^{14}=0.0244=2.44% \] En R
x<-15-1
p<-0.05
pgeomt<-dgeom(x,p)
paste0("La probabilidad de que falle en la ",x+1,"° vez es ", format(100*pgeomt, digits = 3),"%.")
## [1] "La probabilidad de que falle en la 15° vez es 2.44%."
Distribución Hipergeométrica
Se utiliza cuando se conoce el número total de la población, y se quiere conocer el número de eventos probables en una muestra de tamaño exacto proveniente de esa población original. Para denotar que una variable aleatoria 𝑋 sigue una distribución hipergeométrica se usa: \[ X \thicksim H(m,N,k) \] La fórmula de la distribución es: \[ P(X = x)=\frac{{m \choose x}{n \choose k-x}}{{N \choose k}}, n = N-m \] Donde: * N es el tamaño de la población. * k es el tamaño de la muestra extraída. * m es el número de elementos de la población original que pertenece a la categoría deseada. * x es el número de elementos en la muestra que pertenecen a dicha categoría.
Características: * Es independiente. * La Muestra se extrae sin reemplazo. * X es el número de elementos que presentan la característica de interés en la muestra.
En R tenemos las siguientes funciones para la distribución hipergeométricas:
Funciones | Descripciones |
---|---|
dhyper(x, prob, log = FALSE) | Evalua la función de densidad |
phyper(q, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función acumulada |
qhyper(p, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función de cuantiles |
rhyper(n, prob) | Devuelve un vector de valores aleatorios |
Donde:
- x: es el número de elementos en la muestra que pertenecen a dicha categoría´.
- m: es el número de elementos de la población original que pertenece a la categoría deseada.
- n = N-m: n es el número de elementos de la población que no pertenece a la categoría deseada. N es el tamaño de la población.
- k: es el tamaño de la muestra extraída.
- p: es la probabilidad, debe estar entre 0 y 1.
- mn: es el número de observaciones.
- log, log.p: parámetro booleano. Si es TRUE, las probabilidades p son devueltas como log(p).
- lower.tail: Parámetro booleano por defecto es TRUE. Las probabilidades son P(X < x) de lo contrario P(X > x).
Ejemplo
Se sabe que el 7 % de los útiles quirúrgicos en un lote de 100 no cumplen ciertas especificaciones de calidad. Se toma una muestra al azar de 10 unidades sin reemplazo. Se desea conocer la probabilidad de que no más de 2 sean defectuosos.
Solución:
Los datos que se tienen son X: número de defectuosos, k es 10, m= 7, x= 2 (no más de 2 defectuosos), N= 100, y n=100-7=93. Lo que se busca es: \[ P(X < 2)=P(X=0)+P(X=1)+P(X=2) \] Aplicando la fórmula: \[ P(X<2)=\frac{{7 \choose 0}{93 \choose 10-0}}{{100 \choose 10}} = \frac{{7 \choose 1}{93 \choose 10-1}}{{100 \choose 10}} = \frac{{7 \choose 2}{93 \choose 10-2}}{{100 \choose 10}} \\ P(X<2)= 0.4667+0.3890+0.1235 P(X<2)=0.9792=97.92% \] En R:
Usando la función hypher
## [1] 0.9792397
Por lo tanto, la probabilidad de que no más de 2 sean defectuosos es de 97.92 %.
Distrbución Binomial Negativa
La distribución binomial negativa es una distribución discreta, que simula el número de ensayos necesarios para producir un número específico de eventos. Cada prueba tiene dos posibles resultados. La distribución binomial negativa también puede modelar el número de no eventos que deben ocurrir para observar un número específico de resultados. Para representar que una variable aleatoria 𝑋 sigue una distribución binomial negativa, se usa: \[ X \thicksim BN(k,p) \] Donde 𝑋 es el número de ensayos hasta obtener el 𝒌-ésimo éxito y 𝑝, la probabilidad de éxito en los ensayos. \[ P(X = x) = {x-1 \choose k-1}p^k(1-p)^{x-k} \\ 0 < p <1 \] Características: * Pruebas independientes * Su media es \(u=\frac{k(1-p)}{p}\) si se piensa en el número de fracasos. * Su media es \(u=\frac{k}{p}\) si se cuenta también los k-1 éxitos. * Su varianza es \(V(X)=\frac{k(1-p)}{p^2}\) para los dos casos anteriores.
En R tenemos las siguientes funciones para la distribución binomiales negativas:
Funciones | Descripciones |
---|---|
dnbinom(x, prob, log = FALSE) | Evalua la función de densidad |
pnbinom(q, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función acumulada |
qnbinom(p, prob, lower.tail = TRUE, log.p = FALSE) | Evalua la función de cuantiles |
mbinom(n, prob) | Devuelve un vector de valores aleatorios |
Donde: * X = es el número de pruebas falladas. * size = es el número de ensayos. * prob = es la probabilidad, debe estar entre 0 y 1. * mu = es la parametrización alternativa por la media. * q = vector de cuantiles. * p = vector de probabilidades. * log, log.p = parámetro booleano. Si es TRUE, las probabilidades p son devueltas como log(p). * lower.tail = parámetro booleano. Por defecto es TRUE. Las probabilidades son \(P(X<x)\) de lo contrario \(P(X>x)\)
Ejemplo:
Una refrigeradora tiene una probabilidad de 0.95 % de pasar un control de calidad. Se asume que los resultados del control de calidad de diferentes refrigeradoras son independientes. Calcular la probabilidad de que sea necesario revisar 20 refrigeradoras para que 15 pasen el control de calidad.
Solución:
X: número de refrigeradoras hasta que 15 pasen el control de calidad. Los datos que se tienen son x=20, k=15, p=0.95
Uso de la fórmula: \[ P(X=20)={20-1 \choose 15-1}(0.95)^{15}(1-0.95)^{20-15} \\ P(X=20)={19 \choose 14}(0.95)^{15}(1-0.95)^{5} \\ P(X=20)=\frac{19!}{14!5!}(0.95)^{15}(1-0.95)^5 \\ P(X=20)=0.001683=0.1683% \] En R:
x<-20
k<-15
p<-0.95
pbn<-dnbinom(x-k,size = k, prob = p)
paste0("La probabilidad de que será necesaria es ",format(100*pbn,digits = 3),"%.")
## [1] "La probabilidad de que será necesaria es 0.168%."
Ejemplos
Ejemplo 1: Distribución de Poisson
Se ha observado que en un peaje de Apurímac llegan, en promedio, 10 autos en una hora. ¿Cuál es la probabilidad de que lleguen a lo más 4 autos en 30 minutos?
Si 10 autos llegan en una hora, entonces 5 llegarán en 30 minutos. Por ende, k = 4, \(\lambda\) = 5. Donde X representa el número de autos que llegan al peaje en 30 minutos. \[ P(X<4) = P(X=0)+P(X=1)+P(X=2)+P(X+3)+P(X=4) \\ P(X<4) = \frac{e^{-5}5^{1}}{0!} + \frac{e^{-5}5^1}{1!}+\frac{e^{-5}5^2}{2!} + \frac{e^{-5}5^4}{4$} \\ P(X<4) = 0.0067 + 0.0337 + 0.0842 + 0.1404 + 0.1755 \\ P(c<4) = 0.4405 = 44.05% \] En R:
k<-4
lambda<-5
pr2<-ppois(k,lambda,lower.tail = T)
paste("La probabilidad de que lleguen a lo más ",k,"autos en 30 minutos es de ",format(100*pr2,digits = 4),"%.")
## [1] "La probabilidad de que lleguen a lo más 4 autos en 30 minutos es de 44.05 %."
Ejemplo 2: Distribución Hipergeométrica
¿Cuál es la probabilidad de que una mesera se rehúse a servir bebidas alcohólicas únicamente a 2 menores de edad si verifica aleatoriamente solo 5 identificaciones de entre 9 estudiantes, de los cuales 4 no tienen la edad requerida para hacerlo?
Los datos que tenemos son: N = 9, m = 4, n = 9-4=5, k = 5. Done lo que se solicita hallar es P(X=2). Donde 𝑋 indica si la mesera se rehusó o no a servir las bebidas alcohólicas. \[ P(X=2)=\frac{{4 \choose 2}{5 \choose 5-2}}{{9 \choose 5}}, n=9-4 \\ P(X=2)=\frac{\frac{4!}{2!2!}*\frac{5!}{3!2!}}{\frac{9!}{5!4!}} = \frac{21}{10} = 0.47610 \] En R:
## [1] 0.4761905
Por lo tanto, la probabilidad de que una mesera se rehúse a servir bebidas alcohólicas es 0.476190 (47.62 %).
Ejemplo 3: Distribución Geométrica
Según los registros de una compañía constructora de pozos, la probabilidad de que uno de sus pozos nuevos requiera de reparaciones en el término de un año es de 0.30. En función de lo anterior, ¿cuál es la probabilidad de que el sexto pozo construido por esta compañía en un año específico sea el primero en requerir reparaciones en un año? \[ P(X = x) = p(1-p)^x \] Donde: 𝑥 = 6 − 1 = 5, número de fallas en una secuencia antes de que ocurra el primer éxito .Y 𝑝 = 0.3 es la probabilidad de éxito en cada prueba. \[ P(X=6)=0.3(1-0.3)^{5}=0.3*0.7^{5}=0.050421 \] En R:
x<-6
p<-0.3
geometrica<-dgeom(x-1, p)
paste("La probablidad de que el 6° pozo construido sea el primero en requerir reparaciones es ",format(geometrica,digits = 3))
## [1] "La probablidad de que el 6° pozo construido sea el primero en requerir reparaciones es 0.0504"
Ejemplo 4: Distribución Binomial
La probabilidad que un alumno repita curso es de 0.3. Se elige 20 alumnos al azar. ¿Cuál es la probabilidad que haya a los más 4 alumnos repetidores? En este caso se tiene 𝑋 ~ 𝐵(20, 0.3) y la probabilidad sería 𝑃(𝑋 ≤ 4)
Los datos son: n = 20, p = 0.3, k = 4.
Con fórmula: \[ P(X<4)=P(X=4)+P(X=3)+P(X=2)+P(X=1)+P(X=0) \\ P(X=4)={20 \choose 4}(0.3^4)(1-0.3)^{20-4}=0.13042 \\ P(X=3)={20 \choose 3}(0.3^3)(1-0.3)^{20-3}=0.07160 \\ P(X=2)={20 \choose 2}(0.3^2)(1-0.3)^{20-2}=0.02785 \\ P(X=1)={20 \choose 1}(0.3^1)(1-0.3)^{20-1}=0.00684 \\ P(X=0)={20 \choose 0}(0.3^0)(1-0.3)^{20-0}=0.00080 \\ P(X<4)=0.23751 \] En R:
Ejemplo 5: Gráfica de Distribución Binomial
Las distribuciones binomiales a graficar cumplen las siguientes condiciones: * p=0.5 y n=40, color rojo * p=0.7 y n=20, color verde * p=0.5 y n=20, color azul
Primero, graficar la función de probabilidad para p=0.5 y n=40, color rojo:
y<-dbinom(0:40,40,0.5)
plot(0:40,y,type="p",
xlim=c(0,40),ylim=c(0,0.25),
xlab="K",ylab="P(X=K)",
pch=21, bg="red",
main="Distribución Binomial")
Luego, graficar la función de probabilidad para p=0.7 y n=20, color verde:
Efectuar el mismo procedimiento para p=0.5 y n=20, color azul:
Bibliografía
- Jay, G. (2010). Introduction to Probability and Statistics using R. Recuperado de https://cran.rproject.org/web/packages/IPSUR/vignettes/IPSUR.pdf, el 23 de noviembre de 2018.
- Santana, A. y Nieves Hernández, C. (2016). Distribuciones de probabilidad en R. Las Palmas, España: Departamento de Matemáticas de la Universidad de Las Palmas de Gran Canaria ULPGC. Recuperado de https://bit.ly/2LSbSBo, el 23 de noviembre de 2018.
- Sergas. (2014). Distribuciones de probabilidad. Galicia, España: Servicio Gallego de Salud. Recuperado de https://bit.ly/2iE0AXh, el 23 de noviembre de 2018.
- Wilhelmi, M. (2004). Combinatoria y probabilidad. Granada, España: Departamento de Didáctica de la Matemática, Universidad de Granada.