Distribuciones Probabilisticas Discretas y Distribución normal

El siguiente documento HTML recopila conceptos, videos, ejemplos y propuestas de actividades para los conceptos de distribuciones probabilisticas discretas
Autores/as

Valentina Palacios Ospina

Jeison Fonseca Palacios

Carlos Fabián González Santa

Andrés Camilo Riaño Tavera

Fecha de publicación

30 de junio de 2023

Librerias

Código
library(ggplot2)
library(lattice)
library(vembedr)
library(knitr)
library(kableExtra)

Distribución Binomial

Concepto

La distribución binomial es un modelo estadístico que describe el número de éxitos en una serie de ensayos independientes, donde cada ensayo tiene dos posibles resultados: éxito o fracaso. Cada ensayo se considera como una prueba de Bernoulli, que es un experimento con solo dos resultados posibles.

Se puede considerar “que si durante repetidos ensayos, siendo \(p\) la probabilidad de éxito en un solo ensayo, la cual debe permanecer fija, y \(q\) la probabilidad de fracaso, entonces la probabilidad de \(p\) de que se obtenga \(x\) éxitos en \(n\) ensayos, es el termino del desarrollo binoial de \((q+p)^{n}\) (Bencardino, 2012), la formula para cada término es:

\[P_{(x)} = \binom{n}{x}p^{x}q^{n-x} \]

En codigo de R quedaria expresado de la siguiente forma

Si \(x\) sigue una distribución bional \(B(n,p)\) entonces:

  • \(P_{(x=k)}=\) dbinom(k,n,p)

  • \(P_{(x \leq k)}=\) pbinom(k,n,p)

Video

Mano
RStudio

Ejemplo

El siguiente ejemplo es tomado de (Bencardino, 2012):

Supongamos el lanzamiento de 12 monedas o una moneda lanzada 12 veces ¿Cuál es la probabilidad de obtener exactamente 10 caras?

  • \(p=\frac{1}{2}\)

  • \(q= 1-\frac{1}{2}=\frac{1}{2}\)

  • \(n=12\)

  • \(x=10\)

\[ p_{(x=10)} = \binom{10}{12}(0.5)^{10}(0.5)^{2} \\ \]

\[ p_{(x=10)} = \left [ \frac{12!}{(12-10)!10!} \right ] \left [(0.0009766)(0.25) \right ] \\ \]

\[ p_{(x=10)} = (66)(0.00024415)=0.0161 \\ \]

\[ p_{(x=10)} = 1.61\% \]

Código
round(dbinom(10,12,0.5)*100, 2)
[1] 1.61
Código
# Rejilla de valores del eje X
x <- 1:12

# n = 1:12, p = 0.5
plot(dbinom(x, size = 12, prob = 0.5), type = "h", lwd = 2,
     main = "Función de probabilidad binomial",
     ylab = "P(X = x)", xlab = "Número de éxitos")

# n = 10, p = 0.5
lines(dbinom(10, 12, 0.5), type = "h",
      lwd = 2, col = rgb(1,0,0, 0.7))

RESPUESTA: La probabilidad de obtener exactamente 10 caras es de 1.61%

Actividad

Esta actividad es tomada de (Walpole et al., 2012)

De un equipo de 10 empleados, y mediante la selección al azar de una etiqueta contenida en una caja que contiene 10 etiquetas numeradas del 1 al 10, se elige a uno para que supervise cierto proyecto. Calcule la fórmula para la distribución de probabilidad de X que represente el número en la etiqueta que se saca. ¿Cuál es la probabilidad de que el número que se extrae sea menor que 4?

Distibución de Poisson

Concepto

La distribución de Poisson es una distribución de probabilidad discreta que se utiliza para modelar la ocurrencia de eventos raros en un intervalo de tiempo o espacio. Esta distribución se caracteriza por tener las siguientes propiedades:

  1. Variable aleatoria discreta: La distribución de Poisson describe el número de eventos que ocurren en un intervalo de tiempo o espacio discreto. Solo puede tomar valores enteros no negativos

  2. Eventos independientes: Se asume que los eventos ocurren de manera independiente, lo que significa que la probabilidad de que ocurra un evento no afecta la probabilidad de que ocurra otro evento.

  3. Tasa constante: La distribución de Poisson se define mediante un parámetro λ (lambda), que representa la tasa promedio de eventos en el intervalo considerado. Esta tasa indica el número promedio de eventos que se espera ocurran en ese intervalo.

La función de probabilidad de la distribución de Poisson se define como:

\[ P_{(x)=\frac{\lambda^{x}e^{-\lambda}}{X}} \]

  • \(e:\) \(2.71828\)

  • \(\lambda:\) \(np\) (n= numero de ensayos)(p= probabilidad de exito)

  • \(X:\) Número de casos favorables

Generalmente se dice, que la distribución de Poisson tiene su mayor aplicación, cuando en el experimento que se realiza ocurren sucesos llamados raros, los cuales se identifican con una probabilidad de éxito sumamente pequeña (p) y el número de observaciones (n) grande,pero la verdad es que esta distribución se aplica a una variedad de situaciones diferentes, como las ocurrencias respecto a un campo continuo, como área o tiempo (Bencardino, 2012).

Video

Mano
RStudio

Ejemplo

El siguiente ejemplo es tomado de (Bencardino, 2012):

Si el 1% de las bombillas fabricadas por una compañía son defectuosas, hallar la probabilida de que en una muestra de 100 bombillas, 3 sean defectuosas

  • \(\lambda=100(0.01)=1\)

  • \(X = 3\)

\[ P_{(x=3)} = \frac{1^{3}e^{-1}}{3!} =\frac{1(0.367)}{6}=0.06131 \]

\[ P_{(x=3)} = 6.13\% \]

Código
round(dpois(3,1)*100,2)
[1] 6.13
Código
# Rejilla de valores del eje y
y <- 0:3

#-----------
# lambda: 5
#-----------
lambda <- 5
plot(dpois(y, lambda), type = "h", lwd = 2,
     main = "Función de masa de probabilidad",
     ylab = "P(X = x)", xlab = "Número de eventos")

#-----------
# lambda: 1
#-----------
lambda <- 1
lines(dpois(3, lambda), type = "h", lwd = 2, col = rgb(1,0,0, 0.7))

Respuesta: La probabilida de que en una muestra de 100 bombillas, 3 sean defectuosas es de \(6.13\%\)

Actividad

Esta actividad es tomada de (Walpole et al., 2012)

Un escritor de libros comete, en promedio, dos errores de procesamiento de texto por página en el primer borrador de su libro. ¿Cuál es la probabilidad de que en la siguiente página cometa

  1. 4 o más errores?

  2. ningún error

Distibución Hipergeométrica

Concepto

La distribución hipergeométrica es una distribución de probabilidad discreta que se utiliza para modelar situaciones en las que estamos interesados en el número de éxitos en una muestra tomada sin reemplazo de una población finita. A diferencia de la distribución binomial, en la cual se toman muestras con reemplazo, en la distribución hipergeométrica no se reemplazan los elementos después de cada selección.

Este tipo de distribución cumple con unas caracteristicas:

  • La información de la muestra se toma sin reposición de una población finita

  • La probabilidad de éxito no es contante, cambia para cada observación

  • El resultado de una prueba es dependiente de la prueba anterior, siempre que verá afectado por el resultado de observaciones previas

  • El tamaño de la muesta (n) debe ser superior en un 5% con respecto al tamaño poblacional N

  • Se relaciona con situaciones que tengan que ver con dos o mas resultados

  • La distribución es adecuada, cuando el tamaño de la población es pequeña (Esta última condición limita la aplicación)

    (Bencardino, 2012)

La distribución hipergeométrica se expresa de la forma:

\[ P_{(x)} = \frac{\binom{A}{x}\dbinom{N-A}{n-x}}{\dbinom{N}{n}} \]

Video

Mano
RStudio

Ejemplo

El siguiente ejemplo es tomado de (Bencardino, 2012)

En la producción de cierto articulo, se sabe que por cada 50 producidos, en 43 su terminado es excelente. Si se toma una mustra de 12 articulos ¿Cuál es la probabilidad de que exactamente dos no sean clasificados como excelentes?

\[ P_{(x=2)} = \frac{\dbinom{7}{2}\dbinom{50-7}{12-2}}{\dbinom{50}{12}} = \frac{\dbinom{7}{2}\dbinom{43}{10}}{\dbinom{50}{12}} = 0.3317 = 33.17\% \]

Código
round(dhyper(2, 7, 43, 12)*100,2)
[1] 33.17

Respuesta: La probabilidad de que exactamente dos no sean clasificados como excelentes es de \(33.17\%\)

Actividad

El dueño de una casa planta 6 bulbos selecciona dos al azar de una caja que contiene 5 bulbos de tulipán y 4 de narciso. ¿Cuál es la probabilidad de que plante 2 bulbos de narciso y 4 de tulipán?

Distibución de Normal

Concepto

La distribución normal es una distribución continua que se caracteriza por su forma de campana simétrica. Su gráfica tiene una forma de curva suave y simétrica alrededor de su valor medio, el cual es también su mediana y su moda. Esta curva es asintótica, es decir, se acerca infinitamente al eje horizontal pero nunca lo toca.

La distribución normal se define completamente por dos parámetros: la media (μ) y la desviación estándar (σ). La media determina la ubicación central de la campana y la desviación estándar controla la dispersión o amplitud de la distribución. Cuanto mayor sea la desviación estándar, más achatada será la curva y mayor será la dispersión de los datos alrededor de la media.

Condiciones que debe reunir la curva normal, tomado de (Bencardino, 2012)

  • La curva es simétrica

  • El área bajo la curva es igual al \(100\%\)

  • La curva no toca el eje horizontal \((X)\) ya que es asintótica, se prolonga indefinidamente

  • La media \(\mu\) se localiza en el centro de la curva, es decir, cada parte es igual al \(50\%\)

  • \(X\) toma valores de menor a mayor, es decir, de izquierda a derecha

  • Al estandarizar convertir los valores de \(X\) en valores de \(Z\) , ésta tendrá ina medeia \(\mu_{z}=0\) y \(\sigma_{z}=1\) y \(Z\) tomará valores desde \(-3\) hasta \(+3\) que cubre un área en el \(99.7\%\) casi igual al \(100\%\)

  • La variante estadistica \(Z=\frac{X-\mu}{\sigma}\) es una medida de las desviaciones estándar o de las llamadas unidades estandarizadas, conocida como desviación normal

La distribución normal esta dada por la función

\[ Y=\frac{N}{\sigma\sqrt{2\pi}} \cdot e^{-\frac{Z^{2}}{2\sigma^{2}}} \]

Video

Mano
RStudio

Ejemplo

El siguiente ejemplo es tomado de (Bencardino, 2012)

Un profesor manifiesta que el promedio que los estudiantes obtienen en su asignatura es de \(3.9\) , con una desviación típica \(0.35\) ¿Cuál es la probabilidad que uno de sus alumnos obtenga una calificación superior a \(4.4\)?

  • \(\mu = 3.9\)

  • \(\sigma=0.35\)

  • \(P_{(x>4.4)}\)

\[ Z = \frac{4.4-3.9}{0.35} \]

\[ Z = 1.43 \to A(0.4263) \]

Como la probabilidad es de \(P_{(x>4.4)}\) se resta con \(0.500\)

\[ 0.500-0.4263=0.0737 = 7.37\% \]

Código
# Distribución normal mu = 3.9 sigma = 0.35, como P(x>4.4) -> lowe.tail = F
(round(pnorm(4.4, mean = 3.9, sd = 0.35, lower.tail=FALSE),5))*100
[1] 7.656

Respuesta: La probabilidad que uno de sus alumnos obtenga una calificación superior a \(4.4\) es de \(\approx 7.37\%\)

Código
# mean: media de la variable normal
# sd: desviación típica de la variable normal
# lb: límite inferior del área
# ub: límite superior del área
# acolor: color del área
# ...: argumentos adicionales para ser pasados a la función lines

normal_area <- function(mean = 0, sd = 1, lb, ub, acolor = "lightgray", ...) {
    x <- seq(mean - 3 * sd, mean + 3 * sd, length = 100) 
    
    if (missing(lb)) {
       lb <- min(x)
    }
    if (missing(ub)) {
        ub <- max(x)
    }

    x2 <- seq(lb, ub, length = 100)    
    plot(x, dnorm(x, mean, sd), type = "n", ylab = "")
   
    y <- dnorm(x2, mean, sd)
    polygon(c(lb, x2, ub), c(0, y, 0), col = acolor)
    lines(x, dnorm(x, mean, sd), type = "l", ...)
}

normal_area(mean = 3.9, sd = 0.35, lb = 4.4, ub = 5.0, acolor = "red"  )

Actividad

La actividad es tomada de (Walpole et al., 2012)

Las barras de pan de centeno que cierta panadería distribuye a las tiendas locales tienen una longitud promedio de 30 centímetros y una desviación estándar de 2 centímetros. Si se supone que las longitudes están distribuidas normalmente, ¿qué porcentaje de las barras son más largas que 31.7 centímetros?

Teorema del limite central

Concepto

El teorema del límite central afirma que, a medida que el tamaño de la muestra aumenta, la distribución de la media muestral se aproxima a una distribución normal, sin importar si la distribución de la población original es normal o no. Esto es válido siempre y cuando las variables aleatorias sean independientes entre sí y su contribución a la media muestral sea comparable.

Si \(\bar{X}\) es la media de una muestra aleatoria de tamaño \(n\), tomada de una población con media \(\mu\) y varianza finita \(\sigma^{2}\), entonces la forma de la distribución de

\[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \]

a medida que \(n \to \infty\) , es la distribución nomral estándar \(n(z;0,1)\) (Walpole et al., 2012)

Video

Mano
RStudio

Ejemplo

El siguente ejemplo es tomado de (Walpole et al., 2012)

Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas.

La distribución muestral de \(\bar{X}\) será aproximadamente normal, con \(\mu_{\bar{X}} = 800\) y \(\sigma_{\bar{X}} = \frac{40}{\sqrt{16}}=10\) . La probabilidad que se desea es determinada por el área de la región sombreada de la figura

En lo que corresponde a \(\bar{x}=775\), obtenemos que

\[ z=\frac{775-800}{10} = -2.5 \]

y por lo tanto

\[ P_{(\bar{X} < 775)} = P_{z<-2.5}=0.0062 \]

Referencias

Bencardino, C. M. (2012). Estadı́stica y muestreo. Ecoe ediciones Colombia.
Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadı́stica para ingenierı́a y ciencias. Pearson educación.