Los modelos probabilísticos son herramientas matemáticas que se utilizan para representar y analizar situaciones que involucran incertidumbre. Estos modelos se basan en la teoría de la probabilidad y permiten estimar la probabilidad de ocurrencia de eventos o resultados futuros.
En un modelo probabilístico, se definen variables aleatorias que representan los eventos o resultados que estamos interesados en estudiar. Estas variables aleatorias pueden tomar diferentes valores con ciertas probabilidades asociadas.
Existen dos tipos principales de modelos probabilísticos: los modelos de probabilidad discreta y los modelos de probabilidad continua.
2 Modelos probabilísticos de variable discreta
Se utilizan cuando las variables aleatorias pueden tomar un conjunto finito o numerable de valores posibles. Estos modelos se basan en distribuciones de probabilidad discreta, donde la probabilidad de cada valor se puede asignar de manera precisa. Un ejemplo de esto es el lanzamiento de una moneda, lanzamiento de un dado.
Es una distribución de probabilidad discreta que describe el resultado de un experimento o ensayo aleatorio con dos posibles resultados: éxito (generalmente etiquetado como 1) o fracaso (generalmente etiquetado como 0).
Los parámetros clave de la distribución de Bernoulli son:
Probabilidad de éxito (p): Es la probabilidad de que ocurra un éxito en un solo ensayo. Toma valores entre 0 y 1.
La función de probabilidad de la distribución de Bernoulli está dada por:
\(P(X = k) = p^k * (1 - p)^{1 - k}\)
donde X es la variable aleatoria que representa el resultado del ensayo, k es el valor del resultado (0 o 1) y p es la probabilidad de éxito.
La distribución de Bernoulli es útil para modelar situaciones en las que solo se espera un resultado binario. Algunos ejemplos comunes incluyen el lanzamiento de una moneda (éxito = cara, fracaso = cruz), el éxito o fracaso en una prueba, o la ocurrencia o no de un evento específico.
Parámetros:
Media: \(\mu=E(X)=p\)
Varianza: \(\sigma ^{2}=Var(X)=p(1-p)\)
Ejemplo:
En este problema, la variable \(X\) indica si el dado cae seis \((X = 1)\) o no \((X = 0)\). Sabemos que la probabilidad de que salga un seis es de \(1/6\), por lo tanto \(p = 1/6\). Sustituyendo en la fórmula de la distribución de Bernoulli:
\(P(X=0) = (1-1/6)^{1-0} = (5/6)^1 = 5/6\)
\(P(X=1) = (1/6)^1(1-1/6)^{1-1} = 1/6\)
Por lo tanto, la distribución de la variable \(X\) es:
# Probabilidad de obtener un seis en un lanzamiento de dadop <-1/6# Generar valores aleatorios de la distribución de Bernoullin <-1000# número de lanzamientosx <-rbinom(n, size =1, prob = p)# Contar la frecuencia de ocurrencia de cada valorfrecuencia <-table(x)# Calcular las probabilidades teóricasprobabilidad_0 <- (1- p)probabilidad_1 <- p# Mostrar los resultadoscat("Distribución de Bernoulli para el lanzamiento de un dado:\n")
Distribución de Bernoulli para el lanzamiento de un dado:
Código
cat("X = 0 con probabilidad:", probabilidad_0, "\n")
X = 0 con probabilidad: 0.8333333
Código
cat("X = 1 con probabilidad:", probabilidad_1, "\n\n")
X = 1 con probabilidad: 0.1666667
Código
library(ggplot2)# Probabilidad de obtener un seis en un lanzamiento de dadop <-1/6# Generar valores aleatorios de la distribución de Bernoullin <-1000# número de lanzamientosx <-rbinom(n, size =1, prob = p)# Crear un data frame con los valores observadosdata <-data.frame(x =factor(x), count =1)# Calcular las probabilidades teóricasprobabilidad_0 <-round((1- p), 4)probabilidad_1 <-round(p, 4)# Graficar la distribución de Bernoulliggplot(data, aes(x = x, y = count)) +geom_bar(stat ="identity", fill ="steelblue", width =0.1) +geom_text(aes(label = count), vjust =-0.2, color ="black") +xlab("Valor de X") +ylab("Frecuencia") +ggtitle("Distribución de Bernoulli para el lanzamiento de un dado") +theme_minimal() +annotate("text", x =c("0", "1"), y =c(0, 0), label =c(paste0("Prob. 0: ", probabilidad_0), paste0("Prob. 1: ", probabilidad_1)), vjust =-1.5) +scale_x_discrete(labels =c("0", "1"), limits =c("0", "1"))
2.2 Distribución binomial: \(X\sim Bin(n,p)\)
Es una generalización del modelo de Bernoulli. Bernoulli es un experimento estadístico que solo puede asumir de dos maneras diferentes, mutuamente excluyentes e independientes conocidos como éxito y fracaso. en este modelo en la mayoría de casos el tamaño de la población (N) es infinito (desconocido), cuando este tamaño de poblacional es finito(conocido) la selección de la muestra se debe hacer con reposición garantizando que la probabilidad de éxito \(p\) permanezca constante en todo el experimento.
Función masa:
\(f(x)=P(X=x)=\binom{n}{x}p^{x}(1-p)^{n-x}\)
donde:
\(n=1,2,3,…\)
\(0\leq p\leq 1\)
\(x=0,1,…,n\)
Parámetros:
Media: \(\mu=E(X)=np\)
Varianza: \(\sigma ^{2}=Var(X)=np(1-p)\)
Ejemplo:
En una fábrica de galletas, se sabe que el 80% de las galletas producidas son de chocolate. Se selecciona al azar una muestra de 20 galletas de un lote reciente.
a)¿Cuál es la probabilidad de que exactamente 15 galletas sean de chocolate?
n <-20# número de ensayos (galletas)x <-15# número de éxitos (galletas de chocolate) deseadosp <-0.8# probabilidad de éxito (galleta de chocolate) en un solo ensayoprob_15_choco <-dbinom(x, size = n, prob = p)mensaje <-paste0("La probabilidad de que exactamente 15 galletas sean de chocolate es aproximadamente ", round(prob_15_choco, 4), ".")print(mensaje)
[1] "La probabilidad de que exactamente 15 galletas sean de chocolate es aproximadamente 0.1746."
Código
library(ggplot2)n <-20# número de ensayos (galletas)x <-0:n # valores de x para graficarp <-0.8# probabilidad de éxito (galleta de chocolate) en un solo ensayo# Calcular las probabilidades para cada valor de xprobs <-dbinom(x, size = n, prob = p)# Crear un data frame con los valores de x y las probabilidades correspondientesdata <-data.frame(x = x, prob = probs)# Graficar la distribución binomialggplot(data, aes(x =as.factor(x), y = prob)) +geom_bar(stat ="identity", fill =ifelse(data$x ==15, "red", "steelblue")) +geom_text(aes(label =ifelse(data$x ==15, round(prob, 4), "")), vjust =-0.5, color ="black") +xlab("Número de galletas de chocolate") +ylab("Probabilidad") +ggtitle("Distribución Binomial") +theme_minimal()
b)¿Cuál es la probabilidad de que al menos 18 galletas sean de chocolate?
La fórmula para calcular esta probabilidad es:
\(P(al menos 18)=\sum_{x=18}^{20}\binom{20}{x}\cdot (0.8^{x})\cdot (0.2^{20-x})\)
n <-20# número de ensayos (galletas)p <-0.8# probabilidad de éxito (galleta de chocolate) en un solo ensayo# Calcular las probabilidades individualesprob_18 <-dbinom(18, size = n, prob = p)prob_19 <-dbinom(19, size = n, prob = p)prob_20 <-dbinom(20, size = n, prob = p)# Calcular la probabilidad de al menos 18 galletas de chocolateprob_at_least_18 <- prob_18 + prob_19 + prob_20mensaje <-paste0("La probabilidad de que al menos 18 galletas sean de chocolate es aproximadamente ", round(prob_at_least_18, 4), ".")print(mensaje)
[1] "La probabilidad de que al menos 18 galletas sean de chocolate es aproximadamente 0.2061."
library(ggplot2)n <-20# número de ensayos (galletas)p <-0.8# probabilidad de éxito (galleta de chocolate) en un solo ensayo# Calcular las probabilidades individualesprob_18 <-dbinom(18, size = n, prob = p)prob_19 <-dbinom(19, size = n, prob = p)prob_20 <-dbinom(20, size = n, prob = p)# Calcular la probabilidad de al menos 18 galletas de chocolateprob_at_least_18 <- prob_18 + prob_19 + prob_20# Crear un data frame con los valores y probabilidades correspondientesdata <-data.frame(x =c("18", "19", "20", "Mínimo 18"),prob =c(prob_18, prob_19, prob_20, prob_at_least_18))# Graficar la distribución binomialggplot(data, aes(x = x, y = prob)) +geom_bar(stat ="identity", fill ="steelblue") +geom_text(aes(label =round(prob, 4)), vjust =-0.5, color ="black") +xlab("Número de galletas de chocolate") +ylab("Probabilidad") +ggtitle("Distribución Binomial") +ylim(0, 0.25) +theme_minimal()
Código
library(ggplot2)n <-20# número de ensayos (galletas)x <-0:n # valores de x para graficarp <-0.8# probabilidad de éxito (galleta de chocolate) en un solo ensayo# Calcular las probabilidades para cada valor de xprobs <-dbinom(x, size = n, prob = p)# Crear un data frame con los valores de x y las probabilidades correspondientesdata <-data.frame(x = x, prob = probs)# Definir el color de rellenodata$fill <-ifelse(data$x %in%c(18, 19, 20), "red", "steelblue")# Graficar la distribución binomialggplot(data, aes(x =as.factor(x), y = prob, fill = fill)) +geom_bar(stat ="identity") +geom_text(data =subset(data, x %in%c(18, 19, 20)), aes(label =round(prob, 4)), vjust =-0.5, color ="black") +xlab("Número de galletas de chocolate") +ylab("Probabilidad") +ggtitle("Distribución Binomial") +scale_fill_manual(values =c("red", "steelblue")) +theme_minimal() +guides(fill =FALSE)
2.3 Distribución Poisson: \(k \sim P(\lambda)\)
Diseñada por el matemático francés Possion en 1837. Para denotar que una variable aleatoria X sigue una distribución de Poisson, se usa \(𝑋 ~ 𝑃𝑜𝑖(𝜆𝑖 ), 𝑖 = 1, ⋯ , 𝑁\).La distribución de Poisson se usa para describir el número de ocurrencias de eventos en un espacio de observación limitado. Por ejemplo, puede describir la cantidad de defectos en el sistema mecánico de una aeronave o la cantidad de llamadas a un centro de llamadas en una hora. La distribución de Poisson se usa comúnmente para control de calidad, investigación de confiabilidad / vida útil y seguros. La ocurrencia de eventos de un cierto tipo en el tiempo o un espacio sigue un Proceso de Poisson con tasa de ocurrencia \(λ>0\) por unidad de tiempo o espacio,
La distribución Poisson se utiliza para caracterizar probabilísticamente el número de veces que ocurre un evento en relación con una unidad de medida bien definida (como una unidad de tiempo o espacio, por ejemplo), de forma que:
La probabilidad de que el evento ocurra en una unidad de medida dada es igual para todas las unidades.
El número de eventos que ocurren en una unidad de medida es independiente del número de eventos que ocurren en otras unidades.
\(P(X=k)\) es la probabilidad de que la variable aleatoria X tome el valor k, \(( e)\) es la base del logaritmo natural (aproximadamente 2.71828), \(( \lambda )\)es el parámetro de la distribución, que representa el número esperado de ocurrencias del evento en un intervalo dado, y \(( k )\) es el número de ocurrencias del evento.
Parámetros:
Esperanza: \(\textsf{E}[k] =\lambda\)
Varianza: \(\textsf{V}[k] =\lambda\)
Ejemplo:
Cada año ocurre un promedio de 24 accidentes aéreos. Calcule la probabilidad de que ocurra un accidente en un mes.
# Promedio anual de accidentespromedio_anual <-24# Cálculo del promedio mensualpromedio_mensual <- promedio_anual /12# Número de accidentes en un mes (x)x <-1# Cálculo de la probabilidad utilizando la distribución de Poissonprobabilidad <-dpois(x, lambda = promedio_mensual)# Imprimir la probabilidadprobabilidad
[1] 0.2706706
Código
library(ggplot2)# Promedio anual de accidentespromedio_anual <-24# Cálculo del promedio mensualpromedio_mensual <- promedio_anual /12# Generación de valores para xx <-0:6# Cálculo de las probabilidades utilizando la distribución de Poissonprobabilidades <-dpois(x, lambda = promedio_mensual)# Creación del data framedata <-data.frame(x = x, probabilidad = probabilidades)# Gráfico de la distribución de Poissonggplot(data, aes(x =as.factor(x), y = probabilidad, fill = (x ==1))) +geom_col(color ="black", width =0.1) +scale_fill_manual(values =c("FALSE"="blue", "TRUE"="red")) +geom_text(aes(label =round(probabilidad, 4)), vjust =-0.5, color ="black", size =4) +scale_y_continuous(limits =c(0, 0.4), expand =c(0, 0)) +labs(title ="Diagrama de Bastones", x ="Número de accidentes en un mes", y ="Probabilidad") +theme(legend.position ="none")
b . Calcule la probabilidad de que ocurran máximo 5 accidentes en un año
La distribución hipergeométrica surge a partir del “número de éxitos en \(n\) ensayos dependientes de un experimento de Bernoulli”. Un experimento hipergeométrico con parámetros n, M, y N está basado en las siguientes condiciones:
Se elige una muestra sin reemplazo de n elementos de un conjunto compuesto por N elementos, de los cuales M tienen una característica de interés..
Cada elemento se puede caracterizar como un “éxito (el elemento tiene la característica de interés) o como un”fracaso” (el elemento no tiene la característica de interés).
La probabilidad de exito puede variar según cada nueva observación
Se dice que una variable aleatoria X tiene una distribución hipergeométrica con parámetros n, M, y N, lo que se escribe: \(X\sim Hg(n,M,N)\). La función masa o cuantia es:
De un lote de 10 misiles, se seleccionan 4 al azar y se disparan. Si el lote contiene 3 misiles defectuosos que no pueden dispararse, ¿cuál es la probabilidad de que a) los 4 puedan dispararse? b) a lo sumo fallen 2?
Para calcular la probabilidad de que los 4 misiles puedan dispararse, necesitamos calcular la probabilidad de seleccionar los 4 misiles funcionales de los 7 misiles restantes (descontando los 3 misiles defectuosos).La probabilidad se calcula como:Calcular la probabilidad de que los 4 misiles puedan dispararse
Código
# parametrosn <-4M <-7N <-10# P(X = 4)# la parametrizacion de esta rutina es diferente a la presentada en la formulasum(dhyper(x =4, m = M, n = N-M, k = n))
[1] 0.1666667
Código
# Parámetrosn <-4M <-7N <-10x <-4# Calcular las probabilidades de la distribuciónprob <-dhyper(x =0:n, m = M, n = N - M, k = n)# Redondear las probabilidades a cuatro decimalesprob_rounded <-round(prob, 4)# Función de masa de probabilidadplot(x =0:n, y = prob_rounded, xlab ="Número de éxitos", ylab ="P(x)", pch =15, col ="blue", ylim =c(0, 0.6), main ="Distribución Hipergeométrica")segments(x0 =0:n, y0 =0, x1 =0:n, y1 = prob_rounded, lwd =2, col ="blue")# Línea en x=4 de color rojosegments(x0 = x, y0 =0, x1 = x, y1 = prob_rounded[x+1], lwd =2, col ="red")# Punto en x=4 de color rojopoints(x, prob_rounded[x+1], pch =15, col ="red")# Etiquetas con las probabilidades redondeadastext(x =0:n, y = prob_rounded, labels = prob_rounded, pos =3)
Para calcular la probabilidad de que a lo sumo fallen 2 misiles, necesitamos sumar las probabilidades de los siguientes casos:
# parametrosn <-4M <-3N <-10# P(X <= 2)# la parametrizacion de esta rutina es diferente a la presentada en la formulasum(dhyper(x =0:2, m = M, n = N-M, k = n))
# Parámetrosn <-4M <-3N <-10x <-0:2# Calcular las probabilidades de la distribuciónprob <-dhyper(x =0:n, m = M, n = N - M, k = n)# f.m.p.fx <-dhyper(x = x, m = M, n = N-M, k = n)# f.d.a.Fx <-phyper(q = x, m = M, n = N-M, k = n)fxx<-c(1/6,1/2,3/10)# f.m.pplot(x = x, y = fxx, xlab ="Numero de misiles", ylab ="P(x)", pch =15, col ="blue", xaxp =c(0, 2, 2), yaxp =c(-70, 70, 5), main ="A lo sumo fallen 2 misiles (P<=2)")axis(2, at =c(1/6, 1/2,3/10), labels =c("1/6", "1/2","3/10"), las =1)segments(x0 = x, y0 =0, x1 = x, y1 = fx, lwd =2, col ="blue")
Código
# Parámetrosn <-4M <-3N <-10x <-0:2# Calcular las probabilidades de la distribuciónprob <-dhyper(x =0:n, m = M, n = N - M, k = n)# f.m.p.fx <-dhyper(x = x, m = M, n = N-M, k = n)# f.d.a.Fx <-phyper(q = x, m = M, n = N-M, k = n)# f.d.a.plot(x =c(0, x), y =c(0, Fx), type ="s", xlab ="Numero de misiles", ylab ="F(x)", col ="blue", lwd =2, xaxp =c(0, 2, 2),main ="A lo sumo fallen 2 misiles (P<=2)")points(x, Fx, col ="blue", pch =15)
5.34 ¿Cuál es la probabilidad de que una camarera se rehúse a servir bebidas alcohólicas a sólo 2 menores si verifi ca al azar 5 identifi caciones de 9 estudiantes, de los cuales 4 son menores de edad?
La probabilidad de que una camarera se rehúse a servir bebidas alcohólicas a sólo 2 menores es de 47.62%
Para realizarlo en R studio:
Código
# ParámetrosN <-9M <-4n <-5x <-2# Calcular la probabilidad utilizando la distribución hipergeométricaprob <-dhyper(x = x, m = M, n = N - M, k = n)# Imprimir el resultadoprob
library(ggplot2)# ParámetrosN <-9M <-4n <-5x <-0:n# Calcular las probabilidades de la distribución hipergeométricaprob <-dhyper(x = x, m = M, n = N - M, k = n)# Redondear las probabilidades a 4 decimalesprob_rounded <-round(prob, 4)# Crear un data frame con los valores de x y las probabilidades redondeadasdf <-data.frame(x = x, prob = prob_rounded)# Crear una variable para resaltar x = 2df$resaltar <-ifelse(df$x ==2, TRUE, FALSE)# Graficar la probabilidadggplot(df, aes(x = x, y = prob)) +geom_segment(aes(x = x, y =0, xend = x, yend = prob, color =ifelse(df$x ==2, "red", "blue")), size =1) +geom_text(aes(label = prob_rounded), vjust =-0.5, color ="blue", size =4) +geom_point(aes(x = x, y = prob, color =ifelse(df$x ==2, "red", "blue")), size =3) +scale_color_manual(values =c("blue", "red")) +scale_y_continuous(limits =c(0, max(prob) *1.2), expand =c(0, 0.1)) +labs(title ="Probabilidad de que la camarera se rehúse a servir a 2 menores", x ="Número de menores de edad", y ="Probabilidad") +theme(legend.position ="none")
Código
# Parámetrosn <-5M <-4N <-9x <-0:n# Calcular las probabilidades de la distribuciónprob <-dhyper(x =0:n, m = M, n = N - M, k = n)# f.m.p.fx <-dhyper(x = x, m = M, n = N - M, k = n)# Redondear las probabilidades a 4 decimalesprob <-round(prob, 4)# f.m.pplot(x = x, y = fx, xlab ="Número de menores de edad", ylab ="Probabilidad", pch =15, col ="blue", main ="Probabilidad que la camarera se rehúse servir a 2 menores", ylim =c(0, 0.7))segments(x0 = x, y0 =0, x1 = x, y1 = fx, lwd =2, col ="blue")# Línea en x=2 de color rojosegments(x0 =2, y0 =0, x1 =2, y1 = fx[3], lwd =2, col ="red")# Punto en x=2 de color rojopoints(2, fx[3], pch =15, col ="red")# Agregar etiquetas de probabilidadtext(x = x, y = fx, labels = prob, pos =3)
Para denotar que una variable aleatoria 𝑋 sigue una distribución geométrica, se usa \(𝑋 ~ 𝐺𝑒𝑜𝑚(𝑝), 𝑖 = 1, ⋯ , 𝑁\). La fórmula para hallar la distribución geométrica es:
\(P(X = x)=p(1-p)^{x-1}\)
Donde: 𝑥 = 0,1,2, …, es el número de fallas en una secuencia antes de que ocurra el primer éxito. 𝑝 es la probabilidad de éxito en cada prueba.
X es el número de ensayos hasta obtener el primer éxito. Pruebas independientes.
Parámetros:
Media: \(\mu=\frac{1}{p}\)
Varianza: \(V(X)=\frac{(1-p)}{p^2}\)
Ejemplo:
Suponga que cada una de sus llamadas a una estación de radio popular tienen una probabilidad de 0.02 de ser respondida. Asumiendo que las llamadas son independientes
a) ¿Cuál es la probabilidad que le respondan a la decima llamada?
X= Número de llamadas a la estación hasta ser atendido
x=10
Éxito: llamada respondida
Fracaso: llamada no respondida
\(p=0.02 \rightarrow \: éxito\)
\(1- p=0.98 \rightarrow \: fracaso\)
\(f(x)=p(1-p)^{x-1}\)
\(f(10)=0.02(0.98)^{10-1} =0.0167=1.67%\)
La probabilidad que respondan a la décima llamada es del1.67%
b) ¿Cuál es el número medio de llamadas para conectar?
\(E\left [ X \right ]=\frac{1}{p}\)
\(E\left [ X \right ]=\frac{1}{p}=\frac{1}{0.02}=50\)
# Cálculo de la probabilidad de la distribución geométrica# Definir el parámetro pp <-0.02# Definir el valor específico xx <-10# Calcular la probabilidad de obtener el valor xprobabilidad <- p * (1- p)^(x -1)# Redondear la probabilidad a 4 decimalesprobabilidad_redondeada <-round(probabilidad, 4)# Imprimir el resultadocat("La probabilidad de obtener el valor", x, "en una distribución geométrica con p =", p, "es:", probabilidad_redondeada)
La probabilidad de obtener el valor 10 en una distribución geométrica con p = 0.02 es: 0.0167
Código
# Gráfico de la distribución geométricax_values <-1:20# Valores de x para graficarprobabilidades <- p * (1- p)^(x_values -1) # Probabilidades correspondientes a cada valor de xplot(x_values, probabilidades, type ="h", lwd =2, col ="blue",xlab ="Número de llamadas", ylab ="Probabilidad",main ="Distribución Geométrica")# Puntos en todas las líneas del gráficopoints(x_values, probabilidades, pch =19, col ="blue")# Punto en el valor x de color rojopoints(x, probabilidad, pch =19, col ="red")# Etiqueta de la probabilidad redondeada en el punto xtext(x, probabilidad, labels = probabilidad_redondeada, pos =3)# Línea en el valor x de color rojosegments(x, 0, x, probabilidad, lwd =2, col ="red")
Código
# Cargar la librería necesarialibrary(ggplot2)# Definir el parámetro pp <-0.02# Crear un vector de valores de xx <-0:60# Calcular la probabilidad para cada valor de xprobabilidad <- p * (1- p)^(x)# Crear un data frame con los valores de x y sus probabilidadesdata <-data.frame(x, probabilidad)# Graficar la distribución geométricaggplot(data, aes(x = x, y = probabilidad)) +geom_bar(stat ="identity", fill =ifelse(x ==10, "red", "steelblue")) +geom_text(data = data[data$x ==10, ], aes(x = x, y = probabilidad, label =round(probabilidad, 4)), vjust =-0.5, color ="red") +xlab("Valor") +ylab("Probabilidad") +ggtitle("Distribución Geométrica (p = 0.02)")
Código
# Cálculo de la esperanza matemática de una distribución geométrica# Definir el parámetro pp <-0.02# Calcular la esperanza matemáticaesperanza <-1/ p# Imprimir el resultadocat("La esperanza matemática de la distribución geométrica con p =", p, "es:", esperanza)
La esperanza matemática de la distribución geométrica con p = 0.02 es: 50
La distribución binomial negativa es una distribución discreta, que simula el número de ensayos necesarios para producir un número específico de eventos. Cada prueba tiene dos posibles resultados. La distribución binomial negativa también puede modelar el número de no eventos que deben ocurrir para observar un número específico de resultados. Para representar que una variable aleatoria 𝑋 sigue una distribución binomial negativa, se usa \(X\sim BN(k,p)\)
Donde 𝑋 es el número de ensayos independientes hasta obtener el 𝒌-ésimo éxito y p, la probabilidad de éxito en los ensayos.
\(P(X = x) = {x-1 \choose k-1}p^k (1-p)^{x-k}\)
\(0 < p <1\)
Parámetros:
Media:
\(\mu=\frac{k(1-p)}{p}\)si se piensa en el número de fracasos.
\(\mu=\frac{k}{p}\) si se cuenta también los \(k−1\) éxitos.
Varianza: \(V(X)=\frac{k(1-p)}{p^2}\)
ejemplo:
5.49 La probabilidad de que una persona que vive en cierta ciudad tenga un perro es de 0.3. Calcule la probabilidad de que la décima persona entrevistada al azar en esa ciudad sea la quinta que tiene un perro.
x<-10k<-5p<-0.3pbn<-dnbinom(x-k,size = k, prob = p)paste0("La probabilidad que la decima persona entrevistada sea la quinta es ",format(100*pbn,digits =3),"%.")
[1] "La probabilidad que la decima persona entrevistada sea la quinta es 5.15%."
Código
library(ggplot2)p <-0.3k <-5x <-0:20# Valores de x para graficarpbn <-dnbinom(x - k, size = k, prob = p) # Probabilidades correspondientes a cada valor de xdata <-data.frame(x, pbn)ggplot(data, aes(x =as.factor(x), y = pbn, fill =as.factor(x ==10))) +geom_col(color ="black", width =0.5) +scale_fill_manual(values =c("FALSE"="steelblue", "TRUE"="red")) +geom_text(aes(label =ifelse(x ==10, round(pbn, 4), "")),vjust =-0.5, color ="black", size =3) +xlab("Número de personas que tienen perro") +ylab("Probabilidad") +ggtitle("Distribución Binomial Negativa") +theme_minimal() +theme(legend.position ="none")
5.52 Un científico inocula a varios ratones, uno a la vez, el virus que produce una enfermedad, hasta que encuentra a 2 que contraen la enfermedad. Si la probabilidad de contraer la enfermedad es de 1/6, ¿cuál es la probabilidad de que tenga que inocular a 8 ratones?
x<-8k<-2p<-1/6pbn<-dnbinom(x-k,size = k, prob = p)paste0("La probabilidad que tenga que inocular a 8 ratones es ",format(100*pbn,digits =3),"%.")
[1] "La probabilidad que tenga que inocular a 8 ratones es 6.51%."
Código
library(ggplot2)x <-0:15k <-2p <-1/6pbn <-dnbinom(x - k, size = k, prob = p)# Crear un data frame con los valoresdata <-data.frame(x = x, pbn = pbn)# Filtrar el data frame para mantener solo x=8data_filtered <- data[data$x ==8, ]# Graficar la distribución binomial negativaggplot(data, aes(x =as.factor(x), y = pbn, fill =as.factor(x ==8))) +geom_col(color ="black", width =0.5) +scale_fill_manual(values =c("FALSE"="steelblue", "TRUE"="red")) +geom_text(data = data_filtered,aes(label =paste0("Probabilidad: ", format(100* pbn, digits =3), "%")),vjust =-0.5, color ="black", size =3) +xlab("Número de inyecciones requeridas") +ylab("Probabilidad") +ggtitle("Distribución Binomial Negativa") +theme_minimal() +theme(legend.position ="none")
3 Modelos probabilísticos de variable continua
3.1 Distribución normal:
La distribución normal se caracteriza por tener una forma de campana simétrica alrededor de su media. Su gráfica es una curva suave y continua, que se extiende desde menos infinito hasta más infinito. La curva alcanza su punto máximo en la media y tiene una desviación estándar que determina qué tan “ancha” o “angosta” es la distribución.
La función de densidad de probabilidad de la distribución normal es conocida como la curva de campana o curva gaussiana, y está determinada por dos parámetros: la media (μ) y la desviación estándar (σ). La media representa el centro de la distribución, mientras que la desviación estándar indica la dispersión de los datos alrededor de la media.
Ejemplo: La tasa de remuneración media por hora para administrativos financieros en una determinada región es $32.62 y la desviación estándar es $2.32 (Bureau of Labor Statistics, septiembre de 2005). Suponga que estas tasas de remuneración están distribuidas normalmente.
a. ¿Cuál es la probabilidad de que un directivo financiero tenga una remuneración entre $30 y $35 por hora?
Solución:
Para resolver este problema, necesitamos estandarizar los valores de la remuneración utilizando la media y la desviación estándar. Definamos:
- \(\mu\): media de la remuneración \(\mu = 32.62\)
- \(\sigma\): desviación estándar de la remuneración \(\sigma = 2.32\)
- \(X\): variable aleatoria que indica la remuneración de un director financiero
Luego, podemos estandarizar los valores de $X$ utilizando la fórmula de la distribución normal estándar:
\(Z = \frac{X - \mu}{\sigma}\)
De esta forma, podemos calcular la probabilidad de que la remuneración de un director financiero esté entre $30$ y $35$ dólares por hora como la probabilidad de que $Z$ esté entre ciertos límites:
\(P(30 < X < 35) = P\left(\frac{30 - \mu}{\sigma} < Z < \frac{35 - \mu}{\sigma}\right)\)
Sustituyendo los valores correspondientes, obtenemos:
\(P(30 < X < 35) = P\left(\frac{30 - 32.62}{2.32} < Z < \frac{35 - 32.62}{2.32}\right) = P(-1.13 < Z < 1.01)\)
Ahora, necesitamos utilizar una tabla de la distribución normal estándar (o un software estadístico) para obtener la probabilidad correspondiente. La probabilidad de que \(Z\) esté entre \(-1.13\) y \(1.01\) es aproximadamente \(0.7734\). Por lo tanto, podemos concluir que la probabilidad de que un director financiero tenga una remuneración entre \(30\) y \(35\) dólares por hora es del \(77.34\%\)
library(mosaic)# Parámetros de la distribución normalmedia <-32.62desviacion <-2.32# Cálculo de la probabilidad acumuladaprobabilidad <-pnorm(35, media, desviacion) -pnorm(30, media, desviacion)# Rango de valores para graficarx <-seq(media -4* desviacion, media +4* desviacion, 0.01)# Valores de la densidad de la distribución normaly <-dnorm(x, media, desviacion)# Crear un data frame con los valores de x y ydata <-data.frame(x, y)# Graficar la distribución normal utilizando curvecurve(dnorm(x, media, desviacion), from = media -4* desviacion, to = media +4* desviacion,xlab ="Valores", ylab ="Densidad", main ="Distribución Normal",col ="steelblue", lwd =2)# Resaltar el área bajo la curva correspondiente a la probabilidad acumuladapolygon(c(30, seq(30, 35, 0.01), 35), c(0, dnorm(seq(30, 35, 0.01), media, desviacion), 0),col ="steelblue", border =NA)# Agregar texto para mostrar la probabilidad acumuladatext(32.5, 0.08, paste("Probabilidad:", round(probabilidad, 4)), adj =c(0, 1), col ="red")