Modelos probabilísticos

Autor/a
Afiliación

Gina Guzmán, Miguel Perez, Yiseth Castaño

Fecha de publicación

9 de julio de 2023

Ver código
# Paqueteria
library(kableExtra)
library(gridExtra)
library(ggplot2)
library(ggridges)
library(dplyr)
library(tidyverse)
library(vembedr)
library(MASS)
library(stats)

(Zhu 2021; Auguie 2017; Wickham 2016; Wilke 2022; Wickham et al. 2023, 2019; Lyttle 2021; Venables y Ripley 2002; 2023)

INTRODUCCIÓN

Los modelos probabilísticos desempeñan un papel fundamental en el campo de la estadística y el análisis de datos. Estos modelos proporcionan una forma poderosa de describir y comprender la incertidumbre inherente en los fenómenos del mundo real. Mediante el uso de la teoría de la probabilidad, estos modelos permiten cuantificar y manipular la incertidumbre asociada con los datos observados.

En este documento, exploraremos el fascinante mundo de los modelos probabilísticos en Rstudio. Analizaremos los conceptos básicos de la teoría de la probabilidad, discutiremos diferentes tipos de modelos probabilísticos y explicaremos cómo implementarlos en Rstudio utilizando diferentes bibliotecas. Aprenderemos a ajustar modelos a los datos, realizar inferencias estadísticas y realizar predicciones utilizando estos modelos.

Modelos discretos de probabilidad

Distribución uniforme

Es un tipo de distribución de probabilidad que describe un conjunto finito de valores igualmente probables. En esta distribución, todos los posibles valores tienen la misma probabilidad de ocurrir. Es discreta porque solo puede tomar valores enteros o discretos en un rango definido.

f(x)=\frac{1}{n}

F(x)=f(x\le x)

E(x)=\mu=\frac{n+1}{2}

V[x]={{\sigma}^{2}}=\frac{{{n}^{2}}+1}{12}

\sigma=\sqrt{V[x]}

C.V=\left(\frac{\sigma }{E[x]} \right)\,\,\centerdot \,\,100\,\,%

Se selecciona al azar una bombilla de una caja que contiene, una bombilla de 40watts, una de 60 watts, una de 75watts, una de 100 watts y una de 120watts. ¿Hallar la probabilidad de que sea seleccionada alguna de las bombillas dentro de la caja, realizar la funcion de distribucion, determinar la esperanza y la varianza?.

Determinamos la variable aleatoria X

X=\text{ Bombillas dentro de la caja}\text{, X= }\!\!\{\!\!\text{ 1}\text{,2}\text{,3}\text{,4}\text{,5 }\!\!\}\!\!\text{ }

\text{n=5}

como podemos observar X toma valores finitos, cada uno con la misma probabilidad, por tanto X se distribuye uniformemente.

f(x)=\frac{1}{n}=\frac{1}{5}

Ver código
xu<-c(1,2,3,4,5)
nu<-5
pu<-1/nu
pu<-fractions(pu)

paste0("la probabilidad de que sea seleccionada alguna de las bombillas dentro de la caja es ",pu)
[1] "la probabilidad de que sea seleccionada alguna de las bombillas dentro de la caja es 1/5"

Decimos que la función de probabilidad de sacar una bombilla esta definida de la siguiente manera:

f(x)=\begin{cases} \begin{aligned} &\textstyle \frac{1}{5}, &&\text x=\{1,2,3,4,5\}, \\ &0, &&\text{en cualquier otro caso}. \end{aligned}\end{cases}

Definimos la funcion de distribución de la siguiente manera

f(x)=\begin{cases} \begin{aligned} &0, &&\text{si } x<1, \\ &\textstyle \frac{1}{5}, &&\text{si } 1\leq x<2, \\ &\textstyle \frac{2}{5}, &&\text{si } 2\leq x<3, \\ &\textstyle \frac{3}{5}, &&\text{si } 3\leq x<4, \\ &\textstyle \frac{4}{5}, &&\text{si } 4\leq x<5, \\ &1, &&\text{si } x\geq 5. \end{aligned}\end{cases}

Resumimos todo en la siguiente tabla

Ver código
fu <- rep(pu, length(xu))
Fu<-round(cumsum(fu),4)

data<-cbind.data.frame(xu,fu,Fu)
names(data)<-c("X","f(X)","F(X)")
kable(data) %>%
  kable_styling(full_width = F) %>%
  column_spec(column = 1, background = "#99FFD0")
X f(X) F(X)
1 0.2 0.2
2 0.2 0.4
3 0.2 0.6
4 0.2 0.8
5 0.2 1.0
Ver código
gfu <- data.frame(x = xu, p = fu)

ggplot(gfu, aes(x = x, y = p)) + geom_point(size= I(4),color = "#FF1616") +
  geom_segment(aes(x = x, y = 0, xend = x, yend = p), color = "#FF1616", size = 1.5) +
  theme_classic()+
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

Ver código
gFu <- data.frame(x = xu, p = Fu)

# Graficar la PMF usando ggplot2
ggplot(gFu, aes(x = x, y = p)) + 
  geom_point(size= I(3),color="#2FF37F") +
  geom_text(aes(label = paste0("(",(p),")")), size = 2,
            vjust = -1) +
  geom_segment(aes(x = lag(x), y = lag(p), xend = x, yend =
                     lag(p)), color = "#2FF37F", size =
  1.0)+ xlab("X") + ylab("P(X)") +
  ggtitle("Función de Distribución")+
  theme_classic()+
  scale_x_continuous(limits = c(0, 6), breaks = seq(0, 6, by = 1)) +  
  geom_segment(aes(x=0,y=0,xend=1,yend=0),color="#2FF37F",size =
  1.0)+
  geom_segment(aes(x=5,y=1,xend=6,yend=1), color="#2FF37F",size =
  1.0)

Determinamos la Esperanza y la Varianza.

{{\mu }_{X}}=\frac{n+1}{2}=\frac{5+1}{2}=3

\sigma _{X}^{2}=\frac{{{n}^{2}}-1}{12}=\frac{25-1}{12}=2

Ver código
mu<-mean(xu,pu)
varu <- ((nu^2 - 1) / 12)
ans<-c(media=mu, varianza=varu)
ans
   media varianza 
       3        2 

Distribución Binomial

Describe la probabilidad de obtener un número específico de éxitos en una serie de ensayos independientes, donde cada ensayo tiene solo dos posibles resultados: éxito o fracaso.Esta distribución se caracteriza por dos parámetros: el número de ensayos o experimentos n y la probabilidad de éxito en cada ensayo p. Se utiliza cuando se cumplen las siguientes condiciones:

1. Probabilidades constantes de los sucesos en estudio: P(E)=p , P({{E}^{c}})=1-p=q cada vez que se efectúa el experimento.

2. Existe independencia entre resultados de cada repetición del experimento n >1.

3. Variable aleatoria: queda definida como X : “número de veces en que ocurre E (el suceso de interés) en las n realizaciones del experimento”.

f(x) = \binom{n}{x} \, p^x \, q^{n-x}

En donde:

\,\,\,q=p-1\,\,\,

\binom{n}{x} = \frac{n!}{(n-x)!\,x!}

F(x)=\,f(x\le x)

E[x]=\,\mu=np

V[x]={{\sigma}^{2}}=npq

\sigma=\sqrt{V[x]}

Una franquicia de comidas rápidas decide sacar a la venta una nueva hamburguesa, la probabilidad de que a un cliente le guste la nueva hamburguesa es de 0,8. Si llegan 5 clientes nuevos ¿cuál es la probabilidad de que solo a 3 de ellos les guste la nueva hamburguesa?, Determine la esperanza y la varianza.

Determinamos la variable aleatoria X

X=\text{ clientes que les gusta la nueva hamburguesa}\text{, X= }\!\!\{\!\!\text{ 0}\text{,1}\text{,2}\text{,3}\text{,4}\text{,5 }\!\!\}\!\!\text{ }

Como la variable solo puede resultar favorable y desfavorable, ademas la probabilidad de exito se mantiene constante e independiente para cada n intentos.

n=5,\text{ p=0}\text{,8},\text{ q=0}\text{,2}

Para la empresa se nos pide hallar la probabilidad que le guste la nueva hamburguesa a solo 3 clientes, es decir.

f(x)=P(X=3)=\binom{n}{x} p^x q^{n-x}

\left( \frac{5!}{(5-3)!3!} \right){{\left( 0,8 \right)}^{3}}{{\left( 0,2 \right)}^{2}}

P(X=3)=0,2048

Ver código
pb0<-dbinom(0,5,0.8)
pb1<-dbinom(1,5,0.8)
pb2<-dbinom(2,5,0.8)
pb3<-dbinom(3,5,0.8)
pb4<-dbinom(4,5,0.8)
pb5<-dbinom(5,5,0.8)

paste0("la probabilidad que le guste la nueva hamburguesa a solo 3 clientes es ",pb3)
[1] "la probabilidad que le guste la nueva hamburguesa a solo 3 clientes es 0.2048"

Decimos que la función de probabilidad de que le guste al cliente la nueva hamburguesa esta definida de la siguiente manera:

f(x)=\begin{cases}\begin{aligned}&0.0003,&&\text{si }x=0,\\&0.0064,&&\text{si }x=1,\\&0.0512,&&\text{si }x=2,\\&0.2048,&&\text{si }x=3,\\&0.4096,&&\text{si }x=4,\\&0.32768,&&\text{si }x=5.\end{aligned}\end{cases}

Definimos la funcion de distribución de la siguiente manera

F(x)=\begin{cases}\begin{aligned}&0.0003,&&\text{si }0\leq x<1,\\&0.0067,&&\text{si }1\leq x<2,\\&0.0579,&&\text{si }2\leq x<3,\\&0.2627,&&\text{si }3\leq x<4,\\&0.6723,&&\text{si }4\leq x<5,\\&1,&&\text{si }5\leq x \leq n.\end{aligned}\end{cases}

Ver código
xb<-c(0,1,2,3,4,5)
fb<-c(pb0,pb1,pb2,pb3,pb4,pb5)
Fb<-round(cumsum(fb),4)

data<-cbind.data.frame(xb,fb,Fb)
names(data)<-c("X","f(X)","F(X)")
kable(data) %>%
  kable_styling(full_width = F) %>%
  column_spec(column = 1, background = "#F5FF6D")
X f(X) F(X)
0 0.00032 0.0003
1 0.00640 0.0067
2 0.05120 0.0579
3 0.20480 0.2627
4 0.40960 0.6723
5 0.32768 1.0000
Ver código
gfb <- data.frame(x = xb, p = fb)

ggplot(gfb, aes(x = x, y = p)) + geom_point(size= I(4),color = "#F033FF") +
  geom_segment(aes(x = x, y = 0, xend = x, yend = p), color = "#F033FF", size = 1.5) +
  theme_classic()+
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

Ver código
gFb <- data.frame(x = xb, p = Fb)

ggplot(gFb, aes(x = x, y = p)) + 
  geom_point(size= I(3),color="#33E6FF") +
  geom_text(aes(label = paste0("(",(p),")")), size = 2,
            vjust = -1) +
  geom_segment(aes(x = lag(x), y = lag(p), xend = x, yend =
                     lag(p)), color = "#33E6FF", size =
  1.0)+ xlab("X") + ylab("P(X)") +
  ggtitle("Función de Distribución")+
  theme_classic()+
  scale_x_continuous(limits = c(0, 6), breaks = seq(0, 6, by = 1)) +  
  geom_segment(aes(x=0,y=0,xend=1,yend=0),color="#33E6FF",size =
  1.0)+
  geom_segment(aes(x=5,y=1,xend=6,yend=1), color="#33E6FF",size =
  1.0)

Determinamos la Esperanza y la Varianza.

{{\mu }_{X}}=n.p=5(0,8)=4 \sigma _{X}^{2}=n.p.q=5(0,8)(0,2)=0,8

Ver código
nb<-5
pb<-0.8
qb<-0.2
mb<-nb*pb
varb <-mb*qb
ans<-c(media=mb, varianza=varb)
ans
   media varianza 
     4.0      0.8 

Distribucion de Poisson

Describe la probabilidad de ocurrencia de un número discreto de eventos en un intervalo de tiempo o espacio específico. Se aplica en situaciones donde los eventos ocurren de manera independiente y a una tasa constante en un intervalo continuo.

Se caracteriza por un único parámetro λ , que representa la tasa media de ocurrencia de eventos por unidad de tiempo o espacio.

f(x) = \frac{{e^{-\lambda} \cdot \lambda^x}}{{x!}}

{{\mu }_{X}}=\sigma _{X}^{2}=\lambda

{{\sigma }_{X}}=\sqrt{\sigma _{X}^{2}}

En un banco un asesor comercial atiende en promedio a 4 personas por hora ¿Cuál es la probabilidad que en la siguiente hora atienda solamente a 2 personas? Además determine la esperanza y varianza.

Determinamos la variable aleatoria X

\text{X = Numero de personas atendidas = }\!\!\{\!\!\text{0}\text{,1}\text{,2}\text{,3}\text{,4}\!\!\}\!\!\text{ }

Determinamos la variable Lambda

\lambda \text{ = promedio de personas atendidas en una hora = }\frac{4}{60}=0,666

Como se nos pide hallar la probabilidad de que se atienda a 2 personas en la siguiente hora decimos:

\text{f(x)=P(x=2)=}\frac{{{e}^{-\lambda}}{{\lambda }^{x}}}{x!}

\frac{{{e}^{-0,666}}{{0,666}^{2}}}{2!}

\text{P(x=2)=}0,1141

Ver código
pp0<-dpois(0,0.6666)
pp1<-dpois(1,0.6666)
pp2<-round(dpois(2,0.6666),4)
pp3<-dpois(3,0.6666)
pp4<-dpois(4,0.6666)

paste0("la probabilidad de que se atienda a 2 personas en la siguiente hora es ",pp2)
[1] "la probabilidad de que se atienda a 2 personas en la siguiente hora es 0.1141"

Vamos a definir la función de probabilidad de la siguiente manera

f(x) = \begin{cases} 0.5134, & \text{si } x = 0, \\ 0.3422, & \text{si } x = 1, \\ 0.1141, & \text{si } x = 2, \\ 0.0253, & \text{si } x = 3, \\ 0.0042, & \text{si } x = 4. \end{cases}

Definimos la función de distribución:

F(x) = \begin{cases} 0.5134, & \text{si } x \leq 0, \\ 0.8556, & \text{si } 0 < x \leq 1, \\ 0.9607, & \text{si } 1 < x \leq 2, \\ 0.996, & \text{si } 2 < x \leq 3, \\ 1, & \text{si } 3 < x \leq 4. \end{cases}

Ver código
xp<-c(0,1,2,3,4)
fp<-c(pp0,pp1,pp2,pp3,pp4)
Fp<-round(cumsum(fp),4)

data<-cbind.data.frame(xp,fp,Fp)
names(data)<-c("X","f(X)","F(X)")
kable(data) %>%
  kable_styling(full_width = F) %>%
  column_spec(column = 1, background = "#FFA2A2")
X f(X) F(X)
0 0.5134513 0.5135
1 0.3422667 0.8557
2 0.1141000 0.9698
3 0.0253480 0.9952
4 0.0042242 0.9994
Ver código
gfp <- data.frame(x = xp, p = fp)

ggplot(gfp, aes(x = x, y = p)) + geom_point(size= I(4),color = "#84D354") +
  geom_segment(aes(x = x, y = 0, xend = x, yend = p), color = "#84D354", size = 1.5) +
  theme_classic()+
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

Ver código
gFp <- data.frame(x = xp, p = Fp)

ggplot(gFp, aes(x = x, y = p)) + 
  geom_point(size= I(3),color="#A536F2") +
  geom_text(aes(label = paste0("(",(p),")")), size = 2,
            vjust = -1) +
  geom_segment(aes(x = lag(x), y = lag(p), xend = x, yend =
                     lag(p)), color = "#A536F2", size =
  1.0)+ xlab("X") + ylab("P(X)") +
  ggtitle("Función de Distribución")+
  theme_classic()+
  scale_x_continuous(limits = c(0, 5), breaks = seq(0, 5, by = 1)) +  
  geom_segment(aes(x=4,y=1,xend=5,yend=1), color="#A536F2",size =
  1.0)

Determinamos la esperanza y la varianza igual a lambda

{{\mu }_{X}}=\sigma _{X}^{2}=\lambda =0,666

Distribución Hipergeométrica

Modela la probabilidad de obtener un número específico de éxitos en una muestra sin reemplazo, extraída de una población finita, donde se distinguen dos tipos de elementos (éxitos y fracasos).

f(x) = P(X=x) = \frac{{\binom{M}{x}\binom{N-M}{n-x}}}{{\binom{N}{n}}}

E[x] = n\frac{M}{N}

{{\sigma }^{2}} = Var[X] = n\frac{M}{N}\left( 1-\frac{M}{N} \right)\left( \frac{N-n}{N-1} \right)

\sigma = \sqrt{{{\sigma }^{2}}}

En una caja hay 10 celulares de los cuales hay 3 dañados, si se sacan de manera aleatoria 5 celulares de la caja ¿Cuál es la probabilidad de sacar un celular dañado?

Como x se distribuye hipergeométricamente debemos identificar los parámetros correspondientes.

N\text{ = Tama }\!\!\tilde{\mathrm{n}}\!\!\text{ o de la poblaci }\!\!\acute{\mathrm{o}}\!\!\text{ n = 10} \\

\text{n = Tama }\!\!\tilde{\mathrm{n}}\!\!\text{ o de la muestra = 5} \\

\text{M = N }\!\!\acute{\mathrm{u}}\!\!\text{ mero de exitos de la poblaci }\!\!\acute{\mathrm{o}}\!\!\text{ n = 3}

\text{X = N }\!\!\acute{\mathrm{u}}\!\!\text{ mero de exitos de la muestra = 1}

¿Cuál es la probabilidad de sacar un celular dañado?

f(x)=P(x=1)=\frac{{M \choose X} {N-M \choose n-X}}{{N \choose n}}

=\frac{{3 \choose 1}{10-3 \choose 5-1}}{{10 \choose 5}}

P(X=1) = \frac{3 \cdot 35}{252} = \frac{105}{252} =\ 0.4167

Ver código
ph0<-dhyper(0,3,7,5)
ph1<-round(dhyper(1,3,7,5),4)
ph2<-dhyper(2,3,7,5)
ph3<-dhyper(3,3,7,5)

paste0("la probabilidad de sacar un celular dañado es ",ph1)
[1] "la probabilidad de sacar un celular dañado es 0.4167"

Vamos a definir la función de probabilidad

f(x) = \begin{cases} 0.0833, & \text{si } x = 0, \\ 0.4167, & \text{si } x = 1, \\ 0.4167, & \text{si } x = 2, \\ 0.0833, & \text{si } x = 3. \end{cases}

Vamos a definiri la función de distribución

f(x) = \begin{cases} 0.0833, & \text{si } x \leq 0, \\ 0.5, & \text{si } 0 < x \leq 1, \\ 0.9167, & \text{si } 1 < x \leq 2, \\ 1, & \text{si } 2 < x \leq 3. \end{cases}

Ver código
xh<-c(0,1,2,3)
fh<-c(ph0,ph1,ph2,ph3)
Fh<-round(cumsum(fh),4)

data<-cbind.data.frame(xh,fh,Fh)
names(data)<-c("X","f(X)","F(X)")
kable(data) %>%
  kable_styling(full_width = F) %>%
  column_spec(column = 1, background = "#FFF39D")
X f(X) F(X)
0 0.0833333 0.0833
1 0.4167000 0.5000
2 0.4166667 0.9167
3 0.0833333 1.0000
Ver código
gfh <- data.frame(x = xh, p = fh)

ggplot(gfh, aes(x = x, y = p)) + geom_point(size= I(4),color = "#D06AAB") +
  geom_segment(aes(x = x, y = 0, xend = x, yend = p), color = "#D06AAB", size = 1.5) +
  theme_classic()+
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

Ver código
gFh <- data.frame(x = xh, p = Fh)

ggplot(gFh, aes(x = x, y = p)) + 
  geom_point(size= I(3),color="#6AD0A6") +
  geom_text(aes(label = paste0("(",(p),")")), size = 2,
            vjust = -1) +
  geom_segment(aes(x = lag(x), y = lag(p), xend = x, yend =
                     lag(p)), color = "#6AD0A6", size =
  1.0)+ xlab("X") + ylab("P(X)") +
  ggtitle("Función de Distribución")+
  theme_classic()+
  scale_x_continuous(limits = c(0, 4), breaks = seq(0, 4, by = 1)) +  
  geom_segment(aes(x=3,y=1,xend=4,yend=1), color="#6AD0A6",size =
  1.0)

Determinamos la Esperanza y Varianza

{{\mu }_{X}}=n\frac{M}{N}=1,5

\sigma _{X}^{2}=n\frac{M}{N}\left( 1-\frac{M}{N} \right)\left( \frac{N-n}{N-1} \right)=\frac{105}{180}

Ver código
n<-5
N<-10
M<-3

mh<-(M/N)*n
varh<-round(mh*(1-M/N)*((N-n)/(N-1)),4)

ans<-c(media=mh, varianza=varh)
ans
   media varianza 
  1.5000   0.5833 

Distribución Geométrica

Distribución de probabilidad discreta que modela el número de ensayos necesarios para obtener el primer éxito en un experimento de Bernoulli, donde la probabilidad de éxito es constante en cada ensayo.

P(X=n)={{(1-p)}^{n-1}}p

E[X] = \frac{1}{P}

V[X] = \frac{1-P}{{{P}^{2}}}

En el proceso de manufactura en el area de modelado de una fabrica, se sabe que la probabilidad de obtener una pieza defectuosa es de 2,5%. ¿Cuál es la probabilidad de que la Quinta pieza inspeccionada sea la primera defectuosa?

Como x se distribuye geométricamente debemos identificar los parámetros correspondientes.

X=\text{ intentos realizados hasta ocurrir el evento = 5}

\text{P = Probabilidad de que una pieza sea defectuosa = 0}\text{,025}

f(x)=P(X=10)=P{{(1-P)}^{x-1}}

=0,025{{(1-0,025)}^{5-1}}

P(X=10) = \ 0.022

Ver código
pg1<-dgeom(1,0.025)
pg2<-dgeom(2,0.025)
pg3<-dgeom(3,0.025)
pg4<-dgeom(4,0.025)
pg5<-round(dgeom(5,0.025),4)
pg6<-dgeom(6,0.025)
pg7<-dgeom(7,0.025)
pg8<-dgeom(8,0.025)
pg9<-dgeom(9,0.025)
pg10<-dgeom(10,0.025)

xg<-c(1,2,3,4,5,6,7,8,9,10)
fg<-c(pg1,pg2,pg3,pg4,pg5,pg6,pg7,pg8,pg9,pg10)
Fg<-round(cumsum(fg),4)

paste0("la probabilidad de que la Quinta pieza inspeccionada sea la primera defectuosa es ",pg5)
[1] "la probabilidad de que la Quinta pieza inspeccionada sea la primera defectuosa es 0.022"

Tabulando en 5

Ver código
x5<-5
Fg5<-round(c(pg1+pg2+pg3+pg4+pg5),4)



data<-cbind.data.frame(x5,pg5,Fg5)
names(data)<-c("X","f(X)","F(X)")
kable(data) %>%
  kable_styling(full_width = F) %>%
  column_spec(column = 1, background = "#C6FF6F")
X f(X) F(X)
5 0.022 0.1159
Ver código
gfg <- data.frame(x = xg, p = fg)

ggplot(gfg, aes(x = x, y = p)) + geom_point(size= I(4),color = "#FF6FF6") +
  geom_segment(aes(x = x, y = 0, xend = x, yend = p), color = "#FF6FF6", size = 1.5) +
  theme_classic()+
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

Ver código
gFg <- data.frame(x = xg, p = Fg)

ggplot(gFg, aes(x = x, y = p)) + 
  geom_point(size= I(3),color="#6FB7FF") +
  geom_text(aes(label = paste0("(",(p),")")), size = 2,
            vjust = -1) +
  geom_segment(aes(x = lag(x), y = lag(p), xend = x, yend =
                     lag(p)), color = "#6FB7FF", size =
  1.0)+ xlab("X") + ylab("P(X)") +
  ggtitle("Función de Distribución")+
  theme_classic()

Determinamos la Esperanza y Varianza

{{\mu }_{X}}=\frac{1}{p}=40

\sigma _{X}^{2}=\frac{1-p}{{{p}^{2}}}=1560

Ver código
mg<-1/0.025
varg<-0.975/0.025^2
ans<-c(media=mg, varianza=varg)
ans
   media varianza 
      40     1560 

Distribución Binomial Negativa

Es un modelo adecuado para tratar aquellos procesos en los que se repite un determinado ensayo o prueba hasta conseguir un número determinado de resultados favorables. Para representar que una variable aleatoria 𝑋 sigue una distribución binomial negativa, se usa X\sim BN(k,p).

f(x) = P(X=x) = \binom{X-1}{r-1} P^r (1-P)^{x-r}

E[X] = \frac{r}{P}

V[X] = \frac{r(1-P)}{{P}^{2}}

Suponga que hay una probabilidad de del 80% de que una determinada persona creerá una historia de terror. ¿Cuál es la probabilidad de que la sexta persona que escucha la historia de terror sea la cuarta en creerla?

Como x se distribuye de forma Binomial Negativa debemos identificar los parámetros correspondientes.

x=\text{personas que escuchan la historia de terror = 6}

r = \text{personas que creen la historia de terror} = 4

p = \text{probabilidad de creer la historia de terror} = 0.80

f(x) = P(X=6) = \binom{6-1}{4-1} \cdot 0.80^4 \cdot (1-0.80)^{6-4}

P(X=6) = \frac{5.4}{2} \cdot (0.4096) \cdot (0.04)

P(X=6) = 0.16384

Ver código
xnb<-1:12
rnb<-4
pnb<-0.8

PNB4<-dnbinom(2,size=rnb,prob=pnb)

paste0("la probabilidad de que la sexta persona que escucha la historia de terror sea la cuarta en creerla es ",PNB4)
[1] "la probabilidad de que la sexta persona que escucha la historia de terror sea la cuarta en creerla es 0.16384"
Ver código
#Fórmula general para graficar
PNB<-dnbinom(xnb-rnb,size=rnb,prob=pnb)

gfnb<- data.frame(xnb, PNB)

ggplot(gfnb, aes(x = as.factor(xnb), y = PNB)) +
  geom_point(size = I(4), color = "#40E0D0") +
  geom_segment(aes(x = xnb, y = 0, xend = xnb, yend = PNB), color = "#40E0D0", size = 1.5) +
  coord_cartesian(xlim = c(4, max(xnb))) +
  theme_classic() +
  xlab("X") +
  ylab("P(X)") +
  ggtitle("Función de probabilidad")

\mu_X = \frac{4}{0.80} = 5

\sigma_X^2 = \frac{4 \cdot 0.2}{{0.80}^2} = 1.25

Modelos continuos

Distribución normal

Es una distribución de probabilidad continua que se utiliza ampliamente en estadística. Se caracteriza por tener una forma de campana simétrica alrededor de su media, con la mayor parte de los valores concentrados cerca de la media y una cola que se extiende hacia los extremos. Esta distribución es importante en muchos campos debido a su capacidad para describir naturalmente numerosos fenómenos en la vida real.

f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

podemos observar de la funcion f(x) como esta depende de la media y la varianza, y como es una variable aleatoria continua su característica es area bajo la curva y por tanto hallar requiere de integrar, esto implicaría que para cada caso se deben determinar siempre los parametros lo cual se convierte en algo tedioso de calcular para valores grandes, es por esto, que al enfocarnos en \left(\frac{x-\mu}{\sigma}\right)podemos estandarizar en una nueva variable llamada Z.

Se llama DISTRIBUCIÓN NORMAL ESTANDAR a la distribucion de una variable aleatoria normal con media 0 y varianza 1 Z = \frac{x-\mu}{\sigma}

Una vez estandarizada se tendrá en cuenta los valores definidos de la distribución normal estandarizada en la denominada tabla Z o un aplicativo que ejecute de manera automática.

Una maquina expendedora de bebidas gaseosas se regula para que sirva un promedio de 200 mililitros por vaso. Si la cantidad de bebida se distribuye normalmente con una desviación estándar igual a 15 mililitros. ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?

Determinamos los parametros correspondientes:

x=\left[ 191,209 \right]

{{\mu }_{X}}=200

{{\sigma }_{X}}=15

P(191 < x < 209) = \left(\frac{191-200}{15} < Z < \frac{209-200}{15}\right)

(-0,6<Z<0,6)

Ahora buscando en la tabla o en el aplicativo concluimos que:

P(-0.6 < Z < 0.6) = 45.15\%

Ver código
fn<-round(pnorm(209,200,15)-pnorm(191,200,15),4)
paste0("La probabilidad de que un vaso contenga entre 191 y 209 mililitros de gaseosa es ",fn)
[1] "La probabilidad de que un vaso contenga entre 191 y 209 mililitros de gaseosa es 0.4515"
Ver código
fz <- data.frame(x = seq(150, 250, length = 100))
fz$f <- dnorm(fz$x, mean = 200, sd = 15)

ggplot(fz, aes(x = x, y = f)) +
  geom_line() +
  geom_area(data = subset(fz, x >= 191 & x <= 209),
            aes(x = x, y = f), fill = "blue", alpha = 0.3) +
  annotate("text", x = 195, y = 0.015, label = paste("Probability:", round(integrate(dnorm, 191, 209, mean = 200, sd = 15)$value * 100, 2), "%"), color = "black", size = 4) +
  xlab("x") +
  ylab("Densidad") +
  ggtitle("Función de Densidad") +
  scale_x_continuous(breaks = c(191, 200, 209)) +
  theme_classic()

Referencias

Auguie, Baptiste. 2017. «gridExtra: Miscellaneous Functions for "Grid" Graphics». https://CRAN.R-project.org/package=gridExtra.
Lyttle, Ian. 2021. «vembedr: Embed Video in HTML». https://CRAN.R-project.org/package=vembedr.
R Core Team. 2023. «R: A Language and Environment for Statistical Computing». https://www.R-project.org/.
Venables, W. N., y B. D. Ripley. 2002. «Modern Applied Statistics with S». https://www.stats.ox.ac.uk/pub/MASS4/.
Wickham, Hadley. 2016. «ggplot2: Elegant Graphics for Data Analysis». https://ggplot2.tidyverse.org.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the tidyverse» 4: 1686. https://doi.org/10.21105/joss.01686.
Wickham, Hadley, Romain François, Lionel Henry, Kirill Müller, y Davis Vaughan. 2023. «dplyr: A Grammar of Data Manipulation». https://CRAN.R-project.org/package=dplyr.
Wilke, Claus O. 2022. «ggridges: Ridgeline Plots in ’ggplot2’». https://CRAN.R-project.org/package=ggridges.
Zhu, Hao. 2021. «kableExtra: Construct Complex Table with ’kable’ and Pipe Syntax». https://CRAN.R-project.org/package=kableExtra.