Distribuciones de probabilidad

1. Distribucion lognormal

La distribución lognormal es una distribución flexible que se relaciona estrechamente con la distribución normal. Esta distribución puede resultar particularmente útil para modelar datos que sean aproximadamente simétricos o asimétricos a la derecha.

Formula de la función densidad:

\(f(x)=\frac{1}{x\sigma \sqrt{2\pi }}e^{-\frac{1}{2}(\frac{\ln (x)-\mu }{\sigma })^{2}}\)

En el lenguaje R para graficar la distribución lognormal se emplean los siguientes funciones: dlnorm(): calcular la densidad, plnorm():calcular la distribución acumulada, qlnorm() y rlnorm().

Ejemplo: se sabe que la tasa promedio de uso de agua(en miles de galones por hora) en cierta comunidad implica la distribución logarítmica normal con los parámetros \(\sigma\)=0.5 y \(\mu\)=1.Para el estudio se simulan los valores de consumo horario de 1000 observaciones (n = 1000), los cuales siguen una distribución lognormal.

n<-1000
mu <-1
sigma <-0.5
consumo_agua<- rlnorm(n,meanlog = mu, sdlog = sigma)

#histograma
hist(consumo_agua,prob=TRUE,main="distribución lognormal",xlab="consumo de agua",ylab="Frecuencia",col="violetred")

lines(density(consumo_agua),col="black",lwd=2)

2.Distribución Gaussiana o normal

La distribución Gaussiana, también conocida como distribución normal, es un concepto estadístico que describe cómo se distribuyen los datos alrededor de un valor promedio. Es como una “campana” simétrica que muestra cómo los valores se agrupan alrededor de un punto central. En esta distribución, la mayoría de los datos se concentran cerca del valor medio, y a medida que nos alejamos del valor medio, la cantidad de datos disminuye gradualmente. Esto significa que hay menos datos en los extremos y más datos cerca del centro.

Formula de la función densidad:

\(f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}\)

Ejemplo: El nivel de colesteral en una persona adulta sana sigue una distribución normal N(192,12). Calcular la probabilidad de que una persona tenga un nivel de colesterol superior a 200

#parametros
n<-1000
media<-192
desv<-12

colesterol<- rnorm(n,mean=media,sd=desv)

#Histograma
hist(colesterol,prob=TRUE,main="Distribución gaussiana o normal",xlab="Nivel de colesterol",ylab="Frecuencia",col="palevioletred3")

lines(density(colesterol),col="lightsteelblue4",lwd=2)

abline(v=200,col="royalblue4",lwd=2)

p_mayor_200<-1-pnorm(200,mean=media,sd=desv)
cat("la probabilidad de tener colesterol mayor a 200 es: ", round(p_mayor_200,4))
## la probabilidad de tener colesterol mayor a 200 es:  0.2525

3.Distribucion chi-cuadrado

La distribución chi cuadrado (\(\chi ^{2}\)) es una distribución de probabilidad continua que representa la suma de los cuadrados de variables aleatorias independientes y normalmente distribuidas. Se utiliza principalmente en pruebas de hipótesis para evaluar la bondad de ajuste de una muestra a una distribución teórica o para comprobar la independencia de variables categóricas. La distribución depende de un parámetro clave: los grados de libertad (k).

Formula \[\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\]

Ejemplo:

Una empresa que vende camisas quiere saber si todos sus colores de camisas son igual de populares, por lo que registra el número de ventas por color de camisa durante una semana. Dado que se vendieron 350 camisetas en total, 50 ventas por color serían exactamente iguales. Es evidente que no se vendieron exactamente 50 camisetas por color. Sin embargo, se trata de una muestra de solo una semana, por lo que es de esperar que las cifras varíen ligeramente debido al azar.

¿Proporciona la muestra evidencia suficiente para concluir que la frecuencia de ventas de camisas realmente difiere entre los colores de las mismas?

colores<- c("rojo","gris","Amarillo","rosa","negro","blanco","azul")
Observado<- c(30,29,26,33,56,90,86)
esperado<- rep(50,7)
library(kableExtra)
data<- data.frame (colores=c("rojo","gris","Amarillo","rosa","negro","blanco","azul"), Observados=c(30,29,26,33,56,90,86))
kable (data)
colores Observados
rojo 30
gris 29
Amarillo 26
rosa 33
negro 56
blanco 90
azul 86
resultado<-chisq.test(x=Observado,p=rep(1/7,7))
resultado
## 
##  Chi-squared test for given probabilities
## 
## data:  Observado
## X-squared = 92.76, df = 6, p-value < 2.2e-16
barplot(
  rbind(Observado,esperado),
        beside= TRUE,
        names.arg= colores,
        col= c("lightblue","salmon"),
        ylim= c(0,100),
      
        main="Comparacion de ventas observadas vs esperadas por color ",
        ylab="numero de camisas vendidas")
legend("topright",
       legend = c("Observadas", "Esperadas"),
       fill = c("lightblue", "salmon"))

4. Distribucion poisson

La distribución de Poisson es una distribución de probabilidad discreta que calcula la probabilidad de un número determinado de eventos que ocurren en un intervalo fijo de tiempo o espacio. Se utiliza cuando los eventos ocurren de manera aleatoria e independiente con una tasa media conocida, representada por la letra griega lambda (\(\lambda\)).

Formula \[f(x) = \frac{e^{-\lambda}\lambda^{x}}{x!}\]

Ejemplo: En ciertas instalaciones industriales los accidentes ocurren con muy poca frecuencia. Se sabe que la probabilidad de un accidente en cualquier día dado es 0.005 y los accidentes son independientes entre sí .

¿Cuál es la probabilidad de que en cualquier periodo dado de 400 días habrá un accidente en un día?

Proba<-0.005
dias<-400
lambda<-Proba*dias
prob1<-dpois(1,lambda)
prob1
## [1] 0.2706706
x<- 0:10
prob<- dpois(x,lambda)
data.frame(accidentes=x,probabilidad=round(prob,4) )
##    accidentes probabilidad
## 1           0       0.1353
## 2           1       0.2707
## 3           2       0.2707
## 4           3       0.1804
## 5           4       0.0902
## 6           5       0.0361
## 7           6       0.0120
## 8           7       0.0034
## 9           8       0.0009
## 10          9       0.0002
## 11         10       0.0000
barplot(
  prob,
  names.arg=x,
  col="pink1",
  main="distribucion de poisson(λ = 2)",
  xlab="numero de accidentes en 400 dias ",
  ylab="probabilidad",
  ylim= c(0,max(prob)+0.05)
)
text(x = seq_along(prob),
     y = prob,
     labels = round(prob, 3),
     pos = 3,
     cex = 0.8)

## 5.Distribución exponencial

La distribución exponencial es una distribución de probabilidad continua que modela el tiempo que transcurre entre eventos independientes y aleatorios que ocurren a una tasa constante. Se utiliza para calcular la probabilidad de que un evento específico ocurra en un momento determinado.

Formula de la función densidad:

\(f(x;\lambda )=\lambda e^{-\lambda x}\)

Ejercicio: El tiempo de vida de una lámpara especial sigue una distribución exponencial con media 100 horas. ¿Cuál es la probabilidad de que una lámpara dure por lo menos 30 horas?

n<-1000
lambda<-1/100
vida_lampara<-rexp(n,rate=lambda)

hist(vida_lampara,prob=TRUE,main="Distribución Exponencial",xlab="Tiempo de vida(horas)",ylab="Frecuencia",col="mediumturquoise")

abline(v=30,col="mediumvioletred",lwd=2)

p_mayor_30<-1-pexp(30,rate=lambda)
cat("La probabilidad de que la lampara dure al menos 30 horas: ",round(p_mayor_30,4))
## La probabilidad de que la lampara dure al menos 30 horas:  0.7408