Es una distribución de probabilidad que describe variables que solo pueden tomar valores positivos y cuyos logaritmos siguen una distribución normal. Esto significa que si una variable \(Y=\ln(X)\) tiene una distribución normal, entonces la variable original \(X\) tiene una distribución lognormal.Este tipo de distribución se utiliza para modelar fenómenos donde los valores crecen de forma multiplicativa, como los precios de acciones, ingresos, tiempos de vida de productos o duraciones de procesos.
\[f(x;\mu,\sigma)=\frac{1}{x\,\sigma\sqrt{2\pi}}\,\exp\!\left(-\frac{(\ln x-\mu)^2}{2\sigma^2}\right),\qquad x>0\]
Donde:
Supóngase que la supervivencia, en años, luego de una intervención quirúrgica (tiempo que pasa hasta que ocurre la muerte del enfermo) en una cierta población sigue una distribución lognormal de parámetro \(\mu=2,32\) y \(\sigma=0,20\). Calcular la probabilidad de supervivencia a los 12 años.
# Parámetros
meanlog <- 2.32
sdlog <- 0.20
# Simulación de datos
set.seed(123)
supervivencia <- rlnorm(1000, meanlog, sdlog)
# Histograma con curva teórica
hist(supervivencia,
breaks = 30,
col = "lightblue",
prob = TRUE,
main = "Supervivencia (años) - Distribución Lognormal",
xlab = "Años de supervivencia",
ylab = "Densidad de probabilidad")
curve(dlnorm(x, meanlog, sdlog),
from = 0, to = max(supervivencia),
add = TRUE, col = "darkblue", lwd = 2)
# Probabilidad de sobrevivir más de 12 años
p12 <- 1 - plnorm(12, meanlog, sdlog)
p12
## [1] 0.2048183
La distribución Gaussiana, también conocida como distribución normal, es un concepto estadístico que describe cómo se distribuyen los datos alrededor de un valor promedio. Es como una “campana” simétrica que muestra cómo los valores se agrupan alrededor de un punto central.Se utiliza ampliamente en muchas áreas, ya que muchos fenómenos naturales y artificiales se ajustan a este patrón. Por ejemplo, la altura de las personas, los puntajes de pruebas estandarizadas, los errores de medición y muchas otras variables se distribuyen de manera aproximadamente gaussiana.
\[f(x) = \frac{1}{\sigma \sqrt{2\pi}} exp\left (-\frac{(x - \mu)^2}{2\sigma^2} \right )\] Donde:
Imaginemos que queremos representar cómo se distribuyen las calificaciones de un grupo de estudiantes en un examen final.Se sabe que las notas suelen concentrarse alrededor del promedio, con pocas muy bajas o muy altas, por lo que se asume que siguen una distribución normal con una media de \(\mu=90\) y una desviación estándar de \(\sigma=6\).Y se desea calcular la probabilidad de que un estudiante obtenga una nota mayor o igual a 80 puntos
# Parámetros
mean <- 90
sd <- 6
# Simulación de datos
set.seed(123)
notas <- rnorm(1000, mean, sd)
# Histograma con curva teórica
hist(notas,
breaks = 30,
col = "lightgreen",
prob = TRUE,
main = "Distribución Normal - Calificaciones",
xlab = "Nota",
ylab = "Densidad de probabilidad")
curve(dnorm(x, mean, sd),
from = min(notas), to = max(notas),
add = TRUE, col = "gold", lwd = 2)
# probabilidad nota >= 80
pn <- 1 - pnorm(80, mean, sd)
pn
## [1] 0.9522096
La distribución Chi-cuadrado se utiliza para comparar resultados observados con los que se esperaban y así determinar si hay diferencias importantes o solo casuales. Es una distribución que solo toma valores positivos y su forma depende de los grados de libertad. Se usa con frecuencia en pruebas estadísticas, como las de independencia o bondad de ajuste, para analizar si los datos se comportan como se esperaba.
\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]
Donde:
Un analista quiere saber si la varianza del voltaje en la producción de ciertos componentes es diferente de la esperada, que es de 4. Toma una muestra de 6 componentes y obtiene una varianza muestral de 6.2. Para analizarlo, usa la distribución Chi-cuadrado con 5 grados de libertad y grafica su forma junto con la media teórica (5) y el valor observado. Esto le permite ver si la variación medida está dentro de lo normal o si es demasiado alta.
# Parámetro: grados de libertad
gl <- 5
# Generar valores de la distribución Chi-cuadrado
x <- seq(0, 20, length = 1000)
y <- dchisq(x, df = gl)
# Gráfica de la distribución
plot(x, y,
type = "l",
lwd = 2,
col = "blue",
main = "Distribución Chi-cuadrado (df = 5)",
xlab = "Valores de X",
ylab = "Densidad de probabilidad")
# Agregar una línea vertical en la media (E(X) = gl)
abline(v = gl, col = "lightblue", lwd = 2, lty = 2)
text(gl + 0.5, max(y)/2, labels = "Media", col = "darkblue")
# Valor de la estadística Chi-cuadrado observada
chi_obs <- (gl * 6.2) / 4
abline(v = chi_obs, col = "red", lwd = 2)
text(chi_obs + 0.5, max(y)/3, labels = "Valor observado", col = "red")
Es una distribución de probabilidad discreta que modela el número de eventos que ocurren en un intervalo de tiempo determinado, dado un promedio constante de ocurrencia (λ). Se utiliza en situaciones donde se cuenta la cantidad de veces que ocurre un evento en un periodo.
\[P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots\] ### Ejemplo
Suponga que llegan 3 llamadas por hora en promedio y queremos saber: la probabilidad de recibir exactamente 5 llamadas y La probabilidad de recibir 2 o menos llamadas.
# Parámetro
lambda <- 3
# Simulación de datos
set.seed(123)
llamadas <- rpois(1000, lambda)
# Grafica
k <- 0:10
prob <- dpois(k, lambda)
barplot(prob,
names.arg = k,
col = "yellow",
main = paste("Distribución de Poisson (λ =", lambda, ")"),
xlab = "Número de llamadas (k)",
ylab = "Probabilidad")
# Probabilidad
p_exacto <- dpois(5, lambda)
p_max <- ppois(2, lambda)
p_exacto
## [1] 0.1008188
p_max
## [1] 0.4231901
El resultado es 10% de probabilidad de recibir 5 llamadas, y 42,3% recibir menos de 2 llamadas
La distribución exponencial es una distribución continua que se usa para describir el tiempo que pasa entre un evento y otro, esta distribución esta relacionada con la de Poisson, ya que si los eventos ocurren siguiendo un promedio constante, el tiempo entre ellos se puede describir con la distribución exponencial.
\[f(x)=λe−λx,\quad x≥0\] ### Ejemplo
El tiempo que tarda en llegar un cliente a una tienda sigue una distribución exponencial con una tasa promedio de 0.5 clientes por minuto (es decir, llega un cliente cada 2 minutos en promedio).Se desea calcular la probabilidad de que pasen más de 3 minutos antes de que llegue un nuevo cliente.
# Generacion de datos
lambda <- 0.5
# Simulacion de datos
set.seed(123)
tiempos <- rexp(1000, rate = lambda)
# Grafica y curva
hist(tiempos,
probability = TRUE,
col = "pink",
border = "purple",
main = "Distribución Exponencial: Tiempo entre llegadas de clientes",
xlab = "Tiempo entre llegadas (minutos)")
curve(dexp(x, rate = lambda),
from = 0, to = max(tiempos),
add = TRUE, col = "cyan", lwd = 2)
#Probabilidad
p3 <- 1 - pexp(3, rate = lambda)
p3
## [1] 0.2231302