Determinar si la distribución log-normal (log 𝑋 es normal) tiene DEA y si la tiene, determinar cuál es su DEA.
Con la ayuda de R simular una muestra de 100 datos 𝑖𝑖𝑑, cada uno de los cuales es el máximo de 500 Log-normales standard 𝑖𝑖𝑑. Intente ajustar la distribución de la muestra de 100 datos de acuerdo a lo obtenido en la parte a).
Una distribución tiene DEA si, al tomar máximos de muestras i.i.d., se puede encontrar una normalización (centrar y escalar) que hace que los máximos converjan en distribución hacia una de las tres leyes límite: Fréchet, Weibull o Gumbel.
1- Sea \(X \sim \text{Lognormal}(\mu,\sigma)\), entonces \(\log X \sim N(\mu,\sigma)\).
Si \(Y=\log X \Rightarrow e^Y=e^{\log X}=X\;\) tiene distribución Log-normal.
Queremos saber si la distribución Log-normal tiene DEA y qué DEA es. Entonces, podemos tomar muchas muestras de una variable Log-normal y ver a qué se parece su máximo.
2- Calculamos la cola de \(X\) que definimos como \(\bar{F}(x)=P(X>x)\).
Como \(X=e^Y\) entonces
\[\begin{equation} P(X>x)=P(e^Y>x)=P(Y>\log x) \end{equation}\]
3- Estandarizamos, transformamos a una normal estandar
\[\begin{equation} P(Y>\log x)=p\left ( \frac{Y-\mu}{\sigma}>\frac{\log x - \mu}{\sigma} \right ) \end{equation}\]
Sea \(Z \sim N(0,1)\) entonces \(\bar{F}(x)=p\left ( Z>\frac{\log x - \mu}{\sigma} \right )\)
4- Ahora vemos la cola de la normal estandar
Podemos usar la fórmula asintótica, relacionada al concepto de ratio de Mills1, tal que
\[\begin{equation} \bar{\Phi}(y) = P(Z>y) \sim \frac{\varphi(y)}{y} \quad \text{cuando} \quad y \to \infty, \end{equation}\]
donde \(\varphi(y)=\tfrac{1}{\sqrt{2 \pi}}e^{-y^2/2}\) es la densidad estándar de la normal y \(\bar{\Phi}(y)\) es la cola.
Esto implica que para valores grandes de \(y\), la probabilidad de que \(Z\) supere a \(y\) se comporte aprox. como \(\frac{1}{y} e ^{y^2/2}\). Esta aproximacion basada en el ratio de Mills nos dice como se comporta la cola cuando los valores de \(y\) son muy grandes.
5- Vemos ahora esto pero para la Log-normal. Como \(y=\frac{\log x- \mu}{\sigma}\), entonces
\[\begin{align} P(Z>\frac{\log x- \mu}{\sigma}) & \sim \frac{1}{y} \frac{1}{\sqrt{2 \pi}} e^{-y^2/2}\\ & \sim \frac{\sigma}{\log x - \mu} \frac{1}{\sqrt{2 \pi}} e^{-\frac{(\log x - \mu )^2}{2 \sigma^2}}, \;\text{cuando}\; x \to \infty \end{align}\]
La Log-normal tiene DEA porque, según la teoría de Fisher–Tippett–Gnedenko, todas las distribuciones de probabilidad i.i.d. cuyos máximos normalizados convergen a un límite pertenecen a alguno de los tres dominios: Fréchet, Weibull o Gumbel. O sea, por el teorema de Fisher–Tippett–Gnedenko, cualquier distribución con cdf continua y no degenerada2 cae sí o sí en alguno de los tres dominios.
Ahora, el DEA de una distribución límite describe a qué ley de máximos converge una clase de distribuciones cuando tomamos máximos de variables i.i.d.
La teoría de Fisher–Tippett–Gnedenko dice que solo hay tres posibles distribuciones límite para los máximos:
La distribución límite Fréchet se peude expresar como
\[ \Phi_\alpha(x) = \begin{cases} 0, & x \leq 0, \\ \exp(-x^{-\alpha}), & x > 0, \end{cases} \]
con parámetro \(\alpha > 0\).
Una distribución \(F\) pertenece al DEA de Fréchet si su cola es de variación regular, o sea
\[ P(X>x) = 1-F(x) \sim L(x)\,x^{-\alpha}, \quad x \to \infty, \]
donde
\[ \frac{L(tx)}{L(x)} \to 1 \quad \text{cuando } x \to \infty, \; \forall t>0. \]
Todas las distribuciones con colas de potencia están en el DEA de Fréchet que expresamos como
\[ P(X>x) \sim L(x)\,x^{-\alpha}\;\text{cuando} \quad x \to \infty, \]
Como por ejemplo: Pareto, Cauchy, que son distribuciones estables con cola pesada.
Para nuestro caso de la Log-normal, es importante notar que
Calculamos
\[ \lim_{x \to \infty} \frac{P(X>x)}{x^{-\alpha}} = 0, \quad \forall \alpha>0 \]
donde el numerador es la cola de la Log-normal y el denominador es una cola de potencia \(x^{-\alpha}\). Si el cociente \(\to 0\), significa que \(P(X>x)\) se hace insignificante en comparación con \(x^{-\alpha}\). Entonces, la Log-normal no pertenece al DEA de Fréchet.
Ahora, tampoco podemos decir que pertebece al DEA de una Weibull porque se debería correspondee a distribuciones con soporte acotado superior. En este caso, los máximos no pueden crecer más allá de un cierto valor finito. En cambio, la Log-normal:
Por último, el DEA de Gumbel corresponde a distribuciones con colas intermedias, dado que son
Por ejemplo Normal, Exponencial, entre otras.
Ya vimos que para \(x \to \infty\), la cola de la Log-normal se puede expresar como
\[ P(X>x) \sim \frac{\sigma}{\log x - \mu}\, \frac{1}{\sqrt{2\pi}} \exp\!\left(-\frac{(\log x - \mu)^2}{2\sigma^2}\right). \]
Podemos concluir que la cola de la Log-normal es intermedia (ni potencia ni exponencial pura), o sea que pertenece al Dominio de Atracción de Gumbel expresado como
\[ \Lambda(x) = \exp(-e^{-x}), \qquad x \in \mathbb{R}. \]
# Cargar paquetes necesarios
library(evd) # para ajuste Gumbel
## Warning: package 'evd' was built under R version 4.3.3
library(ggplot2) # para visualización
set.seed(123)
# Simulación: 100 máximos de 500 log-normales cada uno
n <- 100
m <- 500
maximos <- replicate(n, max(rlnorm(m)))
# Ajustar distribución Gumbel (máximos típicos)
ajuste <- fgev(maximos, shape = 0) # fijamos shape = 0 → Gumbel
# Mostrar parámetros estimados
ajuste$estimate
## loc scale
## 18.492109 6.367135
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
John P. Mills (1926). Table of the ratio: area to bounding ordinate, for any portion of normal curve. Biometrika, 18(3/4), 395–400.↩︎
No degenerada significa que la distribución no concentra toda la probabilidad en un solo punto, y la Log-normal no lo es porque puede tomar infinitos valores distintos en \((0, \infty)\)↩︎