Loi d’extremum généralisée

Définition

En probabilité et statistique, la loi d’extrémum généralisée est une famille de lois de probabilité continues qui servent à représenter des phénomènes de valeurs extrêmes (minimum ou maximum). Elle comprend la loi de Gumbel, la loi de Fréchet et la loi de Weibull, respectivement lois d’extrémum de type I, II et III.

La fonction de répartition est : \[F(x;\mu,\sigma,\gamma) = exp[-[1+\gamma(\frac{x-\mu}{\sigma})]_+^\frac{-1}{\gamma}]\] avec \([1+\gamma(\frac{x-\mu}{\sigma})]_+ = max(0,1+\gamma(\frac{x-\mu}{\sigma})\)\(\mu \in \mathbb{R}\) est un paramètre de position, \(\sigma > 0\) un paramètre de dispersion et \(\gamma \in \mathbb{R}\) un paramètre de forme appelé indice des valeurs extrêmes.

Si \(\gamma=0\), l’expression n’est pas définie et doit s’entendre comme une limite qu’on peut calculer:\[F(x;\mu,\sigma,0) = exp[-exp(-\frac{x-\mu}{\sigma})] \]

Lien avec les lois de Gumbel,de Fréchet et Weibull

Le paramètre \(\gamma\) spécifie le comportement de la distribution dans ses queues. Les valeurs \(\gamma = 0\), \(\gamma > 0\) et \(\gamma < 0\) correspondent, respectivement, aux lois de Gumbel, de Fréchet et de Weibull.

Gumbel ou loi d’extrémum de type I (\(\gamma = 0\))\[F(x;\mu,\sigma,0) = exp[-exp(-\frac{x-\mu}{\sigma})] \;\;\;\;\; \forall x \in \mathbb{R}\]

Fréchet ou loi d’extrémum de type II (\(\gamma > 0\))\[F(x;\mu,\sigma,\gamma) =\left\{ \begin{array}{ll} 0 & x\leq\mu \\ e^{-(\frac{x-\mu}{\sigma})^\frac{-1}{\gamma}} & x>\mu \end{array} \right.\]

Weibull ou loi d’extrémum de type III (\(\gamma < 0\))\[F(x;\mu,\sigma,\gamma) =\left\{ \begin{array}{ll} e^{-(-(\frac{x-\mu}{\sigma}))^\frac{1}{\gamma}} & x<\mu \\ 1 & x\geq\mu \end{array} \right.\]

Loi à queue épaisse

Définition loi a queue épaisse

La loi de fonction de répartition F est dite à queue épaisse si il existe un \(\gamma\) positif appelé indice de valeurs extrêmes tel que pour tout t>0 \[\lim _{x \to \infty}\frac{\overline{F}(tx)}{\overline{F}(t)}=t^\frac{-1}{\gamma}\]

Théorème de Fisher-Tippett-Gnedenko

Soit \(X_1,X_2....,X_n\) une séquence de variables indépendantes et identiquement distribuées et \(M_n = max\lbrace X_1,....,X_n\rbrace\).Si une séquence de paires de nombres réels \((a_n,b_n)\) existe telle que \(\lim _{n \to \infty} P(\frac{M_n - b_n} {a_n} \leq x) = F(x)\) , où F est une fonction de distribution non dégénérée, alors la distribution de F appartient à la famille des lois de Gumbel, des lois de Fréchet, ou des lois de Weibull.Ces familles peuvent être regroupées dans la classe des lois d’extremum généralisées.

Ce théorème établit que la loi d’extremum généralisée est la distribution limite du maximum (adéquatement normalisé) d’une série de variables aléatoires indépendantes de même distribution .

Voici un tableau non exhaustif du domaine d’attraction de certaines lois en fonction de l’indice de valeurs extrêmes ci-dessous.

Domaine d’attraction Gumbel \(\gamma = 0\) Fréchet \(\gamma > 0\) Weibull \(\gamma < 0\)
Loi Normale Cauchy Uniforme
Loi Exponentielle Pareto Beta
Loi Lognormale Student
Loi Gamma Burr
Loi Weibull

On notera en particulier que les lois à queue épaisse (c’est à dire où \(\gamma > 0\)) sont dans le domaine d’attraction de Fréchet.

Ainsi , on peut dire que la loi limite des maxima d’une loi à queue épaisse aura le comportement d’une loi de Fréchet.

Définition de la variation régulière

Prenons \((X_n)\) une suite de variables aléatoires de fonction de répartition F,dans notre cas on prendra des \(X_n\) à queue épaisse. On sait que la fonction de survie \(\overline{F}=1-F\) est à variation régulière si il existe \(\gamma>0\) tel que \(\lim _{t \to \infty}\frac{\overline{F}(tx)}{\overline{F}(t)}=x^{-\gamma}\) (Elle est dite à variation lente si \(\gamma=0\))

Proposition

Or comme F est une fonction de répartition d’une loi à queue épaisse on sait qu’il existe un \(\gamma\) positif tel que \(\lim _{x \to \infty}\frac{\overline{F}(tx)}{\overline{F}(t)}=t^\frac{-1}{\gamma}\quad\forall t>0\). Donc on a bien \(\lim _{t \to \infty}\frac{\overline{F}(tx)}{\overline{F}(t)}=x^{-\gamma}\) et on sait que \(\overline{F}\) est à variation régulière.

Méthodes d’estimation de l’indice de valeurs extrêmes

On présente ici deux estimateurs différents, basés sur les statistiques d’ordres \(X_{k,n}\leq....\leq X_{1,n}\), obtenues à partir de la série initiale en considérant les k valeurs les plus grandes(ou les plus petites).

Estimateur de Pickands

Il est défini par la statistique :\[\hat{\gamma} _{k,n} ^P = \frac{1}{\ln 2} \ln \left( \frac{X_{k,n} - X_{2k,n}}{X_{2k,n} - X_{4k,n}} \right)\] Il présente l’intérêt d’être valable quel que soit le domaine d’attraction (Gumbel,Weibull ou Fréchet).La représentation graphique de cet estimateur en fonction du nombre k d’observations considérées montre un comportement en général très volatil au départ, ce qui nuit à la lisibilité du graphique. De plus, cet estimateur est très sensible à la taille de l’échantillon sélectionné, ce qui le rend peu robuste. Il est donc d’un maniement délicat.

Estimateur de Hill

L’estimateur de Hill n’est utilisable que pour les distributions de Fréchet(donc telles que \(\gamma > 0\) ) pour lesquelles il fournit un estimateur de l’indice de queue plus efficace que l’estimateur de Pickands.Il est défini par la statistique suivante : \[\hat{\gamma} _{k,n} ^H = \frac{1}{k-1} \sum _{j=1} ^{k-1} \ln \left( \frac{X_{j,n}}{X_{k,n}} \right)\]

Consistance des estimateurs

Si en augmentant la taille de l’échantillon on peut diminuer l’erreur commise en prenant \({\hat\gamma}\) à la place de \(\gamma\) on dit que l’estimateur est consistant.

Une suite d’estimateur \((\hat\gamma_n)\) est consistante si et seulement si \[\lim _{n \to \infty}P(|\hat\gamma_n-\gamma|>\epsilon)=0 \quad\forall\epsilon>0\]

Hill

Si \(F \in MDA(\gamma) \gamma>0\) (MDA pour maximum domains of attraction)

Si on choisit \(k,n \longrightarrow +\infty\) de sorte que \(\frac{k}{n} \longrightarrow 0\) alors on peut montrer que \(\lim _{k \to \infty}\hat{\gamma} _{k,n} ^H=\gamma\).Et on a bien la consistance de l’estimateur de Hill

De plus avec les mêmes hypothèses l’estimateur de Hill est le plus asymptotiquement normal: \[\sqrt{k} \ \frac{\hat{\gamma} _{k,n} ^H - \mathbb{E}[\hat{\gamma} _{k,n} ^H]}{\gamma} \longrightarrow N(0,1)\] la convergence étant en loi. Cet estimateur est l’estimateur du maximum de vraisemblance dans le cas particulier du modèle \(\overline{F}(x)=1-F(x)=Cx^{\frac{-1}{\gamma}}\); on reconnaît ici une distribution de Pareto d’indice \(\alpha=\frac{1}{\gamma}\).Dans le cas général du domaine de Fréchet, la fonction de survie est de la forme \(\overline{F}(x)=1-F(x)=x^{\frac{-1}{\gamma}}L(x)\) avec L une fonction à variation lente. Cela induit un biais important sur l’estimateur de Hill, qui est donc en pratique d’un maniement délicat.Dans le cas général, la fonction L apparaît comme un paramètre de nuisance de dimension infinie, qui complique l’estimation.

Pickands

Si \(F \in MDA(\gamma)\;\;\;\; \gamma \in \mathbb{R}\) (MDA pour maximum domains of attraction)

On peut noter qu’il est asymptotiquement normal si on a \(k,n \longrightarrow +\infty\) et \(\frac{k}{n} \longrightarrow 0\) avec un biais qui tend vers 0 alors on a :

\[\sqrt{k} \ \frac{\hat{\gamma} _{k,n} ^P - \gamma}{\sigma (\gamma)} \longrightarrow N(0,1)\] lorsque \(k \longrightarrow + \infty\) la variance asymptotique étant donnée par: \[\sigma(\gamma) = \frac{\gamma \sqrt{2^{2 \gamma + 1} + 1}}{2(2^{\gamma}-1) \ln 2}\]

Problème de sélection d’estimateurs

L’estimateur de Hill n’étant consistant que sous le domaine de Fréchet on utilisera l’estimateur de Pickands dans le cas des autres domaines. Mais le problème de sélection réside dans le choix des k,n , les choix raisonnables consistent à effectuer un équilibre biais-variance.

Simulation de lois et estimations

Dans la suite on simule plusieurs lois(Pareto,Fréchet,Student,Log-Gamma) et on applique l’estimateur de Hill avec les données simulées.

library(evir)

library(evmix)

library(RobExtremes)

library(VGAM)

library(evd)

library(actuar)
##Student


par(mfrow=c(2,5))
for (i in 1:10){
  T=rt(10000,df=i)
  #plot(T)
  #hist(T)
  hill(T)
}

##Pareto


par(mfrow=c(2,5))

P=rpareto(10000,1,1)
plot(P)
hist(P)

P2=rpareto(10000,1,5)
plot(P2)
hist(P2)

P3=rpareto(10000,1,10)
plot(P3)
hist(P3)

P4=rpareto(10000,1,20)
plot(P4)
hist(P4)

P5=rpareto(10000,1,50)
plot(P5)
hist(P5)

hill(P)
hill(P2)
hill(P3)
hill(P4)
hill(P5)

PickandsEstimator(P)
## Evaluations of PickandsEstimator:
## ---------------------------------
## An object of class "Estimate" 
## generated by call
##   PickandsEstimator(x = P)
## samplesize:   10000
## estimate:
##      scale        shape   
##   0.97025639   1.06175245 
##  (0.02958580) (0.04390402)
## asymptotic (co)variance (multiplied with samplesize):
##            scale     shape
## scale   8.753195 -10.05513
## shape -10.055129  19.27563
## Infos:
##      method              message
## [1,] "PickandsEstimator" ""

#Frechet


par(mfrow=c(2,5))

F=rfrechet(10000,0,1,1)
plot(F)
hist(F)

F2=rfrechet(10000,0,1,2)
plot(F2)
hist(F2)

F3=rfrechet(10000,0,1,3)
plot(F3)
hist(F3)

hill(F)
hill(F2)
hill(F3)

#log-gamma


par(mfrow=c(2,5))

L=rlgamma(10000,1,1)
plot(L)
hist(L)

L2=rlgamma(10000,1,2)
plot(L2)
hist(L2)

L3=rlgamma(10000,2,2)
plot(L3)
hist(L3)

L4=rlgamma(10000,3,2)
plot(L4)
hist(L4)

L5=rlgamma(10000,3,3)
plot(L5)
hist(L5)

hill(L)
hill(L2)
hill(L3)
hill(L4)
hill(L5)

Dans tous ces exemples l’estimateur de Hill tend en général vers 0 et à une forte volatilité sauf pour 2 lois log-gamma ou l’estimateur tend vers 1 et 2 de manière assez constante à partir d’un certain seuil.