Petite illustration statistique sans rapport avec l’actualité.

On va prendre 2 séries de 5 valeurs identiques issues d’une loi normale de moyenne 0.5 et d’écart-type 0.05. Il s’agit donc de séries à faible dispersion puisque 95% des valeurs vont se trouver entre 0.4 et 0.6.

x <- rnorm(5, .5, .05)
y <- rnorm(5, .5, .05)
x
## [1] 0.5124280 0.4659777 0.5790200 0.4771795 0.4455761
y
## [1] 0.5185506 0.4347845 0.4857507 0.4560027 0.4092023

On va prendre le minimum de x et le comparer au maximum de y.

min(x)
## [1] 0.4455761
max(y)
## [1] 0.5185506
sprintf("Evolution de min/max : %.2f%%", (min(x)/max(y)-1)*100)
## [1] "Evolution de min/max : -14.07%"

Répétons 100000 fois l’expérience.

obs <- function() {
  x <- rnorm(5, .5, .05)
  y <- rnorm(5, .5, .05)
  (min(x)/max(y)-1)*100
}

library(data.table)
dt = data.table(i=1:100000)
dt[,obs:=obs(),by=i]
##              i       obs
##      1:      1 -32.96605
##      2:      2 -21.40229
##      3:      3 -11.46786
##      4:      4 -23.58275
##      5:      5 -19.09212
##     ---                 
##  99996:  99996 -27.49063
##  99997:  99997 -16.32545
##  99998:  99998 -18.39718
##  99999:  99999 -30.04666
## 100000: 100000 -22.65637

Un petit graphique :

summary(dt$obs)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -52.98  -25.75  -20.63  -20.61  -15.50   12.87
hist(dt$obs, breaks=100)

Voilà. Même si la réalité est strictement identique (issue d’une même loi statistique), comparer le minimum au maximum garantit une baisse d’environ 20% en moyenne. Toujours bon à savoir…

En si on augmente le nombre de valeurs (de 5 à 10 par exemple) ou la dispersion (écart-type), la baisse sera encore bien plus forte en moyenne.