ABBREVIATIONS

Que veux dire standardiser, centrer réduire , scaler…

Le saviez vous les statisticiens sont des gens complexes: ils utilisent parfois en France vs US (d’ailleurs comme dans toutes les Sciences) des “wordings” differement similaire….

On va essaier de vous expliquer cela:

En anglais “standardize” aplusieurs sens mais par abus de langage dire Centre et réduire (Scale function in R) mais aussi soustraire le min et diviser par le range abs( min -max) ,cad standardiser uniformément.

Dans le premier cas vous obtenez une nouvelle RV Z centrée a Zero et standardisée (réduite) de sd = 1! Tres utile pouzr se ferer à la théorie Gaussienne.

La deuxieme a peu d’utilité et a des complexités statistiques qu’on préfèrera éviter (BOUNDED STATISTIQUES)

Pourquoi fait-on cela:

Toutes tables de statistique de loi normale sont donnée par rapport a N(0;1) i.e default rnorm function R (pnorn default).

En faisant cela les échelles des différentes variables (.i.e poids Taille) ne dépendent plus de leur paramètres mais sont dans une échelle comparables.

Travaillez avec un Loi Normale standardisée N(0;1) est super easy.

On l’utilise aussi beacoup dans la réduction de dimension (PCA:Stat Multivariée advanced topics).

Centrer et réduire= La variable reste toujours Normale (vérifier qu’elle a une distribution Nomrmale avant…autre tuto) : je vais donc le prouver par le code suivant:

Le dataset R base (pas besoin de charger)

data(cars)
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
library(psych)
pairs.panels(cars)

?cars
## démarrage du serveur d'aide httpd ... fini
dim(cars)
## [1] 50  2

CENTRER

mean(cars$speed)#choisissons vitesse variable##moyenne
## [1] 15.4
##pour chaque xi de speed enlevons la moyenne
cars$speed-mean(cars$speed)
##  [1] -11.4 -11.4  -8.4  -8.4  -7.4  -6.4  -5.4  -5.4  -5.4  -4.4  -4.4  -3.4
## [13]  -3.4  -3.4  -3.4  -2.4  -2.4  -2.4  -2.4  -1.4  -1.4  -1.4  -1.4  -0.4
## [25]  -0.4  -0.4   0.6   0.6   1.6   1.6   1.6   2.6   2.6   2.6   2.6   3.6
## [37]   3.6   3.6   4.6   4.6   4.6   4.6   4.6   6.6   7.6   8.6   8.6   8.6
## [49]   8.6   9.6
##verifier que c'est bien centrer a Zero
sum(cars$speed-mean(cars$speed))
## [1] -1.776357e-14
round(sum(cars$speed-mean(cars$speed)),1)
## [1] 0

Centrer ne change pas la distibution!!

par(mfrow=c(1,2))

hist(cars$speed)##histogramme Noramle muhatt= mean of speed var var or speed
hist(cars$speed-mean(cars$speed),col=6,main= "CENTREE")

REDUIRE = DIVISER PAR LA SD

sd(cars$speed)
## [1] 5.287644
Zcarsspeed=(cars$speed-mean(cars$speed))/sd(cars$speed)
range(Zcarsspeed)
## [1] -2.155969  1.815553
par(mfrow=c(1,2))
hist(Zcarsspeed,breaks=4,main=" distribuition standardisee Zscale",col=6)
hist(cars$speed,breaks=6)###Histogramme n' a pas changé

CENTRER REDUIRE Z SCALE AVEC R:
hist(scale(cars$speed))

hist(Zcarsspeed)##same

DANGER Attention si votre echantillon est stratifié!!!

J’ai vu beaucoup d’erreur en Biostatistique ou les medecins standardisait tout leur dataset (df) avec scale : Or scale prend la moyenne de la variable peut importe SA stratification (factor in R) a l’intérieur de celle -ci. Cette procédure est fausse: Vous perderiez la variance minimum de la stratification (car la variance chance a chaque strate (on peut prouver que stratifier=minimum variances) pour pour cette raison qu’on le fait d’ailleurs). Vous comparez ce qui n’est pas ce que vous désirez en croyant bien faire! Ne commetez pas cette erreur en recherche clinique.

COMMENT CREE UNE Z(0;1 sur R)

set.seed(123)
hist(rnorm(100000,0,1),col=2,main="Zscale N(0;1 aleatoire RV",freq=FALSE)
lines(density(rnorm(100000,0,1)))

curve(dnorm(x,0,1),col="red",from=-4,to=4,main="loi Normal theorique Z(0;1)")##loi normal theorique Z(0;1)

STANDARISER pour les “FRANCAIS”… par une loi uniforme

min(cars$speed)
## [1] 4
max(cars$speed)
## [1] 25
25-4
## [1] 21
range(cars$speed)
## [1]  4 25
STAN=(cars$speed-min(cars$speed))/21##watch double parenthese
STAN##On obtient un pourcentage like c'est plus une normale...preuve
##  [1] 0.0000000 0.0000000 0.1428571 0.1428571 0.1904762 0.2380952 0.2857143
##  [8] 0.2857143 0.2857143 0.3333333 0.3333333 0.3809524 0.3809524 0.3809524
## [15] 0.3809524 0.4285714 0.4285714 0.4285714 0.4285714 0.4761905 0.4761905
## [22] 0.4761905 0.4761905 0.5238095 0.5238095 0.5238095 0.5714286 0.5714286
## [29] 0.6190476 0.6190476 0.6190476 0.6666667 0.6666667 0.6666667 0.6666667
## [36] 0.7142857 0.7142857 0.7142857 0.7619048 0.7619048 0.7619048 0.7619048
## [43] 0.7619048 0.8571429 0.9047619 0.9523810 0.9523810 0.9523810 0.9523810
## [50] 1.0000000
hist(STAN)

La stat Z n’est plus utilisable dans ce cas ci.

Contactez moi pour un cours PRIVE avant votre exa

tarifs étudiants a moins de 42 frs (groupe possible)