Le saviez vous les statisticiens sont des gens complexes: ils utilisent parfois en France vs US (d’ailleurs comme dans toutes les Sciences) des “wordings” differement similaire….
On va essaier de vous expliquer cela:
En anglais “standardize” aplusieurs sens mais par abus de langage dire Centre et réduire (Scale function in R) mais aussi soustraire le min et diviser par le range abs( min -max) ,cad standardiser uniformément.
Dans le premier cas vous obtenez une nouvelle RV Z centrée a Zero et standardisée (réduite) de sd = 1! Tres utile pouzr se ferer à la théorie Gaussienne.
La deuxieme a peu d’utilité et a des complexités statistiques qu’on préfèrera éviter (BOUNDED STATISTIQUES)
Pourquoi fait-on cela:
Toutes tables de statistique de loi normale sont donnée par rapport a N(0;1) i.e default rnorm function R (pnorn default).
En faisant cela les échelles des différentes variables (.i.e poids Taille) ne dépendent plus de leur paramètres mais sont dans une échelle comparables.
Travaillez avec un Loi Normale standardisée N(0;1) est super easy.
On l’utilise aussi beacoup dans la réduction de dimension (PCA:Stat Multivariée advanced topics).
Centrer et réduire= La variable reste toujours Normale (vérifier qu’elle a une distribution Nomrmale avant…autre tuto) : je vais donc le prouver par le code suivant:
data(cars)
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
library(psych)
pairs.panels(cars)
?cars
## démarrage du serveur d'aide httpd ... fini
dim(cars)
## [1] 50 2
mean(cars$speed)#choisissons vitesse variable##moyenne
## [1] 15.4
##pour chaque xi de speed enlevons la moyenne
cars$speed-mean(cars$speed)
## [1] -11.4 -11.4 -8.4 -8.4 -7.4 -6.4 -5.4 -5.4 -5.4 -4.4 -4.4 -3.4
## [13] -3.4 -3.4 -3.4 -2.4 -2.4 -2.4 -2.4 -1.4 -1.4 -1.4 -1.4 -0.4
## [25] -0.4 -0.4 0.6 0.6 1.6 1.6 1.6 2.6 2.6 2.6 2.6 3.6
## [37] 3.6 3.6 4.6 4.6 4.6 4.6 4.6 6.6 7.6 8.6 8.6 8.6
## [49] 8.6 9.6
##verifier que c'est bien centrer a Zero
sum(cars$speed-mean(cars$speed))
## [1] -1.776357e-14
round(sum(cars$speed-mean(cars$speed)),1)
## [1] 0
par(mfrow=c(1,2))
hist(cars$speed)##histogramme Noramle muhatt= mean of speed var var or speed
hist(cars$speed-mean(cars$speed),col=6,main= "CENTREE")
sd(cars$speed)
## [1] 5.287644
Zcarsspeed=(cars$speed-mean(cars$speed))/sd(cars$speed)
range(Zcarsspeed)
## [1] -2.155969 1.815553
par(mfrow=c(1,2))
hist(Zcarsspeed,breaks=4,main=" distribuition standardisee Zscale",col=6)
hist(cars$speed,breaks=6)###Histogramme n' a pas changé
hist(scale(cars$speed))
hist(Zcarsspeed)##same
J’ai vu beaucoup d’erreur en Biostatistique ou les medecins standardisait tout leur dataset (df) avec scale : Or scale prend la moyenne de la variable peut importe SA stratification (factor in R) a l’intérieur de celle -ci. Cette procédure est fausse: Vous perderiez la variance minimum de la stratification (car la variance chance a chaque strate (on peut prouver que stratifier=minimum variances) pour pour cette raison qu’on le fait d’ailleurs). Vous comparez ce qui n’est pas ce que vous désirez en croyant bien faire! Ne commetez pas cette erreur en recherche clinique.
min(cars$speed)
## [1] 4
max(cars$speed)
## [1] 25
25-4
## [1] 21
range(cars$speed)
## [1] 4 25
STAN=(cars$speed-min(cars$speed))/21##watch double parenthese
STAN##On obtient un pourcentage like c'est plus une normale...preuve
## [1] 0.0000000 0.0000000 0.1428571 0.1428571 0.1904762 0.2380952 0.2857143
## [8] 0.2857143 0.2857143 0.3333333 0.3333333 0.3809524 0.3809524 0.3809524
## [15] 0.3809524 0.4285714 0.4285714 0.4285714 0.4285714 0.4761905 0.4761905
## [22] 0.4761905 0.4761905 0.5238095 0.5238095 0.5238095 0.5714286 0.5714286
## [29] 0.6190476 0.6190476 0.6190476 0.6666667 0.6666667 0.6666667 0.6666667
## [36] 0.7142857 0.7142857 0.7142857 0.7619048 0.7619048 0.7619048 0.7619048
## [43] 0.7619048 0.8571429 0.9047619 0.9523810 0.9523810 0.9523810 0.9523810
## [50] 1.0000000
hist(STAN)
La stat Z n’est plus utilisable dans ce cas ci.
COMMENT CREE UNE Z(0;1 sur R)