Estandarización

Score Z

La estandarización mediante el score Z es una transformación que permite expresar una variable en términos de cuántas desviaciones estándar se encuentra cada observación respecto a la media.

\[ Z = \frac{x - \mu}{\sigma} \]

Interpretación:

  • \(X\): variable de interés

  • \(\mu\): media de la variable

  • \(\sigma\): desviación estándar

El valor \(Z\) indica cuántas desviaciones estándar está \(X\) por encima (\(Z>0\)) o por debajo (\(Z<0\)) de la media.

📌 Objetivo del score Z:

  • Centrar la variable en 0

  • Escalarla para que tenga desviación estándar 1

Usando R para estandarizar una variable

Se fija una semilla y se crea un vector de datos de distribucion normal

set.seed(123)
X <- rnorm(n = 60, mean = 3, sd = 0.3) 
head(X) 
## [1] 2.831857 2.930947 3.467612 3.021153 3.038786 3.514519
hist(X) 
abline(v = mean(X), col = "red", lwd = 3, lty = 3) 

boxplot(X)
points(mean(X), col = "tomato", cex = 1.5, pch = 16) 

Luego, para comparar se genera una variable no normal:

set.seed(123)
Y <- rexp(n = 60, rate = 1/3) 
hist(Y) 
abline(v = mean(Y), col = "red", lwd = 3, lty = 3) 

boxplot(Y) 
points(mean(Y), col = "tomato", cex = 1.5, pch = 16)

Se puede ver que la funcion boxplot y histograma para distribuciones no normales, no es totalmente representativa, por esto vamos a ver como funciona la transformacion score Z.

Comparacion con Score Z de la variable X

par(mfrow = c(1,2))
zx <- scale(X) 
hist(zx, nclass = 8) 
hist(X, nclass = 8) 

Parece ser que la variable X se reescalo o por lo menos ha sido desplazada. Luego, si se grafica una relacion entre X y Score Z, vamos a obtener una relacion completamente lineal como se muestra en el grafico.

plot(X, zx,      xlab = "X",      ylab = "Z(X)",      main = "Relación entre X y su score Z") 
abline(lm(zx ~ X), col = "red") 

Ademas al hallar la corelacion de pearson se evidencia que la correlación es 1 porque el score Z es una transformación afín de \(X\)

cor(X, zx, method = "pearson") 
##      [,1]
## [1,]    1

📌 Observación importante: la relación entre $X$ y $Z(X)$ es lineal, pero esto no implica que el score Z sea una transformación lineal en el sentido algebraico.

¿Es el score Z una transformación lineal?

Una transformación \(T\) es lineal si cumple:

Aditividad

\[ T(X_1 + X_2) = T(X_1) + T(X_2) \]

Homogeneidad

\[ T(cX) = cT(X) \] Entonces, sea la transformación definida por el score Z:

\[ T(X) = \frac{X - \mu}{\sigma} \]

Para dos variables \(X\) y \(Y\):

\[ T(X + Y) = \frac{(X + Y) - \mu}{\sigma} \]

luego,

\[ \begin{aligned} T(X) + T(Y)= \frac{X - \mu}{\sigma} + \frac{Y - \mu}{\sigma}= \frac{X + Y - 2\mu}{\sigma} \end{aligned} \] Notemos que no se cumple la aditividad \[ T(X + Y) \neq T(X) + T(Y)\ \] Ahora sea \(c \in \mathbb{R}\):

\[ T(cX) = \frac{cX - \mu}{\sigma} \] y luego,\[ \begin{aligned} cT(X)= c \cdot \frac{X - \mu}{\sigma}= \frac{cX - c\mu}{\sigma} \end{aligned} \]

Para \(c \neq 1\):

\[ T(cX) \neq cT(X) \]

Por lo tanto tampoco se cumple la homogeneidad.

📌 Conclusión

\[ \boxed{\text{El score Z no es una transformación lineal porque no cumple ni la aditividad ni la homogeneidad.} } \]

📌 Sin embargo, sí es una transformación afín, ya que tiene la forma:

\[ T(X) = aX + b \] ## Verificación empírica

mean(X) 
## [1] 3.019685
sd(X) 
## [1] 0.2731128
mean(zx) 
## [1] 1.834719e-16
sd(zx) 
## [1] 1

El score Z siempre produce una variable con media 0 y desviación estándar 1.