La estandarización mediante el score Z es una transformación que permite expresar una variable en términos de cuántas desviaciones estándar se encuentra cada observación respecto a la media.
\[ Z = \frac{x - \mu}{\sigma} \]
Interpretación:
\(X\): variable de interés
\(\mu\): media de la variable
\(\sigma\): desviación estándar
El valor \(Z\) indica cuántas desviaciones estándar está \(X\) por encima (\(Z>0\)) o por debajo (\(Z<0\)) de la media.
📌 Objetivo del score Z:
Centrar la variable en 0
Escalarla para que tenga desviación estándar 1
Se fija una semilla y se crea un vector de datos de distribucion normal
## [1] 2.831857 2.930947 3.467612 3.021153 3.038786 3.514519
Luego, para comparar se genera una variable no normal:
set.seed(123)
Y <- rexp(n = 60, rate = 1/3)
hist(Y)
abline(v = mean(Y), col = "red", lwd = 3, lty = 3) Se puede ver que la funcion boxplot y histograma para distribuciones no normales, no es totalmente representativa, por esto vamos a ver como funciona la transformacion score Z.
Parece ser que la variable X se reescalo o por lo menos ha sido desplazada. Luego, si se grafica una relacion entre X y Score Z, vamos a obtener una relacion completamente lineal como se muestra en el grafico.
plot(X, zx, xlab = "X", ylab = "Z(X)", main = "Relación entre X y su score Z")
abline(lm(zx ~ X), col = "red") Ademas al hallar la corelacion de pearson se evidencia que la correlación es 1 porque el score Z es una transformación afín de \(X\)
## [,1]
## [1,] 1
📌 Observación importante: la relación entre $X$ y $Z(X)$ es lineal, pero esto no implica que el score Z sea una transformación lineal en el sentido algebraico.
Una transformación \(T\) es lineal si cumple:
\[ T(X_1 + X_2) = T(X_1) + T(X_2) \]
\[ T(cX) = cT(X) \] Entonces, sea la transformación definida por el score Z:
\[ T(X) = \frac{X - \mu}{\sigma} \]
Para dos variables \(X\) y \(Y\):
\[ T(X + Y) = \frac{(X + Y) - \mu}{\sigma} \]
luego,
\[ \begin{aligned} T(X) + T(Y)= \frac{X - \mu}{\sigma} + \frac{Y - \mu}{\sigma}= \frac{X + Y - 2\mu}{\sigma} \end{aligned} \] Notemos que no se cumple la aditividad \[ T(X + Y) \neq T(X) + T(Y)\ \] Ahora sea \(c \in \mathbb{R}\):
\[ T(cX) = \frac{cX - \mu}{\sigma} \] y luego,\[ \begin{aligned} cT(X)= c \cdot \frac{X - \mu}{\sigma}= \frac{cX - c\mu}{\sigma} \end{aligned} \]
Para \(c \neq 1\):
\[ T(cX) \neq cT(X) \]
Por lo tanto tampoco se cumple la homogeneidad.
\[ \boxed{\text{El score Z no es una transformación lineal porque no cumple ni la aditividad ni la homogeneidad.} } \]
📌 Sin embargo, sí es una transformación afín, ya que tiene la forma:
\[ T(X) = aX + b \] ## Verificación empírica
## [1] 3.019685
## [1] 0.2731128
## [1] 1.834719e-16
## [1] 1
El score Z siempre produce una variable con media 0 y desviación estándar 1.