1 Estandarización

1.1 Score-Z

\[ Z = \frac{x - \mu}{\sigma} \]

Nota: X = variable de interes. \(\mu\) = La media de los datos. \(\sigma\) = desviación estandar

1.1.1 Usando R para estandarizar una variable

set.seed(123)

X = rnorm(n = 60,mean = 3,sd = 0.3)
head(X)
## [1] 2.831857 2.930947 3.467612 3.021153 3.038786 3.514519
hist(X)
abline(v = mean(X),
       col = "red",
       lwd = 3,
       lty = 3)

boxplot(X)
points(mean(X),
       col = "tomato",
       cex = 1.5,
       pch = 16)

set.seed(123)
Y = rexp(n = 600,rate = 1/2)
head(Y)
## [1] 1.68691452 1.15322054 2.65810974 0.06315472 0.11242195 0.63300243
boxplot(Y)
points(mean(Y),
       col = "orange",
       cex = 1.5,
       pch = 16)

hist(Y)
abline(v = mean(Y),
       col= "red",
       lty = 3,
       lwd = 3)

1.1.2 Ahora si score-Z de la variable X

z_x = scale(X)
head(z_x)
##              [,1]
## [1,] -0.687729949
## [2,] -0.324914908
## [3,]  1.640081452
## [4,]  0.005372616
## [5,]  0.069938613
## [6,]  1.811830980
par(mfrow = c(1,2))
hist(X, nclass = 10)
hist(z_x, nclass = 10)

plot(X, z_x)

1.1.3 Correlación de pearson

cor(x = X,y = z_x ,method = "pearson")
##      [,1]
## [1,]    1

1.1.4 Transformaciones lineales

\[ Aditiva \\ T(X_1 + X_2) = T(X_1)+T (X_2) \\ Homogénea \\ T(c*X) = c*T(X) \]

1.1.5 Verificación de Linealidad (Álgebra Lineal)

Sea la transformación \(T(X) = \frac{X - \mu}{\sigma}\). Para que \(T\) sea una transformación lineal, debe satisfacer dos propiedades para cualquier par de variables \(u, v\) y cualquier escalar \(c\):

1.1.5.1 1. Propiedad Aditiva

Debe cumplirse que: \(T(u + v) = T(u) + T(v)\)

\[ \begin{aligned} T(u + v) &= \frac{(u + v) - \mu}{\sigma} \\ T(u) + T(v) &= \frac{u - \mu}{\sigma} + \frac{v - \mu}{\sigma} = \frac{u + v - 2\mu}{\sigma} \end{aligned} \]

Conclusión: \(T(u + v) \neq T(u) + T(v)\) (a menos que \(\mu = 0\)).

1.1.5.2 2. Propiedad Homogénea

Debe cumplirse que: \(T(cX) = cT(X)\)

\[ \begin{aligned} T(cX) &= \frac{cX - \mu}{\sigma} \\ cT(X) &= c\left( \frac{X - \mu}{\sigma} \right) = \frac{cX - c\mu}{\sigma} \end{aligned} \]

Conclusión: \(T(cX) \neq cT(X)\) (a menos que \(\mu = 0\)).

cat(mean(X), "MEDIA DE x")
## 3.019685 MEDIA DE x
cat(mean(z_x), "MEDIA DE z_x")
## 1.834719e-16 MEDIA DE z_x
cat(var(X), "varianza DE x")
## 0.07459062 varianza DE x
cat(var(z_x), "varianza DE z_x")
## 1 varianza DE z_x