Antes de contestar a esta pregunta es necesario conocer la definición de “tipificación de variable”, que básicamente es el proceso de transformar, trasladar o centrar (o también: reducir) los valores que toma una variable X a valores que estén estandarizados, aplicando un cambio de variable:
Z= (Xi - mu)/desviación estándar
Donde Z es el resultado de la variable estandarizada, Xi representa a cada valor de la variable y mu es la media poblacional.
Para reducir el efecto de una variable que presenta valores “grandes”, expresados en cientos de miles, millones o números “muy pequeños”. La tipificación de variables generalmente se utiliza para comparar el comportamiento de 2 variables o también para trabajar con el desarrollo de técnicas de análisis multivariante (por ejemplo análisis factorial exploratorio o análisis de componentes prinicipales) o técnicas de data mining, que como supuestos toman variables tipificadas para desarrollar “sin problemas” los algoritmos estadísticos y de minería de datos.
Considere los siguientes datos correspondientes a la variable “Ingresos mensuales en Bolivianos (Bs.)”
ingresos<- c(2000,2500,3100,2700,2800,3000,2650,2200,1800,2600,4100,2700,2900,3900,5000)
ingresos
## [1] 2000 2500 3100 2700 2800 3000 2650 2200 1800 2600 4100 2700 2900 3900
## [15] 5000
Para tipificar la variable utiliza la siguiente sintaxis:
vector<- scale(vector, center= T, scale= T)
Recuerda que la variable tipificada tiene un comportamiento “normal” al presentar valores menores o iguales al valor absoluto de 2,5 (muestras menores a 80) o a valores menores o iguales a 3 (para muestras mayores a 80); si algún valor de la variable tipificada excede estos límites (considerando el tamaño de la muestra) es considerado como un outlier (data anómalo o atípico) y está afectando al patrón de normalidad de la variable.
Ejecutando en R el comando a la variable “ingresos” se tiene:
ingresos<- scale(ingresos, center= T, scale= T)
#Para guardar en una nueva variable los ingresos tipificados
ingresos_Z<- scale(ingresos, center= T, scale= T)
ingresos_Z
## [,1]
## [1,] -1.11161932
## [2,] -0.51397453
## [3,] 0.20319923
## [4,] -0.27491661
## [5,] -0.15538765
## [6,] 0.08367027
## [7,] -0.33468109
## [8,] -0.87256140
## [9,] -1.35067724
## [10,] -0.39444557
## [11,] 1.39848883
## [12,] -0.27491661
## [13,] -0.03585869
## [14,] 1.15943091
## [15,] 2.47424946
## attr(,"scaled:center")
## [1] -2.775558e-18
## attr(,"scaled:scale")
## [1] 1
Una vez tipificada la variable, se observa que no hay outliers (aunque el dato nº 15 está casi al límite de la normalidad, se considera aún como un dato normal).