¿POR QUÉ TIPIFICAR VARIABLES?

Antes de contestar a esta pregunta es necesario conocer la definición de “tipificación de variable”, que básicamente es el proceso de transformar, trasladar o centrar (o también: reducir) los valores que toma una variable X a valores que estén estandarizados, aplicando un cambio de variable:

Z= (Xi - mu)/desviación estándar

Donde Z es el resultado de la variable estandarizada, Xi representa a cada valor de la variable y mu es la media poblacional.

¿Y entonces…por qué es necesario tipificar variables?

Para reducir el efecto de una variable que presenta valores “grandes”, expresados en cientos de miles, millones o números “muy pequeños”. La tipificación de variables generalmente se utiliza para comparar el comportamiento de 2 variables o también para trabajar con el desarrollo de técnicas de análisis multivariante (por ejemplo análisis factorial exploratorio o análisis de componentes prinicipales) o técnicas de data mining, que como supuestos toman variables tipificadas para desarrollar “sin problemas” los algoritmos estadísticos y de minería de datos.

Ejemplo

Considere los siguientes datos correspondientes a la variable “Ingresos mensuales en Bolivianos (Bs.)”

ingresos<- c(2000,2500,3100,2700,2800,3000,2650,2200,1800,2600,4100,2700,2900,3900,5000)
ingresos
##  [1] 2000 2500 3100 2700 2800 3000 2650 2200 1800 2600 4100 2700 2900 3900
## [15] 5000

Para tipificar la variable utiliza la siguiente sintaxis:

vector<- scale(vector, center= T, scale= T)

Interpretación de resultados

Recuerda que la variable tipificada tiene un comportamiento “normal” al presentar valores menores o iguales al valor absoluto de 2,5 (muestras menores a 80) o a valores menores o iguales a 3 (para muestras mayores a 80); si algún valor de la variable tipificada excede estos límites (considerando el tamaño de la muestra) es considerado como un outlier (data anómalo o atípico) y está afectando al patrón de normalidad de la variable.

Ejecutando en R el comando a la variable “ingresos” se tiene:

ingresos<- scale(ingresos, center= T, scale= T)

#Para guardar en una nueva variable los ingresos tipificados
ingresos_Z<- scale(ingresos, center= T, scale= T)
ingresos_Z
##              [,1]
##  [1,] -1.11161932
##  [2,] -0.51397453
##  [3,]  0.20319923
##  [4,] -0.27491661
##  [5,] -0.15538765
##  [6,]  0.08367027
##  [7,] -0.33468109
##  [8,] -0.87256140
##  [9,] -1.35067724
## [10,] -0.39444557
## [11,]  1.39848883
## [12,] -0.27491661
## [13,] -0.03585869
## [14,]  1.15943091
## [15,]  2.47424946
## attr(,"scaled:center")
## [1] -2.775558e-18
## attr(,"scaled:scale")
## [1] 1

Una vez tipificada la variable, se observa que no hay outliers (aunque el dato nº 15 está casi al límite de la normalidad, se considera aún como un dato normal).