¿POR QUÉ TIPIFICAR VARIABLES?

Antes de contestar a esta pregunta es necesario conocer la definición de “tipificación de variable”, que básicamente es el proceso de transformar, trasladar o centrar (o también: reducir) los valores que toma una variable X a valores que estén estandarizados, aplicando un cambio de variable:

Z= (Xi - mu)/desviación estándar

Donde Z es el resultado de la variable estandarizada, Xi representa a cada valor de la variable y mu es la media poblacional.

¿Y entonces…por qué es necesario tipificar variables?

Para reducir el efecto de una variable que presenta valores “grandes”, expresados en cientos de miles, millones o números “muy pequeños”. La tipificación de variables generalmente se utiliza para comparar el comportamiento de 2 variables o también para trabajar con el desarrollo de técnicas de análisis multivariante (por ejemplo análisis factorial exploratorio o análisis de componentes prinicipales) o técnicas de data mining, que como supuestos toman variables tipificadas para desarrollar “sin problemas” los algoritmos estadísticos y de minería de datos.

Ejemplo

Considere los siguientes datos correspondientes a la variable “Ingresos mensuales en Bolivianos (Bs.)”

ingresos<- c(2000,2500,3100,2700,2800,3000,2650,2200,1800,2600,4100,2700,2900,3900,5000)
ingresos

##  [1] 2000 2500 3100 2700 2800 3000 2650 2200 1800 2600 4100 2700 2900 3900
## [15] 5000

Para tipificar la variable utiliza la siguiente sintaxis:

vector<- scale(vector, center= T, scale= T)

Interpretación de resultados

Recuerda que la variable tipificada tiene un comportamiento “normal” al presentar valores menores o iguales al valor absoluto de 2,5 (muestras menores a 80) o a valores menores o iguales a 3 (para muestras mayores a 80); si algún valor de la variable tipificada excede estos límites (considerando el tamaño de la muestra) es considerado como un outlier (data anómalo o atípico) y está afectando al patrón de normalidad de la variable.

Ejecutando en R el comando a la variable “ingresos” se tiene:

ingresos<- scale(ingresos, center= T, scale= T)

#Para guardar en una nueva variable los ingresos tipificados
ingresos_Z<- scale(ingresos, center= T, scale= T)
ingresos_Z

##              [,1]
##  [1,] -1.11161932
##  [2,] -0.51397453
##  [3,]  0.20319923
##  [4,] -0.27491661
##  [5,] -0.15538765
##  [6,]  0.08367027
##  [7,] -0.33468109
##  [8,] -0.87256140
##  [9,] -1.35067724
## [10,] -0.39444557
## [11,]  1.39848883
## [12,] -0.27491661
## [13,] -0.03585869
## [14,]  1.15943091
## [15,]  2.47424946
## attr(,"scaled:center")
## [1] -2.775558e-18
## attr(,"scaled:scale")
## [1] 1

Una vez tipificada la variable, se observa que no hay outliers (aunque el dato nº 15 está casi al límite de la normalidad, se considera aún como un dato normal).

TIPIFICACIÓN DE VARIABLES

LUIS FERNANDO PARADA GUACHALLA

21/08/2019

¿POR QUÉ TIPIFICAR VARIABLES?

¿Y entonces…por qué es necesario tipificar variables?

Ejemplo

Interpretación de resultados