Introducción

En el proceso Analisis en grandes volúmenes de datos, es vital importancia escoger las variables y características más adecuadas para presentar un buen algoritmo de minería de datos. Este problema se puede ver de diferentes enfoques, entre los más destacados: escoger los mejores atributos de los datos a partir de su análisis preliminar, eliminar los atributos redundantes o que aportan poca información al problema que se desea resolver, o reducir la dimensionalidad de los datos generando nuevos atributos a partir de atributos existentes. En cualquiera de estos casos, el objetivo es reducir el coste de espacio y computacional,que permita crear un modelo de similar o mejor calidad.

La selección de atributos consiste en escoger únicamente aquellos atributos que son realmente, descartando otros que no aportan información al problema a resolver. Por otra parte, la extracción de atributos se trata de calcular nuevos atributos a partir de los existentes, de tal forma que los nuevos atributos resuman mejor la información que contienen, capturando la naturaleza de la estructura subyacente en los datos.

Existen métodos automáticos para la selección y extracción de atributos, no obstante, ambos métodos también puede hacerse de forma manual. Es importante subrayar que la selección o extracción manual de atributos requiere de un experto que analice y escoja los atributos más relevantes. Este es un proceso ad hoc que requiere gran conocimiento del dominio del problema, así como de los datos que se utilizarán para el proceso de minería de datos.

Por ejemplo, el índice de masa corporal, que se define como el peso de una persona en kilogramos dividido por el cuadrado de su altura en metros, informa mejor del grado de obesidad de una persona que las dos variables originales por separado. Este tipo de conocimiento proviene del contexto o dominio del problema, y no debe ser descartado. No obstante, en la mayoría de casos será necesario recurrir a los métodos automáticos para extraer características de un conjunto de datos.

Selección de atributos

Los métodos de selección de características o atributos (feature selection) permiten identificar los atributos que aportan información relevante para el proceso de minería de datos, o al revés, los atributos redundantes que no aportan información relevante a este proceso. En ambos casos el objetivo es el mismo, elegir qué subconjunto de atributos es más beneficioso para resolver el problema en cuestión.

Dependiendo de si la selección de características usa o no información del método de clasificación posterior, podemos definir:

Los algoritmos empotrados, aunque suelen tener un buen rendimiento, pueden tener más tendencia a sobreaprender el conjunto de entrenamiento, perdiendo capacidad de generalización. Los algoritmos de selección de características han sido ampliamente estudiados, y se han desarrollado multitud de algoritmos.

veremos brevemente algunos de los métodos de selección de atributos individuales, llamados algoritmos univariantes, más empleados para la selección de atributos:

En segundo lugar, encontramos los métodos de selección de subconjuntos de atributos, llamados algoritmos multivariantes:

Extracción de atributos

El objetivo de la extracción de características es obtener un espacio de dimensionalidad inferior, que preserve al máximo posible los datos útiles y elimine la información redundante. A diferencia de la selección de atributos, en la extracción de atributos se pueden crear nuevos atributos a partir de los existentes en el conjunto de datos inicial.

Las técnicas que se describen en este apartado son conocidas como técnicas de factorización matricial, puesto que descomponen una matriz de datos como el producto de matrices más simples. En cualquier caso, la factorización de una matriz no es única, y cada técnica pone de manifiesto aspectos diferentes de la información contenida en los datos originales.

Entre las técnicas más destacadas aparecen: Análisis de Componentes Principales (PCA), Descomposición en valores singulares (SVD), Factorización de matrices no negativas