En el proceso Analisis en grandes volúmenes de datos, es vital importancia escoger las variables y características más adecuadas para presentar un buen algoritmo de minería de datos. Este problema se puede ver de diferentes enfoques, entre los más destacados: escoger los mejores atributos de los datos a partir de su análisis preliminar, eliminar los atributos redundantes o que aportan poca información al problema que se desea resolver, o reducir la dimensionalidad de los datos generando nuevos atributos a partir de atributos existentes. En cualquiera de estos casos, el objetivo es reducir el coste de espacio y computacional,que permita crear un modelo de similar o mejor calidad.
La selección de atributos consiste en escoger únicamente aquellos atributos que son realmente, descartando otros que no aportan información al problema a resolver. Por otra parte, la extracción de atributos se trata de calcular nuevos atributos a partir de los existentes, de tal forma que los nuevos atributos resuman mejor la información que contienen, capturando la naturaleza de la estructura subyacente en los datos.
Existen métodos automáticos para la selección y extracción de atributos, no obstante, ambos métodos también puede hacerse de forma manual. Es importante subrayar que la selección o extracción manual de atributos requiere de un experto que analice y escoja los atributos más relevantes. Este es un proceso ad hoc
que requiere gran conocimiento del dominio del problema, así como de los datos que se utilizarán para el proceso de minería de datos.
Por ejemplo, el índice de masa corporal, que se define como el peso de una persona en kilogramos dividido por el cuadrado de su altura en metros, informa mejor del grado de obesidad de una persona que las dos variables originales por separado. Este tipo de conocimiento proviene del contexto o dominio del problema, y no debe ser descartado. No obstante, en la mayoría de casos será necesario recurrir a los métodos automáticos para extraer características de un conjunto de datos.
Los métodos de selección de características o atributos (feature selection
) permiten identificar los atributos que aportan información relevante para el proceso de minería de datos, o al revés, los atributos redundantes que no aportan información relevante a este proceso. En ambos casos el objetivo es el mismo, elegir qué subconjunto de atributos es más beneficioso para resolver el problema en cuestión.
Dependiendo de si la selección de características usa o no información del método de clasificación posterior, podemos definir:
Los algoritmos filtro (filter
), donde los atributos o subconjuntos de atributos son evaluados de forma independiente del método de clasificación que se utilizará posteriormente.
Los algoritmos empotrados (wrappers
), donde el método de selección de características utiliza el clasificador que se usará posteriormente para evaluar qué característica o subconjunto de características son las más adecuadas.
Los algoritmos empotrados, aunque suelen tener un buen rendimiento, pueden tener más tendencia a sobreaprender el conjunto de entrenamiento, perdiendo capacidad de generalización. Los algoritmos de selección de características han sido ampliamente estudiados, y se han desarrollado multitud de algoritmos.
veremos brevemente algunos de los métodos de selección de atributos individuales, llamados algoritmos univariantes, más empleados para la selección de atributos:
Selección de máxima relevancia (maximum relevance selection
): Utiliza el coeficiente de correlación entre cada característica y los resultados de clasificar un determinado conjunto de entrenamiento, obteniendo una lista ordenada de las características que mejor diferencian los datos.
Selección basada en la información mutua: Mide la información mutua entre las variables aleatorias que modelan cada característica y las etiquetas de clasificación, escogiendo las características que maximizan esta información mutua.
Métodos basados en tests estadísticos: Aplicación de tests
estadísticos de hipótesis sobre los datos, como por ejemplo el t-statistic
o el chi-square
.
En segundo lugar, encontramos los métodos de selección de subconjuntos de atributos, llamados algoritmos multivariantes:
Búsqueda exhaustiva (exhaustive search
): Consiste en definir un espacio de búsqueda y evaluar, mediante una función de coste, todas las posibles combinaciones de atributos. Solo es aplicable a problemas de dimensionalidad pequeña.
Selección paso a paso (stepwise selection
): Consiste en iterar un algoritmo en el cual a cada paso o bien se añade al conjunto de atributos seleccionados aquel atributo que aumenta el rendimiento global del conjunto, o bien se elimina aquel atributo que hace que el rendimiento del subconjunto empeore.
Ramificación y poda (branch and bound
): Consiste en aplicar la técnica de búsqueda de branch
and bound
en el espacio de las posibles combinaciones de características. Esta técnica reduce de forma muy notable la búsqueda exhaustiva de la solución.
El objetivo de la extracción de características es obtener un espacio de dimensionalidad inferior, que preserve al máximo posible los datos útiles y elimine la información redundante. A diferencia de la selección de atributos, en la extracción de atributos se pueden crear nuevos atributos a partir de los existentes en el conjunto de datos inicial.
Las técnicas que se describen en este apartado son conocidas como técnicas de factorización matricial, puesto que descomponen una matriz de datos como el producto de matrices más simples. En cualquier caso, la factorización de una matriz no es única, y cada técnica pone de manifiesto aspectos diferentes de la información contenida en los datos originales.
Entre las técnicas más destacadas aparecen: Análisis de Componentes Principales (PCA), Descomposición en valores singulares (SVD), Factorización de matrices no negativas