Introducción

Los métodos de reducción de dimensionalidad son técnicas estadísticas que mapean el conjunto de los datos a subespacios derivados del espacio original, de menor dimensión, que permiten hacer una descripción de los datos a un menor costo. Estas técnicas cobran importancia ya que muchos algoritmos de diversos campos tales como análisis numérico, aprendizaje automático o minería de datos suelen degradar su rendimiento cuando se usan con datos de alta dimensionalidad. En los casos extemos, el algoritmo deja de ser útil para el fin que fue diseñado. La maldición de la dimensión (también conocida como efecto Hughes o por su término en inglés curse of dimensionality), se refiere a los diversos fenómenos que surgen al analizar y organizar datos de espacios de múltiples dimensiones. [Wik16a]

Nuestro primer objetivo es mostrar un ejemplo práctico de una técnica conocida como PCA. El segundo objetivo es hacer una comparación con otra técnica conocida como LDA. Nuestro tercer objetivo es comparar ambas técnicas.

Para ello vamos a utilizar la base de datos Iris, popularizada por un artículo de Fisher [Fis36].

Iris es quizás la base de datos más conocida que se encuentran en la literatura de reconocimiento de patrones. El artículo de Fisher es un clásico en ésta área. Esta base de datos, recolectada durante varios años por Edgar Anderson fue utilizada para demostrar que estas medidas podrían utilizarse para diferenciar entre especies de plantas iris. Contiene 3 clases de 50 casos cada una, donde cada clase se refiere a un tipo de planta iris [Lic07].

Una clase es linealmente separable de los otras 2; estas últimas no son linealmente separables entre sí.

Los atributos son:

  1. Longitud del sépalo en cm (Sepal.Length)
  2. Ancho del sépalo en cm (Sepal.Width)
  3. Longitud del pépalo en cm (Petal.Length)
  4. Ancho del pépalo en cm (Pepal.Width)
  5. Clase (Species):

Sépalo-Pétalo

Figura 1. Pétalo y Sépalo de una planta. Imágen tomada de “The Iris Flower Data Set|Iris Abramson”

Carga de Datos

data(iris)

Análisis Exploratorio

Antes de empezar, hacemos un poco de análisis exploratorio.

1. Los primeros registros de la base

Sepal.Length Sepal.Width Petal.Length Petal.Width Species
5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa

2. Resumen de las variables numéricas

Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

Figura 2a. Gráfica de barras de las variables

La siguiente gráfica contiene 4 boxplots de cada una de las variables. El boxplot es una forma estandarizada de mostrar la distribución de los datos basados en el resumen de cinco números: mínimo, primer cuartil, mediana, tercer cuartil y máximo.

Figura 2b. Gráfica para representar los cuartiles de las variables

Una variación de la gráfica anterior. Agrega un kernel de densidad kernel girado a cada lado del boxplot