Introducción
Preliminares
Es un método de interdependencia para resumir la información contenida en las variables y facilitar su análisis. El ACP transforma el conjunto de variables originales en un subconjunto más pequeño de variables (véase la figura 2.1).
Estas variables son combinaciones lineales de las primeras, que contienen mayor parte de la variabilidad presente en el conjunto inicial. Para aplicar esta técnica se requiere que las variables sean cuantitativas (véase la figura 2.2).
Propósito
Su objetivo general es lograr una reducción de datos que facilite la interpretación . En este sentido, el método se aplica para representar óptimamente en un espacio de dimensión pequeña, observaciones de un espacio general K-dimensional. Por esta razón, la técnica se considera como el primer paso para identificar posibles variables latentes o no observadas, que están generando la variabilidad de los datos. Siempre está basada en describir la estructura de la matriz de covarianza de un conjunto de variables mediante la utilización de combinaciones lineales de estas variables .
Con esta técnica se busca transformar las variables originales (en general, correladas), en nuevas variables incorreladas, facilitando la interpretación de los datos.
Aunque se requieren las \(N\) componentes principales para reproducir toda la variabilidad del sistema, en la práctica, la mayor parte de esta variabilidad suele explicarse mediante un número reducido \(J\) de componentes principales. En tales casos, las \(J\) primeras componentes principales sustituyen a las \(N\) variables originales, generando así una simplificación del sistema original.
Ejemplo: Pingüino
Este ejemplo (véase la figura 2.3) ilustra la reducción de la dimensionalidad de un conjunto de datos tridimensionales a dos dimensiones.
Inicialmente, aparte del estiramiento de los puntos, no se percibe una estructura clara en la distribución de los puntos. Sin embargo, al elegir una rotación adecuada, podemos revelar la estructura subyacente. Esta rotación puede ser concebida como una exploración del conjunto tridimensional, buscando el ángulo óptimo para visualizar los datos. El Análisis de Componentes Principales (ACP) puede ser útil para descubrir esta estructura subyacente. Selecciona una rotación de tal manera que la mayor parte de la variabilidad del conjunto de datos esté capturada en las primeras dimensiones de los datos rotados. Aunque pueda parecer poco útil en nuestro caso tridimensional, este enfoque se vuelve muy poderoso cuando los datos tienen muchas dimensiones (decenas de dimensiones).
Características
PCA supone que las direcciones con las mayores varianzas son las más “importantes” (es decir, las más principales).
En la figura 2.1, el eje PC1 es la primera dirección principal a lo largo de la cual las muestras muestran la mayor variación. El eje PC2 es la segunda dirección más importante y es ortogonal al eje PC1.
La dimensionalidad de nuestros datos bidimensionales puede reducirse a una sola dimensión proyectando cada muestra sobre el primer componente principal (véase la figura 2.1b)
Desde el punto de vista técnico, la medida de la cantidad de varianza retenida por cada componente principal se determina a través del valor propio correspondiente.
Es importante resaltar que PCA resulta, especialmente, beneficioso cuando las variables en el conjunto de datos exhiben una alta correlación. Esta correlación indica la presencia de redundancias en los datos (véase la figura 2.5). Aprovechando esta redundancia, el PCA se emplea para reducir el número de variables originales a un conjunto menor de nuevas variables, es decir, los componentes principales. Estos componentes principales explican la mayor parte de la varianza de las variables originales.
Conclusión
En resumen, el objetivo principal del análisis de componentes principales es:
Identificar patrones ocultos en un conjunto de datos.
Reducir la dimensionalidad de los datos eliminando el ruido y la redundancia en los datos.
Identificar variables correlacionadas.
Pasos para realizar un PCA
Vamos a explicar el PCA paso a paso sin utilizar demasiada terminología matemática avanzada. En general, se puede visualizar en la figura 3.1.
Paso 1: Describir los Datos y objetivo
Suponga que, en un estudio realizado sobre \(n\) individuos, se tiene un vector \(X=(X_1, X_2, \ldots, X_K)^T\) de tamaño \(K\). El objetivo es encontrar nuevas variables notadas como \(Y_j\), \(j=1, \ldots, J\), que sean combinaciones lineales de las variables originales \(X_k\).
Paso 2: Definir las componentes Principales
Se procede de la siguiente manera:
Observación 2.1:
Se determina la primera componente principal \(Y_1\), la cual sintetiza la mayor cantidad de variabilidad total contenida en los datos:
\[Y_1 \;= \; \alpha_{11} X_1 \, +\, \alpha_{12} X_2 \,+\, \cdots \,+\, \alpha_{1K} X_K \; = \; \alpha_1^T X\]
donde \(\alpha_1 =(\alpha_{11}, \alpha_{12}, \ldots, \alpha_{1K})^T\) es escogido de tal forma que maximize la razón entre la varianza \(V(Y_1)\) de \(Y_1\) y la variación total y sujeta a la restricción que sea un vector ortonomal. Es decir, debe cumplir la condición:
\[\alpha_1^T\, \alpha_1 \; =\; \sum\limits_{k=1}^K \alpha_{1k}^2 \; = \; 1\]
Observación 2.2:
La segunda componente principal \(Y_2\) es una combinación lineal ponderada de las variables observadas:
\[Y_2 \;= \; \alpha_{21} X_1 \, +\, \alpha_{22} X_2 \,+\, \cdots \,+\, \alpha_{2K} X_K \; = \; \alpha_2^T X\]
\(Y_2\) no está correlacionada con la primera componente principal \(Y_1\). Es decir, \(Cov(Y_1, Y_2)=0\). Además, reúne la máxima variabilidad restante de la variación contenida en la primera componente principal \(Y_1\).
Observación 2.3:
Del mismo modo se eligen \(Y_1\), \(Y_2\), \(\ldots\) , \(Y_j\), incorrelados entre sí, de manera que las variables aleatorias obtenidas vayan teniendo cada vez menor varianza.
Observación 2.4:
La \(j\)-ésima componente principal es:
\[Y_j \;= \; \alpha_{j1} X_1 \, +\, \alpha_{j2} X_2 \,+\, \cdots \,+\, \alpha_{jK} X_K \; = \; \alpha_j^T X\]
la cual tiene la varianza más grande entre todas las siguientes. Aquí, \(\alpha_j =(\alpha_{j1}, \alpha_{j12}, \ldots, \alpha_{j1K})^T\) y es un vector con módulo 1 (o sea, ortonomal). Es decir, debe cumplir la condición:
\[\alpha_j^T\, \alpha_j \; =\; \sum\limits_{k=1}^K \alpha_{jk}^2 \; = \; 1\]
Observación 2.5:
Se cumple que
\[V(Y_j) \;=\; V(\alpha_j^T \,X) \;=\; \alpha_j^T\, \Sigma \, \alpha_j, \quad \mbox{para cada}\quad j=1,2, \ldots, J\]
Observación 2.6:
En general, queremos elegir \(a_j\) de modo que se maximice la varianza de \(Y_j\) sujeta a la restricción
de que \(\alpha_j^T\, \alpha_j \; = \; 1\)
Observación 2.7:
Las \(Y_j\) sintetizan en forma decreciente la varianza de un conjunto original de datos.
Observación 2.8:
El enfoque comúnmente utilizado para optimizar una función de múltiples variables bajo restricciones es conocido como el método de los multiplicadores de Lagrange.
Paso 3: Matriz de varianzas y covarianza o de correlaciones
Hay dos formas habituales de generar componentes principales.
Primera forma 3.1:
Calcular la matriz de correlación. Se recomienda utilizarla cuando:
Cuando las variables originales se encuentran en unidades diferentes.
En caso de que exista disparidad en las varianzas de las variables originales.
Segunda forma 3.2:
Calcular la matriz de varianza y covarianza \(\Sigma\) de las variables originales. Se recomienda utilizarla cuando:
- Deseamos considerar la información proporcionada por las diferencias entre las varianzas de las variables.
Observación 3.3:
Si las variables comparten las mismas unidades, ambas forma son factibles. Ante la incertidumbre, es recomendable llevar a cabo ambas evaluaciones y optar por aquella que arroje conclusiones más claras.
Observación 3.4:
En los pasos siguientes, consideraremos solo la segunda forma.
Paso 4: Vectores y valores propios
Calculamos los vectores y valores propios de \(\Sigma\). Es decir, si \(a_k\) es un vector propio de \(\Sigma\) y \(\lambda\) es su valor propio asociado, entonces, debe cumplirse que:
\[ \Sigma \cdot a_k \; = \; \lambda \, \,I_k \, a_k \]
Entonces,
\[V(Y_k) \;=\; V(\alpha_k^T \,X) \;=\; \alpha_k^T\, \Sigma \, \alpha_k \;=\; \alpha_k^T\, \lambda \,I_k \, \alpha_k \;=\; \, \lambda \,\alpha_k^T \, \alpha_k \;=\; \lambda \cdot 1 \;=\; \lambda\]
Luego, para maximizar la varianza de \(Y_k\) se tiene que tomar el mayor autovalor, digamos \(\lambda_k\), y el correspondiente autovector \(a_k\).
Por consiguiente, las componentes aleatorias vienen dadas por
\[Y_k \;= \; v_k^T\, X, \quad \mbox{para cada}\quad k=1, \ldots, K\]
Paso 5: Interpretación de los vectores y valores propios
Observación 5.1:
Los valores propios \(\lambda_1\), \(\lambda_2\), \(\ldots\), \(\lambda_k\) representan la variabilidad en cada dirección.
Observación 5.2:
Los valores propios correspondientes a los vectores propios \(a_1\), \(a_2\), \(\ldots\), \(a_k\) son las varianzas de las componentes principales \(Y_1\), \(Y_2\), \(\ldots\), \(Y_k\), respectivamente. Es decir, se cumple que
\[V(Y_k) = \lambda_k, \quad \mbox{para cada}\quad k=1,2, \ldots, K\]
Observación 5.3:
Ordenamos de mayor a menor los vectores propios según sus valores propios. Las primeras componentes principales capturan la mayor parte de la variabilidad de los datos. En este sentido, se cumple que
\[\lambda_1 \; \geq \; \lambda_2\; \geq \; \cdots \; \geq\; \lambda_k\]
Paso 6: Proyección de datos
Proyectamos los datos originales en las nuevas direcciones definidas por las componentes principales:
\[ \text{Nuevo dato}_{ik} = a_i^T \cdot \mathbf{X}_k\]
Paso 7: Visualización
Finalmente, visualizamos los datos en las nuevas dimensiones para describir mejor su estructura.
Propiedades según la matriz de varianzas y covarianzas
Propiedades básicas
Propiedad 1:
La influencia de la variable \(X_k\) en la \(k\)-ésima componente principal se determina mediante la magnitud del coeficiente
\(a_{jk}\).
Propiedad 2:
La covarianza entre la variable \(X_k\) y la componente principal \(Y_j\) es:
\[Cov(X_k, Y_j)\; =\; a_{jk} \, \lambda_j \]
Propiedad 3:
La varianza muestral de las observaciones con respecto a la \(k\)-ésima componente principal es
\[V(Y_k)\; =\; \alpha_k^T\, \Sigma \, \alpha_k \;=\; \lambda\]
Propiedad 4:
Para todo \(k\ne {\tilde k}\), las componentes \(Y_k\) y \(Y_{\tilde k}\) deben estar incorreladas. Es decir,
\[Cov(Y_k, Y_{\tilde k}) = 0\]
Propiedad 5:
Para todo \(k\ne {\tilde k}\), los vectores propios \(a_k\) y \(a_{\tilde k}\) son ortogonales. Es decir,
\[a_k^T \, a_{\tilde k} = 0\]
Esta propiedad es consecuencia de la propiedad 4 porque:
\[0 \; = \; Cov(Y_k, Y_{\tilde k}) \; = \; Cov\left(a_k^T\,x \; ,\; a_{\tilde k}^T\,x \right) \; = \;a_k^T\cdot E[(x-\mu)(x-\mu)^T] \cdot a_{\tilde k} \; = \; a_k^T\cdot \Sigma \cdot a_{\tilde k} \; = \;\alpha_k^T\, \lambda \, \alpha_{\tilde k} \;=\; \, \lambda \,\alpha_k^T \, \alpha_{\tilde k} \]
Propiedad 6:
Todos los componentes \(Y\) (en total \(K\)) se pueden expresar como el producto de una matriz formada por los autovectores, multiplicada por el vector \(x\) que contiene las variables originales \(X_1\), \(\ldots\) , \(X_K\):
\[Y \;=\; AX \]
donde
\[y\;=\; \begin{pmatrix}
y_1\\
\vdots\\
y_K\\
\end{pmatrix}, \qquad
A\;=\;\begin{pmatrix}
a_{11} & a_{12}& \cdots &a_{1K} \\
a_{21} & a_{22}& \cdots &a_{2K} \\
\vdots & \vdots & \ddots &\vdots \\
a_{K1} & a_{K2}& \cdots &a_{KK}
\end{pmatrix}, \qquad
x\;=\;\begin{pmatrix}
x_1\\
\vdots\\
x_K\\
\end{pmatrix}
\]
Teniendo en cuenta la propiedad 3, la matriz de covarianzas de \(Y\) será:
\[\Lambda\;=\;\begin{pmatrix}
\lambda_1 & 0& \cdots &0 \\
0 & \lambda_2& \cdots &0 \\
\vdots & \vdots & \ddots &\vdots \\
0 & 0& \cdots &\lambda_3
\end{pmatrix}\]
porque las \(Y_k\) se han comnstruido de tal manera que sean incorreladas.
Propiedad 6:
Se cumple que:
\[\Lambda \;=\; V(Y) \;=\; A^T\, V(X) \,A\;=\; A^T \,\Sigma \,A \]
Propiedad 7:
\(A\) es una matriz ortogonal (porque \(a_k^T \, a_k = 1\) para todas sus columnas). Por esta razón,
\[A A^T \;= \; I_K\]
Aquí, \(I_K\) es la matriz idéntica de tamaño \(K\) (tiene 1s en la diagonal principal y 0s en las otras celdas):
\[I_K \;=\; \begin{pmatrix}
1 & 0& \cdots &0 \\
0 & 1& \cdots &0 \\
\vdots & \vdots & \ddots &\vdots \\
0 & 0& \cdots &1
\end{pmatrix}\]
Propiedad 8:
Teniendo en cuenta las propiedades 6 y 7:
\[\Sigma \;=\; A^T \,\Lambda \,A\]
Porcentajes de variabilidad
Propiedad 9:
La varianza total de los componentes es la suma de todos los autovalores, es decir, la traza de la matriz \(\Lambda\) (ya que es diagonal):
\[\mbox{Varianza total}\;=\; \sum\limits_{k=1}^K V(Y_k) \; = \; \sum\limits_{k=1}^K \lambda_k \; = \; \mbox{traza}\,(\Lambda)\]
Propiedad 10:
Teniendo en cuenta las propiedades 6 (\(\Lambda = A^T \,\Sigma \,A\)) y 7 (\(A A^T \;= \; I_K\)) y por propiedades del operador traza:
\[\mbox{traza}\,(\Lambda) \;=\; \mbox{traza}\,\left(A^T \,\Sigma \,A\right) \; =\; \mbox{traza}\,\left(\Sigma \,A^T \,A\right) \; =\; \mbox{traza}\,(\Sigma)\]
Propiedad 11:
La suma de las varianzas de las variables originales y la suma de las varianzas de las componentes son iguales (ver propiedades 9 y 10):
\[\mbox{Varianza total}\;=\; \mbox{traza}\,(\Lambda) \; =\; \mbox{traza}\,(\Sigma)\; =\; \sum\limits_{k=1}^K Var(X_k)\]
Propiedad 12:
La proporción de varianza total que recoge el componente principal \(Y_k\) es:
\[ \mbox{Prop.}\; V(Y_k) \;=\; \frac{\lambda_k}{\mbox{Varianza total}}\]
Si multiplicamos por 100 tendremos el porcentaje correspondiente.
Propiedad 13:
El porcentaje de variabilidad recogido por los primeros \(J\) componentes:
\[ \mbox{Prop.}\; V(Y_{1\to J}) \;=\; \frac{\sum\limits_{j=1}^J \lambda_k}{\mbox{Varianza total}} \]
donde \(J<K\). Si multiplicamos por 100 tendremos el porcentaje correspondiente.
En la aplicación práctica, cuando inicialmente tenemos \(K\) variables, generalmente seleccionamos un número considerablemente menor de componentes principales que capturan una gran proporción de la variabilidad total. Por lo general, se prefiere no elegir más de tres componentes principales, si es posible, para poder representarlos de manera efectiva en gráficos subsiguientes.
Propiedades según la matriz de correlaciones
Normalmente, se computan los componentes utilizando variables que han sido estandarizadas, lo que significa que tienen una media de 0 y una varianza de 1. Esta práctica implica calcular los componentes principales no a partir de la matriz de covarianzas \(\Sigma\), sino de la matriz de correlaciones \(R\). En el caso de las variables estandarizadas, las covarianzas y las correlaciones coinciden.
Por lo tanto, los componentes resultantes son autovectores de la matriz de correlaciones, los cuales difieren de los obtenidos a partir de la matriz de covarianzas. Al seguir este enfoque, todas las variables originales son tratadas con igual importancia.
En la matriz de correlaciones, todos los elementos diagonales tienen un valor de 1. El procedimiento es igual al que se hace a partir de la matriz de varianzas y covarianzas , sólo que se sustituye \(\Sigma\) por \(R\). Existen algunas diferencias en la interpretación. Las más importantes
se enumeran enlas propiedades siguientes.
Propiedad 14:
Si las variables originales han sido tipificadas, esto implica que su matriz de covarianzas es igual a la matriz de correlaciones. En consecuencia, la variabilidad total (la traza) es igual al número total de variables en la muestra:
\[\mbox{Varianza total}\;=\; \sum\limits_{k=1}^K Var(X_k)\; =\; \sum\limits_{k=1}^K 1 \;= \; K\]
Propiedad 15:
La suma de todos los autovalores es \(K\):
\[ \sum\limits_{k=1}^K \lambda_k \; = \; K\]
Propiedad 16:
La proporción de varianza explicada por el \(k\)-ésimo autovector (componente) es:
\[ \mbox{Prop.}\; V(Y_k) \;=\; \frac{\lambda_k}{\mbox{Varianza total}} = \frac{\lambda_k}{K}\]
Propiedad 17:
El porcentaje de variabilidad recogido por los primeros \(J\) componentes:
\[ \mbox{Prop.}\; V(Y_{1\to J}) \;=\; \frac{\sum\limits_{j=1}^J \lambda_k}{\mbox{Varianza total}} \;= \; \frac{\sum\limits_{j=1}^J \lambda_k}{K}\]
Propiedad 18:
La correlación entre \(X_k\) y la componente principal \(Y_j\) es:
\[Corr(X_k, Y_j) \;= \; \frac{a_{jk}\, \sqrt{\lambda_j}}{\sqrt{s_{kk}}}\]
la cual suministra la ponderación (o grado de importancia) de la \(k\)-ésima variable sobre la \(j\)-ésima componente principal. O, dicho de otra forma, indica el grado de asociación entre la variable y la respectiva componente.
Propiedad 19:
Cuando se presentan los autovectores, se les suele multiplicar previamente por \(\sqrt{\lambda_j}\) (del autovalor correspondiente), para reescalar todos los componentes del mismo modo. De esta manera, se calcula la ponderación de la variable \(k\), en la \(j\)-ésima componente como:
\[a_{jk}^*\;= \; a_{jk}\, \sqrt{\lambda_j}\]
Selección del número de componentes principales
La elección del número de componentes principales se basa en criterios empíricos que consideran la variabilidad que se desea mantener en una situación particular. Desafortunadamente, no existe una forma objetiva y bien aceptada de decidir cuántos componentes principales son suficientes. A continuación, describiremos algunos métodos generales.
