ComponentesPrincipales

Capitulo 5

Analisis de componentes principales

5.1 Obtención de las componentes principales

Sea \(\mathrm{X} = [X_{1},….,X_{p}]\) una matriz de datos multivariantes. Lo que sigue también vale si \(\mathrm{X}\) es un vector formado por \(p\) variables observables.

Definición 5.1.1 Las componentes principales son las variables compuestas

\[\mathrm{Y_1} = \mathrm{X_{t_1}}, \mathrm{Y_2} = \mathrm{X_{t_2}},..., \mathrm{Y_p} = \mathrm{X_{t_p}}\]

tales que:

  1. var(\(\mathbf{Y_1}\)) es máxima condicionado a \(t_{1}^{'}t_{1}=1\).

  2. Entre todas las variables compuestas \(Y\) tales que cov(\(\mathrm{Y_1, Y}\)) = 0$, la variable \(\mathrm{Y_2}\) es tal que \(var(\mathrm{Y_2})\)

  3. Si \(p\geq3\), la componente \(Y_3\) es una variable incorrelacionada con \(Y_1,Y_2\) con varianza máxima.

  4. Análogamente se definen las demás componentes principales si \(p>3\).

Si \(\mathbf{T = } [t_1, t_2, ..., t_p]\) es la matriz \(p\times p\) cuyas columnas son los vectores que definen las componentes principales, entonces la transformación lineal \(X\underset{}{\rightarrow}Y\)

\[ Y = XT \tag{1}\]

se llama transformación por componentes principales.

Teorema 1 Sean \(t_1, t_2, ..., t_p\) los \(p\) vectores propios normalizados de la matriz de covarianzas \(\mathbf{S}\),

\[St_i = \lambda_{i} t_{i}, \text{ , } t_{i}^{'}t_{i} = 1 \text{ , } t_{i}^{'}t_{i} = 1\]

Entonces

  1. Las variables compuestas \(Y_i = Xt_i, i = 1,...,p\), son las componentes principales.

  2. Las varianzas son los valores propios de \(\mathbf{S}\)

\[var(Y_{i}) = \lambda_{i} \text{ , } i = 1,...,p.\]

  1. Las componentes principales son variables incorrelacionadas:

\[cov(Y_{i}, Y_{j} ) = 0 \text{ , } i \neq j = 1, ..., p.\]

Demost. Supongamos \(\lambda_1 >...>\lambda_p>0.\) Probemos que las variables \(Y_i = \mathbf{Xt_{i}}\), \(i =1,...,p,\) están incorrelacionadas:

\[cov(Y_{i}, Y_{j} ) = t_{i}^{'}St_{j} = t_{i}^{'}\lambda_{j}t_{j}= \lambda_{j}t_{i}^{'}t_{j}\]

\[cov(Y_j, Y_i ) = t_{j}^{'}St_{i} = t_{j}^{'}\lambda_{j}t_{i}= \lambda_{i}t_{j}^{'}t_{i}\]

\(\Rightarrow (\lambda_j - \lambda_i)t_{i}^{'}t_{j}=0, \Rightarrow t_{i}^{'}t_{j}=0, \Rightarrow cov(Y_i, Y_j )= \lambda_{j}t_{i}^{'}t_{j} = 0,\) si \(i\neq j .\)

Además, para \(i=j\), la varianza de \(Y_i\) es:

\[var(Y_i) = \lambda_{i}t_{i}^{'}t_{i} = \lambda_i.\]

Sea ahora \(Y = \sum_{i=1}^{p} a_{i}X_{i} = \sum_{i=1}^{p} \alpha_{i}Y_{i}\) una variable compuesta tal que \(\sum_{i=1}^{p} \alpha_{i}^{2} = 1.\) Entonces:

\[var(Y) = var (\sum_{i=1}^{p} \alpha_iY_i) = \sum_{i=1}^{p} \alpha_{i}^{2}var(Y_i) = \sum_{i=1}^{p} \alpha_{i}^{2}\lambda_i \leq (\sum_{i=1}^{p} \alpha_{i}^{2}) \lambda_1 = var(Y_1)\]

que prueba que \(Y_1\) tiene varianza máxima.

Consideremos ahoras las variables \(Y\) incorrelacionada con \(Y_1\). Las podemos expresar como:

\(Y = \sum_{i=1}^{p} b_{1}X_{i} = \sum_{i=1}^{p} \beta_{i}Y_{i}\) condicionado a \(\sum_{i=1}^{p} \beta_{i}^{2} = 1\),

Entonces:

\[var(Y) = var (\sum_{i=1}^{p} \beta_{i}Y_{i}) = \sum_{i=1}^{p} \beta_{i}^{2}var(Y_i) = \sum_{i=1}^{p} \beta_{i}^{2}\lambda_i \leq (\sum_{i=1}^{p} \beta_{i}^{2}) \lambda_2 = var(Y_2)\],

y por lo tanto \(Y_2\) está incorrelacionada con \(Y_1\) y tiene varianza máxima.

Si \(p\geq3\), la demostración de que \(Y_{3},...,Y_{p}\) son también componentes principales es análoga. \(\square\)

5.2 Variabilidad explicada por las componentes

La varianza de la componente principal \(Y_i\) es \(var(Y_i) = \lambda_{i}\) y la variación total es tr\((\mathrm{S}) = \sum_{i=1}^{p} \lambda_i\). Por lo tanto.

  1. \(Y_i\) contribuye con la cantidad \(\lambda_{i}\) a la variación total de tr\((\mathrm S)\).

  2. Si \(m < p, Y_{1},...,Y_{m}\) contribuyen con la cantidad \(\sum_{i=1}^{m} \lambda_i\) a la variación total tr\((\mathrm S)\).

  3. El porcentaje de variabilidad explicada por las m primeras componentes principales es

\[ P_{m} = 100 \frac{\lambda_{1} + ... + \lambda{m}}{\lambda_{1} + ... + \lambda{p}} \tag{2}\]

En las aplicaciones cabe esperar que las primeras componentes expliquen un elevado porcentaje de la variabilidad total. Por ejemplo, si \(m = 2 < p\), y \(P_{2} =\) 90%, las dos primeras componentes explican una gran parte de la variabilidad de las variables. Entonces podremos sustituir \(X_{1},X_{2},...,X_{p}\) por las componentes principales \(_1, Y_2\). En muchas aplicaciones, tales componentes tienen interpretación experimental.

5.3 Representación de una matriz de datos

Sea \(\mathbf{X} = [X_{1},...,X_{p}]\) una matriz \(n \times p\) de datos multivariantes. Queremos representar, en un espacio de dimensión reducida \(m\) (por ejemplo,\(m=2\)), las filas \(x_{1}^{'},x_{2}^{'},...,x_{n}^{'}\) de \(\mathbf{X}\) Para ello, debemos introducir una distancia.

Definición 5.3.1 La distancia euclídea (al cuadrado) entre dos filas de \(\mathbf{X}\)

\[\begin{align*} x_{i}^{'} = (x_{i1},...,x_{ip}),& & x_{j}^{'} = (x_{j1},...,x_{jp}),\\ \end{align*}\]

es

\[\delta_{ij}^{2} = (x_{i}-x_{j})^{'}(x_{i}-x_{j}) = \sum_{h=1}^{p} (x_{ih}-x_{jh})^{2}\]

La matriz \(\Delta = \delta_{ij}\) es la matriz \(n \times n\) de distancias entre las filas.

Podemos representar las \(n\) filas de \(\mathbf{X}\) como \(n\) puntos en el espacio \(R^{p}\) distanciados de acuerdo con la métrica \(\delta_{ij}\). Pero si \(p\) es grande, esta representación no se puede visualizar. Necesitamos reducir la dimensión.

Definición 5.3.2 La variabilidad geométrica de la matriz de distancias \(\Delta\) es el promedio de sus elementos al cuadrado \[V_{\delta}(\mathbf{X}) = \frac{1}{2n^{2}} \sum_{i,j=1}^{n} \delta_{ij}^{2}\] Si \(\mathbf{Y=XT}\) es una transformación lineal de \(\mathbf{X}\), donde \(\mathbf{T}\) es una matriz \(p\times m\) de constantes,

\[\delta_{ij}^{2} = (y_{i}-y_{j})^{'}(y_{i}-y_{j}) = \sum_{h=1}^{p} (y_{ih}-y_{jh})^{2}\]

es la distancia euclídea entre dos filas de \(\mathbf{Y}\). La variabilidad geométrica en dimensión \(m \leq p\) es

\[V_{\delta}(\mathbf{X}) = \frac{1}{2n^{2}} \sum_{i,j=1}^{n} \delta_{ij}^{2}(m)\]

Teorema 5.3.1 La variabilidad geométrica de la distancia euclídea es la traza de la matriz de covarianzas

\[V_{\delta}(\mathbf{X}) = tr(\mathbf{S})= \sum_{h=1}^{p} \lambda_{h}\] Demost.: Si \(x_{1},...,x_{n}\) es una muestra univariante con varianza \(s^{2}\), entonces

\[\frac{1}{2n^{2}} \sum_{i,j=1}^{n} (x_i - x_j)^2 = s^2 \tag{3}\]

En efecto, si \(\bar{x}\) es la media

\[\begin{aligned} \frac{1}{n^{2}}(x_{i}-x_{j})^2 & = \frac{1}{n^{2}}\sum_{i,j=1}^{n} (x_{i}- \bar{x}-(x_{j}-\bar{x}))^2 \\ & = \frac{1}{n^{2}}\sum_{i,j=1}^{n} (x_{i}- \bar{x})^2 + \frac{1}{n^{2}}\sum_{i,j=1}^{n} (x_{j}- \bar{x})^2 \\ & + \frac{2}{n^{2}}\sum_{i,j=1}^{n} (x_{i}- \bar{x})(x_{j}- \bar{x}) \\ & = \frac{1}{n}ns^{2} + \frac{1}{n}ns^{2} + 0 = 2s^{2} \end{aligned}\]

Aplicando (Ecuación 3) a cada columna de \(\mathbf{X}\) y sumando obtenemos

\[\begin{align*} V_{\delta}\mathbf(X) = \sum_{j=1}^{p} s_{jj} = tr(\mathbf{S}). &&& \square \end{align*}\]

Una buena representación en dimensión reducida \(m\) (por ejemplo, \(m = 2\)) será aquella que tenga máxima variabilidad geométrica, a fin de que los puntos estén lo más separados posible.

Teorema 5.3.2 La transformación lineas \(\mathbf{T}\) que maximiza la variabilidad geomé´trica en dimensión m es la transformación por componentes principales \(\mathbf{Y=XT}\), es decir, \(\mathbf{T = [T_{1},...,t_{m}]}\) contiene los m primeros vectores propios normalizados de \(\mathbf{S}\).

Demost.: Utilizando {Ecuación 3}, la variabilidad geométrica de \(\mathbf{Z=XV}\), donde \(\mathbf{V}=[\mathbf{v_{1},...,v_{m}}]\) es \(p \times m\) cualquiera, es

\[V_{\delta}(\mathbf{Z})_{m} - \sum_{j=1}^{m} s^{2}(Z_{j}) - \sum_{j=1}^{m} \mathbf{v}_{j}^{2}\mathbf{S}\mathbf{v}_{j} \]

siendo\(s^{2}Z_{j} = \mathbf{v}_{j}^{2}\mathbf{S}\mathbf{v}_{j}\) la varianza de la variable compuesta \(Z_{j}\). Alcanzamos la máxima varianza cuando \(Z_{j}\) es una componente principal: \(s^2(Z_{j}) \leq \lambda_{j}\).

Así:

\[\begin{align*} máx V_{\delta} (\mathbf{Y})_{m} = \sum_{j=1}^{m} \lambda_{j}. &&& \square \end{align*}\]

El porcentaje de variabilidad geométrica explicada por \(Y\) es

\[ P_{m} = 100 \frac{V_{\delta}(\mathbf{Y})_{m}}{V_{\delta}(\mathbf{X})_{p}} = 100 \frac{\lambda_{1} + ... + \lambda{m}}{\lambda_{1} + ... + \lambda{p}}\] Supongamos ahora \(m = 2\). Si aplicamos la transformación {Ecuación 1}, la matriz de datos \(\mathbf{X}\) se reduce a

\[\begin{equation} \mathbf{Y} = \begin{pmatrix} y_{11} & y_{12} \\ \vdots & \vdots \\ y_{i1} & y_{i2} \\ \vdots & \vdots \\ y_{n1} & y_{n2} \\ \end{pmatrix} \end{equation}\]

Entonces, representando los puntos de coordenadas \((y_{i1}, y_{i2})\), \(i = 1,...,n,\) obtenemos una representación óptima en dimensión 2 de las filas de \(\mathbf{X}\).

5.4 Inferencia

Hemos planteado el \(ACP\) sobre la matriz S; pero lo podemos también plantear sobre la matriz de covarianzas poblacionales \(\mathbf{\Sigma}\). Las componentes principales obtenidas sobre \(\mathbf{S}\) son, en realidad, estimaciones de las componentes principales sobre \(\mathbf{\Sigma}\).

Sea \(\mathbf{X}\) matriz de datos $ n p$ donde las filas son independientes con distribucion \(N_{p}(\mathbf{\mu,\Sigma})\). Recordemos que:

  1. \(\bar{x}\) es \(N_{p}(\mathbf{\mu},\mathbf{\Sigma}/n)\).

  2. \(\mathbf{U} = n\mathbf{S}\) es Wishart \(W_{p}(\mathbf{\Sigma},n-1)\).

  3. \(\bar{x}\) y \(\mathbf{S}\) son estocásticamente independientes.

Sea \(\mathbf{\Sigma = \Gamma \Lambda \Gamma^{'}}\) la diagonalización de \(\mathbf{\Sigma}\). Indiquemos

\[\begin{align*} \mathbf{\Sigma} = [\gamma_{1},...,\gamma_{p}], & & \mathbf{\lambda} = [\lambda_{1},...,\lambda_{p}], & & \mathbf{\Lambda} = diag(\lambda_{1},...,\lambda_{p})] \end{align*}\]

los vectores propios y valores propios de \(\mathbf{\Sigma}\). Por otra parte, sea \(\mathbf{S = GLG^{'}}\) la diagonalización de \(\mathbf{S}\). Indiquemos:

\[\begin{align*} \mathbf{G} = [\gamma_{1},...,\gamma_{p}], & & \mathbf{\iota} = [l_{1},...,l_{p}], & & \mathbf{L} = diag(l_{1},...,l_{p})] \end{align*}\]

los vectores propios y valores propios de S: A partir de ahora supondremos

\[ \lambda_{1} \geq \cdots \geq \lambda_{p}\].

5.4.1 Estimación y distribución asintótica

Teorema 5.4.1 Se verifica:

  1. Si los valores propios son diferentes, los valores y vectores propios obtenidos a partir de \(\mathbf{S}\) son estimadores máximo-verosímiles de los obtenidos a partir de \(\mathbf{\Sigma}\)
\[\begin{align*} \hat{\lambda_{i}} = l_{i}, & & \hat{\gamma_{i}} = \mathbf{g}_{i} && i = 1, ..., p. \end{align*}\]
  1. Cuando \(k > 1\) valores propios son iguales a \(\lambda\)

\[ \lambda_{1} > \cdots > \lambda_{p-k} = \lambda_{p-k+1} = \cdots = \lambda_{p} = \lambda,\] el estimador máximo verosímil de \(\lambda\) es la media de los correspondientes valores propios de \(\mathbf{S}\)

\[ \hat{\lambda} = (l_{p-k+1} + \cdots + l_{p})/k\]

Demost.:Los valores y vectores propios están biunívocamente relacionados con \(\mathbf{\Sigma}\) y por lo tanto 1) es consecuencia de la propiedad de invariancia de la estimación máximo verosímil. La demostración de 2) se encuentra en Anderson(1985). \(\square\)

Teorema 5.4.2 Los vectores propios \(\mathbf{G} = [\mathbf{g_{1},...,\mathbf{g_{p}}}]\) y los valores propios \(\mathbf{\iota} = [l_{1},...,l_{p}]\) verifican asintóticamente:

  1. \(\mathbf{\iota}\) es \(N_{p}(\mathbf{\lambda}, 2\Lambda^{2}/n)\). En particular:
\[\begin{align*} l_{i} & & es & & N_{p}(\lambda, 2\lambda_{i}^{2}/n), & & cov(l_{i},l_{j}) = 0 && i \neq j, \end{align*}\]

es decir, \(l_{i},l_{j}\) son normales e independientes.

  1. \(\mathbf{g}_{i}\) es \(N_{p}(\mathbf{\gamma}_{i}, \mathbf{V}_{i}/n)\) donde

\[ \mathbf{V}_{i} = \lambda_{i} \sum_{j \neq i} \frac{\lambda_{i}}{(\lambda_{i} - \lambda_{j})^{2}} \gamma_{i}\gamma_{i}^{'} \]

  1. \(\iota\) es independiente de \(\mathbf{G}.\)

Demost.: Anderson (1958), Mardia, Kent y Bibby (1979). \(\square\)

Como consecuencia de que \(l_{i}\) es \(N(\lambda_{i}, 2\lambda_{i}^{2}/n)\) obtenemos el intervalo de confianza asintótico con coeficiente de confianza \(1 - \alpha\)

\[ \frac{l_{i}}{(1+az_{\alpha/2})^{1/2}} < \lambda_{i} < \frac{l_{i}}{(1- az_{\alpha/2})^{1/2}} \] siendo \(a^{2}=2/(n-1)\) y \(P(|Z|>z_{\alpha/2})\), donde \(Z\) es \(N(0,1).\) Se obtiene otro intervalo de confianza como consecuencia de que \(log l_i\) es \(N(log \lambda_i, 2/(n-1))\)

\[l_{i}e^{-az_{\alpha/2}}< \lambda_i < l_{i}e^{+az_{\alpha/2}}\]

5.4.2. Contraste de hipótesis

Determinados contrastes de hipótesis relativos a las componentes principales son casos particulares de un test sobre la estructura de la matriz \(\mathbf{\Sigma}\).

A. Supongamos que queremos decidir si la matriz \(\mathbf{\Sigma}\) es igual a una matriz determinada \(\mathbf{\Sigma}_{0}\): Sea X un matriz \(n \times p\) con filas independientes \(N_{p}(\mathbf{\mu}, \mathbf{\Sigma})\) El test es:

\[\begin{align*} H_{0} : \Sigma = \Sigma_{0} & & (\mu & & \text{desconcida}) \end{align*}\]

Si \(L\) es la verosimilitud de la muestra, el máximo de log \(L\) bajo \(H_{0}\) es

\[log L_{0} = -\frac{n}{2} \text{log} |2\pi\Sigma_{0}| -\frac{n}{2} \text{tr} (\Sigma_{0}^{-1}\mathbf{S}) \] El máximo no restringido es

\[\text{log}L = -\frac{n}{2} \text{log} |2\pi\mathbf{S}| - \frac{n}{2} p\]

El estadístico basado en la razón de verosimilitud \(\lambda_{R}\) es

\[ -2 \text{log} \lambda_{R} = 2(\text{log} L - \text{log} -L_{0}) = n \text{tr}(\Sigma_{0}^{-1}\mathbf{S}) - n\text{log}|\Sigma_{0}^{-1}\mathbf{S}| - np \tag{4}\]

Si \(L_1,...,L_p\) som los valores propios de \(\Sigma_{0}^{-1}\mathbf{S}\) y a,g son las medias aritmética y geométrica

\[a = (L_{1},...,L_{p})/p \text{ , }\text{ }g = (L_{1} \times \cdots \times L_{p})^{1/p} \tag{5}\]

entonces, asisntóticamente

\[ -2 \text{log} \lambda_R = np(a- \text{log}g-1) \sim \chi_{q}^{2} \tag{6}\]

siendo \(q = p(p + 1)/2 - par (\Sigma_{0})\) el número de parámetros libres de \(\Sigma\) menos el número de párametros libres de \(\Sigma_{0}\)

B. Test de independencia completa.

Si la hipótesis nula afirma que las \(p\) variables son estocásticamente independientes, el test se formula como

\[\begin{align*} H_{0} : \Sigma = \Sigma_{d} = \text{diag}(\sigma_{11},...,\sigma_{pp}) & & (\mu \text{ desconocida}) \end{align*}\]

Bajo \(H_{0}\) la estimación \(\Sigma_{d}\) es \(\mathbf{S}_{d} = \text{diag}(s_{11},...,s_{pp})\) y \(\mathbf{S}_{d}^{-1/2}\mathbf{S}\mathbf{S}_{d}^{-1/2}=\mathbf{R}\) es la matriz de correlaciones. Como \(\mathbf{S}_{d}^{-1}\mathbf{S}\) y \(\mathbf{R}\) tienen la misma traza y determinante, de (Ecuación 4) y de log\(|2\pi\mathbf{S}_{d}| -\) log\(|2\pi\mathbf{S}=\) log\(|\mathbf{R}|, \text{tr}(\mathbf{R})=p,\) obtenemos

\[ -2 \text{log}\lambda_{R}= -n\text{log}|\mathbf{R}|\sim \chi_{q}^{2},\]

siendo \(q = p(p + 1)/2 - p = p(p-1)/2\). Si el estadistico \(-n\) log\(\mathbf{R}\) no es significativo, entonces podemos aceptar que las variables están incorrelacionadas y por lo tanto, como hay normalidad multivariante, independientes. Entonces las propias variables serían componentes principales. Véase la Sección 3.5.1.

C. Test de igualdad de valores propios.

Es éste un test importante en ACP. La hipótesis nula es

\[ H_{0}: \lambda_{1} > \cdots > \lambda_{p-k} = \lambda_{p-k+1} = \cdots = \lambda_{p} = \lambda,\]

Indicamos los valores propios de \(\mathbf{S}\) y de \(\mathbf{S_{0}}\) (estimación de \(\Sigma\) si \(H_{0}\) es cierta)

\[\begin{align*} \mathbf{S} \sim (l_{1},...,l_{k},l_{k+1},...,l_{p}) & & \mathbf{S}_{0} \sim (l_{1},...,l_{k},a_{0},...,a_{0}), \end{align*}\]

donde \(a_{0} = (l_{k+1},...,l_{p})/(p-k)\) (Teorema 5.4.1). Entonces

\[ \mathbf{S}_{0}^{-1}\mathbf{S} \sim (1,...,1,l_{k+1}/a_{0},...,l_{p}/a_{0}),\] las medias (Ecuación 5) son \(a=1\) y \(g = (l_{k+1}\times \cdots \times l_{p})^{1/p}a_{0}^{(k-p)/p}\) y aplicando (Ecuación 6)

\[ -2 \text{log} \lambda_R = n( p - k) \text{log}(l_{k+1} \times \cdots l_{p})/(p-k) - n (\sum_{i=k+1}^{p} \text{log}l_{i}) \sim \chi_{q}^{2} \tag{7}\]

donde \(q = (p - k)(p - k +1)/2 -1\). Para una versión más general de este test, véase Mardia et al. (1979).

5.5 Numero de componentes principales

En esta sección presentamos algunos criterios para determinar el número \(m < p\) de componentes principales.

5.5.1. Criterio de porcentaje

El número \(m\) de componentes principales se toma de modo que \(P_{m}\) sea próximo a un valor especificado por el usuario, por ejemplo el 80%. Por otra parte, si la representación de \(P_{1}, P_{2},...,P_{k},...\) con respecto de \(k\) prácticamente se estabiliza a partir de un cierto \(m\), entonces aumentar la dimensión apenas aporta más variabilidad explicada. Véase la Figura 1 .

5.5.2. Criterio de Kaiser

Obtener las componentes principales a partir de la matriz de correlaciones \(\mathbf{R}\) equivale a suponer que las variables observables tengan varianza 1. Por lo tanto una componente principal con varianza inferior a 1 explica menos variabilidad que una variable observable. El criterio, llamado de Kaiser, es entonces:

Retenemos las \(m\) primeras componentes tales que \(\lambda_{m} \geq 1\), donde \(\lambda_{1} \geq \cdots \geq \lambda_{p}\) son los valores propios de \(\mathbf{R}\), que también son las varianza de las componentes. Estudios de Montecarlo prueban que es más correcto el punto de corte \(\lambda^{*} = 0.7\), que es más pequeño que 1. Este criterio se puede extender a la matriz de covarianzas. Por ejemplo,\(m\) podría ser tal que \(\lambda_{m} \geq v\), donde \(v = \text{tr}(\mathbf{S})/p\) es la media de las varianzas. También es aconsejable considerar el punto de corte \(0.7 \times v\).

Figura 1: Representación de los valores propios, que indicaría tomar las m =3 primeras componentes principales.

5.5.3. Test de esfericidad

Supongamos que la matriz de datos proviene de una población normal multivariante \(N_{p}(\mu, \Sigma)\) Si la hipótesis

\[H_{0}^{(m)}:\lambda_{1} > \cdots > \lambda_{m}>\lambda_{m+1} = \cdots = \lambda_{p}\] es cierta, no tiene sentido considerar más de \(m\) componentes principales. En efecto, no hay direcciones de máxima variabilidad a partir de \(m\), es decir, la distribución de los datos es esférica. El test para decidir sobre \(H_{0}^{(m)}\) está basado en el estadístico ji-cuadrado (Ecuación 7) y se aplica secuencialmente: Si aceptamos \(H_{0}^{(0)}\) es decir, \(m=0\), todos lo valores propios son iguales y no hay direcciones principales. Si rechazamos \(H_{0}^{(0)}\), entonces repetimos el test con \(H_{0}^{(1)}\). Si aceptamos \(H_{0}^{(1)}\) entonces \(m=1\), pero si rechazamos \(H_{0}^{(1)}\) repetimos el test con \(H_{0}^{(2)}\), y así sucesivamente. Por ejemplo, si \(p =4\), tendríamos que \(m=2\) si rechazamos \(H_{0}^{(0)}\), \(H_{0}^{(1)}\) y aceptamos \(H_{0}^{(2)}: \lambda_{1} > \lambda_{2} > \lambda_{3} = \lambda = 4\)

5.5.4. Criterio de bastón roto

La suma de los valores propios es \(V_{t} =\text{tr}(\mathbf{S})\) que es la variabilidad total. Imaginemos un bastón de longitud \(V_{t}\) que rompemos en \(p\) trozos al azar (asignando \(p-1\) puntos uniformemente sobre el intervalo \((0,V_{t})\)) y que los trozos ordenados son los valores propios \(l_{1} > l_{2} > \cdots > l_{p}\). Si normalizamos a \(V_{t} = 100\), entonces el valor esperados de \(l_{j}\) es

\[E(L_{j})= 100 \times \frac{1}{p} \sum_{i=1}^{p-j} \frac{1}{j+1}\]

Las \(m\) primeras componentes son significativas si el porcentaje de varianza explicada supera claramente el valor de \(E(L_{1}) + \cdots + E(L_{m})\). Por ejemplo, si \(p = 4\), los valores son:

Tabla 1
Porcentaje \(E(L_{1})\) \(E(L_{2})\) \(E(L_{3})\) \(E(L_{4})\)
Esperado 52.08 27.08 14.58 6.25
Acumulado 52.08 79.16 93.74 100

Si \(V_{2} = 93.92\) pero \(V_{3} = 97.15\) entonces tomaremos sólo dos componentes.