La decomposizione ai valori singolari (SVD) è una generalizzazione della decomposizione basata sugli autovalori di una matrice quadrata ( quadrata significa che il numero di righe è uguale al numero di colonne). La SVD consente di generalizzare questa idea e fattorizzare qualsiasi \(X \in \mathbb{R}^{n \times p}\). Ovvero anche in contesti in cui non si lavora con matrici quadrate. Si ha quindi

\[ X=U D V^{T} \]

Dove, \(U \in \mathbb{R}^{n \times n}\) e \(V \in \mathbb{R}^{p \times p}\) sono matrici ortogonali e \(D \in \mathbb{R}^{n \times p}\) ha \(D_{11} \geq D_{22} \geq \cdots \geq D_{m m} \geq 0\), dove \(m:=\min (n, p)\), e tutti gli altri elementi di \(D\) sono zero. Le colonne \(r\)-esime di \(U\) e \(V\) sono conosciute rispettivamente come i \(r\)-esimi vettori singolari sinistri e destri di \(X\), e \(D_{r r}\) è il \(r\)-esimo valore singolare.

Quando \(n>p\), possiamo sostituire \(U\) con le sue prime \(p\) colonne e \(D\) con le sue prime \(p\) righe per ottenere un’altra versione della SVD (talvolta nota come thin SVD). Allora \(X=U D V^{T}\) dove \(U \in \mathbb{R}^{n \times p}\) ha colonne ortonormali (ma non è più quadrata) e \(D\) è una matrice quadrata e diagonale. C’è una versione equivalente quando \(p>n\).

Prendiamo \(X \in \mathbb{R}^{n \times p}\) come la nostra matrice dei predittori e supponiamo \(n \geq p\). Utilizzando la (thin) SVD, possiamo scrivere i valori adattati della regressione ridge nel seguente modo.

\[ \begin{aligned} X \hat{\beta}_{\lambda}^{\mathrm{R}} & =X\left(X^{T} X+\lambda I\right)^{-1} X^{T} Y \\ & =U D V^{T}\left(V D^{2} V^{T}+\lambda I\right)^{-1} V D U^{T} Y \\ & =U D\left(D^{2}+\lambda I\right)^{-1} D U^{T} Y \\ & =\sum_{j=1}^{p} U_{j} \frac{D_{j j}^{2}}{D_{j j}^{2}+\lambda} U_{j}^{T} Y . \end{aligned} \]

Dove \(U_{j}\) è la \(j\)-esima colonna di \(U\). Per confronto, i valori adattati dalla regressione dei minimi quadrati ordinari (OLS) (quando \(X\) ha rango pieno) sono

\[ X \hat{\beta}^{\mathrm{OLS}}=X\left(X^{T} X\right)^{-1} X^{T} Y=U U^{T} Y \]

Sia la regressione OLS che la regressione ridge calcolano le coordinate di \(Y\) rispetto alle colonne di \(U\). La regressione ridge riduce quindi queste coordinate mediante i fattori \(D_{j j}^{2} /\left(D_{j j}^{2}+\lambda\right)\); se \(D_{j j}\) è piccolo, l’entità della riduzione sarà maggiore.

Aggiungiamo un altro layer, osserviamo che la SVD è intimamente collegata all’Principal Component Analysis (PCA). Consideriamo \(v \in \mathbb{R}^{p}\) con \(|v|_{2}=1\). Poiché alle colonne di \(X\) sono stati sottratti i loro valori medi, la varianza campionaria di \(X v \in \mathbb{R}^{n}\) è

\[ \frac{1}{n} v^{T} X^{T} X v=\frac{1}{n} v^{T} V D^{2} V^{T} v \]

Scrivendo \(a=V^{T} v\), quindi \(|a|_{2}=1\), abbiamo

\[ \frac{1}{n} v^{T} V D^{2} V^{T} v=\frac{1}{n} a^{T} D^{2} a=\frac{1}{n} \sum_{j} a_{j}^{2} D_{j j}^{2} \leq \frac{1}{n} D_{11} \sum_{j} a_{j}^{2}=\frac{1}{n} D_{11}^{2} . \]

Poiché \(\left|X V_{1}\right|{2}^{2} / n=D{11}^{2} / n\), \(V_{1}\) determina la combinazione lineare delle colonne di \(X\) che ha la maggiore varianza campionaria, quando i coefficienti della combinazione lineare sono vincolati ad avere norma \(\ell_{2}\) pari a 1. \(X V_{1}=D_{11} U_{1}\) è noto come la prima componente principale di \(X\). Le componenti principali successive \(D_{22} U_{2}, \ldots, D_{p p} U_{p}\) hanno una varianza massima di \(D_{j j}^{2} / n\), a condizione che siano ortogonali a tutte quelle precedenti - vedere l’elenco degli esempi 1 per i dettagli.

Tornando alla regressione ridge, vediamo che riduce maggiormente \(Y\) nelle componenti principali più piccole di \(X\). Pertanto, funzionerà bene quando la maggior parte del segnale si trova nelle componenti principali più grandi di \(X\).

Bibliografia