Un modo per ridurre la varianza di \(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}\) (ovvero i parametri ottenuti tramite il metodo dei minimi quadrati) è quello forzare alcuni dei coefficienti stimati verso lo zero. La regressione Ridge (Hoerl e Kennard, 1970) risolve il seguente problema di ottimizzazione:
\[ \left(\hat{\mu}_{\lambda}^{\mathrm{R}}, \hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}\right)=\underset{(\mu, \boldsymbol{\beta}) \in \mathbb{R} \times \mathbb{R}^{p}}{\arg \min }\left\{\|Y-\mu \mathbf{1}-\mathbf{X} \boldsymbol{\beta}\|_{2}^{2}+\lambda\|\boldsymbol{\beta}\|_{2}^{2}\right\} \]
Dove, \(\mathbf{1}=(1,\dots,1)^T\in \mathbf{R}^n\) \(\boldsymbol{\beta} \in \mathbb{R}^p\) è un vettore di dimensioni \(p\), \(\mathbf{X}\in \mathbb{R}^{n \times p}\) è la nostra matrice dei dati e \(\lambda\) è uno scalare non negativo. La prima cosa che notiamo è che il problema di ottimizzazione nella ridge è molto simile a quello della regressione lineare. La differenza è l’aggiunta di un ulteriore termine di penalizzazione \(|\beta\|_{2}^{2}\) che geometricamente può essere interpretato come p-sfera. Il parametro \(\lambda \geq 0\), controlla il grado di penalizzazione verso lo 0 dei parametri. Con \(\lambda \equiv 0\) torniamo ad un classico problema di regressione lineare (problema di stima non penalizzato) mentre un valore di \(\lambda\) tendente ad infinito forzerebbe tutti i coefficienti ad assumere valori molto piccoli ma mai esattamente zero. \(\lambda\) viene spesso chiamato in letteratura o anche . Nel problema di ottimizzazione abbiamo incluso esplicitamente un termine di intercetta che non è penalizzato.
Pensiamo al caso in cui stessimo lavorando con una variabile la quale può essere in Kelvin o gradi Celsius, sappiamo che i valori dei parametri non cambierebbero. Tuttavia, \(\mathbf{X} \hat{\beta}\) non è invariante alle trasformazioni di scala delle variabili, quindi è pratica centrare ogni colonna di \(\mathbf{X}\) (rendendole ortogonali all’ intercetta) e quindi ridimensionarle per avere norma \(\ell_{2}\) pari a \(\sqrt{n}\).
E banale mostrare che dopo aver standardizzato i dati nella design \(\mathbf{X}\), \(\hat{\mu}_{\lambda}^{\mathrm{R}}=\bar{Y}:=\sum_{i=1}^{n} Y_{i} / n\), immediato ricordarsi che \(\sum_{i=1}^{n} Y_{i}=0\) sostituendo \(Y_{i}\) con \(Y_{i}-\bar{Y}\) così da rimuovere \(\mu\) dalla funzione obiettivo. Le stime Ridge hanno la seguente forma
\[ \hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}=\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T} \mathbf{Y} \] L’aggiunta del termine \(\lambda\) stabilizza l’inversione della \(\mathbf{X}^T\mathbf{X}\). Ricordiamo infatti che quando \(\mathbf{X}\) non ha rango pieno le stime ottenute con il metodo dei minimi quadrati risultano instabili.
A questo punto entra in gioco un importante teorema
. Assumiamo che \(\mathbf{X}\) sia una matrice a rango pieno. Siano \(\boldsymbol{\hat{\beta}}^{\mathrm{OLS}}\) le stime ottenute con il metodo dei minimi quadrati (OLS), \(\boldsymbol{\hat{\beta}}^R\) quelle ottenute con il metodo della Regressione Ridge e \(\boldsymbol{\beta}^0\) sia il vero vettore di parametri. Per \(\lambda\) sufficientemente piccolo,
\[ \mathbb{E}\left(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}-\boldsymbol{\beta}^{0}\right)^{T}-\mathbb{E}\left(\hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}-\boldsymbol{\beta}^{0}\right)^{T} \] è positiva definita.
. Per prima cosa calcoliamo la distorsione di \(\hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}\). Ignoriamo per il momento il subscript \(\lambda\) e il subscript \(R\) per convenienza.
\[ \begin{aligned} \mathbb{E}(\hat{\boldsymbol{\beta}})-\boldsymbol{\beta}^{0} & =\left(\mathbf{X}^{T} X+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T}\mathbf{X} \boldsymbol{\beta}^{0}-\boldsymbol{\beta}^{0} \\ & =\left(\mathbf{X}^{T} X+\lambda \mathbf{I}\right)^{-1}\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}-\lambda \mathbf{I}\right) \boldsymbol{\beta}^{0}-\boldsymbol{\beta}^{0} \\ & =-\lambda\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \boldsymbol{\beta}^{0} . \end{aligned} \]
Ragioniamo ora sulla varianza di \(\hat{ \boldsymbol{\beta}}\).
\[ \begin{aligned} \operatorname{Var}(\hat{\boldsymbol{\beta}}) & =\mathbb{E}\left\{\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T} \boldsymbol{\varepsilon}\right\}\left\{\left(\mathbf{X}^{T} X+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T} \boldsymbol{\varepsilon}\right\}^{T} \\ & =\sigma^{2}\left(\mathbf{X}^{T} X+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T} \mathbf{X}\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} . \end{aligned} \]
Quindi \[ \mathbb{E}\left(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}-\boldsymbol{\beta}^{0}\right)^{T}-\mathbb{E}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)^{T} \]
è uguale ad
\[ \sigma^{2}\left(\mathbf{X}^{T} \mathbf{X}\right)^{-1}-\sigma^{2}\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}^{T} \mathbf{X}\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1}-\lambda^{2}\left(\mathbf{X}^{T} \mathbf{X}+\lambda I\right)^{-1} \boldsymbol{\beta}^{0} \boldsymbol{\beta}^{0^{T}}\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} \]
Dopo alcune semplificazioni abbiamo che
\[ \lambda\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1}\left[\sigma^{2}\left\{2 \mathbf{I}+\lambda\left(\mathbf{X}^{T} \mathbf{X}\right)^{-1}\right\}-\lambda \boldsymbol{\beta}^{0} \boldsymbol{\beta}^{0^{T}}\right]\left(\mathbf{X}^{T} \mathbf{X}+\lambda \mathbf{I}\right)^{-1} . \]
Quindi abbiamo che
\[\mathbb{E}\left(\hat{\boldsymbol{\beta}}^{\text {OLS }}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}^{\text {OLS }}-\boldsymbol{\beta}^{0}\right)^{T}-\mathbb{E}\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)\left(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}^{0}\right)^{T}\]
è positivo definito per \(\lambda>0\) se e solo se
\[ \sigma^{2}\left\{2 \mathbf{I}+\lambda\left(\mathbf{X}^{T} X\right)^{-1}\right\}-\lambda \boldsymbol{\beta}^{0} \boldsymbol{\beta}^{0^{T}} \]
è positivo definito, il quale risulta essere vero per valori di \(\lambda>0\) sufficientemente piccoli (possiamo prendere \(0<\lambda<\left.2 \sigma^{2} /\left\|\boldsymbol{\beta}^{0}\right\|_{2}^{2}\right)\). Il teorema quindi ci assicura che \(\hat{\boldsymbol{\beta}}_{\lambda}^{\mathrm{R}}\) performa meglio di \(\hat{\boldsymbol{\beta}}^{\mathrm{OLS}}\) a patto che \(\lambda\) è scelto in maniera appropriata. Al fine di essere in grado di utilizzare la ridge regression efficientemente, dobbiamo definire un modo per selezionare un ragionevole valore per \(\lambda\) (questo sarà oggetto di ulteriori approfondimenti). Quello che questo teorema non ci dice è quando ci aspettiamo che la Ridge performi bene. Per discutere questo punto bisogna esplorare il legame tra la regressione ridge e la SVD.