Bias-Variance Decomposition

\(Y = f(X) + \epsilon, \;\;E(\epsilon) = 0\;\;and\;\; Var(\epsilon)=\sigma^{2}_{\epsilon}\) 임을 가정하면, input point \(X = x_0\)에서 regression fit \(\hat{f}(X)\)의 expected prediction error는 squared-eror loss를 이용하여 다음과 같이 쓸 수 있다.

\(Err(x_0) \;=\; E[(Y-\hat{f}(x_0))^2|X=x_0]\)

\(\qquad\qquad=\; E[(f(x_0) + \epsilon - \hat{f}(x_0))^2]\)

\(\qquad\qquad=\; E[(f(x_0) - \hat{f}(x_0) -\epsilon)^2]\)

\(\qquad\qquad=\; E[(f(x_0) - \hat{f}(x_0))^2 + \epsilon^2 + 2\epsilon(f(x_0) - \hat{f}(x_0))]\)

\(\qquad\qquad=\; E[(f(x_0) - \hat{f}(x_0))^2] + E[\epsilon^2] + 2E[\epsilon](f(x_0) - \hat{f}(x_0))]\)

\(\qquad\qquad\quad\;\,E[\epsilon^2] = Var(\epsilon^2) = \sigma^2,\;\; E[\epsilon]=0\) 이므로

\(\qquad\qquad=\; E[(f(x_0) - \hat{f}(x_0))^2] + \sigma^2\)

\(\qquad\qquad=\; E[( f(x_0) - E[\hat{f}(x_0)] + E[\hat{f}(x_0)] - \hat{f}(x_0) )^2] + \sigma^2\)

\(\qquad\qquad=\; E[( f(x_0) - E[\hat{f}(x_0) )^2 + ( E[\hat{f}(x_0)] - \hat{f}(x_0) )^2 + 2(f(x_0) - E[\hat{f}(x_0))(E[\hat{f}(x_0)] - \hat{f}(x_0))] + \sigma^2\)

\(\qquad\qquad=\; E[( f(x_0) - E[\hat{f}(x_0) )^2] + E[( E[\hat{f}(x_0)] - \hat{f}(x_0) )^2] + 2E[(f(x_0) - E[\hat{f}(x_0))(E[\hat{f}(x_0)] - \hat{f}(x_0))] + \sigma^2\)

\(\qquad\qquad=\; E[( f(x_0) - E[\hat{f}(x_0) )^2] + E[( E[\hat{f}(x_0)] - \hat{f}(x_0) )^2] + \sigma^2\), 교차항은 0이므로

첫 번째 항은 true \(f\)와 expected predict value의 차이 이므로 bias라 간주 할 수 있다.

두 번째 항은 predict value와 expected predict value의 제곱합의 기대값이므로 variance라 간주 할 수 있다.

세 번째 항은 error항의 분산으로 더 이상 줄일 수 없는 noise라 할 수 있다.

따라서

\(\qquad\qquad=\; Bias^2(\hat{f}(x_0)) + Var(\hat{f}(x_0)) + \sigma^2\)

\(\qquad\qquad=\; Bias^2 + Variance + Irreducible\;Error\)


Linear Model의 Bias Decomposition

그런데 ridge와 같은 linear model family에서는 bias를 더 잘게 쪼갤 수 있다.

input variable 값 X에 대하여 기대값을 다음과 같이 쓸 수 있다.

best-fitting linear 함수의 추정치가 \(\beta_* = argmin_{\beta}E[(f(X) - X^T\beta)^2]\) 라 하면 bias의 제곱의 기대값을 다음과 같이 쓸 수 있다.

\(E_{x_0}[f(x_0)-E[\hat{f_\alpha}(x_0)]]^2 = E_{x_0}[f(x_0) - x^T_0\beta_*]^2 + E_{x_0}[x^T_0\beta_* - E[x^T_0\hat{\beta_\alpha}]]^2 + 2E_{x_0}[ (f(x_0) - x^T_0\beta_*]^2) (x^T_0\beta_* - E[x^T_0\hat{\beta_\alpha}]) ]\)

여기서 교차항은

\(E_{x_0}[ (f(x_0) - x^T_0\beta_*]^2) (x^T_0\beta_* - E[x^T_0\hat{\beta_\alpha}]) ] = E_{x_0}[ (f(x_0) - x^T_0\beta_*)x^T_0\beta_*] - E_{x_0}[ (f(x_0) - x^T_0\beta_*E[\hat{f}_\alpha(x_0)]) ]\)

편의상 \(x_0\)\(x\)로 치환하면 다시 쓰면 첫 번째 항은

\(E[ (f(x) - x^T\beta_*)x^T\beta_*] = E[f(x)x^T\beta_*] - E[(x^T\beta_*)^2]\)

\(\qquad\qquad\qquad\qquad\quad\;\;\, = E[f(x)x^T\beta_*] - (Var[x^T\beta_*] + (E[x^T\beta_*])^2)\)

\(\qquad\qquad\qquad\qquad\quad\;\;\, = E[f(x)x^T\beta_*] - (\beta^T_*Var[x]\beta_* + (\beta^T_*E[x])^2)\)

\(\qquad\qquad\qquad\qquad\quad\;\;\, = E[f(x)x^T\beta_*] - (\beta^T_*(E[xx^T]-E[x]E[x]^T)\beta_*) + (B^T_*E[x])^2\) 이고 이를 정리하면

\(\qquad\qquad\qquad\qquad\quad\;\;\, = 0\)

두 번째 항은

\(E[(f(x) - x^T\beta_*)E[\hat{f_\alpha(x)}]] = E[(f(x) - x^T\beta_*)E[x^T\hat{\beta_\alpha}]]\)

\(\qquad\qquad\qquad\qquad\qquad\quad\; = E[E[\hat{\beta_\alpha^T}]x(f(x) - x^T\beta_*)]\)

\(\qquad\qquad\qquad\qquad\qquad\quad\; = E[\hat{\beta_\alpha^T}]E[xf(x) - xx^T\beta_*]\) 이고 이를 정리하면

\(\qquad\qquad\qquad\qquad\qquad\quad\; = 0\)

따라서

\(E_{x_0}[f(x_0)-E[\hat{f_\alpha}(x_0)]]^2 = E_{x_0}[f(x_0) - x^T_0\beta_*]^2 + E_{x_0}[x^T_0\beta_* - E[x^T_0\hat{\beta_\alpha}]]^2\) 이 성립함을 알 수 있다.

여기서 우변의 첫 번째 항은 best-fitting과 true function의 차이로 model bias를 뜻한다.

두 번째 항은 평균 estimate \(E(x^T_0\hat{\beta})\)와 best-fitting과의 차이로 estimation bias를 뜻한다.

따라서 우변은 \(Average[Model\;Bias]^2 + Average[Estimation\;Bias]^2\)으로 쓸 수 있다.

OLS의 경우 \(X\)가 고정이고 \(E(\epsilon)=0\) 이면 회귀계수가 불편성(unbiasedness)을 만족하므로 estimation bias는 0이다. OLS가 bias가 큰 모형이라고 할 때는 model의 bias를 뜻한다. OLS가 unbiased 추정량을 가진다 할 때는 estimation의 bias를 뜻한다.

ridge와 같은 제약조건의 있는 fitting의 경우, 불편성이 만족하지 않으므로 estimation bias는 양수이고 trade-off 관계로 인해 분산을 줄이는 효과를 얻을 수 있었다. 일반적으로 선형관계를 가지는 \(x, y\)에서 least squares 추정량은 bias가 낮고 variance는 높다. 특히 변수의 개수가 표본의 크기만큼 크다면 추정량의 변동은 아주 클 수 있고, 변수의 개수가 더 많으면 유일한 해를 가지지 않는다. 반면 ridge regression은 estimation bias를 약간 희생하여 추정량의 분산을 크게 줄일 수 있다.

model bias는 오직 변수 변환이나 교호작용 추가등 더 다채로운 모형으로 확장해야만 줄일 수 있다.

references

Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Vol. 1. No. 10. New York: Springer series in statistics, 2001 Chapter 7.

https://stats.stackexchange.com/questions/201779/decomposition-of-average-squared-bias-in-elements-of-statistical-learning