Watanabe本
の例 7.1 (p.225) を実際に計算してみる。
具体的な学習モデルに対して学習係数 \(\lambda\) と位数 \(m\) を計算してみる。
\(\mathcal{N}\) を標準正規分布に従う確率変数とする。
\(X\) の確率分布 \(q(x)\) はコンパクトサポートを持つとする。
次の統計モデルを考える
\[ Y = a\sigma(bX) + c\sigma(dX) + \mathcal{N} \]
これは入力層1ユニット、隠れ層2ユニット、出力層1ユニットのニューラルネットワークである。
\(\sigma(x) = e^{x} - 1\) とする。
\(Y\) の真の分布を
\[ Y = 0 + \mathcal{N} \]
とする。
事前分布 \(\varphi(w)\) はコンパクトサポートを持ち、\(\varphi(0) > 0\) とする。
上記の条件において、真の分布 \(q(x)\) と学習モデル \(p(x|w)\) は
\[ \begin{align} q(x) &= \mathrm{Normal}(0, 1) \\ &= \frac{1}{\sqrt{2\pi}} \exp\big(-\frac{x^2}{2}\big)\\ p(x|w) &= \mathrm{Normal}(a\sigma(bx) + c\sigma(dx), 1) \\ &= \frac{1}{\sqrt{2\pi}} \exp\big(-\frac{(x - (a\sigma(bx) + c\sigma(dx)))^2}{2}\big)\\ \end{align} \]
と表されるため、カルバック・ライブラ距離 \(K(w)\) は
\[ \begin{align} K(w) &= \int q(x) \log \frac{q(x)}{p(x|w)} dx \\ &= \int q(x)\log \frac{\frac{1}{\sqrt{2\pi}} \exp(-\frac{x^2}{2})}{\frac{1}{\sqrt{2\pi}} \exp\big(-\frac{(x - (a\sigma(bx) + c\sigma(dx)))^2}{2}\big)} dx\\ &= \int q(x)\log \frac{\exp(-\frac{x^2}{2})}{\exp\big(-\frac{x^2 + (a\sigma(bx) + c\sigma(dx))^2}{2}\big)} dx \\ &= \int q(x)\log \exp\big(-\frac{x^2}{2} + \frac{x^2 + (a\sigma(bx) + c\sigma(dx))^2}{2} \big) dx \\ &= \int q(x) \big(\frac{(a\sigma(bx) + c\sigma(dx))^2}{2} \big) dx \\ &= \frac{1}{2} \int (a\sigma(bx) + c\sigma(dx))^2 q(x) dx \\ \end{align} \]
となる。
したがって、\(K(w) = 0\) となるための必要十分条件は \(a\sigma(bx) + c\sigma(dx) = 0\) である。
これを \(f(x, w)\) とおいて \(e^x\) のマクローリン展開
\[ e^x = \sum_{k=0}^\infty \frac{x^k}{k!} = 1 + \sum_{k=1}^\infty \frac{x^k}{k!} \]
を用いると、
\[ \begin{align} f(x, w) &= a\sigma(bx) + c\sigma(dx) \\ &= a(e^{bx}-1) + c(e^{dx} -1) \\ &= a \big(1 + \sum_{k=1}^\infty \frac{(bx)^k}{k!}-1\big) + c \big(1 +\sum_{k=1}^\infty \frac{(dx)^k}{k!}-1\big) \\ &= \sum_{k=1}^\infty \frac{ab^kx^k}{k!} + \sum_{k=1}^\infty \frac{cd^kx^k}{k!} \\ &= \sum_{k=1}^\infty \frac{x^k}{k!} (ab^k + cd^k) \\ \end{align} \]
となる。
したがって、\(f(x,w)=0\) となる十分条件は全ての \(k \geq 1\) に対して
\[ ab^k + cd^k = 0 \]
が成り立つことである。また、\(x^k\) は線形独立な関数のため、これは必要条件でもある。
ここまでを整理すると
\[ \begin{align} K(w) = 0\ &\Leftrightarrow\ f(x,w) = 0\\ &\Leftrightarrow\ \forall k\geq1,\ ab^k + cd^k = 0 \end{align} \]
であることがわかった。
ここで、\(p_k = ab^k + cd^k\) とおく。
例3.2 (p.80) において、ヒルベルトの基底定理より、多項式が次の形
\[ p_n(a_i, b_i) = \sum_{i=1}^d a_ib_i^n \]
ならば任意の自然数 \(n\) に対してイデアル
\[ p_n \in \langle p_1, \cdots, p_d \rangle \]
に含まれることを示した。
これより、
\[ p_k = \sum_{i=1}^2 a_i b_i ^k \]
の形をしているため、任意の自然数 \(k\) に対して
\[ p_k \in \langle p_1, p_2 \rangle \]
が成り立つ。
すなわち、任意の \(k \geq 3\) に対して \(p_k\) は \(p_1\) と \(p_2\) の線形結合で表すことができる。
したがって、
\[ \forall k\geq1,\ p_k = 0 \ \Leftrightarrow \ p_1 = 0\ かつ\ p_2 = 0 \]
となる。
以上より、
\[ \begin{align} K(w) = 0 \ &\Leftrightarrow \ ab + cd = 0\ かつ\ ab^2 + cd^2 = 0 \\ &\Leftrightarrow \ (ab + cd)^2 + (ab^2 + cd^2)^2 = 0 \end{align} \]
が成り立つ。
ここで、
\[ f(a,b,c,d) = (ab + cd)^2 + (ab^2 + cd^2)^2 \]
とおく。
例3.19 (p.102) より、この多項式の特異点を解消する写像 \(w = g(u)\) は
\[ \begin{align} a &= a \\ b &= b_1 d \\ c &= a(b_1 - 1)b_1 c_5 d - a b_1 \\ d &= d \\ \end{align} \]
で与えられる。ただし \(u = (a, b_1, c_5, d)\) である。
したがって1、
\[ \begin{align} p_1 &= ab + cd \\ &= ab_1 d + (a(b_1-1)b_1 c_5 d - ab_1)d \\ &= ab_1(b_1-1)c_5 d^2 \\ p_2 &= ab^2 + cd^2 \\ &= a(b_1d)^2 + (a(b_1 - 1)b_1 c_5 d - ab_1)d^2 \\ &= ab_1(b_1 + (b_1 - 1) c_5 d - 1)d^2 \\ &= ab_1(b_1 - 1)(1 + c_5 d)d^2 \\ p_k &= ab^k + cd^k \\ &= ab_1^k d^k + (a(b_1-1)b_1 c_5 d - ab_1)d^k \\ &= ab_1(b_1^{k-1} + (b_1 - 1)c_5 d -1)d^k \\ &= ab_1((b_1^{k-1}-1) + (b_1 - 1)c_5 d)d^k \\ &= ab_1(b_1 - 1)(b_1^{k-2}+b_1^{k-3} + \cdots + 1 + c_5d)d^k \end{align} \]
ゆえに、
\[ \begin{align} f(x, g(u)) &= \sum_{k=1}^\infty \frac{x^k}{k!} p_k \\ &= ab_1(b_1-1)d^2 \ a(x,u) \end{align} \]
ただし
\[ \begin{align} a(x, u) &= \frac{x}{1!}c_5 + \frac{x^2}{2!} (1+c_5d) + \sum_{k=3}^\infty \frac{x^k}{k!} (b_1^{k-2} + b_1^{k-3} + \cdots + 1 + c_5d) d^{k-2} \\ &= c_5x + \frac{1}{2}(1+c_5d)x^2 + \sum_{k=3}^\infty \frac{x^k}{k!} (b_1^{k-2} + b_1^{k-3} + \cdots + 1 + c_5d) d^{k-2} \\ \end{align} \]
特に、\(a(x, 0) \neq 0\) であることから、定義2.8 (p.66) より原点で Normal Crossing である。
以上より、
\[ \begin{align} K(g(u)) &= \frac{1}{2}\int f(x, g(u))^2 q(x) dx \\ &= \frac{1}{2}\int (ab_1(b_1-1)d^2 \ a(x,u))^2 q(x) dx \\ &= \frac{a^2 b_1^2 (b_1 -1)^2 d^4 }{2}\int a(x,u)^2 q(x) dx \\ \end{align} \]
定理6.3 (p.167) より
\[ \begin{align} \int a(x, u)^2 q(x) dx &= E_X[a(x, u)^2] \\ &= 2 \end{align} \]
であるので、結局
\[ K(g(u)) = a^2 b_1^2 (b_1 -1)^2 d^4 \\ \]
となる。
変数変換 \(w = g(u)\) のヤコビ行列式は
\[ \begin{align} |g'| &= \left| \begin{array}{cccc} 1 & 0 & 0 & 0 \\ 0 & d & 0 & b_1 \\ A & B & C & D \\ 0 & 0 & 0 & 1 \\ \end{array} \right| = \left| \begin{array}{ccc} d & 0 & b_1 \\ B & C & D \\ 0 & 0 & 1 \\ \end{array} \right| = \left| \begin{array}{cc} d & 0\\ B & C\\ \end{array} \right| = \left|dC\right| \\ &= \left| d \ \frac{\partial (a(b_1 - 1)b_1 c_5 d -ab_1)}{\partial c_5} \right| \\ &= \left|d \ a(b_1-1)b_1 d\right| \\ &= \left|a(b_1-1)b_1 d^2\right| \end{align} \]
であるので、ゼータ関数は
\[ \begin{align} \zeta(z) &= \int K(w)^z \varphi(w) dw \\ &= \int K(g(u))^z \varphi(g(u)) \left|g'\right| du \\ &= \int \Big(a^2 b_1^2 (b_1 -1)^2 d^4\Big)^z \varphi(g(u)) \left|a(b_1-1)b_1 d^2\right| du \\ &= \int \Big(a^2 b_1^2 (b_1 -1)^2 d^4\Big)^z \left|a(b_1-1)b_1 d^2\right| \varphi(g(u)) \ da \ db_1 \ dc_5 \ dd \\ \end{align} \]
定理6.5 (p.170)より
\[ \begin{align} k_1 &= k_2 = k_3 = 1 \\ k_4 &= 2 \\ h_1 &= h_2 = h_3 = 1 \\ h_4 &= 2 \\ \end{align} \]
であるので、
\[ \lambda_i = \frac{h_i + 1}{2k_i} \]
より
\[ \begin{align} \lambda_1 &= \lambda_2 = \lambda_3 = \frac{1 + 1}{2} = 1 \\ \lambda_4 &= \frac{2 + 1}{4} = \frac{3}{4} \end{align} \]
最大の極は \(-\lambda_4 = -3/4\) であり、その位数は \(m = 1\) である。
以上より、学習係数は \(\lambda = 3/4\) である。
確率的複雑さ \(F_n\) の漸近挙動は
\[ \begin{align} F_n &= \lambda \log n - (m - 1) \log \log n + 確率変数 \\ &= \frac{3}{4} \log n + 確率変数 \\ \end{align} \]
汎化誤差の漸近挙動は
\[ \begin{align} E[B_g] &= \frac{\lambda}{n} + o(\frac{1}{n}) \\ &= \frac{3}{4n} + o(\frac{1}{n}) \end{align} \]
となる。
導出された式にはいくつか原書と異なる箇所があるので注意。↩