Watanabe本
の Remark 7.4 (2) (p.222) を証明してみる。
Fisher情報行列 \(I(w) = I_{ij}(w)\) を次で定義する。
\[ I_{ij}(w) = \int \frac{\partial f(x,w)}{\partial w_i} \frac{\partial f(x,w)}{\partial w_j} p(x|w) dx \]
ただし \(f(x,w)\) は対数密度比関数
\[ f(x,w) = \log(q(x)/ p(x|w)) \]
である。
\(W\) 上の Jeffreys事前分布とは、次で定義される \(\mathbb{R}^d\) 上の確率密度関数 \(\varphi(w)\) のことをいう1。
\[ \varphi(w) = \begin{cases} \frac{1}{Z} \sqrt{\det I(w)} & (w \in W) \\ 0 & \textrm{otherwise} \end{cases} \]
Jeffreys事前分布は coordinate-free である。すなわち、\(\varphi(w) dw\) が座標変換に影響を受けない。
\(g: W \rightarrow U\) を座標変換とする。ただし、\(U \subset \mathbb{R}^d\) と \(W \subset \mathbb{R}^d\) は開集合とする。
このとき、\(p(x|g(u))\) に対するFisher情報行列は次で与えられる。
\[ I_{ij}(u) = \int \frac{\partial}{\partial u_i} f(x, g(u)) \frac{\partial}{\partial u_j} f(x, g(u)) p(x|g(u)) dx \]
これを \(I_{ij}(w)\) を用いて表したいのだが、まずは偏微分の片方だけ変数変換を行う。
\[ I_{ij}(u) = \sum_k \frac{\partial w_k}{\partial u_i} \int \frac{\partial f}{\partial w_k} \frac{\partial f}{\partial u_j} p(x|w) dx \]
ここで
\[ \begin{align} A_{ik} &= \frac{\partial w_k}{\partial u_i} \\ B_{kj} &= \int \frac{\partial f}{\partial w_k} \frac{\partial f}{\partial u_j} p(x|w) dx \end{align} \]
とおくと
\[ \begin{aligned} I(u) &= \left( \begin{array}{ccc} \sum_k A_{1k} B_{k1} & \dots & \sum_k A_{1k} B_{kd} \\ \vdots & \ddots & \vdots \\ \sum_k A_{dk} B_{k1} & \dots & \sum_k A_{dk} B_{kd} \\ \end{array} \right) \\ &= \left( \begin{array}{ccc} A_{11} & \dots & A_{1d} \\ \vdots & \ddots & \vdots \\ A_{d1} & \dots & A_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} B_{11} & \dots & B_{1d} \\ \vdots & \ddots & \vdots \\ B_{d1} & \dots & B_{dd} \\ \end{array} \right) \end{aligned} \]
となる。さらにもう一方の偏微分に対して変数変換を行うと
\[ \begin{aligned} B_{kj} &= \int \frac{\partial f}{\partial w_k} \frac{\partial f}{\partial u_j} p(x|w) dx \\ &= \sum_l \frac{\partial w_l}{\partial u_j} \int \frac{\partial f}{\partial w_k} \frac{\partial f}{\partial w_l} p(x|w) dx \end{aligned} \]
であり、同様に
\[ \begin{align} C_{jl} &= \frac{\partial w_l}{\partial u_j}\\ D_{lk} &= \int \frac{\partial f}{\partial w_l} \frac{\partial f}{\partial w_k} p(x|w) dx \end{align} \]
とおくと
\[ \begin{aligned} I(u) &= \left( \begin{array}{ccc} A_{11} & \dots & A_{1d} \\ \vdots & \ddots & \vdots \\ A_{d1} & \dots & A_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} B_{11} & \dots & B_{1d} \\ \vdots & \ddots & \vdots \\ B_{d1} & \dots & B_{dd} \\ \end{array} \right) \\ &= \left( \begin{array}{ccc} A_{11} & \dots & A_{1d} \\ \vdots & \ddots & \vdots \\ A_{d1} & \dots & A_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} C_{11} & \dots & C_{1d} \\ \vdots & \ddots & \vdots \\ C_{d1} & \dots & C_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} D_{11} & \dots & D_{1d} \\ \vdots & \ddots & \vdots \\ D_{d1} & \dots & D_{dd} \\ \end{array} \right) \\ \end{aligned} \]
となる。ここで
\[ \begin{align} C_{jl} &= A_{jl}\\ D_{lk} &= I_{lk}(w) \end{align} \]
であるので、
\[ \begin{aligned} I(u) &= \left( \begin{array}{ccc} A_{11} & \dots & A_{1d} \\ \vdots & \ddots & \vdots \\ A_{d1} & \dots & A_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} A_{11} & \dots & A_{1d} \\ \vdots & \ddots & \vdots \\ A_{d1} & \dots & A_{dd} \\ \end{array} \right) \left( \begin{array}{ccc} I_{11}(w) & \dots & I_{1d}(w) \\ \vdots & \ddots & \vdots \\ I_{d1}(w) & \dots & I_{dd}(w) \\ \end{array} \right) \\ &= \left( \begin{array}{ccc} \frac{\partial w_1}{\partial u_1} & \dots & \frac{\partial w_d}{\partial u_1} \\ \vdots & \ddots & \vdots \\ \frac{\partial w_1}{\partial u_d} & \dots & \frac{\partial w_d}{\partial u_d} \\ \end{array} \right) ^2 I(w) \\ \end{aligned} \]
が得られる。ヤコビ行列を \(J(u)\) で表すと
\[ I(u) = J(u) ^ 2 I(w) \]
となる。ヤコビ行列式を
\[ |g'(u)| = \det J(u) \]
と表す。\(\det AB = \det A \det B\) より
\[ \begin{align} \det I(u) &= \det J(u)^2 I(w)\\ &= |g'(u)|^2 \det I(w) \\ \end{align} \]
したがって
\[ \det I(w) = \frac{\det I(u)}{|g'(u)|^2} \]
が得られる。
いま、\(\sqrt{\det I(w)}\) と \(\sqrt{\det I(u)}\) を Jeffreys事前分布とすると、
\[ \begin{align} \frac{1}{Z} \sqrt{\det I(w)} dw &= \frac{1}{Z} \sqrt{\frac{\det I(u)}{| g'(u) |^2}} | g'(u) | du \\ &= \frac{1}{Z} \sqrt{\det I(u)} du \end{align} \]
が成り立つ。したがって、Jeffreys事前分布は coordinate-free である(証明終)
\(W\) はコンパクトであるが、\(\varphi(w)\) は開集合上で定義される必要がある。↩