\( t \), \( T^2 \), \( F \) distribution

\( t \)分布、\( Hotelling's \, T^2 \) 分布 と \( F \)分布

同志社大学文化情報学部 定量的データ分析演習 参考資料

2014-04-28

確率分布の関係について、正確に考察する。

\( t \)分布 と \( F \)分布

\( t \)分布は次の確率分布に従う。後に変数変換によって示すことがあるので。 微分形式によって与える。本来確率分布は微分形式で与えるべきものである。 確率分布関数のみを見ていると誤りを生じる。分布関数は、積分した 値が1であることが重要です。積分するには、微分形式によって考察する 必要がある。

\[ f_\nu(t)dt = \frac{1}{\sqrt{\nu} B(1/2, \nu/2)}(1+\frac{t^2}{\nu})^{-\frac{\nu+1}{2}} dt , \, -\infty < t < \infty . \]

一方、\( F \)分布の確率分布は次の通りである。

\[ f(x;d_1,d_2)dx =\frac{1}{x B(d_1/2, d_2/2)} \sqrt{\frac{(x/d_2)^{d_1}}{{d_1^{d_2}(x/d_2+1/d_1)^{d_1+d_2} }}} dx , \, 0 < x < \infty . \]

ここで変数変換 \( t^2 = x \) を行う。微分形式は \( 2t dt= dx \)、即ち \( dt = \frac{1}{2 \sqrt{x}} dx \)と変換される。従って、

\[ f_\nu(\sqrt{x})\frac{dx}{2\sqrt{x}}= \frac{1}{\sqrt{\nu} B(1/2, \nu/2)}(1+\frac{x}{\nu})^{-\frac{\nu+1}{2}} \frac{dx}{2\sqrt{x}}= \frac{1}{2} f(x;1,\nu) dx \]

最右辺の因子\( \frac{1}{2} \)は積分区間の1対1対応のためには、\( t \)分布の側で \( 0 < t < \infty \)で考察せねばならず、つまり \( 2 f_\nu(t)dt \)から出発せねばならないことから生じたものである。従って確率分布として

\[ t(\nu)^2 \sim F(1, \nu) \]

であることが示せた。
例えば、単回帰分析において係数の \( t(n-1) \)検定による\( p \)値と、モデルの\( F(1,n-1) \)検定による\( p \)値が一致していることは、この分布の同値性から来ている。

\( t \)分布の拡張としての \( T^2 \)分布

定義

\( t \)分布は、正規分布かつ等分散の2つの母集団からのランダム標本について 母平均が等しいという帰無仮説の検定を行うのが著名な例である。
これの多変数版として、多変量正規分布かつ等分散共分散行列の2つの 母集団からのランダム標本について、母平均ベクトルが等しいという 帰無仮説の検定に使われる検定量として、\( Hotelling' T^2 \) がある。
形式的定義は次の通り。p次元ベクトルdを、平均0,共分散行列が恒等行列 であるp次元正規分布に従うとする。さらにMは自由度m, 単位行列をscale matrixとするWishart分布に従うとする。このとき、\( m t(d)Md \) は p次元 m自由度の \( Hotelling's \,T^2 \) 分布に従うと呼ぶ。\( Hotelling's \, T^2 \)分布に従うランダム変数を\( T^2_{p,m}, \, T^2(p,m) \) で表す。
このとき、T分布はF分布により表現される。即ち

\[ X \sim T^2_{p,m} \,\, \Rightarrow \,\, \frac{m-p+1}{pm} X \sim F_{p, m-p+1} \]

標本平均の挙動

\( x_1,...,x_n \) を\( p \)次元多変量正規分布 \( N_p(\mu, \Sigma),\, 平均:\mu, \, 分散:\Sigma \) に従う独立な確率変数とする。 平均を \( \bar x = \frac{x_1+...+x_n}{n} \) とし、サンプル分散を \[ W = \frac{1}{n-1} \sum^n_{i=1} (\bar x - x_i)\, t(\bar x - x_i) \] と置けば、\( (n-1)W \) は\( p \)変数、自由度 \( n-1 \) のWishert分布に従う。 このとき、\( Hotelling's T^2 \) 統計量 \( t^2 \)は次のように定義される。 \[ t^2 = n \, t(\bar x - \mu) W^{-1} (\bar x - \mu) \] \[ t^2 \sim T^2_{p,n-1},\, i.e., \, \frac{n-p}{p(n-1)}t^2 \sim F_{p,n-p} . \]

2標本の平均の差の検定

同じく、等分散の多変量正規分布 \( N_p(\mu_x, \Sigma) \) と \( N_p(\mu_y, \Sigma) \) からの独立な確率変数 \( x_1,...,x_{n_x} \)と\( y_1,...,y_{n_y} \) があるとする。平均を\( \bar x , \bar y \)とする。プールした不偏分散を \[ W=\frac{\sum^{n_x}_{i=1} (x_i - \bar x) \, t(x_i - \bar x) + \sum^{n_y}_{i=1}(y_i - \bar y) \, t(y_i - \bar y) }{n_x + n_y -2} \] とする。このとき \( Hotelling's T^2 \)統計量を \[ t^2=\frac{n_x n_y}{n_x+n_y} \, t(\bar x - \bar y)W^{-1}(\bar x - \bar y) \] で定義すれば、帰無仮説 \( \mu_x = \mu_y \)のもとで \[ t^2 \sim T^2(p, n_x+n_y-2) \] となる。従って、 \[ \frac{n_x+n_y-p-1}{p(n_x+n_y-2)} t^2 \sim F(p, n_x+n_y-p-1) \] である。これを用いて検定を行う。