第17回 2標本問題(10.5)
- 2 つの独立な標本を用いて 2 つの母集団を比較する問題を 2 標本問題という.
- \mathrm{N}\left(\mu_X,\sigma_X^2\right),\mathrm{N}\left(\mu_Y,\sigma_Y^2\right) から独立に抽出した無作為標本(X_1,\dots,X_m),(Y_1,\dots,Y_n) の標本平均の差 \bar{X}-\bar{Y},標本分散の比 s_X^2/s_Y^2 の分布を求める.
- \bar{X}-\bar{Y} の分布は \sigma_X^2=\sigma_Y^2=\sigma^2 なら \left[\bar{X}-\bar{Y}-(\mu_X-\mu_Y)\right]/\sqrt{s^2(1/m+1/n)} \sim \mathrm{t}(m+n-2). ただし s^2 はプールした標本分散. \sigma_X^2 \ne \sigma_Y^2 なら厳密な分布は求まらない.
- U \sim \chi^2(m) と V \sim \chi^2(n) が独立のとき,(U/m)/(V/n) \sim \mathrm{F}(m,n).
- s_X^2/s_Y^2 の分布は \left(s_X^2/s_Y^2\right)/\left(\sigma_X^2/\sigma_Y^2\right) \sim \mathrm{F}(m-1,n-1).
1 2標本問題(p. 204)
母集団分布 \mathrm{N}\left(\mu_X,\sigma_X^2\right), \mathrm{N}\left(\mu_Y,\sigma_Y^2\right) から独立に抽出した無作為標本を (X_1,\dots,X_m),(Y_1,\dots,Y_n) とする. \mu_X と \mu_Y の比較なら標本平均の差 \bar{X}-\bar{Y}, \sigma_X^2 と \sigma_Y^2 の比較なら標本分散の比 s_X^2/s_Y^2 を用いる. ただし標本分布を考慮する必要がある.
定義 1 2 つの独立な標本を用いて 2 つの母集団を比較する問題を 2 標本問題という.
注釈. 対標本は 2 変量の 1 標本として扱う.
例 1 男女別の成績の分布の比較.
2 標本平均の差
2.1 母分散が既知の場合(p. 205)
母集団分布を \mathrm{N}\left(\mu_X,\sigma_X^2\right),\mathrm{N}\left(\mu_Y,\sigma_Y^2\right)とする.\mu_X と \mu_Y を比較したい. 各母集団から独立に抽出した無作為標本を (X_1,\dots,X_m),(Y_1,\dots,Y_n), 標本平均を \bar{X},\bar{Y} とする.
定理 1 \bar{X}-\bar{Y} \sim \mathrm{N}\left(\mu_X-\mu_Y,\frac{\sigma_X^2}{m}+\frac{\sigma_Y^2}{n}\right)
証明. 標本平均の分布は \begin{align*} \bar{X} & \sim \mathrm{N}\left(\mu_X,\frac{\sigma_X^2}{m}\right) \\ \bar{Y} & \sim \mathrm{N}\left(\mu_Y,\frac{\sigma_Y^2}{n}\right) \end{align*} \bar{X} と \bar{Y} は独立だから \bar{X}-\bar{Y} \sim \mathrm{N}\left(\mu_X-\mu_Y,\frac{\sigma_X^2}{m}+\frac{\sigma_Y^2}{n}\right)
系 1 \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}} \sim \mathrm{N}(0,1)
注釈. \bar{X}-\bar{Y} の累積確率は標準正規分布表から次のように求める. \begin{align*} \Pr\left[\bar{X}-\bar{Y} \le c\right] & =\Pr\left[ \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}} \le \frac{c-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}} \right] \\ & =\Phi\left(\frac{c-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}}\right) \end{align*}
注釈. \mu_X=\mu_Y なら \frac{\bar{X}-\bar{Y}}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}} \sim \mathrm{N}(0,1)
例 2 (p. 205) 男子と女子の身長の母集団分布を,それぞれ \mathrm{N}(172.3,30),\mathrm{N}(160.2,25) とする. 独立に抽出した男子 10 人,女子 15 人の無作為標本の標本平均をそれぞれ \bar{X},\bar{Y} とすると \begin{align*} \bar{X} & \sim \mathrm{N}\left(172.3,\frac{30}{10}\right) \\ \bar{Y} & \sim \mathrm{N}\left(160.2,\frac{25}{15}\right) \end{align*} \bar{X} と \bar{Y} は独立だから \bar{X}-\bar{Y} \sim \mathrm{N}\left(12.1,\frac{14}{3}\right) 標準化すると \frac{\bar{X}-\bar{Y}-12.1}{\sqrt{14/3}} \sim \mathrm{N}(0,1)
2.2 母分散が未知で等しい場合(p. 205)
\sigma_X^2=\sigma_Y^2=\sigma^2 とすると \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma^2(1/m+1/n)}} \sim \mathrm{N}(0,1)
定義 2 (X_1,\dots,X_m) と (Y_1,\dots,Y_n) をプールした標本分散は s^2:=\frac{1}{m+n-2}\left[ \sum_{i=1}^m\left(X_i-\bar{X}\right)^2+\sum_{j=1}^n\left(Y_j-\bar{Y}\right)^2 \right]
補題 1 X \sim \chi^2(m) と Y \sim \chi^2(n) が独立なら X+Y \sim \chi^2(m+n)
証明. Z_1,\dots,Z_{m+n} \sim \mathrm{N}(0,1) を独立とすると,\chi^2 分布の定義より \begin{align*} X & :=Z_1^2+\dots+Z_m^2 \\ Y & :=Z_{m+1}^2+\dots+Z_{m+n}^2 \end{align*} したがって X+Y=Z_1^2+\dots+Z_{m+n}^2 \chi^2 分布の定義より X+Y \sim \chi^2(m+n).
定理 2 \frac{(m+n-2)s^2}{\sigma^2} \sim \chi^2(m+n-2)
証明. 標本分散を s_X^2,s_Y^2 とすると \begin{align*} \frac{(m-1)s_X^2}{\sigma_X^2} & \sim \chi^2(m-1) \\ \frac{(n-1)s_Y^2}{\sigma_Y^2} & \sim \chi^2(n-1) \end{align*} ただし \sigma_X^2=\sigma_Y^2=\sigma^2. 両者は独立なので,前補題より \begin{align*} \frac{(m+n-2)s^2}{\sigma^2} & =\frac{\sum_{i=1}^m\left(X_i-\bar{X}\right)^2}{\sigma^2} +\frac{\sum_{j=1}^n\left(Y_j-\bar{Y}\right)^2}{\sigma^2} \\ & =\frac{(m-1)s_X^2}{\sigma^2}+\frac{(n-1)s_Y^2}{\sigma^2} \\ & \sim \chi^2(m+n-2) \end{align*}
定理 3 \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}} \sim \mathrm{t}(m+n-2)
証明. 式変形すると \begin{align*} \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}} & =\frac{\left[\bar{X}-\bar{Y}-(\mu_X-\mu_Y)\right]/\sqrt{\sigma^2(1/m+1/n)}} {\sqrt{s^2/\sigma^2}} \\ & =\frac{\left[\bar{X}-\bar{Y}-(\mu_X-\mu_Y)\right]/\sqrt{\sigma^2(1/m+1/n)}} {\sqrt{[(m+n-2)s^2/\sigma^2]/(m+n-2)}} \end{align*} ここで \begin{align*} \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma^2(1/m+1/n)}} & \sim \mathrm{N}(0,1) \\ \frac{(m+n-2)s^2}{\sigma^2} & \sim \chi^2(m+n-2) \end{align*} 分子と分母の独立性も証明できる(省略).
注釈. \bar{X}-\bar{Y} の累積確率は t 分布表から次のように求める. \begin{align*} \Pr\left[\bar{X}-\bar{Y} \le c\right] & =\Pr\left[ \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}} \le \frac{c-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}} \right] \\ & =\Pr\left[\mathrm{t}(m+n-2) \le \frac{c-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}}\right] \end{align*}
注釈. \mu_X=\mu_Y なら \frac{\bar{X}-\bar{Y}}{\sqrt{s^2(1/m+1/n)}} \sim \mathrm{t}(m+n-2)
2.3 母分散が未知で異なる場合(p. 206)
\sigma_X^2 \ne \sigma_Y^2 だと \sigma_X^2,\sigma_Y^2 に分布が依存しない統計量を作れない. ただし大数の法則と中心極限定理より \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s_X^2/m+s_Y^2/n}} \stackrel{a}{\sim}\mathrm{N}(0,1) もっとよい近似もある(ウェルチの近似).
3 標本分散の比
3.1 F 分布(p. 207)
定義 3 U \sim \chi^2(m) と V \sim \chi^2(n) が独立のとき, (U/m)/(V/n) の分布を自由度 (m,n) の F 分布という.
注釈. \mathrm{F}(m,n) と書く.
注釈. 累積確率は F 分布表を参照.
注釈. X \sim \mathrm{F}(m,n) なら 1/X \sim \mathrm{F}(n,m).
注釈. t \sim \mathrm{t}(n) なら t^2 \sim \mathrm{F}(1,n).
例 3 F 分布の pdf の例は 図 1 の通り.
3.2 母平均が既知の場合
母集団分布を \mathrm{N}\left(\mu_X,\sigma_X^2\right),\mathrm{N}\left(\mu_Y,\sigma_Y^2\right) とする. \sigma_X^2 と \sigma_Y^2 を比較したい. 各母集団から独立に抽出した無作為標本を (X_1,\dots,X_m),(Y_1,\dots,Y_n),標本分散を \hat{\sigma}_X^2,\hat{\sigma}_Y^2 とする.
定理 4 \frac{\hat{\sigma}_X^2/\hat{\sigma}_Y^2}{\sigma_X^2/\sigma_Y^2} \sim \mathrm{F}(m,n)
証明. 標本分散の分布は \begin{align*} \frac{m\hat{\sigma}_X^2}{\sigma_X^2} & \sim \chi^2(m) \\ \frac{n\hat{\sigma}_Y^2}{\sigma_Y^2} & \sim \chi^2(n) \end{align*} 両者は独立なので \begin{align*} \frac{\hat{\sigma}_X^2/\hat{\sigma}_Y^2}{\sigma_X^2/\sigma_Y^2} & =\frac{\hat{\sigma}_X^2/\sigma_X^2}{\hat{\sigma}_Y^2/\sigma_Y^2} \\ & =\frac{\left(m\hat{\sigma}_X^2/\sigma_X^2\right)/m} {\left(n\hat{\sigma}_Y^2/\sigma_Y^2\right)/n} \\ & \sim \mathrm{F}(m,n) \end{align*}
3.3 母平均が未知の場合(p. 208)
標本分散を s_X^2,s_Y^2 とする.
定理 5 \frac{s_X^2/s_Y^2}{\sigma_X^2/\sigma_Y^2} \sim \mathrm{F}(m-1,n-1)
証明. 標本分散の分布は \begin{align*} \frac{(m-1)s_X^2}{\sigma_X^2} & \sim \chi^2(m-1) \\ \frac{(n-1)s_Y^2}{\sigma_Y^2} & \sim \chi^2(n-1) \end{align*} 両者は独立なので \begin{align*} \frac{s_X^2/s_Y^2}{\sigma_X^2/\sigma_Y^2} & =\frac{s_X^2/\sigma_X^2}{s_Y^2/\sigma_Y^2} \\ & =\frac{\left[(m-1)s_X^2/\sigma_X^2\right]/(m-1)} {\left[(n-1)s_Y^2/\sigma_Y^2\right]/(n-1)} \\ & \sim \mathrm{F}(m-1,n-1) \end{align*}
注釈. s_X^2/s_Y^2 の累積確率は F 分布表から次のように求める. \begin{align*} \Pr\left[\frac{s_X^2}{s_Y^2}\le c\right] & =\Pr\left[ \frac{s_X^2/s_Y^2}{\sigma_X^2/\sigma_Y^2} \le \frac{c}{\sigma_X^2/\sigma_Y^2} \right] \\ & =\Pr\left[\mathrm{F}(m-1,n-1) \le \frac{c}{\sigma_X^2/\sigma_Y^2}\right] \end{align*}
注釈. \sigma_X^2=\sigma_Y^2 なら \frac{s_X^2}{s_Y^2} \sim \mathrm{F}(m-1,n-1)
例 4 (p. 209) \mathrm{N}\left(\mu_X,\sigma^2\right),\mathrm{N}\left(\mu_Y,\sigma^2\right) から独立に抽出した大きさ 10,15 の無作為標本の標本分散をそれぞれ s_X^2,s_Y^2 とする(母分散は等しい).s_X^2/s_Y^2>3 の確率は \begin{align*} \Pr\left[\frac{s_X^2}{s_Y^2}>3\right] & =\Pr[\mathrm{F}(9,14)>3] \\ & \approx .03 \end{align*}
まとめ
2標本問題, プールした標本分散, \chi^2 分布の再生性, 標本平均の差の分布(母分散が既知・未知で等しい・未知で異なる), 自由度 (m,n) の F 分布, 標本分散の比の分布(母平均が既知・未知)