第21回 仮説検定(12.1, 12.5)
- 母集団分布に関する仮説を統計的仮説という.統計的仮説の真偽を標本から判定することを検定という.仮説を偽と判定することを,仮説を棄却するという.仮説を真と判定することを,仮説を採択するという.
- とりあえず真と想定する仮説を帰無仮説(H_0)という.帰無仮説を棄却するとき代わりに採択する仮説を対立仮説(H_1)という.検定問題では必ず H_0 と H_1 を設定する.
- H_0 が真なのに H_0 を棄却する誤りを第 1 種の誤り,H_1 が真なのに H_0 を採択する誤りを第 2 種の誤りという.許容する第 1 種の誤りの確率を有意水準という.
- 検定に用いる統計量を検定統計量という.標本(検定統計量)の値域で H_0 を棄却する領域を棄却域,採択する領域を採択域という.
- 第 2 種の誤りを起こさない確率を検定の検出力という.与えられた有意水準の下で検出力が最大の検定を最強力検定という.
1 統計的仮説(pp. 233, 251)
定義 1 母集団分布に関する仮説を統計的仮説という.
注釈. 母数に関する仮説と言ってもよい.
定義 2 ただ1つの分布を許容する仮説を単純仮説という.
注釈. ただ1点の母数を許容する仮説と言ってもよい.
例 1 \mathrm{Bin}(1,1/2),\mathrm{N}(0,1)など.
定義 3 複数の分布を許容する仮説を複合仮説という.
例 2 \mathrm{Bin}(1,p)で p \ge 1/2,\mathrm{N}\left(0,\sigma^2\right)(\sigma^2 は任意),平均が 0(分布の型は任意)など.
2 検定問題
2.1 検定(p. 233)
定義 4 統計的仮説の真偽を標本から判定することを検定という.
定義 5 仮説を偽と判定することを,仮説を棄却するという.
定義 6 仮説を真と判定することを,仮説を採択するという.
2.2 帰無仮説と対立仮説(p. 235)
定義 7 とりあえず真と想定する仮説を帰無仮説という.
注釈. H_0 で表す.
定義 8 帰無仮説を棄却するとき代わりに採択する仮説を対立仮説という.
注釈. H_1 で表す.
注釈. 検定問題では必ず H_0 と H_1 を設定する.すなわち母数空間を\Thetaとすると
H_0:\theta \in \Theta_0 \quad \text{vs} \quad H_1:\theta \in \Theta_1
ただし \Theta_0,\Theta_1 は \Theta の分割.標本の実現値が H_0 と矛盾するなら H_0 を棄却して H_1 を採択,矛盾しなければ H_0 を採択する.
注釈. H_0 の採択は,偽とする証拠が不十分という判定であり,積極的に真と断定するのではない(推定無罪,疑わしきは罰せず).したがって「H_0 を採択」より「H_0 を棄却しない」の方が適切な表現.
2.3 片側検定と両側検定(p. 238)
定義 9 片側検定問題は
H_0:\theta \le(\ge) \theta_0 \quad \text{vs} \quad H_1:\theta >(<) \theta_0
注釈. 実際には H_0 として \theta=\theta_0 を想定するので,次のように書いてもよい.
H_0:\theta=\theta_0 \quad \text{vs} \quad H_1:\theta >(<) \theta_0
定義 10 両側検定問題は
H_0:\theta=\theta_0 \quad \text{vs} \quad H_1:\theta \ne \theta_0
3 検定の手順
3.1 有意水準(p. 234)
定義 11 H_0 が真なのに H_0 を棄却する誤りを第1種の誤りという.
定義 12 H_1 が真なのに H_0 を採択する(棄却しない)誤りを第2種の誤りという.
注釈. 起こりうる状況は 表 1 の通り.
| H_0 が真 | H_1 が真 | |
|---|---|---|
| H_0 を棄却 | 第 1 種の誤り | ○ |
| H_0 を採択 | ○ | 第 2 種の誤り |
注釈. 2 つの誤りの可能性を同時にゼロにすることは不可能.
注釈. H_0 の採択は消極的な判断に過ぎないが,H_0 の棄却は積極的な判断なので,第 2 種より第 1 種の方が重大な誤り.
定義 13 許容する第 1 種の誤りの確率を有意水準という.
注釈. より重大な第 1 種の誤りの確率を,あらかじめ設定しておく.
3.2 棄却域と採択域(p. 238)
定義 14 検定に用いる統計量を検定統計量という.
定義 15 標本(検定統計量)の値域で H_0 を棄却する領域を棄却域という.
定義 16 標本(検定統計量)の値域で H_0 を採択する(棄却しない)領域を採択域という.
3.3 検定の手順
まとめると検定の手順は以下の通り.
- 検定問題を定式化する.
- 有意水準を設定する.
- 検定統計量を選択する.
- 棄却域を設定する.
- 検定統計量の値から H_0 の棄却/採択を決定する.
例 3 母集団分布を \mathrm{N}\left(\mu,\sigma^2\right) とする.ただし \sigma^2 は既知とする.次の検定問題を考える.
H_0:\mu=0 \quad \text{vs} \quad H_1:\mu=1
有意水準を 5%とする.大きさ n の無作為標本の標本平均を \bar{X} とすると
\bar{X} \sim \mathrm{N}\left(\mu,\frac{\sigma^2}{n}\right)
標準化すると
\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}} \sim \mathrm{N}(0,1)
H_0:\mu=0 を代入すると,検定統計量は
Z:=\frac{\bar{X}}{\sqrt{\sigma^2/n}}
H_0 の下で
Z \sim \mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65]=0.05
したがって棄却域は [1.65,\infty).H_1 の下で
\begin{align*} Z & =\frac{\bar{X}-1+1}{\sqrt{\sigma^2/n}} \\ & =\frac{\bar{X}-1}{\sqrt{\sigma^2/n}}+\frac{1}{\sqrt{\sigma^2/n}} \\ & \sim \mathrm{N}\left(\frac{1}{\sqrt{\sigma^2/n}},1\right) \end{align*}
したがって H_1 の下での検定統計量の分布は \sigma と n の値により異なる 図 1.
4 検定の性質(p. 251)
定義 17 第 2 種の誤りを起こさない確率を検定の検出力という.
注釈. H_1 が真のとき,正しく H_0 を棄却する確率.
定義 18 与えられた有意水準の下で検出力が最大の検定を最強力検定という.
注釈. 「統計学入門」では検定の最強力性は確認しない.
まとめ
統計的仮説, 単純仮説, 複合仮説, 検定, 棄却, 採択, 帰無仮説, 対立仮説, 片側検定問題, 両側検定問題, 第1種の誤り, 第2種の誤り, 有意水準, 検定統計量, 棄却域, 採択域, 検出力, 最強力検定