第22回 平均と分散の検定(12.2, 12.4)
- 正規母集団の母平均・母分散,正規母集団の 2 標本問題の母平均の差・母分散の比,ベルヌーイ母集団の母比率,ベルヌーイ母集団の 2 標本問題の母比率の差の検定の棄却域を求める.
- H_0 の下で t 分布・ \chi^2 分布・ F 分布にしたがう検定統計量を,それぞれ t 統計量・ \chi^2 統計量・ F 統計量という.それらを用いる検定を t 検定・ \chi^2 検定・ F 検定という.
- H_0 の下で検定統計量が実現値以上になる確率を p 値(有意確率)という.p 値≦有意水準なら H_0 を棄却する.
1 正規母集団
1.1 母平均の検定(p. 240)
1.1.1 母分散が既知
母集団分布を \mathrm{N}\left(\mu,\sigma^2\right) とする.ただし \sigma^2 は既知とする.次の片側検定問題を考える.
H_0:\mu=c \quad \text{vs} \quad H_1:\mu>c
有意水準を 5%とする.大きさ n の無作為標本の標本平均を \bar{X} とすると
\bar{X} \sim \mathrm{N}\left(\mu,\frac{\sigma^2}{n}\right)
標準化すると
\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}} \sim \mathrm{N}(0,1)
H_0:\mu=c を代入すると,検定統計量は
Z:=\frac{\bar{X}-c}{\sqrt{\sigma^2/n}}
H_0 の下で
Z \sim \mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65]=0.05
したがって棄却域は [1.65,\infty).
注釈. 棄却域は H_1 に依存する.
- H_1:\mu>c なら棄却域は [1.65,\infty)
- H_1:\mu<c なら棄却域は (-\infty,-1.65]
- H_1:\mu \ne c なら棄却域は (-\infty,-1.96] \cup [1.96,\infty)
例えば Z=1.8 なら H_0:\mu=c は H_1:\mu>c に対しては棄却されるが H_1:\mu \ne c に対しては棄却されない.図 1 を参照.
1.1.2 母分散が未知
標本分散を s^2 とする.\sigma^2 を s^2 に置き換えると
\frac{\bar{X}-\mu}{\sqrt{s^2/n}} \sim \mathrm{t}(n-1)
H_0:\mu=c を代入すると,検定統計量は
t:=\frac{\bar{X}-c}{\sqrt{s^2/n}}
H_0 の下で
t \sim \mathrm{t}(n-1)
t 分布表より H_0 の下で,例えば n=10 なら
\Pr[t \ge 1.833]=0.05
したがって棄却域は [1.833,\infty).
定義 1 H_0 の下で t 分布にしたがう検定統計量を t 統計量という.
定義 2 t 統計量を用いる検定を t 検定という.
1.2 母分散の検定(p. 242)
1.2.1 母平均が既知
母集団分布を \mathrm{N}\left(\mu,\sigma^2\right) とする.ただし \mu は既知とする.次の片側検定問題を考える.
H_0:\sigma^2=c \quad \text{vs} \quad H_1:\sigma^2>c
有意水準を 5%とする.無作為標本 (X_1,\dots,X_n) の標本分散は
\hat{\sigma}^2:=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2
このとき
\frac{n\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n)
H_0:\sigma^2=c を代入すると,検定統計量は
\chi^2:=\frac{n\hat{\sigma}^2}{c}
H_0 の下で
\chi^2 \sim \chi^2(n)
\chi^2 分布表より H_0 の下で,例えば n=10 なら
\Pr\left[\chi^2 \ge 18.3070\right]=0.05
したがって棄却域は [18.3070,\infty).
定義 3 H_0 の下で \chi^2 分布にしたがう検定統計量を \chi^2 統計量という.
定義 4 \chi^2 統計量を用いる検定を \chi^2 検定という.
1.2.2 母平均が未知
\mu が未知なら標本分散は
s^2:=\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\bar{X}\right)^2
このとき
\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)
H_0:\sigma^2=c を代入すると,検定統計量は
\chi^2:=\frac{(n-1)s^2}{c}
H_0 の下で
\chi^2 \sim \chi^2(n-1)
\chi^2 分布表より H_0 の下で,例えば n=10 なら
\Pr\left[\chi^2 \ge 16.9190\right]=0.05
したがって棄却域は [16.9190,\infty).
1.3 母平均の差の検定(p. 242)
1.3.1 母分散が既知
母集団分布を \mathrm{N}\left(\mu_X,\sigma_X^2\right),\mathrm{N}\left(\mu_Y,\sigma_Y^2\right) とする.ただし \sigma_X^2,\sigma_Y^2 は既知とする.次の片側検定問題を考える.
H_0:\mu_X=\mu_Y \quad \text{vs} \quad H_1:\mu_X>\mu_Y
有意水準を 5%とする.各母集団から独立に抽出した大きさ m,n の無作為標本の標本平均を \bar{X},\bar{Y} とすると
\begin{align*} \bar{X} & \sim \mathrm{N}\left(\mu_X,\frac{\sigma_X^2}{m}\right) \\ \bar{Y} & \sim \mathrm{N}\left(\mu_Y,\frac{\sigma_Y^2}{n}\right) \end{align*}
両者は独立だから
\bar{X}-\bar{Y} \sim \mathrm{N}\left(\mu_X-\mu_Y,\frac{\sigma_X^2}{m}+\frac{\sigma_Y^2}{n}\right)
標準化すると
\frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}} \sim \mathrm{N}(0,1)
H_0:\mu_X=\mu_Y を代入すると,検定統計量は
Z:=\frac{\bar{X}-\bar{Y}}{\sqrt{\sigma_X^2/m+\sigma_Y^2/n}}
H_0 の下で
Z \sim \mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65]=0.05
したがって棄却域は [1.65,\infty).
1.3.2 母分散が未知で等しい場合
\sigma_X^2=\sigma_Y^2=\sigma^2 なら
\frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\sigma^2(1/m+1/n)}} \sim \mathrm{N}(0,1)
プールした標本分散を s^2 とする.\sigma^2 を s^2 に置き換えると
\frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s^2(1/m+1/n)}} \sim \mathrm{t}(m+n-2)
H_0:\mu_X=\mu_Y を代入すると,検定統計量は
t:=\frac{\bar{X}-\bar{Y}}{\sqrt{s^2(1/m+1/n)}}
H_0 の下で
t \sim \mathrm{t}(m+n-2)
t 分布表より H_0 の下で,例えば m=4,n=6 なら
\Pr[t \ge 1.860]=0.05
したがって棄却域は [1.860,\infty).
1.3.3 母分散が未知で異なる場合
\sigma_X^2 \ne \sigma_Y^2 なら近似的な検定を用いる.標本分散を s_X^2,s_Y^2 とすると,大数の法則と中心極限定理より
\frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{s_X^2/m+s_Y^2/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)
H_0:\mu_X=\mu_Y を代入すると,検定統計量は
Z:=\frac{\bar{X}-\bar{Y}}{\sqrt{s_X^2/m+s_Y^2/n}}
H_0 の下で
Z \stackrel{a}{\sim}\mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65] \approx 0.05
したがって近似的な棄却域は [1.65,\infty).
1.4 母分散の比の検定(p. 244)
1.4.1 母平均が既知
母集団分布を \mathrm{N}\left(\mu_X,\sigma_X^2\right),\mathrm{N}\left(\mu_Y,\sigma_Y^2\right) とする.ただし \mu_X,\mu_Y は既知とする.次の片側検定問題を考える.
H_0:\sigma_X^2=\sigma_Y^2 \quad \text{vs} \quad H_1:\sigma_X^2>\sigma_Y^2
有意水準を 5%とする.各母集団から独立に抽出した大きさ m,n の無作為標本の標本分散を \hat{\sigma}_X^2,\hat{\sigma}_Y^2 とすると
\begin{align*} \frac{m\hat{\sigma}_X^2}{\sigma_X^2} & \sim \chi^2(m) \\ \frac{n\hat{\sigma}_Y^2}{\sigma_Y^2} & \sim \chi^2(n) \end{align*}
両者は独立だから
\frac{\hat{\sigma}_X^2/\sigma_X^2}{\hat{\sigma}_Y^2/\sigma_Y^2} \sim \mathrm{F}(m,n)
すなわち
\frac{\hat{\sigma}_X^2/\hat{\sigma}_Y^2}{\sigma_X^2/\sigma_Y^2} \sim \mathrm{F}(m,n)
H_0:\sigma_X^2=\sigma_Y^2 を代入すると,検定統計量は
F:=\frac{\hat{\sigma}_X^2}{\hat{\sigma}_Y^2}
H_0 の下で
F \sim \mathrm{F}(m,n)
F 分布表より H_0 の下で,例えば m=4,n=6 なら
\Pr[F \ge 4.534]=0.05
したがって棄却域は [4.534,\infty).
定義 5 H_0 の下で F 分布にしたがう検定統計量を F 統計量という.
定義 6 F 統計量を用いる検定を F 検定という.
1.4.2 母平均が未知
標本分散を s_X^2,s_Y^2 とすると
\begin{align*} \frac{(m-1)s_X^2}{\sigma_X^2} & \sim \chi^2(m-1) \\ \frac{(n-1)s_Y^2}{\sigma_Y^2} & \sim \chi^2(n-1) \end{align*}
両者は独立だから
\frac{s_X^2/\sigma_X^2}{s_Y^2/\sigma_Y^2} \sim \mathrm{F}(m-1,n-1)
すなわち
\frac{s_X^2/s_Y^2}{\sigma_X^2/\sigma_Y^2} \sim \mathrm{F}(m-1,n-1)
H_0:\sigma_X^2=\sigma_Y^2 を代入すると,検定統計量は
F:=\frac{s_X^2}{s_Y^2}
H_0 の下で
F \sim \mathrm{F}(m-1,n-1)
F 分布表より H_0 の下で,例えば m=4,n=6 なら
\Pr[F \ge 5.409]=0.05
したがって棄却域は [5.409,\infty).
2 ベルヌーイ母集団
2.1 母比率の検定(p. 250)
母集団分布を \mathrm{Bin}(1,p) とする.次の片側検定問題を考える.
H_0:p=p_0 \quad \text{vs} \quad H_1:p>p_0
有意水準を 5%とする.\mathrm{Bin}(1,p) の平均は p,分散は p(1-p).大きさ n の無作為標本の標本平均(=標本比率)を \hat{p} とすると,中心極限定理より
\hat{p} \stackrel{a}{\sim}\mathrm{N}\left(p,\frac{p(1-p)}{n}\right)
標準化すると
\frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)
H_0:p=p_0 を代入すると,検定統計量は
Z:=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}
H_0 の下で
Z \stackrel{a}{\sim}\mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65] \approx 0.05
したがって近似的な棄却域は [1.65,\infty).
例 1 ある番組の視聴率について有意水準 5%で次の片側検定を行う.
H_0:p \le 0.1 \quad \text{vs} \quad H_1:p>0.1
100 世帯を対象に視聴率を調査したら 13%の視聴率であった.検定統計量の値は
\begin{align*} Z & :=\frac{0.13-0.1}{\sqrt{0.1(1-0.1)/100}} \\ & =\frac{0.03}{\sqrt{0.09/100}} \\ & =1<1.65 \end{align*}
したがって H_0 は棄却されない.
2.2 母比率の差の検定
母集団分布を \mathrm{Bin}(1,p_X),\mathrm{Bin}(1,p_Y) とする.次の片側検定問題を考える.
H_0:p_X=p_Y \quad \text{vs} \quad H_1:p_X>p_Y
有意水準を 5%とする.各母集団から独立に抽出した大きさ m,n の無作為標本の標本比率を \hat{p}_X,\hat{p}_Y とすると,中心極限定理より
\begin{align*} \hat{p}_X & \stackrel{a}{\sim}\mathrm{N}\left(p_X,\frac{p_X(1-p_X)}{m}\right) \\ \hat{p}_Y & \stackrel{a}{\sim}\mathrm{N}\left(p_Y,\frac{p_Y(1-p_Y)}{n}\right) \end{align*}
両者は独立だから
\hat{p}_X-\hat{p}_Y \stackrel{a}{\sim}\mathrm{N}\left(p_X-p_Y,\frac{p_X(1-p_X)}{m}+\frac{p_Y(1-p_Y)}{n}\right)
標準化すると
\frac{\hat{p}_X-\hat{p}_Y-(p_X-p_Y)}{\sqrt{p_X(1-p_X)/m+p_Y(1-p_Y)/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)
または
\frac{\hat{p}_X-\hat{p}_Y-(p_X-p_Y)} {\sqrt{\hat{p}_X(1-\hat{p}_X)/m+\hat{p}_Y(1-\hat{p}_Y)/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)
H_0:p_X=p_Y を代入すると,検定統計量は
Z :=\frac{\hat{p}_X-\hat{p}_Y} {\sqrt{\hat{p}_X(1-\hat{p}_X)/m+\hat{p}_Y(1-\hat{p}_Y)/n}}
H_0 の下で
Z \stackrel{a}{\sim}\mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65] \approx 0.05
したがって近似的な棄却域は [1.65,\infty).
3 p 値
定義 7 H_0 の下で検定統計量が実現値以上になる確率を p 値(有意確率)という.
注釈. p 値が有意水準以下なら H_0 を棄却する.
例 2 有意水準 \alpha の検定を考える.検定統計量を T,棄却域を [t_{\alpha},\infty),T の実現値を t とすると,
\begin{align*} t \ge t_{\alpha} & \Longleftrightarrow \Pr[T \ge t|H_0] \le \Pr[T \ge t_{\alpha}|H_0] \\ & \Longleftrightarrow p \le \alpha \end{align*}
したがって p \le \alpha なら H_0 は棄却(図 2).
まとめ
母平均の検定(母分散が既知・未知), t 統計量, t 検定, 母分散の検定(母平均が既知・未知), \chi^2 統計量, \chi^2 検定, 母平均の差の検定(母分散が既知・未知), 母分散の比の検定(母平均が既知・未知), F 統計量, F 検定, 母比率の検定, p 値(有意確率)