第23回 適合度検定(12.3)
- 母集団分布に対する標本の適合度を検定する.
- 分布の範囲を k 階級に分割したときの母比率の両側検定を \chi^2 適合度検定という.2 階級ならベルヌーイ母集団の母比率の両側検定となる.
- \chi^2 適合度検定を応用して 2 変量の独立性を検定できる.
1 母比率の検定
1.1 片側検定
母集団分布を \mathrm{Bin}(1,p) とする.次の片側検定問題を考える.
H_0:p=p_0 \quad \text{vs} \quad H_1:p>p_0
有意水準を 5%とする.\mathrm{Bin}(1,p) の平均は p,分散は p(1-p).大きさ n の無作為標本の標本比率(=標本平均)を \hat{p} とすると,中心極限定理より
\hat{p} \stackrel{a}{\sim}\mathrm{N}\left(p,\frac{p(1-p)}{n}\right)
標準化すると
\frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)
H_0:p=p_0 を代入すると,検定統計量は
Z:=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}
H_0 の下で
Z \stackrel{a}{\sim}\mathrm{N}(0,1)
標準正規分布表より H_0 の下で
\Pr[Z \ge 1.65] \approx 0.05
したがって近似的な棄却域は [1.65,\infty).
1.2 両側検定(p. 250)
次の両側検定問題を考える.
H_0:p=p_0 \quad \text{vs} \quad H_1:p \ne p_0
有意水準を 5%とする.標準正規分布表より H_0 の下で
\Pr[|Z| \ge 1.96] \approx 0.05
したがって近似的な棄却域は (-\infty,-1.96] \cup [1.96,\infty).
注釈. Z^2 を検定統計量としてもよい.すなわち
Z^2=\frac{n(\hat{p}-p_0)^2}{p_0(1-p_0)}
H_0 の下で
Z^2 \stackrel{a}{\sim}\chi^2(1)
\chi^2 分布表より H_0 の下で
\Pr\left[Z^2 \ge 3.84146\right] \approx 0.05
したがって近似的な棄却域は [3.84146,\infty).もちろん 1.96^2 \approx 3.84146 で両検定は同等.
2 適合度検定
2.1 適合度検定問題(p. 245)
母集団分布の cdf を F(.) とする(ノンパラメトリックでもよい).
定義 1 母集団分布に対する標本の適合度の検定を適合度検定という.
注釈. 適合度検定問題は
H_0:F(.)=F_0(.) \quad \text{vs} \quad H_1:F(.) \ne F_0(.)
k 階級に分割して分布を表すと
| 階級 | F(.) | F_0(.) |
|---|---|---|
| 1 | p_1 | p_{0,1} |
| \vdots | \vdots | \vdots |
| k | p_k | p_{0,k} |
| 計 | 1 | 1 |
次の適合度検定問題を考える(元の問題と同等ではない).
H_0:\begin{pmatrix} p_1 \\ \vdots \\ p_{k-1} \\ \end{pmatrix}=\begin{pmatrix} p_{0,1} \\ \vdots \\ p_{0,k-1} \\ \end{pmatrix} \quad \text{vs} \quad H_1:\begin{pmatrix} p_1 \\ \vdots \\ p_{k-1} \\ \end{pmatrix} \ne \begin{pmatrix} p_{0,1} \\ \vdots \\ p_{0,k-1} \\ \end{pmatrix}
未知母数は k-1 個.k=2 なら母比率の両側検定.k \ge 3 なら多次元母数の両側検定となる.
例 1 \mathrm{U}[0,1] と \mathrm{N}(0,1) の標本(100個の乱数)の適合度(図 1).
2.2 ピアソンの \chi^2 適合度検定(p. 246)
大きさ n の無作為標本の度数分布を考える.第 j 階級の度数を N_j とする.
定義 2 標本の度数分布における各階級の度数の観測値を観測度数という.
定義 3 標本の度数分布における各階級の度数の期待値を期待度数という.
注釈. すなわち \operatorname{E}(N_j)=np_{0,j}.
定義 4 ピアソンの \chi^2 適合度検定統計量は
\chi^2:=\sum_{j=1}^k\frac{(N_j-np_{0,j})^2}{np_{0,j}}
ただし N_j は観測度数,np_{0,j} は期待度数.
注釈. 第 j 階級の観測相対度数は \hat{p}_j:=N_j/n,期待相対度数は p_{0,j} なので
\begin{align*} \chi^2 & =\sum_{j=1}^k\frac{(n\hat{p}_j-np_{0,j})^2}{np_{0,j}} \\ & =\sum_{j=1}^k\frac{n(\hat{p}_j-p_{0,j})^2}{p_{0,j}} \end{align*}
k=2 なら
\begin{align*} \chi^2 & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n(\hat{p}_2-p_{0,2})^2}{p_{0,2}} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n[(1-\hat{p}_1)-(1-p_{0,1})]^2}{1-p_{0,1}} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n(\hat{p}_1-p_{0,1})^2}{1-p_{0,1}} \\ & =\frac{(1-p_{0,1})n(\hat{p}_1-p_{0,1})^2+p_{0,1}n(\hat{p}_1-p_{0,1})^2} {p_{0,1}(1-p_{0,1})} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}(1-p_{0,1})} \end{align*}
すなわち母比率の検定統計量と一致する.
定理 1 H_0 の下で
\chi^2 \stackrel{a}{\sim}\chi^2(k-1)
証明. 「統計学入門」の水準を超えるので略.
例 2 (p. 245,メンデルの法則) えんどう豆の形質の遺伝に関する実験結果:
| 階級 | N_j | \hat{p}_j | p_{0,j} |
|---|---|---|---|
| 黄・丸 | 315 | 0.5665 | 0.5625 |
| 黄・しわ | 101 | 0.1817 | 0.1875 |
| 緑・丸 | 108 | 0.1942 | 0.1875 |
| 緑・しわ | 32 | 0.0576 | 0.0625 |
| 計 | 556 | 1.0000 | 1.0000 |
適合度検定問題は
H_0:\begin{pmatrix} p_1 \\ p_2 \\ p_3 \\ \end{pmatrix}=\begin{pmatrix} p_{0,1} \\ p_{0,2} \\ p_{0,3} \\ \end{pmatrix} \quad \text{vs} \quad H_1:\begin{pmatrix} p_1 \\ p_2 \\ p_3 \\ \end{pmatrix} \ne \begin{pmatrix} p_{0,1} \\ p_{0,2} \\ p_{0,3} \\ \end{pmatrix}
有意水準を 5%とする.H_0 の下で
\chi^2 \sim \chi^2(3)
\chi^2 分布表より H_0 の下で
\Pr\left[\chi^2 \ge 7.81473\right] \approx 0.05
したがって近似的な棄却域は [7.81473,\infty).\chi^2=0.47 となるので H_0 は棄却されない(ただし捏造の疑いあり?).
3 独立性の検定(p. 248)
3.1 独立性の検定問題
2変量母集団分布を F_{X,Y}(.,.),その周辺分布を F_X(.),F_Y(.) とする.独立性の検定問題は
H_0:F_{X,Y}(.,.)=F_X(.)F_Y(.) \quad \text{vs} \quad H_1:F_{X,Y}(.,.) \ne F_X(.)F_Y(.)
k \times l 分割表で分布を表すと
| 階級 | 1 | \ldots | l | 計 |
|---|---|---|---|---|
| 1 | p_{1,1} | \ldots | p_{1,l} | p_{1,.} |
| \vdots | \vdots | \vdots | \vdots | |
| k | p_{k,1} | \ldots | p_{k,l} | p_{k,.} |
| 計 | p_{.,1} | \ldots | p_{.,l} | 1 |
次の適合度検定問題を考える(元の問題と同等ではない).
\begin{align*} & H_0:\begin{bmatrix} p_{1,1} & \ldots & p_{1,l-1} \\ \vdots & & \vdots \\ p_{k-1,1} & \ldots & p_{k-1,l-1} \\ \end{bmatrix}=\begin{bmatrix} p_{1,.}p_{.,1} & \ldots & p_{1,.}p_{.,l-1} \\ \vdots & & \vdots \\ p_{k-1,.}p_{.,1} & \ldots & p_{k-1,.}p_{.,l-1} \\ \end{bmatrix} \\ & \text{vs} \quad H_1:\begin{bmatrix} p_{1,1} & \ldots & p_{1,l-1} \\ \vdots & & \vdots \\ p_{k-1,1} & \ldots & p_{k-1,l-1} \\ \end{bmatrix} \ne \begin{bmatrix} p_{1,.}p_{.,1} & \ldots & p_{1,.}p_{.,l-1} \\ \vdots & & \vdots \\ p_{k-1,.}p_{.,1} & \ldots & p_{k-1,.}p_{.,l-1} \\ \end{bmatrix} \end{align*}
未知母数は (k-1)(l-1) 個.
3.2 独立性の \chi^2 検定
大きさ n の無作為標本における各階級の相対度数を \hat{p}_{i,j},\hat{p}_{i,.},\hat{p}_{.,j} などとする.
定義 5 独立性の \chi^2 検定統計量は
\chi^2 :=\sum_{i=1}^k\sum_{j=1}^l\frac{n(\hat{p}_{i,j}-\hat{p}_{i,.}\hat{p}_{.,j})^2}{\hat{p}_{i,.}\hat{p}_{.,j}}
ただし \hat{p}_{i,j} は観測相対度数,\hat{p}_{i,.}\hat{p}_{.,j} は期待相対度数.
定理 2 H_0 の下で
\chi^2 \stackrel{a}{\sim}\chi^2((k-1)(l-1))
証明. 「統計学入門」の水準を超えるので略.
例 3 (pp. 248–250) 2 つの試験の成績(n=42)
| 成績 | A | B | C | 計 |
|---|---|---|---|---|
| A | 0.10 | 0.05 | 0.07 | 0.21 |
| B | 0.19 | 0.10 | 0.14 | 0.43 |
| C | 0.14 | 0.07 | 0.14 | 0.36 |
| 計 | 0.43 | 0.21 | 0.36 | 1.00 |
独立なら
| 成績 | A | B | C | 計 |
|---|---|---|---|---|
| A | 0.09 | 0.05 | 0.08 | 0.21 |
| B | 0.18 | 0.09 | 0.15 | 0.43 |
| C | 0.15 | 0.08 | 0.13 | 0.36 |
| 計 | 0.43 | 0.21 | 0.36 | 1.00 |
独立性の検定問題は
H_0:\begin{bmatrix} p_{1,1} & p_{1,2} \\ p_{2,1} & p_{2,2} \\ \end{bmatrix}=\begin{bmatrix} p_{1,.}p_{.,1} & p_{1,.}p_{.,2} \\ p_{2,.}p_{.,1} & p_{2,.}p_{.,2} \\ \end{bmatrix} \quad \text{vs} \quad H_1:\begin{bmatrix} p_{1,1} & p_{1,2} \\ p_{2,1} & p_{2,2} \\ \end{bmatrix} \ne \begin{bmatrix} p_{1,.}p_{.,1} & p_{1,.}p_{.,2} \\ p_{2,.}p_{.,1} & p_{2,.}p_{.,2} \\ \end{bmatrix}
有意水準を 5%とする.H_0 の下で
\chi^2 \sim \chi^2(4)
\chi^2 分布表より H_0の下で
\Pr\left[\chi^2 \ge 9.48773\right] \approx 0.05
したがって近似的な棄却域は [9.48773,\infty).\chi^2=0.19 となるので H_0 は棄却されない(ただし捏造の疑いあり?).
例 4 男女の相性は血液型で決まるとの俗説がある.その真偽を科学的に検証したい.そこで無作為に選んだ117組の夫婦の血液型を調べたところ,次表の結果が得られた(数値は百分率を四捨五入).
| 夫\妻 | A | O | B | AB | 計 |
|---|---|---|---|---|---|
| A | 0.15 | 0.14 | 0.06 | 0.07 | 0.41 |
| O | 0.10 | 0.07 | 0.10 | 0.03 | 0.30 |
| B | 0.08 | 0.09 | 0.04 | 0.01 | 0.22 |
| AB | 0.04 | 0.00 | 0.03 | 0.00 | 0.07 |
| 計 | 0.37 | 0.30 | 0.23 | 0.10 | 1.00 |
独立なら
| 夫\妻 | A | O | B | AB | 計 |
|---|---|---|---|---|---|
| A | 0.1517 | 0.1230 | 0.0943 | 0.0410 | 0.41 |
| O | 0.1110 | 0.0900 | 0.0690 | 0.0300 | 0.30 |
| B | 0.0814 | 0.0660 | 0.0506 | 0.0220 | 0.22 |
| AB | 0.0259 | 0.0210 | 0.0161 | 0.0070 | 0.07 |
| 計 | 0.37 | 0.30 | 0.23 | 0.10 | 1.00 |
有意水準を 5%とする.H_0 の下で
\chi^2 \sim \chi^2(9)
\chi^2 分布表より H_0 の下で
\Pr\left[\chi^2 \ge 16.919\right] \approx 0.05
したがって近似的な棄却域は [16.919,\infty).\chi^2=14.2309624 となるので H_0 は棄却されない.
まとめ
母比率の片側検定, 母比率の両側検定, 適合度検定, 観測度数, 期待度数, ピアソンの \chi^2 適合度検定, 独立性の \chi^2 検定