第23回 適合度検定(12.3)

作者

村澤 康友

公開

2025年12月20日

今日のポイント
  1. 母集団分布に対する標本の適合度を検定する.
  2. 分布の範囲を k 階級に分割したときの母比率の両側検定を \chi^2 適合度検定という.2 階級ならベルヌーイ母集団の母比率の両側検定となる.
  3. \chi^2 適合度検定を応用して 2 変量の独立性を検定できる.

1 母比率の検定

1.1 片側検定

母集団分布を \mathrm{Bin}(1,p) とする.次の片側検定問題を考える.

H_0:p=p_0 \quad \text{vs} \quad H_1:p>p_0

有意水準を 5%とする.\mathrm{Bin}(1,p) の平均は p,分散は p(1-p).大きさ n の無作為標本の標本比率(=標本平均)を \hat{p} とすると,中心極限定理より

\hat{p} \stackrel{a}{\sim}\mathrm{N}\left(p,\frac{p(1-p)}{n}\right)

標準化すると

\frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \stackrel{a}{\sim}\mathrm{N}(0,1)

H_0:p=p_0 を代入すると,検定統計量は

Z:=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}

H_0 の下で

Z \stackrel{a}{\sim}\mathrm{N}(0,1)

標準正規分布表より H_0 の下で

\Pr[Z \ge 1.65] \approx 0.05

したがって近似的な棄却域は [1.65,\infty)

1.2 両側検定(p. 250)

次の両側検定問題を考える.

H_0:p=p_0 \quad \text{vs} \quad H_1:p \ne p_0

有意水準を 5%とする.標準正規分布表より H_0 の下で

\Pr[|Z| \ge 1.96] \approx 0.05

したがって近似的な棄却域は (-\infty,-1.96] \cup [1.96,\infty)

注釈. Z^2 を検定統計量としてもよい.すなわち

Z^2=\frac{n(\hat{p}-p_0)^2}{p_0(1-p_0)}

H_0 の下で

Z^2 \stackrel{a}{\sim}\chi^2(1)

\chi^2 分布表より H_0 の下で

\Pr\left[Z^2 \ge 3.84146\right] \approx 0.05

したがって近似的な棄却域は [3.84146,\infty).もちろん 1.96^2 \approx 3.84146 で両検定は同等.

2 適合度検定

2.1 適合度検定問題(p. 245)

母集団分布の cdf を F(.) とする(ノンパラメトリックでもよい).

定義 1 母集団分布に対する標本の適合度の検定を適合度検定という.

注釈. 適合度検定問題は

H_0:F(.)=F_0(.) \quad \text{vs} \quad H_1:F(.) \ne F_0(.)

k 階級に分割して分布を表すと

階級 F(.) F_0(.)
1 p_1 p_{0,1}
\vdots \vdots \vdots
k p_k p_{0,k}
1 1

次の適合度検定問題を考える(元の問題と同等ではない).

H_0:\begin{pmatrix} p_1 \\ \vdots \\ p_{k-1} \\ \end{pmatrix}=\begin{pmatrix} p_{0,1} \\ \vdots \\ p_{0,k-1} \\ \end{pmatrix} \quad \text{vs} \quad H_1:\begin{pmatrix} p_1 \\ \vdots \\ p_{k-1} \\ \end{pmatrix} \ne \begin{pmatrix} p_{0,1} \\ \vdots \\ p_{0,k-1} \\ \end{pmatrix}

未知母数は k-1 個.k=2 なら母比率の両側検定.k \ge 3 なら多次元母数の両側検定となる.

例 1 \mathrm{U}[0,1]\mathrm{N}(0,1) の標本(100個の乱数)の適合度(図 1).

図 1: U[0,1] と N(0,1) の標本(100個の乱数)の適合度

2.2 ピアソンの \chi^2 適合度検定(p. 246)

大きさ n の無作為標本の度数分布を考える.第 j 階級の度数を N_j とする.

定義 2 標本の度数分布における各階級の度数の観測値を観測度数という.

定義 3 標本の度数分布における各階級の度数の期待値を期待度数という.

注釈. すなわち \operatorname{E}(N_j)=np_{0,j}

定義 4 ピアソンの \chi^2 適合度検定統計量

\chi^2:=\sum_{j=1}^k\frac{(N_j-np_{0,j})^2}{np_{0,j}}

ただし N_j は観測度数,np_{0,j} は期待度数.

注釈. j 階級の観測相対度数は \hat{p}_j:=N_j/n,期待相対度数は p_{0,j} なので

\begin{align*} \chi^2 & =\sum_{j=1}^k\frac{(n\hat{p}_j-np_{0,j})^2}{np_{0,j}} \\ & =\sum_{j=1}^k\frac{n(\hat{p}_j-p_{0,j})^2}{p_{0,j}} \end{align*}

k=2 なら

\begin{align*} \chi^2 & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n(\hat{p}_2-p_{0,2})^2}{p_{0,2}} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n[(1-\hat{p}_1)-(1-p_{0,1})]^2}{1-p_{0,1}} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}} +\frac{n(\hat{p}_1-p_{0,1})^2}{1-p_{0,1}} \\ & =\frac{(1-p_{0,1})n(\hat{p}_1-p_{0,1})^2+p_{0,1}n(\hat{p}_1-p_{0,1})^2} {p_{0,1}(1-p_{0,1})} \\ & =\frac{n(\hat{p}_1-p_{0,1})^2}{p_{0,1}(1-p_{0,1})} \end{align*}

すなわち母比率の検定統計量と一致する.

定理 1 H_0 の下で

\chi^2 \stackrel{a}{\sim}\chi^2(k-1)

証明. 「統計学入門」の水準を超えるので略.

例 2 (p. 245,メンデルの法則) えんどう豆の形質の遺伝に関する実験結果:

階級 N_j \hat{p}_j p_{0,j}
黄・丸 315 0.5665 0.5625
黄・しわ 101 0.1817 0.1875
緑・丸 108 0.1942 0.1875
緑・しわ 32 0.0576 0.0625
556 1.0000 1.0000

適合度検定問題は

H_0:\begin{pmatrix} p_1 \\ p_2 \\ p_3 \\ \end{pmatrix}=\begin{pmatrix} p_{0,1} \\ p_{0,2} \\ p_{0,3} \\ \end{pmatrix} \quad \text{vs} \quad H_1:\begin{pmatrix} p_1 \\ p_2 \\ p_3 \\ \end{pmatrix} \ne \begin{pmatrix} p_{0,1} \\ p_{0,2} \\ p_{0,3} \\ \end{pmatrix}

有意水準を 5%とする.H_0 の下で

\chi^2 \sim \chi^2(3)

\chi^2 分布表より H_0 の下で

\Pr\left[\chi^2 \ge 7.81473\right] \approx 0.05

したがって近似的な棄却域は [7.81473,\infty)\chi^2=0.47 となるので H_0 は棄却されない(ただし捏造の疑いあり?).

3 独立性の検定(p. 248)

3.1 独立性の検定問題

2変量母集団分布を F_{X,Y}(.,.),その周辺分布を F_X(.),F_Y(.) とする.独立性の検定問題は

H_0:F_{X,Y}(.,.)=F_X(.)F_Y(.) \quad \text{vs} \quad H_1:F_{X,Y}(.,.) \ne F_X(.)F_Y(.)

k \times l 分割表で分布を表すと

階級 1 \ldots l
1 p_{1,1} \ldots p_{1,l} p_{1,.}
\vdots \vdots \vdots \vdots
k p_{k,1} \ldots p_{k,l} p_{k,.}
p_{.,1} \ldots p_{.,l} 1

次の適合度検定問題を考える(元の問題と同等ではない).

\begin{align*} & H_0:\begin{bmatrix} p_{1,1} & \ldots & p_{1,l-1} \\ \vdots & & \vdots \\ p_{k-1,1} & \ldots & p_{k-1,l-1} \\ \end{bmatrix}=\begin{bmatrix} p_{1,.}p_{.,1} & \ldots & p_{1,.}p_{.,l-1} \\ \vdots & & \vdots \\ p_{k-1,.}p_{.,1} & \ldots & p_{k-1,.}p_{.,l-1} \\ \end{bmatrix} \\ & \text{vs} \quad H_1:\begin{bmatrix} p_{1,1} & \ldots & p_{1,l-1} \\ \vdots & & \vdots \\ p_{k-1,1} & \ldots & p_{k-1,l-1} \\ \end{bmatrix} \ne \begin{bmatrix} p_{1,.}p_{.,1} & \ldots & p_{1,.}p_{.,l-1} \\ \vdots & & \vdots \\ p_{k-1,.}p_{.,1} & \ldots & p_{k-1,.}p_{.,l-1} \\ \end{bmatrix} \end{align*}

未知母数は (k-1)(l-1) 個.

3.2 独立性の \chi^2 検定

大きさ n の無作為標本における各階級の相対度数を \hat{p}_{i,j},\hat{p}_{i,.},\hat{p}_{.,j} などとする.

定義 5 独立性の \chi^2 検定統計量

\chi^2 :=\sum_{i=1}^k\sum_{j=1}^l\frac{n(\hat{p}_{i,j}-\hat{p}_{i,.}\hat{p}_{.,j})^2}{\hat{p}_{i,.}\hat{p}_{.,j}}

ただし \hat{p}_{i,j} は観測相対度数,\hat{p}_{i,.}\hat{p}_{.,j} は期待相対度数.

定理 2 H_0 の下で

\chi^2 \stackrel{a}{\sim}\chi^2((k-1)(l-1))

証明. 「統計学入門」の水準を超えるので略.

例 3 (pp. 248–250) 2 つの試験の成績(n=42

成績 A B C
A 0.10 0.05 0.07 0.21
B 0.19 0.10 0.14 0.43
C 0.14 0.07 0.14 0.36
0.43 0.21 0.36 1.00

独立なら

成績 A B C
A 0.09 0.05 0.08 0.21
B 0.18 0.09 0.15 0.43
C 0.15 0.08 0.13 0.36
0.43 0.21 0.36 1.00

独立性の検定問題は

H_0:\begin{bmatrix} p_{1,1} & p_{1,2} \\ p_{2,1} & p_{2,2} \\ \end{bmatrix}=\begin{bmatrix} p_{1,.}p_{.,1} & p_{1,.}p_{.,2} \\ p_{2,.}p_{.,1} & p_{2,.}p_{.,2} \\ \end{bmatrix} \quad \text{vs} \quad H_1:\begin{bmatrix} p_{1,1} & p_{1,2} \\ p_{2,1} & p_{2,2} \\ \end{bmatrix} \ne \begin{bmatrix} p_{1,.}p_{.,1} & p_{1,.}p_{.,2} \\ p_{2,.}p_{.,1} & p_{2,.}p_{.,2} \\ \end{bmatrix}

有意水準を 5%とする.H_0 の下で

\chi^2 \sim \chi^2(4)

\chi^2 分布表より H_0の下で

\Pr\left[\chi^2 \ge 9.48773\right] \approx 0.05

したがって近似的な棄却域は [9.48773,\infty)\chi^2=0.19 となるので H_0 は棄却されない(ただし捏造の疑いあり?).

例 4 男女の相性は血液型で決まるとの俗説がある.その真偽を科学的に検証したい.そこで無作為に選んだ117組の夫婦の血液型を調べたところ,次表の結果が得られた(数値は百分率を四捨五入).

夫\妻 A O B AB
A 0.15 0.14 0.06 0.07 0.41
O 0.10 0.07 0.10 0.03 0.30
B 0.08 0.09 0.04 0.01 0.22
AB 0.04 0.00 0.03 0.00 0.07
0.37 0.30 0.23 0.10 1.00

独立なら

夫\妻 A O B AB
A 0.1517 0.1230 0.0943 0.0410 0.41
O 0.1110 0.0900 0.0690 0.0300 0.30
B 0.0814 0.0660 0.0506 0.0220 0.22
AB 0.0259 0.0210 0.0161 0.0070 0.07
0.37 0.30 0.23 0.10 1.00

有意水準を 5%とする.H_0 の下で

\chi^2 \sim \chi^2(9)

\chi^2 分布表より H_0 の下で

\Pr\left[\chi^2 \ge 16.919\right] \approx 0.05

したがって近似的な棄却域は [16.919,\infty)\chi^2=14.2309624 となるので H_0 は棄却されない.

まとめ

今日のキーワード

母比率の片側検定, 母比率の両側検定, 適合度検定, 観測度数, 期待度数, ピアソンの \chi^2 適合度検定, 独立性の \chi^2 検定

次回までの準備