1 仮説検定 (Hypothesis Testing)

1.1 統計的仮説とは

 統計的な研究対象となる集合全体を母集団 (population) という。北海道での「ゆめぴりか」の収量、東北地方のいもち病被害率、などである。母集団においては、その要素が従う確率分布 (母集団分布) が想定される。たとえば、収量では正規分布、被害率では2項分布、などである。
  一つもししくは複数の母集団に対する断定や主張は統計的仮説 (statistical hypothesis) を構成し、 これには、

  • 母集団平均 (母平均) は5である。  
  • 2つの母集団の分散 (母分散) は等しい。  
  • 母集団は正規分布に従う。  
  • 4つの集団の母平均は等しい。  
  • 形質Aと形質Bは独立である。

などが考えられる。

1.2 帰無仮説 (\({\rm H}_0\)) と対立仮説 (\({\rm H}_1\))

 統計的仮説検定で用いられる仮説は、まず、帰無仮説 (null hypothesis) として与えられる。帰無仮説は棄却 (reject) されることが期待される仮説であることが多い。帰無仮説と反対の仮説を対立仮説 (alternative hypothesis) と言う。
 例えば、

  • 帰無仮説:母集団 A と母集団 B の平均は等しい。\({\rm H}_0 : \mu_A = \mu_B\)  
  • 対立仮説:母集団 A と母集団 B の平均は異なる。\({\rm H}_1 : \mu_A \ne \mu_B\)

を考えてみると、母集団 A と B は異なる処理 (薬の投与など) をしているので、実験の目的は、母集団 A と B の平均は異なる (処理効果がある) ことを言いたい (対立仮説が正しいことを望む)のだが、まずは 「等しい(処理効果無し)」と仮定してみようという考え方で、数学の背理法と似た論理 (ロジック) である。

背理法\(\sqrt{2}\) が無理数であることを証明するため、まず \(\sqrt{2}\) が有理数であると仮定 (帰無仮説に対応) し、矛盾があることを示す。つまり、有理数であることは絶対ありえない (確率0とも言える) ことを示す。この矛盾は、そもそも \(\sqrt{2}\) を有理数とした仮定が誤っていたからであると考え、有理数という仮定 (帰無仮説) を棄却して、無理数であることを証明 (対立仮説を受託) する。

 しかしながら、帰無仮説が正しいことを望む検定もある。例えば、

  • 帰無仮説:母集団は正規分布に従う

などである。この帰無仮説が棄却された場合、通常の統計的解析手法は厳密には適用できない場合があるので、取り扱いがより面倒になるためである。

1.3 統計的仮説検定の概要

検定統計量と帰無分布

 検定統計量 (test statistic) は、帰無仮説が正しいと仮定した時に標本の値から算出され、検定に用いられる数値で、後述の、\(z\) 値、\(t\) 値、\(F\) 値などである。これらの統計量に対し、帰無仮説が正しいと仮定した時の分布である、標準正規分布、\(t\) 分布、\(F\) 分布などの帰無分布が分かっているので、帰無仮説を棄却するかどうかを判定する (両側) \(5 \%\) 分位点や \(p\) 値が求められる。

\(p\)

 帰無仮説が真と仮定した帰無分布のもとで、検定統計量の値以上(もしくは未満)の値 (検定統計量の値より極端な値) が得られる確率が \(p\)である。たとえば、帰無分布として標準正規分布を用いる \(z\) 検定の両側検定において、検定統計量の値である \(z\) 値が \(z=2.1\) であったとすると、標準正規分布では、\({\bf P}[Z>2.1]=0.0179\) であり、両側検定なので \({\bf P}[Z<-2.1]\) となる確率も考慮して、\(p = 2 \times 0.01786 = 0.0357\) と計算される。これが、\(p\) 値である。

z <- 2.1       # 検定統計量の値
p <- 1-pnorm(z)
2*p            # p 値
## [1] 0.03572884
x <- seq(-3.5,3.5,by=0.1)
plot(x, dnorm(x), type="l")
abline(h=0)
segments(z, 0, z, dnorm(z))
segments(-z, 0, -z, dnorm(-z))
xx <- seq(z, 3.5, by=0.1)
yy <- dnorm(xx)
xx <- c(xx, z)
yy <- c(yy, 0)
polygon(xx, yy, col="yellow")
xx <- seq(-z, -3.5, by=-0.1)
yy <- dnorm(xx)
xx <- c(xx, -z)
yy <- c(yy, 0)
polygon(xx, yy, col="yellow")
title("Figure of p value when z = 2.1")

 \(p\) 値は、数学的には正しくないが、帰無仮説が正しいとしたときに標本のようなデータが得られる確率、もしくは帰無仮説が正しい確率、と解釈するとイメージがつかみやすい。帰無仮説として、2つの母集団の平均が等しい、を考えたとき、\(p\) 値が十分小さい(ほとんどありえない)ときは、平均が等しいと仮定したことが誤りであったと判断して帰無仮説を棄却し、2つの母集団平均には有意な差があると結論づける。
  この確率がそれほど小さくない場合は、このような統計量が得られることもありえると考え、帰無仮説を採択し、平均が等しいと考えても良いとする。平均は等しかった、と言い切ることはできず、平均には有意な差が認められなかった、という結論になる。

有意水準と棄却域

  棄却か採択かの判断の基準となる確率を有意水準 (significance level) といい、切りのいい数値として \(5 \%\)\(1 \%\) が良く用いられている。帰無分布の \(5 \%\)\(1 \%\) などの分位点があらかじめ与えられていれば、検定統計量の値を分位点と比較することで、帰無仮説を棄却するかどうかを決定することができる。\(z\) 検定においては、標準正規分布の両側 \(5 \%\) 点が \(1.960\) なので、有意水準 \(5 \%\) の検定では、検定統計量である \(z\) 値が以下の領域 \(R\) に含まれたとき、 \[ R = \{z < -1.96 \} \cup \{z \ge 1.96\} \] すなわち、\(z \in R\) であるとき帰無仮説は棄却される。この領域 \(R\)棄却域 (rejection region) という。また、棄却域 \(R\) の補集合 \(R^c = \{ -1.96 \le z < 1.96 \}\)採択域 (acceptance region) と言う。

 先ほどの例では、\(z=2.1\) であり、標準正規分布の両側 \(1 \%\) 点が \(2.576\) なので、\(1 \%\) 有意ではないが、\(5 \%\) の棄却域に含まれるので、\(5 \%\) 有意であると結論づけられる。なお、\(p\) 値が \(0.0357\) だったことからも同様の結論を導くことができる。

片側検定と両側検定

 母集団母数の検定では、薬投与などの処理を行った集団(処理群)平均 \(\mu_A\) が,薬を投与しない集団(対照群)の平均 \(\mu_B\) より小さくなることはない、ことが事前に わかっているような場合がある。このようなとき、 \[ 帰無仮説、{\rm H}_0 : \mu_A = \mu_B、対立仮説、{\rm H}_1 : \mu_A > \mu_B \] とすることができる。これを片側検定という。これは、事前情報より、\(\mu_A < \mu_B\) となる可能性をまったく考えない場合である。このため検定には、片側 \(5 \%\) 点や \(1 \%\) 点を用いる。また、\(\mu_A > \mu_B\) となる可能性をまったく考えない \[ 帰無仮説、{\rm H}_0 : \mu_A = \mu_B、対立仮説、{\rm H}_1 : \mu_A < \mu_B \] となる片側検定を行う場合もある。

 一般には、事前情報が無いと考え、両側検定 \[ 帰無仮説、{\rm H}_0 : \mu_A = \mu_B、対立仮説、{\rm H}_1 : \mu_A \ne \mu_B \] を行う。このときは、両側 \(5 \%\) 点や \(1 \%\) 点を用いる。両側検定の方が片側検定より帰無仮説を棄却しにくい (有意になりにくい)。

1.4 検定における2種類の過誤

 統計的仮説検定は、帰無仮説を棄却するか採択するかのいずれかであるが、 統計量は分布をもつので、この判定には間違いが起こることがある。 以下のように、この過誤には 2 種類がある。

          仮説の棄却 (Reject) 仮説の受託 (Accept)
仮説が真 (True) のとき 第1種の過誤 (Type I error) 、確率 \(\alpha\) 正解
仮説が偽 (False) のとき 正解、検出力 \(1-\beta\) 第2種の過誤 (Type II error)、確率 \(\beta\)

 第1種の過誤の確率 \(\alpha\)有意水準である。また、第2種の過誤の確率を \(\beta\) としたとき、 仮説が偽のとき正しく仮説を棄却する確率、\(1 - \beta\),を検出力、もしくは検定力(power)という。 よい検定は,第1種の過誤を固定したもとで検出力の高い検定方式である。  

参考:刑事裁判との関係

 統計的仮説検定は、刑事裁判のロジックと似ている。刑事裁判では、「無罪推定」とされているが、これは。  

  • 帰無仮説:被告は無実である。  

と考えることに対応している。被告が無実であるのに有罪となるのがえん罪で、まともな国ではえん罪確率 (有意水準) はほぼ0であることが望ましい。しかし、えん罪確率を減少させれば、見逃し確率は高くなり、犯人を正しく有罪にする検出力は低下してしまう。なお一般に、無罪は無実を証明したことにはならない。無罪は無実である場合もあるが、「疑わしくは罰せず」という原理から、有罪を宣告するに十分な証拠 (データ) が得られなかった場合も往々にしてあるわけである。  

          有罪 無罪
被告が無実のとき えん罪 正当
被告が犯人のとき 正当 見逃し

   

2 推定

2.1 点推定

  母集団が従うと想定した確率分布を \(f(x|\theta)\) としたとき、\(\theta\) を分布パラメータ (母数) と言う。正規分布なら \(\theta = (\mu, \sigma^2)\) であり、二項分布なら \(\theta = (n, p)\) である。母集団の分布パラメータ \(\theta\) を母集団からの大きさ (size) \(n\) の無作為標本(random sample)\(X_1, \ldots,X_n\)、を用いて推定することを点推定 (point estimation) と言う。

  点推定を行う方法として、モーメント法(moment matching)と最尤法(maximum likelihood)が知られている。

モーメント法

 モーメント法は、推定量を計算する最も自然なものである。これは、分布の \(k\) 次モーメント(積率)と標本の \(k\) 次モーメント \[ \bar{X^k} = \frac{1}{n} X_i^k \] を等しいとおく(マッチングする)ことで \(\theta\) の推定量(estimator)を求める方法である。なお、標本の実現値(データ)\(x_1,\ldots,x_n\) が得られたときは \(\theta\) の推定値(estimate)と言い、両者は区別される。

例1:「馬に蹴られて死んだ兵士の数」の分布

 ロシア人の統計学者Bortkewitchが、プロイセン(ドイツ)陸軍の10の騎兵連隊の中で、1875年から1894年にかけての20年間におけるのべ200連隊において、1年間で「馬に蹴られて死んだ兵士の数」を調査したところ、以下の表のデータを得た。

死亡者数 0 1 2 3 4 5以上
連隊数 109 65 22 3 1 0 200

このデータ分布の平均と分散 \[ \mu = {\rm E}[X] = \sum_i x_i p_i, \ \sigma^2 = {\rm Var}[X] = \sum_i (x_i-\mu)^2 p_i \] を計算し、これがポアソン分布 \[ p(x|\lambda) = \frac{\lambda^x}{x!} e^{-\lambda}, \ x =0, 1,2, \cdots, \ \mu=\sigma^2 = \lambda \] に当てはまることを示し、モーメント法でパラメータを推定してみよう。

x <- 0:5 # 死亡者数
y <- c(109, 65, 22, 3, 1, 0)  # 連隊数データ
n <- sum(y); n
## [1] 200
p <- y/n   # データ確率分布
m <- sum(x*p); m  # データ平均
## [1] 0.61
v <- sum((x-m)^2*p); v  # データ分散
## [1] 0.6079

 データ分布平均と分散がほぼ等しいので、このデータ分布はポアソン分布に従っていると考えられる。ポアソン分布パラメータ \(\lambda\) のモーメント法による推定値は、データ平均を用いる場合とデータ分散を用いる場合の2通りが考えられる。すなわち、\(\lambda_1 = 0.61、\lambda_2 = 0.6079\) の2通りである。後述の最尤推定量は \(\hat{\lambda} = \bar{X}=0.61\) であ であるので、これを \(\lambda\) の推定値とする。このポアソン分布をデータ分布に当てはめたのが下の図で、データにポアソン分布が良く適合していることがわかる。

q <- dpois(x, m); q   # $\lambda_1$ のポアソン分布
## [1] 0.5433508691 0.3314440301 0.1010904292 0.0205550539 0.0031346457
## [6] 0.0003824268
plot(x, p, type="h")  # データ確率分布
lines(x, q, type="b", col="red")   #  ポアソン確率

最尤法

 最尤推定(maximum likelihood estimation)は、1920年代に R. A. Fisher によって提案され、現在においても、統計的推定論において最もよく用いられている手法の一つである。この方法は、データ生成モデルを母数の関数とみなしたときの、極値を探索する最適化問題として定式化できる。

 いま、\(X_1,\ldots,X_n\)\(f(x|\theta)\) の分布をもつ母集団から得られた標本だとする。標本の要素は互いに独立なので、その同時分布は、個々の確率密度関数の積で表され、 \[ f(X_1,\ldots,X_n|\theta) = \prod_i f(X_i|\theta) \] となる。この同時分布を母数 \(\theta\) の関数としてみたものを尤度(likelihood)、 \[ L(\theta|X_1,\ldots,X_n ) = \prod_i f(X_i|\theta) \] と呼ぶ。尤度 \(L(\theta|X_1,\ldots,X_n)\) を最大化する統計量 \(\hat{\theta}\)最尤推定量(maximum likelihood estimator : MLE)と言う。

 多くの場合、尤度の対数である対数尤度(log likelihood)、 \[ l(\theta| X_1,\ldots,X_n) = \log L(\theta| X_1,\ldots,X_n ) = \sum_i \log f(X_i|\theta) \] を最大化する方が容易である。これは尤度における掛け算が対数尤度では足し算になるからである。対数は単調増加関数なので、尤度と対数尤度の最適化は同じ最尤推定量になる。

 具体的には、 \[ \hat{\theta} = {\rm argmax}_\theta l(\theta| X_1,\ldots,X_n) \] であり、これは、 \[ \frac{\partial^2 l(\theta| X_1,\ldots,X_n)}{\partial \theta^2} < 0 \] の条件のもとで、 \[ \frac{\partial l(\theta| X_1,\ldots,X_n)}{\partial \theta} = 0 \] の解として得ることができる。

例2:ポアソン分布のパラメータ \(\lambda\) の最尤推定

 ポアソン分布からの標本 \(X_1,\ldots,X_n\) に対し、尤度は、

\[ L(\lambda | X_1,\ldots,X_n) = \prod_i e^{-\lambda}\frac{\lambda^{X_i}}{X_i !} = e^{-n\lambda}\frac{\lambda^{\sum_i X_i}}{\prod_i X_i !} \] と書ける。尤度の最大を直接求めるより、対数尤度、 \[ l(\lambda | X_1,\ldots,X_n) = -n \lambda + \sum_i X_i \log\lambda - \log \prod_i X_i ! \] を考えた方が計算は楽である。\(\lambda\) で微分して、0とおくと、 \[ \frac{d l}{d \lambda} = -n + \frac{\sum_i X_i}{\lambda} = 0 \] となり、最尤推定量は、 \[ \hat{\lambda} = \frac{1}{n}\sum_i X_i = \bar{X} \] となる。これは1次のモーメント推定量と一致している。なお、2次微分は、 \[ \frac{d^2 l}{d \lambda^2} = -\frac{\sum_i X_i}{\lambda^2} < 0 \] となるので常に負であり、対数尤度は上に凸であり、最尤推定量は対数尤度を最大にすることがわかる。

例3:正規分布の母数 \(\mu、\sigma^2\) の最尤推定

 正規分布 \(N(\mu, \sigma^2)\) からの標本 \(X_1,\ldots,X_n\) に対し、尤度及び対数尤度は、 \[ L(\mu,\sigma^2|X_1,\ldots,X_n) = \prod_i \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{(X_i-\mu)^2}{2\sigma^2}} = \Bigl(\frac{1}{2 \pi \sigma^2} \Bigr)^{n/2} e^{-\frac{1}{2 \sigma^2}\sum_i(X_i-\mu)^2} \\ l(\mu,\sigma^2|X_1,\ldots,X_n) = -\frac{n}{2}\log 2 \pi - \frac{n}{2}\log \sigma^2 - \frac{1}{2 \sigma^2} \sum_i(X_i - \mu)^2 \] となる。対数尤度を \(\mu、\sigma^2\) で偏微分して0とおくと、 \[ \frac{\partial l}{\partial \mu} = \frac{1}{\sigma^2}\sum_i(X_i - \mu) = 0 \\ \frac{\partial l}{\partial \sigma^2} = -\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2} \sum_i (X_i-\mu)^2 = 0 \] となり、これらを解くと、最尤推定量 \[ \hat{\mu} = \frac{1}{n}\sum_i X_i = \bar{X}, \ \hat{\sigma^2} = \frac{1}{n} \sum_i (X_i-\hat{\mu})^2 = \frac{1}{n} \sum_i (X_i - \bar{X})^2 \] が得られる。

 最尤推定量(MLE)が持つ重要な特性の一つに、不変性(invariance property)がある。\(\hat{\theta}\)\(\theta\) のMLEとし、\(\eta = g(\theta)\) を任意の関数とすると、\(\hat{\eta} = g(\hat{\theta})\)\(\eta\) のMLEである。

2.2 推定量の不偏性(unbiasedness)と一致性(consistency)

標本分布

 \(X_1,\ldots,X_n\)\(f(x|\theta)\) の分布をもつ母集団から得られた標本であり、\(\hat{\theta}_n = g (X_1,\ldots,X_n)\) が母数 \(\theta\) を推定するための統計量だとする。推定量 \(\hat{\theta}_n\) は、標本の関数なので、確率変数である。確率変数であるならば、推定量はその期待値(平均)や分散、および、標本分布(sampling distribution)と呼ばれる分布を持つ。

例4:標本比率の分布

 ある特定の地理的領域における AB型血液型をもつ被験者の割合に興味があるとする。この割合 \(\theta\) は、それぞれ1と0を \(\theta\)\(1 - \theta\) の確率で取るベルヌーイ(Bernoulli)分布からの標本 \(Y_1,\ldots,Y_n\) に基づいて推定される。ここで実現値 \(Y_i = 1\) は、\(i\) 番目の観察対象がAB型であったことを意味する。標本の和 \(X = \sum Y_i\) は、二項分布 Bin\((n, \theta)\) に従う。

 \(\theta\) の推定量は、\(\hat{\theta}_n = \bar{Y} = X/n\) である。なお、この推定量はモーメント推定量でもあり、最尤推定量でもある。\(X\) は二項分布に従っているので、\(\hat{\theta}_n\) もまたスケール変換された実現値 \(\{0, 1/n, 2/n,\ldots, 1\}\) を持つ二項分布に従う。すなわち、 \[ {\bf P} \Bigl[ \hat{\theta}_n = \frac{k}{n} \Bigr] = \binom{n}{k} \theta^k (1-\theta)^{n-k} \] となる。これが、推定量の標本分布である。

 二項分布であることの関係を考慮すると、\(\hat{\theta}_n\) の平均が、二項分布の平均 \(n\theta\)\(1/n\) 倍の値をもつことが分かる。すなわち、 \[ {\rm E}[\hat{\theta}_n ] = \frac{1}{n} \times n\theta = \theta \] であり、また分散は \[ {\rm Var}[\hat{\theta}_n] = \Bigl( \frac{1}{n} \Bigr)^2 \times n\theta(1-\theta) = \frac{\theta(1-\theta)}{n} \] となる。

不偏性

 標本分布に対する平均 \({\rm E}[\hat{\theta}_n] = \theta\) のとき、推定量 \(\hat{\theta}_n\)不偏(unbiased)と言う。また、 \[ b(\hat{\theta}_n ) = {\rm E}[\hat{\theta}_n ] - \theta \]\(\hat{\theta}_n\)偏りバイアス(bias)と呼ぶ。

平均二乗誤差(MSE)

 推定誤差や精度は様々な尺度で評価される。最もよく用いられるのは。平均二乗誤差(mean squared error : MSE)である。MSE は、推定される母数とその推定量の間の期待される二乗偏差(squared deviation)を表す。この期待値は、\(\hat{\theta}\) の標本分布に対するものである。 \[ {\rm MSE}(\hat{\theta}) = {\rm E}[(\hat{\theta} - \theta)^2 ] = {\rm Var}[\hat{\theta}]+b(\hat{\theta})^2 \] MSEは、推定量の分散と偏りの二乗の和となる。これは、以下の計算から示される。 \[ {\rm E}[(\hat{\theta} - \theta)^2 ] = {\rm E}[\{ (\hat{\theta} -{\rm E}[\hat{\theta}) ] +({\rm E}[\hat{\theta}) ]- \theta) \}^2 ] \\ = {\rm E}[ (\hat{\theta} -{\rm E}[\hat{\theta}])^2] - 2{\rm E}[(\hat{\theta} -{\rm E}[\hat{\theta}]) ] \cdot {\rm E}[({\rm E}[ (\hat{\theta}) ]- \theta) ] + {\rm E}[({\rm E}[ (\hat{\theta}) ]- \theta)^2 ] \\ = {\rm E}[ (\hat{\theta} -{\rm E}[\hat{\theta}])^2] + ({\rm E}[ (\hat{\theta}) ]- \theta)^2 = {\rm Var}[\hat{\theta}] +b(\hat{\theta})^2 \] なお、MSEの平方根が用いられる場合もあり、平均二乗誤差平方根(root mean squared error : RMSE)と呼ばれる。 不偏推定量においては、偏りが0(\(b(\hat{\theta} )\) = 0)なので、MSEは推定量 \(\hat{\theta}\) の分散になり、RMSEが \(\hat{\theta}\)標準誤差(standard error : SE)となる。

一致性

 母集団から大きさ \(n\) の標本 \(X_1, \cdots, X_n\) を抽出して分布パラメータ \(\theta\) の推定量 \(\hat{\theta_n}\) 構成したとする。このとき、標本の大きさ \(n\) を大きくしていけば母数 \(\theta\) を正しく推定できることが必要である。つまり、任意の \(\epsilon\) に対し、 \[ \lim_{n \to \infty} {\bf P} [ |\hat{\theta_n}-\theta | < \epsilon ] = 1 \] が成り立つことが必要である。このような性質を持つ推定量を一致推定量 (consistent estimator) という。

 不偏推定量の分散の挙動を調べることで、その一致性が確認できる。すなわち、不偏推定量 \(\hat{\theta}_n\) において、標本の大きさ \(n → \infty\) のとき、Var[\(\hat{\theta}_n\)] → 0 となるとき、その推定量は一致性があるという。例えば、母集団比率推定量 \(\hat{p} = X/n\) は一致性がある。なぜなら、Var[\(\hat{p}\)] = \(p(1-p)/n → 0(n → \infty)\) であるからである。

2.3 平均、分散、頻度の推定

平均の点推定

 大きさ \(n\) の標本 \(X_1,\ldots,X_n\) に対して、標本平均 \(\bar{X}\) による位置母数(location parameter)推定について既に議論した。母平均 \(μ\) の推定量として標本平均 \(\hat{μ} = \bar{X}\) は自然な選択である。推定量 \(\bar{X}\) は、多くの異なる分布において、また、多くの異なる最適性の定義において、母平均 \(μ\) の「最適な」推定量である。

 推定量 \(\bar{X}\) は標本ごとに変化する。より正確に言うと、 \(\bar{X}\) は、観察値 \(X_i\) の分布に依存して決まる分布を持つ確率変数である。以下は、E\([X_i] = \mu\)、Var\([X_i] = \sigma^2\) が存在する限り、母集団のいかなる分布についても成り立つ。これは、\(\bar{X}\) が不偏で一致性をもつ \(μ\) の推定量であることを示している。 \[ {\rm E}[\bar{X}] = \mu, \ {\rm Var}[\bar{X}] = \frac{\sigma^2}{n} \]  証明は以下の通り。標本 \(X_1,\ldots,X_n\) は互いに独立で同一の分布 (母集団分布) を持つ (independent and identically distributed. iid) ので、 \[ {\rm E}[\bar{X}] = {\rm E}[\frac{1}{n}\sum_i X_i] = \frac{1}{n}\sum_i {\rm E}[X_i] = \frac{1}{n}n\mu = \mu \\ {\rm Var}[\bar{X}] = {\rm Var}[\frac{1}{n}\sum_i X_i] =\frac{1}{n^2}\sum_i{\rm Var}[X_i]= \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n} \] である。

 さらに加えて、標本の正規性、\(X_i \sim N(\mu, \sigma^2)\)、を仮定すると、\(\bar{X}\) の標本分布は、正規分布の再生性から、 \[ \bar{X} \sim N \Bigl(\mu, \frac{\sigma^2}{n} \Bigr) \] の正規分布に従う。

分散の点推定

 標本 \(X_1,\ldots,X_n\) に対し、母平均 \(\mu\) が既知の場合、\(\sigma^2\) の推定量は、 \[ \hat{\sigma^2} = \frac{1}{n}\sum_i(X_i - \mu)^2 \] となる。\(\mu\) が未知で、これを \(\bar{X}\) で推定する場合、 \[ \hat{\sigma^2} = s^2 = \frac{1}{n-1}\sum_i(X_i - \bar{X})^2 \] で推定される。\(s^2\) は標本分散とも呼ばれ、\(n\) でなく \(n-1\) で割るのは \(\sigma^2\) の不偏推定量にするためである。実際、 \[ {\rm E}[s^2] = {\rm E} \Bigl[\frac{1}{n-1}\sum_i(X_i - \bar{X})^2 \Bigr] = \frac{1}{n-1}{\rm E}[\sum_i(X_i - \mu)^2 -n(\bar{X}-\mu)^2 ] \\ = \frac{1}{n-1} \left\{ \sum_i {\rm E[(X_i - \mu)^2]} -n{\rm E}[(\bar{X}-\mu)^2] \right\} = \frac{1}{n-1} \{\sum_i{\rm Var}[X_i] - n{\rm Var}[\bar{X}] \} \\ = \frac{1}{n-1} \Bigl(\sigma^2 - n\frac{\sigma^2}{n} \Bigr) = \sigma^2 \] となるので、\(s^2\) が不偏であることが分かる。分散 \(\sigma^2\) の最尤推定量は \(n\) で割ったものなので不偏ではない。

例5:標本分散の不偏性

 分散 \(\sigma^2\) の最尤推定量(\(n\) で割る)は不偏ではなく、\(n-1\) で割る標本分散は不偏であることをシミュレーションで確認してみよう。いま、平均 50、分散 100の正規母集団を考える。母集団平均と分散が未知であるときに、ここから大きさ \(n = 20\) の無作為標本を抽出して母分散を推定した。\(N = 10000\) 回のシミュレーションで標本分散を計算したところ、その平均値が 99.72となり、ほぼ 100なので、標本分散が不偏推定量であることが示された。一方、\(n\) で割る最尤推定量は不偏ではなかった。

n <- 20; N <- 10000       # 標本の大きさとシミュレーション回数
v1 <- v2 <- numeric(0)
for(i in 1:N){
x <- rnorm(n, mean=50, sd=10)   # N(50, 102) からn個の正規乱数抽出
v1 <- c(v1, var(x))     # 標本分散
v2 <- c(v2, var(x)*(n-1)/n) # nで割る分最尤推定量
}
mean(v1)
## [1] 100.5518
mean(v2)
## [1] 95.5242

比率の点推定

 母集団における比率 \(p\) の推定において、標本における比率を用いることは自然な方法である。標本比率は \(p\) の最尤推定量であり、かつ、モーメント法推定量である。標本における比率は、二項分布から得られる。いま、\(X\) を母比率 \(p\) を持つ二項分布に従う確率変数とする。観測値 \(X\) に基づく \(p\) の最尤推定量は、以下の尤度、 \[ L(p|X) = \binom{n}{X} p^X (1-p)^{n-X} \] もしくは、対数尤度、 \[ l(p|X) = C + X \log p + (n-X) \log (1-p) \] を最大にすることによって得られる。これは、対数尤度を \(p\) で微分して 0 とおけばよい。 \[ \frac{d}{dp}l(p|X) = \frac{X}{p} - \frac{n-X}{1-p} = 0 \\ X(1-p) = p(n-X), \ X=pn, \ \hat{p} = \frac{X}{n} \] が得られ、母比率 \(p\) の最尤推定量が求められた。この推定量の不偏性と一致性はすでに述べた。

2.4 区間推定(Interval estimation)

信頼区間(confidence interval : C.I.)

 点推定量 \(\hat{\theta}\) の標本分布が連続的な場合、必ず \({\bf P}[\hat{\theta}=\theta] = 0\)、となる。つまり、推定量が未知母数に完全に一致する確率は 0 である。そこで、2 つの推定量 \(L = L(X_1,\ldots,X_n)\)\(U = U(X_1,\ldots,X_n)\) を考え、\([L, U ]\) の区間に \(\theta\)\(1-\alpha\) の確率で含まれるようにすることが考えられる。このとき、区間 \([L, U ]\)\(\theta\)\((1-\alpha) \times 100\%\) 信頼区間とよばれる。例えば、\(\alpha= 0.05\) のときは、95% 信頼区間が構成される。

3 1標本 (1つの母集団) に対する推論

3.1 正規母集団の平均に対する推論

 まず、正規分布に従う母集団の母平均 \(\mu\) に対する検定を考える。過去のデータなどから母分散 \(\sigma^2\) の値が既知である場合と、標本から母分散を推定する場合とで検定方式は異なる。これは、母分散を標本から推定すると、その推定誤差が検定方式に影響を与えるからである。

\(z\) 検定 (母分散既知の場合)

 分散既知の正規分布 \(N(\mu, \sigma^2)\) から大きさ \(n\) 標本、\(X_1, \cdots, X_n\) を抽出したとき、

\[ 帰無仮説、{\rm H}_0 : \mu = \mu_0、 対立仮説、{\rm H}_1 : \mu \ne \mu_0 \] の両側検定問題を考えてみよう。母平均 \(\mu\) の推定量は標本平均 \(\bar{X}\) が最適であった。また、その標本分布は、\(\bar{X} \sim N(\mu, \sigma^2/n)\) であり、これを標準化した変量 \(Z\) は、 \[ Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \] のように標準正規分布に従っている。いま、帰無仮説が正しいと仮定すると、\(\mu = \mu_0\) なので、 \[ z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \] である \(z\) 値を検定統計量として、標準正規分布の分位点と比較することで母平均に対する検定が行える。両側検定であれば、標準正規分布の \(1-\alpha/2\) 分位点を \(z_{1-\alpha/2}\) とすると、\(|z| > z_{1-\alpha/2}\) であれば、帰無仮説を有意水準 \(100\alpha \%\) で棄却する。例えば、\(\alpha=0.05\) ならば標準正規分布の \(97.5\%\) 分位点が1.96なので、両側検定の場合、\(|z| > 1.96\) であれば、帰無仮説を有意水準 \(5\%\) で棄却する。このような検定方式を \(z\) 検定という。なお、片側検定は、説明が煩雑になるので、1標本の検定問題では省略する。

\(t\) 検定 (母分散未知の場合)

分散未知の正規分布 \(N(\mu, \sigma^2)\) から大きさ \(n\) 標本、\(X_1, \cdots, X_n\) を抽出したとき、

\[ 帰無仮説、{\rm H}_0 : \mu = \mu_0、 対立仮説、{\rm H}_1 : \mu \ne \mu_0 \]

の検定問題を考えてみよう。母平均 \(\mu\) の推定量は標本平均 \(\bar{X}\)、母分散 \(\sigma^2\) の推定量は標本分散 \(s^2 = \frac{1}{n-1}\sum_i (X_i - \bar{X})^2\) で推定される。このとき、 \[ t = \frac{\bar{X}-\mu}{s/\sqrt{n}} \sim t_{n-1} \] は自由度 \(n-1\)\(t\) 分布に従う。よって、帰無仮説が真ならば、\(\mu =\mu_0\) であるので、 \[ t = \frac{\bar{X}-\mu_0}{s/\sqrt{n}} \] である \(t\) 値を検定統計量として、自由度 \(n-1\)\(t\) 分布の分位点と比較することで母平均に対する検定が行える。両側検定であれば、 自由度 \(n-1\)\(t\) 分布の \(1-\alpha/2\) 分位点を \(t_{n-1, 1-\alpha/2}\) とすると、\(|t| > t_{n-1, 1-\alpha/2}\) であれば、帰無仮説を有意水準 \(100\alpha \%\) で棄却する。このような検定方式を \(t\) 検定という。

正規分布の母平均の信頼区間

 \(X_1,\ldots,X_n \sim N(\mu, \sigma^2)\) であり、母分散 \(\sigma^2\) が既知であるとする。標本平均を標準化して、標準正規分布に従う確率変数 \(Z\) を求めると、 \[ X_i \sim N(\mu, \sigma^2) \rightarrow \bar{X} \sim N \Bigl(\mu, \frac{\sigma^2}{n} \Bigr), \ Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \] となる。いま、標準正規分布 \(N(0, 1)\)\(1-\alpha/2\) 分位点を \(z_{1-\alpha/2}\) とすると \[ {\bf P}[-z_{1-\alpha/2} < Z < z_{1-\alpha/2}] = 1-\alpha \\ {\bf P}[-z_{1-\alpha/2} < \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < z_{1-\alpha/2}] = 1-\alpha \\ {\bf P}[-z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} + \mu < \bar{X} < z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} + \mu] = 1-\alpha \\ {\bf P}[ \bar{X} -z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} < \mu < \bar{X} +z_{1-\alpha/2}\frac{\sigma}{\sqrt{n}} ] = 1-\alpha \] となる。最後の式が、母平均 \(μ\)\((1-\alpha)\times 100 \%\) 信頼区間である。

 \(\sigma^2\) が未知の場合、信頼区間の式の \(\sigma\) は標本標準偏差 \(s\) で置き換え、\(z\) の分位点は自由度 \(n-1\)\(t\) 分布の分位点 \(t_{n-1, 1-\alpha/2}\) を用いる必要がある。よって、 \[ \bar{X} -t_{n-1,1-\alpha/2}\frac{s}{\sqrt{n}} < \mu < \bar{X} + t_{n-1, 1-\alpha/2}\frac{s}{\sqrt{n}} \] が母平均 \(μ\)\((1-\alpha)\times 100\%\) 信頼区間となる。

両側検定と信頼区間

 母平均に対する両側検定は,母平均に対する信頼区間と大きな関係がある。いま、帰無仮説(\({\rm H}_0\))と対立仮説(\({\rm H}_1\))が、

\[ 帰無仮説、{\rm H}_0 : \mu = \mu_0、 対立仮説、{\rm H}_1 : \mu \ne \mu_0 \] であるとする。このとき、

  • 帰無仮説を受諾 ⇔ 母平均 \(\mu\) の信頼区間に \(\mu_0\) が含まれる。
  • 帰無仮説を棄却 ⇔ 母平均 \(\mu\) の信頼区間に \(\mu_0\) が含まれない。  

が成り立つ。

信頼区間の意味

 95%信頼区間の 95%の意味は、未知の母平均 \(\mu\) が 95%の確率でその区間に含まれる、という意味ではない。正確には以下のようになる。母集団からの標本抽出を多数回行ったとする。すると、標本ごとに母平均 \(\mu\) の推定値である標本平均と \(\mu\) の 95%信頼区間が計算される。この構成された多くの信頼区間の 95%が母平均 \(\mu\) を含む、という意味である。

例6:信頼区間のシミュレーション

 95%信頼区間の意味をシミュレーションで確認してみよう。正規母集団 \(N(10, 22)\) から \(n =30\) の標本を抽出して95%信頼区間を計算する。これを \(N =10000\) 回行い、どれだけの割合の信頼区間が真の母平均 \(\mu= 10\) を含むかを調べる。

N <- 10000      # 標本抽出(サンンプリング)回数
n <- 30         # 標本の大きさ(サンプルサイズ)
mu <- 10; sigma <- 2    # 母集団の母平均と母標準偏差
alpha <- 0.05       # (1-α)100%信頼区間
tquantile <- qt(1 - alpha/2, df = n-1)      # t分布分位点
tquantile   # 2.04523 > 1.96,正規分布より信頼区間の幅が広くなる。
## [1] 2.04523
# 正規母集団からの標本抽出のシミュレーション
X <- matrix(rnorm(N*n, mu, sd=sigma), nrow=N, byrow=T)
xbar <- apply(X, 1, mean)       # 標本抽出ごとの標本平均
s <- apply(X, 1, sd)        # 標本抽出ごとの標本標準偏差
LB <- xbar - tquantile*s/sqrt(n)    # 標本抽出ごとの信頼区間下限
UB <- xbar + tquantile*s/sqrt(n)    # 標本抽出ごとの信頼区間上限
cover <- LB < mu & UB > mu  # 信頼区間に母平均μが含まれるかの真(T)偽(F)
head(cover)     # 含まれていればTRUE、含まれていなければFALSE
## [1] TRUE TRUE TRUE TRUE TRUE TRUE
sum(cover)/N        # 計算された信頼区間がμを含んだ割合
## [1] 0.948
# 信頼区間100個の表示
id <- 1:100
col <- rep("black", length(id))
col[!cover[id]] <- "red"        # 信頼区間がμを含まない時は赤
matplot(cbind(LB, UB)[id,], type="n")
segments(id, LB[id], id, UB[id], col=col)
points(id, xbar[id], pch=4, col="blue", cex=0.8)
abline(h=10, col="blue")
title(main="100 confidence intervals\nRed ones failed to contain the true mean")

3.2 正規母集団の分散に対する推論

母分散に対する検定

 すでに点推定のところで述べたように、正規母集団における母分散 \(\sigma^2\) は、母平均 \(\mu\) が未知の場合、標本分散 \(s^2\)\[ \hat{\sigma^2} = s^2 = \frac{1}{n-1}\sum_i(X_i - \bar{X})^2 \] で推定される。ところで、標本分散の標本分布は、 \[ \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1} \] のように自由度 \(n-1\)\(\chi^2\) 分布に従うので、これを用いて母分散の検定を構成することができる。いま、母分散に対する両側検定 \[ 帰無仮説、{\rm H}_0 : \sigma^2 = \sigma^2_0、 対立仮説、{\rm H}_1 : \sigma^2 \ne \sigma^2_0 \] を考えると、帰無仮説が正しいと仮定するので、検定統計量は、\(\sigma^2\)\(\sigma^2_0\) を代入した、 \[ \chi^2 = \frac{(n-1)s^2}{\sigma^2_0} \] として、自由度 \(n-1\)\(\chi^2\) 分布の分位点を用いて構成できる。有意水準 \(\alpha\) の両側検定は、自由度 \(n-1\)\(\chi^2\) 分布の \(\alpha\) 分位点を \(\chi^2_{n-1, \alpha}\) とすると、\(\chi^2\) 分布は左右対称でないので、\(\chi^2_1 = \chi^2_{n-1, \alpha/2}、\chi^2_2 = \chi^2_{n-1, 1-\alpha/2}\) としたとき、\(\chi^2 < \chi^2_1\) もしくは \(\chi^2_2 < \chi^2\) が成り立つとき帰無仮説を棄却する。

母分散の信頼区間

 母分散に対する検定で示したように、標本分散 \(s^2\) の標本分布は、自由度 \(n-1\)\(\chi^2\) 分布 に従うので、これを用いて母分散の信頼区間を構成することができる。すなわち、 \[ {\bf P}[\chi^2_1 < \chi^2_{n-1} < \chi^2_2] = 1-\alpha \\ {\bf P}[\chi^2_1 < \frac{(n-1)s^2}{\sigma^2} < \chi^2_2] = 1-\alpha \] となる。これを整理すると、 \[ \frac{(n-1)s^2}{\chi^2_2} < \sigma^2 < \frac{(n-1)s^2}{\chi^2_1} \] という母分散 \(\sigma^2\)\((1-\alpha) \times 100 \%\) 信頼区間が得られる。

 なお、母平均 \(\mu\) が既知のときは、すでに述べたように、母分散は \[ \hat{\sigma^2} = \frac{1}{n}\sum_i(X_i - \mu)^2 \] で推定され、この標本分布は自由度 \(n\)\(\chi^2\) 分布で記述されるので、母分散の信頼区間は、 \[ \frac{n \hat{\sigma^2}}{\chi^2_{n, 1-\alpha/2}} < \sigma^2 < \frac{n\hat{\sigma^2}}{\chi^2_{n, \alpha/2}} \] になる。なお、標準偏差の信頼区間は、分散の信頼区間の平方根で求められる。

例7:正規分布の母平均、母分散に対する検定とその信頼区間

下の図に示されているように、ベニテングダケ(Amanita muscaria)は鮮やかな赤の傘を持つキノコで、傘に点在する白いいぼ、白いえら、同心円状の渦巻きなどの特徴がある。ベニテングダケの胞子は、白く、楕円形であり、7から 13μmの直径をもつ。 いま、51のベニテングダケについて胞子の直径 \(X\) を計測したところ、以下の表のデータを得た。 図1

表1

 計測値は正規分布からの標本であると仮定したとき、以下の問に答えよ。

  1. 母平均の検定、\({\rm H}_0 : \mu=11、{\rm H}_1 : \mu \ne 11\) を行え。
  2. 母分散の検定、\({\rm H}_0 : \sigma^2=2、{\rm H}_1 : \sigma^2 \ne 2\) を行え。
  3. 母平均 \(\mu\) の 95%信頼区間を求めよ。
  4. 母分散 \(\sigma^2\) および母標準偏差 \(\sigma\) の 90%信頼区間をそれぞれ求めよ。
# ベニテングダケ胞子の直径
dm <- c(10, 11, 12, 9, 10, 11, 13, 12, 10, 11, 11, 13, 9, 10, 9, 
10, 8, 12, 10, 11, 9, 10, 7, 11, 8, 9, 11, 11, 10, 12, 10, 8, 7, 
11, 12, 10, 9, 10, 11, 10, 8, 10, 10, 8, 9, 10, 13, 9, 12, 9, 9) 
xbar <- mean(dm); xbar      # 標本平均 10.09804
## [1] 10.09804
s <- sd(dm); s          # 標本標準偏差 1.473159
## [1] 1.473159
n <- length(dm); n      # 標本の大きさ    51
## [1] 51
# 1. 母平均の検定
mu0 <- 11
tv <- sqrt(n)*(xbar - mu0)/s; tv    
## [1] -4.372434
tv <- abs(tv)                          # t 値
alpha1 <- 0.05; alpha2 <- 0.01
t5 <- qt(1 - alpha1/2, df = n - 1); t5    # 両側5%点
## [1] 2.008559
t1 <- qt(1 - alpha2/2, df = n - 1); t1    # 両側1%点
## [1] 2.677793
pv <- 2*(1 - pt(tv, df= n - 1)); pv       # p 値
## [1] 6.224733e-05

 \(t 値 = 4.37\) で自由度50の \(t\) 分布の両側 \(1 \%\) 点である 2.678より大きいので \(1 \%\) 有意であり、帰無仮説は棄却され、この標本の母平均 10.1μm は 11μm と有意に異なる。また、\(p 値 \approx 0\) で非常に小さいので、帰無仮説は棄却される。なお、Rの関数 t.test() を用いても良い。

t.test(dm, mu = 11)      
## 
##  One Sample t-test
## 
## data:  dm
## t = -4.3724, df = 50, p-value = 6.225e-05
## alternative hypothesis: true mean is not equal to 11
## 95 percent confidence interval:
##   9.683707 10.512372
## sample estimates:
## mean of x 
##  10.09804
# 2. 母分散の検定
alpha <- 0.05     # 両側 5 %検定
sig02 <- 2
s^2                # 標本分散
## [1] 2.170196
x2 <- (n - 1)*s^2/sig02; x2   # カイ2乗値
## [1] 54.2549
chi1 <- qchisq(alpha/2, df = n - 1); chi1 # 下側 2.5%点
## [1] 32.35736
chi2 <- qchisq(1 - alpha/2, df = n - 1); chi2 # 上側 2.5%点
## [1] 71.4202

 \(\chi^2 値 = 54.25\) で、これは自由度50の \(\chi^2\) 分布の下側 \(2.5 \%\) 点である 32.36 と上側 \(2.5 \%\) 点である 71.42 との間にあるので、\(5 \%\) 有意でない。よって、帰無仮説は棄却されず母分散は 2であると考えても良い。なお、1標本の分散に関する検定では R の関数は無いようである。これは、分散の検定は、2標本間で分散に違いがあるかに主に興味がそそがれるためであると考えられる。

# 3. 母平均の95%信頼区間 (95% C.I.) 
alpha <- 0.05 
tquantile <- qt(1 - alpha/2, df = n - 1) 
LB <- xbar - tquantile * s / sqrt(n)  
UB <- xbar + tquantile * s / sqrt(n) 
c(LB, UB)   # 母平均μの95%信頼区間 
## [1]  9.683707 10.512372

 これより、母平均の95%信頼区間は、\(9.68 < \mu < 10.51\) となった。\(\mu_0 = 11\) はこの信頼区間に含まれていないので、5%有意であることが分かる。なお、t.test(dm, mu = 11) の結果にも母平均の95%信頼区間が示されている。

# 4. 母分散の90%信頼区間 (90% C.I.)
beta <- 0.10 
tchisq.1 <- qchisq(1 - beta/2, df = n - 1) 
tchisq.2 <- qchisq(beta/2, df = n - 1) 
LB <- (n - 1) * s^2 / tchisq.1 
UB <- (n - 1) * s^2 / tchisq.2 
c(LB, UB)       # 母分散の90%信頼区間
## [1] 1.607438 3.121304
sqrt(c(LB, UB))     # 母標準偏差σの90%信頼区間
## [1] 1.267848 1.766721

 これより、母分散と母標準偏差の90%信頼区間はそれぞれ、\(1.61 < \sigma^2 < 3.12、1.27 <\sigma < 1.77\) となることが分かった。

3.3 母比率に対する推論

 \(n\) 回の互いに独立な試行において、\(X\) 回ある事象が生起したときの母比率 \(p\) の推定量は、\(\hat{p}=X/n\) となるが、これは不偏性や一致性などの推定量としての望ましい特性をもつが、その実現値は離散的である。 しかし、\(n\) が大きく、\(np(1-p) > 10\) であれば、二項分布は正規分布で良く近似できるので、標本比率 \(\hat{p}\) は正規分布で良く近似される場合を考える。すなわち、 \[ \hat{p} \sim N \Bigl(p, \frac{p(1-p)}{n} \Bigr) \] を仮定する。なお、\(n\) がそれ程大きくないなど、正規近似が適当でない場合は、二項分布に基づいた推論を行う必要がある。

母比率に対する検定 (\(z\) 検定)

 煩雑さを避けるため両側検定のみを取り扱う。すなわち、母比率 \(p\) に対し、 \[ 帰無仮説、{\rm H}_0 : p=p_0、対立仮説、{\rm H}_1 : p \ne p_0 \] の検定問題を考える。標本比率 \(\hat{p}\) は正規分布で近似できる。帰無仮説が正しいと仮定すると、平均 \(\mu=p_0\)、分散 \(\sigma^2 = p_0(1-p_0)/n\) なので標準化を行うと検定統計量 \[ Z = \frac{\hat{p}-\mu}{\sigma} = \frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}} \] は標準正規分布に従うので、\(z\) 検定が行える。

 また、\(n\) がそれ程大きくないときは、連続性の補正(continuity correction) \[ Z^* = \frac{|\hat{p}-p_0|-\frac{1}{2n}}{\sqrt{p_0(1-p_0)/n}} \] を行うと、正規近似の精度が良くなる。

 しかしながら、R では二項分布の確率計算に基づき正確な検定を行う関数 binom.test() が実装されているので、正規近似は過去の遺物で必要なしと言える。

母比率の信頼区間

 標本比率 \(\hat{p}=X/n\) の正規近似は、 \[ \hat{p} \sim N \Bigl(p, \frac{p(1-p)}{n} \Bigr) \] となる。しかし、ここで注意したいことは、\(\hat{p}\) の標準偏差である \(\sqrt{p(1-p)/n}\) が未知であることである。そこで、代わりにその推定量 \(\sqrt{\hat{p}(1- \hat{p})/n}\) を用いる。これより、母比率 \(p\)\((1-\alpha) \times 100\%\) 信頼区間は、 \[ \hat{p} - z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1- \hat{p})}{n} } < p < \hat{p} + z_{1-\alpha/2}\sqrt{\frac{\hat{p}(1- \hat{p})}{n} } \] となる。この正規近似による信頼区間はWald区間とよばれる(Wald and Wolfowitz 1939)。

 Wald信頼区間は最もよく用いられるが、そのパフォーマンスは次善のもので、\(p\) が 0 や 1 に近づくと低下する。標本の大きさ \(n\) が非常に大きく無い限りは、Wald信頼区間は使うべきでない。以下の連続性の補正(continuity correction)を用いればパフォーマンスは改善する。 \[ \hat{p} - \frac{1}{2n} - z_{1-\alpha/2}\sqrt{\frac{\hat{p} (1-\hat{p})}{n} } < p < \hat{p} + \frac{1}{2n} + z_{1-\alpha/2}\sqrt{\frac{\hat{p} (1-\hat{p})}{n} } \]

例8:母比率に対する検定とその信頼区間

 あるガンに対する標準治療の5年生存率が40%であった。A病院における治療では、現時点では50名の治験者のうち27名が5年以上生存し、期待される40%生存率より7名も多かった。以下の問に答えよ。

  1. A病院での5年生存率は標準治療と有意な違いがあるか検定せよ。
  2. A病院での5年生存率の95%信頼区間を求めよ。
# 1. 母比率の検定
p0 <- 0.4     # 帰無仮説の比率
n <- 50      # 標本サイズ
x <- 27
phat <- x/n   # 標本比率
n*phat*(1 - phat)  # 正規近似の基準
## [1] 12.42
zq <- qnorm(0.975); zq # 両側5%点
## [1] 1.959964
z <- (phat - p0)/sqrt(p0*(1-p0)/n); z     # z 値
## [1] 2.020726
zc <- (abs(phat-p0)-1/(2*n))/sqrt(p0*(1-p0)/n); zc # 連続性補正
## [1] 1.876388
pv.z <- 2*(1 - pnorm(z)); pv.z     # p 値
## [1] 0.04330814
pv.zc <- 2*(1 - pnorm(zc)); pv.zc   # p 値 (補正)
## [1] 0.06060197

 A病院での5年生存率を \(p\) とし、標準治療の生存率を \(p_0 = 0.4\) として、母比率の両側検定を行う。すなわち、 \[ {\rm H}_0 : p = p_0、{\rm H}_1 : p \ne p_0 \] の検定を行う。\(np(1-p)=12.42 > 10\) なので、正規近似はできると考えられた。\(z 値 = 2.02\) となり、両側5%点の1.96より大きいので、5%有意となり帰無仮説は棄却できると考えられた。念のため、連続性補正を行ったところ、\(z^* = 1.88\) となり1.96より小さく、5%有意とはならなかった。現時点では標準治療の生存率と有意な差は認められなかった。

# 2. 母比率の95%信頼区間
phat.sd <- sqrt(phat*(1-phat)/n)   # p の標準誤差
LB <- phat - zq*phat.sd        # 下限
UB <- phat + zq*phat.sd        # 上限
c(LB, UB)           # 95%信頼区間
## [1] 0.4018538 0.6781462
LBc <- LB - 1/(2*n)
UBc <- UB + 1/(2*n)
c(LBc, UBc)         # 連続性補正95%信頼区間
## [1] 0.3918538 0.6881462

 母比率の95%信頼区間は、\(0.402 < p < 0.678\) となり、標準治療の \(p_0 = 0.4\) を含んでいないので、5%有意となったが、連続性補正を行うと区間幅が広くなり、\(0.392 < p < 0.688\) となって、0.4を含むので、0.4はあり得るということで5%有意とならなかった。

 なお、Rでは正規近似で母比率の検定を行う prop.test() と二項分布に基づく正確な binom.test() という関数が実装されている。

prop.test(x, n, p=p0, correct=F)  # 正規近似による検定
## 
##  1-sample proportions test without continuity correction
## 
## data:  x out of n, null probability p0
## X-squared = 4.0833, df = 1, p-value = 0.04331
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
##  0.4039887 0.6703035
## sample estimates:
##    p 
## 0.54
prop.test(x, n, p=p0)             # 連続性補正正規近似による検定
## 
##  1-sample proportions test with continuity correction
## 
## data:  x out of n, null probability p0
## X-squared = 3.5208, df = 1, p-value = 0.0606
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
##  0.3945281 0.6793659
## sample estimates:
##    p 
## 0.54
binom.test(x, n, p=p0)            # 二項分布に基づく検定
## 
##  Exact binomial test
## 
## data:  x and n
## number of successes = 27, number of trials = 50, p-value = 0.05939
## alternative hypothesis: true probability of success is not equal to 0.4
## 95 percent confidence interval:
##  0.3932420 0.6818508
## sample estimates:
## probability of success 
##                   0.54

 正規近似に連続性補正を行うと、正確な二項検定に近づくことが分かる。しかし、正確な二項検定が簡単に行えるのだから、正規近似を行う必要性は現在ではほぼ無くなった、と言える。