* 男性と女性とで身長を比較してみる。男性50人の身長を調査したところ、平均170cm、標準偏差5cmであった。女性50人の身長を調査したところ、平均163cm、標準偏差7cmであった。このとき、男女の身長差はどの程度であろうか?
男性の身長の母集団平均を \(\mu_1\) 、女性の身長の母集団平均を \(\mu_2\) とする。標準偏差は不偏推定量であること(\(N = 50\)なのでデータ標準偏差とそれほど差はない)を想定すると、 \[\begin{equation} z = \frac{\mu_1 - \mu_2 - (170 - 163)}{\sqrt{\frac{5^2}{50} + \frac{7^2}{50}}} = \frac{\mu_1 - \mu_2 - 7}{\frac{\sqrt{37}}{5}} \end{equation}\] は、平均0、分散1のガウス分布に従うとみなすことができる。
従って下記の表が利用できて、
| 信頼性(N=10) | 95% | 99% |
|---|---|---|
| \(\alpha\) | 1.96 | 2.58 |
95%信頼区間は、 \[\begin{equation} 7 - 1.96\frac{\sqrt{37}}{5} \le \mu_1 - \mu_2 \le 7 + 1.96\frac{\sqrt{37}}{5} \end{equation}\] となり、\(\mu_1 - \mu_2\) は95%信頼区間において 0 より大きいと判断される。
99%信頼区間は、 \[\begin{equation} 7 - 2.58\frac{\sqrt{37}}{5} \le \mu_1 - \mu_2 \le 7 + 2.58\frac{\sqrt{37}}{5} \end{equation}\] となり、\(\mu_1 - \mu_2\) は99%信頼区間を計算しても 0 より大きいと判断される。
したがって、男女の身長差はこの例においては、99%信頼区間を計算してさえ 0 より大きいということがいえる。
* 例: 製品の性能チェック。使用可能時間が1600時間とうたっている、ある電球を10個調査したところ、使用可能時間の 標本平均は1598時間、標準偏差の不偏推定量は10時間であった。このとき、”使用可能時間が1600時間”という表示は妥 当なものであろうか?
真の使用可能時間 (未知) を \(\mu\) とする。\(N = 10\) のため、 \[\begin{equation} z = \frac{\mu - 1598}{\frac{10}{\sqrt{10}}} \end{equation}\] は、ガウス分布ではなく、自由度 \(10 - 1 = 9\) のt分布に従う。下記の表を利用すると、
| 信頼性(N=10) | 95% | 99% |
|---|---|---|
| \(\alpha\) | 2.26 | 3.25 |
95%信頼区間は、 \[\begin{equation} 1598 - 2.26\sqrt{10} \le \mu \le 1598 + 2.26\sqrt{10} \end{equation}\] となる。\(\mu\) の95%信頼区間は1600を含んでいるため、”使用可能時間が1600時間” という表示は95%信頼区間を基準とすると問題はないと言える。
99%信頼区間は、 \[\begin{equation} 1598 - 3.25\sqrt{10} \le \mu \le 1598 + 3.25\sqrt{10} \end{equation}\] となる。\(\mu\) の99%信頼区間も1600を含んでいるため、”使用可能時間が1600時間” という表示は99%信頼区間を基準とすると問題はないと言える。
信頼区間を利用することで、統計的検定を行うことができる。統計的検定とは、とある母集団の性質に関する仮説 \(H_0\) を棄却できるかどうかを検定するものである。ややまどろっこしい表現に思うかもしれないが、これ以上のものでもなければこれ以下のものでもない。例えば上記の演習問題1では、男性の母集団平均 \(\mu_1\)、女性の母集団平均 \(\mu_2\) に関して、\(\mu_1 - \mu_2 = 0\) という仮説を棄却できるかどうかを検定するならば、これは統計的検定となる。上記の演習問題2では、真の母集団平均 \(\mu\) に関して \(\mu = 1600\) という仮説を棄却できるかどうかを検定するならば統計的検定となる。
それでは統計的検定の手順を見ていこう。演習問題の1つをやや変更して再掲しよう。
例: 製品の性能チェック。使用可能時間が1600時間とうたっている、ある電球を10個調査したところ、使用可能時間の 標本平均は1598時間、標準偏差の不偏推定量は10時間であった。このとき、”使用可能時間が1600時間”という表示は妥 当なものであろうか?
第1に、統計的検定では検証したい仮説、帰無仮説 \(H_0\) を設定する。この場合、検定したい仮説は \(H_0: \mu = 1600\) である。統計的検定では、帰無仮説を設定すると同時に対立仮説 \(H_1\) が定める。ここでの対立仮説は、\(H_1: \mu \neq 1600\) である。
第2に、この帰無仮説 \(H_0: \mu = 1600\) が妥当という想定のもと、\(z\) を計算する。つまり、 \[\begin{equation} z = \frac{1600 - 1598}{\frac{10}{\sqrt{10}}} = \frac{2}{\sqrt{10}} \end{equation}\]
第3に、計算した \(z\) が、自由度 \(N - 1\) のt分布において、どの程度実現しうる値なのかを計算する。特に、95%信頼区間 (この \(N = 10\) の例では、\(-2.26 \le z \le 2.26\)) 、99%信頼区間 (この \(N = 10\) の例では、\(-3.25 \le z \le 3.25\)) に含まれるかどうかを確認する。
最終的に、95%信頼区間に \(z\) が含まれている場合、帰無仮説 \(H_0: \mu = 1600\)は5%有意水準にて棄却できない、と判断される。さらに、99%信頼区間に \(z\) が含まれている場合、帰無仮説 \(H_0: \mu = 1600\)は1%有意水準にて棄却できない、と判断される。
新しい用語として、有意水準という言葉が出てきた。これは、\(100(1 - \alpha)\)%信頼区間を元に帰無仮説を検証する場合、有意水準 \(\alpha\) にて帰無仮説が棄却できるかどうかを判断するものである。つまり、帰無仮説を棄却する基準を意味する。これまでに、95%信頼区間よりも、99%信頼区間の方が保守的であり範囲が広いことを示してきた。つまり、より広い99%信頼区間にさえ \(z\) が含まれないようであれば、設定した帰無仮説はより棄却されるべきであろう。狭い95%信頼区間に \(z\) が含まれないならば、設定した帰無仮説の棄却はより保守的であるべきだと考えられる。つまり、語弊を恐れなければ、有意水準は帰無仮説を棄却する“強さ”のようなものを表しているといえる。
さらに、このように t分布 を利用した母集団平均に関する統計的検定を t検定 と呼ぶ。統計的検定において最も主流に利用されている検定手法の一つである。
ここで、統計的検定に関する重要なことを明示しておく。上記の例において、\(z\) は95%信頼区間に含まれているため、帰無仮説 \(H_0: \mu = 1600\) が “正しい” とは言ってはいけない。 統計的検定で判断できることは、あくまでも、帰無仮説を棄却すべきか否か、ということのみである。 つまり、上記の例において、帰無仮説 \(H_0: \mu = 1600\) は棄却できない、という以上のことは言えない。 仮説が棄却できない、ということと仮説が正しい、ということは全くの別物であることに留意すべきである。 例えば、真の母集団平均は \(\mu = 1600.5\) である可能性もあるであろう。ここから \(N = 10\) にて判断する場合、標準偏差 \(10\) の状況で、\(H_0: \mu = 1600\) と違いがわかるものであろうか。つまり、統計的検定で言えることはあくまで、帰無仮説を棄却すべきか否か、ということだけである。それ以上のことは述べてはならない。
* 男性と女性とで身長を比較してみる。男性50人の身長を調査したところ、平均170cm、標準偏差5cmであった。女性50人の身長を調査したところ、平均163cm、標準偏差7cmであった。このとき、男女の身長に差があると言えるであろうか。
先程の例と同様に進めていこう。男性の身長の母集団平均を \(\mu_1\)、女性の身長の母集団平均を \(\mu_2\)、その差を \(d = \mu_1 - \mu_2\)とする。
第1に、帰無仮説 \(H_0\) を設定する。この場合、検定したい仮説は \(H_0: d = 0\) である。対立仮説は、\(H_1: d \neq 0\) である。
第2に、この帰無仮説 \(H_0: d = 0\) が妥当という想定のもと、\(z\) を計算する。つまり、 \[\begin{equation} z = \frac{0 - (170 - 163)}{\sqrt{\frac{5^2}{50} + \frac{7^2}{50}}} = -\frac{35}{\sqrt{37}} \end{equation}\]
第3に、計算した \(z\) が、自由度 \(N - 1\) のt分布において、どの程度実現しうる値なのかを計算する。特に、95%信頼区間 (この \(N = 50\) の例では、\(-2.01 \le z \le 2.01\)) 、99%信頼区間 (この \(N = 50\) の例では、\(-2.68 \le z \le 2.68\)) に含まれるかどうかを確認する。
最終的に、95%信頼区間に \(z\) が含まれていないため、帰無仮説 \(H_0: d = 0\)は5%有意水準にて棄却される、と判断される。さらに、99%信頼区間に \(z\) が含まれていないため、帰無仮説 \(H_0: d = 0\)は1%有意水準にて棄却される、と判断される。
最終的に、この例において、男女の身長に差があると言えるであろうか、という問いに対して、帰無仮説 \(H_0: d = 0\)は1%有意水準にて棄却される、と答えることが統計的検定から得られる答えである。
ちなみに、この例では \(N\) がある程度大きいため、\(z\) がガウス分布に従うという想定のもとで統計的検定をする場合もある (t検定の方が無難なので、あまりおすすめはできない)。この\(z\) がガウス分布に従うという想定のもとで行う統計的検定を z検定 と呼ぶこともある。
上記では0から(1から?)統計的検定を行う方法を示してきた。しかしながら、通常の場合、統計的検定はRやPythonやMATLAB上でサクッと計算されることが圧倒的に多い (excelでもできる)。
上記の男女の身長差の例において、男性の身長、女性の身長の母集団分布をともにガウス分布と想定してシミュレーションしてみる (本来、ガウス分布かどうかはわからない)。ここでのt検定は、
x1 = rnorm(50, 170, 5) # Assume: 男性
x2 = rnorm(50, 163, 7) # Assume: 女性
t.test(x1, x2)
##
## Welch Two Sample t-test
##
## data: x1 and x2
## t = 5.1686, df = 97.988, p-value = 1.246e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 3.481105 7.820265
## sample estimates:
## mean of x mean of y
## 170.1774 164.5268
ここで重要な指標がいくつか出てくる。多くの場合、着目される指標が p-value である。
p-valueとは、計算された z が、\(100(1-p)\)%信頼区間に含まれることを意味する (また、あまりおすすめできない片側検定というものもあり、片側検定でのp-valueは意味が異なる)。すなわち、p-valueが小さいほど、とても広い信頼区間を想定しない限り実現されない \(z\) となることを意味する。そのため、p-valueが小さいほど、帰無仮説は強く棄却されることを意味する。
加えて、“95 percent confidence interval” は95%信頼区間であり、これまた重要な指標である。
電球の例であれば、これまたガウス分布を想定すると、
x = rnorm(10, 1598, 10)
x = 1600-x
t.test(x)
##
## One Sample t-test
##
## data: x
## t = 1.7361, df = 9, p-value = 0.1166
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -1.307466 9.937147
## sample estimates:
## mean of x
## 4.31484
上記のようにt検定を行う。1種類のデータに対するt検定は“0と異なるかどうか”を検定する。すなわち、1600と異なるかどうかは、1600-xが0と異なるかどうかを検定すればよいということである。
上記の男女の身長差を検証する例では、1人目の男性と1人目の女性、2人目の男性と2人目の女性、… は関係ないことが多い。この場合は、上記のように t 検定を行う。その一方、同じ人が数学と物理のテストを受け、数学のテストと物理のテストの得点に差があるか、ということを検証したい場合はどうであろうか。1人目の数学のテストの得点と1人目の物理のテストの得点、2人目の数学のテストの得点と2人目の物理のテストの得点、… は非常に関係があり、この対応関係を考慮する必要がある。このように、対応がある2つのことに差があるかどうかを検証する場合、対応ありのt検定がより妥当な統計的検定となる。
x1 = runif(50, 10, 70) # Assume: 数学
x2 = runif(50, 20, 80) # Assume: 物理
t.test(x1, x2, paired = T)
##
## Paired t-test
##
## data: x1 and x2
## t = -3.8645, df = 49, p-value = 0.0003274
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -18.613509 -5.877852
## sample estimates:
## mean of the differences
## -12.24568
“paired = T” を追加することにより、対応ありt検定が実行可能である。
ここまで学んでくると、以前述べた相関係数の信頼区間もまた(ある程度)理解することができる。上記と同じ例にて、相関係数を計算してみる。第1に、相関係数を計算するときには、必ず散布図を見るべきである。
x1 = runif(50, 10, 70) # Assume: 数学
x2 = runif(50, 20, 80) # Assume: 物理
plot(x1, x2, asp = 1)
この散布図のデータから計算される相関係数の信頼区間は、
cor.test(x1, x2)
##
## Pearson's product-moment correlation
##
## data: x1 and x2
## t = 0.66998, df = 48, p-value = 0.5061
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.1871067 0.3648272
## sample estimates:
## cor
## 0.09625396
のように、95%信頼区間は0を含む(シードによる)。この場合、帰無仮説 \(H_0: r = 0\) は、5%有意水準において棄却できないことを意味する。
観測したとあるデータ \(\boldsymbol{x} = (x_1, ..., x_N)\) が平均0、分散1のガウス分布に従うと想定する。このとき、帰無仮説 \(H_0: \boldsymbol{x} = 0\) が棄却されるか否かを議論せよ。
男性と女性とで身長を比較してみる。男性50人の身長を調査したところ、平均170cm、標準偏差5cmであった。女性50人の身長を調査したところ、平均163cm、標準偏差7cmであった。このとき、男女に身長差があるといえるであろうか (上記の計算を再度確認せよ)。