データ分散の不偏推定量を計算せよ (もう一度計算を自分で追ってください)
中心極限定理の証明を計算せよ (もう一度計算を自分で追ってください)
重要な点なので、再掲する。
母集団からランダムにサンプリングされるデータを確率変数とみなして、計測されるデータから未知の母集団の平均や分散を推定する。これが統計の枠組みである。
具体的に計測されたデータ (e.g., 150cm, 165cm, … などの身長データ) の平均を計算すると、期待値としては真の平均に一致することを示した。ただし、あくまで期待値として一致するのみであり、分散 \(\frac{\sigma^2}{N}\) と伴いばらつく (\(\sigma^2\)も未知)。
中心極限定理は、\(N \to \infty\) にて、標準化したデータ平均がガウス分布になることを保証してくれるものである。
つまり、データ \(x_1, ..., x_N\) にて (すべて独立かつ同じ分布から生成、平均 \(\mu\)、分散 \(\sigma^2\))、 \[\begin{equation}
z = \frac{\frac{1}{N}\sum_i x_i - \mu}{\frac{\sqrt{\sigma}}{N}}
\end{equation}\] という確率変数 \(z\) は、\(N\to\infty\)にて平均 0、分散 1のガウス分布へと収束していくことを意味する。通常ならば、標準化した確率変数ないしはデータは平均0、分散1ということのみしかわからない。しかしながら、ある条件下にてデータ数が十分多い場合、ガウス分布としてみなせることまでわかる点が非常に重要。ガウス分布の性質を検証しておけば、すべて適用可能であることを保証してくれる最重要定理の一つ。
この講義では、ゆるく \(N \ge 30\) にて、おおよそ中心極限定理が成り立つと仮定する。
平均 0、分散 1のガウス分布は、 \[\begin{equation} p(z) = \frac{1}{\sqrt{2\pi}} \exp \left( - \frac{1}{2\sigma^2}z^2\right) \end{equation}\] であり、以下のような形をした確率分布である。
curve(dnorm, -5, 5)
確率変数 \(z\) が上記のガウス分布 \(p(z)\) に従うとき、この \(z\) が \(z \in (a, b)\) となる確率は、 \[\begin{equation} p(a \le z \le b) = \int_a^b p(z)dz \end{equation}\] となる。例えば、\(a = -2\)、\(b = 1.5\)の場合、以下の灰色の領域の面積が \(p(a \le z \le b)\) に相当する。
curve(dnorm, -5, 5)
a = -2
b = 1.5
i = 200 #分割数
xx = seq(a, b, length=i)
yy = dnorm(xx)
xx<- c(a, xx, b, a)
yy<- c(0, yy, 0, 0)
polygon(xx, yy, col="gray")
また、実際に \(p(a \le z \le b) = \int_a^b p(z)dz\) を数値計算すると、
a = -2
b = 1.5
f <- function(x) exp(-0.5*x^2)/sqrt(2*pi) # 積分する関数を定義
integrate(f, a, b) # 積分実行
## 0.9104427 with absolute error < 1.3e-13
となり、\(p(-2 \le z \le 1.5) = 0.9104427\) となる。
つまり、データ平均を \(z\) に変換し、 \(p(-2 \le z \le 1.5) = 0.9104427\) となる。言い換えるならば、91%の信頼性の元、\(\bar{X} = \frac{1}{N}\sum_i x_i\) として、\(\mu\) について解くと、 \[\begin{equation} \bar{X} -1.5 \frac{\sigma}{\sqrt{N}} \le \mu \le \bar{X} +2 \frac{\sigma}{\sqrt{N}} \end{equation}\] という不等式を満たす。
統計解析において、95%信頼区間と99%信頼区間こそが度々利用され、最も有益なツールの一つである。 特に、平均0、分散1のガウス分布の元では、下記のように、
a = -1.96
b = 1.96
f <- function(x) exp(-0.5*x^2)/sqrt(2*pi) # 積分する関数を定義
integrate(f, a, b) # 積分実行
## 0.9500042 with absolute error < 1e-11
a = -2.58
b = 2.58
f <- function(x) exp(-0.5*x^2)/sqrt(2*pi) # 積分する関数を定義
integrate(f, a, b) # 積分実行
## 0.99012 with absolute error < 1.9e-08
\(p(-1.96 \le z \le 1.96) \simeq 0.95\)、\(p(-2.58 \le z \le 2.58) \simeq 0.99\) を95%信頼区間、99%信頼区間と呼ぶ。すなわち、平均0、分散1のガウス分布に従う確率変数 \(z\) は、95%の信頼性のもと\(p(-1.96 \le z \le 1.96) \simeq 0.95\)を満たし、99%の信頼性のもと\(p(-2.58 \le z \le 2.58) \simeq 0.99\)を満たすことを意味する。
まとめると、信頼区間は、下記の表のもと、
信頼性 | 95% | 99% |
---|---|---|
\(\alpha\) | 1.96 | 2.58 |
\(p(-\alpha \le z \le \alpha) \simeq \mathrm{信頼性}\) と書くことができる (この表を覚える必要はない)。
さらにまとめると、上の表の信頼性と対応して \(\mu\) は \[\begin{equation}
\bar{X} -\alpha \frac{\sigma}{\sqrt{N}} \le \mu \le \bar{X} + \alpha \frac{\sigma}{\sqrt{N}}
\end{equation}\] という不等式を満たす。
グラフを見てみると、95%信頼区間は、下記の灰色領域、
curve(dnorm, -5, 5)
a = -1.96
b = 1.96
i = 200 #分割数
xx = seq(a, b, length=i)
yy = dnorm(xx)
xx<- c(a, xx, b, a)
yy<- c(0, yy, 0, 0)
polygon(xx, yy, col="gray")
99%信頼区間は、下記の灰色領域である。
curve(dnorm, -5, 5)
a = -2.58
b = 2.58
i = 200 #分割数
xx = seq(a, b, length=i)
yy = dnorm(xx)
xx<- c(a, xx, b, a)
yy<- c(0, yy, 0, 0)
polygon(xx, yy, col="gray")
比較すると明らかなように、99%信頼区間の方が広い。つまり、データが確率変数である以上、推定値も不確実性を含む。 95%信頼できる区間よりも、99%信頼できる区間の方が広くて然るべきということである。もしくは、99%の方が保守的であり、より大きなばらつきも考慮していると考えてもよい。
以降は、簡略化のため、\(N \ge 30\) においては中心極限定理はおおよそ成り立ち、標準偏差(or 分散)の不偏推定量は、おおよそ母集団の標準偏差 (or 分散)と近いものと仮定する。
(例題): とあるグループ100万人の身長の平均 \(\mu\) を知りたい。このうち、100人から身長のデータを計測したところ、データ平均は155、データ標準偏差の不偏推定量は5であった。このとき、 \(\mu\) の95%信頼区間、99%信頼区間を計算せよ。
\[\begin{equation} z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{N}}} = \frac{155 - \mu}{\frac{5}{10}} = 310 -2\mu \end{equation}\] 下記の表を利用すると、
信頼性 | 95% | 99% |
---|---|---|
\(\alpha\) | 1.96 | 2.58 |
95%信頼区間は、 \[\begin{equation} -1.96 \le 310 - 2\mu \le 1.96 \end{equation}\] より、 \[\begin{equation} 154.02 \le \mu \le 155.98 \end{equation}\] となる。同様に、99%信頼区間は、 \[\begin{equation} 153.71 \le \mu \le 156.29 \end{equation}\] となる。
100万人の調査が難しく、100人からの調査になるため、必ず推測値は不確実性を有する。 この不確実性まで考慮した定量化こそ、最も信頼できるものとなる。
ちなみに、Rでは信頼区間の計算も容易い。
dat = rnorm(1000, 0, 1)
t.test(dat)
##
## One Sample t-test
##
## data: dat
## t = 1.0225, df = 999, p-value = 0.3068
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## -0.02939822 0.09336724
## sample estimates:
## mean of x
## 0.03198451
Xbar = mean(dat)
sigma = sd(dat)
N = length(dat)
alpha = 1.96 # 95%信頼区間
mu_upp = Xbar + alpha*sigma/sqrt(N)
mu_low = Xbar - alpha*sigma/sqrt(N)
print(c(mu_low, mu_upp))
## [1] -0.02932498 0.09329400
上記は後述のt検定というものを利用しているが、\(N\)が十分大きいときはこれまで計算してきたガウス分布ベースの信頼区間と一致する。上記で計算している信頼区間がおおよそ一致することが確かめられる (ただし、1.96で切っているため、細かい値は少しずれる)
*標本平均を \(\bar{X}\) 、標準偏差の不偏推定量を \(\bar{S}\)、データサイズを \(N \ge 30\) とするとき、未知の母集団平均 \(\mu\) の95%信頼区間、99%信頼区間を計算せよ (上記の計算を確認せよ)
*上記にて、\(\bar{X} = 155\) 、標準偏差の不偏推定量を \(\bar{S} = 5\)、データサイズを \(N = 100\) とするとき、未知の母集団平均 \(\mu\) の95%信頼区間、99%信頼区間を計算せよ (上記の計算を確認せよ)