演習問題

  1. ガウス分布の平均を求めよ (前述の計算をもう一度自分で確かめよう)

  2. ガウス分布の分散を求めよ (前述の計算をもう一度自分で確かめよう)

  3. ガウス分布のモーメント母関数を求めよ (前述の計算をもう一度自分で確かめよう)

すべて、前回の講義資料を見直してみてください。

統計のモチベーション

統計学のモチベーションの一つが、計測データから母集団全体の特徴を推測することにある。 概念図は下記の通り。

重要な点は、
* 未知の計測不可能な母集団分布から、
* 一部のデータを満遍なく(ランダムに)計測し、
* 計測したデータに基づき、未知の母集団全体の特徴を推測する
ことである。特に、母集団分布の平均 \(\mu\) (未知)、母集団分布の分散 \(\sigma^2\) (未知) を推測することが多い。

加えて、統計手法は適切に利用されなくてはいけない。母集団全体が計測できるならば計測する方が良い。満遍なく計測できていないデータはそれ相応の処理が必要である。

母集団分布

上記のように、統計学では未知の母集団全体からランダムに計測したデータ(標本)を解析する。ランダムに計測する以上、計測するデータ \(X\) は確率変数とみなすことができ、その確率変数が従う確率分布 \(p(x)\) を母集団分布と呼ぶ。ランダムに計測する以上、\(i\)回目に計測するデータ \(X_i\)\(j\) 回目の計測するデータは互いに独立であり、同じ \(p(x)\) からサンプリングされたものとみなすことができる。

すなわち、データの定義域 \(D\) において、\(\int_D x p(x) dx = \mu\)\(\int_D (x - \mu)^2 p(x) dx = \sigma^2\)のとき (平均、分散だけ指定して、ほかは特に指定しない確率分布 \(p(x)\) を想定する)、
\[\begin{align} \int_D\int_D x_i x_j p(x_i, x_j) dx_i dx_j &= \int_D\int_D x_i x_j p(x_i)p(x_j) dx_i dx_j \ (\mathrm{独立})\nonumber\\ &= \int_D x_ip(x_i)dx_i \int_D x_jp(x_j) dx_j = \mu^2 \end{align}\] を満たす。これは重要な式なので、ぜひ抑えておいて欲しい。
以降、簡単のため、\(\int_D xp(x)dx = E[x]\)\(\int_D x^2p(x)dx = E[x^2]\)、…として、\(E[\cdot]\) という記号を利用して期待値を表記することが多い。

変数変換と平均、分散

\(a, b \in \mathbb{R}\) にて、確率変数 \(X\) を、\(aX + b\) と変換した際の平均、分散を計算してみよう。
\[\begin{equation} E[ax + b] = a \int_D x p(x)dx + b = a\mu + b \end{equation}\] \[\begin{equation} E[(ax + b - [a\mu + b])^2] = a^2 E[(x - \mu)^2] = a^2 \sigma^2 \end{equation}\] したがって、確率変数 \(X\) を、\(aX + b\) と変換した際の平均、分散は各々 \(a\mu + b\)\(a^2 \sigma^2\) となる。
分散に関しては、\(\mathrm{Var}(x) = \sigma^2\)\[\begin{equation} \mathrm{Var}(ax + b) = a^2 \sigma^2 \end{equation}\] と表記することにする。

これらを確認してみよう。

mean(rnorm(10000,1,1)) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 1.003968

\(a = 2\)\(b = 1\)とすると、

a = 2
b = 1
mean(a*rnorm(10000,1,1) + b) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 3.017983

\(a = 2\)\(b = 0\)とすると、

a = 2
b = 0
mean(a*rnorm(10000,1,1) + b) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 2.021266

ヒストグラムを書いてみると、

library(MASS)

h1 = rnorm(10000,1,1)

a = 2
b = 0
h2 = (a*rnorm(10000,1,1) + b) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均

a = 2
b = 1
h3 = (a*rnorm(10000,1,1) + b) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均

truehist(h1, xlim = c(-8, 8), ylim = c(0, 1), prob = T, col="#ff000080")
par(new=T)
truehist(h2, xlim = c(-8, 8), ylim = c(0, 1), prob = T, col="#00ff0080")
par(new=T)
truehist(h3, xlim = c(-8, 8), ylim = c(0, 1), prob = T, col="#0000ff80")

感覚はつかめるであろう。

母集団分布

また、計測するデータが確率変数である以上、1回目の計測において計算するデータの平均、2回目の計測において計算するデータの平均、3回目の平均、4回目の平均、これらは全て異なることが多い。すなわち、データの平均の分布を描くことができ、このデータの平均の分布や、データの分散の分布のことを標本分布と呼ぶ。

例えば、平均0、分散1のガウス分布を母集団と仮定して(本来、平均、分散、確率分布の種類は未知)シミュレーションしてみる。

library(MASS)

N = 10 # 10サンプル
Ite = 1000 # 1000回繰り返す
  
mu = matrix(0, 1, Ite)
sigma = matrix(0, 1, Ite)
for(i in 1:Ite){
  dat = rnorm(N, 0, 1)
  mu[i] = mean(dat)
  sigma[i] = sd(dat)
}

par(mfrow=c(1,2)) 
truehist(mu, col="#ff000080")
truehist(sigma, col="#00ff0080")

やはり平均、分散の値は毎回異なり、標本分布を構成している。 毎回異なる値を得られる平均、分散からどのようにして高精度な推測値を得るか、というのが後半の講義のテーマである。

データ数と標本分布

いくつデータを計測するかという問題は非常に根深い問題である。ある程度適切にデータ数を決定する方法はあるものの(power analysisなど)、この講義ではあまり深く踏み込まない。

ここでは、データ数とデータの平均、分散の関係性を検証してみる。

N1 = 1 # 10サンプル
N2 = 5
N3 = 10
N4 = 100
Ite = 1000 # 1000回繰り返す
  
mu1 = matrix(0, 1, Ite)
mu2 = matrix(0, 1, Ite)
mu3 = matrix(0, 1, Ite)
mu4 = matrix(0, 1, Ite)

for(i in 1:Ite){
  dat = rnorm(N4, 0, 1)
  mu1[i] = mean(dat[1:N1])

  mu2[i] = mean(dat[1:N2])

  mu3[i] = mean(dat[1:N3])

  mu4[i] = mean(dat)
}

hist(mu1, prob = T, ylim = c(0, 1), col="#ff000020")
hist(mu2, prob = T, ylim = c(0, 1), col="#00ff0020", add = T)
# hist(mu3, prob = T, ylim = c(0, 1), col="#0000ff20", add = T)
hist(mu4, prob = T, ylim = c(0, 1), col="#00000020", add = T)

上記は赤がデータ数1、緑がデータ数5、黒がデータ数100のときの平均の標本分布である。 データ数が多いときほど、真の値0 (本当は未知の値) に近いことがわかる。

大数の法則

上記のように、データ数が多いときほど、真の値に平均が近づくことを示す。
変数変換と平均値、分散の関係性から、データ平均の平均、分散を計算すると、 \[\begin{equation} E[\frac{1}{N}\sum_{i=1}^N x_i] = \frac{1}{N}\sum_{i=1}^N E[x_i] = \frac{1}{N}\sum_{i=1}^N \mu = \mu \end{equation}\] \[\begin{equation} \mathrm{Var}[\frac{1}{N}\sum_{i=1}^N x_i] = \frac{1}{N^2}\sum_{i=1}^N\mathrm{Var}[x_i] = \frac{1}{N}\sigma^2 \end{equation}\] すなわち、データ平均は、平均的に母集団の真の平均 \(\mu\) と一致する。加えて、データ平均の分散の期待値は \(\frac{1}{N}\sigma^2\) としてデータ数 \(N\) が増えると小さくなる。この傾向は確かに、上記のヒストグラムから確認できる。

特に、\(N \to \infty\) にて、データ平均の分散が 0 になること、すなわち確率1にてデータ平均が母集団の真の平均に一致することを、大数の法則と呼ぶ。

不偏推定量

上記の計算から、データ平均の平均は、 \[\begin{equation} E[\frac{1}{N}\sum_{i=1}^N x_i] = \mu \end{equation}\] となる。すなわち、計測したデータの平均の期待値は、本来未知の母集団の真の平均と一致する。言い換えるならば、計測したデータから平均を計算してこれを未知の母集団の平均の推定値とすると、これは期待値としては本来未知の母集団の真の平均と一致する。データ平均は真の未知の平均の推定値としては“良い”ものであることがわかる。

このように、期待値が真の母集団の特徴と一致する推定量のことを、不偏推定量と呼ぶ。データの平均は、未知の母集団の平均の不偏推定量である。

ちなみに、推定量とは平均や分散などの用語そのものと同等、推定値は0.1や0.005など具体的な数値を意味する。

標準誤差

上記の分散 \(\frac{1}{N}\sigma^2\) のルートをとったものである、\(\frac{\sigma}{\sqrt{N}}\)と、標準誤差と呼ぶ。 データ平均と直接足し算引き算ができる値は、この標準誤差である。

統計の概念図

以上をまとめると、下記の表のとおりになる。

母集団からランダムにサンプリングされるデータを確率変数とみなして、計測されるデータから未知の母集団の平均や分散を推定する。これが統計の枠組みである。
具体的に計測されたデータ (e.g., 150cm, 165cm, … などの身長データ) の平均を計算すると、期待値としては真の平均に一致することを示した。ただし、あくまで期待値として一致するのみであり、分散 \(\frac{\sigma^2}{N}\) と伴いばらつく (\(\sigma^2\)も未知)。

演習問題