前回のおさらいと今回のイントロ

  確率変数という新たな変数の概念を導入した。確率変数は例えば \(x = 1\) になる確率が \(p \in [0, 1]\)\(x = 0\)になる確率が \(1 - p\)であるなど、観測するまでは値が決まらず、観測される値は確率的に決まる変数を意味する。加えて、様々な確率分布を学んだ。例えばベルヌーイ分布 \(p(x | p) = p^x(1-p)^{1-x}\) などを学んだ。続いて、連続な確率変数における確率分布 (確率密度関数) は、確率変数が\((x, x+ \Delta x]\)に含まれる確率が \(p(x)\Delta x\) となる \(p(x) \ge 0\) として与えられた。





正規分布(再掲)

  確率分布の中でも、最も重要な確率分布である。その確率分布は、 \[\begin{equation} p(x | \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2}(x - \mu)^2 \right) \end{equation}\] であたえられる ( \(x \in (-\infty, \infty)\) )。





  正規分布はガウス分布とも呼ばれ、\(\mu = 0\), \(\sigma = 1\)のとき、ガウス分布は下記のような形をしている。

curve(dnorm, -5, 5) # 確率密度関数

つまり、中心(\(\mu\))周りに左右対称に分布しており、中心から離れるほどに確率分布の値は小さくなっていく。





  分布関数は、

curve(pnorm, -5, 5)

であり、これは誤差関数と呼ばれる。





  乱数も、

par(mfrow=c(1,2)) 
hist(rnorm(1000,0,1))

として生成可能であり、これまたかなり頻繁に利用される。





期待値

  ベルヌーイ分布

\(p(x| q) = q^x(1-q)^{1-x}\)

を考える。つまり、表( \(x=1\) )がでる確率が \(q\) のコイントスを考えるに等しい。このとき、\(x\) の平均を求めてみる。





  \(q = 0.5\) のとき、\(x\) の平均は0.5になることは予想するに難くない。2回に1回表が出そうに漠然と思うであろう。つまり、2回コイントスをしたときの表が出る平均回数は1であろう。 そのため、1回で表が出る平均回数は0.5であることも想像できる。





  一般的に、ベルヌーイ分布の平均は、

\(\sum_{x = 0, 1} xp(x| q) = \sum_{x = 0, 1} xq^x(1-q)^{1-x} = 0\times q^0 \times (1-q)^{1-0} + 1\times q^1 \times (1-q)^{1-1} = q\)

となる。\(q = 0.5\) のとき、上記の記述と一致する。





  さらにベルヌーイ分布の分散を計算してみよう。表が出る回数の分散はあまり直感的にはわからないであろう。 分散を計算するために、ひとまず \(x^2\) の平均を計算する。

\(\sum_{x = 0, 1} x^2p(x| q) = \sum_{x = 0, 1} x^2q^x(1-q)^{1-x} = 0\times q^0 \times (1-q)^{1-0} + 1\times q^1 \times (1-q)^{1-1} = q\)





  分散は、2乗の平均から平均の2乗を差し引いたものである(\(\mathrm{Var}(x) = \sum_{x = 0, 1} x^2p(x| q) - \left( \sum_{x = 0, 1} xp(x| q)\right)^2\))。したがって、

\(\mathrm{Var}(x) = \sum_D x^2p(x| q) - \left( \sum_D xp(x| q) \right)^2 = q - q^2 = q(1-q)\)

となる。





ここまでの内容で重要なことを整理する。確率分布が \(p(x)\) として与えられている確率変数 \(x\) の平均は、\(x\) が離散変数のとき、\(D\)\(x\)の定義域とすると、

\(\sum_D x p(x)\)

で与えられる。分散を計算するときには、\(x^2\) の平均も計算した。一般的に、任意の関数 \(f(x)\) について、

\(\sum_D f(x) p(x)\)

を計算することができる。この \(\sum_D f(x) p(x)\) を、一般的に \(f(x)\) の期待値と呼ぶ。





連続値の期待値

  \(x\) が連続変数のとき (\(x\)の定義域を\(D\)とする)、

\(\int_D f(x) p(x) dx\)

を期待値と呼び、特に \(\int_D x p(x) dx\) を平均と呼ぶ。





  例えば、\(x \in (a, b)\) にて一定の値を取りその他では0となる一様分布では、\(p(x) = \frac{1}{b-a} \ (a \le x \le b)\)、それ以外は \(p(x) = 0\) である。このとき平均は、

\(\int_a^b x \frac{1}{b-a} dx = \frac{1}{b-a} \frac{1}{2} (b^2 - a^2) = \frac{1}{2}(b + a)\)

となる。例えば \(a = -1, b = 2\) のとき、平均は0.5である。以下の図より、長方形の真ん中であることがわかる。 つまり、一様分布に従う確率変数を多数生成したときに、平均は0.5になるということである。





curve(dunif(x, -1, 2), -2, 3) # 確率密度関数

mean(runif(10000, -1, 2)) # 一様分布に従う確率変数を多数生成して、平均
## [1] 0.4934459

多次元分布

  複数の確率変数に対する確率分布も同様にして定義することが可能である。以下は連続値での議論だが、離散値でも同様。定義域\(D\)内における任意の確率変数\(X_1, X_2\)に対して、

\(p(X_1, X_2) \ge 0\)

であり、なおかつ

\(\int \int_D p(x_1, x_2) dx_1dx_2 = 1\)

を満たす\(p(X_1, X_2)\)を確率分布として定義する。同様にして、\(N\)次元の確率変数へと拡張可能である。





  多次元分布特有の性質を挙げていく。1つ目は周辺化(全確率)

\(\int_D p(x_1, x_2) dx_2 = p(x_1)\)

である。注目したい確率変数以外はすべて足し算することで消し去るイメージである。これはベイズの定理で説明した全確率と同様のものである。この周辺化の式の両辺を\(x_1\)で積分すると、1になっていることにも注目。





この周辺化を利用することで、\(x_1\)の平均\(m_1\)

\(m_1 = \int\int_D x_1p(x_1, x_2) dx_1dx_2 = \int_Dx_1p(x_1)dx_1\)

や、期待値

\(E[f(x_1)] = \int\int_D f(x_1)p(x_1, x_2) dx_1dx_2 = \int_Df(x_1)p(x_1)dx_1\)

が計算できる。





  2つ目の多次元分布特有の性質は、共分散である。共分散\(\mathrm{Cov}(x_1, x_2)\)は、各々の平均を用いて

\(\mathrm{Cov}(x_1, x_2) = \int \int_D (x_1 - m_1)(x_2 - m_2)p(x_1, x_2)dx_1dx_2\)

として計算できる。同様にして、相関係数も計算できる。





独立な確率変数の多次元分布

  この講義では、主に完全にランダムかつ独立に観測した複数の確率変数\(X_1, X_2, ..., X_N\)の確率分布\(p(X_1, ..., X_N)\)を考えることが多い。これは、以前に学んだ独立の性質を利用して、

\(p(X_1, ..., X_N) = p(X_1)p(X_2) ... p(X_N)\)

と書くことができる。





また、\(X_1\)の平均\(m_1\)は、

\(m_1 = \int\int ... \int_D x_1 p(x_1, x_2, ..., x_N)dx_1dx_2, ..., dx_N = \int_D x_1 p(x_1) dx_1\)

として計算できる。つまり、一見ややこしそうな確率分布を扱うものの、計算自体は一つの確率変数を扱うことと大差ない。





ガウス分布

確率分布は前述した通り、 \[\begin{equation} p(x | \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2}(x - \mu)^2 \right) \end{equation}\] であたえられる ( 一般的には、\(x \in (-\infty, \infty)\) )。第1に、この形を見ただけでもわかることは複数ある。\(x \to \pm\infty\) のときに \(p(x) \to 0\) となること、\(x = \mu\) を中心とした偶関数となることなど。





  \(\mu = 0, \sigma = 1\)のとき、ガウス分布は下記のような形をしている (\(\mu = 0, \sigma = 1\)のガウス分布を標準正規分布と呼ぶ)。

curve(dnorm, -5, 5) # 確率密度関数

  ガウス分布は確率分布の一つであるため、\(p(x) \ge 0\) かつ、 \(\int_{-\infty}^{\infty} p(x) dx = 1\) を満たす。指数関数の性質から \(p(x) \ge 0\) は明らか。そこで、\(\int_{-\infty}^{\infty} p(x) dx = 1\)を示してみよう。





ガウス分布を\(x\)について\(- \infty\) から \(\infty\) まで積分してみると、

f <- function(x) exp(-0.5*x^2)/sqrt(2*pi) # 積分する関数を定義
integrate(f, -Inf, Inf) # 積分実行
## 1 with absolute error < 9.4e-05

確かに1となる。これを解析的に示すことも可能ではあるが、かなり複雑なので、補遺に示す。





ガウス分布の平均

  定義より、 \[\begin{equation} E[x] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x \ \exp \left( - \frac{1}{2\sigma^2}(x-\mu)^2\right) dx \end{equation}\] を計算する。









\(\hat{x} = x - \mu\) として、改めて \(\hat{x}\)\(x\) と表記すると、 \[\begin{equation} E[x] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx + \mu \end{equation}\]









  \(\frac{d}{dx} \exp( - \frac{x^2}{2\sigma^2}) = -\frac{x}{\sigma^2}\exp( - \frac{x^2}{2\sigma^2})\)より、適切な定数を\(c\)とすると、

\[\begin{align} E[x] &= cx \left[ \exp( - \frac{x^2}{2\sigma^2}) \right]_{-\infty}^{\infty} + \mu \nonumber\\ &= \mu \end{align}\]

したがって、ガウス分布の平均は\(\mu\)である(Note: \(\sigma\)には関係ない)。









これを数値的に確かめてみよう。

mean(rnorm(10000,1,1)) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 0.986249
mean(rnorm(10000,2,1)) # μ = 2, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 1.999711
mean(rnorm(10000,1,2)) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成 → 平均
## [1] 1.009583

確かに、\(\sigma\) とは関係なく \(\mu\) が平均となることがわかる。




ガウス分布の分散

  これは分散の定義通り計算した方が見通しが良い。 \[\begin{equation} \mathrm{Var}(x) = E[(x-\mu)^2] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} (x-\mu)^2 \ \exp \left( - \frac{1}{2\sigma^2}(x-\mu)^2\right) dx \end{equation}\]









\(\hat{x} = x - \mu\) として、改めて \(\hat{x}\)\(x\) と表記すると、 \[\begin{equation} E[x^2] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x^2 \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx \end{equation}\]









\(x^2 \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) = -\sigma^2 x \ \frac{d}{dx} \exp \left( - \frac{1}{2\sigma^2}x^2\right)\) であることに着目して、部分積分を利用すると (\((fg)' = f'g + fg'\) より、 \(\int fg' = [fg] - \int f'g\)) 、









\[\begin{align} E[x^2] &= -\sigma^2 \left( [x \ \exp\left( - \frac{1}{2\sigma^2}x^2\right)]_{-\infty}^{\infty} - \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx\right) \nonumber\\ &= \sigma^2 \end{align}\]









したがって、ガウス分布の分散は \(\sigma^2\) である(Note: \(\mu\)とは関係ない)。これも確かめてみよう。

var(rnorm(10000,1,1)) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 分散
## [1] 0.981021
var(rnorm(10000,2,1)) # μ = 2, σ = 1 のガウス分布から10000個確率変数を生成 → 分散
## [1] 0.9973212
var(rnorm(10000,1,2)) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成 → 分散 (σ×σ)
## [1] 3.987411

以上より、たしかにガウス分布の分散は \(\sigma^2\) である。


<br

モーメント母関数

  これまでに、ベルヌーイ分布、二項分布、一様分布、ガウス分布など、様々な確率分布を学んできた。 多くの場合、平均、分散の2つを定量化することが多い。しかしながら、確率分布を表現する特徴量はこの2つだけではない。



その他の確率分布を特徴づける値として、歪度や尖度が挙げられる。歪度とは、平均 \(\mu\) において \(\frac{(x-\mu)^3}{\sigma^3}\) の期待値、尖度とは \(\frac{(x-\mu)4}{\sigma^4}\) を意味する。



  歪度を計算してみると、下記の通り。

dam = rnorm(100000,1,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] 0.0007670041
dam = rnorm(100000,1,2) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] 0.05355611
dam = rnorm(100000,2,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] -0.01216385

上記のように、ガウス分布の歪度は0になる (解析的に0)。



  尖度を計算してみると、下記の通り。

dam = rnorm(100000,1,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4)
## [1] 2.97728
dam = rnorm(100000,1,2) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4/((2^2)^2)) 
## [1] 2.99609
dam = rnorm(100000,2,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4)
## [1] 3.024101
dam = rnorm(100000,2,3) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4/((3^2)^2))
## [1] 3.037148

上記のように、ガウス分布の尖度は、\(3\)になる。

もちろんついで5乗, 6乗, … と計算していくことも可能ではあるが、どう考えても効率が悪い。 そこで確率分布を特徴づける方法として、モーメント母関数が提案された。



  モーメント母関数とは、補助変数\(t\)を用いて
\[\begin{equation} E[e^{t(X-\mu)}] \end{equation}\] として定義される。









このモーメント母関数をテーラー展開すると、
\(E[e^{t(X-\mu)}] = E \left[1 + t(X-\mu) + \frac{1}{2!}(t(X-\mu))^2 + \frac{1}{3!}(t(X-\mu))^3 + ... \right]\)
として無限級数で書き表すことができる。









そして、例えば \(t\) で微分して \(\lim_{t\to0}\) とすると、 \(\lim_{t\to0}\frac{d}{dt}E[e^{t(X-\mu)}] = E[(X-\mu)]\)
となる。









最初に \(\mu = 0\) としてこの値を計算すると、平均 \(E[X]\) を得る。
ついで\(t^2\)で微分して \(\lim_{t\to0}\) とすると、
\(\lim_{t\to0}\frac{d^2}{dt^2}E[e^{t(X-\mu)}] = E[(X-\mu)^2]\)
つまり、分散となる。このようにして、 \(\lim_{t\to0}\frac{d^k}{dt^k}E[e^{tX}] = E[(X - \mu)^k]\)
を得る。つまりモーメント母関数さえ計算してしまえば、分散、歪度、尖度を始めとして、非常に多数の特徴量を計算可能になる。加えて、モーメント母関数が一致する2つの確率分布は、必ず等しい確率分布になるという性質ももつ。

ガウス分布のモーメント母関数

  ガウス分布のモーメント母関数を計算する。定義より、
\[\begin{equation} E[e^{tX}] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp(t(x-\mu))\exp( - \frac{1}{2\sigma^2} (x-\mu)^2)dx \end{equation}\]









となる。指数関数の中身を整理すると、
\(tx - t\mu - \frac{1}{2\sigma^2}x^2 + \frac{\mu}{\sigma^2}x - \frac{1}{2\sigma^2}\mu^2 = - \frac{1}{2\sigma^2}x^2 + \left(t + \frac{\mu}{\sigma^2}\right)x - t\mu - \frac{1}{2\sigma^2}\mu^2\)
となる。









ここで平方完成すると、
\(- \frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2 + \frac{\sigma^2}{2}\left( t^2 + 2\frac{\mu}{\sigma^2}t + \frac{\mu^2}{\sigma^4}\right) - t\mu - \frac{1}{2\sigma^2}\mu^2 = - \frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2 + \frac{\sigma^2}{2}t^2\)
を得る。









つまり、
\[\begin{align} E[e^{tX}] &= \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp\left(\frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2\right)\exp\left(\frac{\sigma^2}{2}t^2 \right)\nonumber\\ &= \exp\left(\frac{\sigma^2}{2}t^2 \right)dx \end{align}\]

ここから分散、歪度、尖度…などを求めることができる。

演習問題

  1. \(x \in (a, b)\) にて定義される一様分布の分散を計算せよ。

  2. \(p(x, y) = x + y \ (0 \le x \le 1, 0 \le y \le 1)\)\(p(x, y) = 0 \ (\mathrm{otherwise})\)

となる確率分布を考える。この確率分布において

*確率分布の定義を満たしていること、

*\(x\)\(y\)の平均、

*\(x\)\(y\)の標準偏差、

*\(x\)\(y\)の共分散、

*\(x\)\(y\)の相関係数

を計算せよ。

補遺 (ガウス分布の積分値が1になることの証明)

\(I = \int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x- \mu)^2)dx = \sqrt{2\pi\sigma^2}\) を示す。

第1に、ややヒューリスティックではあるが、\(I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} [(x- \mu)^2 + (y- \mu)^2])dxdy\) を計算する。\(x - \mu\)\(y - \mu\)を各々改めて\(x\), \(y\)とおく。これにより積分変数の定義域の変更も必要ではないことに注意。すると、
\(I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x^2 + y^2))dxdy\)
となり、今、\(\frac{x^2 + y^2}{\sigma^2} = r^2\)とおく。すなわち、\(\frac{x}{\sigma} = r\cos\theta\)\(\frac{y}{\sigma} = r\sin\theta\)と変数変換する(\(r \in [0, \infty)\), \(\theta \in (0, 2\pi)\))。

重積分の変数変換

重積分の変数変換を思い出そう。\(x = x(r, \theta)\) より、その全微分は \(dx = \frac{\partial x}{\partial r}dr + \frac{\partial x}{\partial \theta}d\theta = \left(\begin{matrix}\frac{\partial x}{\partial r} \ \frac{\partial x}{\partial \theta}\end{matrix}\right) \left(\begin{matrix}dr \\ d\theta\end{matrix}\right)\) となる。同様に考えると、最終的に全微分は、
\(\begin{pmatrix} dx \\ dy \end{pmatrix} = \begin{pmatrix} \frac{\partial x}{\partial r} \ \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} \ \frac{\partial y}{\partial \theta} \end{pmatrix} \begin{pmatrix} dr \\ d\theta \end{pmatrix}\)
となる。また、この右辺の係数行列をヤコビアンという。

\(dxdy\)は、\((x-y)\)平面での微小な長方形の面積を表す。変数変換した先での\(dxdy\)は、下図のように平行四辺形になる。また、各々の頂点の座標がどのように変換されたかも注目。

加えて、平行四辺形形の面積は、下図のように求められる。

したがって、変数変換した先での\(dxdy\)は、ヤコビアンの行列式を利用して
\(dxdy = \left(\frac{\partial x}{\partial r}\frac{\partial y}{\partial \theta} - \frac{\partial x}{\partial \theta}\frac{\partial y}{\partial r}\right)drd\theta = \sigma^2\cos\theta (r\cos\theta) - \sigma^2(-r\sin\theta)\sin\theta = \sigma^2rdrd\theta\)
となる。

ガウス分布の積分値が1になることの証明 (cont.)

以上から、
\(I^2 = \int_{0}^{\infty}\int_{0}^{2\pi}\exp( - \frac{r^2}{2})\sigma^2rdrd\theta\)
となる。\(\frac{d}{dr} \exp( - \frac{r^2}{2}) = -r\exp( - \frac{r^2}{2})\)より、
\[\begin{align} I^2 &= \int_{0}^{2\pi}d\theta\int_{0}^{\infty}\exp( - \frac{r^2}{2})\sigma^2rdr \\ &= 2\pi\sigma^2 \times -\left[\exp( - \frac{r^2}{2}) \right]_0^{\infty} \\ &= 2\pi\sigma^2 \end{align}\] 以上より、 \[\begin{equation} I = \int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x- \mu)^2)dx = \sqrt{2\pi\sigma^2} \end{equation}\] が示された。