演習問題

  1. 任意の連続値の確率分布において、確率変数が \(x = 0\) となる確率はいくつか。

0。確率分布 \(p(x)\) は、確率変数 \(X\)\(X \in (x, x + \Delta x] \ (\Delta x \ll 1)\) に含まれる確率が \(p(x)\Delta x\) となるように定義される。加えて、\(p(x) \ge 0\) (\(^{\forall} x \in D\))、\(\int_D p(x)dx = 1\) を満たす。ここで、確率変数\(X = x\)\(X = 0\)を満たす確率は、\(x = 0\) かつ \(\Delta x = 0\) にて \(p(x) \Delta x = 0\) にて与えられる。したがって、答えは0

  1. \(x \in (a, b)\) にて定義される一様分布の分散を計算せよ。

\(x\)の平均は\(\frac{b + a}{2}\) (前回資料を参照のこと)、\(x^2\)の平均を計算すると、
\(\int_a^b x^2 \frac{1}{b-a} dx = \frac{1}{b-a} \frac{1}{3} (b^3 - a^3) = \frac{1}{3} (b^2 + ba + a^2)\)
したがって、
\(\mathrm{Var}(x) = \frac{1}{3} (b^2 + ba + a^2) - (\frac{b + a}{2})^2 = \frac{1}{12}b^2 - \frac{1}{6}ba + \frac{1}{12}a^2 = \frac{1}{12} (b - a)^2\)
である。

  1. \(p(x, y) = x + y \ (0 \le x \le 1, 0 \le y \le 1)\)\(p(x, y) = 0 \ (\mathrm{otherwise})\)

となる確率分布を考える。この確率分布において

*確率分布の定義を満たしていること、

*\(x\)\(y\)の平均、

*\(x\)\(y\)の標準偏差、

*\(x\)\(y\)の共分散、

*\(x\)\(y\)の相関係数

を計算せよ。

*明らかに\(p(x, y) \ge 0\)
\(\int_0^1\int_0^1 p(x, y)dxdy = \int_0^1 \left[ \frac{x^2}{2} \right]_0^1+ y[x]_0^1) dy = \int_0^1 (\frac{1}{2} + y) dy = 1\)
したがって、確率分布の定義を満たす。

*\(x\)\(y\)は入れ替え対称なので、平均も分散も標準偏差も同じ。まずは\(x\)の平均を計算する。
\(\int_0^1\int_0^1 xp(x, y)dxdy = \int_0^1 (\left[ \frac{x^3}{3} \right]_0^1+ y\left[\frac{x^2}{2} \right]_0^1)dy = \int_0^1 (\frac{1}{3} + \frac{y}{2}) dy = \frac{7}{12}\)

*ついで\(x^2\)の期待値を計算する。
\(\int_0^1\int_0^1 x^2p(x, y)dxdy = \int_0^1 (\left[ \frac{x^4}{4} \right]_0^1+ y\left[\frac{x^3}{3} \right]_0^1)dy = \int_0^1 (\frac{1}{4} + \frac{y}{3}) dy = \frac{5}{12}\)
したがって、分散は
\(\mathrm{Var}(x) = \frac{5}{12} - (\frac{7}{12})^2 = \frac{11}{144}\)
標準偏差は \(\mathrm{Std}(x) = \frac{\sqrt{11}}{12}\)

*共分散を計算するために、\(xy\)の期待値を計算する。 \(\int_0^1\int_0^1 xy\ p(x, y)dxdy = \int_0^1 (\left[ \frac{x^3}{3} \right]_0^1y+ y^2\left[\frac{x^2}{2} \right]_0^1)dy = \int_0^1 (\frac{y}{3} + \frac{y^2}{2}) dy = \frac{1}{3}\)
どちらも平均は\(\frac{7}{12}\)であり、共分散は \(\frac{1}{3} - \frac{49}{144} = -\frac{1}{144}\)

*相関係数は、 \(\frac{-\frac{1}{144}}{\frac{\sqrt{11}}{12}\frac{\sqrt{11}}{12}} = -\frac{1}{11}\)

ガウス分布

すべての分野を通じて、最もよく利用される確率分布。そのため、性質をよく見ていこう。
先週の内容を再掲する(重要なことなので、何度触れてもよい)。

その確率分布は、 \(p(x | \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2}(x - \mu)^2 \right)\) であたえられる ( \(x \in (-\infty, \infty)\) )。
第1に、この形を見ただけでもわかることは複数ある。\(x \to \pm\infty\) のときに \(p(x) \to 0\) となること、\(x = \mu\) を中心とした偶関数となることなど。

\(\mu = 0, \sigma = 1\)のとき、ガウス分布は下記のような形をしている (\(\mu = 0, \sigma = 1\)のガウス分布を標準正規分布と呼ぶ)。

curve(dnorm, -5, 5) # 確率密度関数

つまり、中心周りに左右対称に分布しており、中心から離れるほどに確率分布の値は小さくなっていく。

\(\mu = 0, \sigma = 1\)のとき、分布関数は、(分布関数\(F(x)\)は、確率変数\(X\)\(x\)より小さい確率を表す。\(F(x)\)を微分すると確率分布\(p(x)\)\(p(x)\)を積分すると\(F(x)\)。ようは\(p(x)\)の原関数)

curve(pnorm, -5, 5)

であり、これは誤差関数とも呼ばれる。この講義では扱うことはないが、分野によってはかなり頻繁に顔を出す関数である。

乱数も、

par(mfrow=c(1,2)) 
hist(rnorm(1000,0,1)) # \mu = 0, \sigma = 1

として生成可能であり、これまたかなり頻繁に利用される。

ガウス分布 (確率分布の定義)

ガウス分布は確率分布の一つであるため、\(p(x) \ge 0\) かつ、 \(\int_{-\infty}^{\infty} p(x) dx = 1\) を満たす。指数関数の性質から \(p(x) \ge 0\) は明らか。そこで、\(\int_{-\infty}^{\infty} p(x) dx = 1\)を示してみよう。

\(\mu = 0\)\(\sigma = 1\)の場合 (このような正規分布を標準正規分布 \(p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{1}{2\sigma^2} (x - \mu)^2 \right)\) と呼ぶ)、確率分布は

curve(dnorm, -5, 5) # 確率分布

このような形をしており、この関数を \(- \infty\) から \(\infty\) まで積分してみると、

f <- function(x) exp(-0.5*x^2)/sqrt(2*pi) # 積分する関数を定義
integrate(f, -Inf, Inf) # 積分実行
## 1 with absolute error < 9.4e-05

確かに1となる。これを解析的に示すことも可能ではあるが、かなり難しいので、補遺に示す。

ガウス分布の平均

定義より、 \[\begin{equation} E[x] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x \ \exp \left( - \frac{1}{2\sigma^2}(x-\mu)^2\right) dx \end{equation}\] を計算する。\(\hat{x} = x - \mu\) として、改めて \(\hat{x}\)\(x\) と表記すると、 \[\begin{equation} E[x] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx + \mu \end{equation}\]

\(\frac{d}{dx} \exp( - \frac{x^2}{2\sigma^2}) = -\frac{x}{\sigma^2}\exp( - \frac{x^2}{2\sigma^2})\)より、適切な定数を\(c\)とすると、

\[\begin{align} E[x] &= cx \left[ \exp( - \frac{x^2}{2\sigma^2}) \right]_{-\infty}^{\infty} + \mu \nonumber\\ &= \mu \end{align}\]

したがって、ガウス分布の平均は\(\mu\)である。

これを数値的に確かめてみよう。

mean(rnorm(10000,1,1)) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 1.005982
mean(rnorm(10000,2,1)) # μ = 2, σ = 1 のガウス分布から10000個確率変数を生成 → 平均
## [1] 1.999843
mean(rnorm(10000,1,2)) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成 → 平均
## [1] 0.9959893

確かに、\(\sigma\) とは関係なく \(\mu\) が平均となることがわかる。

ガウス分布の分散

これは分散の定義通り計算した方が見通しが良い。 \[\begin{equation} \mathrm{Var}(x) = E[(x-\mu)^2] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} (x-\mu)^2 \ \exp \left( - \frac{1}{2\sigma^2}(x-\mu)^2\right) dx \end{equation}\]

\(\hat{x} = x - \mu\) として、改めて \(\hat{x}\)\(x\) と表記すると、

\[\begin{equation} E[x^2] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} x^2 \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx \end{equation}\]

\(x^2 \ \exp \left( - \frac{1}{2\sigma^2}x^2\right) = -\sigma^2 x \ \frac{d}{dx} \exp \left( - \frac{1}{2\sigma^2}x^2\right)\) であることに着目して、部分積分を利用すると (\((fg)' = f'g + fg'\) より、 \(\int fg' = [fg] - \int f'g\)) 、

\[\begin{align} E[x^2] &= -\sigma^2 \left( [x \ \exp\left( - \frac{1}{2\sigma^2}x^2\right)]_{-\infty}^{\infty} - \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp \left( - \frac{1}{2\sigma^2}x^2\right) dx\right) \nonumber\\ &= \sigma^2 \end{align}\]

したがって、ガウス分布の分散は \(\sigma^2\) である。これも確かめてみよう。

var(rnorm(10000,1,1)) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成 → 分散
## [1] 1.013501
var(rnorm(10000,2,1)) # μ = 2, σ = 1 のガウス分布から10000個確率変数を生成 → 分散
## [1] 0.9872683
var(rnorm(10000,1,2)) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成 → 分散 (σ×σ)
## [1] 3.942932

以上より、たしかにガウス分布の分散は \(\sigma^2\) である。

モーメント母関数

これまでに、ベルヌーイ分布、二項分布、一様分布、ガウス分布など、様々な確率分布を学んできた。 多くの場合、平均、分散の2つを定量化することが多い。しかしながら、確率分布を表現する特徴量はこの2つだけではない。

その他の確率分布を特徴づける値として、歪度や尖度が挙げられる。歪度とは、平均 \(\mu\) において \(\frac{(x-\mu)^3}{\sigma^3}\) の期待値、尖度とは \(\frac{(x-\mu)4}{\sigma^4}\) を意味する。

歪度を計算してみると、下記の通り。

dam = rnorm(100000,1,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] -0.004426848
dam = rnorm(100000,1,2) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] 0.03037171
dam = rnorm(100000,2,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^3)
## [1] -0.01132737

上記のように、ガウス分布の歪度は0になる (解析的に0)。

尖度を計算してみると、下記の通り。

dam = rnorm(100000,1,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4)
## [1] 3.043452
dam = rnorm(100000,1,2) # μ = 1, σ = 2 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4/((2^2)^2)) 
## [1] 2.984775
dam = rnorm(100000,2,1) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4)
## [1] 3.005686
dam = rnorm(100000,2,3) # μ = 1, σ = 1 のガウス分布から10000個確率変数を生成
mean((dam - mean(dam))^4/((3^2)^2))
## [1] 2.994276

上記のように、ガウス分布の尖度は、\(3\)になる。

もちろんついで5乗, 6乗, … と計算していくことも可能ではあるが、どう考えても効率が悪い。 そこで確率分布を特徴づける方法として、モーメント母関数が提案された。

モーメント母関数とは、補助変数\(t\)を用いて
\[\begin{equation} E[e^{t(X-\mu)}] \end{equation}\] として定義される。
このモーメント母関数を \(t\) についてテーラー展開すると、
\(E[e^{t(X-\mu)}] = E \left[1 + t(X-\mu) + \frac{1}{2!}(t(X-\mu))^2 + \frac{1}{3!}(t(X-\mu))^3 + ... \right]\)
として無限級数で書き表すことができる。
そして、例えば \(t\) で微分して \(\lim_{t\to0}\) とすると、 \(\lim_{t\to0}\frac{d}{dt}E[e^{t(X-\mu)}] = E[(X-\mu)]\)
となる。最初に \(\mu = 0\) としてこの値を計算すると、平均 \(\mu\) を得る。
ついで\(t^2\)で微分して \(\lim_{t\to0}\) とすると、
\(\lim_{t\to0}\frac{d^2}{dt^2}E[e^{t(X-\mu)}] = E[(X-\mu)^2]\)
つまり、分散となる。このようにして、 \(\lim_{t\to0}\frac{d^k}{dt^k}E[e^{tX}] = E[(X - \mu)^k]\)
を得る。つまりモーメント母関数さえ計算してしまえば、分散、歪度、尖度を始めとして、非常に多数の特徴量を計算可能になる。加えて、モーメント母関数が一致する2つの確率分布は、必ず等しい確率分布になるという性質ももつ。

ガウス分布のモーメント母関数

ガウス分布のモーメント母関数を計算する。定義より、
\[\begin{equation} E[e^{tX}] = \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp(t(x-\mu))\exp( - \frac{1}{2\sigma^2} (x-\mu)^2)dx \end{equation}\]

となる。指数関数の中身を整理すると、
\(tx - t\mu - \frac{1}{2\sigma^2}x^2 + \frac{\mu}{\sigma^2}x - \frac{1}{2\sigma^2}\mu^2 = - \frac{1}{2\sigma^2}x^2 + \left(t + \frac{\mu}{\sigma^2}\right)x - t\mu - \frac{1}{2\sigma^2}\mu^2\)
となる。ここで平方完成すると、
\(- \frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2 + \frac{\sigma^2}{2}\left( t^2 + 2\frac{\mu}{\sigma^2}t + \frac{\mu^2}{\sigma^4}\right) - t\mu - \frac{1}{2\sigma^2}\mu^2 = - \frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2 + \frac{\sigma^2}{2}t^2\)
を得る。つまり、
\[\begin{align} E[e^{tX}] &= \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} \exp\left(\frac{1}{2\sigma^2}(x - \sigma^2 \left(t + \frac{\mu}{\sigma^2}\right) )^2\right)\exp\left(\frac{\sigma^2}{2}t^2 \right)\nonumber\\ &= \exp\left(\frac{\sigma^2}{2}t^2 \right)dx \end{align}\]

ここから分散、歪度、尖度…などを求めることができる。

演習問題

  1. ガウス分布の平均を求めよ (前述の計算をもう一度自分で確かめよう)

  2. ガウス分布の分散を求めよ (前述の計算をもう一度自分で確かめよう)

  3. ガウス分布のモーメント母関数を求めよ (前述の計算をもう一度自分で確かめよう)

補遺 (ガウス分布の積分値が1になることの証明)

\(I = \int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x- \mu)^2)dx = \sqrt{2\pi\sigma^2}\) を示す。

第1に、ややヒューリスティックではあるが、\(I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} [(x- \mu)^2 + (y- \mu)^2])dxdy\) を計算する。\(x - \mu\)\(y - \mu\)を各々改めて\(x\), \(y\)とおく。これにより積分変数の定義域の変更も必要ではないことに注意。すると、
\(I^2 = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x^2 + y^2))dxdy\)
となり、今、\(\frac{x^2 + y^2}{\sigma^2} = r^2\)とおく。すなわち、\(\frac{x}{\sigma} = r\cos\theta\)\(\frac{y}{\sigma} = r\sin\theta\)と変数変換する(\(r \in [0, \infty)\), \(\theta \in (0, 2\pi)\))。

重積分の変数変換

重積分の変数変換を思い出そう。\(x = x(r, \theta)\) より、その全微分は \(dx = \frac{\partial x}{\partial r}dr + \frac{\partial x}{\partial \theta}d\theta = \left(\begin{matrix}\frac{\partial x}{\partial r} \ \frac{\partial x}{\partial \theta}\end{matrix}\right) \left(\begin{matrix}dr \\ d\theta\end{matrix}\right)\) となる。同様に考えると、最終的に全微分は、
\(\begin{pmatrix} dx \\ dy \end{pmatrix} = \begin{pmatrix} \frac{\partial x}{\partial r} \ \frac{\partial x}{\partial \theta} \\ \frac{\partial y}{\partial r} \ \frac{\partial y}{\partial \theta} \end{pmatrix} \begin{pmatrix} dr \\ d\theta \end{pmatrix}\)
となる。また、この右辺の係数行列をヤコビアンという。

\(dxdy\)は、\((x-y)\)平面での微小な長方形の面積を表す。変数変換した先での\(dxdy\)は、下図のように平行四辺形になる。また、各々の頂点の座標がどのように変換されたかも注目。

加えて、平行四辺形形の面積は、下図のように求められる。

したがって、変数変換した先での\(dxdy\)は、ヤコビアンの行列式を利用して
\(dxdy = \left(\frac{\partial x}{\partial r}\frac{\partial y}{\partial \theta} - \frac{\partial x}{\partial \theta}\frac{\partial y}{\partial r}\right)drd\theta = \sigma^2\cos\theta (r\cos\theta) - \sigma^2(-r\sin\theta)\sin\theta = \sigma^2rdrd\theta\)
となる。

ガウス分布の積分値が1になることの証明 (cont.)

以上から、
\(I^2 = \int_{0}^{\infty}\int_{0}^{2\pi}\exp( - \frac{r^2}{2})\sigma^2rdrd\theta\)
となる。\(\frac{d}{dr} \exp( - \frac{r^2}{2}) = -r\exp( - \frac{r^2}{2})\)より、
\[\begin{align} I^2 &= \int_{0}^{2\pi}d\theta\int_{0}^{\infty}\exp( - \frac{r^2}{2})\sigma^2rdr \\ &= 2\pi\sigma^2 \times -\left[\exp( - \frac{r^2}{2}) \right]_0^{\infty} \\ &= 2\pi\sigma^2 \end{align}\] 以上より、 \[\begin{equation} I = \int_{-\infty}^{\infty}\exp( - \frac{1}{2\sigma^2} (x- \mu)^2)dx = \sqrt{2\pi\sigma^2} \end{equation}\] が示された。