前回は相関係数、共分散など2種類のデータ間の関係性を捉える指標について学んだ。
共分散については、 \[\begin{equation}
\mathrm{Cov}(x,y) = \frac{1}{N}\sum_{i = 1}^N(x_i - \bar{x})(y_i - \bar{y}) = \frac{1}{N}\sum_{i = 1}^Nx_iy_i - \bar{x}\bar{y}
\end{equation}\] となり、これは下記の分散の展開式のアナロジーであることを学んだ。 \[\begin{equation}
\mathrm{Var}(x) = \mathrm{Cov}(x,x) = \frac{1}{N}\sum_{i = 1}^N(x_i - \bar{x})(x_i - \bar{x}) = \frac{1}{N}\sum_{i = 1}^Nx_i^2 \bar{x}^2
\end{equation}\]
今回の資料では、条件付き確率やベイズの定理など
1: 相関係数が\(-1 \le r \le 1\)となることを証明せよ。
回答:
\(x_i\), \(y_i\)の平均を各々\(\bar{x}\), \(\bar{y}\)として、\(\boldsymbol{x} = (x_1 - \bar{x}, ..., x_N - \bar{x})\), \(\boldsymbol{y} = (y_1 - \bar{y}, ..., y_N - \bar{y})\)を考える。すると、標準偏差は各々\(\mathrm{SD}(x) = \frac{1}{\sqrt{N}}|\boldsymbol{x}|\), \(\mathrm{SD}(y) = \frac{1}{\sqrt{N}}|\boldsymbol{y}|\)、共分散は\(\mathrm{Cov}(\boldsymbol{x}, \boldsymbol{y}) = \frac{1}{N}\boldsymbol{x}\cdot \boldsymbol{y}\)と書くことができる。相関係数は、 \[\begin{equation}
r = \frac{\frac{1}{N}\boldsymbol{x}\cdot \boldsymbol{y}}{\frac{1}{\sqrt{N}}|\boldsymbol{x}|\frac{1}{\sqrt{N}}|\boldsymbol{y}|} = \cos\theta
\end{equation}\] ただし、\(\theta\)とは、ベクトル\(\boldsymbol{x}\)と\(\boldsymbol{y}\)がなす角である。以上より、\(-1 \le r \le 1\)。
3: 2種類のデータ\(\boldsymbol{x} = (x_1, ..., x_N)\)と\(\boldsymbol{y} = (y_1, ..., y_N)\)を計測したとき、
\[\begin{equation} y_i = ax_i + b \end{equation}\]
として傾きa、切片bの直線をフィットすることを線形回帰と呼ぶ。そして、
\[\begin{equation} E = \frac{1}{2}\sum_{i=1}^N(y_i - ax_i -b)^2 \end{equation}\]
として、データとフィットした直線の間の2乗誤差を最小化する手法を最小二乗法と呼ぶ。
\(\boldsymbol{x}\)と\(\boldsymbol{y}\)の共分散を\(\sigma_{\rm xy}\)、相関係数を\(r\)、\(\boldsymbol{x}\)の分散を\(\sigma_{\rm x}\)^2とする。最小二乗法を利用して推定した\(a\)、\(b\)において、\(a = \frac{\sigma_{\rm xy}}{\sigma_{\rm x}} = r\frac{\sigma_{\rm y}}{\sigma_{\rm x}}\)となることを示せ。
すなわち、相関係数\(r\)は線形回帰した直線の傾きを意味する。
回答:
\(\frac{\partial E}{\partial a} = - \sum_{i=1}^N(y_i - ax_i -b)x_i = - \sum_{i=1}^Nx_iy_i + a \sum_{i=1}^Nx_i^2 +b\sum_{i=1}^Nx_i\)、
\(\frac{\partial E}{\partial b} = - \sum_{i=1}^N(y_i - ax_i -b) = - \sum_{i=1}^Ny_i + a \sum_{i=1}^Nx_i +bN\)
を得る。その後、例えば\(\boldsymbol{z} = (a, b)^T\)として、\(\boldsymbol{A}\boldsymbol{z} = \boldsymbol{b}\)という連立方程式の形を作り、\(\boldsymbol{z} = \boldsymbol{A}^{-1} \boldsymbol{b}\)とすれば計算可能。
統計では、観測した標本(データ)から母集団の性質を推測することを目標とする。これまでに見てきた数学、物理のテストの得点は、限られた数のデータに過ぎず、集団内での平均点の計算は容易であった。しかしながら、例えば「すべての日本在住の人々の身長の平均値を計算せよ」という問題を考えるとき、どのように解決を試みるであろうか。
簡単に思いつく解決方法は、(おおよそ)1億人の身長をすべて測ることであろうか。計測に1人1分として、すべてのヒトが都合よく計測に参加してくれたとして、1日7時間計測しても合計238,095日かかる。各地で分散して計測しても現実的ではない。そこで、「ある程度の人数分計測して推測」という方策が良いのではないかと考えつくであろう。 「ある程度の人数分」にも気をつけるべき点がある。計測対象が全員女性ではどうであろうか?全員20歳ではどうであろうか?おそらく妥当な推測はできないことが予想される。そのため、計測対象はまんべんなくランダムに計測する必要があるだろう。仮想的に100回ほど1000人の計測を行ったときに、1人目の身長データの100回分の平均値=2人目の身長データの100回分の平均値=…1000人目の身長データの100回分の平均値、となっていればまんべんなくランダムに計測していると言えるであろう。さらにランダムであれば、1人目と2人目の計測の間には関係性がないはずなので、共分散は0になっていると想定される。このようなまんべんなくランダム行う計測を、ランダムサンプリングと呼び、この講義では、ランダムサンプリングされたデータを対象とする。
したがって、統計解析には、ランダムにサンプリング(計測)されたデータの解析方法が必須である。第一に、データからランダムに計測するという想定上、必要不可欠な確率について学ぶ。その後、ランダムに計測されたデータから母集団の性質を推測する手法について学ぶ。したがって、しばらくは確率について学んでいく。
データが取りうるすべての結果の集合を標本空間と呼ぶ。コイントスを想定して、\(x_i = 1\)ならば\(i\)回目のコイントスが表、\(x_i = 0\)ならば裏とする。2回コイントスしたときの標本空間は、\((x_1, x_2) = (0, 0), (1, 0), (0, 1), (1, 1)\)。
標本空間の部分空間のことを事象と呼ぶ。2回コイントスを行う際、1回目が表の事象\(A\)は\((x_1, x_2) = (1, 0), (1, 1)\)です。これらは1回目が裏の事象\(B\)とは互いに排反。これらのことを、標本空間を\(S\)、空集合を\(\phi\)とすると、\(A\cup B = S\)、\(A \cap B = \phi\)と書く。高校の頃に習った通り、ベン図を書くとわかりやすい場合が多い。
標本空間\(S\)、事象\(A\)に対して、以下の条件を満たす\(P(A)\)を確率と定義する。
\(P(A) \ge 0\)
\(P(S) = 1\)
\(A_n \cap A_m \ (n \neq m)\)のとき、\(P(\cup_{n=1}^N A_n) = \sum_{n = 1}^N P(A_n)\)
すなわち、確率とは0より大きく、すべての事象毎の確率を足せば1になるものであることを意味する。
ある事象の前提の元の確率を条件付き確率という。事象\(A\)が前提の元の事象\(B\)の確率を、\(P(B|A)\)と書く。例えば、2回コイントスをする前述の例において、1回目が表の前提の元、2回目が裏になる確率は、\(P(x_2 = 0 | x_1 = 1)\)と書くことができる。標本空間は、\((x_1, x_2) = (0, 0), (1, 0), (0, 1), (1, 1)\)であるものの、1回目が表の前提であるため、考えるべき部分標本空間は\((x_1, x_2) = (1, 0), (1, 1)\)。したがって、\(P(x_2 = 0 | x_1 = 1) = 0.5\)。1回目のコイントスと2回目のコイントスは関係ないため、\(P(x_2 = 0 | x_1 = 1) = P(x_2 = 0) = 0.5\)である。
事象\(A\)と\(B\)が同時に生じる確率を\(P(A \cap B)\)と書き、これを同時確率を呼ぶ。同時確率の計算方法は、ベン図を書くとわかりやすく、\(P(A \cap B) = P(A) + P(B) - P(A \cup B)\)である。例えば、2回コイントスをする前述の例において、\(A\)が1回目表、\(B\)が2回目裏とすると、\(P(A) = 0.5\)、\(P(B) = 0.5\)、\(P(A \cup B) = 0.75\) (1回目裏、2回目表の事象以外すべて) より、\(P(A \cap B) = 0.25\)。
同時確率を用いて、条件付き確率の定義を与えると、以下のものになる。 \[\begin{equation}
P(B | A)P(A) = P(A \cap B)
\end{equation}\] または、 \[\begin{equation}
P(A | B)P(B) = P(A \cap B)
\end{equation}\] つまり、前提となる事象\(A\)が生じる確率\(P(A)\)と、事象\(A\)を前提として\(B\)が起こる確率\(P(B | A)\)を掛け算することは、両者が同時に生じる確率を意味することになるということである。つまり、事象\(A\)と、事象\(A\)を前提とした事象\(B\)が同時に起こることは、事象\(A\)と\(B\)が同時に起こることに等しい(ややこしければコイントスの例を思い浮かべればわかりやすい)。
例えば、事象A: 1回目のコイントスが表、事象B: 2回目のコイントスが裏、とする。\(P(A) = 1/2\)、\(P(A \cap B) = 1/4\)より、\(P(B | A) = 1/2\)。また、別の考え方として、1回目のコイントスが表であったことは既に起こった事象であるとして、2回目に裏が出る確率が\(P(B | A)\)である。1回目と2回目のコイントスには関係性はないため、\(P(B | A) = 1/2\)となる。同様に、\(P(A | B)\)は2回目のコイントスが裏だと知った上で、1回目のコイントスが表になる確率を意味する。前述のように考え、\(P(A | B) = 1/2\)
前述のコイントスでは、1回目と2回目の間に関係が一切ない。このような関係を独立という。すなわち、1回目に表がでる事象\(A\)と2回目に裏がでる事象\(B\)とに関係がなく独立であるという。独立な事象の間には、 \[\begin{equation}
P(A|B) = P(A)
\end{equation}\] ないしは \[\begin{equation}
P(B|A) = P(B)
\end{equation}\] という関係が成立する。条件付き確率の定義式に当てはめると、独立な事象の間には、 \[\begin{equation}
P(A)P(B) = P(A \cap B)
\end{equation}\] が成立することがわかる。
事象\(A\)と、互いに排反な\(N\)個の事象\(B_1, ..., B_N\)、そして同時確率\(P(A \cap B_i)\)が与えられていたとき(\(i = 1, ..., N\))、 \[\begin{equation} P(A) = \sum_{i = 1}^NP(A \cap B_n) \end{equation}\] を全確率と呼ぶ。つまり、\(A\)と\(B\)が同時に起こる確率のみが与えられていたときに、\(A\)が起こる確率のみを知りたい場合の関係性である。上記の式は、事象\(A\)が起こるすべての状況の確率を足し合わせていることがわかる。
例えば、前述のコイントスの例にて、\(P(x_1 = 1, x_2 = 1) = 0.25\)、\(P(x_1 = 1, x_2 = 0) = 0.25\)という情報のみが与えられていたとしよう。ここから\(P(x_1 = 1)\)を知りたいときは、\(P(x_1 = 1) = P(x_1 = 1, x_2 = 0) + P(x_1 = 1, x_2 = 1) = 0.5\)とすればよいことがわかる。
条件付き確率の定義式より、 \[\begin{equation}
P(A|B)P(B) = P(B|A)P(A)
\end{equation}\] となることがわかる。これをベイズの定理と呼ぶ。
ベイズの定理は一見よくわからない雰囲気を醸し出しているが、非常に興味深く有益なものである。例を見てみよう。
例題 全人口のうち、1%のヒトが病気Aにかかるという事前情報がある。精密検査を受けることで、病気Aにかかっているか否かは99%の確率で正確に診断できることがわかっている。このとき、病気Aにかかっていると診断されたヒトが、本当に病気Aである確率はいくつでしょうか。
\(P(A = 1) = 0.01\)を病気にかかっている確率、\(P(A = 0) = 0.99\)を病気にかかっていない確率、\(P(B = 1 | A = 1) = 0.99\)を病気にかかっているヒトが病気にかかっていると診断される確率、\((B = 0 | A = 1)\)を病気にかかっているヒトが病気にかかっていないと診断されるとする。ここで知りたい値は、\(P(A = 1 | B = 1)\)である。ベイズの定理より、
\[\begin{equation}
P(A = 1 | B = 1) = \frac{P(B = 1 | A = 1)P(A = 1)}{P(B = 1)} = \frac{0.99 \times 0.01}{P(B = 1)}
\end{equation}\] である。右辺の分子は前述の通りであるが、分母の\(P(B = 1)\) (病気と診断される確率) は未知である。これは、全確率であり、 \[\begin{equation}
P(B = 1) = P(B = 1 | A = 0)P(A = 0) + P(B = 1 | A = 1)P(A = 1) = 0.01\times 0.99 + 0.99\times 0.01
\end{equation}\] として、事象\(A\)についてすべて考慮することで計算できる。以上より、
\[\begin{equation}
P(A = 1 | B = 1) = 0.5
\end{equation}\] となる。驚くことに、検査の精度がある程度高くとも、病気自体に罹患する確率が低いときには、診断の結果と実際の状態とは必ずしも合わないことがわかる。
1: 長年に渡る気象データの蓄積から、例年M月D日は20%の確率で天気は晴れとなることが知られている。一方、天気予報システムWは90%の確率で正しい予報をする。天気予報システムWは、来たるM月D日の天気を「晴れ」と予報した。このとき、来るM月D日が晴れとなる確率を計算せよ。
2: コイントスしたとき、表が出る確率が \(p\in[0, 1]\)、裏が出る確率が \(1 - p\) となるコインがある。
5回コイントスしたとき3回表が出る確率を計算せよ。
\(n\)回コイントスしたとき\(k\)回表が出る確率 \(p(n; k)\) を計算せよ。
\(p(n; k)\)が確率分布の定義を満たすことを示せ。