gg_hatano
Mathematical Informatics, M2
資料: http://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/39717/2/kubo2009IEICE.pdf
| FULLNAME | ATBAT | HITS | AVG | AVG_SEASON | |
|---|---|---|---|---|---|
| 1 | Pedro Alvarez | 52 | 6 | 0.12 | 0.23 |
| 2 | Elvis Andrus | 59 | 13 | 0.22 | 0.27 |
| 3 | Norichika Aoki | 61 | 18 | 0.29 | 0.29 |
| 4 | Erick Aybar | 28 | 9 | 0.32 | 0.27 |
| 5 | Darwin Barney | 11 | 1 | 0.09 | 0.21 |
| 6 | Adrian Beltre | 55 | 14 | 0.26 | 0.32 |
| 7 | Carlos Beltran | 51 | 13 | 0.26 | 0.30 |
| 8 | Michael Bourn | 45 | 15 | 0.33 | 0.26 |
| 9 | Michael Brantley | 50 | 12 | 0.24 | 0.28 |
| 10 | Jay Bruce | 71 | 21 | 0.30 | 0.26 |
Data : Major League Baseball Games (2013) ... Open Data
| FULLNAME | ATBAT | HITS | AVG | AVG_SEASON | |
|---|---|---|---|---|---|
| 1 | Pedro Alvarez | 52 | 6 | 0.12 | 0.23 |
| 2 | Elvis Andrus | 59 | 13 | 0.22 | 0.27 |
| 3 | Norichika Aoki | 61 | 18 | 0.29 | 0.29 |
| 4 | Erick Aybar | 28 | 9 | 0.32 | 0.27 |
| 5 | Darwin Barney | 11 | 1 | 0.09 | 0.21 |
Ex. イチローの打席結果 (April,2013)
HIT, OUT, OUT, HIT, OUT, HIT, OUT, OUT , OUT, ...
\(n\) 安打数 / \(N\) 打席数 \(\to\) 尤度 \(\mathrm{L}(q)\):
\[\begin{align*} \mathrm{L}(q) &= \binom{N}{n}q^n (1-q)^{N-n}. \end{align*}\]
where \(q\) : 真の打率
\(\to\) 真の打率を予測したい
尤度: \(\mathrm{L}(q)\): \[\begin{align*} \mathrm{L}(q) = \binom{N}{n}q^n (1-q)^{N-n}. \end{align*}\]
最尤推定量 \(\hat{q}\):
\[\begin{align*} \hat{q} = \mathrm{argmax} ~ \mathrm{L}(q) \end{align*}\]
尤度 \(\mathrm{L}(q)\): \[\begin{align*} \mathrm{L}(q) = \binom{N}{n}q^n (1-q)^{N-n}. \end{align*}\]
尤度を最大化するパラメータ... \[\begin{align*} \frac{\partial}{\partial q_i} \log \mathrm{L}(q_i) &= 0, \\ \frac{n_i}{q_i} - \frac{N_i-n_i}{1-q_i} &= 0, \\ \hat{q_i} &= \frac{n_i}{N_i}. \end{align*}\]
| FULLNAME | AVG | MLE | AVG_SEASON | |
|---|---|---|---|---|
| 1 | Pedro Alvarez | 0.12 | 0.12 | 0.23 |
| 2 | Elvis Andrus | 0.22 | 0.22 | 0.27 |
| 3 | Norichika Aoki | 0.30 | 0.30 | 0.29 |
| 4 | Erick Aybar | 0.32 | 0.32 | 0.27 |
| 5 | Darwin Barney | 0.09 | 0.09 | 0.21 |
| 6 | Adrian Beltre | 0.25 | 0.25 | 0.32 |
| 7 | Carlos Beltran | 0.25 | 0.25 | 0.30 |
| 8 | Michael Bourn | 0.33 | 0.33 | 0.26 |
| 9 | Michael Brantley | 0.24 | 0.24 | 0.28 |
| 10 | Jay Bruce | 0.30 | 0.30 | 0.26 |
| FULLNAME | AVG | MLE | AVG_SEASON | |
|---|---|---|---|---|
| 1 | Pedro Alvarez | 0.12 | 0.12 | 0.23 |
| 2 | Elvis Andrus | 0.22 | 0.22 | 0.27 |
| 3 | Norichika Aoki | 0.30 | 0.30 | 0.29 |
| 4 | Erick Aybar | 0.32 | 0.32 | 0.27 |
| 5 | Darwin Barney | 0.09 | 0.09 | 0.21 |
| 6 | Adrian Beltre | 0.25 | 0.25 | 0.32 |
| 7 | Carlos Beltran | 0.25 | 0.25 | 0.30 |
| 8 | Michael Bourn | 0.33 | 0.33 | 0.26 |
| 9 | Michael Brantley | 0.24 | 0.24 | 0.28 |
| 10 | Jay Bruce | 0.30 | 0.30 | 0.26 |
事前分布, 事後分布...
\[\begin{align*} \mathrm{P}(q_i ~ | ~ D) &= \frac{\mathrm{P}(D~|~q_i) \mathrm{P}(q_i)}{\mathrm{P}(D)} \\ & \propto \mathrm{P}(D~|~q_i) \mathrm{P}(q_i). \end{align*}\]
\(\mathrm{P}(q_i)\) ... "平均周りに縮小" させるような事前分布にしたい.
\(q_i\) 事後分布: \[\begin{align*} \mathrm{P}(q_i | D) \propto \mathrm{P}(D|q_i)\mathrm{P}(q_i).\\ \end{align*}\]
打率 \(q_i\) \(\to\) 打者スキル \(r_i\)
\[ q_i = \frac{1}{1 + \mathrm{e}^{-r_i}}.\]
\(r_i\) ... 打者スキル. 正規分布に従うと仮定.
\[ r_i \sim \mathcal{N}(a,b).\]
\(a\), \(b\): 事前分布のパラメータ... どうやって決める?
図は[久保, 2009]より
$r_i$の事後分布: \[\begin{align*} \mathrm{P}(r_i | D) &\propto \mathrm{P}(D|r_i)\mathrm{P}(r_i;a,b), \\ r_i &\sim \mathcal{N}(a,b). \end{align*}\]
事前分布のパラメータ\(a\), \(b\) ... どうやって決める?
2012 年のデータを使う? .. \(a = ~~~\), \(b = ~~~\) ?
2013 年のデータだけで何とかしたい
$r_i$の事後分布: \(P(D|r_i)\) \[\begin{align*} \mathrm{P}(q_i | D) \propto \mathrm{P}(D|q_i)\mathrm{P}(q_i).\\ \end{align*}\]
パラメータの変換
\[ q_i = \frac{1}{1 + \mathrm{e}^{-r_i}}.\]
\(r_i\) : 打者スキル \(\sim\) 正規分布
\[ r_i \sim \mathcal{N}(a,b).\]
\[\begin{align*} a &\sim \mathcal{N}(0, 100^2), \\ b &\sim \mathcal{U}(0, 100). \end{align*}\]
$q_i$の事後分布: \[\begin{align*} \mathrm{P}(q_i | D) &\propto \mathrm{P}(D|q_i)\mathrm{P}(q_i)\\ &= \mathrm{P}(D|r_i)\mathrm{P}(r_i)\\ &= \int \mathrm{P}(D|r_i)\mathrm{P}(r_i;a,b)\mathrm{P}(a)\mathrm{P}(b) ~ \mathrm{d}a\mathrm{d}b. \end{align*}\]
where
\[\begin{align*} & n_i \sim \mathcal{Binom}(N_i, q_i),\\ & q_i = \frac{1}{1 + \mathrm{e}^{-r_i}}, ~ r_i \sim \mathcal{N} (a,b),\\ & a \sim \mathcal{N}(0,100^2), ~ b \sim \mathcal{U}(0,100). \end{align*}\]
~
$q_i$の事後分布: \[\begin{align*} \mathrm{P}(q_i | D) &\propto \mathrm{P}(D|q_i)\mathrm{P}(q_i)\\ &= \mathrm{P}(D|r_i)\mathrm{P}(r_i)\\ &= \int \mathrm{P}(D|r_i)\mathrm{P}(r_i;a,b)\mathrm{P}(a)\mathrm{P}(b) ~ \mathrm{d}a\mathrm{d}b. \end{align*}\]
where
\[\begin{align*} & n_i \sim \mathcal{Binom}(N_i, q_i),\\ & q_i = \frac{1}{1 + \mathrm{e}^{-r_i}}, ~ r_i \sim \mathcal{N} (a,b),\\ & a \sim \mathcal{N}(0,100^2), ~ b \sim \mathcal{U}(0,100). \end{align*}\]
\(\mathrm{P}(q_i|D)\) : 分布を解析的に計算するのは難しい ... \(\to\) StanでMCMCサンプリング
サンプリング \(\sim \mathrm{P}(q_1 | D) \propto \int \mathrm{P}(D|r_1)\mathrm{P}(r_1|a,b)\mathrm{P}(a)\mathrm{P}(b) \mathrm{d}a\mathrm{d}b.\)
サンプリング \(\sim \mathrm{P}(q_1 | D) \propto \int \mathrm{P}(D|r_1)\mathrm{P}(r_1|a,b)\mathrm{P}(a)\mathrm{P}(b) \mathrm{d}a\mathrm{d}b.\)
--- &twocol
\[\text{Mean Absolute Error} = \frac{1}{N}\sum\limits \left| q_i - q_{\text{season}}\right|\]
代打起用問題
\[\begin{align*} \text{Exploitation} \leftrightarrow \text{Exploration} \end{align*}\]
代打起用問題
\[\begin{align*} \text{Exploitation} \leftrightarrow \text{Exploration} \end{align*}\]
~
階層ベイズモデルで打率の推定をしました
改善のために...