\(X \sim f(.)\),在已知 \(X\) 的 pdf 下,假若想知道 \(Z \equiv g(X)\) 的 pdf, 我們會做變數變換
\[h(z) = f(g^{-1}(z))|J|, \ J = \frac{dx}{dz}\] 你有想過為什麼在後面乘上一個 \(\frac{dx}{dz}\) 嗎?
這個 Jacobian 其實就是在調整由 \(X\) 轉換到 \(Z\) 時所產生的面積變化
我們都知道 \[\int f(x) dx = 1\ \text{or} \ \sum p(x) = 1\] 但是有些連續型分布的 \(f(x)\) 卻會高過於 1 ? 例如 :
之所以可以超過一是因為有一個 \(dx\) 在下面作用, 在 density 很高的地方因為有一個小的 \(dx\) , 才能夠控制 pdf 積分起來等於一, 可以把 \(dx\) 看成底面積的概念
根據這個原理,假若今天 \(f(x)\) 以 \(x = g^{-1}(z)\) 的形式帶入, 我們還能用 \(dx\) 來控制嗎?
\(Z\) 的範圍有可能和 \(X\) 截然不同,舉例來說假若 \(X\) 分布在 \((- \infty, \infty )\) , 取一個 \(g(x) = x^{2}\) 的轉換值域就變成 \([0,\infty)\) , 這時候怎麼辦, 這時候會不會有 pdf 的加總小於一或大於一的狀況 ? 注意: \[\int f(x) dx = 1 = \int h(z)dz\] 還是我們用 \(dz\) 去控制 ? 想想原本 \(Z\) 的 density 乘上 \(dz\) 在 \([0,\infty)\) 處積分起來剛好等於一, 今天值域在 \((-\infty, \infty)\) 處用 \(f(g^{-1}(z))\) 乘上 \(dz\) , 而因為 \(dz\) 是設計給在 \([0,\infty)\) 處調整 density 用的, 今天在 \((-\infty, \infty)\) 處乘看起來因該會小於一 ( 試想把所有位於負數區域的數值都推到正數區域, density 會變高 , 所以 \(dz\) 要比 \(dx\) 小 ) , 也不合理, 那最好的方法就是看在 \(dx\) 和 \(dz\) 的絕對比例是多少, 上面說過 \[\int f(x) dx = 1 = \int h(z)dz\] 可以想像是 \(dx\) 上方的面積 \(f(x)dx\) , 現在要搬移到 \(Z\) 的地方去, 但 \(Z\) 這個地方是以 \(dz\) 作為底面積 , 那他的高怎麼估算 ? 不就是: \[h(z) = f(x)\frac{dx}{dz}\] 為了防止 \(h(z)\) 小於零, 所以再加上絕對值 \[h(z) = f(x)\left|\frac{dx}{dz}\right|\] 就得知為什麼後面要乘上一個 Jacobian 項