確率変数 \(X\) が確率密度関数 \(f(x)\) に従うとき、その確率分布関数を \(F(x)\) と表す。
このとき、期待値 \(E(X)\) は次のように表現される。 \[
\begin{eqnarray}
E(X) &=& \int_{-\infty}^{\infty} xf(x) dx \\
&=& \big[ xF(x) \big]_{x_{min}}^{x_{max}} - \int_{x_{min}}^{x_{max}} F(x) dx \\
&=& x_{max}F(x_{max}) - x_{min}F(x_{min}) - \int_{x_{min}}^{x_{max}} F(x) dx \\
&=& x_{max} - \int_{x_{min}}^{x_{max}} F(x) dx
\end{eqnarray}
\] また、分散 \(V(X)\) は次のように表現される。(\(\mu = E(X)\) とおく) \[
\begin{eqnarray}
V(X) &=& \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \\
&=& \int_{-\infty}^{\infty} x^2 f(x) dx - 2\mu\int_{-\infty}^{\infty} xf(x) dx + \mu^2\int_{-\infty}^{\infty} f(x) dx \\
&=& \big[ x^2 F(x) \big]_{x_{min}}^{x_{max}} -\int_{x_{min}}^{x_{max}}2xF(x) dx - 2\mu^2 + \mu^2 \\
&=& x_{max}^2 F(x_{max}) - x_{min}^2 F(x_{min}) -2\int_{x_{min}}^{x_{max}} xF(x) dx - \mu^2 \\
&=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF(x) dx - E(X)^2
\end{eqnarray}
\]
サンプル \(x_1, \cdots, x_n\) が与えられたとき、経験分布関数(empirical distribution function) \(F_n(x)\) は、次のように定義される。 \[
F_n(x) = \frac{\#\{x_i \leq x\}}{n}
\] 大数の強法則により、\(F_n\) は \(n\rightarrow \infty\) のとき確率分布関数 \(F\) に概収束する。
したがって、期待値および分散を \(F\) で表した式を \(F_n\) で置き換えると、経験分布関数による期待値、分散を求める式となる。 \[
\begin{eqnarray}
E_{F_n}(X) &=& x_{max} - \int_{x_{min}}^{x_{max}} F_n(x) dx \\
V_{F_n}(X) &=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF_n(x) dx - E_{F_n}(X)^2
\end{eqnarray}
\] これを R で求めてみよう。
まずは標準正規分布からサンプルを用意する。
x <- rnorm(100)
経験分布関数を求めるのに ecdf()
、積分を行うのに pracma::quad()
を用いる。
期待値を求めるには、
library(pracma)
Fn <- ecdf(x)
SFn <- do.call(quad, c(list(Fn), range(x)))
EFn <- max(x) - SFn
EFn
## [1] -0.06134126
分散を求めるには、
xFn <- function(x) x*Fn(x)
SxFn <- do.call(quad, c(list(xFn), range(x)))
VFn <- max(x)^2 - 2*SxFn - EFn^2
VFn
## [1] 1.074259
理論的には、経験分布関数による期待値と分散は、それぞれ標本平均と標本分散に一致する。
mean(x)
## [1] -0.06125874
n <- length(x)
var(x) * (n - 1) / n
## [1] 1.074315
最後にこれを証明する。
期待値については、 \[
\begin{eqnarray}
E_{F_n}(X) &=& x_{max} - \int_{x_{min}}^{x_{max}} F_n(x) dx \\
&=& x_{max} - \sum_{i=1}^{n-1} \frac{i}{n}(x_{i+1}-x_i) \\
&=& x_{max} - \sum_{i=1}^{n-1} \frac{i}{n}x_{i+1} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\
&=& x_{max} - \sum_{i=2}^{n} \frac{i-1}{n}x_{i} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\
&=& x_{max} - \sum_{i=2}^{n} \frac{i}{n}x_{i} + \sum_{i=2}^{n} \frac{1}{n}x_{i} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\
&=& x_{max} - \frac{n}{n}x_n + \sum_{i=2}^{n} \frac{1}{n}x_{i} + \frac{1}{n}x_1 \\
&=& x_{max} - x_{max} + \frac{1}{n}\sum_{i=1}^{n} x_{i} \\
&=& \frac{1}{n}\sum_{i=1}^{n} x_{i} \\
\end{eqnarray}
\] 分散については、 \[
\begin{eqnarray}
V_{F_n}(X) &=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF_n(x) dx - \mu^2 \\
&=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \int_{x_i}^{x_{i+1}} x\frac{i}{n} dx \bigg) - \mu^2 \\
&=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \frac{i}{n} \bigg[ \frac{x^2}{2} \bigg]_{x_i}^{x_{i+1}} \bigg) - \mu^2 \\
&=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \frac{i}{2n} ( x_{i+1}^2 - x_{i}^2 ) \bigg) - \mu^2 \\
&=& x_{max}^2 -\bigg( \sum_{i=1}^{n-1} \frac{i}{n} x_{i+1}^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_i^2 \bigg) - \mu^2 \\
&=& x_{max}^2 -\bigg( \sum_{i=2}^{n} \frac{i-1}{n} x_i^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_i^2 \bigg) - \mu^2 \\
&=& x_{max}^2 -\bigg( \sum_{i=2}^{n} \frac{i}{n} x_i^2 - \sum_{i=2}^{n} \frac{1}{n} x_i^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_{i}^2 \bigg) - \mu^2 \\
&=& x_{max}^2 -\bigg( \frac{n}{n} x_n^2 - \sum_{i=2}^{n} \frac{1}{n} x_i^2 - \frac{1}{n} x_1^2 \bigg) - \mu^2 \\
&=& x_{max}^2 -\bigg( x_{max}^2 - \sum_{i=1}^{n} \frac{1}{n} x_i^2 \bigg) - \mu^2 \\
&=& \frac{1}{n} \sum_{i=1}^{n} x_i^2 - \mu^2 \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - \mu^2) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - 2x_i\mu + \mu^2 + 2x_i\mu - \mu^2 - \mu^2) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - 2x_i\mu + \mu^2) + \frac{1}{n} \sum_{i=1}^{n} (2x_i\mu - 2\mu^2) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + \frac{2\mu}{n} \sum_{i=1}^{n} (x_i - \mu) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + 2\mu \bigg(\frac{1}{n} \sum_{i=1}^{n} x_i - \frac{1}{n} \sum_{i=1}^{n} \mu \bigg) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + 2\mu (\mu - \mu) \\
&=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \\
\end{eqnarray}
\] 以上
上のような複雑な式変形をしなくても、経験分布関数 \(F_n(X)\) に対して、確率関数は \(f_n(x) = \frac{1}{n}\) となるので、 \[ \begin{eqnarray} E_{F_n}(X) &=& \sum_{i=1}^n x_i f_n(x_i) = \sum_{i=1}^n x_i \frac{1}{n} \\ &=& \frac{1}{n} \sum_{i=1}^n x_i \\ V_{F_n}(X) &=& \sum_{i=1}^n (x_i - \mu)^2 f_n(x_i) = \sum_{i=1}^n (x_i - \mu)^2 \frac{1}{n} \\ &=& \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \end{eqnarray} \] が導かれる。(※タイの無い場合。タイを考慮しても同様に導かれる)