経験分布関数から期待値、分散を求める

1. 確率分布関数による期待値、分散の表現

確率変数 \(X\) が確率密度関数 \(f(x)\) に従うとき、その確率分布関数を \(F(x)\) と表す。
このとき、期待値 \(E(X)\) は次のように表現される。 \[ \begin{eqnarray} E(X) &=& \int_{-\infty}^{\infty} xf(x) dx \\ &=& \big[ xF(x) \big]_{x_{min}}^{x_{max}} - \int_{x_{min}}^{x_{max}} F(x) dx \\ &=& x_{max}F(x_{max}) - x_{min}F(x_{min}) - \int_{x_{min}}^{x_{max}} F(x) dx \\ &=& x_{max} - \int_{x_{min}}^{x_{max}} F(x) dx \end{eqnarray} \] また、分散 \(V(X)\) は次のように表現される。（\(\mu = E(X)\) とおく） \[ \begin{eqnarray} V(X) &=& \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \\ &=& \int_{-\infty}^{\infty} x^2 f(x) dx - 2\mu\int_{-\infty}^{\infty} xf(x) dx + \mu^2\int_{-\infty}^{\infty} f(x) dx \\ &=& \big[ x^2 F(x) \big]_{x_{min}}^{x_{max}} -\int_{x_{min}}^{x_{max}}2xF(x) dx - 2\mu^2 + \mu^2 \\ &=& x_{max}^2 F(x_{max}) - x_{min}^2 F(x_{min}) -2\int_{x_{min}}^{x_{max}} xF(x) dx - \mu^2 \\ &=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF(x) dx - E(X)^2 \end{eqnarray} \]

2. 経験分布関数による期待値、分散の算出

サンプル \(x_1, \cdots, x_n\) が与えられたとき、経験分布関数(empirical distribution function) \(F_n(x)\) は、次のように定義される。 \[ F_n(x) = \frac{\#\{x_i \leq x\}}{n} \] 大数の強法則により、\(F_n\) は \(n\rightarrow \infty\) のとき確率分布関数 \(F\) に概収束する。
したがって、期待値および分散を \(F\) で表した式を \(F_n\) で置き換えると、経験分布関数による期待値、分散を求める式となる。 \[ \begin{eqnarray} E_{F_n}(X) &=& x_{max} - \int_{x_{min}}^{x_{max}} F_n(x) dx \\ V_{F_n}(X) &=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF_n(x) dx - E_{F_n}(X)^2 \end{eqnarray} \] これを R で求めてみよう。
まずは標準正規分布からサンプルを用意する。

x <- rnorm(100)

経験分布関数を求めるのに ecdf()、積分を行うのに pracma::quad() を用いる。
期待値を求めるには、

library(pracma)
Fn <- ecdf(x)
SFn <- do.call(quad, c(list(Fn), range(x)))
EFn <- max(x) - SFn
EFn

## [1] -0.06134126

分散を求めるには、

xFn <- function(x) x*Fn(x)
SxFn <- do.call(quad, c(list(xFn), range(x)))
VFn <- max(x)^2 - 2*SxFn - EFn^2
VFn

## [1] 1.074259

3. 経験分布関数による期待値、分散の理論値

理論的には、経験分布関数による期待値と分散は、それぞれ標本平均と標本分散に一致する。

mean(x)

## [1] -0.06125874

n <- length(x)
var(x) * (n - 1) / n

## [1] 1.074315

最後にこれを証明する。
期待値については、 \[ \begin{eqnarray} E_{F_n}(X) &=& x_{max} - \int_{x_{min}}^{x_{max}} F_n(x) dx \\ &=& x_{max} - \sum_{i=1}^{n-1} \frac{i}{n}(x_{i+1}-x_i) \\ &=& x_{max} - \sum_{i=1}^{n-1} \frac{i}{n}x_{i+1} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\ &=& x_{max} - \sum_{i=2}^{n} \frac{i-1}{n}x_{i} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\ &=& x_{max} - \sum_{i=2}^{n} \frac{i}{n}x_{i} + \sum_{i=2}^{n} \frac{1}{n}x_{i} + \sum_{i=1}^{n-1} \frac{i}{n}x_{i} \\ &=& x_{max} - \frac{n}{n}x_n + \sum_{i=2}^{n} \frac{1}{n}x_{i} + \frac{1}{n}x_1 \\ &=& x_{max} - x_{max} + \frac{1}{n}\sum_{i=1}^{n} x_{i} \\ &=& \frac{1}{n}\sum_{i=1}^{n} x_{i} \\ \end{eqnarray} \] 分散については、 \[ \begin{eqnarray} V_{F_n}(X) &=& x_{max}^2 -2\int_{x_{min}}^{x_{max}} xF_n(x) dx - \mu^2 \\ &=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \int_{x_i}^{x_{i+1}} x\frac{i}{n} dx \bigg) - \mu^2 \\ &=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \frac{i}{n} \bigg[ \frac{x^2}{2} \bigg]_{x_i}^{x_{i+1}} \bigg) - \mu^2 \\ &=& x_{max}^2 -2\bigg( \sum_{i=1}^{n-1} \frac{i}{2n} ( x_{i+1}^2 - x_{i}^2 ) \bigg) - \mu^2 \\ &=& x_{max}^2 -\bigg( \sum_{i=1}^{n-1} \frac{i}{n} x_{i+1}^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_i^2 \bigg) - \mu^2 \\ &=& x_{max}^2 -\bigg( \sum_{i=2}^{n} \frac{i-1}{n} x_i^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_i^2 \bigg) - \mu^2 \\ &=& x_{max}^2 -\bigg( \sum_{i=2}^{n} \frac{i}{n} x_i^2 - \sum_{i=2}^{n} \frac{1}{n} x_i^2 - \sum_{i=1}^{n-1} \frac{i}{n} x_{i}^2 \bigg) - \mu^2 \\ &=& x_{max}^2 -\bigg( \frac{n}{n} x_n^2 - \sum_{i=2}^{n} \frac{1}{n} x_i^2 - \frac{1}{n} x_1^2 \bigg) - \mu^2 \\ &=& x_{max}^2 -\bigg( x_{max}^2 - \sum_{i=1}^{n} \frac{1}{n} x_i^2 \bigg) - \mu^2 \\ &=& \frac{1}{n} \sum_{i=1}^{n} x_i^2 - \mu^2 \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - \mu^2) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - 2x_i\mu + \mu^2 + 2x_i\mu - \mu^2 - \mu^2) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i^2 - 2x_i\mu + \mu^2) + \frac{1}{n} \sum_{i=1}^{n} (2x_i\mu - 2\mu^2) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + \frac{2\mu}{n} \sum_{i=1}^{n} (x_i - \mu) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + 2\mu \bigg(\frac{1}{n} \sum_{i=1}^{n} x_i - \frac{1}{n} \sum_{i=1}^{n} \mu \bigg) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 + 2\mu (\mu - \mu) \\ &=& \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \\ \end{eqnarray} \] 以上

補足

上のような複雑な式変形をしなくても、経験分布関数 \(F_n(X)\) に対して、確率関数は \(f_n(x) = \frac{1}{n}\) となるので、 \[ \begin{eqnarray} E_{F_n}(X) &=& \sum_{i=1}^n x_i f_n(x_i) = \sum_{i=1}^n x_i \frac{1}{n} \\ &=& \frac{1}{n} \sum_{i=1}^n x_i \\ V_{F_n}(X) &=& \sum_{i=1}^n (x_i - \mu)^2 f_n(x_i) = \sum_{i=1}^n (x_i - \mu)^2 \frac{1}{n} \\ &=& \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \end{eqnarray} \] が導かれる。（※タイの無い場合。タイを考慮しても同様に導かれる）

参考

Empirical distribution function - Wikipedia, the free encyclopedia
階段関数、経験分布関数 - RjpWiki