例として,Rに組み込まれているcars
データのspeed
変数を使ってみよう.
cars$speed
## [1] 4 4 7 7 8 9 10 10 10 11 11 12 12 12 12 13 13 13 13 14 14 14 14
## [24] 15 15 15 16 16 17 17 17 18 18 18 18 19 19 19 20 20 20 20 20 22 23 24
## [47] 24 24 24 25
中央値は,\(x_1 \leq x_2 \leq \cdots \leq x_m \leq \cdots \leq x_n\)のとき,
\[med(x)= \left\{ \begin{array}{ll} x_{\frac{n+1}{2}} & (nが奇数) \\ \frac{x_{\frac{n}{2}}+x_{\frac{n+2}{2}}}{2} & (nが偶数) \end{array} \right.\]
である.つまり,昇順に並べたちょうど真ん中が中央値である.
median_speed<-median(cars$speed)
median_speed
## [1] 15
quantile(cars$speed,0.5)
## 50%
## 15
ヒストグラム上の中央値は赤色縦線.
hist(cars$speed,breaks = 10, col="skyblue")
abline(v = median_speed,col="red",lty=1,lwd=2)
cars$speed
について\(g(a)\)のグラフを書く.
g<-function(a) sum(abs(cars$speed-a))
xx<-seq(5,25,1)
yy<-apply(as.matrix(xx),1,g)
plot(xx,yy,type="p",xlab = "a", ylab = "g(a)")
\(g(a)\)を最小にする\(a\)を探す.
xx[which.min(yy)]
## [1] 15
一般的に最小化問題をとく.一般に(正確にいえば\(g(a)\)が下に凸ならば) \[g(x_{m-1})\geq g(x_m) かつ g(x_{m+1})\geq g(x_m)\] となる\(a=x_m\)が\(g\)を最小化する\(a\)である.
\[\begin{align} g(x_{m-1}) - g(x_m)=& [2(m-1)-n]a+n\bar{x}-2\sum_{i=1}^{m-1} x_i \\ &-(2m-n)a-n\bar{x}+2\sum_{i=1}^m x_i \\ =&[2(m-1)-n](x_{m-1}-x_m) \end{align}\]条件より\((x_{m-1}-x_m)\)は非正なので,\(2(m-1)-n\leq 0\)を変形して \[m\leq \frac{n+2}{2} \Longrightarrow g(x_{m-1}) - g(x_m)\geq 0.\]
同様にして,
\[\begin{align} g(x_{m+1}) - g(x_m)=& [2(m+1)-n]a+n\bar{x}-2\sum_{i=1}^{m+1} x_i \\ &-(2m-n)a-n\bar{x}+2\sum_{i=1}^m x_i \\ =&[2m-n](x_{m+1}-x_m) \end{align}\]条件より\((x_{m+1}-x_m)\)は非負なので,\(2m-n\geq 0\)を変形して \[\frac{n}{2}\leq m \Longrightarrow g(x_{m+1}) - g(x_m)\geq 0.\]
結局,
\[\frac{n}{2}\leq m \leq \frac{n+2}{2} \Longrightarrow g(x_{m-1})\geq g(x_m) かつ g(x_{m+1})\geq g(x_m).\]
\(\frac{n}{2}\leq m \leq \frac{n+2}{2}\)の条件を満たす\(x_m\)は,\(n\)が奇数であれば\(x_{\frac{n+1}{2}}\),\(n\)が偶数であれば\(x_{\frac{n}{2}}\)と\(x_{\frac{n+2}{2}}\)の両方であるのでその平均を取ることにすると,これは中央値の定義の通りである.
ここまでは,離散ヴァージョンで絶対偏差和の最小化指数が中央値であることを確認してきたが,連続確率密度を仮定すると,証明はさらに簡単になる.ここで,\(f(x)\)を端点を除いて正の値をとる微分可能な確率密度関数,\(F(x)=\int_{-\infty}^xf(z)dz\)を分布関数とする.また,期待値を\(m=\int_{-\infty}^\infty xf(x)dx\)とする.
このとき,
\[\begin{align} g(a) &= \int_{-\infty}^\infty|x-a|f(x)dx \\ &= \int_{-\infty}^a(a-x)f(x)dx + \int_a^{\infty}(x-a)f(x)dx \\ &= a\left[\int_{-\infty}^af(x)dx-\int_{a}^\infty f(x)dx\right]+\int_{a}^\infty xf(x)dx - \int_{-\infty}^axf(x)dx\\ &= a[2F(a)-1]+m-2\int_{-\infty}^axf(x)dx \end{align}\]である.この最小化問題を解くと,
\[\begin{align} \frac{dg}{da} &= 2F(a)-1+2af(a)-2af(a) = 0 \Longleftrightarrow F(a)=\frac{1}{2} \\ \left.\frac{d^2g}{da^2}\right|_{a=\frac{1}{2}}&=2f(\frac{1}{2})>0 \end{align}\]ゆえに,\(a\)は中央値.
ちなみに,偏差平方和\(g(a)=\sum_i (x_i - a)^2\)を最小化する指数は平均値である(「平均を実感する」参照). また,十分小さな\(\Delta\)について,
\[l(x,a)= \left\{ \begin{array}{ll} 0 & |x-a|\leq \Delta \\ 1 & |x-a|> \Delta \end{array} \right.\]
のとき,\(g(a)=\sum_i l(x,a)\)を最小化する指数は最頻値である.
以上の議論は,推定値選択についての統計的決定理論と関連する.詳しくは,松原望,2008「入門 ベイズ統計」東京図書: 2章を参照のこと.