ゆがみのないコインを10回投げる

ゆがみのないコインを10回投げて,表が出た数をカウントする.理論的にいえば,表が出る割合は1/2,10回投げると表が出る回数は5回である.実際に投げてみると表が8回出た.これはどれくらい珍しいことだろうか?

理論割合 0.5 0.5 1
理論回数 5 5 10
実際回数 8 2 10

コイン投げ10回の試行を何度も繰り返してデータをとる.すると理論的には,その平均(期待値)は\(10*0.5=5\),分散は\(10*0.5*0.5=2.5\)となるだろう(推測統計学で勉強する二項分布の性質より).

8回という結果の相対的な位置を測るために,標準得点を計算すると,

\[z=\frac{8-5}{\sqrt{2.5}}=1.8973666\]

である.裏が8回表が2回の標準得点は,

\[z=\frac{2-5}{\sqrt{2.5}}=-1.8973666\]

である.理論通り表が5回出た場合,標準得点は0となる.実際の標準得点が0からズレればズレるだけ,理論通りではない珍しいことが起きていることになる.

正の向きにズレているか,負の向きにズレているかにかかわらず,どれくらいズレているかを知りたい場合は,標準得点の2乗を計算すればよいだろう.

\[\chi^2=\frac{(8-5)^2}{2.5}=\frac{2*3^2}{5}=3.6\]

この値は,表か裏が10回中8回出ることが,理論値0よりどれくらい隔たっているかを示している.これを「カイ二乗値(\(\chi^2\)値)」という.

カイ二乗値は以下のようにも計算できる.

\[\begin{align} \chi^2&=\frac{(表の実際回数-表の理論回数)^2}{表の理論回数}\ \ \ \ +\ \ \ \ \frac{(裏の実際回数-裏の理論回数)^2}{裏の理論回数}\\ &=\frac{(8-5)^2}{5}+\frac{(2-5)^2}{5}=\frac{2*3^2}{5}=3.6 \end{align}\]

「珍しさ」の確率をシミュレーションで求める

コイン投げ10回の試行を1000回繰り返して表が出た回数のデータをとる.

coin<-rbinom(1000,10,0.5)
hist(coin,col="skyblue")

平均と標準偏差.

m<-mean(coin)
s<-sd(coin)
c(m,s)
## [1] 5.060000 1.642894

8回表(8回裏)はどれだけ珍しいだろうか.8回表(8回裏)のカイ二乗値を計算する.

cs8<-(8-m)^2/s^2
cs8
## [1] 3.202402

すべてのデータでカイ二乗値を計算して,8回表(8回裏)のカイ二乗値と比較して,上回るケースの比率を計算する.

chisqcoin<-(coin-m)^2/s^2
hist(chisqcoin,col="skyblue")
abline(v=cs8,col="red")

length(chisqcoin[chisqcoin>=cs8])/1000
## [1] 0.129

「珍しさ」の確率を理論的に求める

以下の議論は,二項分布の知識を前提にしている.

確率0.5,試行回数10回の二項分布.

x<-0:10
p<-dbinom(x,10,0.5)
plot(x,p,ylab="",type="b")

標準得点の分布.

z<-(x-10*0.5)/sqrt(10*0.5*0.5)
plot(z,p,ylab="",type="b")

(中心極限定理により,\(n\to \infty\)で標準正規分布に近似する.)

plot(seq(-3,3,0.1),dnorm(seq(-3,3,0.1)),type="l")

カイ二乗値の分布.

csq<-z^2
csq<-csq[1:6]
csqp<-c(p[1]+p[11],p[2]+p[10],p[3]+p[9],p[4]+p[8],p[5]+p[7],p[6])
plot(csq,csqp,ylab="",ylim=c(0,0.5),type="b")

\(n\to \infty\)で自由度1のカイ二乗分布に近似する.)

plot(seq(0,10,0.1),dchisq(seq(0,10,0.1),df=1),type="l")

8回以上表(8回以上裏)はどれだけ珍しいか?

sum(dbinom(c(0,1,2,8,9,10),10,0.5))
## [1] 0.109375

カイ二乗値とそれ以上の値になる確率の一覧表.

chisqtab2<-rbind((5:10-5)^2/2.5,
              rev(cumsum(csqp)))
rownames(chisqtab2)<-c("chi-sq","Pr(X>=x)")
colnames(chisqtab2)<-5:10
chisqtab2
##          5         6       7        8          9           10
## chi-sq   0 0.4000000 1.60000 3.600000 6.40000000 10.000000000
## Pr(X>=x) 1 0.7539063 0.34375 0.109375 0.02148438  0.001953125

確率\(p\)のコインを\(N\)回投げる

確率 p q 1
期待度数 Np Nq N
観測度数 m n N

表の回数を確率変数\(X\)とする.\(X\)は,表を1裏を0とする確率変数\(X_i\)の和であるので,平均(期待値)は\(E(X)=Np\),分散は\(V(X)=Npq\)である.また,中心極限定理より,\(X\)\(N\)が十分に大きいとき,平均\(E(X)=Np\),分散\(V(X)=Npq\)の正規分布に近似する. \[X=\sum_{i=1}^N X_i\sim N(Np,Npq)\] このとき,標準得点は,

\[Z=\frac{X-E(X)}{\sqrt{V(X)}}=\frac{X-Np}{\sqrt{Npq}}\sim N(0,1)\]

カイ二乗値は,

\[\chi^2=\frac{(X-Np)^2}{Npq}\sim \chi^2(1)\]

である.

いま,観測度数\(m\)について,カイ二乗値の実現値を求めると,

\[\begin{align} \chi^2 &= \frac{(m-Np)^2}{Npq}\\ &= \frac{(1-p)(m-Np)^2+p(n-Nq)^2}{Npq}\\ &= \frac{(m-Np)^2}{Np}+\frac{(n-Nq)^2}{Nq} \end{align}\]

となる.最終行は,

\[\chi^2=\sum \frac{(観測度数-期待度数)^2}{期待度数}\]

という形式になっている.また,1行目から2行目は,次の変形を用いた.

\[\begin{align} & (1-p)(m-Np)^2+p(n-Nq)^2 \\ &=(m-Np)^2-p(m-Np)^2+p(n-Nq)^2\\ &=(m-Np)^2-p(m-Np)^2+p(m-Np)^2\\ &=(m-Np)^2 \end{align}\]