ゆがみのないコインを100回投げる

ゆがみのないコインを100回投げて,表が出た数をカウントする.理論的にいえば,表が出る割合は1/2,100回投げると表が出る回数は50回である.実際に投げてみると表が60回出た.これはどれくらい珍しいことだろうか?

理論割合 0.5 0.5 1
理論回数 50 50 100
実際回数 60 40 100

コイン投げ100回の試行を何度も繰り返してデータをとる.すると理論的には,二項分布の性質より,その平均(期待値)は\(100*0.5=50\),分散は\(100*0.5*0.5=25\)となるだろう.

60回という結果の相対的な位置を測るために,標準得点を計算すると,

\[z=\frac{60-50}{\sqrt{25}}=2\]

である.裏が60回表が40回の標準得点は,

\[z=\frac{40-50}{\sqrt{25}}=-2\]

である.理論通り表が50回出た場合,標準得点は0となる.実際の標準得点が0からズレればズレるだけ,理論通りではない珍しいことが起きていることになる.

正の向きにズレているか,負の向きにズレているかにかかわらず,どれくらいズレているかを知りたい場合は,標準得点の2乗を計算すればよいだろう.

\[\chi^2=\frac{(60-50)^2}{25}=\frac{2*10^2}{50}=4\]

この値は,表か裏が100回中60回出ることが,理論値よりどれくらい隔たっているかを示している.これを「カイ二乗値(\(\chi^2\)値)」という.

カイ二乗値は以下のようにも計算できる.

\[\begin{align} \chi^2&=\frac{(表の実際回数-表の理論回数)^2}{表の理論回数}\ \ \ \ +\ \ \ \ \frac{(裏の実際回数-裏の理論回数)^2}{裏の理論回数}\\ &=\frac{(60-50)^2}{50}+\frac{(40-50)^2}{50}=\frac{2*10^2}{50}=4 \end{align}\]

「珍しさ」の確率をシミュレーションで求める

コイン投げ100回の試行を1000回繰り返して表が出た回数のデータをとる.

coin<-rbinom(1000,100,0.5)
hist(coin,col="skyblue")

平均と標準偏差.

m<-mean(coin)
s<-sd(coin)
c(m,s)
## [1] 50.04500  4.97028

60回表(60回裏)はどれだけ珍しいだろうか.60回表(60回裏)のカイ二乗値を計算する.

cs60<-(60-50)^2/25
cs60
## [1] 4

すべてのデータでカイ二乗値を計算して,60回表(60回裏)のカイ二乗値と比較して,上回るケースの比率を計算する.

chisqcoin<-(coin-50)^2/25
hist(chisqcoin,col="skyblue")
abline(v=cs60,col="red")

length(chisqcoin[chisqcoin>=cs60])/1000
## [1] 0.054

「珍しさ」の確率を理論的に求める

以下の議論は,二項分布の知識を前提にしている.

確率0.5,試行回数100回の二項分布.

x<-0:100
p<-dbinom(x,100,0.5)
plot(x,p,ylab="",type="b")

標準得点の分布.

z<-(x-100*0.5)/sqrt(100*0.5*0.5)
plot(z,p,ylab="",type="b")

(中心極限定理により,\(n\to \infty\)で標準正規分布に近似する.)

plot(seq(-10,10,0.1),dnorm(seq(-10,10,0.1)),type="l")

カイ二乗値の分布.

csq<-z^2
csq<-csq[1:51]
csqp<-c(p[1:50]+rev(p[52:101]),p[51])
plot(csq,csqp,ylab="",ylim=c(0,0.5),type="b")

\(n\to \infty\)で自由度1のカイ二乗分布に近似する.)

plot(seq(0,50,0.1),dchisq(seq(0,50,0.1),df=1),type="l")

60回以上表(60回以上裏)はどれだけ珍しいか?

1-pchisq((60-50)^2/25,df=1)
## [1] 0.04550026

確率\(p\)のコインを\(N\)回投げる

確率 p q 1
期待度数 Np Nq N
観測度数 m n N

表の回数を確率変数\(X\)とする.\(X\)は,表を1裏を0とする確率変数\(X_i\)の和であるので,平均(期待値)は\(E(X)=Np\),分散は\(V(X)=Npq\)である.また,中心極限定理より,\(X\)\(N\)が十分に大きいとき,平均\(E(X)=Np\),分散\(V(X)=Npq\)の正規分布に近似する. \[X=\sum_{i=1}^N X_i\sim N(Np,Npq)\] このとき,標準得点は,

\[Z=\frac{X-E(X)}{\sqrt{V(X)}}=\frac{X-Np}{\sqrt{Npq}}\sim N(0,1)\]

カイ二乗値は,

\[\chi^2=\frac{(X-Np)^2}{Npq}\sim \chi^2(1)\]

である.

いま,観測度数\(m\)について,カイ二乗値の実現値を求めると,

\[\begin{align} \chi^2 &= \frac{(m-Np)^2}{Npq}\\ &= \frac{(1-p)(m-Np)^2+p(n-Nq)^2}{Npq}\\ &= \frac{(m-Np)^2}{Np}+\frac{(n-Nq)^2}{Nq} \end{align}\]

となる.最終行は,

\[\chi^2=\sum \frac{(観測度数-期待度数)^2}{期待度数}\]

という形式になっている.また,1行目から2行目は,次の変形を用いた.

\[\begin{align} & (1-p)(m-Np)^2+p(n-Nq)^2 \\ &=(m-Np)^2-p(m-Np)^2+p(n-Nq)^2\\ &=(m-Np)^2-p(m-Np)^2+p(m-Np)^2\\ &=(m-Np)^2 \end{align}\]