ゆがみのないコインを100回投げて,表が出た数をカウントする.理論的にいえば,表が出る割合は1/2,100回投げると表が出る回数は50回である.実際に投げてみると表が60回出た.これはどれくらい珍しいことだろうか?
表 | 裏 | 計 | |
---|---|---|---|
理論割合 | 0.5 | 0.5 | 1 |
理論回数 | 50 | 50 | 100 |
実際回数 | 60 | 40 | 100 |
コイン投げ100回の試行を何度も繰り返してデータをとる.すると理論的には,二項分布の性質より,その平均(期待値)は\(100*0.5=50\),分散は\(100*0.5*0.5=25\)となるだろう.
60回という結果の相対的な位置を測るために,標準得点を計算すると,
\[z=\frac{60-50}{\sqrt{25}}=2\]
である.裏が60回表が40回の標準得点は,
\[z=\frac{40-50}{\sqrt{25}}=-2\]
である.理論通り表が50回出た場合,標準得点は0となる.実際の標準得点が0からズレればズレるだけ,理論通りではない珍しいことが起きていることになる.
正の向きにズレているか,負の向きにズレているかにかかわらず,どれくらいズレているかを知りたい場合は,標準得点の2乗を計算すればよいだろう.
\[\chi^2=\frac{(60-50)^2}{25}=\frac{2*10^2}{50}=4\]
この値は,表か裏が100回中60回出ることが,理論値よりどれくらい隔たっているかを示している.これを「カイ二乗値(\(\chi^2\)値)」という.
カイ二乗値は以下のようにも計算できる.
\[\begin{align} \chi^2&=\frac{(表の実際回数-表の理論回数)^2}{表の理論回数}\ \ \ \ +\ \ \ \ \frac{(裏の実際回数-裏の理論回数)^2}{裏の理論回数}\\ &=\frac{(60-50)^2}{50}+\frac{(40-50)^2}{50}=\frac{2*10^2}{50}=4 \end{align}\]
コイン投げ100回の試行を1000回繰り返して表が出た回数のデータをとる.
coin<-rbinom(1000,100,0.5)
hist(coin,col="skyblue")
平均と標準偏差.
m<-mean(coin)
s<-sd(coin)
c(m,s)
## [1] 50.04500 4.97028
60回表(60回裏)はどれだけ珍しいだろうか.60回表(60回裏)のカイ二乗値を計算する.
cs60<-(60-50)^2/25
cs60
## [1] 4
すべてのデータでカイ二乗値を計算して,60回表(60回裏)のカイ二乗値と比較して,上回るケースの比率を計算する.
chisqcoin<-(coin-50)^2/25
hist(chisqcoin,col="skyblue")
abline(v=cs60,col="red")
length(chisqcoin[chisqcoin>=cs60])/1000
## [1] 0.054
以下の議論は,二項分布の知識を前提にしている.
確率0.5,試行回数100回の二項分布.
x<-0:100
p<-dbinom(x,100,0.5)
plot(x,p,ylab="",type="b")
標準得点の分布.
z<-(x-100*0.5)/sqrt(100*0.5*0.5)
plot(z,p,ylab="",type="b")
(中心極限定理により,\(n\to \infty\)で標準正規分布に近似する.)
plot(seq(-10,10,0.1),dnorm(seq(-10,10,0.1)),type="l")
カイ二乗値の分布.
csq<-z^2
csq<-csq[1:51]
csqp<-c(p[1:50]+rev(p[52:101]),p[51])
plot(csq,csqp,ylab="",ylim=c(0,0.5),type="b")
(\(n\to \infty\)で自由度1のカイ二乗分布に近似する.)
plot(seq(0,50,0.1),dchisq(seq(0,50,0.1),df=1),type="l")
60回以上表(60回以上裏)はどれだけ珍しいか?
1-pchisq((60-50)^2/25,df=1)
## [1] 0.04550026
表 | 裏 | 計 | |
---|---|---|---|
確率 | p | q | 1 |
期待度数 | Np | Nq | N |
観測度数 | m | n | N |
表の回数を確率変数\(X\)とする.\(X\)は,表を1裏を0とする確率変数\(X_i\)の和であるので,平均(期待値)は\(E(X)=Np\),分散は\(V(X)=Npq\)である.また,中心極限定理より,\(X\)は\(N\)が十分に大きいとき,平均\(E(X)=Np\),分散\(V(X)=Npq\)の正規分布に近似する. \[X=\sum_{i=1}^N X_i\sim N(Np,Npq)\] このとき,標準得点は,
\[Z=\frac{X-E(X)}{\sqrt{V(X)}}=\frac{X-Np}{\sqrt{Npq}}\sim N(0,1)\]
カイ二乗値は,
\[\chi^2=\frac{(X-Np)^2}{Npq}\sim \chi^2(1)\]
である.
いま,観測度数\(m\)について,カイ二乗値の実現値を求めると,
\[\begin{align} \chi^2 &= \frac{(m-Np)^2}{Npq}\\ &= \frac{(1-p)(m-Np)^2+p(n-Nq)^2}{Npq}\\ &= \frac{(m-Np)^2}{Np}+\frac{(n-Nq)^2}{Nq} \end{align}\]
となる.最終行は,
\[\chi^2=\sum \frac{(観測度数-期待度数)^2}{期待度数}\]
という形式になっている.また,1行目から2行目は,次の変形を用いた.
\[\begin{align} & (1-p)(m-Np)^2+p(n-Nq)^2 \\ &=(m-Np)^2-p(m-Np)^2+p(n-Nq)^2\\ &=(m-Np)^2-p(m-Np)^2+p(m-Np)^2\\ &=(m-Np)^2 \end{align}\]