ゆがみのないコインを10回投げて,表が出た数をカウントする.理論的にいえば,表が出る割合は1/2,10回投げると表が出る回数は5回である.実際に投げてみると表が8回出た.これはどれくらい珍しいことだろうか?
表 | 裏 | 計 | |
---|---|---|---|
理論割合 | 0.5 | 0.5 | 1 |
理論回数 | 5 | 5 | 10 |
実際回数 | 8 | 2 | 10 |
コイン投げ10回の試行を何度も繰り返してデータをとる.すると理論的には,その平均(期待値)は\(10*0.5=5\),分散は\(10*0.5*0.5=2.5\)となるだろう(推測統計学で勉強する二項分布の性質より).
8回という結果の相対的な位置を測るために,標準得点を計算すると,
\[z=\frac{8-5}{\sqrt{2.5}}=1.8973666\]
である.裏が8回表が2回の標準得点は,
\[z=\frac{2-5}{\sqrt{2.5}}=-1.8973666\]
である.理論通り表が5回出た場合,標準得点は0となる.実際の標準得点が0からズレればズレるだけ,理論通りではない珍しいことが起きていることになる.
正の向きにズレているか,負の向きにズレているかにかかわらず,どれくらいズレているかを知りたい場合は,標準得点の2乗を計算すればよいだろう.
\[\chi^2=\frac{(8-5)^2}{2.5}=\frac{2*3^2}{5}=3.6\]
この値は,表か裏が10回中8回出ることが,理論値0よりどれくらい隔たっているかを示している.これを「カイ二乗値(\(\chi^2\)値)」という.
カイ二乗値は以下のようにも計算できる.
\[\begin{align} \chi^2&=\frac{(表の実際回数-表の理論回数)^2}{表の理論回数}\ \ \ \ +\ \ \ \ \frac{(裏の実際回数-裏の理論回数)^2}{裏の理論回数}\\ &=\frac{(8-5)^2}{5}+\frac{(2-5)^2}{5}=\frac{2*3^2}{5}=3.6 \end{align}\]
コイン投げ10回の試行を1000回繰り返して表が出た回数のデータをとる.
coin<-rbinom(1000,10,0.5)
hist(coin,col="skyblue")
平均と標準偏差.
m<-mean(coin)
s<-sd(coin)
c(m,s)
## [1] 5.060000 1.642894
8回表(8回裏)はどれだけ珍しいだろうか.8回表(8回裏)のカイ二乗値を計算する.
cs8<-(8-m)^2/s^2
cs8
## [1] 3.202402
すべてのデータでカイ二乗値を計算して,8回表(8回裏)のカイ二乗値と比較して,上回るケースの比率を計算する.
chisqcoin<-(coin-m)^2/s^2
hist(chisqcoin,col="skyblue")
abline(v=cs8,col="red")
length(chisqcoin[chisqcoin>=cs8])/1000
## [1] 0.129
以下の議論は,二項分布の知識を前提にしている.
確率0.5,試行回数10回の二項分布.
x<-0:10
p<-dbinom(x,10,0.5)
plot(x,p,ylab="",type="b")
標準得点の分布.
z<-(x-10*0.5)/sqrt(10*0.5*0.5)
plot(z,p,ylab="",type="b")
(中心極限定理により,\(n\to \infty\)で標準正規分布に近似する.)
plot(seq(-3,3,0.1),dnorm(seq(-3,3,0.1)),type="l")
カイ二乗値の分布.
csq<-z^2
csq<-csq[1:6]
csqp<-c(p[1]+p[11],p[2]+p[10],p[3]+p[9],p[4]+p[8],p[5]+p[7],p[6])
plot(csq,csqp,ylab="",ylim=c(0,0.5),type="b")
(\(n\to \infty\)で自由度1のカイ二乗分布に近似する.)
plot(seq(0,10,0.1),dchisq(seq(0,10,0.1),df=1),type="l")
8回以上表(8回以上裏)はどれだけ珍しいか?
sum(dbinom(c(0,1,2,8,9,10),10,0.5))
## [1] 0.109375
カイ二乗値とそれ以上の値になる確率の一覧表.
chisqtab2<-rbind((5:10-5)^2/2.5,
rev(cumsum(csqp)))
rownames(chisqtab2)<-c("chi-sq","Pr(X>=x)")
colnames(chisqtab2)<-5:10
chisqtab2
## 5 6 7 8 9 10
## chi-sq 0 0.4000000 1.60000 3.600000 6.40000000 10.000000000
## Pr(X>=x) 1 0.7539063 0.34375 0.109375 0.02148438 0.001953125
表 | 裏 | 計 | |
---|---|---|---|
確率 | p | q | 1 |
期待度数 | Np | Nq | N |
観測度数 | m | n | N |
表の回数を確率変数\(X\)とする.\(X\)は,表を1裏を0とする確率変数\(X_i\)の和であるので,平均(期待値)は\(E(X)=Np\),分散は\(V(X)=Npq\)である.また,中心極限定理より,\(X\)は\(N\)が十分に大きいとき,平均\(E(X)=Np\),分散\(V(X)=Npq\)の正規分布に近似する. \[X=\sum_{i=1}^N X_i\sim N(Np,Npq)\] このとき,標準得点は,
\[Z=\frac{X-E(X)}{\sqrt{V(X)}}=\frac{X-Np}{\sqrt{Npq}}\sim N(0,1)\]
カイ二乗値は,
\[\chi^2=\frac{(X-Np)^2}{Npq}\sim \chi^2(1)\]
である.
いま,観測度数\(m\)について,カイ二乗値の実現値を求めると,
\[\begin{align} \chi^2 &= \frac{(m-Np)^2}{Npq}\\ &= \frac{(1-p)(m-Np)^2+p(n-Nq)^2}{Npq}\\ &= \frac{(m-Np)^2}{Np}+\frac{(n-Nq)^2}{Nq} \end{align}\]
となる.最終行は,
\[\chi^2=\sum \frac{(観測度数-期待度数)^2}{期待度数}\]
という形式になっている.また,1行目から2行目は,次の変形を用いた.
\[\begin{align} & (1-p)(m-Np)^2+p(n-Nq)^2 \\ &=(m-Np)^2-p(m-Np)^2+p(n-Nq)^2\\ &=(m-Np)^2-p(m-Np)^2+p(m-Np)^2\\ &=(m-Np)^2 \end{align}\]