このドキュメントは、『続・心理統計学の基礎』(南風原朝和 著)読書会について作成した第3章のメモという位置づけです。主にRで簡単に実行できるコードを中心に構成しています。ただこのドキュメントのみでは意味が通らないかと思いますので、続・心理統計学の基礎と共にご覧ください。
…効果量は、この内2つ目の側面「効果の大きさ」を表す指標。
2つの変数が2変数正規分布に従うとき、母集団相関係数\(\rho\)の帰無仮説\(H_0: \rho=0\)の検定: \[ \begin{eqnarray} t=\frac{r}{\sqrt{1-r^2}}×\sqrt{N-2} \\ \end{eqnarray} \]
このtが、帰無仮説のもとで自由度N-2のt分布に従うことを利用。
上の検定統計量tの分布は母集団相関係数\(\rho\)と標本数Nによって決定→この2つがパラメータ
効果量としては母集団相関係数\(\rho\)でOK(回帰でも同じ)
点双列相関係数\(\rho\)と母集団における標準化平均値差\(\sigma\)の関係: \[ \begin{eqnarray} \rho=\frac{\sigma}{\sqrt{\sigma^2+1/[\pi(1-\pi)]}} \\ \end{eqnarray} \]
よって、片方が二値変数である場合には効果量は標準化平均値差が望ましい
では実際にやってみます。まず\(y=tanh(x)\)をグラフにします:
curve(tanh(x),xlim=c(-1,1),ylim=c(-1,1))
次に\(y=tanh^{-1}(x)\)をグラフにします:
curve(atanh(x),xlim=c(-1,1),ylim=c(-1,1))
ここで\(z_{1-\alpha/2}\)は標準正規分布の上側確率で、ここでは\(.05/2=0.25\)とします。テキストに合わせて標本\(N=40\)、\(r=.5\)とします:
rhoL <- tanh(atanh(.5)-qnorm(1-.025)/sqrt(40-3))
rhoH <- tanh(atanh(.5)+qnorm(1-.025)/sqrt(40-3))
c(rhoL,rhoH)
## [1] 0.2232653 0.7021467
これがこの母集団相関係数\(\rho\)の95%信頼区間です。テキストと一致します。
ですが帰無仮説\(H_0: \rho 0\)が偽である場合、2章の流れと同様に非心度\(\lambda\)の非心t分布に従います \[ \begin{eqnarray} \lambda = \frac{\rho}{\sqrt{1-\rho^2}}×\sqrt{N} \end{eqnarray} \]
この式があれば非心度が求まり、さらに標本数と母集団相関係数を指定すれば、この時の検定力を算出可能
では実際にやってみます。テキストの脚注に合わせて標本\(N=40\)、\(\rho=.5\)とします:
lambda.rho <- .5/sqrt(1-.5^2)*sqrt(40)
lambda.rho
## [1] 3.651484
これが非心度です。これを使って、2章で使ったグラフを流用します:
curve(dt(x,df=40-2,ncp=0),xlim=c(-5,10),ylim=c(0,0.5),col="#ff0000")
curve(dt(x,df=40-2,ncp=lambda.rho),col="#0000ff",add=TRUE)
abline(v=qt(.975,df=40-2),col="#333333",lwd=1.5)
abline(v=qt(.025,df=40-2),col="#333333",lwd=1.5)
この垂直線の外側が該当します。左の垂直線より左側で、非心t分布(青色)の累積確率は…
pt(qt(.025,df=40-2),df=40-2,ncp=lambda.rho)
## [1] 1.663039e-08
ほぼ0です。では右の垂直線より右側での、非心t分布(青色)の累積確率は…
1-pt(qt(.975,df=40-2),df=40-2,ncp=lambda.rho)
## [1] 0.9449534
したがって、これがこの場合の検定力となり、テキストp.56脚注の値と一致します。
以上より、母集団相関係数\(\rho\)の信頼区間は以下のステップで算出可能:
\[ \begin{eqnarray} \rho = \frac{\lambda}{\sqrt{N+\lambda^2}} \end{eqnarray} \]
テキストと同じ事例で計算してみます。既知として\(N=40,r=.5\)とします。まずは検定統計量tを算出します
toukeiryou.t <- .5/sqrt(1-.5^2)*sqrt(40-2)
toukeiryou.t
## [1] 3.559026
この値を使って信頼区間を算出します。自由度は\(40-2=38\)です。この自由度(\(df=38\))で、非心t分布がどうなるかを考えます。つまり「非心度\(\lambda\)が\(\alpha=.05\)という状況でどのような値を取りうるか」です。非心度\(\lambda\)が決まれば、あとは勝手に\(\rho\)が上の式から計算できます。
このデータ(標本)ではt値は3.5590261です。非心度\(\lambda\)は「このt値が\(\alpha=.05,df=40-2\)という制約の非心t分布」の下限Max3.5590261まで下げれます。この値より下にいってしまうと標本地と整合が取れない値となりますので、このt値が下限Max(下側確率\(\alpha=.025\))となるように非心t分布を調整してみます。
諸事情により、テキストの脚注にあるとおりMBESSパッケージの関数を使って非心度を計算します。ただし、テキスト内のコードから修正しています:
require("MBESS")
## Loading required package: MBESS
lambda.ci <- conf.limits.nct(t.value=toukeiryou.t,df=40-2) #テキストのconf.coefという引数は無効なので除外
lambda.ci
## $Lower.Limit
## [1] 1.422894
##
## $Prob.Less.Lower
## [1] 0.025
##
## $Upper.Limit
## [1] 5.654874
##
## $Prob.Greater.Upper
## [1] 0.025
この値はテキストと一致します。あとはテキストにあるとおりに計算すればOKです。
非常に重要なことあ書いてあります。声に出して読みましょう。 声に出して読みましょう
2節までは以上です。続きは静岡で2015年5月9日でやります。