仮定される母平均の値について帰無仮説を立て,棄却できるかどうか確かめるのが母平均の検定.
標本統計量は\(t\).標本平均\(\bar{x}\)を帰無仮説で仮定した母平均\(\mu\),母分散の推定値である標本の不偏分散\(S_x^2\),サンプルサイズ\(n\)を用いて一次変換したもの.式は,
\[ t = \frac{\bar{x}-\mu}{\sqrt\frac{S_x^2}{n}} = \frac{\bar{x}-\mu}{\frac{S_x}{\sqrt{n}}} \]
私が以前疑問に思っていたのは,なぜ\(Z\)得点の公式のように標準偏差で割るのではなく,標準偏差をサンプルサイズの平方根で割ったもので割るのかということ.
その答えは,ここでいう「標準偏差」とは母集団の標準偏差(の推定値である不偏標準偏差)であって,母集団の「標準偏差をサンプルサイズの平方根で割ったもの」は\(t\)分布における標準偏差なので,やはりここでも\(t\)の\(Z\)得点を算出している,ということ.
そもそも\(t\)分布は標本平均を変換した標本統計量の分布なので,基本的な性質は標本平均がしたがう1正規分布と同じである.ある変数\(X\)が平均\(\mu\),分散\(\sigma^2\)で母集団に分布していたと仮定すると,\(n\)個の標本の標本平均\(\bar{X}\)の分布においても平均\(\mu_{\bar{x}}\)は\(\mu\)であるいっぽう,分散は\(\frac{\sigma^2}{n}\)となる.つまり母集団に比べると散らばりが少なくまとまっているのである.\(n\)個集めて平均をとる,ということを繰り返したうえでできる分布だから,分散が小さいのは納得できるはず.
ともかくこのような理由で\(\bar{X}\)の分布における標準偏差は\(\sqrt\frac{\sigma_x^2}{n} = \frac{\sigma_x}{\sqrt{n}}\)である.同様に\(t\)分布における標準偏差は\(\sqrt\frac{S_x^2}{n} = \frac{S_x}{\sqrt{n}}\)である.つまり\(t\)というのは母平均が\(\mu\)であるという仮定のもとで計算された,実際に得られた標本平均\(\bar{X}\)の\(Z\)得点である.
このように考えると頭が整理されると思う.要は\(Z\)得点の式だけ覚えておけばいい.そもそも\(Z\)得点も「偏差が標準偏差の何倍か」という指標だから直感的にわかるはず.
むずかしいのが,標本平均や\(t\)の算出には母平均と母分散が必要だが,実地で一回データを取っただけではわからないという点.
母平均\(\mu\)は標本平均\(\bar{X}\)で代用可能.
ただ,母分散\(\sigma^2\)については,標本分散\(\sigma_\bar{X}^2\)を流用すると前述の通り小さめに推定されてしまうため,標本分散を\(\frac{n}{n-1}\)倍した値を「不偏分散」の名で推定値とする.なぜ\(\frac{n}{n-1}\)倍するのかについては,後述できたらしたい.
正確には,標本平均の分布はサンプルサイズ\(n\)が大きくなるほど正規分布に近づく,ということ.↩︎