カイ2乗検定

dm=matrix(c(18,29,70,115,17,28, 30, 41, 11, 10, 11, 20),nrow=3,byrow=T)
#nrowは行数を3にするという意味。
#byrow=Tだとc()内の数字を横向きにデータを格納する。
dm #dmにデータが思い通りに入ったか確認。
##      [,1] [,2] [,3] [,4]
## [1,]   18   29   70  115
## [2,]   17   28   30   41
## [3,]   11   10   11   20
chisq.test(dm)
## 
##  Pearson's Chi-squared test
## 
## data:  dm
## X-squared = 19.943, df = 6, p-value = 0.002835

X-squared = 19.943というのがカイ2乗値 df=6というのが自由度 p-value = 0.002835がp値 5%有意水準を仮定すれば、p-value = 0.002835<0.05 なので、帰無仮説を棄却する(有意水準5%における棄却域に入る)。 このため、2つの変数間には関連がないとは言えない。

残差分析

どのセルがどれくらい予想より離れた値であるかは残差分析を行う。 下記など参照。 (リンク先のアドレスをコピーした上で、新しいタブで開くと開ける。そのままクリックするとアクセスを拒否される。) https://bob3.hatenablog.com/entry/20110521/p1

1元配置分散分析

3種類のタイプライターの性能の差を調べる。 24人のタイピストを無作為に8人ずつの3つのグループに分類し、これら3グループ(Ⅰ, Ⅱ, Ⅲ)の各々に3種類のタイプライターを無作為に割り当てた。

#dlに表のデータを入れる。
dl<-c(44, 39, 33, 56, 43, 56, 47, 58, 40, 37, 28, 53, 38, 51, 45, 60, 54, 50, 40, 55, 45, 66, 49, 65)
dl
##  [1] 44 39 33 56 43 56 47 58 40 37 28 53 38 51 45 60 54 50 40 55 45 66 49 65
#fcに3つのグループA, B, Cの区別を入れる
fc<-factor(rep(c("A","B","C"),c(8,8,8)))
fc
##  [1] A A A A A A A A B B B B B B B B C C C C C C C C
## Levels: A B C
#fcという要素でdlが説明できるか?という形式dl~fcと書く。
anova(aov(dl~fc))
## Analysis of Variance Table
## 
## Response: dl
##           Df Sum Sq Mean Sq F value Pr(>F)
## fc         2    336 168.000  1.8686 0.1791
## Residuals 21   1888  89.905

ここで、anova表が出力される。 fcとResidualは変動因。 Dfは自由度。 Sum Sqは平方和。 Mean Sqは平均平方。 F valueはF値。 Pr(>F)はP値。 p=0.1791で有意水準0.05より大きい。 このため、fcは有意水準5%で帰無仮説を棄却しない。 従って、銘柄によって、タイプの得点に差があるとは言えない。

2元配置分散分析

分類変数が2つになった場合。 1元配置の問題では24人だったが、今回は8人のタイピストが抽出されたとする。 銘柄差と個人差があるかを判定したい。

#dlに表のデータを入れる。
dl<-c(44, 39, 33, 56, 43, 56, 47, 58, 40, 37, 28, 53, 38, 51, 45, 60, 54, 50, 40, 55, 45, 66, 49, 65)
dl
##  [1] 44 39 33 56 43 56 47 58 40 37 28 53 38 51 45 60 54 50 40 55 45 66 49 65
#fc1に3つのグループA, B, Cの区別を入れる
fc1<-factor(rep(c("A","B","C"),c(8,8,8)))
fc1
##  [1] A A A A A A A A B B B B B B B B C C C C C C C C
## Levels: A B C
#タイプライターは8人であるということで、人に番号があると考え、1~8番の人が3回タイプしたという情報を作成し、それをfc2とする。
fc2<-factor(rep(1:8,times=3))
fc2
##  [1] 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
## Levels: 1 2 3 4 5 6 7 8
#fc1とfc2でdlを説明できるかを判断するので
anova(aov(dl~fc1+fc2))
## Analysis of Variance Table
## 
## Response: dl
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## fc1        2    336 168.000  19.600 8.740e-05 ***
## fc2        7   1768 252.571  29.467 2.458e-07 ***
## Residuals 14    120   8.571                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

fc1(列平均), fc2(行平均)とResidual(誤差)は変動因。 Dfは自由度。 Sum Sqは平方和。 Mean Sqは平均平方。 F valueはF値。 Pr(>F)はP値。

p=8.740e-05, p=2.458e-07(e-05はマイナス10乗)で0.05より小さい。 このため、fc1もfc2も共に有意水準5%で帰無仮説を棄却する。 従って、銘柄と人物によって、タイプの得点に差がある。 (=銘柄差と個人差がある)