それでは,ここでは対応のあるt検定について説明します.
応答変数(非説明変数):量的変数
説明変数:質的変数
同じ実験対象者から繰り返しとったデータは,「対応のあるデータ」と呼ばれます. 対応のあるt検定を行うことで,より正確な結果となります.
ちなみに,異なる実験対象者からとったデータの場合は「対応のないデータ」と呼ばれます.
「同じ人」からとるのか,「違う人」からとるのかによって,分析の方法が異なります.
対応のあるデータに対しては,対応のあるt検定が適切な結果となりますので,データの形式を踏まえて,適切な分析を行うようにしましょう.
授業の際にお話したとおり,仮説検証は以下の流れで行っていきます.
帰無仮説の設定
検定統計量の値を求める
帰無仮説のもとでの,結果を出力する
帰無仮説が棄却されるかどうかを判断する.
ここからは,上記の流れに沿って説明をしていきます.
帰無仮説:自分が言いたくないことを設定する.
対立仮説:自分が言いたいことを設定する.
++ 仮説の立案は用いる統計手法(もっというと,分析するデータ)によってテクニカルに決められる.
t検定の場合は,以下のように仮説を設定してあげることが必要です.
++ ex.XとYの間の平均値に,差がない
++ ex.男女の間に,平均身長の差がある.
q2_1 本文中に,“_ _ _ _ _ n _“(7文字の単語で6番目がnのもの)という単語はいくつあるだろうか?
q2_2 本文中に,“_ _ _ _ i n g”(7文字の単語で末尾がingであるもの)という単語はいくつあるだろうか?
この2つの数字の間に相関があるかどうかを検討する
帰無仮説H0:q2_1とq2_2の平均値の間に差がある.
対立仮説H1:q2_1とq2_2の平均値の間に差がない.
実際には,同じ人から複数回とっているので,しっかりと考える必要がある.
regreesionのファイルと同様の処理が必要であるため,その処理済みのデータを用いる.
ただし,その通例に対して否定的な意見もある.
対応のないt検定みたいに悩まずにt検定をしてよい.
ここでは比較のために,対応のあるt検定と対応のないt検定の2つを行う.
※本来は,正規性の確認も必要だが,ここでは割愛する.
ここでは,データの形式をアンスタック形式にせずに実施するため,Rコマンダーではなく,手入力でコードを打ち込む
##
## Welch Two Sample t-test
##
## data: q2_1 and q2_2
## t = -0.59899, df = 37.638, p-value = 0.5528
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -66.98893 36.40560
## sample estimates:
## mean of x mean of y
## 56.75000 72.04167
ウェルチのt検定を行った結果,t(37.638)=-0.5990(p=0.553)でq2_1とq2_2で有意差が認められなかった.
「統計量」→「平均」→「対応のあるt検定」
第1の変数:q2_1 第2の変数:q2_2
##
## Paired t-test
##
## data: q2_1 and q2_2
## t = -1.05, df = 23, p-value = 0.3046
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -45.41833 14.83500
## sample estimates:
## mean of the differences
## -15.29167
対応のあるt検定を行った結果,t(23)=-1.050(p=0.305)でq2_1とq2_2で有意差が認められなかった.
どちらも有意差は認められなかったが,対応のあるt検定の方がp値が小さくなっています.
## Loading required package: ggplot2
## Warning: Removed 1 rows containing non-finite values (stat_smooth).
## Warning: Removed 1 rows containing missing values (geom_point).
散布図を見てみると,q2_1で高く答えている人は,q2_2でも高く答える傾向にあることが示されています.
そのことを考えると,考えて分析する必要があります.
ちなみに,「回帰分析」や「分散分析」にも対応のある形式がありますが,ここではちょっと難易度が高くなるので,授業の中では触れません.
しかし,実際に調査をしてデータの形式としてどうしても触れる必要が適宜ご紹介いたします.
ちなみに,以下のような名前が付いているので,興味がある方は調べてみてください.
対応のある回帰分析:マルチレベルモデリング,一般線形混合モデル.
対応のある分散分析:マクネマー分析,一般化線形混合モデル
対応のあるt検定については,以上です.
a:男性→men
b:女性→women
以下,注意書きが無い限りはアルファベットで表記する.数字で回答を求められているものについては,数字で入力.
a:消化器疾患
b:交通事故
c:自殺
d:他殺
q2_1 本文中に,“_ _ _ _ _ n _“(7文字の単語で6番目がnのもの)という単語はいくつあるだろうか?
q2_2 本文中に,“_ _ _ _ i n g”(7文字の単語で末尾がingであるもの)という単語はいくつあるだろうか?
a:リンダはフェミニズム運動に参加している
b:リンダは銀行の窓口係である
c:リンダはフェミニズム運動に参加している銀行員である
a:大きな病院
b:小さな病院
c:同じくらい
a:裏-表-裏-表-表-裏
b:表-表-表-裏-裏-裏
c:どちらも同じ
a:表
b:裏
c:どちらも同じ
a:0
b:100
c:500
d:1000
e:2000
f:5000
g:7000
h:10000
i:20000
j:30000
k:40000
l:50000
m:60000
n:70000
o:80000
p:90000
q:100000
a:0
b:100
c:500
d:1000
e:2000
f:5000
g:7000
h:10000
i:20000
j:30000
k:40000
l:50000
m:60000
n:70000
o:80000
p:90000
q:100000
q7_1:彼女の年収は650万円以上だろうか?それとも650万円未満だろうか?
a:650万円以上
b:650万円以下
q7_2:彼女の年収は1350万円以上だろうか?それとも1350万円未満だろうか?
a:1350万円以上
b:1350万円以下
a:大きな病院
b:小さな病院
c:同じくらい
q9_1:ソフトバンクは2015年度に90勝してクライマックスシリーズに1位で進みました.さて,世界の国連加盟国195か国の内アフリカが占める割合は どの程度でしょうか?
q9_2:ソフトバンクは2016年5月1日現在,読売ソフトバンクは15勝しています.さて,世界の国連加盟国195か国の内アフリカの国はどの程度あるでしょうか?
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.