それでは,ここでは対応のあるt検定について説明します.

同じ実験対象者から繰り返しとったデータは,「対応のあるデータ」と呼ばれます. 対応のあるt検定を行うことで,より正確な結果となります.

ちなみに,異なる実験対象者からとったデータの場合は「対応のないデータ」と呼ばれます.

「同じ人」からとるのか,「違う人」からとるのかによって,分析の方法が異なります.

対応のあるデータに対しては,対応のあるt検定が適切な結果となりますので,データの形式を踏まえて,適切な分析を行うようにしましょう.

分析の流れ

仮説検証の手続きの確認

授業の際にお話したとおり,仮説検証は以下の流れで行っていきます.

  • 帰無仮説の設定

  • 検定統計量の値を求める

  • 帰無仮説のもとでの,結果を出力する

  • 帰無仮説が棄却されるかどうかを判断する.

ここからは,上記の流れに沿って説明をしていきます.

帰無仮説の設定

  • 帰無仮説:自分が言いたくないことを設定する.

  • 対立仮説:自分が言いたいことを設定する.

++ 仮説の立案は用いる統計手法(もっというと,分析するデータ)によってテクニカルに決められる.

t検定の場合は,以下のように仮説を設定してあげることが必要です.

  • 帰無仮説:XとYの間の平均値に,差がない

++ ex.XとYの間の平均値に,差がない

  • 対立仮説:XとYの間の平均値に,差がある

++ ex.男女の間に,平均身長の差がある.

こちらのデータを元に分析を行います.

q2_1 本文中に,“_ _ _ _ _ n _“(7文字の単語で6番目がnのもの)という単語はいくつあるだろうか?

q2_2 本文中に,“_ _ _ _ i n g”(7文字の単語で末尾がingであるもの)という単語はいくつあるだろうか?

この2つの数字の間に相関があるかどうかを検討する

  • 帰無仮説H0:q2_1とq2_2の平均値の間に差がある.

  • 対立仮説H1:q2_1とq2_2の平均値の間に差がない.

実際には,同じ人から複数回とっているので,しっかりと考える必要がある.

regreesionのファイルと同様の処理が必要であるため,その処理済みのデータを用いる.

検定統計量の値を求める

  • t検定はt値を元に評価する t値:説明変数の係数の確からしさの度合いを判断する際に用いる.t≧|2|が基準だが,p値に変換して解釈するのが通例.

ただし,その通例に対して否定的な意見もある.

対応のあるt検定については,

対応のないt検定みたいに悩まずにt検定をしてよい.

ここでは比較のために,対応のあるt検定と対応のないt検定の2つを行う.

※本来は,正規性の確認も必要だが,ここでは割愛する.

対応のないt検定

ここでは,データの形式をアンスタック形式にせずに実施するため,Rコマンダーではなく,手入力でコードを打ち込む

## 
##  Welch Two Sample t-test
## 
## data:  q2_1 and q2_2
## t = -0.59899, df = 37.638, p-value = 0.5528
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -66.98893  36.40560
## sample estimates:
## mean of x mean of y 
##  56.75000  72.04167

ウェルチのt検定を行った結果,t(37.638)=-0.5990(p=0.553)でq2_1とq2_2で有意差が認められなかった.

対応のあるt検定

「統計量」→「平均」→「対応のあるt検定」

第1の変数:q2_1 第2の変数:q2_2

## 
##  Paired t-test
## 
## data:  q2_1 and q2_2
## t = -1.05, df = 23, p-value = 0.3046
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -45.41833  14.83500
## sample estimates:
## mean of the differences 
##               -15.29167

対応のあるt検定を行った結果,t(23)=-1.050(p=0.305)でq2_1とq2_2で有意差が認められなかった.

何が違うの?

どちらも有意差は認められなかったが,対応のあるt検定の方がp値が小さくなっています.

## Loading required package: ggplot2
## Warning: Removed 1 rows containing non-finite values (stat_smooth).
## Warning: Removed 1 rows containing missing values (geom_point).

散布図を見てみると,q2_1で高く答えている人は,q2_2でも高く答える傾向にあることが示されています.

そのことを考えると,考えて分析する必要があります.

ちなみに,「回帰分析」や「分散分析」にも対応のある形式がありますが,ここではちょっと難易度が高くなるので,授業の中では触れません.

しかし,実際に調査をしてデータの形式としてどうしても触れる必要が適宜ご紹介いたします.

ちなみに,以下のような名前が付いているので,興味がある方は調べてみてください.

  • 対応のある回帰分析:マルチレベルモデリング,一般線形混合モデル.

  • 対応のある分散分析:マクネマー分析,一般線形混合モデル

対応のあるt検定については,以上です.

こちらのアンケートを元に分析を行います.

  • F1.あなたの性別を教えて下さい

a:男性→men

b:女性→women

以下,注意書きが無い限りはアルファベットで表記する.数字で回答を求められているものについては,数字で入力.

  • q1:以下のうち,死亡者数が多いのはどれか?(H25現在)

a:消化器疾患

b:交通事故

c:自殺

d:他殺

  • q2英語の小説4ページ(約2000語)がある.これについて,以下の問題に答えよ.

q2_1 本文中に,“_ _ _ _ _ n _“(7文字の単語で6番目がnのもの)という単語はいくつあるだろうか?

q2_2 本文中に,“_ _ _ _ i n g”(7文字の単語で末尾がingであるもの)という単語はいくつあるだろうか?

  • q3リンダは31歳,独身で社交的かつ聡明な女性である.彼女は大学時代には哲学を専攻していた.また,学生時代には差別や社会正義といった問題に深い関心を持ち,反核運動のデモにも参加していた.次の3つのリンダに関する記述の内,最もありそうなものを選んでください.

a:リンダはフェミニズム運動に参加している

b:リンダは銀行の窓口係である

c:リンダはフェミニズム運動に参加している銀行員である

  • q4:ある町に2つの病院があります.大きい方の病院では毎日約45人の赤ちゃんが生まれ,小さい方の病院では毎日約15人の赤ちゃんが生まれる.すべての赤ちゃんのうち男の子の割合は約50%です.しかし,正確な割合は日々変動します.時には50%より高い日もあり,低い日もあります.1年間にそれぞれの病院で生まれた赤ちゃんのうち男の子の割合が60%を超える日を記録しました.どちらの病院の方がそのような日を多く記録したと思いますか?

a:大きな病院

b:小さな病院

c:同じくらい

  • q5_1:コイントスを6回行った時,どちらが出やすいと思うか?ただし,表の出る確率は1/2であり,裏の出る確率は1/2である.

a:裏-表-裏-表-表-裏

b:表-表-表-裏-裏-裏

c:どちらも同じ

  • q5_2今,コイントスで表が5回続けて出ている.次は裏と表,どちらが出やすいと思うか?ただし,表の出る確率は1/2であり,裏の出る確率は1/2である.

a:表

b:裏

c:どちらも同じ

  • q6_1「1×2×3×4×5×6×7×8」を計算して,およそ近い値を5秒以内に選んで下さい.

a:0

b:100

c:500

d:1000

e:2000

f:5000

g:7000

h:10000

i:20000

j:30000

k:40000

l:50000

m:60000

n:70000

o:80000

p:90000

q:100000

  • q6_2:「8×7×6×5×4×3×2×1」を計算して,およそ近い値を5秒以内に選んで下さい.

a:0

b:100

c:500

d:1000

e:2000

f:5000

g:7000

h:10000

i:20000

j:30000

k:40000

l:50000

m:60000

n:70000

o:80000

p:90000

q:100000

  • q7オーストラリア・メルボルンのコンピュータ会社に新たに雇われたエンジニアがいるとしよう.彼女には4年のキャリアがあり,多方面に渡る優れた能力を持っている.

q7_1:彼女の年収は650万円以上だろうか?それとも650万円未満だろうか?

a:650万円以上

b:650万円以下

q7_2:彼女の年収は1350万円以上だろうか?それとも1350万円未満だろうか?

a:1350万円以上

b:1350万円以下

  • q8:ある町に2つの病院があります.大きい方の病院では毎日約45人の赤ちゃんが生まれ,小さい方の病院では毎日約15人の赤ちゃんが生まれる.すべての赤ちゃんのうち男の子の割合は約50%です.しかし,正確な割合は日々変動します.時には50%より高い日もあり,低い日もあります.1年間にそれぞれの病院で生まれた赤ちゃんのうち男の子の割合が60%を超える日を記録しました.どちらの病院の方がそのような日を多く記録したと思いますか?

a:大きな病院

b:小さな病院

c:同じくらい

  • q9_1:ソフトバンクは2015年度に90勝してクライマックスシリーズに1位で進みました.さて,世界の国連加盟国195か国の内アフリカが占める割合は どの程度でしょうか?

  • q9_2:ソフトバンクは2016年5月1日現在,読売ソフトバンクは15勝しています.さて,世界の国連加盟国195か国の内アフリカの国はどの程度あるでしょうか?

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.