離散変数間の関連

太郎丸 博

2025-05-13

出典

統計的独立 independent

表1 架空の \(2\times 3\)
x y z
A 20 30 50
B 40 60 100

二変数が独立なクロス表の特徴

2変数が独立の場合の期待度数

\[ \begin{align} n_{12} &= \frac{n_{1\cdot} n_{\cdot 2}}{N} \\ 30 &= \frac{100 \times 90}{300} \\ \end{align} \]

独立と関連

相関係数

x

ジャズが好き

 嫌い

ロックが好き

10

50

  〃  嫌い

20

30

\[ 相関係数 = \frac{10 \times 30 - 50 \times 20}{\sqrt{60 \times 50 \times 30 \times 80}} = -0.26 \]

\(2\times 2\) 表の関連の強さ

表2 二つの大学の学生のある政策にかんする賛否

x

Yes

No

A大学

60

40

B大学

2

8

オッズ比

オッズ比を \(\alpha\) と表記すると \[ \alpha = \frac{n_{11} n_{22}}{n_{12} n_{21}} \] 上の \(2\times 2\) 表の例では、オッズ比は \[ \alpha=\frac{60 \times 8}{40 \times 2}= 6 \]

オッズ比の性質

オッズ比の解釈上の注意

   \(\alpha\)   \(\beta\)   \(\log(\alpha)\)   \(\log(\beta)\)
1.5 0.667 0.405 -0.405
2.0 0.500 0.693 -0.693
3.0 0.333 1.099 -1.099
5.0 0.200 1.609 -1.609
10.0 0.100 2.303 -2.303
20.0 0.050 2.996 -2.996

対数オッズ比

ユールの Q

\[ Q = \frac{n_{11} n_{22} - n_{12} n_{21}}{n_{11} n_{22} + n_{12} n_{21}} \] 上の \(2\times 2\) 表の例では、 \[ Q = \frac{60\times 8 - 40 \times 2}{60\times 8 + 40 \times 2} = 400/560 = 0.71 \]

ユールの Q の性質

完全関連

 Yes  No
A 9 0
B 0 7

以下は相関係数が \(-1\) になる \(2\times 2\) 表の例

 Yes  No
A 0 13
B 11 0

最大関連

表3 母職と子職の移動表

x

子ノンマニュアル

子マニュアル

Sum

母ノンマニュアル

20

0

20

母マニュアル

30

50

80

Sum

50

50

100

最大関連とユールの Q

組織や単語の重なり

B学会

x

参加

 不参加

A 学会参加

20

30

 〃 不参加

40

10

ジャッカードの類似性指数 Jaccard’s Similarity Index

比率の差、比率の比、オッズ比

以下の場合、甲県と乙県のどちらが、マジョリティとマイノリティの格差が大きいだろうか?

甲県

x

低所得

高所得

マイノリティ

99

1

マジョリティ

96

4

乙県

x

低所得

高所得

マイノリティ

60

40

マジョリティ

50

50

\(k \times l\)

文献

Jaccard, Paul. 1902. “Distribution Comparée de La Flore Alpine Dans Quelques régions Des Alpes Occidentales Et Orientales.” Bulletin de La Murithienne (31):81–92.
Wickens, Thomas D. 1989. Multiway Contingency Tables Analysis for the Social Sciences. Mahwah: Lawrence Erlbaum Associations.
太郎丸博. 2005. 人文・社会科学のためのカテゴリカル・データ解析入門. ナカニシヤ出版.