第3回 2変量データの整理(3.1–3.3.5)

作者

村澤 康友

公開

2025年10月3日

注意
  • 3.3.6節の時系列データは扱わない( 「数理統計学」と「時系列解析」の方法論は異なる).
  • 3.4節の回帰分析は13章で扱うので今回は飛ばす.
今日のポイント
  1. 2変量データの度数分布表を分割表という.量的な2変量データは散布図に表せる.
  2. 2つの変量の関係の強さは(積率)相関係数,2つの順位の関係の強さは順位相関係数で表す.
  3. 相関は必ずしも因果関係を意味しない.因果関係のない相関を見かけ上の相関という.

1 散布図(p. 43)

定義 1 2変量データを xy 平面上の座標で表した図を散布図という.

注釈. 量的変量に用いる.

注釈. 散布図から2変量の関係(相関関係)が読み取れる(図 1).

図 1: 散布図と相関関係

例 1 某大学1年生の英語と数学の入試成績(図 2).

図 2: 某大学1年生の英語と数学の入試成績

2 分割表(p. 45)

定義 2 2変量データの度数分布表を分割(クロス)表という.

注釈. 相対度数は縦比・横比でみることもできる.

例 2 東大(学部・院)の学生構成(表 1).

表 1: 東大(学部・院)の学生構成
度数
日本人 留学生
学部 14,871 96 14,967
学部研究生 252 17 269
修士 2,415 274 2,689
博士 2,002 620 2,622
院研究生 143 454 597
19,683 1,461 21,144
相対度数
日本人 留学生
学部 70.3 0.5 70.8
学部研究生 1.2 0.1 1.3
修士 11.4 1.3 12.7
博士 9.5 2.9 12.4
院研究生 0.7 2.1 2.8
93.1 6.9 100.0
縦比
日本人 留学生
学部 75.6 6.6 70.8
学部研究生 1.3 1.2 1.3
修士 12.3 18.8 12.7
博士 10.2 42.4 12.4
院研究生 0.7 31.1 2.8
100.0 100.0 100.0
横比
日本人 留学生
学部 99.4 0.6 100.0
学部研究生 93.7 6.3 100.0
修士 89.8 10.2 100.0
博士 76.4 23.6 100.0
院研究生 24.0 76.0 100.0
93.1 6.9 100.0

定義 3 (該当数)/(非該当数)を該当/非該当のオッズという.

注釈. (該当率)/(非該当率)と同じ.該当率を p とすると p/(1-p)

例 3 検査の陽性率が p なら陽性/陰性のオッズは p/(1-p)

定義 4 2群のオッズの比をオッズ比という.

例 4 処置群・対照群の陽性率が p,q なら各群の陽性/陰性のオッズは p/(1-p)q/(1-q). したがってオッズ比は [p/(1-p)]/[q/(1-q)]表 2).

表 2: 処置群と対照群の陽性率
処置群と対照群の陽性率
陽性 陰性 オッズ
処置群 p 1-p 1 p/(1-p)
対照群 q 1-q 1 q/(1-q)

3 相関係数(p. 47)

3.1 共分散(p. 49)

2変量データを ((x_1,y_1),\dots,(x_n,y_n)) とする.

定義 5 各変量の平均からの偏差の積の平均を共分散という.

注釈. 式で表すと \sigma_{xy}:=\frac{1}{n}\sum_{i=1}^n(x_i-\mu_x)(y_i-\mu_y)

注釈. x_i が大きいと y_i も大きいなら共分散は正,x_i が大きいと y_i は小さいなら共分散は負,「無関係」なら0となる.

3.2 標準化(p. 39)

定義 6 変量の値から平均を引き,標準偏差で割る変換を標準化という.

注釈. 式で表すと z_i:=\frac{x_i-\mu_x}{\sigma_x}

注釈. 標準化した変量の平均は0,分散は1となる.

3.3 (積率)相関係数(p. 48)

定義 7 標準化した2変量の共分散を(ピアソンの積率)相関係数という.

注釈. 式で表すと \begin{align*} \rho_{xy} & =\frac{1}{n} \sum_{i=1}^n\frac{x_i-\mu_x}{\sigma_x}\frac{y_i-\mu_y}{\sigma_y} \\ & =\frac{(1/n)\sum_{i=1}^n(x_i-\mu_x)(y_i-\mu_y)}{\sigma_x\sigma_y} \\ & =\frac{\sigma_{xy}}{\sigma_x\sigma_y} \end{align*}

注釈. 「関係」が強いほど1-1に近くなる.

3.4 順位相関係数(p. 54)

順位を表す2変量の相関を定義する.

定義 8 順位の(積率)相関係数をスピアマンの順位相関係数という.

定理 1 2変量データ ((x_1,y_1),\dots,(x_n,y_n)) が順位を表すなら \rho_{xy}=1-\frac{6}{(n-1)n(n+1)}\sum_{i=1}^n(x_i-y_i)^2

証明. 省略.

注釈. x_1=y_1, \dots, x_n=y_n なら \rho_{xy}=1

定義 9 ケンドールの順位相関係数 \tau_{xy} :=\frac{\sum_{i=2}^n\sum_{j=1}^{i-1}\operatorname{sgn}(x_i-x_j)\operatorname{sgn}(y_i-y_j)}{{}_nC_2}]

注釈. \operatorname{sgn}(.)は符号関数. すなわち \operatorname{sgn}(x):=\begin{cases} -1 & \text{for $x<0$} \\ 0 & \text{for $x=0$} \\ 1 & \text{for $x>0$} \\ \end{cases}

注釈. 2つの観測値 (x_i,y_i)(x_j,y_j) を取り出したとき, 「x_i>x_j だと y_i>y_j」なら順位相関係数は正, 「x_i>x_j だと y_i<y_j」なら順位相関係数は負となる.

3.5 相関と因果(p. 50)

2変量が相関をもつ理由は2つ考えられる.

定義 10 原因と結果の関係を因果関係という.

例 5 身長→体重(?),年齢→血圧,所得→消費,人口→商店数.

定義 11 因果関係のない相関を見かけ上の相関という.

注釈. 2変量の原因となる第3の変量が存在する場合に生じる.

例 6 数学と理科の成績(?),飲食店数と金融機関店舗数.

まとめ

今日のキーワード

散布図, 分割表, オッズ, オッズ比, 共分散, 標準化, (積率)相関係数, 順位相関係数(スピアマン,ケンドール), 因果関係, 見かけ上の相関

次回までの準備