古典的な回帰系統の分析、即ち 重回帰分析、判別分析、分散分析は、 抽象化された formula においては、次のように表現される。
y ~ X
ここで、y は目的変数であり、X は説明変数の形式和(交互作用項を 含む場合もある)である。そして、変数の属性に従って、次のように 呼ばれている。なお、y, X 双方が質的変数の場合は「定性的データ分析」の 範疇と成るのでここでは扱わない。
| 目的\説明 | 量的変数 | 質的変数 |
|---|---|---|
| 量的変数 | 重回帰分析 | 数量化I類//分散分析 |
| 質的変数 | 判別分析 | (数量化II類) |
さらに、完全に一致する下記の場合がある。
第一の場合は、説明アイテム変数が\( g \)カテゴリからなる場合、
各カテゴリを1とし他を0としたdummy変数を\( g \)個作成し、その内一つ
例えば第一のdummy変数を省いた\( g-1 \)個のdummy変数を作成し
それらによって回帰する。回帰式の切片は省いたカテゴリ(例えば1番として)
に対応する平均\( {\bar y}^{(1)} \)
であり、他のカテゴリに対応するdummy変数の係数は、
そのカテゴリに対応する平均から切片を引いた値
\( {\bar y}^{(k)} -{\bar y}^{(1)} \)となっている。
説明変数に質的変数を含む回帰分析は、基本関数 lm()に
よって、特にdummy変数に変換することなく行える。従って、
いわゆる数量化I類はlm()で直接実行できる。一変数の数量化I類での
カテゴリスコアは。各カテゴリでの平均値から、全体の平均値を
引いた値, i.e., \( {\bar y}^{(k)} - \bar y \) である。
二元配置以上の分散分析は、lm()では実現できない。
第二の場合は、判別A群がa件、B群がb件の場合、A群に対応して-b/(a+b), B群に対応して a/(a+b)の値を与えた変数に対して回帰させる。 回帰超平面が判別超平面である。
これらの手法において、係数を求める方法は二次形式、又はその比の 最小化や最大化である。特に判別分析では、対称行列\( M \)と 正定値対称行列\( N \) の二次形式の比
\[ \phi(v) = t(v)Mv/t(v)Nv \]
を最大化する。この場合の定石として、ラグランジュ未定乗数\( \lambda \) を導入し、
\[ \psi(v, \lambda) = t(v)Mv - \lambda(t(v)Nv - 1) \]
を最大化すればよい。偏微分により、一般固有値問題
\[ Mv = \lambda Nv \]
に帰着する。\( N^{-1}M \)の固有値問題である。
\[ rank(N^{-1}M) = r \leq min(p, g-1). \]
となるので、正の\( r \)個の固有値と\( p-r \)個の0固有値を持つ。
主成分分析と同じく、固有値の大きさの順に重要である。
固有ベクトルは\( N \)に関してノルム1に正規化するのが適切であり
(もしくは群内分散の正規化として \( N/(n-g) \)に関してノルム1とする)、
異なる固有値\( \lambda_i \ne \lambda_j \)に対応する固有ベクトル
\( v_i と v_j \) は、\( N \)に関して直交する。
\[ t(v_i) N v_j = 0. \]
従って、\( v_1 と v_2 \)(データ空間では直交していない)
を用いた判別関数による散布図を描けば、判別された様子が解りやすくなる。
主成分分析の次元縮約と同様の手続きである。
重回帰分析の\( R^2 \)に相当する相関の2乗は、\( \lambda / (1+\lambda) \)
で与えられる。
重回帰式\( f(X) \)は切片を伴った説明変数の一次式で与えられる。 \[ f(X) = a_0 + \sum^p_{j=1} a_j X_j \] うまり、モデル式は次式である。 \[ y = \beta_0 + \sum^p_{j=1} \beta_j x_j + \epsilon, \epsilon \sim N(0,\sigma^2) \]
ここで、\( \bar y \)をデータ\( y=(y_1, ...,y_n) \)の平均とすれば、次の平方和分解が成立する。
\[ \sum^n_{i=1} (y_i- \bar y)^2 = \sum^n_{i=1} (f(x_i) - \bar y)^2 + \sum^n_{i=1} (y_i - f(x_i))^2 \]
\[ S_T = S_R + S_e , 全平方和=回帰平方和+残差平方和 \]
回帰が最もよく説明できるためには、\( S_R/S_T \)(この値は、データ
\( (y_i) \)と、その推定値\( (f(x_i)) \)の相関係数の2乗である)
が最大になるように\( a \)を定めれはよい。実際には\( S_T \)は定数であるから、
\( S_R \)の最大化、あるいは\( S_e \)の最小化(最小二乗法)を
すればよい。
このとき帰無仮説
\[ H_0: a_1=...=a_p=0 \]
の検定に用いる\( F \)値は自由度で割った右辺各項の比である。
\[ F = \frac{S_R/p}{ S_e/(n-1-p)} . \]
この\( F \)値を最大にすると見てもよい。
切片も他の変数と同様にとりあつかうため、\( n \times p \) データ行列\( X \) の第一列の前に1のみからなる列を付け加えた \( n \times (p+1) \) 行列 \( \tilde X \) を取り扱う。 実際の \( a=(a_0,a_1,...,a_p) \) は \( y=f(x)=\tilde X a \)と設定した式より、 \( (t(\tilde X)\tilde X)a = t(\tilde X)y \) となる。従って、 対称行列 \( t(\tilde X)\tilde X \) が正定値であれば、次の様に求まる 値が上記の最小二乗法の解である(実際に偏微分して求める。 一般化逆行列の理論からも解る)。 \[ a = (t(\tilde X)\tilde X)^{-1}t(\tilde X)y . \] そこで ハット行列 \( H \) を \[ H = \tilde X(t(\tilde X)\tilde X)^{-1}t(\tilde X) \] と置けば、\( H, I-H \) は相互に直交射影となっている。 \[ t(H)=H, \, H^2 = H, \, (I-H)^2=(I-H), \, H(I-H)=0. \] そして回帰残差推定量\( \hat e \)について次式が成立する。 \[ \hat y = H y, \, \hat e = (I-H)y . \] 従って、モデルにおける誤差の無相関かつ等分散の仮定より \( Var[y]=\sigma^2 I \) であるから \[ Var[\hat e]=(I-H) \, \sigma^2 I \, t(I-H)=(I-H) \sigma^2 \] となる。 これより、\( \hat{e}_i \)の分散は\( \sigma^2 (1-h_{ii}) \) となる。よって \[ \frac{\hat{e}_i}{\sigma \sqrt{1-h_{ii}}} \sim N(0,1) \] であり、この分母の母分散 \( \sigma^2 \) を データの残差分散\( s_i^2 \)で置き換えた標準化(調整済)残差 \( r_i \) は \( t \) 分布に従う。 \[ r_i=\frac{\hat{e}_i}{s_e \sqrt{1-h_{ii}}} \sim t(n-p-1). \]
一元配置分散分析の場合、件数をn,説明変数は\( g \)レベルからなり、 第\( k \)レベルは\( n_k \)件からなるとする。 即ち \( x_{ik}, k=1,...,g, i=1,...,n_k, n=n_1+...+n_g \) . 個々の標本の構造モデルは 次の通りであり、誤差は等分散の正規分布とされている。
\[ X_{ik} = \mu + \alpha _k + e_{ik} ,\,\, e_{ik}\, \sim \, N(0,\sigma^2) ,\,\, E[e_{ik}^2]=\sigma^2. \]
\[ \sum^g_{k=1} \sum^{n_k}_{i=1} (x_{ik}-\bar x)^2 = \sum^g_{k=1} n_k ({\bar x}_k - \bar x)^2 + \sum^g_{k=1} \sum^{n_k}_{i=1} (x_{ik}-{\bar x}_k)^2 \]
\[ S_T = S_B + S_W , 偏差平方和=群間平方和+群内平方和 \]
ここで各データと総平均が \( x_{ik}, \bar x \)であり、第 \( k \) 群の平均が
\( {\bar x}_k \) である。\( S_T, S_B, S_W \) の添字はそれぞれtotal,
between, withinの略である。群間平方和を 処理平方和(Treatment sum of
squares, \( S_A \)), 郡内平方和を誤差平方和(Error sum of squares, \( S_e \))とも呼ぶ。
検定帰無仮説は,すべての処理効果がない、つまり
\[ H_0: \alpha_1=...=\alpha_g=0 \]
である。これを検定する検定統計量\( F \)値は
自由度で割った群間と郡内平方の比(分散比とも呼ぶ)である。
\[ F = \frac{S_B/(g-1)}{ S_W/(n-g)} \]
何故比を取るのか。それは上記の分散\( \sigma^2 \)を消去するためである。実際、 平方和の期待値は次の通りである。 \[ E[S_W]=(n-g)\sigma^2, \, E[S_B] = \sum_i n_i \alpha_i^2 + (g-1)\sigma^2 \] 従って、帰無仮説の元で\( F \)は\( \sigma^2 \)が分母分子でキャンセルされ、1に近い値であると期待されるのである。より正確に云えば、帰無仮説の元で \( S_B/\sigma^2 \) は自由度\( n-g \) の \( \chi^2 \) 分布に従い、\( S_W/\sigma^2 \) は自由度\( g-1 \) の \( \chi^2 \) 分布に従う。よって、\( F \sim F(g-1, n-g) \) となる。
二元配置以上の場合は、複雑になる。要因A,B と交互作用 AB を考慮する場合には、上記の\( S_W \)を\( S_e \)と、要因に対応する平方和を\( S_A, \,S_B \)とすれば、平方和の分解は次の通りである。 \[ S_T = S_A + S_B + S_{AB} + S_e \]
元のデータそのものではなく、\( p \)次元の変数
\( x_j, j=1,2...,p \) の合成変数値
\[ z_i^{(k)}=a_1 x_{1i}^{(k)}+ ... +a_p x_{pi}^{(k)}
\,(k=1,...,g; i=1,...,n_k) \]
を元にした平方和分解を行い、\( S_B/S_W \)を最大化する\( a \)を求める。
なお、線形判別関数で判別するためには、各群の分散共分散行列が
等しいという仮定の元で行い、プールした行列を用いる。
実行は MASS::lda による。またMASS::qdaを用いれば、
マハラノビス汎距離による二次判別ができる。
係数を求める先の手続きでの行列は次の通りである。
\[ M=(m_{ab}), \, N=(n_{ab}) \]
\[ m_{ab}=\sum_{k=1}^g n_k({\bar x}_a^{(k)}-{\bar x}_a)
({\bar x}_b^{(k)}-{\bar x}_b) \]
\[ n_{ab}=\sum_{k=1}^g \sum_{i=1}^{n_k}
(x_{ai}^{(k)}-{\bar x}_a^{(k)})
(x_{bi}^{(k)}-{\bar x}_b^{(k)})
\]
2群への判別はマハラノビス汎距離による判別分析によって、2群
への所属確率を求めるのが一般的である。これに対して、別の手法に
よって、所属確率を求めることもできる。これはRcmdrにも含まれる
GLMを用いて行う、ロジスティック回帰である。
ロジスティック回帰の目的変数は、量的変数・質的変数いずれも可能である。
定量には平成廿六年度より導入された。薬学、疫学等では常用である。
交互作用は分散分析専用の考えであろうか。そんなことはない。 以上のように、類比が様々に成り立っている以上は、重回帰に 当然ながら交互作用を持ち込むことができる。勿論、必要に応じてである。 変数 \( X \) と \( Z \) の交互作用項 \( XZ \) は積の数値で定義されるが、 両変数を標準化してから積を取る。