第9回 回帰モデルの定式化(7.1–7.3)
- 非線形回帰モデルでも回帰係数について線形なら重回帰分析を適用できる.非線形回帰モデルの限界効果は説明変数の水準に依存する.ある説明変数の限界効果に対する他の説明変数の影響を交互作用という.説明変数に交差項を加えれば交互作用を分析できる.
- 質的変数への回帰はカテゴリーを表すダミー変数に回帰する.群別の回帰モデルを群ダミーを用いて 1 つの回帰モデルにまとめれば,群間の回帰係数の差の t 検定・F 検定が簡単になる.
- 2 群の回帰係数の差の有無の F 検定をチョウ検定という.2 群の回帰係数が等しいという制約を課す場合と課さない場合の RSS の差で F 検定統計量を表現できる.
- ダミー変数の回帰モデルは \operatorname{E}(D|X)=\Pr[D=1|X] より確率モデル.線形モデルだと確率が [0,1] を超えるので,ロジット・モデルやプロビット・モデルを使う.
1 非線形回帰モデル
1.1 多項式回帰モデル(p. 162)
(Y,X) を確率ベクトルとする.Y と X に曲線的な関係があるなら単回帰モデルの定式化は誤り.
定義 1 多項式で表される回帰モデルを 多項式回帰モデル という.
定義 2 n 次多項式で表される回帰モデルを n次(多項式)回帰モデル という.
注釈. Y の X 上への n 次回帰モデルは \operatorname{E}(Y|X)=\alpha+\beta_1X+\beta_2X^2+\dots+\beta_nX^n これは X の非線形関数だが回帰係数 \beta_1,\dots,\beta_n の線形関数なので,X,X^2,\dots,X^n を説明変数として重回帰分析を適用できる.
定理 1 Y の X 上への n 次回帰モデルにおける X から Y への限界効果は \frac{\mathrm{d}Y}{\mathrm{d}X}=\beta_1+2\beta_2X+\dots+n\beta_nX^{n-1}
証明. 微分すれば明らか.
注釈. すなわち限界効果は X の水準に依存する.
1.2 交互作用(p. 168)
(Y,X,Z) を確率ベクトルとする.Y の (X,Z) 上への 2 次回帰モデルは \operatorname{E}(Y|X,Z)=\alpha+\beta_1X+\beta_2X^2+\gamma_1Z+\gamma_2Z^2+\delta XZ
定義 3 2 つの独立変数の積の説明変数を 交差項 という.
定理 2 Y の (X,Z) 上への 2 次回帰モデルにおける X から Y への限界効果は \frac{\partial Y}{\partial X}=\beta_1+2\beta_2X+\delta Z
証明. 偏微分すれば明らか.
注釈. すなわち X から Y への限界効果は X と Z の水準に依存する.
定義 4 ある説明変数の限界効果に対する他の説明変数の影響を 交互作用 という.
注釈. 説明変数に交差項を加えれば交互作用を分析できる.
2 ダミー説明変数
2.1 質的変数への回帰(p. 167)
(Y,X) を確率ベクトルとする.ただし X は質的変数とする.Y の X 上への単回帰モデルは \operatorname{E}(Y|X)=\alpha+\beta X X が 3 つ以上のカテゴリーを表すなら単回帰モデルの定式化は誤り:
- 名義尺度
- X の「1 単位の増加」に意味がなく,X から Y への限界効果を定義できない.
- 順序尺度
- X の「1 単位の増加」に量的な意味がなく,X から Y への限界効果を一定と想定できない.
この場合はカテゴリーをダミー変数で表す.カテゴリー数が k なら j=1,\dots,k について D_j:=\begin{cases} 1 & \text{$X=j$} \\ 0 & \text{その他} \\ \end{cases} Y の (D_1,\dots,D_k) 上への重回帰モデルは \operatorname{E}(Y|D_1,\dots,D_k)=\beta_1D_1+\dots+\beta_kD_k D_1+\dots+D_k \equiv 1 より定数項を入れると完全な多重共線性が生じる.
定理 3 j=1,\dots,k について \operatorname{E}(Y|X=j)=\beta_j
証明. j=1 なら \begin{align*} \operatorname{E}(Y|X=1) & =\operatorname{E}(Y|D_1=1,D_2,\dots,D_k=0) \\ & =\beta_1 \end{align*} j=2,\dots,k も同様.
注釈. すなわち k 個のカテゴリーを表す質的変数への回帰は各カテゴリーの母平均を比較する k 標本問題(=1 元配置分散分析)と解釈できる.
定理 4 \operatorname{E}(Y|D_1,\dots,D_k)=\beta_1+\delta_2D_2+\dots+\delta_kD_k ただし j=2,\dots,k について \delta_j:=\beta_j-\beta_1.
証明. D_1+\dots+D_k \equiv 1 より \begin{align*} \operatorname{E}(Y|D_1,\dots,D_k) & =\beta_1D_1+\beta_2D_2+\dots+\beta_kD_k \\ & =\beta_1(1-D_2-\dots-D_k)+\beta_2D_2+\dots+\beta_kD_k \\ & =\beta_1+(\beta_2-\beta_1)D_2+\dots+(\beta_k-\beta_1)D_k \end{align*}
注釈. すなわち定数項を入れ,代わりにダミー変数を 1 つ外してもよい.その場合,回帰係数は各群と基準群(ダミーを外した群)の母平均の差を表す.
2.2 群別の回帰(p. 168)
(Y,X,D) を確率ベクトルとする.ただし D は群ダミーとする.群別に単回帰モデルを仮定する.すなわち \begin{align*} \operatorname{E}(Y|X,D=0) & =\alpha_0+\beta_0X \\ \operatorname{E}(Y|X,D=1) & =\alpha_1+\beta_1X \end{align*}
定理 5 \operatorname{E}(Y|X,D)=\alpha_0+\beta_0X+\gamma D+\delta XD ただし \gamma:=\alpha_1-\alpha_0,\delta:=\beta_1-\beta_0.
証明. \begin{align*} \operatorname{E}(Y|X,D) & =(1-D)(\alpha_0+\beta_0X)+D(\alpha_1+\beta_1X) \\ & =\alpha_0+\beta_0X+(\alpha_1-\alpha_0)D+(\beta_1-\beta_0)DX \\ & =\alpha_0+\beta_0X+\gamma D+\delta XD \end{align*}
注釈. 群別の回帰モデルを群ダミーを用いて 1 つの回帰モデルにまとめれば,群間の回帰係数の差の t 検定・F 検定が簡単になる.
3 チョウ検定(p. 171)
3.1 検定問題
(1+k) 変量無作為標本 ((y_1,\bm x_1),\dots,(y_n,\bm x_n)) を 2 群に分割する.ただし \bm x_i:=(x_{i,1},\dots,x_{i,k})'.各群に古典的正規線形回帰モデルを仮定する.すなわち j=0,1 について \begin{align*} y_i & =\bm x_i'\bm \beta_j+u_i \\ u_i|\bm x_i & \sim \mathrm{N}\left(0,\sigma^2\right) \end{align*} ただし 2 群の誤差分散は等しいと仮定する.次の検定問題を考える. H_0:\bm \beta_0=\bm \beta_1 \quad \text{vs} \quad H_1:\bm \beta_0 \ne \bm \beta_1
3.2 F 検定
第 0 群を基準とし,第 1 群ダミーを d_i とすると \begin{align*} y_i & =(1-d_i)\bm x_i'\bm \beta_0+d_i\bm x_i'\bm \beta_1+u_i \\ & =\bm x_i'\bm \beta_0+d_i\bm x_i'(\bm \beta_1-\bm \beta_0)+u_i \\ & =\bm x_i'\bm \beta_0+d_i\bm x_i'\bm \delta+u_i \end{align*} ただし \bm \delta:=\bm \beta_1-\bm \beta_0.したがって検定問題は H_0:\bm \delta=\boldsymbol{0}\quad \text{vs} \quad H_1:\bm \delta\ne \boldsymbol{0} すなわち回帰係数の両側検定問題となる.この F 検定統計量を F とすると,H_0 の下で F \sim \mathrm{F}(k,n-2k)
3.3 残差 2 乗和
(\bm \beta_0,\bm \beta_1) の OLS 推定量を (\bm b_0,\bm b_1),y_i の回帰予測を \hat{y}_i とすると \hat{y}_i:=(1-d_i)\bm x_i'\bm b_0+d_i\bm x_i'\bm b_1 OLS 残差を e_i とすると \begin{align*} e_i & :=y_i-\hat{y}_i \\ & =y_i-(1-d_i)\bm x_i'\bm b_0-d_i\bm x_i'\bm b_1 \\ & =(1-d_i)(y_i-\bm x_i'\bm b_0)+d_i(y_i-\bm x_i'\bm b_1) \end{align*} 残差 2 乗和は \mathrm{RSS}:=\sum_{i=1}^ne_i^2 誤差分散 \sigma^2 の不偏推定量は s^2:=\frac{\mathrm{RSS}}{n-2k} 第 j 群の残差 2 乗和を \mathrm{RSS}_j とすると \begin{align*} \mathrm{RSS}_0 & =\sum_{i=1}^n(1-d_i)(y_i-\bm x_i'\bm b_0)^2 \\ \mathrm{RSS}_1 & =\sum_{i=1}^nd_i(y_i-\bm x_i'\bm b_1)^2 \end{align*}
定理 6 \mathrm{RSS}=\mathrm{RSS}_0+\mathrm{RSS}_1
証明. d_i^2=d_i,(1-d_i)^2=(1-d_i),d_i(1-d_i)=0 より \begin{align*} \sum_{i=1}^ne_i^2 & =\sum_{i=1}^n[(1-d_i)(y_i-\bm x_i'\bm b_0)+d_i(y_i-\bm x_i'\bm b_1)]^2 \\ & =\sum_{i=1}^n\left[(1-d_i)(y_i-\bm x_i'\bm b_0)^2+d_i(y_i-\bm x_i'\bm b_1)^2\right] \\ & =\sum_{i=1}^n(1-d_i)(y_i-\bm x_i'\bm b_0)^2+\sum_{i=1}^nd_i(y_i-\bm x_i'\bm b_1)^2 \end{align*}
3.4 制約付き残差 2 乗和
H_0 の制約の下で \bm \beta_0=\bm \beta_1=\bm \beta とすると,古典的正規線形回帰モデルは \begin{align*} y_i & =\bm x_i'\bm \beta+u_i \\ u_i|\bm x_i & \sim \mathrm{N}\left(0,\sigma^2\right) \end{align*} \bm \beta の(制約付き)OLS 推定量を \bm b,y_i の回帰予測を \hat{y}^*_i とすると \hat{y}^*_i:=\bm x_i'\bm b OLS 残差を e^*_i とすると \begin{align*} e^*_i & :=y_i-\hat{y}^*_i \\ & =y_i-\bm x_i'\bm b \end{align*} 残差 2 乗和は \mathrm{RSS}_*:=\sum_{i=1}^n{e^*_i}^2 H_0 の下での誤差分散 \sigma^2 の不偏推定量は s_*^2:=\frac{\mathrm{RSS}_*}{n-k}
定理 7 H_0 の下で \operatorname{E}\left(\frac{\mathrm{RSS}_*-\mathrm{RSS}}{k}\right)=\sigma^2
証明. s^2,s_*^2 の不偏性より \begin{align*} \operatorname{E}(\mathrm{RSS}_*-\mathrm{RSS}) & =\operatorname{E}(\mathrm{RSS}_*)-\operatorname{E}(\mathrm{RSS}) \\ & =(n-k)\sigma^2-(n-2k)\sigma^2 \\ & =k\sigma^2 \end{align*} 両辺を k で割ればよい.
注釈. したがって H_0 の下では (\mathrm{RSS}_*-\mathrm{RSS})/k も \sigma^2 の不偏推定量.
3.5 チョウ検定
定理 8 F=\frac{(\mathrm{RSS}_*-\mathrm{RSS})/k}{\mathrm{RSS}/(n-2k)}
証明. 省略(行列の知識が必要).
注釈. 2 標本問題の母分散の比の F 検定統計量と同じ形.
定義 5 2 群の回帰係数の差の有無の F 検定を チョウ検定 という.
注釈. 時系列データの回帰モデルに応用すると,構造変化の検定と解釈できる.
4 ダミー従属変数
4.1 線形確率モデル(p. 174)
(D,X) を確率ベクトルとする.ただし D はダミー変数とする.D の X 上への単回帰モデルは \operatorname{E}(D|X)=\alpha+\beta X
定理 9 \operatorname{E}(D|X)=\Pr[D=1|X]
証明. 復習テスト.
定義 6 D の X 上への 線形確率モデル は \Pr[D=1|X]=\alpha+\beta X
注釈. 被説明変数がダミー変数なら条件付き期待値=条件付き確率より回帰モデルは確率モデル.ただし確率が [0,1] を超えうるので線形モデルは不適切(図 1).
定理 10 \operatorname{var}(D|X)=\Pr[D=1|X](1-\Pr[D=1|X])
証明. 復習テスト.
注釈. 被説明変数がダミー変数なら条件つき分散はXに依存する.したがって古典的線形回帰モデルの仮定は成立せず,OLS 推定量は BLUE でない.
4.2 非線形確率モデル(p. 176)
F:\mathbb{R}\to [0,1] を増加関数とする(例えば \mathbb{R} 上の連続分布の cdf).線形確率モデルの右辺を F(.) で変換すれば,確率は [0,1] を超えない.すなわち \Pr[D=1|X]=F(\alpha+\beta X) 線形確率モデルの左辺を F^{-1}(.) で変換すれば,[0,1] を超えても構わないので右辺は線形でよい.すなわち F^{-1}(\Pr[D=1|X])=\alpha+\beta X
定理 11 X から \Pr[D=1|X] への限界効果は \frac{\mathrm{d}\Pr[D=1|X]}{\mathrm{d}X}=\beta F'(\alpha+\beta X)
証明. 微分すれば明らか(合成関数の微分).
注釈. 非線形モデルなので限界効果≠回帰係数.
4.3 2 値ロジット・モデル(p. 176)
定義 7 ロジスティック関数 は,任意の x \in \mathbb{R} について \Lambda(x):=\frac{\mathrm{e}^x}{1+\mathrm{e}^x}
定義 8 \Lambda(.) を cdf とする分布を ロジスティック分布 という.
定義 9 \Lambda^{-1}(.) を ロジット変換 という.
注釈. 任意の y \in (0,1) について \Lambda^{-1}(y)=\ln\frac{y}{1-y}
定義 10 D の X 上への 2 値ロジット・モデル は \Pr[D=1|X]=\Lambda(\alpha+\beta X)
4.4 2 値プロビット・モデル(p. 176)
\mathrm{N}(0,1) の cdf を \Phi(.) とする.
定義 11 \Phi^{-1}(.) を プロビット変換 という.
注釈. \Phi(.) が積分を含むので \Phi^{-1}(.) は解析的に表現できない.
定義 12 D の X 上への 2 値プロビット・モデル は \Pr[D=1|X]=\Phi(\alpha+\beta X)
まとめ
多項式回帰モデル, n次回帰モデル, 交差項, 交互作用, チョウ検定, 線形確率モデル, ロジスティック関数, ロジスティック分布, ロジット変換, 2値ロジット・モデル, プロビット変換, 2値プロビット・モデル