(1) パラメータについて線形
データ\((Y_i,X_{1i},\dots,X_{Ki}、 \ i=1,\dots,N)\)は以下の線形の関係を満たす。
\[ y_i=\beta_0+\beta_1X_{1i}+\dots+\beta_KX_{ki}+u_i \ \ \ (1) \] ここで、\(\beta_0, \beta_1,\dots,\beta_K\)は注目する未知のパラメータ(定数)、 \(u_i\)は観測されないランダムな 誤差または擾乱項である。
(2) 無作為抽出(IID)
データ\((Y_i,X_{1i},\dots,X_{Ki} ), \ i=1,\dots,N\)は独立同一分布に従う。
(3) 多重共線性がない
標本では(結局、母集団でも)、どの独立変数も定数ではなく、かつどの独立変数も独立変数間に正確な線形関係はない。 任意の定数\(c_0, c_1 \dots c_K\)について \[ c_0+c_1X_{1i}+c_2X_{2i}+\dots+c_KX_{Ki}\neq0 \ \ \ (2) \]
(4) 条件付き平均はゼロ(外生性)
誤差\(u_i\)は、独立変数の任意の値について、期待値は\(0\)である。 \[ 𝐸(u_i|X_{1i},\dots,X_{Ki})=0 \ \ \ (3) \] (5) 分散均一性 誤差\(u\)は説明変数がどのような値であっても同じ分散を持つ。すなわち \[ Var(u_i|X_{1i},\dots,X_{Ki} )= \sigma^2 \ \ \ (4) \]である。 ここで\(\sigma^2\)は誤差項\(u_i\)の分散を表す。
OLS推定量の分布
不偏性
不偏性とは推定量\(\hat{\beta}\)の期待値が真の値\(\beta\)に等しくなることです。 \[ E(\hat{\beta})=\beta \ \ \ (5) \] 一致性
一致性とは推定量\(\hat{\beta}\)の確率極限をとると(サンプルサイズを無限大に近づけると)真の値\(\beta\)に等しくなることです。 \[ plim_{n\to\infty}\hat{\beta}=\beta \ \ \ (6) \] 漸近正規性
\(N\to\infty\)のとき、\(\hat{\beta}\)は漸近正規性を持つ。 \[ \sqrt{N}(\hat{\beta}-\beta)\xrightarrow{d} N(0, V) \ \ \ (7) \] ただし、\(V\)は\(\hat{\beta}\)の分散である。
最良線形不偏推定量
回帰分析の仮定のうち、まず仮定(3)の多重共線性の問題から解説していきます。
仮定(3)がみたされないとき、すなわち以下の関係が成立するとき完全な多重共線性があるといいます。
このとき(1)式についての最小2乗推定量は得られません!!! \[ c_0+c_1X_{1i}+c_2X_{2i}+\dots+c_KX_{Ki}=0 \ \ \ (8) \]
簡単化のために、\(K=2\)の説明変数が2つのケースを考えます。 \[ y_i=\beta_0+\beta_1X_{1i}+\beta_2X_{2i}+u_i \ \ \ \ (9) \] このとき、\(X_{1i}=aX_{2i}\)の関係があるとすると\((c_0=0,c_1=1,c_2=-aのケース)\)、(9)式は以下の式になります。 \[ y_i=\beta_0+(\beta_1+a\beta_2)X_{1i}+u_i \ \ \ \ (10) \] となります。
-(10)式は単回帰ですので\(X_{1i}\)の情報しか持っていません。(9)式に最小2乗推定を適用して\(\beta_1\)と\(\beta_2\)の推定量を得るためには情報が足りません(未知の変数が2個ある)。これは、未知の数が2個の時に1本の式で方程式を解くのと同じです。
完全な多重共線性がなければ、OLS推定量を計算することは可能です。
ただし、説明変数間の相関が極めて高い場合は、回帰分析の結果は不安定になります(理由は計量経済学で、FWLを考えてみよう)。
主な症状として、
1 係数推定値の符号が常識的な予想と異なる
2 t値が小さい
3 \(R^2\)は大きいが、t値が小さいものがある
4 データセットを少し変えただけで推定結果が大きく変化する
多重共線性の原因は説明変数間の線形関係ですので、説明変数間の相関関係を調べれば多重共線性の存在が確認できます。
①相関行列をチェックする
cor(変数名1,変数名2,・・・・・,変数名k)です。②VIF(Variance Inflation Factor,分散拡大要因)
\[ VIF=\frac{1}{1-R(X_1,\bf{X}_k)^2} \ \ \ \ (10) \]
ここで\(R(X_1,\bf{X}_k)^2\)は、説明変数\(X_1\)を他の説明変数\(X_2,\dots X_K\)に回帰させたときの決定係数です。決定係数は観測値\(X_1\)と理論値\(\hat{X_1}\)の相関係数の2乗ですので、\(X_1\)と他の説明変数の相関が高ければ大きくなります。
VIFが大きいほど、多重共線性の影響があることを意味します。おおむねVIFが10以上でであれば、多重共線性の存在が疑われます。
#reg <- lm(ln当年価格 ~ d_低層+ln都心までの時間+ln運賃+ln定期+ln距離+ln便数+ln最寄り駅までの距離 + ln地積面積+ln容積率+ln建蔽率+d_低層,data = koujitika,na.rm = TRUE)
#summary(reg)
相関行列を見てみましょう。
cor (var1,var2) #val1,val2の相関係数を出すコマンドです。
cor(モデル名$model)でOLS推定に使ったデータセット全体の相関分析が可能になります。
#options(digits=3)
#cor(reg$model)
DAAGというパッケージを使います。#install.packages("DAAG")
#library(DAAG)
#vif(reg)
① 相関が高い説明変数を除く
② 相関の高い説明変数を階差や比率で変換して説明変数にする
③ 高度な方法としてリッジ回帰やLASSO、主成分分析による合成変数の作成
上記の内、③のリッジ回帰は学部レベルを超えています(本当はできると思いますが,経済数学や統計学が必修ではない日大では・・・・)。
主成分分析は、統計学2の授業で扱います。
以下、中古住宅価格関数の推計をするに当たって起こりうる多重共線性とその対応を具体的に考えていきます。
地価関数で多重共線性が疑われた駅データの説明変数について、対応していきましょう。
距離、所要時間、運賃、一ヶ月定期の関係を考えていきましょう
まず、これを散布図で可視化してみましょう。 # Base Rを用いた作図の例
#plot(x = koujitika$都心までの時間, y = koujitika$距離,
# pch = ifelse( koujitika$d_JR中央線 == 1, 19, #pchはマーカーの種類
#ifelse( koujitika$d_東武東上線 == 1, 18,ifelse( koujitika$d_西武池袋線 == 1,5,4))),
#col = ifelse( koujitika$d_JR中央線 == 1, "red",
#ifelse( koujitika$d_東武東上線 == 1, "blue",ifelse( koujitika$d_西武池袋線 == 1,"green","yellow"))),
#xlab = "都心までの時間", ylab = "距離")
#title("距離と都心までの時間")
#legend("bottomright", # 凡例作成
#legend = c("中央線", "東上線","池袋線"),
#col = c("red", "blue","green","yellow"),
#pch = c(19, 18,5,4))
#plot(x = koujitika$都心までの時間, y = koujitika$運賃,
#pch = ifelse( koujitika$d_JR中央線 == 1, 19, #pchはマーカーの種類
#ifelse( koujitika$d_東武東上線 == 1, 18,ifelse( koujitika$d_西武池袋線 == 1,5,4))),
#col = ifelse( koujitika$d_JR中央線 == 1, "red",
#ifelse( koujitika$d_東武東上線 == 1, "blue",ifelse( koujitika$d_西武池袋線 == 1,"green","yellow"))),
#xlab = "都心までの時間", ylab = "運賃")
#title("距離と都心までの時間")
#legend("bottomright", # 凡例作成
#legend = c("中央線", "東上線","池袋線"),
#col = c("red", "blue","green","yellow"),
#pch = c(19, 18,5,4))
①距離→距離/時間(=時速)
②運賃→運賃/時間(=時間あたり運賃)
③定期料金→運賃/定期(=定期割引率)
変数変換は下記のようにします。
他の2変数も変換してください。 さて,上記3変数と都心までの時間の相関表が表5- 2です。
VIFにはDAAGというパッケージを使います。
#koujitika$時速<- koujitika$距離/koujitika$都心までの時間
#koujitika$ln時速 <- log(koujitika$時速)
#koujitika$時間運賃<- koujitika$運賃/koujitika$都心までの時間
#koujitika$ln時間運賃 <- log(koujitika$時間運賃)
#koujitika$定期割引率<- koujitika$運賃/koujitika$定期
#koujitika$ln定期割引率 <- log(koujitika$定期割引率)
係数の符号は理論的には以下のように期待される。
時速は速いほど土地の需要は高まるりので正
時間あたり運賃は高いと土地の需要は減少するので負
定期割引率が高いと需要は低くなり負
#reg2 <- lm(ln当年価格 ~ d_低層+ln都心までの時間+ln時間運賃+ln定期割引率+ln時速+ln便数+ln最寄り駅までの距離 + ln地積面積+ln容積率+ln建蔽率+d_低層,data = koujitika,na.rm = TRUE)
#summary(reg2)
推定結果を見ると、定期割引率は有意に推定されていません。
時速も負に推定されてます。時速が大きいことは利便の高さをあらわすのでまだ変な結果です。
VIFについても見ておきましょう。
#library(DAAG)
#vif(reg2)
建蔽率と容積率
作業 1.下記のモデルについて、容積率と建蔽率についての変数の相関分析をし、それ?ぞれのモデルのOLS推定してください。
モデル1 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率
モデル2 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率、建蔽率
モデル3 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率/建蔽率
作業 2.上の推定結果をmsummaryで出力し、エクセルできれいにまとめて下に貼り付けてください。
作業 3.推定結果についてそれぞれのモデルの違いについて、決定係数、容積率、建蔽率、容積率/建蔽率の係数の意味と統計的有意性について説明してください。その際、容積率/建蔽率が意味するところを解説していください。(300字程度)