• OLS推定量は被説明変数と説明変数間の関係をデータとあてはまりの良い直線を導くためのメカニズムです。
  • 最小2乗推定量(RやExcelで行った最小二乗法で推定した推定量)は、確率変数\(Y_i\)\(X_1,\dots,X_k\)に依存するため、それ自身も確率変数です。
    • 公示地価の場合でいうと、母集団は日本中の土地ですが、その中で標本として抽出されたものから推定された統計値となっています。 -平成27年地価公示で全国23,060地点ですが、固定資産台帳によると全国の土地の筆数(土地の数と考えてください)は、宅地だけでも8,900万筆ですから、サンプリング次第でたくさんのOLS推定値を計算することができます。
  • OLS推定量は、一定の条件の下で「不偏性(unbiasedness)」、「一致性(consistency)」「漸近正規性(asymptotic normality)」という統計的に望ましい性質を持つ。

1 最小2乗推定量が望ましい推定量である条件

(1) パラメータについて線形

データ\((Y_i,X_{1i},\dots,X_{Ki}、 \ i=1,\dots,N)\)は以下の線形の関係を満たす。

\[ y_i=\beta_0+\beta_1X_{1i}+\dots+\beta_KX_{ki}+u_i \ \ \ (1) \] ここで、\(\beta_0, \beta_1,\dots,\beta_K\)は注目する未知のパラメータ(定数)、 \(u_i\)は観測されないランダムな 誤差または擾乱項である。

(2) 無作為抽出(IID)

データ\((Y_i,X_{1i},\dots,X_{Ki} ), \ i=1,\dots,N\)は独立同一分布に従う。

(3) 多重共線性がない

標本では(結局、母集団でも)、どの独立変数も定数ではなく、かつどの独立変数も独立変数間に正確な線形関係はない。 任意の定数\(c_0, c_1 \dots c_K\)について \[ c_0+c_1X_{1i}+c_2X_{2i}+\dots+c_KX_{Ki}\neq0 \ \ \ (2) \]

(4) 条件付き平均はゼロ(外生性)

誤差\(u_i\)は、独立変数の任意の値について、期待値は\(0\)である。 \[ 𝐸(u_i|X_{1i},\dots,X_{Ki})=0 \ \ \ (3) \] (5) 分散均一性 誤差\(u\)は説明変数がどのような値であっても同じ分散を持つ。すなわち \[ Var(u_i|X_{1i},\dots,X_{Ki} )= \sigma^2 \ \ \ (4) \]である。 ここで\(\sigma^2\)は誤差項\(u_i\)の分散を表す。

  • これらの仮定が成立する場合に良い性質がもたらされます。
  • 逆に言うと、これらの仮定が成立しない場合、OLS推定量はよい推定量ではありません。
  • 計量経済学はこれらの仮定が満たされない場合の対応方法を考えるということで発展してきました。これからの講義では、これら仮定が成立しない場合の対応を学んでいきます。

2 OLS推定量の良い性質

  • 図1は推定値の分布のイメージを示したものです。ある母集団の傾きの推定値を求めたいのですが、その母集団から標本としてあるサンプルを抽出して\(\beta\)を推定した推定値\(\hat{\beta}\)は抽出したサンプルによって変わり、推定値は分布を持ちます。
OLS推定量の分布

OLS推定量の分布

2.1 不偏性、一致性、漸近正規性

  • 推定量は最小2乗推定法から得られるものだけではありません。中央値で計算しても良いし、最も多く表れる数値(最頻値)で計算しても得られます。
  • 以下では、なぜ最小二乗推定量が広く用いられてきたのか、その理由について考えていきます。
  • 推定量が好ましいかどうかを判断する性質として主なものとして不偏性一致性有効性漸近正規性があります。

不偏性

不偏性とは推定量\(\hat{\beta}\)の期待値が真の値\(\beta\)に等しくなることです。 \[ E(\hat{\beta})=\beta \ \ \ (5) \] 一致性

一致性とは推定量\(\hat{\beta}\)の確率極限をとると(サンプルサイズを無限大に近づけると)真の値\(\beta\)に等しくなることです。 \[ plim_{n\to\infty}\hat{\beta}=\beta \ \ \ (6) \] 漸近正規性

\(N\to\infty\)のとき、\(\hat{\beta}\)は漸近正規性を持つ。 \[ \sqrt{N}(\hat{\beta}-\beta)\xrightarrow{d} N(0, V) \ \ \ (7) \] ただし、\(V\)\(\hat{\beta}\)の分散である。

2.2 BLUE(最良線形不偏推定量:Best Linear Unbiased Estimator)

  • OLS推定量のもう一つの特徴として線形推定量というものがあります。これは推定量\(\hat{\beta}\)が観測値 の線形結合で表されるというものです。
  • すなわち、OLS推定量は線形かつ不偏推定量ということになります。OLS推定量はたくさんある線形推定量のなかで最も分散の小さい(情報を最も有効に活用している)推定量であることが知られています(ガウス・マルコフの定理)。
    • ただし、Hansen(2022)の論文ではガウス・マルコフの定理に線形性が必要ないという指摘がなされています。BUEになる??
**最良線形不偏推定量**

最良線形不偏推定量

3 多重共線性の問題と対応策

回帰分析の仮定のうち、まず仮定(3)の多重共線性の問題から解説していきます。

3.1 完全な多重共線性 (perfect multicollinearity)

  • 仮定(3)がみたされないとき、すなわち以下の関係が成立するとき完全な多重共線性があるといいます。

  • このとき(1)式についての最小2乗推定量は得られません!!! \[ c_0+c_1X_{1i}+c_2X_{2i}+\dots+c_KX_{Ki}=0 \ \ \ (8) \]

  • 簡単化のために、\(K=2\)の説明変数が2つのケースを考えます。 \[ y_i=\beta_0+\beta_1X_{1i}+\beta_2X_{2i}+u_i \ \ \ \ (9) \] このとき、\(X_{1i}=aX_{2i}\)の関係があるとすると\((c_0=0,c_1=1,c_2=-aのケース)\)、(9)式は以下の式になります。 \[ y_i=\beta_0+(\beta_1+a\beta_2)X_{1i}+u_i \ \ \ \ (10) \] となります。

    -(10)式は単回帰ですので\(X_{1i}\)の情報しか持っていません。(9)式に最小2乗推定を適用して\(\beta_1\)\(\beta_2\)の推定量を得るためには情報が足りません(未知の変数が2個ある)。これは、未知の数が2個の時に1本の式で方程式を解くのと同じです。

    • 完全な多重共線性が発生した時、ExcelやRは勝手に変数を1つモデルから除外して推定します。

3.2 多重共線性 (multicollinearity)の問題

  • 完全な多重共線性がなければ、OLS推定量を計算することは可能です。

  • ただし、説明変数間の相関が極めて高い場合は、回帰分析の結果は不安定になります(理由は計量経済学で、FWLを考えてみよう)。

  • 主な症状として、

    1 係数推定値の符号が常識的な予想と異なる

    2 t値が小さい

    3 \(R^2\)は大きいが、t値が小さいものがある

    4 データセットを少し変えただけで推定結果が大きく変化する

3.3 多重共線性の判断

多重共線性の原因は説明変数間の線形関係ですので、説明変数間の相関関係を調べれば多重共線性の存在が確認できます。

①相関行列をチェックする

  • 多重共線性の調べる最も簡単な方法はすべての説明変数間の相関係数(相関行列)を確認することです。
  • Rでのコマンドはcor(変数名1,変数名2,・・・・・,変数名k)です。
  • 相関係数が、おおよそ0.95以上の説明変数間では多重共線性が生じるといわれています。
  • ただし、相関行列でチェックできるのはあくまで2つの説明変数間の相関です。実際には(8)式のように多重共線性は3つ以上の関係によっても生じます。

②VIF(Variance Inflation Factor,分散拡大要因)

  • VIFは、モデルにおける多重共線性の可能性を一気に検証する方法です。たとえば、説明変数\(X_1\)のVIFは以下の式で求められます。

\[ VIF=\frac{1}{1-R(X_1,\bf{X}_k)^2} \ \ \ \ (10) \]

  • ここで\(R(X_1,\bf{X}_k)^2\)は、説明変数\(X_1\)を他の説明変数\(X_2,\dots X_K\)に回帰させたときの決定係数です。決定係数は観測値\(X_1\)と理論値\(\hat{X_1}\)の相関係数の2乗ですので、\(X_1\)と他の説明変数の相関が高ければ大きくなります。

  • VIFが大きいほど、多重共線性の影響があることを意味します。おおむねVIFが10以上でであれば、多重共線性の存在が疑われます。

3.4 地価関数を用いた多重共線性の判定

  • 以下では実際の地価関数を用いて多重共線性の存在を検証してみましょう。
#reg <-  lm(ln当年価格 ~ d_低層+ln都心までの時間+ln運賃+ln定期+ln距離+ln便数+ln最寄り駅までの距離 + ln地積面積+ln容積率+ln建蔽率+d_低層,data = koujitika,na.rm = TRUE)
#summary(reg)
  • 上記の推定モデルは、あえて多重共線性を無視して地価に関係しそうな説明変数を入れて推定した結果です。
  • この結果をみて予想と反しているところは何でしょうか。都心までの時間の係数が正になっています。これは都心からの時間が長く、遠いほど地価が高いことを意味します。
  • 利便性が低い地域の方が地価は高い。
  • 定期料金も正になっています。料金が高い方が良いんでしょうか

相関行列を見てみましょう。

3.4.1 相関分析

  • cor (var1,var2) #val1,val2の相関係数を出すコマンドです。

  • cor(モデル名$model)でOLS推定に使ったデータセット全体の相関分析が可能になります。

#options(digits=3)
#cor(reg$model)
  • 表5- 1の相関表を見ると、定期、運賃、時間、距離の4つの変数の間で相関係数が0.95を超えています。
  • 距離が長いと時間がかかり、運賃は上がり、定期料金も上がるので、多重共線性が発生している可能性があります。

3.4.2 VIF

  • では実際にVIFを求めてみましょう。
  • VIFにはDAAGというパッケージを使います。
#install.packages("DAAG")  
#library(DAAG)
#vif(reg)
  • 予想通り、都心までの距離、運賃、定期のVIFが極めて高く多重共線性が疑われます。
  • 容積率、建蔽率も高いですね。

3.5 多重共線性への対応

  • 多重共線性への完全な解決策はありませんが,下記のような方法があります。

① 相関が高い説明変数を除く

② 相関の高い説明変数を階差や比率で変換して説明変数にする

③ 高度な方法としてリッジ回帰やLASSO、主成分分析による合成変数の作成

  • 上記の内、③のリッジ回帰は学部レベルを超えています(本当はできると思いますが,経済数学や統計学が必修ではない日大では・・・・)。

  • 主成分分析は、統計学2の授業で扱います。

以下、中古住宅価格関数の推計をするに当たって起こりうる多重共線性とその対応を具体的に考えていきます。

3.5.1 地価関数での多重共線性への対応

  • 地価関数で多重共線性が疑われた駅データの説明変数について、対応していきましょう。

  • 距離、所要時間、運賃、一ヶ月定期の関係を考えていきましょう

    • 時間を基準にすると、運賃は\(時間\times単価(円/時間)\)として時間的要因と価格要因を分けることができます。
    • 現状では\(時間\times単価\)\(時間\)が両方説明変数に入っていますから、単価が各鉄道会社であまり違わないのであれば多重共線性が生じてしまいます。
    • 同様に、距離も、時速がそれほど変化がなければ(分散が少ない)、\(時間\times 時速\)\(時間\)の相関が強く多重共線性を生んでしまいます。
    • 定期料金と運賃も同様です。
  • まず、これを散布図で可視化してみましょう。 # Base Rを用いた作図の例

#plot(x = koujitika$都心までの時間, y = koujitika$距離, 
    # pch = ifelse( koujitika$d_JR中央線 == 1, 19,           #pchはマーカーの種類
       #ifelse( koujitika$d_東武東上線 == 1, 18,ifelse( koujitika$d_西武池袋線 == 1,5,4))), 
     #col = ifelse( koujitika$d_JR中央線 == 1, "red", 
       #ifelse( koujitika$d_東武東上線 == 1, "blue",ifelse( koujitika$d_西武池袋線 == 1,"green","yellow"))),
     #xlab = "都心までの時間", ylab = "距離")
     #title("距離と都心までの時間")
#legend("bottomright",                          # 凡例作成
       #legend = c("中央線", "東上線","池袋線"), 
       #col    = c("red", "blue","green","yellow"),
       #pch    = c(19, 18,5,4))

#plot(x = koujitika$都心までの時間, y = koujitika$運賃, 
     #pch = ifelse( koujitika$d_JR中央線 == 1, 19,           #pchはマーカーの種類
       #ifelse( koujitika$d_東武東上線 == 1, 18,ifelse( koujitika$d_西武池袋線 == 1,5,4))), 
     #col = ifelse( koujitika$d_JR中央線 == 1, "red", 
       #ifelse( koujitika$d_東武東上線 == 1, "blue",ifelse( koujitika$d_西武池袋線 == 1,"green","yellow"))),
     #xlab = "都心までの時間", ylab = "運賃")
     #title("距離と都心までの時間")
#legend("bottomright",                          # 凡例作成
       #legend = c("中央線", "東上線","池袋線"), 
       #col    = c("red", "blue","green","yellow"),
       #pch    = c(19, 18,5,4))
  • 散布図より、距離と時間は路線別にほぼ一次関数。運賃も段階的な関係になっている。

3.5.2 変数変換

①距離→距離/時間(=時速)

②運賃→運賃/時間(=時間あたり運賃)

③定期料金→運賃/定期(=定期割引率)

  • 変数変換は下記のようにします。

  • 他の2変数も変換してください。 さて,上記3変数と都心までの時間の相関表が表5- 2です。

  • VIFにはDAAGというパッケージを使います。

#koujitika$時速<- koujitika$距離/koujitika$都心までの時間
#koujitika$ln時速 <- log(koujitika$時速)

#koujitika$時間運賃<- koujitika$運賃/koujitika$都心までの時間
#koujitika$ln時間運賃 <- log(koujitika$時間運賃)

#koujitika$定期割引率<- koujitika$運賃/koujitika$定期
#koujitika$ln定期割引率 <- log(koujitika$定期割引率)
  • それではこの変換を利用して回帰分析をしてみましょう。
    • 係数の符号は理論的には以下のように期待される。

    • 時速は速いほど土地の需要は高まるりので正

    • 時間あたり運賃は高いと土地の需要は減少するので負

    • 定期割引率が高いと需要は低くなり負

  • ただし,後で説明する内生性の問題があり、需要が高い地域の路線の運賃を高くしている可能性もあるので、期待された符号にならない可能性もあります。
#reg2 <-  lm(ln当年価格 ~ d_低層+ln都心までの時間+ln時間運賃+ln定期割引率+ln時速+ln便数+ln最寄り駅までの距離 + ln地積面積+ln容積率+ln建蔽率+d_低層,data = koujitika,na.rm = TRUE)
#summary(reg2)
  • 推定結果を見ると、定期割引率は有意に推定されていません。

  • 時速も負に推定されてます。時速が大きいことは利便の高さをあらわすのでまだ変な結果です。

  • VIFについても見ておきましょう。

#library(DAAG)
#vif(reg2)
  • VIFの結果を見ると、都心までの時間、時間運賃、定期割引率は10を超えているため、多重共線性がまだ残っています。多重共線性は(8)式に示したように、1対1の関係だけでないので注意が必要です。

3.5.3 建蔽率と容積率の多重共線性 

  • 先ほどの推定では、建蔽率と容積率にも多重共線性が疑われました。    - 建蔽率とは敷地面積に建てて良い建築面積を示しています。 敷地面積に対する建築面積の比率です。 \[ 建蔽率(%)=建築面積/敷地面積 \]    - 容積率とは、容積率は敷地面積に建てて良い建物の延べ床面積を示しています。敷地面積に対する延床面積の比率です。 \[  容積率(%)=建物の延べ床面積/敷地面積 \]
**建蔽率と容積率**

建蔽率と容積率

  • さきほどの推定結果を見ると容積率が高くなると地価が上がり、建坪率が高くなると地価が下がることになります。これは変ですね。建坪率が高い地域は容積率も高くなっています。

作業 1.下記のモデルについて、容積率と建蔽率についての変数の相関分析をし、それ?ぞれのモデルのOLS推定してください。

モデル1 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率

モデル2 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率、建蔽率

モデル3 被説明変数:log公示地価(当年価格(円)) 説明変数:log(都心までの時間)、log(最寄り駅までの距離)、log(地積面積)、log(前面道路の幅員)、容積率/建蔽率

作業 2.上の推定結果をmsummaryで出力し、エクセルできれいにまとめて下に貼り付けてください。

作業 3.推定結果についてそれぞれのモデルの違いについて、決定係数、容積率、建蔽率、容積率/建蔽率の係数の意味と統計的有意性について説明してください。その際、容積率/建蔽率が意味するところを解説していください。(300字程度)