時間を通じて変化せず,一階差分法や平均差分法によって消去される個別効果は,固定効果(fixed effect)とも呼ばれる.
固定効果を含む多重回帰モデルは,固定効果モデル(fixed effect model)と呼ばれる.
説明変数と相関していない個別効果は,(説明変数と相関していてもよい)固定効果と区別して,変量効果(random effect)と呼ばれる.
変量効果を含む多重回帰モデルは,変量効果モデル(random effect model)と呼ばれる.
変量効果モデルは,加重最小2乗法の特殊ケースである一般化最小2乗法(generalized least squares:GLS)を用いて,より効率的に推定することができる.
変量効果モデルの利点として,性別や出身地といった時間を通じて変化しない変数も回帰モデルの説明変数として使えることが挙げられる.
先の応用例で推定した多重回帰モデルを変量効果モデルとして推定する.
パネル・データ分析用パッケージplm
を用いる.
関数plm
のオプションでmodel = "random"
と指定することで,変量効果モデルを推定できる.
#データの読み込み
life <- read.table("life_xt.csv", header = TRUE, sep = ",")
#パネル・データ分析用パッケージインストール
#install.packages("plm") # 1度インストールしたら2回目以降は必要ない
#パネル・データ分析用パッケージ読み込む
library(plm)
#変量効果モデル(random)を用いた回帰
preg1 <- plm(life ~ shock + y2 + shock_y2 + income, data = life, effect ="individual",
model = "random", index = c("id", "t"))
summary(preg1)
## Oneway (individual) effect Random Effect Model
## (Swamy-Arora's transformation)
##
## Call:
## plm(formula = life ~ shock + y2 + shock_y2 + income, data = life,
## effect = "individual", model = "random", index = c("id",
## "t"))
##
## Balanced Panel: n = 3020, T = 2, N = 6040
##
## Effects:
## var std.dev share
## idiosyncratic 0.85660 0.92553 0.958
## individual 0.03723 0.19294 0.042
## theta: 0.04082
##
## Residuals:
## Min. 1st Qu. Median 3rd Qu. Max.
## -2.89772 -0.57890 0.29064 0.47237 1.55096
##
## Coefficients:
## Estimate Std. Error z-value Pr(>|z|)
## (Intercept) 2.4544e+00 2.6336e-02 93.1956 < 2.2e-16 ***
## shock 1.5308e-02 3.4995e-02 0.4374 0.661800
## y2 2.1300e-01 3.1025e-02 6.8652 6.639e-12 ***
## shock_y2 -1.3978e-01 4.8437e-02 -2.8857 0.003905 **
## income 3.0332e-04 5.2024e-05 5.8304 5.528e-09 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Total Sum of Squares: 5250.9
## Residual Sum of Squares: 5169
## R-Squared: 0.015598
## Adj. R-Squared: 0.014946
## Chisq: 95.628 on 4 DF, p-value: < 2.22e-16
変量効果モデルの場合,時間を通じて変化しない変数の係数も推定できるので,shock
の係数の推定値も与えられている.
shock
とy2
の交差項shock_y2
の係数の推定値は有意に負となっており,固定効果モデルとして推定した値とも近い結果が得られている.
固定効果モデルと変量効果モデルのどちらが正しいモデルなのかを検定する方法として,ハウスマン検定(Hausman test)と呼ばれるものがある.
個別効果が変量効果なのか,それとも固定効果なのかは,個別効果が説明変数と相関しているかによって決まる.
もし個別効果がどの説明変数とも相関していないのであれば,変量効果モデルとして推定しても,固定効果モデルとして推定しても,どちらも一致性(サンプル・サイズが大きくなるにつれて推定値が真の値に近づいていき,極限で推定値が真の値に一致する性質)を持っているという意味で正しい推定方法となっている.
しかし,変量効果モデルとして推定したほうが固定効果モデルとして推定したときよりも効率性の高い(推定量の標準誤差が小さい)推定方法になっている.
逆に,もし個別効果が説明変数のいずれかと相関しているのであれば,変量効果モデルとして扱うと一致性がないという意味で正しく推定することができないため,固定効果モデルとして扱うべきである.
もし固定効果モデルが正しいときに変量効果モデルとして推定すると,推定値は真の値から大きく異なるため,固定効果モデルと変量効果モデルの推定値は大きく異なる.
そこで,もしこの2つの推定値の「距離」が大きければ,変量効果モデルは正しくないと推測し,固定効果モデルのほうがより信頼できるモデルと判断することができる.
大雑把に言うと,ハウスマン検定統計量は,「2つの推定量の距離の2乗を,2つの推定量の分散の差で割ったもの」である.
この統計量は,「個別効果は変量効果(個別効果がどの説明変数とも相関していない)」という帰無仮説が正しいという仮定のもとで,説明変数の数を自由度とするカイ2乗分布に従う.
したがって,もしこの統計量がカイ2乗分布の(たとえば)上側5%の閾値よりも大きくなるのであれば,「個別効果は変量効果」という帰無仮説を棄却して,対立仮説の「個別効果は固定効果(個別効果が説明変数のいずれかと相関している)」を採用する.
この検定は,推定量の効率性と一致性をうまく使ってどちらのモデルのほうが正しいのかを判別する検定方法なので,変量効果モデルと固定効果モデルの選択以外にも使うことができる.
R
では,パネル・データ分析用パッケージplm
の関数phtest
を用いてハウスマン検定を行うことができる.
phtest
のインプットには,固定効果モデルと変量効果モデルの推定結果を指定する.
#データの読み込み
life <- read.table("life_xt.csv", header = TRUE, sep = ",")
#パネル・データ分析用パッケージインストール
#install.packages("plm") # 1度インストールしたら2回目以降は必要ない
#パネル・データ分析用パッケージ読み込む
library(plm)
#固定効果モデル(within)を用いた回帰
fe <- plm(life ~ shock + y2 + shock_y2 + income, data = life, effect ="individual",
model = "within", index = c("id", "t"))
#変量効果モデル(random)を用いた回帰
re <- plm(life ~ shock + y2 + shock_y2 + income, data = life, effect ="individual",
model = "random", index = c("id", "t"))
#ハウスマン検定
phtest(fe, re)
##
## Hausman Test
##
## data: life ~ shock + y2 + shock_y2 + income
## chisq = 0.27439, df = 3, p-value = 0.9648
## alternative hypothesis: one model is inconsistent
\(p\)値は0.96なので帰無仮説は棄却されない.
この結果は,固定効果モデルと変量効果モデルの推定結果が近いことからも妥当である.
したがって,変量効果モデルとしてGLSを用いて推定して問題ないということになる.
クロスセクション・データよりも豊富な情報量を持つパネル・データを使うことで,より精度の高い推定ができるようになる.
その結果,パネル・データを使った政策効果の評価はクロスセクション・データを使ったものよりも,より説得力があると言える.
個別効果のある重回帰モデルを,パネル・データを使って推定する方法には,固定効果モデルのほかに,変量効果モデルもある.
ハウスマン検定を行えば,固定効果モデルと変量効果モデルのどちらの結果がより正しいものか判断できる.