地価関数を推定した出力の例が下記の図です。以下では,この例を元に推定結果の読み方を学びます。
推定結果の出力例
modelsummaryの結果
excelで出力するには下記のコマンドを使いましょう。
# 推定結果をエクセルで出力
# write.xlsx(regs,"reg1結果.xlsx",rowNames = TRUE)
出力されたexcelは下記のようになります。このままでは、よくわからないのできれいにまとめなおす必要があります。
エクセルへの出力例
エクセルでのまとめ方
決定係数
\[R^2=\frac{\sum(\hat{Y_i}-\bar{Y})^2}{\sum({Y_i}-\bar{Y})^2}=\frac{\hat{Y_i}で説明された回帰変動}{Yの全変動} ,\hat{Y_i}は理論値\]
\[R^2=1-\frac{\sum\hat{u_i}^2}{\sum({Y_i}-\bar{Y})^2}=1-\frac{残差の全変動}{Yの全変動}\]
ここで,決定係数は説明変数の数を増やすと増加してしまい,説明力のない説明変数を入れて増加させることができてしまいます。そこで,自由度修正済み決定係数(\(\bar{R}^2\))で説明力を示すことになります。通常,推定結果には自由度修正済み決定係数(\(\bar{R}^2\))のみを記載します。
\[\bar{R}^2=1-\frac{\sum\hat{u_i}^2/(n-k)}{\sum({Y_i}-\bar{Y})^2/(n-1)}\]
\(\bar{R}^2\)
は残差変動が小さくなると大きくなりますので,1に近い方が説明力はあることになります。ただし,どのくらいかという基準はありません。時系列データでは0.8以上ならある程度当てはまりがあるといえますが,クロスセクションでは0.3以上でも十分な場合もあります。上記の地価関数の推定結果では0.291ですから当てはまりはよくありません。今後説明変数を増やしていき,0.8ぐらいまで上げましょう。
下記の地価関数の推定では,両辺実数値による変数を採用していますので,推定された係数は限界効果を表しています。例えば,都心までの時間の係数が-44855.679となっています。これは都心までの時間が1分増加すると,地価が約44,856円低下することを表しています。
ここで,係数の符号条件(正か負か)をチェックし,経済理論や予測と整合的かどうかを確認します。整合的でない場合は,なぜそうなったのか更なる検証が必要で,十分な説明ができない場合は説明変数として適切でない可能性があります。いくつかの検証の方法について,この後の授業で紹介していきます。
modelsummaryの結果
表「modelsummaryの結果」では説明変数が定数項を除くと3個あります。この推定結果は、符号条件も有意性も問題なさそうですが、変数を増やしていくと符号条件があっていたとしても,説明変数として適していない場合もありますし,そのまま使うのが不適切な場合もあります。この説明変数が適切かどうかを検定するためのt値,取捨選択の分析手法であるt検定,その判断基準となるp値について説明します。
検定とは
この後,検定という言葉が出てきます。検定とはある仮説(ここでは地価関数の仮説)を実際のデータ(ここでは公示地価)によって統計的に意味があるかを推論する作業を言います。例えば,地価関数においては本当に人々が都心への時間をもとに土地への支払い意志を示しているかを確かめることです。
仮説検定とは
例えば,地積面積が地価関数の説明変数として適切かどうかを考えましょう。まず,この推定値は公示地価のデータを用いていますが,これは大きな母集団(土地市場に出ている全ての土地)の一部をサンプリング(抽出)したもので,抽出の仕方によっては推定値が変わってきます。そのような変数を確率変数と言います。
ここでは,地価関数で地積を説明変数として用いて良いのかを検討します。ここでは,以下のように,考えて行きます。まず,帰無仮説を
\(\beta=0\)
とします。これは公示地価の変動を地積が説明していないといことになります。それに対して,対立仮説は
\(\beta\neq0\)
ととなります。ここでは,地積を説明変数に入れたいので,この帰無仮説を棄却したいと言うことになります。(ある仮説(ここでは,公示地価が地積で説明できる)を証明したい場合の仮説を対立仮説,この対立仮説を否定する仮説を対立仮説といいます。)
\[帰無仮説 H_0 : \beta=0\]
\[対立仮説 H_1 : \beta\neq0\]
上記のように,地積面積の係数βは確率変数で、\(\hat\beta=1368.498\)と推定されて,\(\beta\)の標準誤差は\(S_\beta=117.894\)でモデル全体で自由度521となっています(\(\beta\)の標準誤差の意味,計算方法等は計量経済学の教科書かecodata1_04を参照)。ここで,t値は自由度521のt分布をとります。
\[t値:
t=\frac {(推定値)} {(標準誤差)} = \frac {\hat\beta} {S_\beta} =11.61
\]
※回帰係数の推定値,回帰係数の標準誤差
下記の図は帰無仮説\(H_0(\beta=0)\)が正しいときのt分布が描かれています。帰無仮説\(H_0(\beta=0)\)が正しいときはt値が0になります。実際に計算されたt値が0近辺の値となる領域(1-α)(t分布図の真ん中部分)に含まれなければ,帰無仮説H0が棄却されることになります。このαは有意水準と呼ばれ,通常5%(0.05)や1%(0.01)が使われます。 \(t_\frac{\alpha}{2}\)は有意水準αのときt分布図の両側にある領域αの確率をあたえるt値の臨界点\((t_\frac{\alpha}{2})\)であり,t値が絶対値で 以上の値をとるとき,帰無仮説\(H_0(\beta=0)\)が棄却されます。なお,有意水準αのときのt値の臨界点 は計量経済学や統計学などのテキストに表としてまとめてありますが,Excelでは=+T.INV.2T (有意水準,自由度)という関数で求められます。また,=+T.DIST.2T (値,自由度)で確率(p値)を求めることができます。
t分布と棄却域
ここで,推定では自由度521ですから有意水準1%であれば棄却域は2.58(=+T.INV.2T(0.01,521)),有意水準5%であれば1.964,有意水準10%であれば1.647となります(ここで,図でも分かるように,左側でも棄却できますからここで記した棄却域は絶対値となっています)。
今回の地価関数の推定結果では、地積のt値は11.61ですから有意水準1%でも帰無仮説H0(β=0)棄却されますので,公示地価が地積で説明できると考えられることになります。(もし,帰無仮説H0(β=0)が成立していたら,今回のサンプルはきわめて希(1%以下の確率)だということになります。)
そして,逆に,有意水準の値を示したものがp値です。地積のp値は<2e-16
と記してありますが,これは2×10の-16乗のことで,ほとんど0%と見て(棄却される=有意)良いと思います。
一般的には,推計結果の出力表には係数,t値,標準誤差,(p値),有意水準を「*」の数で表したものが記載されます。ただし,t値,標準誤差,p値はそのうち一つが分かれば係数で他の2つは計算できますので,記載しないこともあります。
Eを含む表記
一般的には,符号条件がおかしい説明変数や,説明力のない説明変数は落とし再推定していきます。説明力で見ていく場合,有意水準10%で有意ではない変数は落としていきます。その場合,説明変数欄から削除することもありますが,試したが有意ではないということを明らかにするために空欄で残すこともあります。
ただし、近年では目的変数(推定上、最も関心のある変数)以外の変数(コントロール変数)については、有意性はなくても、コントロール変数として推定式に含まれていることのほうが重要であることが多いため、有意かどうかは関係なく、そのまま推定結果表にまとめることが一般的になっています。
下記の表では、目的変数が木密地域ダミーで、それ以外はコントロール変数となります。ここで、model1では主要なコントロール変数のみを推定式に含めており、model2、model3ではコントロール変数を追加してます。ここで、単純にコントロール変数を増やしていくのではなく、それぞれのモデルで追加する変数を変えているのは、コントロール変数間の多重共線性(今後教えます)を考慮するためです。そして最後に、model4ですべてのコントロール変数を追加しています。注目すべきところは、木密地域ダミーの係数がどのモデルでもほぼ同じであることです。この結果は、コントロール変数に関係なく、頑健な結果であることを示しています。
表1 推定結果
出所)安田昌平・宅間文夫(2017)「京町家を考慮した木造住宅密集地域の外部費用の推定」,
季刊 住宅土地経済, 第103号, pp.26-35.の推定結果の一部を抜粋
さらに、近年ではコントロール変数をすべて表記するのが望ましいのかどうか議論になることがあります。コントロール変数は、その係数や有意性についてはそれほど重要でないため、見せないほうがスッキリしていいという考え方です。ただし、この場合でも、何をコントロール変数として採用しているのかはちゃんと記述する必要があります。
下の表では、目的変数だけの結果をまとめており、コントロール変数の結果については省略しています。ただし、コントロール変数を推定式に含めていることが分かるように、コントロール変数という行を作成し、Yesと表記しています。
では、どちらのほうが望ましいまとめ方なのかということですが、これについては正直好みになると思います。研究者の中には、推定結果表は補論として、本文には図だけしか載せないという人もいます。ただし、この授業では何を変数に採用しているか分かるように、コントロール変数をすべて表示するようにしましょう。
表2 推定結果
出所)安田昌平(2023)「水害リスクと認知バイアス-地価パネルデータによる実証分析-」,『資産評価政策学』,資産評価政策学会,第24巻1号通巻47号,pp.21-26.の推定結果の一部を抜粋
課題 [学籍番号]rep2_05を提出して下さい。