経済データ分析Ⅱでは,重回帰分析の応用例として,様々な場所の地価がどのように決まるかという地価関数と,同じようにマンションの価格がどのように決まっているかというマンション価格関数を推計していきます.まず,地価関数の推計からやっていきます.
地価や住宅価格を授業で用いるのはこれらのデータは公開されており,簡単に入手できるからです.その他の商品,例えば中古車など関するデータも公開されていますが,ネットから特殊な技術(スクレイピング)で入手する必要がありますが,興味のある人はやってみてください.企業がどのようにdata分析を利用しているかは下記などを参考にしてください.
老舗ベンチャー”ゑびや大食堂が「的中率9割」のAI事業予測をサービス化!
https://japan.cnet.com/extra/ms_ebiya_201710/35112861/
AIで食品ロスを少なくして,収益を上げたスシロー.
https://bousai.press/sushiro/
では,以下で推定する地価関数に関して,土地の価格を決める要因を簡単に考えましょう.
いま住宅の総戸数を一定とすると,供給曲線は同一の垂直線で描くことができます.このように垂直の供給曲線は変化しないと考えます.さて,では図のA駅から徒歩5分の住宅HAと,A駅から3分かかるB駅から徒歩5分でHAと同じ環境で同じ質のHB,各々の住宅価格はどう決定するでしょうか.
図にあるように,住宅市場におけるHBの需要曲線はHAより下方にあるはずです.逆に,都心に近い駅の徒歩圏にある住宅市場では,住宅価格は一駅分の通勤時間を節約できるという意味で,需要曲線は上方に位置しており,住宅価格は高くなっています.したがって,都心から離れるにつれて住宅価格は徐々に低下すると考えられます.新宿や梅田(大阪の中心)を中心として,そこから郊外の住宅価格を調べてみると,次第に低下していくことがわかるでしょう.郊外の方が時間費用の上昇を反映して,地価や住宅価格は低下していきます.
何故こうなるか簡単に考えていきます.ここで重要なのは,都心に近いところよりも遠いところの方が通勤時間がかかるという点です.いま,下図の様にとなり合う駅で駅からの徒歩時間がほぼ同じ住宅市場を考えています.このときに周辺の環境も全く変わらないものと考えてみます.変わるのは,電車に乗っている時間だけです.駅からの徒歩時間が変わらないとすると,電車に乗っている時間が一駅だけ余分にかかります.
この,通勤にかかる時間の費用だけ,最大支払い意思額は低下します.個人間の時間費用に差がないとすれば,一駅都心から離れることによって,その住宅の需要曲線は人々の時間費用を反映して下方に変化します.そのとき,一日往復で3分×2の時間を1年間の通勤日数にかけて,そしてそれに1分当たりの機会費用を乗じると,年間の損失額が計算できます.これを20年間働くとして20年にわたって合計すれば,最大支払い意思額の減少分を計算できるのでしょう.時間費用の将来にわたる割引現在価値を反映して,一駅遠くに存在する住宅の最大支払い意思額は一様に下方にあることになります.
土地の需要は住宅の派生需要ですから当然同じように右下がりになるはずです.この理論では住宅の質は同じとしていますが,この理論では住宅の質を加味することもできます.
図2-1 通勤時間と住宅価格
公表されている土地の価格(地価)には地価公示価格(公示地価),路線価格,取引価格など様々なものがあります.経済データ分析Ⅱでは公示地価を用いて地価関数を推計してみましょう.まず,公示地価がどのようなものであるか,令和7年地価公示価格:公示価格個別地点データ(東京都分)(太字をググって下さい)を検索してみましょう.令和5年から各項目の説明シートが添付されてないので.項目説明をupしておきます.
作業 1 地価公示価格とは何かをrep2_02_(学籍番号).docに400字程度で簡単にまとめましょう(5点)
作業 2 東京都のホームページから「11 公示価格個別地点データ(東京都分抜粋)」のexcelファイルをダウンロードして,ファイル名をdata2_02_(学籍番号)に変え,セーブして下さい(5点)
全てのデータで分析するのは大変です.後述するように地価やマンション価格は都心からの時間距離に依存します.そこで,下記の鉄道路線を分析対象とします.
公示地価のデータには駅名(AE列;主要交通施設)は入っていますが,路線名は入っていません.そこで,路線と駅のデータ(satationdata.xlsx)を用いて路線を該当させましょう.まずシート名”分析用”と作ってそのシートにすべてのデータをコピーし,AEの右に1列挿入しましょう.その列のラベル(2行目;AF2)に”路線”としてください.そして,+VLOOKUP関数(下記参照)を用いて路線名を入れてください.駅データに無い駅名だと”#N/A”と表示されますが,無視してください.
次に,この”路線”でソートをかけて路線別に並べます.方法はA2:AV2604までをアクティブ化してホーム→並び替えとフィルター→ユーザー設定の並び替えで最優先されるキーから”路線”を選んでOKをクリック.この方法は有用なので覚えましょう.
シート名”分析用_抽出”と作ってそのデータだけ抽出してみてください.
次に,路線名(AF列)の隣に列を挿入して山手線からの平均時間を入れてみましょう(vlookup関数を使おう).
作業 3.ファイル”公示地価項目説明”から地価に対して説明力がありそうな項目を検討してください.理由等をrep2_02_(学籍番号).docの(1)に500字程度で簡単にまとめましょう(5点).
作業 4.分析用線シートを作成し,公示地価データのj列(当年価格)とAG列(山手線からの所要時間)で散布図を作って下さい.何となく関係が分かりそうですよね.Excelファイル内に分かるように作って下さい(10点).
Vlookup関数は2つのデータの関連からデータを選び出す優れものの関数です.2つのデータですから,違うシートにデータがある場合は,1画面に2つのシートを出すと操作が容易になります.
まず二つのファイル((学籍番号)data2_01とsatationdata)を立ち上げ ツールバーから「表示 → 整列 → 左右に並べて表示」としてください.すると,二つのシートが同時に表示されます.同じファイルの二つのシート(例えば,“説明書”と”分析用”)を見たいときは「表示 → 新しいウィンドウを開く → 整列 → 左右に並べて表示」とすると,同一画面に二つのシートを見ることができます.
セルAF3に路線名を入れたいときには下記の式を入れます.
+VLOOKUP(AE3,[stationdata.xlsx]駅・路線!$B$2:$c$162,2,0)
一般的にはvlookup(検索値,範囲,列番号,検索の型)と記してあります.
ここで検索値とは,駅名のことになります。AE3に阿佐ヶ谷と入っていたら,次の範囲[stationdata.xlsx]駅・路線!$B$2:$c$162から”阿佐ヶ谷”を探し,“阿佐ヶ谷”から2列後の値(路線名)を持ってくるということです.検索の型は0にするとだけ覚えてください. |
コロナ禍で罹患者の予測をAIを使ってとか書いてありますが,実際は計量経済を用いて推定した予測式を用いています.最初に描いたゑびや大食堂の事業予測も同じです.では,簡単に計量経済学で学ぶ重回帰分析を復習しましょう.下記は簡単化のために単回帰を説明していますが,説明変数が2つ以上の場合を重回帰と言います.
回帰分析とは,2変数X,Yのデータがあるとき,YをXで定量的に説明する回帰式(あるいは,回帰方程式)とよばれる式を求めることを目的とします.図2- 2は,今回の課題となっている公示地価と都心からの時間距離の散布図です.散布図ですから地価と都心からの時間距離のデータが平面上に点となって散らばっています.簡単にいうと,回帰方程式は,その散らばっている無数の点を最もよく表現できる直線のことです.
図2-2 散布図と回帰方程式
地価関数で,地価がどのような要因で決定するかに関して,「都心から遠くなると地価は低下する」という仮説をたてて,次式のように線形関数に特定化しました.地価Pのように「説明される変数」は被説明変数(あるいは従属変数や内生変数)とよばれ,都心からの時間距離のように「説明する変数」は説明変数(あるいは独立変数や外生変数)といいます.また,aは切片,bは傾きといい,時間距離が1単位の増加に対する地価Pの増分を示しています.
| \[ 回帰式: P_i=a+b×時間距離_i ,0>b (1) \] |
しかし,(1)式の地価関数には,定量的に把握することができないデータの影響が考慮されていません.そこで,i番目の観測データ(Pi,時間距離i)では把握できないバラツキであるεiを考慮したモデルが,(2)式の確率モデルです.この方程式は母回帰式(あるいは,母回帰方程式)とよばれます.なお,aやbは母回帰係数とよばれます.
| \[ 回帰式: P_i=a+b×時間距離_i+\epsilon_i ,0>b (2) \] |
このような考え方から実証分析を行うのですが,追って,どのように検討し,どのような問題があるかを説明します.経済データ分析Ⅱでは実際の実証分析で起きる主な問題をとのように修正していくかを扱っていきます.理論的に学びたい人は計量経済学を履修してください. さて,図2- 2の単回帰の結果(Excelの散布図で近似式が出てきます)からは以下が分かります.
| \[ P_i=75.788-1.1869×時間距離_i ,R^2=0.4366 (3) \] |
この推定式では最寄り駅が都心からの時間が1分遠くなると約1.19万円安くなることしか分かりませんのでこれでは実務に使えませんね.
回帰分析の説明変数としては,量的な変数だけではなく,定性的な要因で変動する質変数も使うことが出来ます.地価関数では路線や用途地域が質的なデータになります.このような質的要因を数値化する必要があり,質的要因を数値に変換した変数をダミー変数と言います.
ここでは,路線ダミーに関して説明します.2.3で既に各地点に路線名が入っているとおもいますが,中央線を基準にして,東武東上線,西武池袋線の路線ダミーを作ります.東武東上線ダミーとしてd.toubuを作成し東武東上線の場合は1,それ以外が0をとるダミー変数を作ってください.次に,西武池袋線ダミーとしてd.seibを作成してください.
| if文を使ったダミー変数の作り方 |
|---|
excelではif関数を使うと簡単にダミー変数を作ることができます。新しい行3列目に以下の関数を入れてみてください。 +IF($af5=“東武東上線”,1,0) ここで,「東武東上線」以外は半角で入力してください。この関数はセルc5が「東武東上線」であれば1を,それ以外であれば0を返す関数です。これをドラッグして全データにコピーして作成できます。変数名はd.toubuとします。同様に,西武池袋線ダミーを作成してください。 | |
1.定数項ダミー
定数項ダミーは,地価関数の切片が路線によって違うかどうかを検討するダミーです.
定数項ダミーを用いると(1)式は下式(4)となります.
| \[ P_i=\alpha+\alpha_1×d.toubu_i+\alpha_2×d.seib_i+\beta×時間距離_i+u_i (4)\] | |
以下,uは省略する。 これは、各路線ごとに式を書き直すとを下記のようになり,切片の差\(α_1\)が中央線と東武東上線の平均的な差、切片の差\(α_2\)が中央線と西武池袋線の平均的な差となります.
| 中央線: | \[ P_i=\alpha+\beta×時間距離_i (d.toubu=0かつd.seib=0より) \] |
| 東武東上線: | \[P_i=(\alpha+\alpha_1)+\beta×時間距離_i (d.toubu=1かつd.seib=0) \] |
| 西武池袋線: | \[P_i=(\alpha+\alpha_2)+\beta×時間距離_i (d.toubu=0かつd.seib=1) \] |
2.係数ダミー
路線によって,切片だけではなく都心から1分離れるとどれだけ地価が下がるかという地価関数の傾きも異なる可能性があります,その場合には,新たな説明変数時間距離×d.toubuを導入します.
| \[P_i=\alpha+\alpha_1×d.toubu_i+\alpha_2×d.seib_i+\beta×時間距離_i+\beta_1×時間距離_i×d.toubu_i+\beta_2×時間距離_i×d.seib_i \] | |
ここで,地価関数の傾きの差はβ1で測ることができ,この場合の時間距離×d.toubuを係数ダミーといいます. 以上を図にすると下記の図になります.地価関数①は中央線の地価関数,②は定数項ダミーのみ用いた東武東上線の地価関数,③は係数ダミーも用いた地価関数です.
図2-3 価関数と定数項ダミー,係数ダミー
以上の回帰分析は線形関係(分布図を用いると直線に近い関係になっている)を想定していますが,実際には多種多様な非線形関係(直線ではない)があり,むしろ線形関係の方が少ないぐらいです.図2-1でも本来は紫色の線の方が地価関数として正しそうに見えませんか.実は理論的にも内に凸になることが分かっています.これは二次関数に変換することによって分析ができます.よく使う関数変換は表2- 1です.今回は二次関数の変数変換を使ってみます.
主な非線形式の変数変換
今回の地価関数では定数項ダミー,係数ダミーを無視すると以下のようになります.
| \[ P_i=\alpha+\beta×時間距離_i+\beta_1×時間距離^2_i (5) \] |
作業 5.被説明変数を当年価格として説明変数を「山手線駅からの時間距離」と「距離(m)」を必ず入れて,excelで重回帰分析を行ってください(10点).なお,説明変数は少なくとも6つ以上使ってください.そして,その結果を用いてをrep2_02_(学籍番号).docの(2)を完成させてupしてください.