機械学習を用いた土地価格の予測

Posted at 2023-02-12

概要

　土地の価格には、実勢価格、公示地価、路線価、固定資産税評価額の4種類が存在し、公示地価を起点として他の価格が形成されている。そこで、任意の地点で公示地価に相当する価格（以降土地価格）を予測することを目指し、予測地点の属性情報に加えて周囲の標準地の属性情報を説明変数とした機械学習モデルの開発を行った。結果、一定の精度で任意の地点の土地価格が予測可能なモデルを構築することができた。

1 背景

　不動産価格の一つである土地の価格は「一物四価」とも言われ、実勢価格、公示地価、路線価、固定資産税評価額の4種類が存在している。表 1の通り、土地の価格は公示地価を起点として他の土地の価格が形成されている。また、公示地価は地価公示法に基づいて標準地と呼ばれる地点を対象に2022年の場合は全国で25,933地点、東京都では5,188地点が選定され、価格が公示されている¹。

表 1 土地の価格の種類

　標準地は、該当する市区町村の全体の地価水準を代表しうるもの、という選定条件がある。ある場所で土地取引を行う際、その場所と最寄りの標準地が離れすぎている場合、その土地の参考価格として公示地価を利用することは妥当とは言えないことも想定され、健全な土地取引や適正な固定資産税の算出を阻害する可能性を孕んでいるといえる（図 1）。
このことから、標準地以外の地点における公示地価に相当する価格（土地価格）を予測出来ることは、土地の価値を適正に評価し、健全な土地の取引に繋がることが期待される。そこで、任意の土地価格を予測する手法の導出を目標と定め、機械学習を用いて土地価格を予測する研究活動を実施した。

図１　取引地点と標準地の関係図

　土地の価格を予測する先行研究では、立地、地積、形状などの「土地の情報」や最寄り駅、商業施設、病院までの距離など「周辺環境の情報」の２種類の情報（属性情報）を入力したモデルを構築している²³⁴⁵⁶⁷。本研究では予測地点のこれらの属性情報、さらに予測地点周囲の標準地の属性情報を説明変数に加えた機械学習モデルを構築し、精度の検証を実施した。

2 提案手法

2.1 公示地価データについて

　本研究では、東京都、埼玉県、神奈川県、千葉県の一都三県を対象に2020年度の公示地価のデータを取得し、㎡単価を目的変数、最寄り駅までの距離等をモデルの入力データとして用いた。
まず、一都三県における標準地に関する基本統計量（表 2）を確認した。次に、公示地価を10万円単位で区切って地図上に描画し（図2~図5）、価格に影響のある特徴を分析した。基本統計量からは公示地価の中央値が地域間で最大で4倍近くあること、地価の分布からは東京都は渋谷区、港区、千代田区を中心に距離が離れるほど価格が下がり、神奈川、千葉、埼玉の三県は東京都へ向かう主要路線沿いが都心に近づくにつれて高くなる傾向があることが分かり、地域ごとに価格の幅および価格に影響する特徴が異なることが分かった。そこで本研究では地域ごとにモデルを構築する方針とした。

表2 一都三県の基本統計量（宅地のみ）

項目名	東京	神奈川	埼玉	千葉
件数	1,705	1,343	1,032	973
最大値	4,720,000	712,000	978,500	358,000
最小値	5,700	18,250	10,150	5,050
平均値	432,098	191,441	129,608	101,611
中央値	336,500	177,000	113,500	82,700
標準偏差	401,945	89,311	75,145	89,405

2.2 周辺情報の取得方法

地価評価地点の周辺の標準地は250ｍ区画で全国を刻んだ地域メッシュ⁸を用いて取得した。説明変数として必要な数の標準地の取得方法は、最初に評価地点と同じ3次メッシュ内の標準地を取得、十分な数の標準地が得られなかった場合、取得範囲を1区画ずつ広げ、必要な数が取得できるまで広げた（図6）。

図6. 周囲の標準地の取得イメージ

3 モデル構築と検証

　最初に、アルゴリズムの違いによる精度の差異を確認すべく、説明変数は最寄り駅までの直線距離と最寄り駅の方角の２つ、周囲の標準地の数を10件にして、重回帰分析、Ridge回帰、Lasso回帰、Xgboostの4種類のアルゴリズムを用いた機械学習モデルを構築、精度を確認した（表3）。
なお、目的変数である㎡単価は、式(1)で計算される㎡単価を対数変換した値$y_i$と平均値$μ$、標準偏差$σ$を用いて標準化した値$z_i$に変換してモデルを構築した。

z_i = \frac{y_i-\mu}{\sigma} \tag{1}

　また、平均絶対誤差（MAE）を式(2)の通り予測値fiを逆対数変換し正解データ$t_i$と差分絶対値で求め、モデルの評価は式(3)で計算される平均絶対誤差誤差率（MAPE）を用いて評価を行った。

MAE = \frac{1}{n}\sum^n_{i=1}|10^{f_i}-t_i| \tag{2}\\

MAPE = \frac{100}{n}\sum^n_{i=1}|\frac{10^{f_i}-t_i}{t_i}| \tag{3}

　結果として、東京はLasso回帰、それ以外の県はRidge回帰が最も良い精度を達成し、決定木より回帰分析の手法が高精度となった。これは、土地の価格を含めた不動産の価格は、個人が認める効用、相対的希少性、有効需要の相関で決まる特徴を持っていることから⁹、説明変数と目的変数の相関を学習する回帰のアルゴリズムの方が高精度を達成したと考えられる。

表3 アルゴリズムの違いによる精度検証

モデル	東京都		神奈川県		埼玉県		千葉県
指標	MAE	MAPE	MAE	MAPE	MAE	MAPE	MAE	MAPE
重回帰分析	73,559	17.0%	25,133	13.1%	22,104	17.1%	19,927	19.6%
Ridge回帰	72,170	16.7%	24,591	12.9%	21,486	16.6%	19,491	19.2%
Lasso回帰	70,073	16.2%	27,629	14.4%	21,657	21.3%	21,657	21.3%
Xgboost	94,451	21.9%	30,029	15.7%	24,369	18.8%	23,124	22.8%

　次に、説明変数の違いによる影響を確認した。最寄り駅までの直線距離は必須とし、最寄り駅の方角、乗降客数、昼夜間人口比率、東京駅までの直線距離、各都県の最も乗降客数が多い駅までの距離を説明変数として追加した場合の精度を確認した（図7～10）。

図7. 重回帰分析の精度検証（左：MAE、右：MAPE）

図8. Ridge回帰の精度検証（左：MAE、右：MAPE）

図9. Lasso回帰の精度検証（左：MAE、右：MAPE）

図10. Xgboostの精度検証（左：MAE、右：MAPE）

　なお、昼夜間人口比率は総務省統計局が整備、公開しているe-Stat¹⁰より、標準地が属する市区町村の昼夜間人口比率を取得した。
結果として、東京都は東京駅までの直線距離とRidge回帰の組合せが最も精度が高く、三県では最も乗降客数が多い駅までの距離とRidge回帰の組合せが最も精度が高くなった。東京都と三県で異なる結果となったが、東京都は東京駅までの距離と最も乗降客数が多い駅までの距離の差は僅差であり、精度に影響する説明変数は最も乗降客数が多い駅までの距離といえる。
　これまでのモデルでは標準地の数を10件と固定してきたが、標準地の数による影響を確認すべく、標準地の数を3、5、8、12、15件と変化させた時のアルゴリズム毎の精度を確認した（図11）。
結果として、東京は10件、三県は5件の場合に精度が高くなり、地域によって標準地の数に違いが出た。これは、東京都は三県と比較して標準偏差が大きいため、精度良く予測するために周囲の件数が必要になったと考えられる。
　モデル構築の最後として、機械学習のアルゴリズムと説明変数、標準地の数について全ての組み合わせによる精度の変化を検証した（表4）。結果として、アルゴリズムはLasso回帰、周辺の標準地の数は3件、説明変数は最寄り駅までの直線距離、東京駅までの直線距離、各都県の乗降客数が一番多い駅までの直線距離とした場合が都県全てで最も精度が高くなった。これは、Ridge回帰は学習が進んでも変数の重み係数が0にならないがLasso回帰は不要と判断された変数の重み係数が0となり、変数を排除するアルゴリズムである。これが要因で、説明変数が増えた今回はLasso回帰の方が高精度になったと考えらる。
　MAPEも10％近くと一定の精度で予測することができたが、今回は異なる距離の周囲の標準地を同等に扱ったため、加重をかけた学習や用いた説明変数やアルゴリズムを変更することで、更なる精度向上が期待できると考えている。これは今後の課題として更なる研究を進めて行く予定である。

図11. 標準地の数の変化による精度検証（左：MAE、右：MAPE）

表4. 組合せによる精度検証(アルゴリズム：Lasso、周辺の標準地数：3、説明変数：最寄り駅までの距離,東京駅までの距離,西船橋駅・大宮駅・横浜駅までの距離)

モデル	東京都		神奈川県		埼玉県		千葉県
指標	MAE	MAPE	MAE	MAPE	MAE	MAPE	MAE	MAPE
精度	59,663	13.8%	13,039	10.1%	12,633	12.4%	15,944	8.3%

3.2 土地価格を用いた地図の作成

　最後に最も精度が高くなったモデルを用いて、標準地以外の地点について10,000地点の土地価格を予測し、地図を作成した。なお、各地点間の価格はスプライン補完を用いて地図を描画している。
　図12は結果の一部だが、東京都を中心として価格が下がる形で広がっている様子に加え、標準値として選択した主要沿線上は土地価格が高くなる傾向も見られており、一般的に言われる土地の価格の様相と同じ様な結果を得ることができた。

図12 土地価格マップ

4 まとめ

　本研究では、予測地点とその周囲の標準地の属性情報を説明変数として土地価格の予測モデルを構築した。最寄り駅までの直線距離、東京駅までの直線距離、各都県の乗降客数が一番多い駅までの直線距離を変数に用いることで一定の精度で土地価格を予測することができた。今後は、予測の際に用いた情報が限定的である点、予測地点からの距離が異なっていても同等に説明変数として扱っている点、予測根拠となっているパラメータの確認などについて、更なる改善を図っていく予定である。

AI Powerhouse 井筒　雄介

国土交通省地価公示・都道府県地価調査　URL:https://www.land.mlit.go.jp/landPrice/AriaServlet?MOD=0&TYP=0 ↩
金本良嗣、中村良平、矢澤則彦: ヘドニック・アプローチによる環境の価値の測定、環境科学会誌2(4):251-266(1989) ↩
岡崎ゆう子、松浦克己: 社会資本投資、環境要因と地価関数のヘドニックアプローチ：横浜市におけるパネル分析、会計検査研究、 No.22: 47-62（2000.9） ↩
肥田野登、林山泰久、山村能郎: 都市間交通施設整備がもたらす便益と地価変動、土木学会論文集、 No.449/IV-17、 pp.67-76(1992.7) ↩
Steven Peterson and Albert B. Flanagan. Neural Network Hedonic Pricing Models in Mass Real Estate Appraisal. Journal of Real Estate Research、 Vol. 31、 No. 2、 pp. 147– 164、 2009 ↩
清水千弘ビッグデータで見る不動産価格の決まり方日本不動産学会誌、第31巻第1号、 P45-51、 (2017) ↩
Changro Lee、 Predicting Land Prices and Measuring uncertainty by combining supervised and unsupervised learning. Vol.25、 Issue2、 PP169-178、 (2021) ↩
地域メッシュ統計について　URL：https://www.stat.go.jp/data/mesh/m_tuite.html ↩
国土交通省不動産鑑定基準　URL：https://www.mlit.go.jp/common/001204083.pdf ↩
E-Stat : URL：https://www.e-stat.go.jp/ ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up