LoginSignup
3
7

More than 1 year has passed since last update.

立地の良し悪しなんて大して知らんワイが機械学習モデルから良い立地とその他いろいろを教わる。

Last updated at Posted at 2022-11-16

こちらの記事をご覧いただきありがとうございます。
ここ最近はSUUMOの物件情報を機械学習モデルを用いていろいろ調べています。
前回の記事で、機械学習モデルがクソ失礼な家賃査定をしたり逆にお得だと判断したりした物件について調べました。
前回は物件1件ごとに対して焦点を当てましたが、今回は全体的なモデルの考え方を見てみようという回です。
タイトルに書いた立地の話は後半くらいに出てきます。

使用した機械学習モデル

前回の記事と同じです。一応同じことを書きます。

使用した機械学習モデル

以前から引き続き LightGBM を使用しています。

使用したデータ

SUUMOからスクレイピングした物件データ 196093 件を使用しています。
うち137265件を学習データ、58828件をテストデータとしています(7:3に分けています)。
説明変数は12種類、前回記事で厳選した変数から一部を変更して使用します。

SHAPについて

これも前回の記事にて簡単に解説しましたが、今回は少し違う使い方をします。

前回記事では、物件1件ごとに各特徴量がどれだけ家賃に影響しているのかを確認しました。
今回は物件1件ずつ測った各特徴量の家賃への影響力を平均して、物件全体に対する各特徴量の影響力を確認します。

どういうことか?というのはグラフを見たほうが早いと思います。
ちゃんとわかるように説明もしますので、ぜひこの先もご覧ください。

どの情報を重要視しているのか?

ここから、機械学習モデルをSHAPを使って可視化したグラフから物件に関する学びを得ます。

まずは、各特徴量の値と影響量の関係です。

各特徴量の値と影響力

shap_value.png

簡単に見方を説明すると、色は特徴量の値の大小、左右は影響力の大小を表します。
面積を例にすると、面積は左右に広がっているので、面積の大きさによって家賃に大きな影響があることがわかります。
また、右に行くほど赤くなるので、面積が大きいほど家賃が高くなります。
逆に左に行くほど青いので、面積が小さいほど家賃は安くなります。

shap_value_area.png

逆に築年数が右が青く、左が赤く右が青いため、築年数の値が小さい(新しい)ほど家賃が高く、大きい(古い)ほど家賃が安くなっています。
色と左右の幅のおかげで、ぱっと見で関係性が感じられるのが良いですね、

間取りや市区町村はカテゴリ変数で値の優劣がないため、グレーになっています。

このグラフによると、やはり 面積築年数間取り あたりが影響力が強いようですね。
対して、最寄駅からの距離 とか 地上 (建物の最上階)は多少影響するくらいらしいです。

私が引っ越すときは職場への移動時間をかなり気にしていたので、 最寄駅からの距離 がさほど影響しないのは意外でした。
とはいえ移動時間を気にするなら最寄駅からの距離よりも立地をまず考えると思うので、そう考えると妥当な気がしてきました。

各変数の重要度の棒グラフ

先ほどは左右の振れ幅や色によって優劣がわかるようにしていましたが、これを単純に影響力の度合いとして棒グラフにすることもできます。

shap_feature_importance.png

情報量としては先ほどの図よりも少ないですが、その分わかりやすくていいですね。

LightGBMにも特徴量の重要度をグラフにする機能があるので、それと比べてみましょう。
左がSHAP、右がLightGBMのグラフです。

shap_feature_importance.pngelite_feature_importances.png

多少順番の入れ替わりがあったり、値の大小の違いがあったりしますが、傾向としてはおおよそ同じになっているような感じがします。
細かく見ると、 築年数 に優劣の差があったりしますね。SHAPだと2番目ですが、LightGBMでは5番目です。

各特徴量ごとに詳しく見る

↑では全体的な傾向をザックリ確認できましたが、各特徴量の値と影響力の関係を散布図にしてより細かく見ることができます。
各特徴量を全部見ると記事が長すぎるので私が面白かったものを選びました。

個人的に一番わかりやすいと思った面積から確認します。

面積

shapvalue_面積.png

横軸が面積の値、縦が影響力です。
(ラベルがどっちも面積になっていますね…。縦のラベルは本当は SHAP value for 面積 と書いてありますが見切れました。)
全体的に右肩上がりの傾向があり、面積が大きいほど家賃に+の影響を与えることがわかります。

また、右肩上がりでも値が大きくなると値の増え方が緩やかになっていくのが見て取れます。
特に、面積が120m2 のあたりから上がってんのかそうでもないのかよくわからなくなっていますね。
120m2 くらい広かったら、それ以上広くなってもあんまり価値が変わらないのかもしれません。
私も「クソ広豪邸」と「超スーパークソ広豪邸」どっちがいい?って聞かれても大して変わらんやろ…って言うような気がします。

shapvalue_面積_explain.png

築年数

shapvalue_築年数.png

ザックリ見れば、新しいと家賃が高く、古くなるにつれて家賃が下がっていきます。
この下がり方も一定ではなくて、築30年あたりで緩やかになっている感じがします。
また築50年あたりから下がってんのか何なのかわからなくなってきますね。

shapvalue_築年数_explain.png

築30年と50年になんかあるのかと思った時に、耐用年数が浮かんだので調べてみました。

どうやら建物の構造によって変わるらしく、木造の物件(アパートに多い)は耐用年数が22年、重量鉄骨(マンションに多い)で34年、鉄筋コン(マンションに多い)は47年だそうです。
34年と47年というのは先ほどのグラフの変化するラインに近いですね。耐用年数を過ぎると価値の下がり方が緩やかになるっぽいです。
あんまり詳しくはないですが、減価償却の考え方が表れているような気がします。

それならそれで木造の22年のあたりであまり変わらない(同じように減り続ける)のは何かあるのでしょうか?
一つ思いついたのが、耐用年数とは関係なく実際は22年以上たっても問題なく住むことができるので、あんまり耐用年数が気にならないのかもしれません。
とはいえ時間がたつほど劣化して修理とかが必要になるのは間違いないので、価値は減り続けるってことじゃないでしょうか。たぶん。

※物件の耐用年数はこちらを参考にしました。

地上(建物の最上階)

shapvalue_地上.png

良く知らないですけど縦にデカい物件のほうが何か家賃が高いイメージありますよね。
その傾向はちゃんとあるようで、物件が縦にデカいほど家賃も高くなるようです。
0~15 階まではやや緩やかで、15~30 で少し急になる感じが見て取れます。
しかし30~ は結構分散していますね。徐々に家賃が上がっていくってことはなさそうです。

shapvalue_地上_explain.png

物件の縦のデカさと家賃ってどう関係するんだろうなーと思った時に、マンションの建築費用は関係あるよなーと思いながら少し調べていたのですが、どうやら 地上45m よりデカいかどうかで結構変わるようです。

建築基準法や消防法というものがあり、建物はこのルールに従って建てることになります。
そのルールによると、31m、45m、60m、100mを区切りに、それぞれ建築基準法と消防法を満たさなければならない条件があるんだそうです。
で、最もコスパがいいのが45mギリギリの建物らしく、それがおおよそ15階(か14階)になるということらしいですね。へぇー。

15階未満と以上で違うのは、 建設コストに差があるから っぽいですね。

ほんなら30階未満と以上で傾向が変わるのはなんなんや?と思いましたが、先ほどと同じ理屈なら、30階はだいたい100mあたりになるので差が出る、というのが一つ思いついたことです。
ネットで調べたらマンション30階はだいたい100mくらいらしいので、十分あり得ると思います。

30以上になると線引きがなくなるので、そこからは設計者が作りたいように作って結果分散が広がるんじゃないですか?たぶん。
これだけ高層になると高いことの魅力以外にも価値を付ける工夫が結構ありそうですし、なくもないような気がします。

※建築基準法などについてはこちらを参考にしました。

その他の特徴量

とりあえず載せておきます。小さめにしたので見ずらいかもしれませんが、気になるところをぜひご覧ください。
※路線と駅はどう頑張っても見づらいので割愛します。あとで取り上げます。

shapvalue_皇居からの距離.pngshapvalue_最寄駅からの距離.pngshapvalue_階.png
shapvalue_建物種別.pngshapvalue_構造.png
shapvalue_市区町村.pngshapvalue_間取り.png

情報の相互作用はあるのか?

前回の記事でも少し話に出した 相互作用 を、SHAPで可視化することができます。
早速見てみましょう。

面積と皇居からの距離

shapvalue_面積_皇居からの距離.png

先ほどの散布図と形は同じですね。こちらは色が付きました。
この色は 皇居からの距離 の値の大きさを表しています。
赤いと値が大きく、皇居から離れていることになります。青は値が小さいので皇居に近いです。

で、この散布図では 青色が上。赤色が下 に集まっています。
散布図は上にある点ほど家賃への影響がプラスになり、下ほどマイナスになります。
つまり、皇居に近いほど面積の価値が上がる ことを表しています。

shapvalue_面積_皇居からの距離_explain.png

なるほど確かに、言われてみれば都心ほど広い物件ってなかなかないような気がします。
田舎なら使ってない土地も結構ありそうなもんですが、都心ならみっちり利用されていて隙間なんてなさそうですね。
都心にクソ広い物件があれば、それだけで希少なんじゃないでしょうか。

考え方を変えると、都心ほど物件の面積の価値が上がることになるので、同時に地価も高いと考えることも出来ると思います。
順序が逆ですね。地価が高いので物件の面積あたりに価値も高くなっているということです。結構ありそうな気がします。

面積と地上(物件の最上階)

shapvalue_面積_地上.png

これは先ほどとは色が逆で、上が赤で下が青になっていますね。
つまり、 物件が縦にデカいほど面積の価値があがる ということになります。

物件の高さと面積の関係ってなんだ?と思っていましたが、先ほどと色が逆ってのが関係ありそうです。
縦にデカい物件は都心に多いので、必然的に先ほどの皇居からの距離が小さくなります。
で、縦にデカい→都心かそれに近い→地価が高い→面積の価値が高い という構図が成り立つのではないでしょうか。

もしくは、地価が高いのでコスパをあげるためにデカい物件が建ちやすい、という表現でもよさそうです。
いや待てよコスパをあげたら物件の面積当たりの価値は下がるような気もするが…?デカい物件は高級路線になりやすいとかそういう要素まで含めて価値が高くなるのか…?

築年数と面積

shapvalue_築年数_面積.png

ぱっと見だと赤青混ざってあまり違いが感じられません。
少し細かく見ると、だいたい 築20年未満で赤が上で青が下 にあるように見えます。

shapvalue_築年数_面積_explain.png

築20年より若い物件に限り、面積が広いほうが若さの価値が高い ことになります。
築20年と面積…?どのような関係があるのでしょうか?思い当たるものがありませんでした。
ぜひお詳しい方がおりましたらお教えいただけますと幸いです。

市区町村と面積

shapvalue_市区町村_面積.png

面積の話が多いですね。有効な特徴量は他の特徴量との関係も多いということでしょうか?
さて、市区町村と面積の関係は特に奇妙なグラフが出来上がりました。

縦に連なっているものが一つの区なのですが、 上の方が赤い区と、下の方が赤い区 があります。
結構きれいに色が分かれているので、かなり関係性が深いように思えます。

このままだとどれが何区なのかわからないので、グラフを書きなおしました。
先ほどは縦が家賃への影響力だったのですが、区名の見やすさから横に変えました。

shap_ward_area_sns.png

グラデーションで色が濃いと面積が広い物件です。薄いところは面積が狭いです。
これを見ると、グラフが右に寄っている(区の価値が高い)と、面積が広いことで価値が上がるようです。
逆に、グラフが左に寄っている(区の価値が低い)と、面積が広いと価値がさらに下がるみたいですね。

さっき少し話に出した地価と関係あるのか?と思って23区の地価を調べてみました。
(スクレイピングした時と2週間くらい間があるので正確ではありませんが)

こちらから地価を調べると以下の結果でした。

地価.png

豊島区だけ大きく入れ替わっているような気がしますが、順番はだいたい同じでしょうか。
地価と家賃に深い関係があると言っていいような気がします。

立地がいいってのはどこのこと?

タイトルにも書きましたが、私はあまり立地うんぬんを知らなかったので、立地が良いってなんやねんって思っていました。
個人的に今回一番気になっていたことを調べます。

といってもさっきそれらしいことが判明していましたね。
地価が高い ところが 物件の家賃 も上がりやすく、立地が良いと言ってよいような気がします。
「港区」「新宿区」「渋谷区」など、私が聞く限りの立地がいい場所ともおおむね重なります。多分一般的によく言う立地のいい場所とも重なるのではないでしょうか?

ので、 路線 の影響力も確認し、より細かい立地の良い場所も探してみます。

影響力の高い路線、低い路線

さっきの市区町村のようなグラフを描こうとすると縦にクッソ長くなってしまうので、一番上と一番下だけ用意しました。

路線上位
shap_value_line_best.png

一番上にいるのは 東急目黒線 ですね。
左右のブレ幅も考えると、 東京メトロ銀座線 が一番影響力があるように見えます。
東京メトロ が結構多いように見えますね。見えている範囲で5つも入っています。都内を走る地下鉄はさすがですね。

路線下位

shap_value_line_worst.png

一番低いのは つくばエクスプレス でした。茨城のつくばと東京を繋ぐ路線ですね。
一応断っておくと東京23区の物件情報しか入っていません。つくば周辺の物件データはないです。
しかし、茨城が直接悪さをしているわけではありませんが、23区でも茨城よりの地域(葛飾区、足立区、江戸川区あたり)のほうが立地が微妙な感じがあります。
やっぱり茨城が悪いんじゃないの?

それはさておき、私はどの路線がどこを通っていてどれが強い弱いとかそんなことは大して知らないので、上位も下位もこの路線の並びを見てピンとくるものがありませんでした。
詳しい人が見たら何か感じるものがあるんでしょうか?

駅上位

shap_value_station_best.png

駅ごとにみると、 明治神宮前 が最上位です。横幅も加味すれば 六本木駅 でしょうか?最大値なら 表参道駅 ですね。
立地なんて大して知らない私ですらなんか聞いたことあるような名前が並んでいます。恐れ多すぎて近づけませんね。

駅下位
shap_value_station_worst.png

最下位は 西高島平駅 でした。お得な物件を探すなら西高島平がいいってことですね。
ふむ…ほかの駅名も大概聞いたことがありません。聞いたことあるないでもだいたい立地の良し悪しになるってことでしょうか?

先ほどまで見てきたグラフの結果から、

  • 最強の立地は「港区」「東急目黒線」「明治神宮前」
  • お得な立地は「足立区」「つくばエクスプレス」「西高島平駅」
    ということになります。
    どれどれ、どこにあるんでしょうか…

最強の立地

mostvaluableplace.png

最お得な立地

worsttvaluableplace.png

…さすがに全部重なることはなかったですね。
しかし、おおよその場所は近いですね。港区かその周辺が最強で、足立区のあたりがお得です。
クソ高額物件をお探しの方はぜひ港区から、お得物件をお探しの方は足立区から探してみてください。

まとめ:クソ高い物件の条件

調べたことをまとめると…

  • 面積:120[m2]よりデカい
  • 建物のデカさ:30階よりデカい
  • 築年数:可能な限り新しいほうが良い
  • 立地:港区かその周辺

だとクッソ高額になるらしいです。

そんな物件あんの?→ありませんでした。

suumo_special_spec.png

面積、デカさ、立地を満たす物件が20件ありましたが、残念ながら一番新しい建物で築15年でした。
クソでかマンションをそんなバカスカ建てられるわけないので仕方ないのですが、実在しているものを見てみたかったです。

おまけ:調べていたついでに判明した、家賃とは大して関係ない副産物情報

SHAPやその他の可視化などで物件に関することをいろいろ調べましたが、家賃とは特別関係ないけど面白かったことがいくらかあったので、ご紹介します。

建物種別によって利用される構造が異なる。

建物種別とは「アパート」や「マンション」のことです。構造は「木造」「鉄骨」「鉄筋コン」とかのことです。
要は建物の種類で作り方や材料が変わるってことですね。
冷静に考えれば当然のような気がしますが、調べる前は特に気が付きませんでした。

以下は建物種別と構造ごとの集計です。

建物種別と構造.png

積み上げ棒グラフだとこうなります。
type_create_table.png

これは構造による耐久度とコスパの問題だと思います。
超強度が必要になる高層マンションでは鉄筋コンが主流で、デカくしないアパートではコストが比較的安い木造が好んで使われているのではないでしょうか。

またそれなりにデカい物件を作っても、木造である限りはマンションではなくアパートと扱われてしまうこともあったようです。
それも最近は脱炭素化のためにマンションも木造化が進んでいるらしいです。
※木造マンションについてはこちらを参考にしました。

物件は15階前後で数が劇的に変わる

先ほど建築基準法がなんだかで15階とそれ以上で家賃に差が出るって話がありましたが、そもそも母数にかなりの差が出ます。
15階のマンションは5000近くありますが、16階の物件は1000もありません。

floor_over_ground.png

20階以上を省いて見やすくすると以下になります。

floor_over_ground_under_20.png

それほど、建築基準法の45m以上のルールが厳しいんですね…。

皇居から2000mと7000mはだいたい区の境目にある

先ほど各特徴量と家賃への影響の散布図をお見せしましたが、皇居からの距離 の図は見ましたでしょうか?
ちっちゃく載せただけなのでスルーされていると思います。ここでもう一度載せます。

shapvalue_皇居からの距離.png

この図、だいたい2000mのあたりとだいたい7000mのあたりで傾向が変わると思いませんか?
そこに線を引いた図が以下です。

shapvalue_皇居からの距離_explain.png

ここに何があるかなーと思っていろいろ見ていたら、どうやら 区の境界線 がだいたい皇居から2000m と7000m のあたりにありました。

下に図を用意しました。
(matplotlibでどうにか作ったので見づらいような気がします)

皇居の半径2000mがグレー
horizon_ward_2000.png

皇居の半径7000mがグレー
horizon_ward_7000.png

つまり、皇居からだいたい2000m以内と以外で、7000m以内と以外で家賃への影響が変わるのは、距離 じゃなくて が重要だと考えられます。

高層マンションは大概都心。郊外ではかなり貴重。

いうても東京やし郊外でもクソでかマンションあるやろ?とか思っていたのですが、どうやら結構貴重らしいです。
皇居からの距離と地上(物件の最上階)の散布図が以下です。

distance_floor.png

先ほどの15階を境に、点の密度が大きく変わります。
特に、皇居から8000mくらい離れると、点が数えられそうなくらいしかありません。20個もないんじゃないですか?
郊外でクソでかマンションを見つけたらそれはかなり貴重です。崇めましょう。

徒歩10分以内か以上かで印象がかなり変わる?

結構多くの人が、最寄り駅は徒歩10分以内がいいなーと考えるんじゃないでしょうか。私もその一人です。
不動産会社もそれをわかっているのか、最寄り駅までの時間は10分以内で記載されているものが多いようですね。

最寄り駅までの時間とその物件の数を表したヒストグラムが以下です。

time_wark_to_station.png

10分とそれ以降で壁が出来ていますね。
もしかしたら、実際は11~12分くらいでも徒歩10分と書いてあるところがあるかもしれません。
大概内見の時にバレるので止めた方がいいと思いますが。
正直私の経験上徒歩〇〇分って割といい加減な気がしています。いや歩く速さの個人差とか知らない土地を歩いたりするから当然なのか?

築年数には何か周期的なものを感じなくもない。40年くらいが潮時?

以下は物件の築年数のヒストグラムです。新築がかなり多いですね。

hist_age.png

して、結構浮き沈みがあるように思いませんか?打倒に考えればなだらかに減っていくような気がするのですが…。
なんか不景気とかあったりするんですかね?私に思い当たるものがありませんでした。なんでや…。

築40年を過ぎると数がかなり減りますね。40が潮時なんでしょうか。
ちっちゃいけど築40年超えても微妙に浮き沈みがありますね。本当になんなんでしょうか…。

終わり.

いかがでしたでしょうか。
私が普段何気なく生活している中で物件に対して感じたこととだいたい傾向は同じだったんですが、細かく調べてみるとただの生活の中では知り得ないことが結構あったので面白かったです。

SUUMOの物件についてはだいたい調べ尽くしたような気がします。
個人的に気になったことは調べられたと思います。
皆さんが見て気になったことはありましたでしょうか?良ければぜひコメントに書いてみてください。もしかしたら私が調べて記事にするかもしれません。

この後は、前に少し書いた、条件を入れると家賃相場を教えてくれるアプリとか作ってみたいと思っています。
もしくは、他のデータを使ってまたいろいろ調べるんじゃないでしょうか。時系列データとか面白そうですよね。
また何かあれば記事にしようと思います。

他のSUUMO記事

まとめ記事書いたのでぜひご覧ください。

3
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
7