More than 5 years have passed since last update.

scikit-learnではじめる物件探し〜その2

Posted at 2017-11-27

おことわり

詳細な手順は、Jupyter Notebookで公開しています。文献やWebページを参考にしながら、分析を試みましたので、よければご覧ください。
結論めいたものを、こちらにも書いてみます。

確かに「築年数」「最寄り駅からの徒歩分数」は物件の価格に影響しそうな印象があります。当たり前といえば当たり前な気もしますが、データから結論が出せたという意味ではよかったです。

ランダムフォレストの実行結果を抜粋してみます。scoreを見てもそれなりによく予測できているように見えます。
（訓練データ、テストデータともにlog変換を施しているため、'prices'の数字はかなり小さくなっています）

いい線行っている物件もあればそうでないものもあり・・・

「データの中身を見たりしながら」と前回書きましたが達成できませんでした。
実際にはその過程がかなり大事で、上の「実際に物件の価格を予測すると」でも1件ずつ中身を見た方がいいに決まっているのですが、データ取得時からかなり時間が経っていることもあって、今回は実現できず。。。

後で見返しやすい形でデータのETLをしないといけないですね。