はじめに
Python(Scikit-Learn)を活用し、Kaggleの「House Prices: Advanced Regression Techniques」に挑戦していきます。
目標はGW中に上位10%に入ることとします。
- 「House Prices: Advanced Regression Techniques」とは
住宅の販売価格を予測するデータ分析コンペです。 - ソースコードについて
ソースコードはKaggleのKernelという形で公開しております。(タイトル:HousePrice_00)
※現在kernelの公開方法についてkaggleに問い合わせ中なためkernel一覧から確認出来ない可能性があります。
学習モデル作成から予測結果提出まで
ベースとなるモデルを作成し、結果を提出します。
行ったこと
- データの確認
- 説明変数と目的変数の相関を確認
- 利用する説明変数の選択(相関の高い上位14項目を利用)
- 欠損値の対応
- 機械学習アルゴリズム(ランダムフォレスト)でのモデル作成
- 住宅価格の分布の確認から仮説1「目的変数の対数変換によるモデル作成」
結果
Score(RMSE):0.16392
Rank:3027/5194 (2018/04/30時点)
今後の予定
- ハイパーパラメータの調整
- 外れ値の除去
- 説明変数の再選定および追加作成
- 機械学習アルゴリズムの再検討
- RF、SVM、XGBoostによるスタッキングモデルの作成:参考
- 精度向上のための仮説作成および施工
終わりに
ご指摘、ご意見、アドバイス、ご要望などコメントいただけますと大変ありがたいです。