Kaggleの練習問題の1つである、House Pricesの日本語チュートリアルの有名どころをいくつか試してみたので、分析、スコアについてまとめてみました。
普段はアプリエンジニアをしており、データ分析に関しては入門者です😇
興味があり下記講座を受講したりしてデータ分析の勉強していました。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
一通り基礎がわかったので、より実践的なスキルを身につけようと思いKaggleの練習問題のチュートリアルをやっていたのですが、素晴らしい記事が多かったのでまとめてみました。
入門者の参考になれば幸いです。
分析してみた記事まとめ
Kaggle 日本語チュートリアル:Prediction(予測) House Prices | Kaggleの練習問題(Regression)を解いてKagglerになる | 不動産価格を機械学習で予測するKaggleに挑戦する [ベンチマーク編] | 不動産価格を機械学習で予測するKaggleに挑戦する [発展編1:上位20%] | |
---|---|---|---|---|
工夫(データの前処理) | ・外れ値を除く | ・カテゴリ変数のエンコード(Label Encoder) ・欠損値の補完(欠損が多いものは列ごと削除、それ以外は中央値で補完) ・Feature Engineering('...SF'をまとめたFeatureの作成) ・対数変換 ・ランダムフォレストによるFeature重要度の可視化 ・外れ値を除く |
・欠損値の補完(Data DescriptionよりNAやNoNで補完、欠損値が少ないものは最頻値で補完) ・カテゴリ変数のエンコード(One Hot Encoding) |
・カテゴリ変数のエンコード(One Hot Encoding) ・Feature Engineering(足したり、割ったり2乗したり) ・外れ値を除く(多変量の外れ値検知(Isolation Forest)法を使用) |
分析方法 | ・単回帰分析 ・重回帰分析(変数2つ) |
・Stacking-Emsemble model (XGBoost, Neural Network, Support Vector Regressor) |
・ラッソ回帰 ・ランダムフォレスト ・SVR |
・Stacking-Emsemble model (SVR、xgboost、lightBGM) |
スコア(順位は目安です(2019/02 時点)) | 0.28783 (3982位/4364) (単回帰分析によるもの) |
0.12848 (1636位/4294) |
0.15052 (2800位/4294) |
0.12034 (1023位/4294) |
難易度 | ★☆☆☆☆ | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ |