1. yyokii

    Posted

    yyokii
Changes in title
+【データ分析、Kaggle入門】House Pricesの日本語チュートリアル記事4選
Changes in tags
Changes in body
Source | HTML | Preview
@@ -0,0 +1,18 @@
+Kaggleの練習問題の1つである、House Pricesの日本語チュートリアルの有名どころをいくつか試してみたので、分析、スコアについてまとめてみました。
+
+普段はアプリエンジニアをしており、データ分析に関しては入門者です😇
+興味があり下記講座を受講したりしてデータ分析の勉強していました。
+[【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門](https://www.udemy.com/optworks_1/)
+一通り基礎がわかったので、より実践的なスキルを身につけようと思いKaggleの練習問題のチュートリアルをやっていたのですが、素晴らしい記事が多かったのでまとめてみました。
+
+入門者の参考になれば幸いです。
+
+
+## 分析してみた記事まとめ
+
+| | [Kaggle 日本語チュートリアル:Prediction(予測) House Prices](https://www.kaggle.com/katotaka/kaggle-prediction-house-prices) | [Kaggleの練習問題(Regression)を解いてKagglerになる ](https://qiita.com/tags/python) | [不動産価格を機械学習で予測するKaggleに挑戦する [ベンチマーク編]](http://ochearno.net/kaggle_house_prices_benchmark-2) | [不動産価格を機械学習で予測するKaggleに挑戦する [発展編1:上位20%]](http://ochearno.net/house_prices_stacking-2) |
+| ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |
+| 工夫(データの前処理) | ・外れ値を除く | ・カテゴリ変数のエンコード(Label Encoder)<br />・欠損値の補完(欠損が多いものは列ごと削除、それ以外は中央値で補完)<br />・Feature Engineering('...SF'をまとめたFeatureの作成)<br />・対数変換<br />・ランダムフォレストによるFeature重要度の可視化<br />・外れ値を除く | ・欠損値の補完(Data DescriptionよりNAやNoNで補完、欠損値が少ないものは最頻値で補完)<br />・カテゴリ変数のエンコード(One Hot Encoding) | ・カテゴリ変数のエンコード(One Hot Encoding)<br />・Feature Engineering(足したり、割ったり2乗したり)<br />・外れ値を除く(多変量の外れ値検知手(Isolation Forest)法を使用) |
+| 分析方法 | ・単回帰分析<br />・重回帰分析(変数2つ) | ・Stacking-Emsemble model<br />(XGBoost, Neural Network, Support Vector Regressor) | ・ラッソ回帰<br />・ランダムフォレスト<br />・SVR | ・Stacking-Emsemble model<br />(SVR、xgboost、lightBGM) |
+| スコア(順位は目安です(2019/02 時点)) | 0.28783<br />(3982位/4364)<br />(単回帰分析によるもの) | 0.12848<br />(1636位/4294) | 0.15052<br />(2800位/4294) | 0.12034<br />(1023位/4294) |
+| 難易度 | ★☆☆☆☆ | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ |