16
20

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【データ分析、Kaggle入門】House Pricesの日本語チュートリアル記事4選

Last updated at Posted at 2019-02-14

Kaggleの練習問題の1つである、House Pricesの日本語チュートリアルの有名どころをいくつか試してみたので、分析、スコアについてまとめてみました。

普段はアプリエンジニアをしており、データ分析に関しては入門者です😇
興味があり下記講座を受講したりしてデータ分析の勉強していました。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
一通り基礎がわかったので、より実践的なスキルを身につけようと思いKaggleの練習問題のチュートリアルをやっていたのですが、素晴らしい記事が多かったのでまとめてみました。

入門者の参考になれば幸いです。

分析してみた記事まとめ

Kaggle 日本語チュートリアル:Prediction(予測) House Prices Kaggleの練習問題(Regression)を解いてKagglerになる 不動産価格を機械学習で予測するKaggleに挑戦する [ベンチマーク編] 不動産価格を機械学習で予測するKaggleに挑戦する [発展編1:上位20%]
工夫(データの前処理) ・外れ値を除く ・カテゴリ変数のエンコード(Label Encoder)
・欠損値の補完(欠損が多いものは列ごと削除、それ以外は中央値で補完)
・Feature Engineering('...SF'をまとめたFeatureの作成)
・対数変換
・ランダムフォレストによるFeature重要度の可視化
・外れ値を除く
・欠損値の補完(Data DescriptionよりNAやNoNで補完、欠損値が少ないものは最頻値で補完)
・カテゴリ変数のエンコード(One Hot Encoding)
・カテゴリ変数のエンコード(One Hot Encoding)
・Feature Engineering(足したり、割ったり2乗したり)
・外れ値を除く(多変量の外れ値検知(Isolation Forest)法を使用)
分析方法 ・単回帰分析
・重回帰分析(変数2つ)
・Stacking-Emsemble model
(XGBoost, Neural Network, Support Vector Regressor)
・ラッソ回帰
・ランダムフォレスト
・SVR
・Stacking-Emsemble model
(SVR、xgboost、lightBGM)
スコア(順位は目安です(2019/02 時点)) 0.28783
(3982位/4364)
(単回帰分析によるもの)
0.12848
(1636位/4294)
0.15052
(2800位/4294)
0.12034
(1023位/4294)
難易度 ★☆☆☆☆ ★★★☆☆ ★★☆☆☆ ★★★★☆
16
20
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
20

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?