Help us understand the problem. What is going on with this article?

【データ分析、Kaggle入門】House Pricesの日本語チュートリアル記事4選

Kaggleの練習問題の1つである、House Pricesの日本語チュートリアルの有名どころをいくつか試してみたので、分析、スコアについてまとめてみました。

普段はアプリエンジニアをしており、データ分析に関しては入門者です😇
興味があり下記講座を受講したりしてデータ分析の勉強していました。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
一通り基礎がわかったので、より実践的なスキルを身につけようと思いKaggleの練習問題のチュートリアルをやっていたのですが、素晴らしい記事が多かったのでまとめてみました。

入門者の参考になれば幸いです。

分析してみた記事まとめ

Kaggle 日本語チュートリアル:Prediction(予測) House Prices Kaggleの練習問題(Regression)を解いてKagglerになる 不動産価格を機械学習で予測するKaggleに挑戦する [ベンチマーク編] 不動産価格を機械学習で予測するKaggleに挑戦する [発展編1:上位20%]
工夫(データの前処理) ・外れ値を除く ・カテゴリ変数のエンコード(Label Encoder)
・欠損値の補完(欠損が多いものは列ごと削除、それ以外は中央値で補完)
・Feature Engineering('...SF'をまとめたFeatureの作成)
・対数変換
・ランダムフォレストによるFeature重要度の可視化
・外れ値を除く
・欠損値の補完(Data DescriptionよりNAやNoNで補完、欠損値が少ないものは最頻値で補完)
・カテゴリ変数のエンコード(One Hot Encoding)
・カテゴリ変数のエンコード(One Hot Encoding)
・Feature Engineering(足したり、割ったり2乗したり)
・外れ値を除く(多変量の外れ値検知(Isolation Forest)法を使用)
分析方法 ・単回帰分析
・重回帰分析(変数2つ)
・Stacking-Emsemble model
(XGBoost, Neural Network, Support Vector Regressor)
・ラッソ回帰
・ランダムフォレスト
・SVR
・Stacking-Emsemble model
(SVR、xgboost、lightBGM)
スコア(順位は目安です(2019/02 時点)) 0.28783
(3982位/4364)
(単回帰分析によるもの)
0.12848
(1636位/4294)
0.15052
(2800位/4294)
0.12034
(1023位/4294)
難易度 ★☆☆☆☆ ★★★☆☆ ★★☆☆☆ ★★★★☆
yyokii
エンジニアしてます:) 1993年生まれ。肉と猫とAppleが好き
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away