Python
データ分析
データサイエンス
Kaggle
Udemy学習応援

【データ分析、Kaggle入門】House Pricesの日本語チュートリアル記事4選

Kaggleの練習問題の1つである、House Pricesの日本語チュートリアルの有名どころをいくつか試してみたので、分析、スコアについてまとめてみました。

普段はアプリエンジニアをしており、データ分析に関しては入門者です😇

興味があり下記講座を受講したりしてデータ分析の勉強していました。

【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門

一通り基礎がわかったので、より実践的なスキルを身につけようと思いKaggleの練習問題のチュートリアルをやっていたのですが、素晴らしい記事が多かったのでまとめてみました。

入門者の参考になれば幸いです。


分析してみた記事まとめ

Kaggle 日本語チュートリアル:Prediction(予測) House Prices
Kaggleの練習問題(Regression)を解いてKagglerになる
不動産価格を機械学習で予測するKaggleに挑戦する [ベンチマーク編]
不動産価格を機械学習で予測するKaggleに挑戦する [発展編1:上位20%]

工夫(データの前処理)
・外れ値を除く
・カテゴリ変数のエンコード(Label Encoder)
・欠損値の補完(欠損が多いものは列ごと削除、それ以外は中央値で補完)
・Feature Engineering('...SF'をまとめたFeatureの作成)
・対数変換
・ランダムフォレストによるFeature重要度の可視化
・外れ値を除く
・欠損値の補完(Data DescriptionよりNAやNoNで補完、欠損値が少ないものは最頻値で補完)
・カテゴリ変数のエンコード(One Hot Encoding)
・カテゴリ変数のエンコード(One Hot Encoding)
・Feature Engineering(足したり、割ったり2乗したり)
・外れ値を除く(多変量の外れ値検知手(Isolation Forest)法を使用)

分析方法
・単回帰分析
・重回帰分析(変数2つ)
・Stacking-Emsemble model
(XGBoost, Neural Network, Support Vector Regressor)
・ラッソ回帰
・ランダムフォレスト
・SVR
・Stacking-Emsemble model
(SVR、xgboost、lightBGM)

スコア(順位は目安です(2019/02 時点))
0.28783
(3982位/4364)
(単回帰分析によるもの)
0.12848
(1636位/4294)
0.15052
(2800位/4294)
0.12034
(1023位/4294)

難易度
★☆☆☆☆
★★★☆☆
★★☆☆☆
★★★★☆