13

More than 5 years have passed since last update.

不均衡データ　アルゴリズム比較まとめ

18

Posted at 2018-01-11

不均衡データを調整するアルゴリズムは複数あるが、比較論文があったので読んでみた。
備忘録になります。

Bunkhumpornpat, Chumphol, Krung Sinapiromsaran, and Chidchanok Lursinsap. "DBSMOTE: density-based synthetic minority over-sampling technique." Applied Intelligence 36.3 (2012): 664-684.

一応各手法まとめ

SMOTE
少ない方のデータをKNNを用いて、近接データで増やす。

ADASYN
マイノリティーデータの分布にそった形でKNNを使いながら増やす。
人工的に増やすデータもSMOTEみたいに指定するわけではなく、推測して増やす。

Border SMOTE
境界のデータを増やす事によって、クラス分類をしやすくする。

Safe-level SMOTE
Border SMOTEは境界、SMOTEはKNNで場所に依存はしない。しかし
Safe-level SMOTEは境界といってもSafe-levelを計算し、Safe-levelの
値によってマイノリティのデータを増やしていく。

DBSMOTE
クラスタリングアルゴリズムDBSCANを用いて、KNNではなくてデータをマイノリティ
側を増やしていく方法

F-valueとAUCが最も改善していたのは、DBSMOTE　ADASYNは比較されていない。

13

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

13