不均衡データを調整するアルゴリズムは複数あるが、比較論文があったので読んでみた。
備忘録になります。
Bunkhumpornpat, Chumphol, Krung Sinapiromsaran, and Chidchanok Lursinsap. "DBSMOTE: density-based synthetic minority over-sampling technique." Applied Intelligence 36.3 (2012): 664-684.
一応各手法まとめ
SMOTE
少ない方のデータをKNNを用いて、近接データで増やす。
ADASYN
マイノリティーデータの分布にそった形でKNNを使いながら増やす。
人工的に増やすデータもSMOTEみたいに指定するわけではなく、推測して増やす。
Border SMOTE
境界のデータを増やす事によって、クラス分類をしやすくする。
Safe-level SMOTE
Border SMOTEは境界、SMOTEはKNNで場所に依存はしない。しかし
Safe-level SMOTEは境界といってもSafe-levelを計算し、Safe-levelの
値によってマイノリティのデータを増やしていく。
DBSMOTE
クラスタリングアルゴリズムDBSCANを用いて、KNNではなくてデータをマイノリティ
側を増やしていく方法
F-valueとAUCが最も改善していたのは、DBSMOTE ADASYNは比較されていない。