R
アルゴリズム
機械学習
不均衡データ

不均衡データ アルゴリズム比較まとめ

不均衡データを調整するアルゴリズムは複数あるが、比較論文があったので読んでみた。
備忘録になります。

Bunkhumpornpat, Chumphol, Krung Sinapiromsaran, and Chidchanok Lursinsap. "DBSMOTE: density-based synthetic minority over-sampling technique." Applied Intelligence 36.3 (2012): 664-684.

https://link.springer.com/article/10.1007/s10489-011-0287-y

一応各手法まとめ

SMOTE
少ない方のデータをKNNを用いて、近接データで増やす。

ADASYN
マイノリティーデータの分布にそった形でKNNを使いながら増やす。
人工的に増やすデータもSMOTEみたいに指定するわけではなく、推測して増やす。

Border SMOTE
境界のデータを増やす事によって、クラス分類をしやすくする。

Safe-level SMOTE
Border SMOTEは境界、SMOTEはKNNで場所に依存はしない。しかし
Safe-level SMOTEは境界といってもSafe-levelを計算し、Safe-levelの
値によってマイノリティのデータを増やしていく。

DBSMOTE
クラスタリングアルゴリズムDBSCANを用いて、KNNではなくてデータをマイノリティ
側を増やしていく方法

F-valueとAUCが最も改善していたのは、DBSMOTE ADASYNは比較されていない。