More than 5 years have passed since last update.

pythonで、不均衡データを識別が難しいサンプルを残してundersamplingしたいときは、imbalanced-learnのNearMissを使う

Posted at 2018-07-22

intro

分類タスクなどで、クラスごとのサンプル数が極端に偏っていることがあります。
そういった場合、一つの方法としてresamplingを行うことがあります。

どちらかといえばoversamplingを使うことのケースが多いかと思うのですが、
以下のようにundersamplingを使いたいケースがありました。

例えば、異常検知系だとこういったケースもあるかと思います。

pythonでこういったケースに簡単に対処するには、どうすればいいか調べたのでシェアいたします。

（なおundersamplingしたいのはMajority classのほうが多いかと思うので、
この記事の中では対象をMajority classサンプルとしています。）

imabalanced-learn.under_samplingのNearMissを使います。
imbalanced-learnのUndersamplingにはTomek’s linksなどcleaningベースのmethodもあります。
しかしノイズなるかもしれないsampleや境界付近のサンプルを取り除く手法で、
目的にはそぐわないのでここでは選びません。

（図はすべてimbaanced-learnの公式サイトから引用）

以下の手順で残すMajority classに属するサンプルを選びます。

Minority classのサンプルはすべて残します。

その絞り込まれたMajority Classのサンプルから、さらに自身の近傍にあるN個のminorityのclassからの平均距離が一番遠いものを残します。
他の２つよりノイズの影響を受けにくいようです。

NearMiss-1とNeaMiss-2により残ったサンプルがMajority領域の一部に集中している一方で、
NearMiss-3はばらけて分布しているのが分かるかと思います。

原著の論文では、医学論文のアブストから関連するproteinの名前のtagをつける分類タスク(ただし文章中の単語を分類)で
性能を比較しています。
性能劣化が一番抑えられたのは、NearMiss-2でした。
なお原著ではrandom samplingとそんなに変わらなかったともあります。

pythonで識別の難しいサンプルを残しながらundersamplingをするなら、
imbalanced-learnのNearMissを使うといいということが分かりました。

ただし結局どこまでいってもベースとなるk-nearest neighborが、
うまく機能する特徴量を探す必要があります。
場合によってはrandom samplingの方がいいかもしれません。

I. Mani, I. Zhang. “kNN approach to unbalanced data distributions: a case study involving information extraction,” In Proceedings of workshop on learning from imbalanced datasets, 2003 (原著)
3. Under-sampling — imbalanced-learn 0.3.0 documentation
Nearmiss 1 & 2 & 3 — imbalanced-learn 0.3.0 documentation