クラスの不均衡(CI、少数派クラス)
『データセット内の各クラスに含まれるサンプル数の偏りを測定する指標』
特定のクラスが不足している場合に適切な対応が取れる ため、機械学習モデルの精度とバランスを向上させることが可能です。
ユースケース
- ある通信会社では、顧客の解約予測を行う機械学習モデルを構築しています。
- チームは、データが「解約する」顧客と「解約しない」顧客を バランスよく 含んでいるかどうかを検証するために、データセット内のクラス分布を確認したいと考えています。
↓
- この場合に適切なトレーニング前のバイアスメトリクスは、クラス不均衡です。
対策1. SMOTEを用いたオーバーサンプリング
『少数派クラスのデータを増やし、クラスのバランスを取る』
- ある医療研究チームが、画像データを使用して、稀な疾患の診断を支援する機械学習モデルを開発しています。
- しかし、疾患画像のサンプルが少ないため、データセットにクラス不均衡が生じています。
↓ - クラス不均衡を緩和するには、疾患画像のような少数派クラスをオーバーサンプリングする方法が有効です。
- これにより、モデルが少数派クラスの特徴を学習する機会が増え、診断精度の向上につながります。
対策2. GAN
『少数派クラスの新しいデータを生成する』
これにより、モデルがクラスの不均衡に影響されず、すべてのクラスで高い予測精度を得ることができます。
ユースケース
- ユーザーの受信トレイに届くスパムメールを検出する機械学習モデルを構築しています。
- データセットには、正当なメールとスパムメールのデータが含まれていますが、スパムメールのサンプル数が少ないため、モデルのバイアスが生じる可能性があります。
(この課題に対処するための適切な手法)↓
- スパムメールの少数派クラスデータをオーバーサンプリングする。
- GANを用いて、少数派クラスのスパムメールを合成データとして生成する。