クラスの不均衡(CI)
『データセット内の各クラスに含まれるサンプル数の偏りを測定する指標』
これにより、特定のクラスが不足している場合に適切な対応が取れるため、機械学習モデルの精度とバランスを向上させることが可能です。
ユースケース
- ある通信会社では、顧客の解約予測を行う機械学習モデルを構築しています。
- チームは、データが「解約する」顧客と「解約しない」顧客を バランスよく 含んでいるかどうかを検証するために、データセット内のクラス分布を確認したいと考えています。
↓
この場合に適切なトレーニング前のバイアスメトリクスは、クラス不均衡 (CI)です。
クラスの不均衡(少数派クラス)対策
オーバーサンプリング
SMOTEを用いたオーバーサンプリングでは少数派クラスのデータを増やし、クラスのバランスを取ることができます。
ユースケース:
ある医療研究チームが、画像データを使用してまれな疾患の診断を支援する機械学習モデルを開発しています。しかし、疾患画像のサンプルが少ないため、データセットにクラス不均衡が生じています。
クラス不均衡を緩和するには、疾患画像のような少数派クラスをオーバーサンプリングする方法が有効です。これにより、モデルが少数派クラスの特徴を学習する機会が増え、診断精度の向上につながります。
GAN
GANを用いて少数派クラスの新しいデータを生成することも有効な手法です。
これにより、モデルがクラスの不均衡に影響されず、すべてのクラスで高い予測精度を得ることができます。
ユースケース:
あるEメールサービスプロバイダが、ユーザーの受信トレイに届くスパムメールを検出する機械学習モデルを構築しています。データセットには、正当なメールとスパムメールのデータが含まれていますが、スパムメールのサンプル数が少ないため、モデルのバイアスが生じる可能性があります。
この課題に対処するための適切な手法:
- スパムメールの少数派クラスデータをオーバーサンプリングする
- GANを用いて少数派クラスのスパムメールを合成データとして生成する