データの前処理
データの前処理を行う目的は、
『生のデータを整理・変換し、モデルが正確に学習できるようにする』
ためです。
通常、収集されたデータは欠損値や異常値を含んでいたり、スケールが異なる場合があリます。
そのため、データの前処理として以下を行います。
- データの正規化
- カテゴリデータのエンコード
- 欠損データの補完
- 外れ値の処理
これらにより、 モデルの精度が向上 し、正確な予測を行えるようになります。
データセットの包括性
『包括的で多様性のあるデータセットによって、モデルが広範囲にわたる状況や条件に対して、正確な予測を行えるようになる。』
-
偏りを防ぐ
データが特定の属性や条件に偏っていると、モデルの予測や判断が公正でなくなる可能性があります。 -
汎化性能の向上
包括的なデータセットを使用することで、モデルが多様な状況やケースに対応できるようになり、現実世界での性能が向上します。 -
公平性の確保
特定の集団が過小評価されたり過大評価されたりしないようにするため、包括性が重要です。
ユーザーからのフィードバック
モデルの性能を継続的に向上させ、より現実のシナリオに適応させるために不可欠です。
モデルがどの部分で誤りを犯しているか、または特定のユースケースにおいてどのように改善できるかを理解し、それに基づいて再トレーニングを行うことができます。