AIの偏り(バイアス)は、
後から突然生まれるものではありません。
学習の過程すべてに潜んでいます。
① データ収集段階
- インターネット由来のデータ
- 特定言語・文化に偏る
- 発信力の強い層の意見が多い
この時点で偏りは確定します。
② データ選別・クリーニング
- 不適切データの削除
- 品質フィルタ
- ルールベース除外
「何を消すか」を決めるのは人間です。
③ ラベル付け(教師あり学習)
- 人間が正解を決める
- 価値観が入る
- 判断基準が揺れる
ここで強いバイアスが入ります。
④ 学習目的そのもの
- 有害発言を避けたい
- 安全寄りにしたい
- 特定用途に最適化したい
目的=バイアス です。
⑤ 評価基準
- 何を良いとするか
- 何を失敗とするか
評価指標も人間が決めています。
偏りは悪なのか?
偏り自体は避けられません。
重要なのは、
- 偏りを理解する
- 用途を限定する
- 過信しない
ことです。
まとめ
- 偏りは不可避
- 学習全工程に存在
- 人間の価値観が必ず入る