なぜ知りたいと思ったか?
機械学習に用意した学習データが、もし偏りがあると問題があるのか知りたかった。
学習データの偏りとは何か?
機械学習モデルの性能に影響を及ぼす、学習データの分布の偏りのこと。「1つの分類に集中的に学習していた」という原因が多く、あらゆる問題が生じる。
・どんな問題があるか?
①モデルの汎用性能が低下する
実際のデータと似たデータしか学習していないモデルは、未知のデータに対して正確に予測できず、幅広く使えない。
②データ分析の信頼が低下する
偏ったデータで学習すると、悪意のあるデータを検知した時に制御できなくなり、個人情報を盗聴される危険性がある。
③倫理性・社会性問題が起こる
偏った学習データで学習したモデルを使うと、特定の人種やグループの偏見や差別に繋がる等の社会問題が起こりやすい。2014年に起きた「Amazonの人材採用AIによる女性差別問題」で、「人工知能の社会問題の認知の有無」が問われた事例がある。
https://forbesjapan.com/articles/detail/23419?read_more=1
データの偏りを防ぐには?
学習データのバランスをとる
学習データに偏りが起きる原因は、サンプルデータの集め方が偏っているケースが多い。その対策としてバランスの取れたデータセットを作るのが重要になる。