0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

学習データの偏りがなぜ問題か?

Posted at

なぜ知りたいと思ったか?

機械学習に用意した学習データが、もし偏りがあると問題があるのか知りたかった。

学習データの偏りとは何か?

機械学習モデルの性能に影響を及ぼす、学習データの分布の偏りのこと。「1つの分類に集中的に学習していた」という原因が多く、あらゆる問題が生じる。

・どんな問題があるか?
①モデルの汎用性能が低下する
実際のデータと似たデータしか学習していないモデルは、未知のデータに対して正確に予測できず、幅広く使えない。

②データ分析の信頼が低下する
偏ったデータで学習すると、悪意のあるデータを検知した時に制御できなくなり、個人情報を盗聴される危険性がある。

③倫理性・社会性問題が起こる
偏った学習データで学習したモデルを使うと、特定の人種やグループの偏見や差別に繋がる等の社会問題が起こりやすい。2014年に起きた「Amazonの人材採用AIによる女性差別問題」で、「人工知能の社会問題の認知の有無」が問われた事例がある。
https://forbesjapan.com/articles/detail/23419?read_more=1

データの偏りを防ぐには?

学習データのバランスをとる
学習データに偏りが起きる原因は、サンプルデータの集め方が偏っているケースが多い。その対策としてバランスの取れたデータセットを作るのが重要になる。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?