実施概要

第19回ステアラボ人工知能セミナー日本アイ・ビー・エム株式会社恐神貴行様：多様性を考慮した強化学習・機械学習

複数の商品を推薦する際には、多様な商品を提示したほうが、興味を引く商品が含まれる可能性が高くなる。また、チームで行う球技においては、全ての選手がボールに集まるのではなく、各選手が多様な動きをしたほうが、チームとして良い結果を生むことがある。本講演では、この様な多様性を考慮した、強化学習や機械学習について考える。特に、強化学習においては、将来に得られる報酬の積算値を表す価値関数を推定できれば良いが、この価値関数を行列式を用いて近似することで、複数のエージェントが多様な行動を選んで協調できるようになることを示す。

発表メモ

発表資料

チームで行う問題では、多様な行動をすることで、高い成果を得られることがある
- バスケットやサッカーでは、同じ場所に集まるのではなく、多様な場所を守ることで、試合が有利に進む
- レコメンデーションでは、多様な商品がCVに繋がる可能性がある
マルチエージェントで対応する問題を強化学習で解く際に、チームの報酬を各エージェントの報酬の多様性で表現する
- 具体的には、多様性を各エージェントの報酬ベクトルの体積によって計算する
- 報酬ベクトルは、ニューラルネットにより学習の過程により得られるブラックボックスなもので、報酬が上がるようなベクトルの取り方をしていることを多様であると表現しており、人から見てわかる行動の多様性とは意味合いが異なる
- Boltxman explorationをベースに、DPP(行列式点過程)を適用することで、探索の計算量が少なくスムーズに実施できるのが特徴
Blocker Taskのような行動の多様性が必要なタスクで実施してみると、既存手法より学習の収束が早い
- Blocker Taskは、3人のエージェントが協力して、通路を妨害する2人のBlockerの妨害を避けて、通路を通るタスク
- 2人のエージェントが通路の両端でBlockerを足止めすることで、1人のエージェントが通路を通れるようになる
Blocker Taskの学習後、エージェントごとの行動と報酬の関係性を可視化すると、多様性のある行動をしているときに報酬が高くなっていることが分かった

第19回ステアラボ人工知能セミナー 勉強会メモ

実施概要

発表メモ

第19回ステアラボ人工知能セミナー勉強会メモ