結論
好奇心を持つことで目先の小さな不利益に惑わされずに、まだ見ぬ大きな利益を得る可能性を高められる
用語定義
- 好奇心
- 未知のものに対する興味のこと
- エージェント
- シミュレーションを行う主体のこと
- ゲームをクリアさせる課題の場合、プレイヤーが操作するキャラクターをエージェントにするのが一般的
- 報酬
- エージェントに与えられる利益のこと
- マイナスもある
- エージェントは最終的な報酬を最大化するように行動する
根拠
好奇心が必要ないパターン
※説明用の課題にはUnity向けの強化学習ライブラリであるML-Agentsのサンプルプロジェクトを用いる
以下の課題を考える
- エージェントの頭に転がる玉が乗っている
- エージェントは頭の傾きを変更することができる
- なるべく長時間玉を落とさないことが目的
この課題では以下の場合に報酬を与えれば良い
- 玉が頭に乗っている時: 報酬+
- 玉が頭から落ちた時: 報酬---
この条件で学習をすると、比較的短時間の学習をするだけでボールを中々落とさないようなエージェントが出来上がる
好奇心が必要になるパターン
上記のシンプルな手法では対応できないパターンが存在する
以下の課題を考える
好奇心なしの場合
この課題において以下の場合に報酬を与えて学習を行った
- 塔の頂上にエージェントが到達した時: 報酬+++
- 定期的に微量の報酬を与える。塔の頂上とエージェントの直線距離が近いほど多くの報酬を与える
しかし、一晩中学習させても塔の頂上にたどり着くことは無かった
長時間学習させた後のエージェントの挙動は塔の下辺りでひたすらウロウロしていた
塔の頂上とエージェントの直線距離が近いほど定期的に得られる報酬が多いため、目先の利益を考えるとこの行動が最適だからである。
塔に登るためには塔の周囲を探索して階段を見つける必要がある
塔の周囲を探索するという行動の原動力となるのが好奇心である
好奇心ありの場合
報酬を与えるタイミングを以下の様に変更して再度学習を行った
- 塔の頂上にエージェントが到達した時: 報酬+++
- 定期的に微量の報酬を与える。エージェントは周囲の環境を視覚的に観測し、前回の観測結果と今回の観測結果の差分が大きいほど多くの報酬を与える
以上の条件で数時間学習を行った結果、塔の頂上に辿りつくことができるエージェントが出来上がった
考察
複数の選択肢があり、それらは選んでみないと得られる利益がわからないとする。
この時、「得られた利益の大きさ」で単純に選択肢を切り捨てていくと、短期的には得をする確率が高い。なぜなら期待値が大きい選択肢が残る可能性が高いからである。
しかし、「利益の最大値と分散が大きいもの」がある場合、先程の選び方ではこの選択肢は切り捨てられる可能性が高い。
「利益の最大値と分散が大きいもの」を見つけたいのであれば、「分散の大きさ」を考慮に入れて選択肢を選ぶ必要がある。
分散の小さい選択肢は同じ結果が出続ける可能性が高いのでひとまず保留して、分散の大きい選択肢の期待値を図ることに注力すれば様々な選択肢を探索する事ができる。
前者の方法はギャンブルで堅実に利益を出したい時などに向いている。
後者の方法は明確なゴールが決まっており、それ以外の結果は意味をなさない場合など向いていると考えられる。将棋などの勝敗が決まっている課題などに使えそう
余談
上記の好奇心ありの条件の学習時間を短縮する為に、定期的に微量のマイナス報酬を与えてみた。
するとフィールドの探索をしなくなってしまった。
これは探索によって得られる報酬よりも定期的なマイナス報酬が上回ってしまった結果、この選択が最も苦痛が少ないと判断された為である。
この挙動を人間に当てはめてみると考えさせられるものがある。
好奇心があり、今後の過ごし方次第で大きな利益を獲得できる可能性のある人が、現在の環境による苦痛によって命を経ってしまうことはこれと同じ理屈だと考えられる。