Actor-Criticを深層学習で実現する場合、主に以下の図の2通りのNN(Neural Network)構成がありえます。
これらのうち、中間層を共有した「共有型」は、単一NN内に、Actorの出力層(Policyを出力)、Criticの出力層(Valueを出力)の2つを持ちます。
この場合、中間層を共有した単一のNNで「Policyの出力」と「Valueの出力」という複数の”タスク”を持つ、ということになります。
この「共有型」のNNの学習は、いわゆる「マルチタスク学習」の一例となります。
※「マルチタスク学習」とは、単一NNで複数のタスクを解けるように学習することです。
ActorとCriticで中間層を共有し単一のNNを構成する「共有型」(マルチタスク学習)と
ActorとCriticで別々のNNを構成する「分離型」(シングルタスク学習 x 2)とで、
どちらがいい学習をするか、実験してみました。
小難しい言い方に言い換えると、
「マルチタスク学習はActor-Criticモデルの性能アップに有用か否か、検証してみた」というところでしょうか。
実験の詳細と、実装全コードは、以下にあります。
フレームワークを使用せず、地道に計算グラフを書いて誤差逆伝播もnumpyだけで実装したので、読み解くのは面倒かもしれません。
実験 マルチタスク学習 vs シングルタスク学習 どちらが良い学習をするか?
実験の内容や条件
実験の目的
マルチタスク学習とシングルタスク学習では、どちらが良い学習をするか、
即ち、
マルチタスク学習はActor-Criticモデルの性能アップに有用か否か、の検証
実験に使用した強化学習の環境
以下3環境を使用しました。
各々の環境それぞれで、マルチタスク学習とシングルタスク学習の比較をしました。
※実際は、「BipedalWalker」も加えて4環境で実験しました。が、BipedalWalkerは、マルチタスク学習とシングルタスク学習ともに、学習をほとんどしなかったため、本稿では除きます。
環境名 | 外観 | 状態の次元数 | 行動の次元数 | 1エピソードでの上限ステップ数 | 目的 |
---|---|---|---|---|---|
Pendulum | ![]() |
3 | 1 | 上限は無し 固定で200ステップ/エピソード |
バーの直立 |
LunarLanderContinuous | ![]() |
8 | 2 | 1000 | ゴール領域に着陸 |
HopperPyBullet | ![]() |
15 | 3 | 1000 | 遠くまで跳ねて前進 |
共有型と分離型のNNの構成
共有型NN(マルチタスク学習)の構成 順伝播・誤差逆伝播
マルチタスク学習、即ち複数の損失がある場合の一般的な誤差逆伝播の仕方
各損失の重み付き和を全体の損失とし、それを起点に誤差逆伝播をします。
例)1つのNNに2つのLoss(L1とL2)がある場合、
L = L1 + wc x L2 (wcは係数で、ハイパーパラメーター)
のようにLossを1つ(L)にして、そのLoss(L)を誤差逆伝播の起点とします。
- Actorの損失をAdvantageを介してCritic側に逆伝播させない理由
Advantageは、Actorの損失関数においては、言わば定数項のようなものです。
Advantageは、あくまでも学習時のもので、Policyの推論時には存在しないからです。
別の言い方をすると、
Policyの推論時、Actorは、K次元正規分布N(μ, var)を決定するuとvar(実際にはlog(var))を出力します。そのuとvarの出力に、Advantageも、Advantageの要素であるCritic出力値Vも、一切関与しません。
分離型NN(シングルタスク学習)の構成 順伝播・誤差逆伝播
マルチタスク学習 vs シングルタスク学習 勝負の判定の仕方
NNのパラメーター更新はエピソード毎 = 1イテレーション/エピソード
1イテレーションで使用する学習データは、この1エピソードの試行結果
というやり方で学習します。
判定ポイントは以下2点です。
- 報酬の大小
この「1エピソードの試行」で稼得した報酬の大小(全エピソード合計やエピソード平均) - 成長のスピード
大きな報酬を稼得できるレベルに成長するまでに要したエピソード数
実験結果
Pendulum での実験結果
マルチタスク学習とシングルタスク学習を、各々10万エピソード費やして行いました。
学習の効果 モデル学習前と後でのAgentの挙動比較
<モデル学習前> 未学習モデルでPlay バーは一向に立たない |
<モデル学習後> 学習済モデル(分離型NN)でPlay バーは途中から直立を維持 |
|
---|---|---|
![]() |
➡ | ![]() |
学習時の稼得報酬/エピソードの推移(10万エピソード)
(マルチタスク学習・共有型NN)学習時の稼得報酬/エピソードの推移
※ ↑ ↓ 縦軸の目盛りの違いに注意
(シングルタスク学習・分離型NN)学習時の稼得報酬/エピソードの推移
マルチタスク学習/ シングルタスク学習 |
稼得報酬 合計 |
稼得報酬/エピソード 平均値 |
稼得報酬/エピソード 最大値 |
---|---|---|---|
マルチタスク学習 共有型NN |
-5310万 | ‐531 | 0 |
シングルタスク学習 分離型NN |
-7366万 | -737 | 0 |
報酬の大小:シングルタスク学習より、マルチタスク学習の方が顕著に大きい。
成長のスピード:シングルタスク学習より、マルチタスク学習の方が顕著に早い。
Pendulum マルチタスク学習 vs シングルタスク学習 判定
マルチタスク学習 共有型NN |
シングルタスク学習 分離型NN |
---|---|
勝ち | 負け |
結論:Pendulumでは、マルチタスク学習はActor-Criticモデルの性能アップに有用
LunarLanderContinuous での実験結果
マルチタスク学習とシングルタスク学習を、各々1万エピソードを費やして行いました。
学習の効果 モデル学習前と後でのAgentの挙動比較
<モデル学習前> 未学習モデルでPlay 枠外に飛去またはゴール外に落下 |
<モデル学習後> 学習済モデル(分離型NN)でPlay ゴール内に水平を保って着陸 |
|
---|---|---|
![]() |
➡ | ![]() |
学習時の稼得報酬/エピソードの推移(1万エピソード)
(マルチタスク学習・共有型NN)学習時の稼得報酬/エピソードの推移
※ ↑ ↓ 縦軸の目盛りの違いに注意
(シングルタスク学習・分離型NN)学習時の稼得報酬/エピソードの推移
マルチタスク学習/ シングルタスク学習 |
稼得報酬 合計 |
稼得報酬/エピソード 平均値 |
稼得報酬/エピソード 最大値 |
---|---|---|---|
マルチタスク学習 共有型NN |
80万 | 80 | 289 |
シングルタスク学習 分離型NN |
94万 | 94 | 282 |
報酬の大小:合計では、マルチタスク学習に対してシングルタスク学習の方が大きい。
成長のスピード:どちらが早いか判定不能。どちらも(Pendulumのように)いきなり成長したりしていないため。つまり顕著な違いは見当たらない。
LunarLanderContinuous マルチタスク学習 vs シングルタスク学習 判定
マルチタスク学習 共有型NN |
シングルタスク学習 分離型NN |
---|---|
惜敗 | 辛勝 |
結論:LunarLanderContinuousでは、マルチタスク学習はActor-Criticモデルの性能アップに有用とは言えない
HopperPyBullet での実験結果
マルチタスク学習とシングルタスク学習を、各々5万エピソードを費やして行いました。
学習の効果 モデル学習前と後でのAgentの挙動比較
<モデル学習前> 未学習モデルでPlay すぐ転倒し前に進めない |
<モデル学習後> 学習済モデル(共有型NN)でPlay 完璧な歩様で上限1000ステップまで前進 |
|
---|---|---|
![]() |
➡ | ![]() |
※HopperPyBulletの画像が白いのはご了承下さい。Google Colaboratory上で3Dのpybullet-gymの動きを色つきでキャプチャーする簡便な方法がありませんでした。
↓本来のHopperPyBulletの外観。脳内イメージ補完してください。
学習時の稼得報酬/エピソードの推移(5万エピソード)
(マルチタスク学習・共有型NN)学習時の稼得報酬/エピソードの推移
※ ↑ ↓ 縦軸の目盛りの違いに注意
(シングルタスク学習・分離型NN)学習時の稼得報酬/エピソードの推移
マルチタスク学習/ シングルタスク学習 |
稼得報酬 合計 |
稼得報酬/エピソード 平均値 |
稼得報酬/エピソード 最大値 |
---|---|---|---|
マルチタスク学習 共有型NN |
3619万 | 724 | 1689 |
シングルタスク学習 分離型NN |
2263万 | 453 | 1276 |
報酬の大小:シングルタスク学習より、マルチタスク学習の方が顕著に大きい。
成長のスピード:シングルタスク学習より、マルチタスク学習の方が顕著に早い。
HopperPyBullet マルチタスク学習 vs シングルタスク学習 判定
マルチタスク学習 共有型NN |
シングルタスク学習 分離型NN |
---|---|
圧勝 | 惨敗 |
結論:HopperPyBulletでは、マルチタスク学習はActor-Criticモデルの性能アップに有用
3環境まとめ
マルチタスク学習 vs シングルタスク学習 判定
環境 | 外観 | マルチタスク学習 共有型NN |
シングルタスク学習 分離型NN |
---|---|---|---|
Pendulum | ![]() |
勝ち | 負け |
LunarLanderContinuous | ![]() |
惜敗 | 辛勝 |
HopperPyBullet | ![]() |
圧勝 | 惨敗 |
総括 マルチタスク学習 vs シングルタスク学習 どちらが良い学習をするか?
この実験においては(!)、
マルチタスク学習の方が「概ね」シングルタスク学習より良い学習をした、即ち、
マルチタスク学習は「概ね」Actor-Criticモデルの性能アップに有用であった、
と言えるでしょう。
しかし、強化学習の環境は無数にあり、本実験では使用したのはそのうち3つのみです(しかもマルチタスク学習がうまくいったのはそのうち2つのみ)。他の環境ではまた違った結果が得られるかもしれません。
ですが、少なくとも、
Actor-Criticを実装する場合、中間層を共有してマルチタスク学習させることを検討する価値はある、
ということは言えるでしょう。
実験結果の考察
マルチタスク学習(共有型NN)が概ねうまくいった理由の推測
マルチタスク学習がうまくいく条件として、以下が挙げられています。
マルチタスク学習がうまくいく条件
===以下引用、ただし本稿に関係がある部分のみ===
- 関連するタスク
マルチタスク学習は、タスク間に共通の特徴や構造が存在する場合に効果的です。例えば、画像分類と物体検出のような、画像の特徴を共有するタスクは、マルチタスク学習で一緒に学習させると効果的です。- 適切なネットワーク構造
一般的に、タスク間で共有される部分とタスク固有の部分に対応するネットワーク構造を持つモデルが必要です。共有レイヤーで複数のタスクの共通特徴を抽出し、タスク固有のレイヤーで各タスクの特定の特徴を処理します。- 適切な損失関数
マルチタスク学習では、各タスクの損失関数を組み合わせて全体の損失関数を設定する必要があります。この際、各タスクの重要性を適切に設定することが重要です。一方で、タスク間の競合を避けるために、各タスクの損失の重みを動的に調整するアプローチもあります。
===引用終わり===
マルチタスク学習がうまくいったPendulumとHopperPyBulletについては、上記全てを、少なくともある程度は満たしていた、ということなのでしょう。
「1. 関連するタスク」「2. 適切なネットワーク構造」について
「マルチタスク学習は、タスク間に共通の特徴や構造が存在する場合に効果的」
「共有レイヤーで複数のタスクの共通特徴を抽出し、タスク固有のレイヤーで各タスクの特定の特徴を処理」
と書いてあります。
時刻tにおける状態State:s(t)
とおくと、
NN入力値s(t)に対するActorのPolicy出力は、そのs(t)に対する最適Policyであり、
NN入力値s(t)に対するCriticのValue出力は、そのs(t)の「価値」(強化学習の教科書的表現をすると、s(t)で取りえる全Actionの見積報酬和の期待値)です。
つまり、ActorのPolicy出力タスクとCriticのValue出力タスクは、「状態s(t)とは何ぞや?その特徴は?」を共有している、そしてそれは、共有されている中間層の出力そのもの、と言えるのではないでしょうか。
共に共通の情報「NN入力値のStateの特徴」を必要とする異なるタスクを課されているActorとCriticで中間層を共有しているからこそ、その中間層は「NN入力値のStateの特徴」をとらえきる能力を獲得できるのであって、それは分離型NNでは成しえないことです。
本実験でマルチタスク学習がうまくいったPendulumとHopperPyBulletについては、共有された中間層は、「NN入力値のStateの特徴」をとらえきれるくらいの表現力を持てる構造をしている、ということでしょう。
それにより、たった1層しかないActorとCriticの各々の出力層で、それなりに妥当なPolicyとValueを出力できるのでしょう。
学習の安定性という重要な視点もあると思います。
マルチタスク学習の共有型NNは中間層を共有しており、「NNほぼ1個」。
シングルタスク学習 x 2の分離型NNは文字通り「NN2個」。
共有型NNの方が学習が安定しやすいのだと思います。
「3. 適切な損失関数」について
本実験での共有型マルチタスク学習の損失関数は、
L_actor:Actorの損失関数値
L_critic:Criticの損失関数値
として、
L = L_actor + wc * L_critic
です。この左辺Lを誤差逆伝播の起点とします。
wcは重み係数で、L_actorとL_criticの”相対的な重視の度合い”です。
本実験では、このwcを一律「1」にしています。Actorの損失とCriticの損失のどちらかをより重視する、という理由が無いからです。
ただし、本来、このwcは、学習時のL_actorとL_criticのスケール(数値規模)の大小によっても、適した数値が決まるようです(例えば、ある学習局面で、L_actor=1、L_critic=0.01のようにスケールが乖離している場合を想像するとわかる)。
PendulumもHopperPyBulletも、lossの遷移グラフ(本稿には掲載してません)を見ると、L_actorとL_criticのスケールは大体同じで、wc=1であることに問題はなかったのでしょう。
LunarLanderContinuousだけマルチタスク学習(共有型NN)がうまくいかなかった理由の推測
上記「マルチタスク学習がうまくいく条件」のうち、
「2. 適切なネットワーク構造」をまず疑いました。
共有されている中間層の表現力が不足しており、LunarLanderContinuousの「NN入力値のStateの本質」を、共有されている中間層でとらえきれていない可能性があります。
これが理由かどうかは、実際に対策実装をして結果を見ないことにはわからないです。
「3. 適切な損失関数」も疑いました。
しかし、lossの遷移グラフ(本稿には掲載してません)を見ると、L_actorとL_criticのスケール(数値規模)は、むしろPendulumとHopperPyBulletよりも同一で、wc=1であることに問題があるように思えませんでした。