はじめに
ML-Agents v0.3よりImitation Learning(模倣学習)が可能になりました。
Rewardを設定して高いRewardを目指して学習をさせる強化学習に対して、
模倣学習は模範となる動作を真似る学習を行います(※よってRewardは必要ありません)
自分の場合は強化学習で使用したこちらのゲームをベースに模倣学習を行いました。
環境設定・サンプルプログラム
初めての方は本家のサンプルプログラムであるBananaImitationを見てみることをおすすめします。
こちらがわかりやすいです。
フロー
- 模倣学習用ビルド作成(Unity上)
- python環境にて学習
- 学習結果を使用して動作(Unity上)
1. 模倣学習用ビルド作成(Unity上)
Unityプロジェクト内での構成
模倣学習プロジェクトのAcademy, Brain, Agentは下記の通りです。

Academy
- 基本的には強化学習の場合と同じ
Brain
Academy配下にTeacherBrain、StudentBrainゲームオブジェクトを配置

TeacherBrain
- 模倣学習の教師用Brain
- ユーザー動作を担うのでBrainType = Playerとする
- BroadCastにチェックを入れる
- その他のBrainParametersは強化学習の場合と同じ
StudentBrain
- 模倣学習の生徒用Brain
- 学習結果を動作させる際に使用するものなので、学習前のビルド作成時は特に意識する必要ないがBrainTypeをExternalに設定
- 学習結果にて動作させる際の設定はこちら
- その他のBrainParametersは強化学習の場合と同じ
Agent
ソースコード
- 強化学習とソースを共有する場合は強化学習の場合と基本的には同じソースで問題ない
- 環境を表すVector Observationを定義するCollectObservationsメソッド
- Agentのアクションの中身を定義するAgentActionメソッド
- AddRewardメソッドは模倣学習では無効だが、実行しても別に不具合はない
- TeacherAgent, StudentAgentのソースも同じで問題ない
TeacherAgent
- 学習ビルドにて使用
- BrainはTeacherBrainのGameObjectを指定
- その他のパラメータは強化学習の場合と同じ
StudentAgent
- 学習結果にて動作確認時に使用
- BrainはStudentBrainのGameObjectを指定
- その他のパラメータは強化学習の場合と同じ
2. python環境にて学習
trainer_config.yamlを編集
python/trainer_config.yamlに設定を追加
- StudentBrainであるRoundStudentBrain用の設定項目を作成する
- brain_to_imitationにTeacherBrainであるRoundTeacherBrainを設定
- その他の設定値は必要に応じて修正
学習開始
- Unity上でビルドを実行後に、python環境にて下記を実行
python python/learn.py ビルドファイルのパス --train --slow
- ゲームアプリが立ち上がるので、ユーザー操作を行い学習をさせる
しばらくプレイしている(※指定のmax stepsを超える)と自動的にアプリが終了します。python/models/ppo配下に学習したモデルデータ(ビルド名_ppo.bytes)が作成されます。ここで学習は終了です。
3. 学習結果を使用して動作(Unity上)
- 上記で作成した学習モデルデータ(ビルド名_ppo.bytes)をUnityプロジェクト配下のAssets/ML-Agents/TFModels/配下に配置
StudentBrainのインスペクターにて
- Brain TypeをInternalへ変更
- Graph Modelに上記で取り込んだビルド名_ppo.bytesを選択
AgentのGameObjectのインスペクターにて
- 上記で記載の通り、StudentAgentを動作させるためBrainはStudentBrainのGameObjectを指定
動作結果
上記にて動作させた結果はこちらです。
模倣学習ならではの動作をさせる
ゲームの仕様上4つあるストップポイントの内1つは岩に隠れており、そこで留まっている間は敵からの攻撃を受けません。なるべく岩の後ろのポイントを通って移動したほうがダメージを受けづらいです。
強化学習の結果では特にこの岩を活かした動作をしてくれませんでした(Rewardの値をそうするように仕向ければできたのかもしれませんが)。4方向を万遍なく利用するのは攻撃的には有効かもしれませんがダメージも受けやすかったので、もっと岩のストップポイントの利用を増やせないかと思いました。
そこで岩陰をベースに攻撃するように1, 2, 3を順に繰り返し動作する学習をひたすら繰り返しました
- 岩陰に隠れる
- 岩陰から出てくる
- 攻撃する
左が強化学習の結果、右が模倣学習の結果です。
強化学習に比べると模倣学習のほうが頻繁に岩陰の後ろに隠れる動作になってきたかと思います。
最後に
最終的な勝利を目指すAIというよりは
「こんな感じの動作をしてほしい」みたいに個別の動作をAIに促したいときには模倣学習は有効なのではないでしょうか。








