More than 5 years have passed since last update.

ML-AgentsのImitation Learningをバトルゲームで使ってみた

Last updated at 2018-05-22Posted at 2018-05-22

はじめに

ML-Agents v0.3よりImitation Learning(模倣学習)が可能になりました。
Rewardを設定して高いRewardを目指して学習をさせる強化学習に対して、
模倣学習は模範となる動作を真似る学習を行います(※よってRewardは必要ありません)

自分の場合は強化学習で使用したこちらのゲームをベースに模倣学習を行いました。

環境設定・サンプルプログラム

初めての方は本家のサンプルプログラムであるBananaImitationを見てみることをおすすめします。
こちらがわかりやすいです。

フロー

模倣学習用ビルド作成(Unity上)
python環境にて学習
学習結果を使用して動作(Unity上)

1. 模倣学習用ビルド作成(Unity上)

Unityプロジェクト内での構成

模倣学習プロジェクトのAcademy, Brain, Agentは下記の通りです。

Academy

基本的には強化学習の場合と同じ

Brain

Academy配下にTeacherBrain、StudentBrainゲームオブジェクトを配置

TeacherBrain

模倣学習の教師用Brain
ユーザー動作を担うのでBrainType = Playerとする
BroadCastにチェックを入れる
その他のBrainParametersは強化学習の場合と同じ

StudentBrain

模倣学習の生徒用Brain
学習結果を動作させる際に使用するものなので、学習前のビルド作成時は特に意識する必要ないがBrainTypeをExternalに設定
学習結果にて動作させる際の設定はこちら
その他のBrainParametersは強化学習の場合と同じ

Agent

ソースコード

強化学習とソースを共有する場合は強化学習の場合と基本的には同じソースで問題ない
環境を表すVector Observationを定義するCollectObservationsメソッド
Agentのアクションの中身を定義するAgentActionメソッド
AddRewardメソッドは模倣学習では無効だが、実行しても別に不具合はない
TeacherAgent, StudentAgentのソースも同じで問題ない

TeacherAgent

学習ビルドにて使用
BrainはTeacherBrainのGameObjectを指定
その他のパラメータは強化学習の場合と同じ

StudentAgent

学習結果にて動作確認時に使用
BrainはStudentBrainのGameObjectを指定
その他のパラメータは強化学習の場合と同じ

2. python環境にて学習

trainer_config.yamlを編集

python/trainer_config.yamlに設定を追加

StudentBrainであるRoundStudentBrain用の設定項目を作成する
brain_to_imitationにTeacherBrainであるRoundTeacherBrainを設定
その他の設定値は必要に応じて修正

学習開始

Unity上でビルドを実行後に、python環境にて下記を実行

python python/learn.py ビルドファイルのパス --train --slow

ゲームアプリが立ち上がるので、ユーザー操作を行い学習をさせる

しばらくプレイしている(※指定のmax stepsを超える)と自動的にアプリが終了します。python/models/ppo配下に学習したモデルデータ(ビルド名_ppo.bytes)が作成されます。ここで学習は終了です。

3. 学習結果を使用して動作(Unity上)

上記で作成した学習モデルデータ(ビルド名_ppo.bytes)をUnityプロジェクト配下のAssets/ML-Agents/TFModels/配下に配置

StudentBrainのインスペクターにて

Brain TypeをInternalへ変更
Graph Modelに上記で取り込んだビルド名_ppo.bytesを選択

AgentのGameObjectのインスペクターにて

上記で記載の通り、StudentAgentを動作させるためBrainはStudentBrainのGameObjectを指定

動作結果

上記にて動作させた結果はこちらです。

模倣学習ならではの動作をさせる

ゲームの仕様上4つあるストップポイントの内1つは岩に隠れており、そこで留まっている間は敵からの攻撃を受けません。なるべく岩の後ろのポイントを通って移動したほうがダメージを受けづらいです。

強化学習の結果では特にこの岩を活かした動作をしてくれませんでした（Rewardの値をそうするように仕向ければできたのかもしれませんが）。4方向を万遍なく利用するのは攻撃的には有効かもしれませんがダメージも受けやすかったので、もっと岩のストップポイントの利用を増やせないかと思いました。

そこで岩陰をベースに攻撃するように1, 2, 3を順に繰り返し動作する学習をひたすら繰り返しました

岩陰に隠れる
岩陰から出てくる
攻撃する

左が強化学習の結果、右が模倣学習の結果です。
強化学習に比べると模倣学習のほうが頻繁に岩陰の後ろに隠れる動作になってきたかと思います。

最後に

最終的な勝利を目指すAIというよりは
「こんな感じの動作をしてほしい」みたいに個別の動作をAIに促したいときには模倣学習は有効なのではないでしょうか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up