More than 5 years have passed since last update.

【強化学習】R2D2を実装/解説してみたリベンジハイパーパラメータ解説編（Keras-RL）

Posted at 2020-05-15

ハイパーパラメータ解説編です。
各パラメータに関してまとめてみました。

中身のアルゴリズムについてはこちら
【強化学習】R2D2を実装/解説してみたリベンジ解説編（Keras-RL）

コード全体

本記事の対象コードはgithubにあげています。

github

共通パラメータ解説
Rainbow/R2D2特有のパラメータ解説
学習以外の機能の解説
- NNモデルの中間層の可視化
- 動画化
- save/load
- 学習履歴のログ取得
ハイパーパラメータ設定例
- DQN(論文)
- Keras-RL Cartpoleのサンプル
- Rainbow(論文)
- R2D2(論文)

共通パラメータ

Rainbow(DQN)とR2D2で共通のパラメータです。

env 依存関係のパラメータ

	概要	型	例	備考
input_shape	入力shape	tuple	(84,84)	env.observation_space.shape
input_type	入力形式を指定	InputType	InputType.GRAY_2ch	独自実装
image_model	画像層のモデル形式	ImageModel(独自実装)	DQNImageModel()
nb_actions	アクション数(出力数)	int	4	env.action_space.n
processor	Gymのカスタム機能を提供するクラス	Processor(Keras-rl)	None

input_shape
入力形式を tuple で指定します。
画像なら (width, height) の形式ですね。
Gym の場合は env.observation_space.shape で取得できる形式です。
input_type
上記 input_shape を補う指定です。
独自実装しています。
下記の4つの種類を想定しており、input_shape の内容に合わせて指定してください。

InputType

class InputType(enum.Enum):
    VALUES = 1    # 画像無し
    GRAY_2ch = 3  # (width, height)
    GRAY_3ch = 4  # (width, height, 1)
    COLOR = 5     # (width, height, ch)

image_model
前回の記事で解説した内容です。
ただ現状は２種類しかなく、画像じゃない場合は None、画像の場合は DQNImageModel() を指定してください。
nb_actions
出力形式を int で指定します。
これは agent が選択できるアクション数に相当します。
例えば左と右と止まると3個操作方法がある場合は3アクションになります。
Gym の場合は env.action_space.n で取得できます。(Discrete形式のみ)
processor
Gym で提供されている Env に対してカスタマイズ機能を提供するクラスです。(processor(Keras-rl公式))

NN(ニューラルネットワーク)モデル関係のパラメータ

	概要	型	例	備考
batch_size	バッチサイズ	int	32
optimizer	最適化アルゴリズム	Optimizer(Keras)	Adam(lr=0.0001)	Keras実装
metrics	評価関数	array	[]	Keras実装
input_sequence	入力フレーム数	int	4
dense_units_num	Dense層のユニット数	int	512
enable_dueling_network	DuelingNetworkを使うかどうか	bool	True
dueling_network_type	DuelingNetworkで使うアルゴリズム	DuelingNetwork	DuelingNetwork.AVERAGE
lstm_type	LSTMを使用する場合の種類	LstmType(独自実装)	LstmType.NONE
lstm_units_num	LSTM層のユニット数	int	512
lstm_ful_input_length	1学習あたりの入力学習回数	int	4	STATEFULの場合のみ使用

batch_size
ミニバッチ学習で使用する batch サイズです。(batchについてはこちら(Keras公式))
batchサイズを増やすと学習効率および学習速度が上がるという話があります。
ただ、強化学習は教師あり学習と違い、学習データに制限がないため batch サイズを増やすと学習コストが増える(1回の学習での収束速度は上がるが時間はかかるため、新しい経験を模索する回数が減る)ため、あまり増やしすぎない方がいい気もします。
また、batchサイズは 2^n を指定するといいとかなんとか。
optimizer
NNモデルを compile する際に指定する Keras の Optimizer を指定します。
詳細はオプティマイザ（最適化アルゴリズム）の利用方法(Keras公式)等を参考にしてください。
metrics
Keras の評価関数を指定します。使ったときないのであまり分からない…。
詳細は評価関数の利用方法(Keras公式)等を参考にしてください。
input_sequence(以前はwindow_length)
入力に使う observation の数です。
1 で直近の1frameのみを入力とし、4だと直近から4frameまでを入力として使います。
この値を増やすと入力の表現力が増えますが、学習コストは増えます。
dense_units_num
Dense層のユニット数です。
この値を増やすとNNの表現力が増えますが、学習コストは増えます。
enable_dueling_network
DuelingNetworkを有効にするかどうかです。
DuelingNetworkは状態と行動を分けてNNに学習させることで学習効率をあげようというものです。
dueling_network_type
DuelingNetwork で状態と行動を分ける時に使うアルゴリズムです。
以下の３種類から指定できます。
論文では Average が一番いい結果が出たと書いてありました。

DuelingNetwork

class DuelingNetwork(enum.Enum):
    AVERAGE = 0
    MAX = 1
    NAIVE = 2

lstm_type
LSTMを使う場合の種類を指定します。
LSTMを使用すると時系列に関する情報も学習する事が出来ますが学習コストは増えます。
使わない場合は NONE を指定してください。
STATELESS を指定するとDRQN相当のシンプルなLSTM層をNNモデルに追加します。
STATEFUL を指定するとR2D2相当の複雑な処理をするLSTM層をNNモデルに追加します。
STATEFULはSTATELESSに比べて学習効率は上がりますが、学習コストがかなり増えます。

LstmType

class LstmType(enum.Enum):
    NONE = 0
    STATELESS = 1
    STATEFUL = 2

lstm_ful_input_length
STATEFULの学習における1学習あたりの入力学習回数です。
STATEFULで学習する場合、時系列に沿う形で学習回数を増やす事が出来ます。
その時系列に沿った学習回数の数をここで指定します。(詳細は前回の記事を参照)
数字を増やすと学習効率は(多分)上がりますが、学習コストが増えます。

Experience Replay Memory関連

	概要	型	例	備考
memory/remote_memory	使用するメモリ	Memory(独自実装)	ReplayMemory(10000)	下記参照

経験を貯めるメモリの種類を指定します。
DQN では経験したデータは一度メモリに格納します。
その後、メモリの中からランダムに経験を取り出して学習を行います。
メモリから取り出す方法によっていくつか種類があるのでそれについて説明します。

ReplayMemory

DQN で使われているシンプルなメモリです。(以前の記事)
経験データをランダムに取り出します。

ReplayMemory(
    capacity=10_000
)

capacity
メモリに保存する最大容量です。
多いほうがいいですが、多すぎるとPC側の物理メモリが圧迫されるのでほどほどに。

PERGreedyMemory

優先順位付き経験再生における愚直な実装です。
ランダムではなくTD誤差が最大の経験(もっとも学習への反映率が高い)経験を取り出す方法です。
ただ、これはランダム要素がないのですぐ局所解に入る気がしてうまく学習できません…。(なぜ実装した)

PERGreedyMemory(
    capacity=10_000
)

capacity
メモリに保存する最大容量です。

PERProportionalMemory

優先順位付き経験再生におけるProportional Prioritization(比例優先順位付け)のメモリです。
ランダムではなくTD誤差の確率分布にしたがって経験を取り出す方法です。
(TD誤差が多い経験ほど取り出される確率が高くなる)

ReplayMemory(ランダム選択)よりはかなり学習効率が良くなる感じです。

PERGreedyMemory(
    capacity=100000,
    alpha=0.9,
    beta_initial,
    beta_steps,
    enable_is,
)

パラメータは後述します。

PERRankBaseMemory

優先順位付き経験再生におけるRankBase(順位優先付け)のメモリです。
ランダムではなくTD誤差の順位に比例して経験を取り出します。
例えば３つ経験がある場合、1位は50%、2位は33%、3位は17%で選択されるといった感じです。

ReplayMemory(ランダム選択)よりはかなり学習効率が良くなる感じですが、
Proportional との違いはあまり分かりません。
速度的にはこちらの方が少しだけはやくなっているはず…。

PERRankBaseMemory(
    capacity=100000,
    alpha=0.9,
    beta_initial,
    beta_steps, 
    enable_is,
)

パラメータは後述します。

PERProportionalMemoryとPERRankBaseMemoryのパラメータ

	概要	型	例	備考
capacity	メモリに保存する最大容量	int	1_000_000
alpha	確率反映率	float	0.9	0.0～1.0
beta_initial	IS反映率の初期値	float	0.0	0.0～1.0
beta_steps	ISの反映率を1.0にするまでのstep数	int	100_000	学習回数に依存
enable_is	ISを有効にするか	bool	True

capacity
メモリに保存する最大容量です。
alpha
Priority/RankBase の反映率です。(0.0～1.0)
0.0で完全ランダム(ReplayMemoryと同様)で、1.0なら確率分布に完全に従います。

ここで重要度サンプリング(IS)の説明をします。
確率分布に従って経験を出す場合、各経験が選ばれる回数に偏りが生じます。
経験の選択回数が偏ると学習にバイアスがかかってしまうので、それを回避するのが重要度サンプリングです。

具体的には、高い確率で選ばれる経験はQ値の更新への反映率を低くし、低い確率で選ばれる経験はQ値の更新への反映率を高くするというものです。

ISを導入することで学習が安定するらしいです。
また、ISはアニーリング(徐々に反映していく)します。

beta_initial
ISの反映率の初期値です。(0.0 でISを使用しない状態、1.0でISを反映した状態)
beta_steps
ISの反映率を1.0にするまでのstep数です。
学習回数を元に指定してください。
enable_is
ISを有効にするかどうかです。

学習関係のパラメータ

	概要	型	例	備考
memory_warmup_size/ remote_memory_warmup_size	メモリに経験が貯まるまで学習しないサイズ	int	1000
target_model_update	Targetモデルへの更新間隔	int	10000
gamma	Q学習の割引率	float	0.99	0.0～1.0
enable_double_dqn	DoubleDQNを使用するか	bool	True
enable_rescaling	rescaling関数を使用するか	bool	True
rescaling_epsilon	rescaling関数で使う定数	float	0.001
priority_exponent	経験の優先度を計算する際の比率	float	0.9	LESTFULのみ使用
burnin_length	burn-inの期間	int	2	LESTFULのみ使用
reward_multisteps	MultiStep Reward のstep数	int	3

memory_warmup_size / remote_memory_warmup_size
初期状態ではメモリに経験がなく、学習ができません。
ですのでメモリに経験が貯まるまで学習しない期間を作ります。
その期間をここで指定します。
batch_size 以上の値であまり少なすぎない値がいいと思います。
(あまり減らすと初期で偏った経験データがあった場合に局所解に陥る可能性があります)
target_model_update
DQNにおけるTargetNetworkの更新間隔です。
DQNではTargetNetworkという更新専用のQネットワークを用いて更新します。
TargetNetworkは学習は行わず、一定間隔で今のQネットワークをコピーします。
こうすることで更新に使用するQネットワークに時差が生まれて更新が良くなるとのことです。
gamma
Q学習の割引率です。
報酬をどれだけ伝搬させるかを指定します。
まあ、ほぼ1.0に近い値でいいと思います。
enable_double_dqn
DoubleDQNは学習時に最大のQ値を選んで学習していましたが、ノイズ等の影響で過大評価されている可能性があり良くないということで提案された手法です。
DoubleDQNを使うと学習効率が上がる気がします。
enable_rescaling
報酬に対してrescaling関数を使用するか指定します。
rescaling関数を使用すると報酬がある程度丸められるので報酬による学習のブレが抑えられます。
rescaling_epsilon
rescaling関数で使う定数です。
0になるのを防ぐ定数のようでほぼ0に近い値ならいいかと思います。
(0.001は論文で使われている数字です)
priority_exponent
R2D2相当のLSTM学習(LSTMFUL)で使っているPriority(経験の優先度)の計算で使用します。
LSTMFUL では複数の Priority を元に最終的な Priority(経験の優先度)を決定します。
その計算方法は $Priorityの最大値 + Priorityの平均値$ です。
この最大値と平均値をどれだけ反映させるかの割合が priority_exponent となります。
0.9 の場合は $Priorityの最大値0.9 + Priorityの平均値0.1$ となります。
論文では0.9ぐらいがいい結果になったと書いてありました。
burnin_length
R2D2相当のLSTM学習(LSTMFUL)で使っているBurn-inの回数です。
ざっくりいうと、LSTMFULでは過去の状態(経験データ格納時)と現在の状態に差異があります。
ですので、学習前に今の状態に近づける為に学習しないで経験データを流す期間を設けましょうという手法です。
burnin_length を増やすと学習はより正確になりますが、学習コストが増えます。
reward_multisteps
Multi-Step learningにおけるstep数となります。
通常は1step分の報酬を使うが、n-step分の報酬を使用するというもの。
感覚的には少し未来の報酬まで視野にいれて学習する感じですかね(?)
3stepは論文で使用している値です。

アクション関係

	概要	型	例	備考
action_interval	アクション実行間隔	int	1	1以上
action_policy	アクション実行で使用する方策	Policy(独自実装)	下記参照

action_interval
アクションの更新間隔です。
例えば4にすると4フレーム毎にアクションが更新されます。
(更新されない間は同じアクションを実行します)
action_policy
アクションを実行する方策を指定します。
各方策の詳細については以前の記事を参照してください。

ε-greedy

ε-greedyは乱数(0.0～1.0)に対して $epsilon$ 以下ならランダムに行動、
それより大きければQ値が最大となるアクションを選びます。

EpsilonGreedy(
    epsilon
)

ε-greedy(Annealing)

DQNで使用された方法です。
ε-greedy における $epsilon$ を学習が進むにつれて低くする(Q値に従う)にする手法です。

AnnealingEpsilonGreedy(
    initial_epsilon=1,
    final_epsilon=0.1,
    exploration_steps=1_000_000
)

initial_epsilon
初期 $epsilon$ です。
final_epsilon
最終状態の $epsilon$ です。
exploration_steps
初期から最終状態になるまでの step 数を指定します。

ε-greedy(Actor)

Ape-Xで使用された方法です。
ε-greedy における $epsilon$ をActor数を基に計算したものとなります。

EpsilonGreedyActor(
    actor_index,
    actors_length,
    epsilon=0.4,
    alpha=7
)

actor_index
actorのindexを指定します。
actors_length
actorの総数です。
epsilon
基準となる $epsilon$ を指定します。
alpha
計算で使う定数です。

Softmax

Q値のSoftmax関数の確率分布でアクションを決める方法です。
要するにQ値が高いアクションほど選ばれやすくなり、低いアクションほど選ばれにくくなります。

SoftmaxPolicy()

引数はありません。

UCB(Upper Confidence Bound)1

UCB1は、Q値だけではなくそのアクションが選ばれた回数も加味してアクションを選ぶ手法です。
考え方はあまり選んでいないアクションはあまり探索が進んでおらず未知の報酬があるかもしれないので探索しようというものです。

UCB1()