LoginSignup
29
30

More than 5 years have passed since last update.

【論文シリーズ】強化学習と深層学習を組み合わせる

Last updated at Posted at 2016-06-06

原文

強化学習における自己符号化器付き深層ニューラルネットワーク(Deep Auto-Encoder Neural Networks in Reinforcement Learning)
Sascha Lange and Martin Riedmiller (2010)

1. 要約

  • (メモリ基盤の)バッチ強化学習(Reinforcement Learning; RL)アルゴリズムを考案した。これにより、自己符号化器でDNN (Deep Neural Network)を学習し、特徴空間を創出することができる。
  • メインの機械学習アルゴリズムは、MLP(Multi Layer Perceptions) 、いわゆる多層自己符号化器を使う。

2. 背景

強化学習は、次の2ステップからなる。
①入力データから特徴を抽出する
②特徴空間から、教義(Policy)を学び、行動に落としこむ
これまで、①は人の手で行われてきたが、Deep Learningが取って代わるように期待されている。

3. 骨子の理論

全体の分析構図を以下に示す。
ポイントは、DLで取得した特徴空間を、従来のRLの学習アルゴリズム(Fitted Q-Iteration)に組み込む点である。
強化学習の基礎は、他書に譲るが、エージェント(学習する主体)は、Q値(関数)を貪欲法(Greedy method)という計算規則で算出し、その値に基いて、行動規範(Policy)を決定する。

151125112601_1.JPG

151125112601_2.JPG

3. モデル適用例

6*6=36ピクセルの画像を用意し、アルゴリズムのもとで事前学習(特徴抽出)。
400エポックで、分類が完成した。

151125112601_3.JPG

上図の分類は、自己符号化器の文脈で行われている。入力データの再構成時の元データとの誤差について、その他の手法と比較した。

151125112601_4.JPG

主成分分析に比べて、誤差が拮抗している点もある。
だが、マニュアルの特徴抽出が可能な点で、この手法の優位性が立つ。
最後に、学習させたパターンに基づき、エージェントに行動させた時の報酬(Reward)関数の結果を示す(これは強化学習の文脈)。
300回あたりで、極大に近づき、600エピソード経過したところで、ほぼ最大報酬に収束した。

151125112601_5.JPG

29
30
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
29
30