LoginSignup
7
8

More than 5 years have passed since last update.

Playing Atari with Deep Reinforcement Learningを読んだ

Last updated at Posted at 2018-05-28

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
NIPS Deep Learning Workshop 2013
arXiv, pdf

どんなもの?

強化学習の行動価値関数Qの学習にDNNを使用(Deep Q-Networksを提案).
Arcade Learning Environment (ALE) にて7つのAtari 2600 gamesに対して実験を行った.
7つのうち6つのゲームのスコアで従来の学習手法を上回り,3つのゲームのスコアで人間(エキスパート)を上回った.
スクリーンショット 2018-05-28 18.42.42.png

先行研究との差分

Q関数をDNNに.
入力はゲーム画面($84\times84\times4$).
これまでの手法のような事前の特徴量の設計が不要になった.

技術や手法のキモ

  1. ロス関数
    誤差計算の際,目標値に一つ前の反復におけるDNNの予測値を用いる.
  2. experience replay mechanism [Lin et al. 1993]
    データの相関や学習の安定のために,過去の経験をメモリー (replay memory) に溜めておき,ランダムに選び学習に使用する.(?)

  3. 報酬をゲームに依らず一定に
    ゲームの種類によって報酬は異なるが,それを一定に(ポジティブな報酬は1,ネガティブな報酬は−1に).

  4. 学習時の$\epsilon$
    $\epsilon$-greedy法の$\epsilon$は初めの100万フレームで1から0.1に線形に落としていき,その後は0.1で固定.

  5. frame-skipping technique [Bellemare et al. 2013]
    学習の効率化のために$k$フレーム毎の$k$枚の画像を使用して行動を選択($k=4$,Space Invaders は$k=3$).

どうやって有効性を検証したか

7種類の Atari 2600 games に対して実験を行い検証.
評価の方法としては,Bellemare et al.[3, 5]で用いられたものを使用.
$\epsilon=0.05$で固定.
表の上側はゲーム毎の平均スコア.ほとんど事前の知識を情報として与えていないが,比較手法を上回っている.
表の下側は異なるアプローチの手法との比較.比較手法はhand-engineeredな物体検出アルゴリズムや,物体のラベルマップを使用しているものの,Space Invadersを除いて提案手法が比較手法を上回っている.

スクリーンショット 2018-05-28 18.54.34.png
スクリーンショット 2018-05-28 18.54.43.png

議論はあるか

新たな深層強化学習のモデルを提案した.

次に読むべき論文

DQN をもっと詳しく

比較手法

深層強化学習の動向 / survey of deep reinforcement learningより,DQNの改良版.

7
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
8