More than 5 years have passed since last update.

Playing Atari with Deep Reinforcement Learningを読んだ

Last updated at 2018-05-29Posted at 2018-05-28

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller
NIPS Deep Learning Workshop 2013
arXiv, pdf

どんなもの？

強化学習の行動価値関数Qの学習にDNNを使用（Deep Q-Networksを提案）．
Arcade Learning Environment (ALE) にて７つのAtari 2600 gamesに対して実験を行った．
７つのうち６つのゲームのスコアで従来の学習手法を上回り，３つのゲームのスコアで人間（エキスパート）を上回った．

先行研究との差分

Q関数をDNNに．
入力はゲーム画面（$84\times84\times4$）．
これまでの手法のような事前の特徴量の設計が不要になった．

技術や手法のキモ

ロス関数
誤差計算の際，目標値に一つ前の反復におけるDNNの予測値を用いる．
experience replay mechanism [Lin et al. 1993]
データの相関や学習の安定のために，過去の経験をメモリー (replay memory) に溜めておき，ランダムに選び学習に使用する．（?）
報酬をゲームに依らず一定に
ゲームの種類によって報酬は異なるが，それを一定に（ポジティブな報酬は１，ネガティブな報酬は−１に）．
学習時の$\epsilon$
$\epsilon$-greedy法の$\epsilon$は初めの100万フレームで1から0.1に線形に落としていき，その後は0.1で固定．
frame-skipping technique [Bellemare et al. 2013]
学習の効率化のために$k$フレーム毎の$k$枚の画像を使用して行動を選択（$k=4$，Space Invaders は$k=3$）．

どうやって有効性を検証したか

７種類の Atari 2600 games に対して実験を行い検証．
評価の方法としては，Bellemare et al.[3, 5]で用いられたものを使用．
$\epsilon=0.05$で固定．
表の上側はゲーム毎の平均スコア．ほとんど事前の知識を情報として与えていないが，比較手法を上回っている．
表の下側は異なるアプローチの手法との比較．比較手法はhand-engineeredな物体検出アルゴリズムや，物体のラベルマップを使用しているものの，Space Invadersを除いて提案手法が比較手法を上回っている．

議論はあるか

新たな深層強化学習のモデルを提案した．

次に読むべき論文

DQN をもっと詳しく

Human Level Control Through Deep Reinforcement Learning

比較手法

深層強化学習の動向 / survey of deep reinforcement learningより，DQNの改良版．

Double DQN
- Double Q-learning
- Deep Reinforcement Learning with Double Q-learning
Dueling DQN
- Dueling Network Architectures for Deep Reinforcement Learning
Prioritized Experience Replay
- Prioritized Experience Replay
非同期学習
- Asynchronous Methods for Deep Reinforcement Learning

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up