Variational Information Maximizing Exploration
スケーラブルかつ効率的な探索はreinforcement learningにおいて重要である。
しかし従来手法はε greedyやgaussノイズの付与など、ヒューリスティクスに頼っている。
本論で提案する手法は、agentとの環境に対するbeliefの情報利得を最大化させるような探索を行う。
これは従来curiosityやsurpriseと呼ばれる概念で、環境のuncertaintyを最も減少させる(情報利得最大)ような状態を選択していく。
この情報利得はベイジアンNNに関する変分推論により解く。
この手法はreinforcement learningの手法に広く適用可能である。
Guided Policy Search, ICML2013
Reinforcement learningにおいて直接policy関数を最適化するDirect policy search(例えばpolicy gradient)は高次元のシステムに対してもスケールする手法であるが、何百ものパラメータが存在するような複雑なポリシーに対して学習を行う事は難しく、局所解に陥りやすい。
本論では、trajectory optimizationを用いる事で局所解を回避する手法を提案する。
この手法は2次微分までを用いるdifferential dynamic programmingの考え方を用いる事で、学習に最適なサンプル(guided sample)を生成する。
これらのサンプルを用いた学習を行う事で最適化性能を改善可能である。
FLAG: Fast Linearly-Coupled Adaptive Gradient Method
Nesterov’s accelerated gradient methodは1次オーダーにおいて最適なcomplexityを維持可能で、通常のgradient descentと比較して高速化が可能な手法である。
一方で良いregularizerとしてmirror descentと双璧をなすAdaGradは、gradientを適応的リスケールを行う。
最近においては、accelerated gradientはgradient descentとmirror descentの線形和とみなせる事がわかってきた。
この事実に注目し、本論ではacceleratedされたAdaGradを提案する。
この手法はT iterationに対して1/T^2の収束レートを実現可能である。