Self-Imitation Learning
本論ではself-imitation learningを提案する。
この手法はエージェントの過去の良い決定を再現するよう学習を行う
off-policy actor-critic algorithmである。
本論の仮説である、より深い探索は過去の良い経験によって間接的に導かれる、
という考えの正しさを本論は示した。
Evolving simple programs for playing Atari games
Cartesian Genetic Programming (CGP)は関数集合に対する選択と組合せを通して
プログラムを構築プロセスに関し、それを遺伝的アルゴリズムにより発展させていく手法である。
CGPは特に画像処理に関してその可能性を示してきた。
本論ではCGPをAtariゲームのプレイに適用する。
提案するCGPでは、行列計算に関する処理を関数集合に含め、
結果画像処理や制御挙動を可能にする。
プログラムサイズは小さいが、SOTAモデルと同等の性能を持つ事が
可能である。
DARTS: Differentiable Architecture Search
本論ではneural architecture searchを微分可能形式に定式化する事で
スケーラビリティを改善する手法を提案する。
離散あるいは微分不可能な探索空間に対する強化学習や遺伝的アルゴリズムに基づいた
手法と違い、構造表現の連続緩和に基づいてSGDによる効率的な探索を提案手法は実現する。
提案手法はネットワーク構造をdirected acyclic graph (DAG)で表現し、そのDAGにおける
接続パターンをsoftmax関数を用いた連続緩和表現を利用することで微分可能な形にしている。