World Models
強化学習モデルのための環境生成モデルを提案する。
実際の環境を観測としてこのモデルは教師なしで環境の空間的、時間的な表現を
獲得する。
エージェントはこの生成された環境の上で学習する事で
要求タスクを解く方が出来るモデルを学習可能な事を示した。
またこうして学習したモデルはそのまま実際の環境に応用可能である。
SqueezeNext: Hardware-Aware Neural Network Design
組込み系へのdeepnetの適用において、メモリ消費と電力消費が
大きなボトルネックとなってきた。
本論ではそうした問題に対象したネットワークとして
SqueezeNetをベースとしたSqueezeNextを提案する。
例えばこのネットワークはAlexNetと同程度の性能を保ちながら、
112分の一までパラメータを減らした。
従来のSqueezeNetと違ってこのネットワークは
two stage squeeze moduleを導入する事でより多くのchannel reductionに
成功した。
また3x3 convolutionを3*1と1*3に分けるseparable convolutionを利用し
パラメータを削減した。
さらにresidual connectionも導入しResNetの構造を取り入れた。
Forward-Backward Reinforcement Learning
強化学習では主に人の手でデザインされたreward関数に沿って学習が行われる。
この場合アルゴリズム設計者はタスクの目的を的確に表現する必要がある。
また加えてエージェントは非常に疎なreward関数を超えて自分自身で
そうしたタスクの目標を見つけ出す事も求められている。
しかしこの要求は学習プロセスを非常に難しいものにしてしまっている。
本論ではこの問題を緩和するために、通常の学習に加え、タスクの目標から
逆算してそこにたどり着くにはどうしたらよいかを予測させる学習も組み合わせる。