Asynchronous Methods for Deep Reinforcement Learning
asynchronous gradient descentを用いたreinforcement learningの学習手法を提案する。
experience replayは過去の観測を定期的に再利用して学習する事で時間依存性を回避し学習性能を向上可能で、よく使われてきた。
本論では代わりにマルチエージェントをマルチCPU上でそれぞれ走らせ、異なった環境の観測を同時に与える事で時間依存性を回避した学習を可能にする。
これによりさらなる性能向上が可能で、かつGPUに頼らずCPUのみで計算時間を減らす事が可能である。
Learning and Inference via Maximum Inner Product Search, ICML2016
log-linear modelの学習を行う際、逐次的な確率推論を行う必要がある。
しかしその際必要になる正規化係数の計算はintractableな場合が多く、特に出力空間が大きい場合にはボトルネックとなる。
本論では、データベース系手法でsimilarity searchをもとにする事でこれを解決する。
それはmaximum inner product search(MIPS)に基いており、random perturbedされたMIPSを用いる事で、誤差がboundされた形で一般的なlog-linear modelからのサンプリングを可能にする。
またMIPSはその従来研究により低コストな計算も可能になっている。
Pixel Recurrent Neural Networks, ICML2016
教師なし学習における画像の分布学習を行う。
このモデルでは、画像のピクセルを逐次的に推定する。
画像なので縦横ピクセル間にリンクを持つ2次元のrecurrent networkを構成する。
また画像全体を考慮した依存関係も学習する。
ピクセル間のリンク構造はマルチスケール性、過去に生成したピクセルとの依存などを考慮したもの、などいくつかある。
このモデルはまたresnet構造も上手く取り入れている。