Unifying Count-Based Exploration and Intrinsic Motivation, NIPS2016
強化学習において、agentから見た環境の不確実性を扱い、また複数の観測を通した不確実性の一般化を行う。
ここでは特に、tabular形式でない(連続的?)空間における探索を考える。
Intrinsic motivationの考え方を応用し、sequential density modelにより不確実性を測る。
また任意のsequential density modelよりpseudo-countを導出する手法を提案する。
この手法を用いる事でcount-basedの探索モデルをnon-tabularなモデルに対しても適用可能になる。
Difference Target Propagation, ECML/PKDD2015
誤差伝搬法は偏微分を用いて各重みに対する勾配の割り当てが行われ、それらは極小値になるため、多層または非線形なモデル構造の場合はその活用が難しい。
こうした誤差伝搬手法は生物学的にも説明がつけ難いものであり、従来いくつかの代替的な割り当て手法が提案されてきた。
本論では新たなにtarget propagationと呼ばれる割り当て手法を提案する。
この手法は勾配ではなくニューロンそのものを直接計算する。
そしてこの結果は誤差伝搬法と同じく伝搬していく。
従来の代替手法は対称行列の重みで成り立つbackwardネットワークを用いるが、今回提案するものは各層において定義したauto-encoderを用いる。
この手法を用いた場合、実数だけでなくbit情報を用いたやり取りが可能になる。
Auto-encoderの不完全性を線形補間していくモデルを利用する事でtarget propagationがより良く働く。
Ladder Variational Autoencoders, NIPS2016
Variational autoencoderは教師なし学習において威力を発揮するモデルである。
しかし多層モデルの場合は各層間で長く繋がった依存関係を持つ変数の学習は難しくなってくる。
本論で提案する手法はLadder networkをベースにしており、各層毎に生成分布を考え、それらをrecursiveに集めてくる事でよりタイトな変分下界を利用可能になる。