Metadata Dependent Mondrian Processes, ICML2015
関係データ分析問題を扱う。
この問題は基本的には、データをadjacency matrix(誰と誰がSNSで友達なったか等)で表現し、行と列を部分的に集めブロック構造を抽出する。
ここでは、確率的なパーテション生成モデルを考える。
従来手法では、ブロック数をchinese restaurant processで可変にしたinfinite relational modelとその拡張であるMondrian Processがある。
特にMondrian Processは柔軟性が高いモデルだが、その分スパースなデータなどに対しては過剰適合が起きやすく、収束しにくい問題がある。
本論では、メタ情報、例えば同じ大学に属しているもの同士は友達になりやすい、を活用する事でこれを克服する。
このメタ情報が分散する方向にパーテションを行いやすくする事で、アクセプトされやすいパーテション生成が行いやすくなる。
Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML2015
モデルのflexibilityとtractabilityを両立させる事は難しく、どちらかを犠牲にするか、近似モデルに頼る事が一般的である
本論ではそれら2つを両立させるモデルを提案する。
非平衡熱力学の知見を元にしており、ある分布からある分布へ遷移していくようなマルコフ連鎖を用いる。
これにより単純なガウス分布と複雑な分布を完全な形で対応させる。
この遷移の過程はdiffusion processと呼び、diffusion時に与えられる摂動を予測する事で上記分布間対応を可能にする。
これは分布そのものを予測するよりも簡単である。
提案モデルは結局、柔軟性が高く、正確なサンプリングが可能で、分布同士の掛け算が可能で、対数尤度や確率が低コストに計算可能である。
A Deeper Look at Planning as Learning from Replay, ICML2015
reinforcement learningにおける価値関数予測に基づいた学習手法は主に2通りある。
1つ目はmodel free methodでサンプルから直接価値関数を予測し、experience replayと組み合わせられる。
2つ目はmodel based methodで環境をモデル化し、そのモデルに基づいて価値関数を予測する。
この2つの手法間における違いは明らかではない。
特に理論面においては、線形な二乗誤差損失のモデルにおいては両者は一致する事が示されているが、実用上は計算上の問題で結局一致しなかったりする。
本論では、明確に両者のモデルが一致する事を初めて示した。
この時、新たなreplayベースの一般的手法を提案し、これがmodel freeからmodel based手法までの間を繋げる事を可能にした。