機械学習論文読みメモ_17 #機械学習

Stochastic Variance Reduction for Nonconvex Optimization, ArXiv
非凸関数の和を最小化する問題を考える。
本論ではSGDの発展系であるstochastic variance reduced gradient(SVRG)を考える。
これはSGDの分散挙動を制御する手法で、線形オーダーも実現可能な高速手法になる。
しかしこの手法は非凸問題に関しては詳細な理論解析がされてこなかった。
本論では、パラメータの慎重な設定を持ってすれば、凸関数同様、従来のSGD、GDよりも早い収束が可能な事を示した。

On the Quality of the Initial Basin in Overspecified Neural Networks, ICML2016
ランダム初期化と、ReLU関数に基づいた非線形Neural Networkの構造を幾何学的に解析する。
それによれば、高い確率である初期値を得たときに、それは全体最適値へ単調減少していく、あるいはすでに小さい目的関数の値を持つ、事が分かった。
このような特性は、大きいネットワークに対してより良く起きやすい。

Stochastically Transitive Models for Pairwise Comparisons: Statistical and Computational Issues, ArXiv
ペアワイズ比較データに関するモデルで、パラメトリックなモデルにはBradley-Terry-Luce(BTL) model, Thurstone modelがある。
BTLはあるアイテムがもう一つのアイテムよりも好まれる確率を表し、例えばロジットモデルのような形で表せる。
Thurstone modelは潜在変数モデルで、各評価者毎にある潜在変数が決まって、それにより全アイテムに関するランクは決定的に決まる。
評価者に対応する潜在変数は真値を中心にガウス分布するモデルによって確率的に決まる。
しかしながらこれらはパラメータに強く依存しており、表現力に制限がある。
本論ではより柔軟性の高きモデルを提案し、確率的に推移律を満たす事だけを要求するモデルとなっている。
このモデルはBTLとThurstoneを含む一般化されたモデルとなる。
しかしその最適化は簡単ではなく、その最適化のためのいくつかの手法を提案している。