機械学習論文読みメモ_145 #機械学習

Bayesian Coreset Construction via Greedy Iterative Geodesic Ascent
Bayesian inferenceは曖昧さを明確に扱うフレームワークとして有用である。
しかし実際の事後分布計算などにおいては、スケーラビリティのために近似計算
が行われる事が多く、その有用性を活かしきれていない。
本論では、従来研究であるBayesian coreset constructionが同じ問題を抱えている
事をまず示す。
Bayesian coreset constructionはlog likelihoodが選ばれたサンプルの重み付け和近似できるような
サンプルを探す問題である。
従来研究では、log-likelihoodをスケーリングする必要があり、それが最適性を妥協する
原因になっていた。
本論ではこの手法の問題点を解決するために、log-likelihood optimalityの元
スケールさせられるようなBayesian coreset consturctionの手法を提案する。
greedy iterative geodesic ascent (GIGA)と呼ばれるこの手法は
coreset sizeに対してgeometric decayのオーダーで事後確率近似誤差を
減らす事が出来る。
ＧＩＧＡはlog-likelihoodをスケーリングさせる問題は最適な形で解析的に解く。
それと別な形で残るhyperspherical manifold上に与えられた問題に対して。
一点ずつgreedyにcoresetを選んでいくアルゴリズムを用いている。

Efficient Neural Architecture Search via Parameters Sharing
高速で効率的な自動モデル探索手法としてEfficient Neural Architecture Search (ENAS)を提案する。
ＥＮＡＳ内のコントローラモデルはネットワークの計算グラフに対して最適なsubgraphを探索する。
この探索はsubgraphがvalidation setにおける報酬が最大化されるように勾配法により学習される。
同時に選択されたsubgraphはcross entropy lossを最小化するよう学習される。
この時subgraphと元のネットワークの間でパラメータが共有されているため高速に処理できる。

Batch Kalman Normalization: Towards Training Deep Neural Networks with Micro-Batches
batch normalizationはdeep learningの性能向上のために欠かせない構造である。
しかしこの構造はバッチサイズが小さい場合に効果を発揮できない。
本論ではこの問題を解決するための手法としてBatch Kalman Normalization (BKN)を
提案する。
この手法では、normalizationをネットワーク全体に対して行うことを考え、
特に各層に対してそれ以前の層の情報を取り入れながらnormalizationを行う。
この手法はKalman filteringの手法にモチベートされている。
ＢＫＮを用いる事でより高速な学習の収束が期待できる。
また学習されたモデルの性能も向上させる事が出来る。