Preconditioned Stochastic Gradient Langevin Dynamics for Deep Neural Networks, AAAI2016
Deep learningの学習には2つの大きな課題がある。
1つ目はパラメータ空間におけるこれらモデルの形状は病的な曲率を持つ事である。
従来研究はSGDに対してadaptive preconditioningを行う事でこれに対処してきた。
この手法はパラメータ空間の局所構造に合わせて最適化を行う事で性能を改善する。
2つ目は過剰適合の問題で、これはearly stoppingを活用する事で対象可能である。
しかし最近の研究によってbaysian model averagingを活用する事で可能である。
モデルに関わる事後分布はstochastic gradient Langevin dynamics(SGLD)を通してサンプリング可能であるが、曲率が激しく変わるようなパラメータ空間においては、あまり有効ではない。
本論ではadaptive preconditionerをSGLDに組み合わせる事でこれに対処する手法を提案する。
またこの手法に関するasymptotic convergenceやpredictive riskに関する理論的特性を与える。
Renyi Divergence Variational Inference
従来の変分推論をrenyi divergenceを用いて構築する。
この新たな枠組みは既存の様々な手法を統一可能で、パラメータαをコントロールする事でevidence lower-bound(ELBO)からlog周辺化尤度までを内挿する事ができる。
Reparameterization trick, monte carlo近似, stochastice optimizationを利用する事で統一的な最適化フレームワークを提供する。
ALL YOU NEED IS A GOOD INIT, ICLR2016
新しいdeep learningの初期化手法としてlayer-sequential unit-variance (LSUV)を提案する。
これは2つのステップから成り立つ。
まずはじめにプレ初期化として正規直交行列により初期化する。
その次に、最初の層から順に、各層の出力の分散を1にしていく。
従来、モデルによって異なった初期化プロセスが要求されるが、提案手法は統一的に利用可能である。
実際、Maxout, ReLU, tanhなどの活性化関数を用いた時に実験的に、テスト時の性能が通常手法以上になり、FitNetsやHighway netなどの複雑なvery deep netと同等以上の速度を持つことができる。