LoginSignup
1
2

More than 5 years have passed since last update.

機械学習論文読みメモ_63

Posted at

Preconditioned Stochastic Gradient Langevin Dynamics for Deep Neural Networks, AAAI2016
Deep learningの学習には2つの大きな課題がある。
1つ目はパラメータ空間におけるこれらモデルの形状は病的な曲率を持つ事である。
従来研究はSGDに対してadaptive preconditioningを行う事でこれに対処してきた。
この手法はパラメータ空間の局所構造に合わせて最適化を行う事で性能を改善する。
2つ目は過剰適合の問題で、これはearly stoppingを活用する事で対象可能である。
しかし最近の研究によってbaysian model averagingを活用する事で可能である。
モデルに関わる事後分布はstochastic gradient Langevin dynamics(SGLD)を通してサンプリング可能であるが、曲率が激しく変わるようなパラメータ空間においては、あまり有効ではない。
本論ではadaptive preconditionerをSGLDに組み合わせる事でこれに対処する手法を提案する。
またこの手法に関するasymptotic convergenceやpredictive riskに関する理論的特性を与える。

Renyi Divergence Variational Inference
従来の変分推論をrenyi divergenceを用いて構築する。
この新たな枠組みは既存の様々な手法を統一可能で、パラメータαをコントロールする事でevidence lower-bound(ELBO)からlog周辺化尤度までを内挿する事ができる。
Reparameterization trick, monte carlo近似, stochastice optimizationを利用する事で統一的な最適化フレームワークを提供する。

ALL YOU NEED IS A GOOD INIT, ICLR2016
新しいdeep learningの初期化手法としてlayer-sequential unit-variance (LSUV)を提案する。
これは2つのステップから成り立つ。
まずはじめにプレ初期化として正規直交行列により初期化する。
その次に、最初の層から順に、各層の出力の分散を1にしていく。
従来、モデルによって異なった初期化プロセスが要求されるが、提案手法は統一的に利用可能である。
実際、Maxout, ReLU, tanhなどの活性化関数を用いた時に実験的に、テスト時の性能が通常手法以上になり、FitNetsやHighway netなどの複雑なvery deep netと同等以上の速度を持つことができる。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2