はじめに
本記事では以下を整理します:
- 最適化アルゴリズム(SGD〜Adam)
- 活性化関数(Sigmoid〜Softmax)
- 学習率(固定/動的/最適化アルゴリズム内調整)
- 現代的な定番の組み合わせ
最適化アルゴリズム
- SGD
- Momentum(SGD + 慣性)
- SGD + Momentum
- Adagrad
- RMSProp
- Adam
活性化関数
- Sigmoid
- tanh
- ReLU
- Leaky ReLU
- Softmax
学習率
- 固定
- スケジューリング
学習率の種類
固定学習率
動的(スケジューリング)
- Step Decay、Exponential Decay、Cosine Annealing + Warmup、Cyclical Learning Rate
最適化アルゴリズム内部で調整される学習率 - Adagrad、RMSProp、Adam
現代の定番組み合わせ例
- Adam + ReLU/GELU + スケジューリング(Cosine Annealing + Warmup)
- SGD + Momentum + Step Decay + ReLU
組み合わせごとの良し悪し
理屈では全ての組み合わせが可能でも、実際には以下で選定されやすい
- モデルの深さや規模、収束速度や汎化性能との兼ね合いで選ぶ
- Adam系は速く安定、SGD系は最終的な精度が高い傾向