1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AdamW、Muon、そしてROOT

Posted at

"ROOT: Robust Orthogonalized Optimizer for Neural Network Training" という論文の紹介です。

この論文は、大規模言語モデル(LLM)の学習が不安定になりがちな問題を、
「最適化アルゴリズムそのものの設計」から解決しようとする研究
です。


何が問題だったのか

近年、AdamW に代わる手法として Muon のような
行列構造を意識した最適化手法が登場しました。

しかし、これらには次のような弱点があります。

  • 行列の形状(正方・縦長・横長)によって精度が大きく変わる
  • 勾配に混じる極端なノイズに弱い
  • 大規模化するほど学習が不安定になる

つまり
LLM のように巨大で多様な構造を持つモデルでは、
既存の最適化手法では限界が見え始めている、という状況です。


ROOT の核心アイデア:Dual Robustness

ROOT の最大の特徴は、2つの頑丈さを同時に満たす設計にあります。

1. Algorithmic Robustness

Muon では、行列が正方でも長方形でも
同じ係数で直交化を行っていました。

ROOT ではこれを見直し、

  • 行列サイズごとに
  • 最適な係数を個別に計算

することで、どんな形の層でも高精度な更新を可能にします。

2. Optimization Robustness(ノイズに強い)

大規模学習では、勾配に
異常に大きな値(外れ値) が混じることがあります。

ROOT はこれを、

  • 勾配を「本体」と「外れ値」に分けて考え
  • Soft-Thresholding によって外れ値だけを抑制

することで対処します。

つまり、 ノイズに振り回されず、学習の方向性を保つ設計です。


ROOT を支える2つの技術

1. Adaptive Newton-Schulz Iteration(AdaNewton)

従来の Newton-Schulz 法は係数が固定で、
特定の行列サイズでは誤差が大きくなっていました。

ROOT では、

  • 行列サイズごとに
  • 直交化誤差が最小になる係数を学習

することで、この問題を解消しています。

結果として
直交化誤差は Muon 比で最大 100 倍以上削減されています。

2. Soft-Thresholding による近接最適化

Momentum 行列に対して L1 正則化由来の
Soft-Thresholding を適用することで、

  • 外れ値は抑えつつ
  • 有効な勾配方向は保持

する更新が可能になります。


実験結果から分かること

ROOT は以下の点で一貫して優れた結果を示しています。

image.png

image.png

  • 学習の安定性:損失が発散しにくい
  • 収束速度:より早く低損失に到達
  • 汎化性能:下流タスクで高スコア
  • 汎用性:LLM だけでなく Vision モデルでも有効

特に注目なのは、最後の点で、CIFAR-10 の ViT(Vision Transformer) 学習でも
Muon を大きく上回った点です。


まとめ

LLM の事前学習での発散が怖いので、ゆっくりでもよいから絶対に学習を壊したくない、という設計意図かと思います。
ViT はあくまでも「これにも一応使えるよー」くらいの温度感でしょう。

参考

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?