arXiv Advent Calendar 2025

AdamW、Muon、そしてROOT

Posted at 2025-12-25

"ROOT: Robust Orthogonalized Optimizer for Neural Network Training" という論文の紹介です。

この論文は、大規模言語モデル（LLM）の学習が不安定になりがちな問題を、
「最適化アルゴリズムそのものの設計」から解決しようとする研究です。

何が問題だったのか

近年、AdamW に代わる手法として Muon のような
行列構造を意識した最適化手法が登場しました。

しかし、これらには次のような弱点があります。

つまり、
LLM のように巨大で多様な構造を持つモデルでは、
既存の最適化手法では限界が見え始めている、という状況です。

ROOT の最大の特徴は、2つの頑丈さを同時に満たす設計にあります。

Muon では、行列が正方でも長方形でも
同じ係数で直交化を行っていました。

ROOT ではこれを見直し、

することで、どんな形の層でも高精度な更新を可能にします。

大規模学習では、勾配に
異常に大きな値（外れ値） が混じることがあります。

ROOT はこれを、

することで対処します。

つまり、ノイズに振り回されず、学習の方向性を保つ設計です。

従来の Newton-Schulz 法は係数が固定で、
特定の行列サイズでは誤差が大きくなっていました。

ROOT では、

することで、この問題を解消しています。

結果として、
直交化誤差は Muon 比で最大 100 倍以上削減されています。

Momentum 行列に対して L1 正則化由来の
Soft-Thresholding を適用することで、

する更新が可能になります。

ROOT は以下の点で一貫して優れた結果を示しています。

特に注目なのは、最後の点で、CIFAR-10 の ViT（Vision Transformer）学習でも
Muon を大きく上回った点です。

LLM の事前学習での発散が怖いので、ゆっくりでもよいから絶対に学習を壊したくない、という設計意図かと思います。
ViT はあくまでも「これにも一応使えるよー」くらいの温度感でしょう。