More than 1 year has passed since last update.

【Lion】Adamを超えたEvoLved Sign Momentum

Last updated at 2023-02-28Posted at 2023-02-28

はじめに

Google Brainが2023年2月に出した最適化手法であるLionについての解説記事です。

Lionの重みの更新式は以下である。

(正則化項を無視すると) $\beta_1$を用いて計算した擬似的な慣性項($c_{t}$)の符号( $sign(c_t)$ ) の向きに重みを更新する。

$\beta_1 =0.9$、$\beta_2 =0.99$であり、符号計算に用いる擬似的な慣性項( $c_{t}$ )よりも慣性項( $m_{t}$ )の方が過去の勾配情報を多く記憶している。

また上図ではAdamWと同様に正則化項( $\lambda \theta_{t-1} $ )を加えている。

Lionは最適化手法自体を進化的に探索することで得られた。

詳細は2章(2.2、2.3節)で述べらており、以下のPrigram 8から進化的な探索によってLionを得た。

比較対象のAdamWの重み更新式は以下である。

AdamWでは勾配の二乗を指数減衰させた項( $\nu$ )を用いているため、Lionの方がメモリ効率がよく、計算時間が短くなる。

したがってLionでは大規模モデルや大きいバッチサイズでの学習で有利である。

他にも対照学習、自然言語処理、拡散モデルで
実験をしている。

画像分類、対照学習、自然言語処理、拡散モデルでAdamWより高速かつ高精度を達成した。(一部問題設定(後述)ではAdamWと同等)

学習速度、精度の観点からAdamWよりも優れる。

専門外の分野も混じっていて誤訳が怖いので原文を載せる。

the Imagen text-to-image base model (テキストから画像を生成するモデル)
the perplexity of autoregressive language model trained on the large-scale internal dataset, which is arguably a more reliable metric the in-context learning benchmarks
masked language modeling on C4

これらのタスクは、データセットが大規模かつ高品質であるため、最適化手法間の差異が小さくなる。