はじめに
Google Brainが2023年2月に出した最適化手法であるLionについての解説記事です。
- 論文
- プログラム
結論(時間のない方向け)
- AdamWより収束速度が速い最適化手法であるLionを提案
- 画像分類、自然言語処理、拡散モデルでAdamWより高速かつ高精度を達成(一部問題設定ではAdamWと同等)
手法
更新式
Lionの重みの更新式は以下である。
(正則化項を無視すると) $\beta_1$を用いて計算した擬似的な慣性項($c_{t}$)の符号( $sign(c_t)$ ) の向きに重みを更新する。
$\beta_1 =0.9$、$\beta_2 =0.99$であり、符号計算に用いる擬似的な慣性項( $c_{t}$ )よりも慣性項( $m_{t}$ )の方が過去の勾配情報を多く記憶している。
また上図ではAdamWと同様に正則化項( $\lambda \theta_{t-1} $ )を加えている。
動機
Lionは最適化手法自体を進化的に探索することで得られた。
詳細は2章(2.2、2.3節)で述べらており、以下のPrigram 8から進化的な探索によってLionを得た。
AdamWと比べた優位点
比較対象のAdamWの重み更新式は以下である。
AdamWでは勾配の二乗を指数減衰させた項( $\nu$ )を用いているため、Lionの方がメモリ効率がよく、計算時間が短くなる。
したがってLionでは大規模モデルや大きいバッチサイズでの学習で有利である。
実験
データセット(画像分類のみ)
- ImageNet系(ImageNet, ImageNet ReaLなど)
- ObjectNet
- CIFAR100
- OxFord-IIIT Pet
モデル(画像分類のみ)
- ViT系
他にも対照学習、自然言語処理、拡散モデルで
実験をしている。
結果
画像分類、対照学習、自然言語処理、拡散モデルでAdamWより高速かつ高精度を達成した。(一部問題設定(後述)ではAdamWと同等)
画像分類の結果
学習速度、精度の観点からAdamWよりも優れる。
AdamWと同等の結果
専門外の分野も混じっていて誤訳が怖いので原文を載せる。
- the Imagen text-to-image base model (テキストから画像を生成するモデル)
- the perplexity of autoregressive language model trained on the large-scale internal dataset, which is arguably a more reliable metric the in-context learning benchmarks
- masked language modeling on C4
これらのタスクは、データセットが大規模かつ高品質であるため、最適化手法間の差異が小さくなる。
筆者の所感
- 慣性項の向きだけで重みを更新した方がAdamよりも優れている点については、最適化手法を研究している自分からしても驚きである一方で納得はできる
- だが学習データの品質に依存していそう(データ間で勾配情報の絶対値の差が大きい場合など、LionだとAdamに負けそうだが?)
- SGDとの比較をして欲しかった。多分精度面で負けたはずなので、載せてないと思うが。
- 実験結果の量はさすがGoogle、リソースがエグすぎる。。。