CLIPは2021年の2月に出ていろいろなモデルに使われた。
特に最近はStableDiffusionなどのtext-to-imageなどにも使われている。
このCLIPのTextEncoderの後継者について調べ、今後のtext-to-imageの未来が明るいのかどうかを調べたい。
0. ViT & Transformer
CLIPの構成はViTとTransformerだが、ViTはImageEncoderであり、今回調べたいTextEncoderではない。
1. CLIPモデル
本家のCLIPモデル。
TextEncoderのパラメータは123Mで割と軽量である。
1.1 ALIGN、Florence
対照学習をするという意味でCLIPと類似にALIGN、Florenceなどがある。
それぞれCLIPより性能は上だが今回この事を書きたいわけではない。
ALIGN:
ALIGNはViT+TransformerではなくEfficientNet+BERTである。
Florence:
FlorenceはCoSwin Transformer+Transformerである。
言語モデルの詳細はないがlanguage transformer with 256M parameters
とある。
2. T5モデル
さて、以下はT5のモデルの情報に関して整理する。
ここでT5モデルは基本的にencoderとdecoderのセットだからencoderのみならそのサイズは半分だと思われる。
モデルの幅(Width)はそれほど大きくなく(1024)、T5-largeでレイヤー数を24まで増やした後、MLP層の倍率を増やしている。ただし、CLIPと違って単なる自然言語モデルなので画像との対応付けはない。
この記事によればT5-XXLは16GBでは動かなく、A100(40GB)で動かせる。
モデルサイズは46GBである。これはパラメータ11B*fp32と合う。
TextDecoderは不要でTextEncoderのみで良ければおそらく20GBでも動かせるのではないかと思われる。
3. Imagen
ImagenではCLIPの代わりにText encoderとしてT5-XXLモデルが使われている。
ここでCLIPは画像テキストペアで学習されるのに対して、T5モデルはテキストのみで学習される。
画像の入力が存在しないためT5は一般にこの問題に対し弱い筈だが、T5モデルはCLIPよりも非常に大きなサイズである。
以下の図からBERT-Base,BERT-Large,T5-Base,T5-Large間ではあまり差はない。
T5-XLとT5-XXLでT5-Baseよりも大きな性能向上が見られる。
しかしながら、実はCLIPとT5-XXLでCLIP ScoreやFID Score上はほとんど差は見られない。
もしかしたらCLIPモデルでCLIP Scoreを計るのはCLIPに有利すぎるのかもしれない。
しかし、CLIP Score上は大差がないが、実際に人間が評価した場合は差が見られる。
特に大きな差があるのはDescriptions(複雑で長いpromptの理解)とText(テキストの生成能力)、Misspelings(スペルミスの理解)である。それ以外はそれほど変わらない。
Textの出力精度は以下の通りである。
4. Parti
Partiは自己回帰モデルだが、Encoder LayersがText Encoderで、Decoder Layerが自己回帰モデルだと思われる。
従ってText encorder部分の大きさを整理すると以下の様に思われる。
正確にはViTのパッチ分割部分は別途パラメータが必要なので半分と見積もるのは厳密ではない。
Parti-350MからParti-750MはDecoder(自己回帰モデル)のレイヤー数が増加しただけでText Encoder自体は変化していない。CLIPのデフォルトWidthである756より大きい1024だが、テキスト描画性能はあまり高くない。
Parti-750MからParti-3Bはレイヤー数同じでViT&Transformerの両モデルの幅を単純に2倍にするという雑な拡大しているが、精度の向上幅は大きく見える。また、レイヤー数は12で重要でないように見える。
Parti-20BはParti-3Bからレイヤー数増加、幅を2倍にしている。欠点としてはパラメータ数は4BでありT5-XXLのサイズに匹敵する。これはA100のような高性能GPUでないと動かせないであろう。
5. DALL-E2
DALL-E2のTextEncoderは以下からT5-XLと同程度のモデルサイズと考えられる。
こう見えてDALL-E2はStableDiffusionよりもテキスト生成能力がある。
6. CoCa
構成は以下の様な構成なのでCLIPにおけるTextEncoderはUnimodal Text Decoderが相当すると思われる。
UnimodalとMultimodalのモデルサイズは基本的に等価なのでTextEncoderの大きさを整理すると以下になる。CoCa-BaseはCLIPとText-encorderのサイズはさほど変わらないのに何故か性能が上がっている。CoCaを使えばCoCa-baseでも拡散モデルの性能が向上するかは不明である。
一方、T5-XXL(5.5B)やParti-20B(4B)のText Encoderと比較するとモデルサイズは常識的な範囲である。
モデルサイズ的にはT5-Large(385M)やParti-3B(750M)あたりと近い。
CoCaは公開されていないが(2022/11現在)、Pretraining CoCa takes about 5 days on 2,048 CloudTPUv4 chip.
とあるので、TPUv4_1chipは1chipあたり97円/h(プリエンプティブル)とすれば学習コストは97×2048×120=2400万円程度でStable Diffusionの学習コスト60万ドルよりは安い。
7. PaLI
Transformerに多言語モデルmT5を用いている。
CoCaと構造は似ているが、ViT出力がTransformerEncoderに入っている。
CoCaはViT出力がTransformerDecoderに入っていた気がする。
従ってモデル構造は似ているがCLIPとは別物の可能性がある。
むしろBLIPのVQA構成と近いのかもしれない。
画像に対して正確なCaptionを与える問題はstable diffusionの学習と無関係ではない。
実際、画像にCaptionを付与する性能はCoCaよりも上である。
モデルサイズの情報は以下の通り。
ViT方面ではCoCaより巨大なViTを用いている。Text EncoderはmT5を用いている。
mT5についてはT5の多言語版として設計されたモデルでサイズは以下の通りである。
T5と同じくEncoderとDecoderが繋がっているのでText Encoderのサイズは半分だと思われる。
https://arxiv.org/pdf/2010.11934.pdf
8. GPT2 & GPT3
GPT2では1.5Bのモデルが公開されているが、GPT3系はOpenAIが公開していない。
EleutherAIが公開するGPT-NeoX-20Bが公開されている最大モデルだと思われる。
9. PaLM
T5-XXLを遥かに上回るモデル。前述のGPT-3(175B)よりも大きい。
10. eDiff-I
CLIPとT5のTextEncoderを両方使う。両方使うと片側だけより性能が上がる。
TextEncoderの詳細についてはT5-XXLとCLIP L/14である。
また、構成を調べると
の記述から推定するに以下の様な拡散モデルであろう。
これからTextEncoderは5.5Bと推定され、上述のT5-XXLのサイズと一致するのが確認できる。StableDiffusionのUnetは860Mなのでサイズ的には拡散モデルに大きな差はない。
StableDiffusionはSR部分が拡散モデルでなく単なるVAE(一回の実行で済む)なのでConfig-BのSRモデルの分割はStableDiffusionでは意味がない。
Config-CやDはモデルを保持するGPUメモリの消費が2倍や3倍になるが拡散モデルを通る回数は変わらないのでSamplig時間自体は増えない。モデルを保持するGPUメモリの消費が2倍や3倍になる事自体はfp16とかを考えればStableDiffusionでもまだ受け入れられる。
M(3,7)がM(3,0)を元にするとあるがM(2,3)の誤記ではないかと思われる。
M(2,1)やM(2,2)の学習は学習してもその後使われてないが、どう駄目だったかに関しては読み取れない。おそらく拡散モデルのSamplingの中間部分を分割するメリットは少ないのだろう。ベースの拡散モデルの最初と最後の部分のみが重要である。また、中間部分もそれらエキスパート部分を除いて学習する。
11. laion/CLIP-ViT-H
OpenAIが公開しているのはCLIP-ViT-Lまでだが、LAIONが公開しているCLIP-ViT-Hはそれより大きい。
config.jsonによれば以下の様でありT5-largeと等しいと思われる。しかし、CoCaやParti-3BのTextEncoderよりは現時点では小さい。
12. Chinese CLIP
中国語のCLIPモデル。モデルはRoBERTa(BERTの派生)である。
上述のViT-Hと同じサイズまで存在し、公開されている。
13. AltCLIP
AltDiffusionで使われているCLIPモデル。
サイズは3.22GBなのでパラメータは750M相当だと思われるが詳細は不明。AltCLIP-XLMR-Lという名称が見られるのでXLM-RoBERTa-largeだと思われる。
サイズの大きいCLIPのTextEncoderを使えば精度上がるよねと思ってこの記事を書いてたらStableDiffusionを追い越す(しかも中国の)公開された拡散モデルがあって驚きである。
比較
・Text Encorderはほぼ全部Transformerである。他言語CLIPではRoBERTaなどが見受けられる。
・現行のCLIP(123M)とほぼ等価なのがT5-base(125M)、CoCa-base(148M)のText Encoder。
・ちょっと上がParti-350M(175M)、CoCa-large(242M)のText Encoder。
・それなりに上がT5-large(385M)、CLIP-ViT-H(385M)、CoCa(550M)、Parti-3B(750M)のText Encoder。
・かなり上がT5-XL(1.5B)のText Encoder。
・個人の限界(A100使用)がParti-20B(4B)、T5-XXLのText Encoder(5.5B)。
・雲の上、PaLM。
モデルサイズはlayer数に線形に増大する。widthに2乗で増大する。MLP/widthに線形に増大する。
Parti-3BでText生成能力が上昇するのを見るにlayer数は12でも十分なのかもしれない。
eDiff-IのようにCLIPと自然言語系のTextEncoderを組み合わせると良いかもしれない。
TextEncoderのWidthを基準に整理すると上記の表になる。T5はMLPの倍率の固定の場合の換算値である。
Midjourneyはどこに相当するのか情報がない。
CLIP-H14が既に公開されているからWidthが1024のTextEncoderの拡散モデルを採用するのはそれほど難しくないかと思っていたが、既にAltDiffusionが公開されて現実のものとなった。ただ、Parti-350Mの結果を見るにこの幅でのText生成能力は必ずしも高くない。Widthが2048のTextEncoderを採用すればText生成能力は向上すると思われるが、そのサイズのCLIPモデルは公開されていない。
自然言語モデルは公開されている中ではT5-XXLが十分大きく、これを採用しているパターンがImagenとeDiffIである。Imagen、eDiffI、PartiとDALL-E2の比較を見るとText生成能力がWidth2048よりWidth4096の方がより完璧になる。
まとめ
SDは他の論文を読んでいるとTextEncorderがボトルネックになっているのではと思っていた。
関連する拡散モデルのTextEncoderを整理し、CLIP-TextEncoderと自然言語系のTextEncoderを調べた。
記事を書いてる最中にAltDiffusionが公開され、現行のCLIPより大きなText Encorderを使用してかつ一般公開された拡散モデルは既に存在している事になった。
現時点(2022/11)での期待としては
・CLIPのTextEncorderを大きくしたStableDiffusion v2はでるだろうか。
・拡散モデルのUnetを大きくするのではなく、eDiff-Iのようなエキスパート拡散モデルを増やす方向にシフトするだろうか。
・eDiff-Iのような自然言語系TextEncorderとCLIPの組み合わせを採用されるのだろうか。
・eDiff-I(NVIDIA)に抜かれたGoogleの今後の動向はあるのだろうか。
・CoCaの一般公開、またはそれに相当するCLIPモデルの公開がなされるだろうか。
・画像にキャプションを与えるモデルも一般公開がなされるだろうか。(モデルのFine-Tuneに影響)
・最終的にGPUメモリ16GBでも動くようにはしてほしい所である。この条件だとT5-XXLの使用はおそらく厳しい。