昨日Stable Diffusionの元開発者が公開された画像生成モデル"FLUX.1"を使ってみました。非常に性能良かったので、共有したいと思います。
今回公開されたこの"FLUX.1"モデルには3つのバージョン:pro、dev、schnellがあります。前者2つは商用利用不可で、主に高品質な画像制作に使用されます。schnellは商用利用可能で、かつ処理速度が速いのでこれを試しました。(Hugging Faceで使用申請を出して、しばらく待つと利用可能になります。)
schnellが特に興味深かったのは、わずか4ステップで画像を生成できる点です。約半年前に別の4ステップモデルを試した時は、生成された画像の品質がかなり低かったのですが、FLUX.1 schnellの結果には本当に驚かされました。
テストには、Stable Diffusionでもよく使われるデモプロンプト「A cat holding a sign that says hello world("hello world"と書かれた看板を持つ猫)」を使用しました。以下がschnellで生成された画像です。
半年前なら同じクオリティの画像を生成するのに約30秒かかっていたものが、今ではたった5秒程度で生成できるようになりました。
あとはStable Diffusionと比較したいため、Stable Diffusion 3 mediumでも同じプロンプトで生成してみました。⇩
個人的には、schnellの方がより良い仕上がりに感じます。なお、この画像は28ステップで生成したものです。同じく4ステップだけなら生成できませんでした⇩
FLUX.1の開発チームはテキストから動画を生成するモデルも開発しているようです。こちらもかなり期待できそうですね。
興味ある方: