これをやってみました。
これの何が嬉しいのか?
Stable Diffusionとはテキストから画像を生成するAIエンジンで、Webアプリも公式に提供されています。
このWeb版アプリにテキストを入れて画像を生成することができますが、 生成が遅い ・ 転移学習ができない という弱みがあります。
AWSで提供されている機械学習プラットフォームSageMaker Studio(いわゆるJupyterLab環境)を使うことで、この2点の課題をクリアできます。
- 画像生成速度:公式Web版と違い、処理インスタンスサイズを調整することで生成スピードアップが可能。
- 転移学習:「この画像を読み込ませて、次の画像生成のインプットとして利用する」ことが容易になります。マシンスペックの課題をクラウドリソースで解決し、さらにSageMakerサービス内でテスト済みのトレーニングスクリプトを提供してくれることにより利用ハードルを下げています。
手順前編:とりあえず画像生成できるようになるまで
Stable Diffusionモデルにアクセス
- AWSマネジメントコンソールにログインし、SageMakerにアクセス。
- 左ペインからStudioを選択し、ユーザープロファイルを選んで「Studioを開く」をクリック。
- Studio UIが起動したら、左カラムのSageMaker JumpStartからModels, notebooks, solutionsを開き、中央に表示されるStable Diffusion 2.1 baseをクリック。
モデルのトレーニング&デプロイを実施
- Train Modelからトレーニングを実施。お財布に余裕がある人はDeployment Configurationからインスタンスタイプをml.g4dn.16xlarge(デフォルトの倍スペック)へ変更してTrainボタンを押す。Completeになるまで20分ぐらいかかりました。
- 学習が完了したら、Deploy Modelセクションへスクロールしてデフォルト設定のままDeployボタンを押す。こちらも10分ほどかかります。
エンドポイントを起動してNotebookを実行
- Endpoint StatusがIn Serviceになったら、Use Endpoint from Studioセクションの「Open Notebook」を押す。これの起動処理にも少し時間がかかります。
- 画面上部の準備中通知が消えたら、ツールバーの▶︎ボタンを何度か押してノートブック内のスクリプトを順番に実行していきます。コードブロックの[4]番目「Query Stable Diffusion Endpoint」を実行すると数十秒待たされたあと、画像が生成されます。
任意のテキストで画像を生成してみる
手順後編:サンプル画像でファインチューニングしてみる
冒頭で紹介した転移学習を試せるよう、「犬の面白い画像を作る」サンプルノードブックが提供されているので使ってみます。
- 左カラムのSageMaker JumpStartからModels, notebooks, solutionsを再度開き、検索バーに「fun」と入力し「Generate fun image of your dog」ノートブックを開く。
- 自分の環境でこれを実行できるように画面上部の「Import notebook」を実行。
学習用の画像をアップロード
- ノートブックの実行前に事前準備をします。記載されているとおり自分の持っている犬の画像をSageMaker Studioのローカル環境内にアップロードします。自分のiCloud写真ライブラリーを「犬」で検索してみると、奇跡的に5枚ぐらいあったので活用してみます。
- SageMaker Studio UI左側のフォルダーアイコンより、
training_images
という名前のフォルダーを作成し手持ちの画像5枚をアップロードする。
実行前にコードを書き換える
- ノートブック実行時にサンプル画像ではなく自分のアップロード画像が使われるよう、コードブロック内の
use_local_images
をTrue
へ書き換える。 - また、すぐ下のコードブロック内の
instance_prompt
を自分のアップする写真の説明に書き換えておく。私はA photo of my neiborhood dog
(近所の飼い犬)にしました。
- 最後から2番目のコードブロック内に、学習させた画像を用いて新たに生成したい画像用のテキストが指定されているので、こちらも適宜修正します。私は近所の飼い犬が海にいたり、帽子をかぶっていたり、トランプさんと一緒にいたりすることにしました。
いざ学習&画像生成
- すべて修正できたら、Notebookを上から順番に実行▶︎していきます。最後のコードブロックを実行するとエンドポイントが削除されてしまうので、通しで実行▶︎▶︎する際は注意。
- なお参考まで、私はS3バケット作成時に最初エラーが出ました。リージョン内に元々バケットが多すぎたせいでクォータに引っかかっていたので、不要バケットを削除しリランすると解消しました。
そして生成された画像がこちら!
元ネタ
@minorun365 の近所の犬
↓
すげえええええ!!
帽子はうまく出現しませんでしたが、近所のアノ犬がトランプさんに飼われている姿は壮観ですね。