4

More than 1 year has passed since last update.

@minorun365(みのるん)in

KDDI株式会社

近所の犬をトランプさんに飼わせてみた（AWSのSageMakerでStable Diffusion転移学習）

Last updated at 2023-03-25Posted at 2023-03-25

これをやってみました。

これの何が嬉しいのか？

Stable Diffusionとはテキストから画像を生成するAIエンジンで、Webアプリも公式に提供されています。

このWeb版アプリにテキストを入れて画像を生成することができますが、 生成が遅い ・ 転移学習ができない という弱みがあります。

AWSで提供されている機械学習プラットフォームSageMaker Studio（いわゆるJupyterLab環境）を使うことで、この2点の課題をクリアできます。

画像生成速度：公式Web版と違い、処理インスタンスサイズを調整することで生成スピードアップが可能。
転移学習：「この画像を読み込ませて、次の画像生成のインプットとして利用する」ことが容易になります。マシンスペックの課題をクラウドリソースで解決し、さらにSageMakerサービス内でテスト済みのトレーニングスクリプトを提供してくれることにより利用ハードルを下げています。

手順前編：とりあえず画像生成できるようになるまで

Stable Diffusionモデルにアクセス

AWSマネジメントコンソールにログインし、SageMakerにアクセス。
左ペインからStudioを選択し、ユーザープロファイルを選んで「Studioを開く」をクリック。
Studio UIが起動したら、左カラムのSageMaker JumpStartからModels, notebooks, solutionsを開き、中央に表示されるStable Diffusion 2.1 baseをクリック。

モデルのトレーニング＆デプロイを実施

Train Modelからトレーニングを実施。お財布に余裕がある人はDeployment Configurationからインスタンスタイプをml.g4dn.16xlarge（デフォルトの倍スペック）へ変更してTrainボタンを押す。Completeになるまで20分ぐらいかかりました。
学習が完了したら、Deploy Modelセクションへスクロールしてデフォルト設定のままDeployボタンを押す。こちらも10分ほどかかります。

エンドポイントを起動してNotebookを実行

Endpoint StatusがIn Serviceになったら、Use Endpoint from Studioセクションの「Open Notebook」を押す。これの起動処理にも少し時間がかかります。
画面上部の準備中通知が消えたら、ツールバーの▶︎ボタンを何度か押してノートブック内のスクリプトを順番に実行していきます。コードブロックの[4]番目「Query Stable Diffusion Endpoint」を実行すると数十秒待たされたあと、画像が生成されます。

任意のテキストで画像を生成してみる

前述のコードブロック[4]内のクエリーテキストを変更し、再度▶︎実行することで任意の画像を生成できます。

手順後編：サンプル画像でファインチューニングしてみる

冒頭で紹介した転移学習を試せるよう、「犬の面白い画像を作る」サンプルノードブックが提供されているので使ってみます。

左カラムのSageMaker JumpStartからModels, notebooks, solutionsを再度開き、検索バーに「fun」と入力し「Generate fun image of your dog」ノートブックを開く。
自分の環境でこれを実行できるように画面上部の「Import notebook」を実行。

学習用の画像をアップロード

ノートブックの実行前に事前準備をします。記載されているとおり自分の持っている犬の画像をSageMaker Studioのローカル環境内にアップロードします。自分のiCloud写真ライブラリーを「犬」で検索してみると、奇跡的に5枚ぐらいあったので活用してみます。
SageMaker Studio UI左側のフォルダーアイコンより、 training_images という名前のフォルダーを作成し手持ちの画像5枚をアップロードする。

実行前にコードを書き換える

ノートブック実行時にサンプル画像ではなく自分のアップロード画像が使われるよう、コードブロック内の use_local_images を　True へ書き換える。
また、すぐ下のコードブロック内の instance_prompt を自分のアップする写真の説明に書き換えておく。私は A photo of my neiborhood dog （近所の飼い犬）にしました。
最後から2番目のコードブロック内に、学習させた画像を用いて新たに生成したい画像用のテキストが指定されているので、こちらも適宜修正します。私は近所の飼い犬が海にいたり、帽子をかぶっていたり、トランプさんと一緒にいたりすることにしました。

いざ学習＆画像生成

すべて修正できたら、Notebookを上から順番に実行▶︎していきます。最後のコードブロックを実行するとエンドポイントが削除されてしまうので、通しで実行▶︎▶︎する際は注意。
なお参考まで、私はS3バケット作成時に最初エラーが出ました。リージョン内に元々バケットが多すぎたせいでクォータに引っかかっていたので、不要バケットを削除しリランすると解消しました。

そして生成された画像がこちら！

元ネタ

@minorun365 の近所の犬

↓

近所の犬 on the sea

近所の犬 with a hat

近所の犬 with Donald Trump

すげえええええ！！
帽子はうまく出現しませんでしたが、近所のアノ犬がトランプさんに飼われている姿は壮観ですね。

4

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

4