4
4

More than 1 year has passed since last update.

EC2のGPUインスタンス上にStable Diffusion Web UIをミニマムに立てる

Last updated at Posted at 2023-04-29

EC2のGPUインスタンス上にStable Diffusion Web UIを気軽に立てる手順についてまとめます。手元にGPU環境がない場合や、個人・チームでちょっと試したい時に利用できるかと思います。

*追記:Slackからインスタンス起動&アクティビティ監視による自動停止の手順をまとめました。
https://qiita.com/mikito/items/1050612207adb1f14392

今回の方針

  • 素のEC2だけの限りなくシンプルな構成で、なるべくコストを抑える
  • 環境構築したインスタンスは使う時にStartさせ、使い終わったら停止させておくスタイル(Elastic IPも利用しないため起動の度にIPが変わります)
  • 東京リージョンではやや料金が高めなので、米国西部 (オレゴン) リージョンに構築
  • Dockerで立ち上げるのも簡単だが、モデルの管理や最新機能の追従などが少し面倒に感じたため、本家(AUTOMATIC1111)を直接立ち上げる(対象AMIではDockerでなくても簡単)
  • ControlNetやNegative PromptのEmbeddingsなど、多少の基本設定までする

コスト

今回は、インスタンスタイプとしてg4dn.xlargeを利用します。g5世代含めて、性能はそこまで高くないですが使いやすい価格帯です。Stable Diffusion Web UIを動かして画像生成するぐらいであれば普通に動きます。

スクリーンショット 2023-04-29 10.37.43.png

g4dn.xlargeの一時間当たりの単価は以下です。

  • オレゴン: 0.526 USD
  • (参考)東京: 0.71 USD

また、学習済みモデルなどが結構大きく、EBSも余裕を持たせるとしたら60〜80GBぐらいが必要です。こちらはインスタンスを起動しておかなくても発生する料金です。

  • 汎用 SSD (gp3) - ストレージ: 0.08USD/GB 月

以下のように1ヶ月当たりの稼働時間を見積もります。

  • デイリー2時間起動 * 20日 = 40時間
利用量 単価 月コスト
EC2(g4dn.xlarge) 40hour $0.526 $21.04
EBS(gp3) 80GB $0.08 $6.4

となり、合計$27.44ほどで、その他データ転送料などもあると思いますが月40時間稼働で、だいたい3,740円といったところです(2023/4/29現在)。

ちょっと試したいぐらいであれば新規PCを整えるよりは安いかと思います。また、環境は簡単にセットアップできるので、数日使ったら気軽に破棄してしまうのもありでしょう。(もちろん起動しっぱなしにするとインスタンス代金だけで$378.72ほどかかってしまうので注意です。)

なお、Google ColabなどでもStable Diffusion Web UIを立ち上げられますが、2023/4末に無料枠では禁止されてしまいました。また、Colab Proは月額¥1,179で、割り当てられているコンピューティングユニットから試算して大体50時間ぐらいWeb UIを起動できそうした。こちらの方が時間単価としては安めですが、そもそもGoogle Colab自体がそのような用途向けでないのと、モデルデータなどの環境管理がやりにくいデメリットがあります。

EC2インスタンス構築

EC2上でAMIからGPUインスタンスを立ち上げます。上記の通り、料金の観点から米国西部 (オレゴン) us-west-2リージョンで構築していきます。

セキュリティグループ作成

EC2インスタンスのセットアップの前に、専用のセキュリティグループを作成しておきます。

スクリーンショット_2023-04-29_12_32_30.png

インバウンドルールに以下のようにSSHとStable Diffusion Web UIのデフォルトポートである7860を追加します(今回はリバプロなどせず直接アクセスしちゃいます)。

スクリーンショット 2023-04-29 12.25.39.png

インスタンスの立ち上げ

今回は、以下のAMIを利用します。NVIDIAのDriverなどが既にセットアップされており、最も環境設定が簡単でした。

Deep Learning AMI GPU PyTorch 2.0.0 (Ubuntu 20.04) 20230401

スクリーンショット 2023-04-29 13.54.49.png

インスタンスの起動ウィザードを立ち上げ、適当な名前をつけます。

スクリーンショット 2023-04-29 13.53.33.png

インスタンスタイプにg4dn.xlargeを選択します。

スクリーンショット 2023-04-29 13.53.02.png

ログインのためのキーペアは適当に作成するか、既存の適切なものを選択してください。

スクリーンショット 2023-04-29 13.55.38.png

ネットワーク設定では、先ほど作成したセキュリティグループを選択します。
スクリーンショット_2023-04-29_12_34_12.png

EBSボリュームをgp3の80GBに設定します。この容量は複数のモデルを後程DLするとして、少し余裕を持たせています。

スクリーンショット 2023-04-29 12.35.59.png

以上の設定でインスタンスを立ち上げます。

環境の基本セットアップとStable Diffusion Web UIのインストール

インスタンスが立ち上がったら、コンソールログインします。

まずは、以下を実行します。

sudo apt update
sudo apt -y install python3-venv

また、モデルのダウンロード用にaria2とGit LFSも以下も入れておきます(wgetでも良いですが)。

sudo apt -y install aria2
sudo apt -y install git-lfs

Stable Diffusion Web UIのリポジトリをクローンします。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

クローンしたリポジトリ以下に移動します。これ以降の作業は全て/home/ubuntu/stable-diffusion-webui以下で行います。

cd stable-diffusion-webui/

必要なモデルをdata/StableDiffusioディレクトリ以下に配置します。この辺りはお好きなモデルを選択してください。今回はanything-v4.5-pruned.ckptと対応するVAEを導入します。

aria2c -c -x 16 -s 16 -k 1M https://huggingface.co/ckpt/anything-v4.0/resolve/main/anything-v4.5-pruned.ckpt -d models/Stable-diffusion -o anything-v4.5-pruned.ckpt
aria2c -c -x 16 -s 16 -k 1M https://huggingface.co/ckpt/anything-v4.0/resolve/main/anything-v4.0.vae.pt -d models/Stable-diffusion -o anything-v4.5-pruned.vae.pt

以下コマンドを実行しStable Diffusion Web UIを立ち上げ、起動確認を行います(themaは好みです)。

 ./webui.sh --listen --xformers --enable-insecure-extension-access --theme dark --gradio-queue

初回、自動的に必要なセットアップなどが行われ時間がかかりますが、しばらくすると以下のようにログが表示され起動します。

...
Loading VAE weights found near the checkpoint: /home/ubuntu/stable-diffusion-webui/models/Stable-diffusion/anything-v4.5-pruned.vae.pt
Applying xformers cross attention optimization.
Textual inversion embeddings loaded(0): 
Model loaded in 50.0s (calculate hash: 34.8s, load weights from disk: 2.5s, create model: 1.7s, apply weights to model: 1.2s, apply half(): 0.6s, load VAE: 8.5s, move model to device: 0.6s).
Running on local URL:  http://0.0.0.0:7860

To create a public link, set `share=True` in `launch()`.
Startup time: 55.6s (import torch: 0.9s, import gradio: 1.6s, import ldm: 0.5s, other imports: 1.5s, setup codeformer: 0.2s, load scripts: 0.4s, load SD checkpoint: 50.1s, create ui: 0.4s).

この状態で、EC2インスタンスのパブリックアドレスの7860ポートにアクセスしてみましょう。セキュリティグループが正しく設定されていれば、Web UIが起動しアクセスできるはずです。
スクリーンショット 2023-04-29 14.36.28.png

動作確認のため何かプロンプトを入力し、画像生成を試します。

プロンプトの例:

masterpiece, best quality, 1girl, white hair, medium hair, cat ears, closed eyes, looking at viewer, :3, cute, scarf, jacket, outdoors, streets

スクリーンショット 2023-04-29 14.41.13.png
(もしかしたら、一番最初の生成に時間がかかるかも?デフォルトのパラメータであれば基本的に6〜4secぐらいで処理が完了します。)

Stable Diffusion Web UIの基本的なセットアップ

次にStable Diffusion Web UI自体の基本的なセットアップをしていきます。extensionはUIからもinstallできますが、追加で必要なモデルがあるのと、UIをポチポチするのが面倒なのでコンソールからInstallしちゃいます。

Quick Setting List

VAEの選択が常に見えていた方がよいので、ちょっとUIの設定を変えます。Settingタブ→User Interface→Quicksettings listの項目にsd_vaeを追記します。

sd_model_checkpoint, sd_vae

その後、Settingタブ上部のApply Settingをクリック後、Reload UIを実行します。

すると、以下のようにVAEの選択を常に表示できるようになります。学習済みCheckpointと同時にVAEなどが配布されている場合などに、こちらをすぐ確認できるようにしておくと便利です。
スクリーンショット 2023-04-29 14.46.41.png

Negative Prompt Embeddings

次に一度./webui.shを落とし、コンソールから必要なものを入れていきます。

まずはネガティブプロンプト用のEmbeddingsを用意します。ネガティブプロンプトはいい感じの出力を行うために重要です。

今回は複数のEmbeddingsがまとめられている以下を利用します。EasyNegativeも入っています。
https://huggingface.co/embed/negative

以下コマンドで配置します(前の手順でGit LFSをInstallしておいてください)。

git clone https://huggingface.co/embed/negative embeddings/negative

ControlNetの導入

生成画像の構図やキャラのポーズなどを制御するためのControlNetをインストールします。extensionとして以下コマンドで配置します。

git clone https://github.com/Mikubill/sd-webui-controlnet extensions/sd-webui-controlnet

次に、ControlNetに必要な追加モデルをダウンロードします。

なお、こちらは以下のリポジトリのステップを参考にしています。
https://github.com/camenduru/stable-diffusion-webui-colab
容量やメモリの問題から、半精度のものをDLしているようです。

数が多いので、以下を一度スクリプトに保存してから実行してください。モデルはextensions/sd-webui-controlnet/models以下に配置されます。また、全部DLしなくても、使いたいモデルだけDLするのでもOKです。

download-models.sh
base_url="https://huggingface.co/ckpt/ControlNet-v1-1"
dest="extensions/sd-webui-controlnet/models"
aria2_opts="--console-log-level=error -c -x 16 -s 16 -k 1M"

files=(
  resolve/main/control_v11e_sd15_ip2p_fp16.safetensors 
  resolve/main/control_v11e_sd15_shuffle_fp16.safetensors 
  resolve/main/control_v11p_sd15_canny_fp16.safetensors 
  resolve/main/control_v11f1p_sd15_depth_fp16.safetensors 
  resolve/main/control_v11p_sd15_inpaint_fp16.safetensors 
  resolve/main/control_v11p_sd15_lineart_fp16.safetensors 
  resolve/main/control_v11p_sd15_mlsd_fp16.safetensors 
  resolve/main/control_v11p_sd15_normalbae_fp16.safetensors 
  resolve/main/control_v11p_sd15_openpose_fp16.safetensors 
  resolve/main/control_v11p_sd15_scribble_fp16.safetensors 
  resolve/main/control_v11p_sd15_seg_fp16.safetensors 
  resolve/main/control_v11p_sd15_softedge_fp16.safetensors 
  resolve/main/control_v11p_sd15s2_lineart_anime_fp16.safetensors 
  resolve/main/control_v11f1e_sd15_tile_fp16.safetensors 
  raw/main/control_v11e_sd15_ip2p_fp16.yaml 
  raw/main/control_v11e_sd15_shuffle_fp16.yaml 
  raw/main/control_v11p_sd15_canny_fp16.yaml 
  raw/main/control_v11f1p_sd15_depth_fp16.yaml 
  raw/main/control_v11p_sd15_inpaint_fp16.yaml 
  raw/main/control_v11p_sd15_lineart_fp16.yaml 
  raw/main/control_v11p_sd15_mlsd_fp16.yaml 
  raw/main/control_v11p_sd15_normalbae_fp16.yaml 
  raw/main/control_v11p_sd15_openpose_fp16.yaml 
  raw/main/control_v11p_sd15_scribble_fp16.yaml 
  raw/main/control_v11p_sd15_seg_fp16.yaml 
  raw/main/control_v11p_sd15_softedge_fp16.yaml 
  raw/main/control_v11p_sd15s2_lineart_anime_fp16.yaml 
  raw/main/control_v11f1e_sd15_tile_fp16.yaml 
  resolve/main/t2iadapter_style_sd14v1.pth 
  resolve/main/t2iadapter_sketch_sd14v1.pth 
  resolve/main/t2iadapter_seg_sd14v1.pth 
  resolve/main/t2iadapter_openpose_sd14v1.pth 
  resolve/main/t2iadapter_keypose_sd14v1.pth 
  resolve/main/t2iadapter_depth_sd14v1.pth 
  resolve/main/t2iadapter_color_sd14v1.pth 
  resolve/main/t2iadapter_canny_sd14v1.pth 
  resolve/main/t2iadapter_canny_sd15v2.pth 
  resolve/main/t2iadapter_depth_sd15v2.pth 
  resolve/main/t2iadapter_sketch_sd15v2.pth 
  resolve/main/t2iadapter_zoedepth_sd15v1.pth 
)

for file in "${files[@]}"; do
  aria2c $aria2_opts "$base_url/$file" -d $dest -o "$(basename $file)"
done
 bash download-models.sh 

その他Extensionの導入

まだ、自分の中でもextensionを把握しきれていないですが、一旦以下を入れておきます。この辺りは、利用用途次第+後程UIからInstallでもOKです。

git clone https://github.com/camenduru/sd-civitai-browser extensions/sd-civitai-browser
git clone https://github.com/fkunn1326/openpose-editor extensions/openpose-editor
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui-rembg extensions/stable-diffusion-webui-rembg
git clone https://github.com/ashen-sensored/stable-diffusion-webui-two-shot.git extensions/stable-diffusion-webui-two-shot
# プロンプトからLoRaを指定できるようになっているので不要かも?
git clone https://github.com/camenduru/sd-webui-additional-networks extensions/sd-webui-additional-networks

自動起動設定

次にインスタンスが立ち上がった時にStable Diffusion Web UIが自動的に起動するようにします。

以下のファイルを作成します。

sudo vim /etc/systemd/system/stable-diffusion-web-ui.service
stable-diffusion-web-ui.service
[Unit]
Description=Stable Diffusion Web UI
After=network.target

[Service]
User=ubuntu
WorkingDirectory=/home/ubuntu/stable-diffusion-webui
ExecStart=/home/ubuntu/stable-diffusion-webui/webui.sh --listen --xformers --enable-insecure-extension-access --theme dark --gradio-queue
Restart=always

[Install]
WantedBy=multi-user.target                   

作成ができたら、以下コマンドで自動起動設定を有効化します。

sudo systemctl daemon-reload
sudo systemctl enable stable-diffusion-web-ui.service
sudo systemctl start stable-diffusion-web-ui.service

なお、設定の有効化後、以下のコマンドで状態やログの確認ができます。

systemctl status stable-diffusion-web-ui.service

journalctl -u stable-diffusion-web-ui.service -f

また、メンテナンス作業として停止やリスタートしたい場合は以下です。

sudo systemctl stop stable-diffusion-web-ui.service
sudo systemctl restart stable-diffusion-web-ui.service

これで一度インスタンスを停止させて、再度スタートさせてみましょう。自動的にWeb UIが起動すれば成功です。インスタンス起動後、モデルロードに少々時間がかかるため、アプリケーションが立ち上げるまでしばらく待ちましょう。(IPアドレスも変わります。)

動作確認

基本的なセットアップができたので、簡単に機能と出力を確認してみます。以下のプロンプトで試します。

Prompt

masterpiece, best quality, 1girl, white hair, medium hair, cat ears, closed eyes, looking at viewer, :3, cute, scarf, jacket, outdoors, streets

Negative prompt

EasyNegative

Sampling method

DPM++ 2M Karras

出力結果がこちらです。
スクリーンショット 2023-04-29 17.02.24.png

masterpiece, best quality, 1girl, white hair, medium hair, cat ears, closed eyes, looking at viewer, :3, cute, scarf, jacket, outdoors, streets
Negative prompt: EasyNegative
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 4157011332, Size: 512x512, Model hash: e4b17ce185, Model: anything-v4.5-pruned

Used embeddings: EasyNegative [119b]

Time taken: 3.50sTorch active/reserved: 2616/3226 MiB, Sys VRAM: 4265/15102 MiB (28.24%)

embeddingsも効いており、大体3.5秒で出力できています。

また、ControlNetも試してみます。先ほどと同じプロンプトと設定で、ControlNetのcannyを適用し、構図を指定する適当な画像をInputします。

スクリーンショット 2023-04-29 17.07.55.png

masterpiece, best quality, 1girl, white hair, medium hair, cat ears, closed eyes, looking at viewer, :3, cute, scarf, jacket, outdoors, streets
Negative prompt: EasyNegative
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 4157011332, Size: 512x512, Model hash: e4b17ce185, Model: anything-v4.5-pruned, ControlNet Enabled: True, ControlNet Preprocessor: canny, ControlNet Model: control_v11p_sd15_canny_fp16 [b18e0966], ControlNet Weight: 1, ControlNet Starting Step: 0, ControlNet Ending Step: 1, ControlNet Resize Mode: Crop and Resize, ControlNet Pixel Perfect: False, ControlNet Control Mode: Balanced, ControlNet Preprocessor Parameters: "(512, 100, 200)"

Used embeddings: EasyNegative [119b]

Time taken: 13.70sTorch active/reserved: 7470/7866 MiB, Sys VRAM: 8905/15102 MiB (58.97%)

こちらも、しっかり動いていることを確認できました。(上記例はプロンプトとControlNetの入力画像がマッチしていないので猫耳などの部分がうまくいってないですが...)

セキュリティについて

今回の環境は主にStable Diffusion Web UIを簡単に検証する目的の意味が強いため、セキュアな環境ではありません。外部の第三者がアクセス可能な状態ですし、SSLによる通信もしてません。立ち上げっぱなしにしたり、業務で重要なデータのやりとりなどをしないようにしてください。

もし、定常的に利用するような環境にしたい場合は、VPNなどの環境構築を検討した方よいと思います。

他参考

その他のインスタンスタイプを利用する場合は以下を参照してください。

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4