LoginSignup
2

More than 1 year has passed since last update.

Google ColaboratoryでStable Diffusionを10分で試す

Last updated at Posted at 2022-08-26

n番煎じで恐縮ですが、流行に乗っかる形で試してみました!
txt2imgの方です。

Thumb.png
Prompt: 可愛い着物の女の子
Concept kawaii girl wearing kimono, beautiful face, thickly painted, flowers blooming, bird's eye view

動作環境

  • ブラウザ:Vivaldi
  • PC: Mac OS Big Sur
  • CPU:3.5 GHz Dual-Core Intel Core i7
  • メモリ:16GB
    ※Google Colaboratoryでやるのでブラウザ以外あまり関係ないですが一応記載

導入手順

▼Hugging Faceにて

1. ログインor新規登録

2. Access Token取得

  • Role:Read

3. HuggingfaceにてModelを選択。内容確認後、Acceptする。

※ライセンスはCreative ML OpenRAIL-Mライセンスです。

▼Google Colaboratoryにて

1. 準備

  • ノートの新規作成
  • 編集->ノートブックの設定を開く
  • ハードウェア アクセラレータにて、GPUを選択する。

2. stable-diffusion-v1-4 のインストール

  • diffusers-0.2.4

  • ftfy-6.1.1

  • huggingface-hub-0.9.0

  • tokenizers-0.12.1

  • transformers-4.21.2

    #コピペ
    !pip install diffusers==0.2.4 transformers scipy ftfy
    

※Linuxのコマンドは!始まりにする。

3. パイプラインを準備する

#コピペ
from diffusers import StableDiffusionPipeline

# 取得したトークンを使用してください
MY_TOKEN = "hf_xxxx"

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", use_auth_token=MY_TOKEN)
pipe.to("cuda")

4. プロンプトを渡す

#コピペ
#着物を着た可愛い女の子
prompt = "Cute girl with kimono costumue"
image = pipe(prompt)["sample"][0]
image.save(f"output.png")

30秒ほどで出来上がり↓
2877c37b-1e21-443d-8d6f-e5bac48f6bfb.png

所感

  • 導入は10分程度、設定にもよるが画像生成1枚あたり30秒以内
    (CPUのみだと1枚あたり20分)
  • 動かしたくてもGPUスペックいる問題 -> Google Colaboratory
  • プロンプトはコツがいる
    https://ossan-gamer.net/post-81566/
    ※参考にさせていただきました!

欲しい絵を出すためには、シーン(カメラがあってライティング、被写体、マテリアルがどうで)の情報をいかにうまく具体的に言葉で与えるかと、テイストや品質に影響する単語をうまく付与するかが重要で、結果が大きく変わるなあと思いました。

今後

以上

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2