背景:
昨今、画像生成AIがメディアに登場し、筆者もやってみた。
なお、今回はAIモデルそのものを構築するのではなく、構築されたものを使用することとする。
※筆者はAI生成モデルを構築できるほどの知識量はないため
目的:
Pythonを使用して、プログラムを駆使して、画像の生成まで挑戦する
※Promptについては、深追いしません。
環境:
- OS: Windows
- IDE:VSCODE
- Git for windowsインストール済
- 必要ソフト:CUDA12.3
- Pythonの仮想環境整備済
準備:
① CUDAのインストールはここ
②関連ライブラリをpipでインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install --upgrade diffusers transformers scipy
③AIのライブラリサイト(Hugging Face)のユーザアカウント作成はここ
※このサイトはいろんなAIを訓練できるモデルがたくさん集まっている
④たくさんのモデルがあるない中で、これを選んだ。
ソースコード:
# ライブラリーのインポート
from diffusers import StableDiffusionPipeline
import os
# モデルのインスタンス化
model = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")
model.to("cuda")
prompt = "Tokyo Sky Tree by Marc Chagall"
# 画像数
num = 4
filename = 'ai_test'
for i in range(num):
# モデルにpromptを入力し画像生成
image = model(prompt).images[0]
# 保存
outputfile = f'{filename}_{i:02} .png'
image.save(os.path.join(os.getcwd(), outputfile))
生成された画像:
感想:
筆者のPC環境では20分程度で一枚の遅さでしたので、onlineで生成したほうが早いかもしれません。