DrawThingsで画像・動画生成を試す

Posted at 2025-10-27

背景・目的

DrawThingsで画像生成・動画生成の動かし方について備忘する

前提

DrawThings バージョン1.20251014.0 (1.20251014.0)

Qwen Image Edit 2509を動かす

Qwen Image Edit 2509とは

Alibabaが出しているOSSの画像編集用のImage to Imageのモデル
複数画像参照とControlNet（ポーズスケルトン・深度マップ・線画）をネイティブサポートしている
細かい事例は、Githubのドキュメントをみるとわかりやすい。

設定

まずは、設定のモデルでQwen Image Edit 2509を選択する。
下に、推奨設定を試すというクリッカブルな文字があるので、そこをクリックすると推奨の設定になる。（下手に自分でいじるとうまくいかなかった。推奨の設定をベースにするのが良かった。）

動かす

複数画像の合成

複数画像を合成するときは、ムードボードを使う。

コントロール -> ムードボード -> 貼り付け

を２回行い、以下の画像のように2枚の画像が横並びで表示される状態にしておく。

メインの画像は何も設定せず空けておいた方が、合成結果が良くなることが多かった。

Qwen Image Edit 2509では、メイン画像がpicture 1, ムードボードの画像は左からpicture 2, picture 3のようにプロンプトから参照できる。

今回は、ムードボードしか使わないので、以下のようなプロンプトで生成してみた。

たくさんの小さい写真3のクラゲが,写真2の風景の中で泳いでいる

Many small jellyfish in picture 3 swim through the sky of the landscape depicted in picture 2.

設定で画像サイズを指定できるが、画像サイズによって生成時間が変わる。
(Mac Studio M3 Ultraだと 512 x 384でバッチサイズ2で生成したところ10分程度かかった）

結果は以下の2枚

2枚目の画像は、風景が全く入っていない画像になってしまったものの、一枚目はそこそこ指示通りに合成できていた。

キャラクター込みの画像を作る

適当にChatGPTにお願いして、キャラクターの画像を作ってもらい

そのキャラクターの画像を作ってもらった。

設定は推奨設定。コントロールは、上記のキャラクターの画像をムードボードに100%で1枚だけ設定し、以下のプロンプトで生成した。

リビングのソファや窓が見えているアングルのカメラで撮影。図2のキャラクターが、ソファの下の右下あたりを四本足で歩いていて、カメラ側を向いて微笑んでいる。画像は全体的にデフォルメされたアニメ調。リビングは白基調

The camera angle captures views of the living room sofa and windows. In pigure 2, the character walks on all fours near the lower-right corner of the couch, facing the camera with a smiling expression. The image retains its exaggerated anime-style aesthetics. The living room continues to maintain a white-themed decor.

何回かプロンプトを試行錯誤する必要はあったが、調子が良いときは上記のような画像を生成することができた。

1回の施行で数十分から数時間かかってしまうので、以下のような設定を使って精度は落ちるが速度重視でプロンプトの試行錯誤をしてから、精度重視を試すと良さそうだった。

速度重視の設定
- LoRA: Qwen Image Edit 2509 Lightning 4-Step v1.0
- Step数: 4
- バッチサイズ: 4
精度重視の設定
- LoRA: なし
- Step数: 30
- バッチサイズ: 1 ~ 2

Wan 2.2 を動かす

Wan 2.2 とは

こちらもAlibabaのOSSだが、動画生成用のモデル。

モデルには、14Bのものと5Bのものがある。

14Bには、Text to VideoとImage to Videoの二種類がある
5Bには、Image Text to Videoの1種類のみ

動かす

14Bを使って画像から動画を作ってみる

設定
- モデル: Wan 2.2 High Noise Expert I2V A14B
- リファイナーモデル: Wan 2.2 Low Noise Expoert I2V A14B
  - リファイナー開始: 10%

先ほど作った以下の画像を入力として、以下のプロンプトで実行する

プロンプト

写真1のキャラクターが振り返ってソファにジャンプする

The character in picture 1 turns around and jumps onto the couch.

出力された動画は以下のようになった（動画をgif化したものですが）

猫だからか猫の構造が安定していないものの、指示通りの動きの動画が生成された。
生成には数時間かかった。

失敗例

リファイナーモデルは設定しないとノイズが多い動画になってしまうので、設定は必須だった
リファイナーモデルは対応したものを設定する必要があった。(I2Vに対してT2Vのリファイナーを設定すると動画に問題が出る）

まとめ

設定は推奨をベースにするのが大事
プロンプトは一回でうまくいくことは稀。何回か試す前提で動かす方が良い。
DrawThingsはムードボードが大事

参考資料

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up