あいさつ
どうも、くぼひさです。
最近、STABLE DIFFUSION XLなる画像生成AIが出来たらしく。面白そうなので、オフィシャルのサービスである「Clipdrop( https://clipdrop.co/ )」のサブスクを支払い、生成AIとやらを始めました。
で、いろいろとプロンプトと言う、画像生成AIサーバーへAIイラストを作ってくれと頼む「発注書」を作成していて、試行錯誤と最適化を続けた結果、現在(2023/08/09)は以下のプロンプトを使ってます。
[tokyo and 17age and cutie and moe]
and solo girl
of
beige skin
and black hair
and white dress
and natural smiley face
and looking away
and [tin and flat chest] body
and full body.
white background.
portrait
of
Sony-α7 and 50mm-Lens and F8 and ISO400
and soft lighting
and [realistic and highres and delicated and exquisite].
プログラム? 違いますよ、プロンプトですよ。
Clipdropの画像生成AIはChatGPTとは違って、プログラムと言うよりは、先頭から順次実行するバッチファイルなシステムらしく。先頭の単語ほど強く、後になるほど画像へ与える影響が弱まると言われてます。
(今回は、STABLE DIFFUSION XLのオフィシャルサービスであるClipdropの「バニラな」データセットでのプロンプトを説明していて。マニア向けのデータセットでは使えない可能性があります。styleの設定は「Photographic」です。)
では、1つずつ説明させて貰います。
人物編
[tokyo and 17age and cutie and moe]
and solo girl
of
beige skin
and black hair
and white dress
and natural smiley face
and looking away
and [tin and flat chest] body
and full body.
が、生成画像へ出てくる人物のプロンプトとなります。
まず、前提として、Stable Diffusionのプロンプトは「英語、英文で作成するのが基本」となります。現在、日本語での画像作成は大変、不安定で。日本語でのプロンプトの情報はほとんど無いので英語で作成するのが現実的です。
[tokyo and 17age and cutie and moe] and solo girlが登場人物の基本設定を行っている部分で、「東京の17歳の可愛らしく萌えな一人の女性」となります。solo girlが主語の一人の女性で、その女性が、どんな女性かの設定を行ってます。
[]ですが、プロンプト上、括弧はキーワードの「強調」「弱体」を設定するための物で、()が+0.1と強調を行い、[]が0.9(-0.1)とキーワードを弱体させます。
今回はtokyo and 17age and cutie and moeとキーワードを重ねているので、[]にてキーワードをまとめてsolo girlを設定して、そして、[]で少し弱体化して全体のバランスを取っている(つもり)です。
プロンプトは運の部分が多く、「AIイラストをガチャする」と言うくらい運で出来上がりが変わります。括弧が無い方が『良いAIイラストが出来る場合もあります』。なので、くぼひさって人の運では括弧があった方が良いAIイラストが出来るんだな、程度で思ってて下さい。
で、ofの後がsolo girlへ係る設定の部分で、andでsolo girlへ設定を付加してます。
beige skin(肌色)、black hair(黒髪)、white dress(白いドレス)、natural smiley face(自然な笑顔)、looking away(正面を見てない)、[tin and flat chest] body(痩せていてペチャパイな身体)、full body(全体を写す)と言う設定ですね。
この辺をカスタマイズして作りたい画像を作ります。「Stable Diffusion 呪文」「Stable Diffusion プロンプト」で検索したり、翻訳サービスを和英辞典代わりで使ってキーワードを調べて追加、変更します。
「cute」と「cutie」では出てくる画像が少し変化します。その辺の単語の使い方も大切です。
プロンプトの特性上、文の先頭の方、早く出てくるキーワードほど強く、画像へ影響するので。キーワードの順番は大切です。試行錯誤して、良い画像が出る順番を「総当たりで探しましょう(凄く大切)」。
バックグラウンド
white background.
「白い」ですね。白い場所や真っ白な壁紙などが運で出てきます。
park and noon.だと「昼の公園」、streetだと「そこら辺の都会」が出てきますので。これらも、検索や翻訳サービスでキーワードを探して、総当たりで試行錯誤しましょう。
写真の設定
portrait
of
Sony-α7 and 50mm-Lens and F8 and ISO400
and soft lighting
and [realistic and highres and delicated and exquisite].
portrait(カメラマンによる写真)でofの後から設定を追加します。
Sony-α7 and 50mm-Lens and F8 and ISO400はカメラやレンズなどの設定でカメラをシミュレーションします。soft lightingはソフトな照明。
realistic and highres and delicated and exquisiteは、リアルでハイレゾで繊細で絶妙な写真で写真全体のリアルさを設定してます。リアルすぎる設定を行うと、Clipdropではアニメ画像化や人形化が起こるので、リアルすぎない設定を行います。(実際、現在は[]でリアルさを弱めている)
出来上がり
運よくガチャで出てきた画像になります。AIイラスト名物、腕が多い、顔がゆがむなどの画像は当然出てきて、10枚のうち数枚、当たりの画像が出てくれば良いレベルのプロンプトです。
「運で」挙動は相当変化し、全体像ではない画像が出てきてますね。本当、AIイラストの出来上がりは「運です」。
Stable Diffusionの挙動を調べてらっしゃる方々のウェブを参考として、現在の「変なプロンプト」が出来上がりました。
これからも、良い萌えAIイラストのプロンプトを探し続けるくぼひさ先生のAIイラストをご期待ください。
以上。
おまけ
girl [
solo [tokyo and 17age and moe],
maid fashion,
pose[stylish],
make[natural],
looking away,
Upper body shot,
skin[siniy],
hair[black],
face[natural smile],
body[slender and flat chest].
]
background[
cafe and noon.
]
portrait[
Sony α7[50mm Lens and F8 and ISO400],
sun lighting,
[realistic and detailed and delicate and exquisite and highres].
]
現時点(2023/08/14)でのプロンプトです。
より、プログラミング化してます。画像の仕上がりを見て、括弧やコンマをなどを追加削除して、キーワードや文を強めたり弱めたりしてます。