本日、一枚の絵を生成するためにクレジットを大量に溶かしました。
AIイラストはTech Blogの範囲外かもしれませんが、叫ばずにいられないので書かせていただきます。
生成したかったシーン
「ソファに優雅に座る自信家の女性」と「その背後に立ち、首輪とリードをつけられた男性」という構図です。
支配関係を逆転させた、いわゆる 女性優位(Female Dominance) の表現です。
最初のプロンプトと最初の罠
まず以下のようなプロンプトを組みました(一部省略)。
Masterpieces, highest quality, high resolution, neat sharp line art
a confident woman and a captive man
Scene Configuration:
Center: A confident woman sits on a sofa and a man with a collar stands behind her
Woman: A young Asian woman in a glamorous...
she sat leisurely and elegantly on the sofa and held the lead of the collar.
Man: young Japanese man... standing behind the sofa wearing a collar.
Background: a luxurious Middle Eastern drawing room.
翻訳の落とし穴
日本語から英語への翻訳にPapagoを使っていたのですが、ここで最初のトラブルが発生しました。
元の日本語:
「焦点は女性の表情と衣装に合っている。悠然と、上品にソファーに腰を下ろし、首輪のリードを握っている。」
Papago翻訳結果:
He sat leisurely and elegantly on the sofa and held the lead of the collar.
主語が女性(she)から男性(He)に化けていました。
文脈翻訳が得意とされるPapagoでもこのミスが起きます。生成AIへのプロンプト英訳では、主語の確認が必須です。
機械学習の呪い:AIが「首輪は女性につける」と思っている件
翻訳を修正して再挑戦しても、AIは執拗に女性に首輪をつけ続けました。
さらに standing と明記しているのに男性がソファに座ったり、女主人の膝に乗ったりと、意図と全く逆の構図が生成され続けました。

試行錯誤の中で気づいたことをGPTに投げたところ、明快な答えが返ってきました。
「女性に首輪をつけたがるのは男女の場合女性が首輪をつけるとAIが思ってるのでは?」
「それ、かなりあり得ます。
特に画像生成AIは学習データの偏りで、
「男性+女性」「首輪」「リード」が出てくると、
『女性が従属側』『男性が支配側』 の学習例が圧倒的に多いんです。だからプロンプト上では女性がリードを持っていても、
- 女性に首輪が付く
- 男性がソファに座る
- 男性がリードを持つ
- ふたりとも首輪が付く
……みたいな事故が起きます(笑)」
(笑)じゃないよ!という気持ちはわかりますよね。
学習バイアスを崩すためのプロンプト戦略
GPTが提案してくれた解決策をまとめます。
ステップ1:先に「力関係」を宣言する
プロンプトの冒頭に、関係性を明示するキーワードを置きます。
The woman controls the man.
The woman owns the man.
The woman is clearly the dominant figure.
The man obeys her.
Clear female dominance.
Power imbalance.
具体的な小道具(首輪など)より先に、力関係そのものをAIに認識させるのがポイントです。
ステップ2:首輪の記述は後ろに置く
A black collar around the man's neck.
この一文は、力関係宣言の後に配置します。
ステップ3:「female boss」構図を使う
AIが大量に学習している構図パターンを利用します。
A powerful female executive sits on a sofa.
Her male attendant stands behind her.
female boss and male bodyguard の関係性はAIにとって馴染みやすく、
想定どおりの構図が出やすくなります。
最終プロンプトと結果
上記の知見を全て盛り込んだプロンプトで再挑戦しました(男性キャラはLoRAを使用)。
Masterpiece, best quality, high resolution, clean sharp lineart, cinematic composition
The woman controls the man.
The woman owns the man.
The woman is clearly the dominant figure.
The man obeys her.
Clear female dominance.
Power imbalance.
Power dynamic scene.
Foreground:
A confident Asian woman sits elegantly at the center of a luxurious sofa.
female boss / powerful businesswoman / wealthy woman / authority
[女性キャラクタープロンプト]
Provocative confident smile. Relaxed posture.
One hand rests on the sofa armrest.
The other hand holds a black leash.
Background:
Directly behind the sofa, a beautiful Japanese man stands upright.
The man is positioned completely behind the backrest of the sofa.
Only his upper body rises above the sofa back.
He does NOT stand beside the sofa.
He does NOT stand in front of the sofa.
A black collar is around his neck.
The leash extends from the woman's hand to the man's collar.
[男性キャラクタープロンプト]
Short black hair. Melancholic pale brown eyes.
Long eyelashes. Refined handsome face.
Looking straight toward the viewer. Calm expression.
Composition:
woman in foreground, man behind sofa, clear depth separation,
woman dominates the frame, man visually subordinate.
Background:
luxurious Middle Eastern drawing room, gold decorations,
marble columns, expensive carpets, wealth and power atmosphere.
Camera:
slightly low angle, 50mm lens, above-knee framing,
focus on woman, woman larger in frame, man partially obscured by sofa,
cinematic lighting, beautiful shadows, elegant anime illustration,
glossy textures, high detail
生成率は約1割でしたが、冒頭の画像のような構図を得ることができました。
まとめ:学習バイアスと戦うためのチェックリスト
| 問題 | 対策 |
|---|---|
| 主語が翻訳で入れ替わる | 英訳後に主語(he/she)を必ず確認する |
| 首輪が意図しない人物につく | 力関係宣言を先に、小道具の記述は後に |
| ポジションが無視される |
does NOT で否定形を明示する |
| 全体の力関係が逆転する |
female boss / male attendant などの既知構図を活用 |
AIイラストで複数人を描くとき、ポジショニングは想像以上に重要です。
それ以上に、機械学習の偏りを上書きするための前提条件の積み重ねが必要になります。
同じ沼にはまっている方の参考になれば幸いです。
今月もう一回課金するかもしれませんが……それはそれ。
使用ツール:PixAI / Papago / ChatGPT

