キャラクターの一貫性が保てる!?PixAIのプロンプト作成のコツとLoRA
私は画像生成AIについては、ちょっと触ったことがある程度で、そこまで詳しくないと思います。ただ、わかりやすく伝えるためのマンガ風のコンテンツを提供するサービスに一時期取り組んでいたため、「画像生成AIを使えるのでは?」と思って使ってみたことがあります。
本記事では、画像生成AIについての専門知識はほぼない私がわかりやすく、私の経験を交えてPixAIについてご紹介します。
過去に画像生成AIに触れた経緯
フリーランスのライターとして活動していく中で、ニュースレターの執筆サービスを提供しようと思ったことがあります。ニュースレターとは、企業や組織が近況などを定期的に顧客に伝えるための郵送物やPDFなどのことをいいます。
参考
そのときに、分かりやすく伝えるため、マンガ風のコマ割りを使ってフリー素材や吹き出しを使って、制作を進めていました。やはりフリー素材だとコマや展開に微妙に合わない顔の向きだったり、表情だったりしていました。
そのため、画像生成AIを使えば、コマにあった画像を使えるのではないか?と考えました。しかし、実際には全く使えませんでした。もちろん私の知識不足でプロンプトも良くなかった部分は大いにあると思います。ただ、「頭を抱える男性のサラリーマン」の画像を生成しようとしても、スーツを着た幼い感じの男の子になってしまったり、表現を少し変えたものを出力すると最初の男の子とは似ても似つかないようなキャラクターになったりしてしまいました。
キャラクターの一貫性を保てるLoRA
なんとか一貫性を保てる方法がないかと調べたところLoRA(Low-Rank Adaptation)に対応しているサービスなら、髪型・顔立ち・服装などのキャラクターの一貫性を保ったまま、違う表現ができることを知りました。
ただ、当時はクラウドサービス系でLoRAを使えるところは少なく、使えるとしても少し課金が必要なところばかりでした。
しかし、今回紹介するPixAIではLoRA機能も使える一方で、LoRAに依存せずにキャラクターの一貫性を保てる方法もあります。
PixAI
https://pixai.art/ja
プロンプトの工夫で一貫性が保てるPixAIの特徴
PixAIには「モデル」があります。モデルはどんな画風で出力したいかを選ぶようなものです。
その中でも特に、一貫性のあるキャラクターを出力したいときにおすすめなのが、「Tsubaki」モデルです。
Tsubakiモデル
https://pixai.art/ja/model/1884107375027888751-Tsubaki
Tsubakiは、DiT(Diffusion Transformer)モデルをベースにした高精度な生成モデルで、プロンプトに書いた細かな条件を高い精度で再現してくれます。
特に「キャラクターの性格や関係性」「服装」「感情表現」「背景のシチュエーション」などを忠実に描写する力に優れており、LoRAを使わなくても十分に一貫したキャラクター表現が可能です。
たとえば以下のような、かなり詳細に書き込んだプロンプトで試してみたところ、3回出力しても登場人物の服装や関係性、シーンの雰囲気が大きくブレることはありませんでした。
プロンプト例:
上司と部下の2人。上司は女性、部下は男性。2人で新しい集客施策が決まらず困っている。場所はオフィスの会議室。時間だけが経っていて良案が浮かばない。
男性は優しそうなおじいちゃん。おじいちゃんは女性と一緒に課題に対して頑張っていこうと思い、女性を励ましたいと思っている。女性は課題の大変さで心がいっぱいいっぱいな気持ち。
女性はショートカットで、グレーのジャケットに白いブラウス。おじいちゃんはベージュのカーディガンに水色のシャツ。メガネを掛けていて、短髪。
女性は焦りと不安が入り混じった表情。会議室のテーブルにメモやノートPCが広がっている。背景にブラインドカーテンと昼下がりの柔らかい光。横から見た構図で、2人の距離感がわかるように。
ただ、距離感が近すぎるものが出てくることはありました笑
このように、登場人物の立場・服装・感情・背景・構図まで丁寧にプロンプトに含めることで、繰り返し出力しても一貫性のある世界観が表現できるのがTsubakiの魅力です。
せっかくならLoRAも使ってみよう
Tsubakiでもプロンプトを工夫すれば、十分にキャラクターの一貫性が保てます。でもPixAIはLoRAにも対応しています。
次にLoRAを使ってみます。モデルを選ぶ画面で「LoRA学習する」ボタンを押すとすぐに使えます。

次に進むと、どのモデルをベースにするかを選ぶ箇所と下にするデータセットを決める箇所が出てきます。
データセットは画像のアップロードだけでなく、生成したものから選ぶこともできます。今回は先ほどのプロンプトで出力したものをデータセットにします。

次にトリガーワードを指定します。先ほどのプロンプトをChatGPTにトリガーワード化してもらいました。女性社員のほうが上司というイメージはなかったのですが、これはこれでいいでしょう。
female boss, short hair, grey jacket, emotional expression, elderly man, glasses, beige cardigan, kind expression, office meeting room, troubled atmosphere, daylight, soft light, distance between two people
およそ30分前後待ち時間が入ります。
この画面になったらカテゴリとタグの設定していきます。
カテゴリとタグを入力するように求められます。プルダウンからカテゴリを選び、タグはモデルに合ったものを選びます。この部分はモデルマーケットの検索に引っかかりやすくなる要素です。
保存して再度モデルを開くと「このLoRA」を使用するという表示になりました。

使用するを押すと最初と同じ生成の画面になります。全く同じプロンプトを実行したところ、左上の1枚はイメージ通りのものになりましたが、それ以外はジャケットやカーディガンを着ているのが、指示と逆のキャラクターでした。
結果、LoRAを使うと一部一貫性が保てるが、指示通りにいかないものも出力されるようでした。
Tsubaki以外のモデルでLoRAをするくらいなら、Tsubakiを使ったほうがキャラクターの一貫性が出る
PixAIでは、プロンプトを丁寧に作り込むことで、LoRAを使わずともかなり高い一貫性でキャラクターを再現できます。中でも「Tsubaki」モデルは、プロンプトの細かい指定に忠実に応えてくれるため、キャラクターの性格や服装、感情表現、シチュエーションの安定感が抜群です。
LoRAを使えば、特定の人物や状況をより強く反映した出力も可能になりますが、ベースモデルによっては逆に意図と異なる結果になることもあります。今回の検証でも、Tsubaki以外のモデルを使った場合、一貫性が崩れる出力が見られました。
そのため、キャラクターの一貫性を保ちたいなら、Tsubakiモデルを使った画像生成がおすすめです!
PixAIの詳しい使い方については、YouTubeの公式チャンネルでチュートリアル動画が多数公開されています。初心者にもわかりやすい内容が揃っているので、興味のある方はぜひチェックしてみてください。













