少し前に話題となったAI絵師。SNSやイラスト投稿サイトで「プロンプトで描いた」「LoRA作った」などの投稿を見かけた方も多いのではないでしょうか。
私自身、いまさらながら「実際にどうやって動いているのか気になった」&「自分でも使ってみたかった」ことがきっかけで、この分野の技術を調べてみました。
本記事では、Stable Diffusionを中心にしたAI絵師の技術スタックをエンジニア目線でわかりやすく整理しています。「AIで絵を描いてみたいエンジニア」の方の参考になれば幸いです。
1. コア技術:拡散モデル(Diffusion Models)
まずベースになっているのが拡散モデル(Diffusion Models)です。これは画像をノイズから少しずつ再構築していく生成手法で、従来のGANより高解像度・安定性に優れています。
- 前処理(フォワードプロセス):画像にノイズを段階的に加える
- 生成(リバースプロセス):ノイズから画像を少しずつ復元
2. テキストから画像生成:CLIP × 条件付き生成
AI絵師が「テキストから絵を描ける」のは、OpenAIが開発したCLIPの力が大きいです。
CLIPは、テキストと画像を同じベクトル空間で扱えるようにするモデルです。これにより、以下のようなプロンプトが可能になります。
"宇宙空間に浮かぶ猫" → 実際にそれっぽい画像が生成される
3. LoRA(Low-Rank Adaptation)による軽量カスタム
LoRAは、Stable Diffusionを軽量に学習・カスタマイズするための手法で、特定の画風・キャラ・衣装などを少量の画像から学習させられます。
- 「〇〇風のイラストが好き」
- 「自分だけのキャラを描かせたい」
などを実現しやすくなります。
4. ControlNet:構図やポーズの制御も自由自在
ControlNetは、元画像のポーズ・輪郭線・深度マップなどをガイドとして使える技術です。
トレースや構図指定に非常に便利で、「このポーズで描いてほしい」が実現できます。
使用例
- ポーズを指定:OpenPose + ControlNet
- スケッチを清書:Canny抽出 + ControlNet
おわりに
AI絵師の裏側には、多数の高度な技術が組み合わさっていますが、近年ではツールやライブラリの整備が進み、個人でも簡単に扱えるようになっています。
気になった技術があれば、ぜひ論文やGitHubをチェックし、自分だけのLoRAを作る or プロンプト職人デビューしてみてください。