はじめに:なぜAIにとって日本語は「描けなかった」のか
初期のStable Diffusion(v1.5/2.1)を触ったエンジニアなら、文字を入れる指示を出した際の惨状を覚えているでしょう。アルファベットですら怪しく、日本語(漢字・かな)に関しては、意味不明な筆画が混ざり合った「テクスチャとしての何か」が生成されるのが常でした。
当時、私が画像生成AIを用いて漫画を生成しようと試みたときのデータです。宇宙文字が生成されることに悩み、コマ割り、テキストを分けて生成するように変更しました。。。
これには、当時のアーキテクチャが抱えていた3つの構造的限界がありました。
① トークナイザーの「視覚的」欠如
初期モデルのテキストエンコーダー(CLIP等)は、テキストを意味の最小単位(トークン)として処理します。
問題点: 1つの漢字がByte-Pair Encoding (BPE) によって2〜3つのトークンに分割されることがあります。
結果: AIは「猫」というトークンの「意味」は理解しても、その「画数」や「ハネ・払い」といった視覚的な形状を学習する仕組みを持っていませんでした。
② U-Netバックボーンの空間解像度
従来の画像生成AIは、畳み込みニューラルネットワーク(CNN)ベースのU-Netをデノイザーとして採用していました。
問題点: CNNは局所的な特徴(テクスチャや色)の抽出には優れていますが、画像全体の「どこに、どの画数を配置するか」という長距離の空間的な依存関係(Global dependency)の維持が苦手でした。
結果: 文字の線が途切れたり、指が6本になる現象と同じく、文字の構造が崩壊(宇宙文字化)しました。
③ データセットの圧倒的偏り
学習データの多くは英語圏の画像とキャプションのペア(LAION等)であり、日本語の画像と正確なテキストが紐づいた高品質なデータは、英語の20分の1以下という希少な存在でした。
2025年、何が変わったのか?
この「宇宙文字」の時代を終わらせたのは、主に3つの技術的進化です。
A. テキストエンコーダーの巨大化(T5-XXLの採用)
最新のモデル(Stable Diffusion 3.5やFLUX.1)は、CLIPに加えてT5-XXLのような大規模言語モデル(LLM)をテキストエンコーダーとして統合しました。
進化の理由: T5は膨大なテキストコーパスで学習されており、単なる単語の意味だけでなく、「綴り」や「文脈」を深く理解しています。これにより、プロンプト内の文字列をより正確な「指示ベクトル」として拡散プロセスに渡せるようになりました。
B. アーキテクチャの転換:Diffusion Transformer (DiT / MMDiT)
2024年末から主流となったのが、U-Netを捨ててTransformerバックボーンを採用する動きです。
技術的詳細: Multimodal Diffusion Transformer (MMDiT) アーキテクチャは、画像トークンとテキストトークンを「対等なシークエンス」として扱います。
効果: 画像のピクセルが直接テキストの指示を参照する**双方向の注意機構(Bidirectional Cross-Attention)**により、ピクセルレベルで「この位置にこの文字の線を引く」という空間的な整合性が劇的に向上しました。
C. Flow Matching(フローマッチング)の導入
Stable Diffusion 3やFLUXが採用したFlow Matchingは、ノイズからデータへの変換を「最短距離(直線)」で学習させる手法です。
メリット: 従来の拡散モデルよりもサンプリングの軌跡が効率化され、文字のような微細で構造的なディテールがデノイズの過程で失われにくくなりました。
現在のchatGPTで過去の作品の漫画に日本語テキストでと雑に投げただけでもかなりのクオリティで生成することができました。
人物の描写もかなり性能が上がっている気がしますね。
漢字が潰れてしまったり、少し惜しいところも残りますが読めなくはないタイポグリセミアのような感覚ですね!
プロンプトや生成する画像のベースを整えて、以下のように生成してみた時、かなり綺麗に表現できていますね。

実践:日本語合成を成功させる最新スタック
エンジニアとして日本語テキスト合成を実装・利用する場合、以下のモデル・手法が2025年現在の最適解です。
Google Gemini (Nano Banana Pro): 2025年に発表されたこのモデルは、Google DeepMindの技術により日本語の文字描写において最高評価を得ており、漫画や図解の生成にも耐えうる精度を誇ります。
FLUX.2 / Ideogram 2.0: タイポグラフィに特化したDiTベースのモデルです。ポスターやロゴなど、デザイン性の高い文字配置に強みを持ちます。
Glyph-ByT5: 文字の「形状(グリフ)」を学習させた専用のエンコーダーです。これを既存のモデルにアダプターとして追加することで、100文字を超えるような長文の日本語レンダリングも可能になります。
現在、Xで画像生成AIを使って絵馬にテキストを出力させるキャンペーンを実施中!!
マニアックなAIモデルやツールなど、幅広いご応募をお待ちしております✨

