LLMはどうやって画像を見て、動画を作るのか:VAE・Diffusion・DiTまでざっくり理解する
はじめに
最近のAIは、文章に答えるだけでなく、画像を見たり、音声を聞いたり、画像や動画を生成したりできます。
ここで混乱しやすいのが、次のような点です。
GPTは画像を「見ている」のか?
GPTが画像を「描いている」のか?
SoraはLLMなのか?
Transformerを使っていればLLMなのか?
VAEやDiffusion Transformerはどこに出てくるのか?
この記事では、数式や実装の詳細には深入りせず、LLM、マルチモーダル認識、画像生成、動画生成、VAE、Diffusion、DiTの関係を一本の流れで理解することを目的にします。
なお、この記事では公開情報をもとにした概念整理を行います。個別の商用モデルの内部実装を断定するものではありません。
1. LLMの能力発現とは何か
LLMは、基本的には大量のテキストから「次に来るトークン」を予測するように学習します。
しかし、その過程で単なる文章の続きを出すだけでなく、次のような能力が外から見えるようになります。
要約
翻訳
質問応答
コード生成
文章の分類
推論らしき処理
知識の関連付け
これは、LLMに「翻訳機能」「要約機能」「SQL生成機能」が個別にプログラムされている、という意味ではありません。
大量のデータから言語パターンや概念間の関係を学習した結果、プロンプトや文脈が整ったときに、それらが能力として発現して見えるということです。
ここで重要なのは、LLMの能力はモデル単体だけで決まるのではなく、次の要素にも大きく影響されることです。
モデルの規模
学習データ
Instruction tuning
プロンプト
コンテキスト
RAG
ツール利用
推論時の設計
つまり、LLMは「能力を持っている」というより、条件が整うと能力らしく振る舞えるシステムと考えると実務的です。
2. 画像や音声を認識できるのはなぜか
テキストだけのLLMは、基本的には文字列を扱います。
テキスト
↓
トークン化
↓
LLM
↓
テキスト出力
画像や音声を扱う場合は、その前段に変換器が入ります。
画像
↓
Vision Encoder
↓
画像特徴量
↓
LLM / マルチモーダルモデル
↓
説明・回答
音声
↓
Audio Encoder / Speech Recognition
↓
音声特徴量または文字起こし
↓
LLM / マルチモーダルモデル
↓
回答
つまり、画像や音声をそのまま「文章」として投げているわけではありません。
画像や音声を、モデルが扱える内部表現に変換し、それを言語・知識・推論と接続していると考えると分かりやすいです。
3. 認識とは「非テキスト情報を言語で扱える意味に近づける」こと
画像認識を単純化すると、こうです。
画像
↓
特徴量
↓
「猫がソファの上にいる」
音声認識なら、こうです。
音声波形
↓
音声特徴量
↓
「こんにちは、予約を確認したいです」
つまり、認識側では、次のような流れになります。
画像・音声・動画
↓
意味表現
↓
言語・知識・推論と接続
人間のように世界そのものを直接理解している、というよりは、モデル内部では視覚や音声のパターンを、言語で扱いやすい意味表現へ変換していると考えるのが安全です。
たとえばCLIPは、画像とテキストを対応付けて学習する代表的な研究です。現行モデルの内部構成がCLIPそのものだという意味ではありませんが、画像と文章を近い意味空間で扱うという考え方を理解する例として分かりやすいです。
4. 画像や動画を生成できるのはなぜか
認識が、
画像・音声・動画
↓
意味
だとすると、生成は逆方向です。
意味
↓
画像・音声・動画
たとえば、ユーザーがこう入力します。
東京の夜景をサイバーパンク風に描いて
画像生成モデルは、この文章を条件として扱い、画像を生成します。
プロンプト
↓
意味表現
↓
画像生成モデル
↓
画像
ここで大事なのは、会話用LLMそのものがピクセルを直接描いているとは限らないという点です。
実務的には、次のような役割分担で理解すると分かりやすいです。
LLM
= ユーザーの意図を理解する
= 条件を整理する
= 生成モデル向けの指示を作る
画像生成モデル
= 条件に合う画像を生成する
動画生成モデル
= 条件に合う映像や音声付き動画を生成する
つまり、LLMは「ディレクター」、画像・動画生成モデルは「制作エンジン」と考えると理解しやすいです。
5. Diffusion Modelは「ノイズから画像を復元する」モデル
画像生成でよく出てくるのが Diffusion Model、拡散モデル です。
拡散モデルの考え方は、かなり単純化すると次の通りです。
学習時には、きれいな画像に少しずつノイズを加えます。
きれいな画像
↓
少しノイズ
↓
かなりノイズ
↓
ほぼ砂嵐
そしてモデルには、その逆方向を学習させます。
ノイズだらけの状態
↓
ノイズを少し消す
↓
形が出る
↓
画像に近づく
生成時には、最初はランダムノイズです。
ランダムノイズ
+
プロンプト
↓
ノイズ除去を繰り返す
↓
画像
つまり画像生成AIは、白紙に線を引いて絵を描くというより、ノイズの中から、条件に合う画像を浮かび上がらせていると考えると分かりやすいです。
6. VAEとは何か
ここで出てくるのが VAE です。
VAEは Variational Autoencoder、日本語では 変分オートエンコーダー と呼ばれます。
画像生成の文脈では、VAEなどのオートエンコーダーが、画像を小さな潜在表現に圧縮し、あとで画像に戻す役割を担うことがあります。
画像
↓
VAEなどの Encoder
↓
潜在表現
↓
Diffusion / DiT が処理
↓
VAEなどの Decoder
↓
画像に戻す
通常の画像は、ピクセルのかたまりです。
縦 × 横 × RGB
これをそのまま生成モデルで扱うと重いので、いったん潜在空間に圧縮します。
ピクセル空間
↓
潜在空間
その潜在空間で生成処理を行い、最後にまた画像へ戻します。
ここでのVAEなどのオートエンコーダーは、画像生成の「本体」というより、画像と潜在空間を行き来する変換器として見ると理解しやすいです。
なお、Stable Diffusionなどで知られるLatent Diffusionの考え方では、画像を直接ピクセル空間で生成するのではなく、圧縮された潜在空間上で拡散モデルを動かします。これにより、高解像度画像を扱う計算量を抑えやすくなります。
7. Diffusion Transformer、DiTとは何か
Diffusion Transformer、DiT は、拡散モデルの中でTransformerを使う方式です。
ここでよくある誤解があります。
Transformerを使っている
=
LLMである
ではありません。
Transformerは自然言語処理で有名になりましたが、現在では画像、音声、動画などの処理にも使われます。
DiTでは、画像の潜在表現を小さなパッチに分け、それをTransformerで処理します。
画像
↓
VAEなどで潜在表現へ圧縮
↓
潜在表現をパッチに分割
↓
Transformerで処理
↓
ノイズ除去方向を予測
LLMが主に「文章トークン」を扱うのに対して、DiTでは「画像や動画の潜在パッチ」を扱います。
そのため、DiTはTransformerを使っていますが、会話用LLMとは役割が違います。
8. DiTの学習時には何を入力するのか
DiTの学習時の入力は、主に次の3つです。
ノイズ付きの画像/動画パッチ
+
今が何ステップ目かを示す時刻情報
+
プロンプトなどの条件情報
もう少し具体的には、こうです。
本物の画像
↓
VAEなどで潜在表現に圧縮
↓
ノイズを加える
↓
小さなパッチに分割
↓
DiTに入力
DiTは、
このノイズ付き潜在表現から、どのノイズを取り除けばよいか
を予測します。
LLMが「次の単語」を予測するのに対して、DiTはざっくり言うと、
次に消すべきノイズ
を予測している、と考えると分かりやすいです。
9. 動画生成では「時間」が加わる
画像は2次元です。
縦 × 横
動画は、そこに時間方向が加わります。
時間 × 縦 × 横
そのため、動画生成では1枚の画像を作るだけでなく、前後のフレームが自然につながる必要があります。
1フレーム目
↓
2フレーム目
↓
3フレーム目
↓
...
動画生成では、次のような要素が必要になります。
各フレームの生成
時間的一貫性
物体の動き
カメラワーク
奥行き
光や影
音声との同期
Soraの技術説明では、圧縮された動画から spacetime patches、時空間パッチ を取り出し、それをTransformerのトークンとして扱う説明があります。
画像は「1フレームの動画」として扱えるため、画像と動画を似た考え方で処理できる、という見方もできます。
ここで重要なのは、Sora = DiT と単純に言い切るのではなく、DiTを理解しておくとSoraの技術説明に出てくる考え方をイメージしやすいということです。
10. gpt-image-2やSoraはLLMなのか
ここも混乱しやすいところです。
結論としては、gpt-image-2やSoraは、会話で長文回答するための汎用LLMというより、画像・動画生成を主目的にした生成モデルとして理解すると分かりやすいです。
たとえば、gpt-image-2 は画像生成・編集向けのモデルとして提供されています。
また、Sora 2 Proは、自然言語や画像から同期音声付きの動画を生成するメディア生成モデルとして説明されています。
つまり、役割としてはこうです。
GPT系の会話モデル
= 意図を理解する
= 説明する
= 推論する
= 指示を組み立てる
画像生成モデル
= 条件に合う画像を生成・編集する
動画生成モデル
= 条件に合う動画や音声付き動画を生成する
ただし、画像生成モデルや動画生成モデルも、プロンプトを解釈する必要があります。
そのため、言語をまったく扱わないわけではありません。
「白い背景」
「中央にロゴ」
「写真ではなくフラットデザイン」
「夕暮れの東京」
「ゆっくりカメラが右に移動する」
といった条件を、画像や動画生成の内部表現に変換する必要があります。
その意味では、画像・動画生成モデルも言語条件を扱います。
ただし、主目的は「会話で長文回答すること」ではなく、条件に合う画像や動画を生成することです。
11. 「LLMではない」と「Transformerではない」は別
ここが一番重要です。
言語モデルかどうか
と、
Transformerを使っているかどうか
は別の話です。
たとえばSoraは、会話用LLMではありません。
しかし、Soraの技術説明では、動画や画像の潜在表現をパッチ化し、それをTransformerで扱う構成が説明されています。
つまり、次のようなことが普通にあります。
LLMではない
でもTransformerは使っている
さらに生成方式としてはDiffusion系
Transformerは、今では文章だけでなく、画像や動画のパッチ列を扱うためにも使われます。
そのため、
Transformer = LLM
と考えるのではなく、
Transformer = トークン列やパッチ列を扱うための強力なアーキテクチャ
と考えた方がよいです。
12. 全体像
ここまでをまとめると、認識側はこうです。
【認識】
画像・音声・動画
↓
Encoder
↓
内部表現
↓
LLM / マルチモーダルモデル
↓
説明・回答・判断
生成側はこうです。
【生成】
ユーザーの指示
↓
LLMが意図を理解
↓
画像/動画生成モデルへの条件
↓
Diffusion / DiT
↓
VAEなどの Decoder
↓
画像・動画
一言で言うと、
認識
= 画像・音声・動画を、言語で扱える意味に近づける
生成
= 言語で表された意味を、画像・音声・動画へ戻す
です。
まとめ
この記事では、LLM、マルチモーダル認識、画像生成、動画生成、VAE、Diffusion、DiTの関係を見てきました。
ポイントは次の通りです。
LLMは、大量のテキスト学習により、言語・知識・推論らしき能力を発現する
画像や音声の認識では、専用エンコーダーで内部表現に変換し、LLMやマルチモーダルモデルと接続する
画像生成では、テキスト条件をもとに、Diffusion Modelがノイズから画像を復元する
VAEなどのオートエンコーダーは、画像と潜在空間を行き来する圧縮・復元の部品として使われる
DiTは、Diffusionの中でTransformerを使う方式
動画生成では、時間方向を含む時空間パッチを扱う必要がある
Transformerを使っていても、それが必ず会話用LLMとは限らない
最終的には、こう考えると分かりやすいです。
LLM
= 意図理解・説明・推論・指示設計を担当する
画像生成モデル
= 画像を生成する制作エンジン
動画生成モデル
= 時間方向を含む映像を生成する制作エンジン
つまり、マルチモーダルAIとは、言葉・画像・音声・動画を内部表現で接続し、認識では非言語情報を言語に近づけ、生成では言語的な意味を非言語情報へ戻す仕組みだと言えます。
LLMはその中心で、意図理解や推論を担当します。
一方で、画像や動画を実際に生成する部分では、VAEなどのオートエンコーダー、Diffusion、DiTのような専用の生成モデル技術が重要になります。