────────────────────────
【1. ベイズ(Bayesian Inference)】
役割
生成AI内部で行われる
・パラメータ更新
・潜在変数推定
・確率分布の推論
の基本原理。
基本式(ベイズの定理)
Posterior ∝ Likelihood × Prior
p(θ | x) = p(x | θ) p(θ) / p(x)
意味
・Prior:学習前の信念
・Likelihood:データが与える情報
・Posterior:更新後の信念(学習結果)
生成AIでの利用例
・Transformer:次トークン分布の更新構造がベイズ的
・VAE:近似後分布 q(z|x) を最適化する際に KL divergence が登場
・Diffusion Model:逆拡散で p(x₀ | xₜ) を推論
ベイズは「確率分布をどう更新するか」の理論基盤。
────────────────────────
【2. 確率微分方程式(SDE: Stochastic Differential Equation)】
役割
生成AI(特に拡散モデル)が扱う
「時間とともに確率分布が変化するプロセス」を記述する。
一般形
dx = f(x, t) dt + g(x, t) dWₜ
・f(x,t):ドリフト(平均的変化)
・g(x,t):拡散項(ランダム揺らぎ)
・Wₜ:ウィーナー過程(ブラウン運動)
生成AIとの関係
拡散モデルは SDE を用いて
「ノイズ付加 → 逆拡散で生成」を行う。
Forward SDE
dxₜ = f(xₜ,t) dt + g(t) dWₜ
Reverse SDE
dxₜ = [f(xₜ,t) - g(t)² ∇ₓ log pₜ(xₜ)] dt + g(t) dW̄ₜ
ここで
∇ₓ log pₜ(xₜ) = スコア関数
(スコアを学習することが生成モデルの核心)
SDEは「確率分布がどう変化するか」を記述する仕組み。
────────────────────────
【3. モンテカルロ法(Monte Carlo Method)】
役割
高次元の期待値・積分・確率分布を「ランダムサンプリング」で近似する。
基本原理
E[f(X)] ≈ (1/N) Σ f(xᵢ)
利用場面
・ベイズ推論の近似(MCMC)
・分布の正規化定数の推定
・確率微分方程式の解法(Euler–Maruyama)
・Energy-Based Models のサンプリング
・Diffusion Model の逆工程(逐次サンプリング)
生成AIとの関係
・拡散モデルは SDE × Monte Carlo の連立処理
・VAE、EBM はサンプリングが本質
・SGD はモンテカルロ近似に相当(理論的には SDE 近似)
モンテカルロ法は「確率分布から実際の値を取り出す」技術。
────────────────────────
【4. KLダイバージェンス(Kullback–Leibler Divergence)】←追加部分
役割
2つの確率分布 p(x) と q(x) の「差」を測定する尺度。
生成AIでは 学習の目的関数 として中心的役割を持つ。
基本式
D_KL(p || q) = Σ p(x) log [ p(x) / q(x) ]
(連続分布では積分)
意味
・p(x):本来の分布(データ・真の分布)
・q(x):モデルが作った分布(近似・生成)
KL が小さいほど「モデルが真の分布に近い」。
特徴
- 非対称
D_KL(p || q) ≠ D_KL(q || p) - 0以上
D_KL ≥ 0 - 等しければ0
- 距離ではない(非対称+三角不等式なし)
生成AIとの関係
・VAE:ELBOを最大化する過程で KL(q(z|x) || p(z)) が登場
・Diffusion Model:スコア学習の誤差が KL に対応
・正則化として KL は「分布の滑らかさ」を維持
・大規模言語モデル:クロスエントロピーと KL の関係で訓練
KLは「分布同士のずれを測るための学習基準」。
────────────────────────
【全体像(4つの概念の役割)】
-
ベイズ
→ 分布をどう更新するか(推論) -
SDE
→ 分布が時間変化する仕組み(生成過程) -
モンテカルロ
→ 分布からどう取り出すか(サンプリング) -
KLダイバージェンス
→ 分布をどれだけ一致させるか(学習の指標)
これが生成AIの数学的基盤。