0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Active inferenceで忘れるやつ

0
Last updated at Posted at 2026-01-06

Active inferenceで忘れるやつ

-1. Active inferenceは特別でも特殊でも無い

Active inferenceでキーとなる手法、考え方

  • POMDP(部分観測マルコフ決定過程)
  • ベイズ推論
  • ELBO=-変分自由エネルギー
  • 変分推論
  • グラフィカルモデル
  • 平均場近似

ベイズ推論の手法+行動がActive inferenceである。特別なものではない。ベイズ推論に当てはめられれば何でも説明でき、実際に何でも説明してしまうので迷子になる。Active inferenceの万能性は、ベイズ推論の万能性から来ている。冷静になろう。


0. P と Q

  • P(·) = 生成モデル(エージェントが仮定する「世界の確率」。真の確率分布ではないかもしれないが、頭の中で作られている。学習により獲得、もしくは行動により修正していかなければならない。)
  • Q(·) = 信念 / 近似事後(観測後の「いまこうだと思う」気持ち。そもそも気持ちだから確率分布である必要もないが、Active inferenceでは確率として扱っていると思う。多分。行動しながら気持ちは変わる。)

つまり、Acive inferenceでは、脳内で獲得した世界の知識Pと、それに基づき、その時点での気持ちQを計算している。

ここで忘れそうなこと。

  • Pは学習により獲得する必要がある。
  • 行動はすでに獲得したPに基づく。

1. 確率分布

確率変数

  • 隠れ状態: $s_t$
  • 観測: $o_t$
  • 行動: $a_t$
  • 方策(行動列): $π = (a_t, a_{t+1}, …)$ (方策と読んでいるが、行動列。つまり強化学習のプランニング。確率分布ではない!!)

生成モデルの確率(P側)

  • 尤度(観測モデル): $A$
    • $P(o_t | s_t)$
  • 遷移(状態モデル): $B$
    • $P(s_{t+1} | s_t, a_t)$
  • 初期状態事前信念: $D$
    • $P(s_1)$
  • 方策事前信念: $E$
    • $P(π)$
  • 選好(望ましい観測、好み): $C$

A,B,D,E は基本 P側。C は表現が流派で揺れるので注意。

推論で得る信念(Q側)

  • 状態の信念(周辺事後): $q(s_t)$
  • 方策の信念: $q(π)$
  • 将来予測(方策条件つき): $q(s_{t+k} | π)$, $q(o_{t+k} | π)$

学習(モデルパラメタへの信念)

  • ディリクレ濃度(疑似カウント):
    • $pA$ : A のパラメタ事後(Dirichlet)
    • $pB$ : B のパラメタ事後(Dirichlet)
  • 推論に使う期待値:
    • $E[A]$, $E[B]$(正規化した期待)
    • $E[ln A]$, $E[ln B]$(VFE/情報利得で頻出)

A(カテゴリカル)と pA(ディリクレ)は別物。B と pB も同様。

大抵の実装ではAとBはカテゴリカル分布で、pAとpBはディリクレ分布。これらは共役関係にある。$p(\theta | x) \propto p(x | \theta) p(\theta)$-> $Dir(\theta | x) = Cat(x \mid \theta) Dir(\theta)$


2. 目的関数:F と G の役割

変分自由エネルギー(perception)

  • F:いまの観測 o_t を説明するように q(s_t) を更新する目的関数
  • 感覚的には「いま何が起きているか」を決める

期待自由エネルギー(planning / policy selection)

  • G(π):方策 π ごとの将来評価(好み + 不確実性低減など)
  • 感覚的には「これから何をするべきか」を決める

3. 典型ワークフロー(1ステップ)

  1. 予測事前(前時刻の信念と B から)
    • p(s_t) ≈ Σ_{s_{t-1}} P(s_t|s_{t-1}, a_{t-1}) q(s_{t-1})
    • 初期は D が出発点
  2. 状態推論:$o_t$ を見て $q(s_t)$ 更新(F 最小化)
  3. 方策推論:$G(π)$ を計算して $q(π)$ 更新
  4. 行動:$q(π)$ から $a_t$ を選ぶ(サンプル or 周辺化)
  5. 学習(任意):$pA, pB$ を更新 → $E[A], E[B]$ が変わる

学習するのは、p(世界のモデル)のパラメタ。信念の変化は学習ではなくエージェントの気持ちの変化。


4. 混乱しやすい対比まとめ

「prior」が2種類ある

  • モデルの事前: $D = P(s_1)$ / $E = P(π)$
  • 推論上の予測事前: $p(s_t)$(直前信念と B から作る)

$C$ は「確率分布」とは限らない

  • $C$ を log P*(o) として持つ流派もあれば、単なる utility として持つ流派もある

precision(温度)記号の衝突に注意

  • γ(gamma): 方策選択の精度(softmax の鋭さ)として使われがち
  • 一方で、ガンマ分布/ディリクレの記号 γ, β, α が別用途で出てきて衝突しやすい
    • 「softmax温度か? 分布パラメタか?」で必ず判定
  • γはガンマ分布をしていて、ガンマ分布のパラメタのαとβは、$\alpha = 1$で固定し、βを更新する。
  • 太字と細字のγのパラメタβが出てくるが、太字はベクトルではなくposteriorのパラメタ。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?