2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PhysiKyu 2024Advent Calendar 2024

Day 23

相対エントロピー絡み

Last updated at Posted at 2024-12-22

PhysiKyu2024アドベントカレンダー23日目です.B3の金山が担当します.

私は今年度統計検定1級を受験しまして, 1次試験の統計数理には合格することができました. なので物理と統計に関わる記事として, 最近授業で受けた量子情報のテキストに相対エントロピーについて書かれていたので, そこから色々話を広げて書こうと思います.

相対エントロピーとは

みなさんは相対エントロピーについてご存知でしょうか. 相対エントロピーは別名がいくつかあり, ここでは次の2つを紹介しておきます.
相対エントロピー(relative entropy)
カルバック・ライブラー情報量 (Kullback–Leibler divergence)

ダイバージェンスとありますが, 物理学科に馴染みのあるベクトル解析のdivではないです.

では, 相対エントロピー(カルバック・ライブラー情報量)の定義を書きます.
相対エントロピー(カルバック・ライブラー情報量)の定義
確率分布$f(x), g(x)$において、$f(x)$の$g(x)$に対する相対エントロピー(カルバック・ライブラー情報量)は

KL(f(x),g(x))=E_F \left[\mathrm{log} \frac{f(X)}{g(X)}\right]

期待値の添え字は, $f(x)$について期待値を取るという意味で,$f(x), g(x)$が離散分布だったらΣ, 連続だったら積分で期待値を取ります.

この相対エントロピー(カルバック・ライブラー情報量)が意味していることは, 2つの確率分布がどれほど異なっているか, です.

相対エントロピー(カルバック・ライブラー情報量)は, 次のギブスの不等式を満たします.

KL(f(x),g(x))\ge0

等号成立しているとき, $f(x)=g(x)$, $f(x)$と$g(x)$の差異がないほど$0$に近いです.

$g(x)$が真の確率分布, $f(x)$が実験で得た確率分布や推定で得た確率分布だとして, 相対エントロピー(カルバック・ライブラー情報量)を計算すると, 2つの確率分布を評価できますね.

また, シャノン・エントロピーや相互情報量は, この相対エントロピー(カルバック・ライブラー情報量)の派生として理解できます.

量子相対エントロピー

古典論の相対エントロピーは2つの確率分布がどれくらい異なっているかの尺度でした. では次に, 量子相対エントロピー(quantum relative entropy)の定義を書きます.

量子相対エントロピーの定義
2つの量子状態$\hat{\rho}, \hat{\sigma}$に対する量子相対エントロピーは

D(\hat{\rho},\hat{\sigma})=\mathrm{Tr} \, \hat{\rho}\,[\mathrm{log}\, \hat{\rho}-\mathrm{log}\, \hat{\sigma}]

(以下, 区別するために, 古典論の相対エントロピーはカルバック・ライブラー情報量と書きます.)
量子相対エントロピーは, カルバック・ライブラー情報量のときと同様に考えると, 2つの量子状態がどれくらい異なっているかの尺度となりますね.

また,カルバック・ライブラー情報量のときと同様に, フォン・ノイマン・エントロピーや, 量子相互情報量は, 量子相対エントロピーの派生として理解できます.

赤池情報量基準(AIC)

最後に数理統計学の話をします. 赤池情報量基準(以下, AICと書きます)はカルバック・ライブラー情報量に基づいて導出されます. 導出過程は書かず, 結果だけ書くと,

\mathrm{AIC}=-2\, \mathrm{log}L+2k

ただし, $L$は最大尤度(適合度のようなものと考えて大丈夫です), $k$は自由度です.

このAICは, 適切なモデルを選ぶモデル選択などで活躍します. 例えば, 実験で得られたデータをプロットし, それをある関数でフィッティングすることを考えましょう. 今回, 紙を投げる実験をし, 変数として紙の固さ, 投げる距離, 投げる手などを考えます. 各変数を固定していろいろなフィッティングを行い, それぞれのAICを計算します. AICが最小な関数がもっとも適切なモデルとなり, 次のデータの予測などができます. 

AICについて, AICの第1項はモデルの適合度を表しています. モデルの当てはまりがよいほど, 最大対数尤度は大きくなります. 第2項はデータの複雑さへのペナルティです. データの数が少なすぎると, モデルの予想は難しいですよね. 逆に, データの数が多くなると, ノイズが入ったりしてモデルが複雑になります. いわゆる過学習というやつです.

終わりに

今回はカルバック・ライブラー情報量から色々関連付けて, 量子相対エントロピーと赤池情報量基準について意味をざっくり理解してもらえるように簡潔に紹介しました. 量子情報などに登場する色々なエントロピー, 情報量の関係を勉強する機会や, 数理統計学の勉強の機会になれば嬉しいです.

参考文献

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?