LoginSignup
3
1

More than 5 years have passed since last update.

PRML 1.6

Last updated at Posted at 2017-07-11

1.6 情報理論

情報理論の分野から、確率論などについて考える
 パターン認識や機械学習に必要ないくつかの概念を学習する

情報量

情報量 $h(x)$
 離散確率変数xに対して
 「ある特定の値を観測したことで、どれだけ情報を受け取れるか」

1. $h(x)はp(x)に対し単調減少$
 ∵ p(x)が小さい → 情報量大
  p(x)が大きい → 情報量小
2. $p(x,y) = p(x)p(y)に対し、h(x,y) = h(x) + h(y)$
 ∵ 2つの事象x,yが独立の時、
  両方を観測した情報量=x,yそれぞれの情報量の和

∴ $h(x) = -log(p(x))$ (∵ 1.、2.)
* 0 ≦ p(x) ≦ 1 より、 0 ≦ h(x)
* 単位は底が2の場合ビット、eの場合ナット

エントロピー

一度の事象で送れる情報量の期待値
     $H[x]= -Σp(x)log(p(x))$
ノイズなし符号化定理:エントロピーと最短符号長の関係


箱への入れ方の総数は
 N個の物体をどの順番で入れるかは N! 通り
 i番目の箱の中ではni!通りの順番が存在する
∴ $W = \frac{N!}{Πni!}$
 このWを多重度と呼ぶ

ミクロ状態:箱の中の物体の特定の状態
マクロ状態:比ni/Nで表される物体の占有数の分布
*多重度Wはマクロ状態の重みともいう

離散変数でのエントロピー

     $H[x]= -Σp(x)log(p(x))$
スクリーンショット 2017-07-11 13.16.17.png
・エントロピー低:一部で鋭いピークをもつ時
・エントロピー高:値が広範囲に渡っている時
・エントロピー最小:ある一つの値がp=1で、他ではp=0となる時
・エントロピー最大:全てが等確率に起こる一様分布の時


連続関数でのエントロピーはどうか

微分エントロピー

連続変数xでの確率密度分布p(x)について考える
 ・xを等間隔の区間$Δx$に分ける ∵極限$(Δx→0)$をとるため
 ・平均値の定理より、
  スクリーンショット 2017-07-11 13.32.12.png
  を満たす$x_i$が存在する。
 ・$x_i$を観測する確率は、$p(x_i)Δ$
 ・離散変数のエントロピーから
     $H[x]= -Σp(x)ln(p(x))$
スクリーンショット 2017-07-11 13.35.13.png
 ・$-InΔを無視してΔ→0の極限をとる$
スクリーンショット 2017-07-11 13.37.15.png
 これを微分エントロピーという

微分エントロピーの最大化

平均がμ、分散が$σ^2$となる分布の中で、エントロピーが最大になる分布
 規格化制約: $\int p(x)dx = 1$
 1次モーメント:$\int xp(x)dx = μ$
 2次モーメント:$\int(x-μ)^2p(x)dx = σ^2$
これらの制約のもとで、ラグランジュ乗数法を用いて微分エントロピーを最大化する
スクリーンショット 2017-07-11 14.00.21.png
このp(x)のもとでHをもとめると

  $H[x]=\frac{1}{2}[1+ln(2πσ^2)]$

条件付きエントロピー

xのある値$x_i$が決まったあとで、yの値を特定するのに必要な情報量は$In p(y|x_i)$
∴条件付きエントロピーは

確率変数:
$H[x]=\sum_i p(x_i)H[y|x_i]=\sum_i p(x_i) \sum_j p(y_j|x_i)ln p(y_j|x_i)=\sum_i \sum_j p(x_i,y_i)ln p(y_j|x_i)$
連続変数:
$H[x]=\int\int p(x,y)ln p(y|x)dydx$

条件付きエントロピーと乗法定理から

  $H[x,y]=H[x|y]+H[x]$

1.6.1 相対エントロピーと相互情報量

→情報理論の概念をパターン認識と関係付ける

相対エントロピー(KLダイバージェンス)

未知の分布p(x)を近似的にq(x)でモデル化する
xの値を特定するのに必要な追加情報の平均は、

$KL(p||q)=-\int p(x) ln q(x)dx - (-\int p(x) ln p(x)dx)=-\int p(x)ln\frac {q(x)}{p(x)}dx$

これを$p(x)とq(x)$の相対エントロピー(KLダイバージェンス)という

KLダイバージェンスの性質

 ・$KL(p||q)≠KL(q||p)$
 ・$KL(p||q)\geq 0$ $(等号成立は p(x)=q(x))$

イェンセンの不等式

凸関数

関数f(x)で、全ての弦が関数上か関数より上にある関数
弦の両端のみ弦が関数上に乗っている時、真に凸という
スクリーンショット 2017-07-11 14.57.00.png
等号成立が$λ=0,1$のみの時、真に凸
この時、二回微分が常に正

イェンセンの不等式

$f(λa+(1-λ)b)\leq λf(a)+(1-λ)f(b)$
より数学的帰納法から、
 $f(\sum_{i=1}^{M}λ_ix_i)\leq $

$\sum_{i=1}^{M} λ_i f(xi)$
これをイェンセンの不等式という

相互情報量

2つの変数集合x,yの同時分布p(x,y)に対し
・x,yが独立の場合、$p(x,y)=p(x)p(y)$
・x,yが独立でない場合、$KL(p(x,y)||p(x)p(y))$を利用する
 $I[x,y]≡KL(p(x,y)||p(x)p(y))=-\int\int p(x,y)ln(\frac{p(x)p(y)}{p(x,y)})dxdy$
この$I[x,y]$を$x,y$間の相互情報量と呼ぶ

KLダイバージェンスより、
 $I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]$
であり、yの値を知ることによって、xに関する不確実性がどれだけ減少するかを表している

SlideShare Prml1.6

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1