#情報理論
【概念】
ある事象が起こる確率$P(x)$が起こりにくいとき、その稀な事象を表現するのに必要な情報量は多い。一方で、確実に起こる事象($P(x)=1$)の情報量は無いものと考えられる(表現する必要すらない)
【表現式】
情報量$I$は$I(P(x))=-\log{P(x)}$と表現され、これは確率が小さいほど情報量が多いという性質を直接表現している。一般的にこの単位はnatsとされるがこの底を2で取ると情報量の単位はbits, eで取るとshannonsとされる事が多い。
この情報量の乱雑さを表す指標としてエントロピー$H(x)$があり、特に底がeのときにシャノンエントロピーと呼ばれ、$H(x)=E[I(x)]=-\underset{x}\Sigma P(x)\log{P(x)}$と表現される。
【種類】
- Kullback-Liebler divergence
★同じ確率変数$x$に対して異なる確率分布$P(x), Q(x)$があるとして、元々想定していた分布$Q(x)$と新たに判明した結果から導き出した分布$P(x)$の差を見るのがこのKLダイバージェンスである。このKLダイバージェンスを用いて2つの分布の間にどれほどの差があるのかを測ることが出来る。$$D_{KL}(P||Q)=E_{x~P}[I(Q(x))-I(P(x))]=E_{x~P}[\log{P(x)}-\log{Q(x)}]=-\Sigma P(x)\log{\frac{P(x)}{Q(x)}}$$
2.交差エントロピー
KLダイバージェンスの一部を取り出したもので、$Q$についての事故情報量を$P$の分布で平均をとっている。主に分類問題の損失関数として用いられる。$$H(p,q)=-\Sigma P(x)\log{Q(x)}$$
3.JSダイバージェンス
敵対的生成ネットワーク(GAN)の損失関数に用いられることで有名$$D_{JS}(P||Q)=\frac{1}{2}(\underset{x}\Sigma p(x)\log{\frac{P(x)}{R(x)}}+\underset{x}\Sigma q(x)\log{\frac{Q(x)}{R(x)}}), R(x)=\frac{P(x)+Q(x)}{2}$$
4.モンテカルロ積分
交差エントロピーの積分(離散値ならシグマ和だが連続値なら積分なのは自明とする)をモンテカルロ積分で求める。
(公式)$$E[f(x)]=\int f(x)p(x)dx \simeq \frac{1}{S}\sum_{s=1}^{S} f(x_{s})$$
より、以下が成り立ちます。$$-\int p(x)\log{q(x)}dx\simeq -\frac{1}{n}\sum_{i=1}^{n}\log{q(x)}$$
【参考資料】
「杉山将ら(2021), "徹底攻略ディープラーニングE資格(第二版)", 株式会社インプレス」、「Ian Goodfellow et al.(2020), "DEEP LEARNING", Ascii Dwango」、「ラビットチャレンジ(Study-AI)」