※以下、個人的な勉強のためのレポートです。
※間違い多々あると存じますが、現在の理解レベルのスナップショットのようなものです。
※勉強のためWebサイトや書籍からとても参考になったものを引用させていただいております。
情報理論
情報理論(Information theory)は、情報・通信を数学的に論じる学問。応用数学の中でもデータの定量化に関する分野であり、可能な限り多くのデータを媒体に格納したり通信路で送ったりすることを目的としている。あいまいな概念である「情報」を定量的に扱えるよう定義し、情報エントロピーとして知られるデータの尺度は、データの格納や通信に必要とされる平均ビット数で表現される。
クロード・エルウッド・シャノン(Claude Elwood Shannon, 1916年4月30日 - 2001年2月24日)が情報理論を学問分野として確立。
アナログ情報の扱いに長けた人間と違い、機械はそれを苦手としいる(A/DコンバータD/Aコンバータを使用することで粒度によっては可能)。よって機械は「0か1か」というデジタル情報を内部で取り扱っている。スイッチの働きをするトランジスタを用い、トランジスタのON状態とOFF状態をそれぞれ0と1として、デジタル情報を扱う。つまりスイッチ一つがONかOFFか,0/1の2通りの状態を格納することができる。スイッチが2個あった場合は、00/01/10/11の4通りの状態を格納することができる。
シャノンは情報の最小単位をスイッチ一つとして、ビット(binary digit)とした。
情報の価値
非常に確率の高い事象を事前に知りうることと、発生確率が低い事象について事前に知りうることでは同じ情報でも価値が異なる。これを数式化したのが情報エントロピーの概念である。
自己情報量
シャノンは、ある事柄Xが起こる確率をP(X)としたとき、これが与える情報量H(X)を次の数式で定義した
$I(X)=\log_2 \frac{1}{P(X)}=-\log_2 P(X)$ (単位はbit)
さきほどの情報の価値という観点から値を代入してみると、コインの表が出るか裏が出るかは50%ずつなので、
$I(X)=-\log_2 0.5 = 1$(bit)
一方、明日の天気が晴れ/雨/曇り/雪の4択だとしたら、それぞれ25%のなので、
$I(X)=-\log_2 0.25 = 2$(bit)
となり、前者より後者の方が情報の価値が大きいことが式からも示される。
シャノンエントロピー
情報源全体の価値、情報源の期待値を考察する概念。
$H(x)=E(I(x))=-E(\log(p(x)))
=-\sum(p(x)\log(P(x)))$(bit)
起こった事象の情報量に起こる確率を掛け期待値を求める。この値をプロットすると釣鐘上のグラフが現れる。このグラフから読み取れることは・・・、①起こる確率ほぼ100%の事象が起きたとしてもあまりありがたみがなく、逆に起こる確率ほぼ0%の事象が起こらなかったとしても、こちらもありがたみがない。つまり情報エントロピーは0。一方、確率5o%で事象が拮抗している場合には、どちらが起こるの知れるということの情報価値は高く、情報エントロピーは1。
すなわち、情報エントロピーが大きい状態とは、状況が予測しにくい状態を示し、情報エントロピーが小さい状態とは、状況を予測しやすい状態を示す。
カルバックライブラーダイバージェンス
2つの確率分布の「差異」を計る尺度。
「ある確率分布と別の確率分布のズレ」。
交差エントロピー
符号化方式が、真の確率分布 p(x) ではなく、ある所定の確率分布 q(x) に基づいている場合に、とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値。
※現状の理解では、例えば・・・ノイズを受けて届いた情報(受信データ)から真に送ろうとした情報(送信データ)を正確に復元できる「予測困難さ」という理解でいます。シャノンの情報理論では相互情報量という概念も登場。シャノンの情報理論における根幹である「価値ある情報を高速に、正確に送る」テーマに非常に深くかかわる概念であると考える。
引用
「シャノンの情報理論入門」高岡詠子
あれっ、エントロピーってなんだっけ?https://qiita.com/katsu1110/items/c733a1184b789c511739
エントロピー・KL divergenceの復習htps://qiita.com/kento1109/items/10026d96f2634ba36362