はじめに
情報量の定義はたくさんありますが、今回はシャノンによる情報量による定義で、ここに対数が出てきます。
確率 $p$ でおこる事象の情報量を $– \log_2 p$ で定義する。
なぜ、情報量の定義に対数(log)が使われるのかを探ってみます。
情報理論とは
情報理論とは「情報とは何かを定義し、より良い扱い方を考える学問」で大きく3つのジャンルに分けることができます。
- そもそも情報量をどのように定義するか、という問題を解決するジャンル
- 情報をいかに効率よく送受信させるかを考えるジャンル:「符号理論」
- 送信された情報に雑音が入った時に、どのようにしてノイズを減らすかを考えるジャンル:「誤り検出・訂正符号」
今回は「1. そもそも、情報をどのように定義するか」について説明します。
情報量を定義する
定義された情報量は、今後いろいろの計算に”扱いやすい”形式になっており、直感的になるようなものにしたい。
情報量の性質1:珍しいことは情報量が多い
ルーレットで賭けをするとします。 ルーレットには 1~40 の番号が振られています。ここでお金を賭けることにします。
腕のいいカジノディーラーがいて、ある程度の狙い目をコントロールできる力を持っています。
ここには天の声システムがあり、事前にお金を出せば出る目の範囲を教えてくれます。
A:1~20のどれかの目が出た
B:1~10のどれかの目が出た
なぜ確率が低い方が情報量の多い情報となるのか
2進数でデータにもとづいて識別しうる状態区分を記録するのに要する符号の桁数を当てはめてみます。
Aは $\dfrac{20}{40} = \dfrac{1}{2}$ なので桁数は 1桁($2^1=2$)、Bは $\dfrac{10}{40} = \dfrac{1}{4}$ で桁数は 2桁($2^2=4$)になります。
このように確率が低いほど桁数が多くなるため、Bのほうが情報量が多いということになります。
区分数 2、コード桁数 1
状態区分 | コード |
---|---|
A | 0 |
B | 1 |
区分数 4、コード桁数 2
状態区分 | コード |
---|---|
A | 000 |
B | 001 |
C | 010 |
D | 011 |
未来が確定しているなら情報量は無価値
コイン投げで必ず表が出るように細工されたコインがあり、100億回投げても表しか出ません。
さて、このコインの表裏出現確率は幾つで、情報量は幾つになるでしょうか。
正解は「表の出現確率 100%、情報量ゼロ」です。
ただし「情報量ゼロ」の条件として、このコインが「表しか出ない」ことが既知である場合という但し書きがつきます。
「常に同じ面が出る」ことが判っていても、その「同じ面」が表か裏かが判っていなかった場合は、1回は実際に投げてみなければ判りませんので、その場合は1ビットの情報量を持っています。
これに対し「常に表が出る」と判っている場合は、投げる前から結果は確定していますので情報量はゼロです。
「既に知っていること、確定していること」は情報量に含めないのです。
情報量の性質2:情報量の加法性
52枚のトランプから無作為に1枚を取り出すとします。この確率は、$\dfrac{1}{52}$となります。
下記の2つの事象を考えます。
A:取り出したカードのスートはハートである
B:取り出したカードの数字は4である
Aの確率は$\dfrac{1}{4}$、Bは $\dfrac{1}{13}$となります。
「取り出したカードはハートの4である」という独立した事象が同時に起こる確率を求める場合、掛け算するので $\dfrac{1}{4} \times \dfrac{1}{13} = \dfrac{1}{52}$ となります。
先程の性質1と同様に2進数で表現すると $\dfrac{1}{4}$ の情報量の桁数は2桁($2^2=4$)、 $\dfrac{1}{13}$ の情報量の桁数は4桁($2^4=16$)、$\dfrac{1}{52}$ の情報量の桁数は 6桁($2^2+2^4=2^6=64$)です。
つまり、確率は掛け算するのですが、情報量は足し算になります。
これは掛け算を足し算にする性質をもっている対数(log)と合致するわけです。
最後に
この下書きを書いたのが2年以上前でした。ずっと放置したままだったので見直して公開することにしました。
下記サイトに質問して、著者である馬場真哉さんに回答を頂きました。
あと、賭けが当たりやすいというなら、1/2の方が1/4より確率が高いですよね。情報量が多いということは確率が低いわけですから、情報量が多い方が賭けが当たりやすい理屈が分かりませんでした。
「情報量が多いということは、その情報が得られる確率が低い」という意味です。
「賭けが当たる確率」と「その情報が得られる確率」を混同しないように注意しましょう。
情報理論の基礎~情報量の定義から相対エントロピー、相互情報量まで~