LoginSignup
1
1

情報のエントロピー

Posted at

通信の数学的理論

アメリカの数学者・電気工学者のクロード・E・シャノンは1948年、「通信の数学的理論」を発表し、情報理論の基礎を確立しました。

情報の単位とは

情報量とは、確率の低いことが起こるほど大きくなるものです。
例えば、天気予報で「明日は晴れです」と予報するのでも、雨の多い地域なのか晴れの多い地域なのかで情報量は変わってくる感じがしますね。晴れの多い砂漠で「明日は晴れです」と言われても情報量は小さいです。

生起確率$p$の情報量は

I =- \log p

という式で表されます。ここで$I$を自己エントロピーと呼びます。

情報量が満たすべき特徴として、「生起確率が低いほど大きい(単調減少性)」「確率に対して連続的に変化する(連続性)」「独立事象の情報量は各情報量の和に等しい(加法性)」という3つがあります。これらを満たす関数は$-\log$しかないのです!

整数$u$に対し、$u$の対数$\log_m u$は$m$進法における$u$の桁数にほぼ対応しています。$m=2$の場合はコンピュータの0-1の2進法に対応していることから、通信分野では底に2が用いられます。

また一般に、複数の独立な事象の集合において、事象$i$の生起確率が$p_i$であるとき、自己エントロピーの期待値として情報量$H$は、

H =-\sum p_i \log p_i 

となります。

この式は複雑に見えるため、2つの事象しかない場合で考えてみましょう。
例えば天気が「晴れ」か「雨」の2パターンしかないとします。

  • 「晴れ」である確率が100%、「雨」である確率が0%のとき
H = -  \left( 1 \log 1 + 0 \log 0 \right) = \log 1 =0  \text{[bit]}
  • 「晴れ」である確率が50%、「雨」である確率が50%のとき
H = -  \left( \frac{1}{2} \log \frac{1}{2} + \frac{1}{2} \log \frac{1}{2} \right) = \log 2 = 1  \text{[bit]}

$H$は、$p_1 = p_2 = \frac{1}{2} $のときに最大値1をとります。

前者は「晴れ」であることが確実なので、「晴れ」という情報に価値はなく、情報量は0(不確実性は全くなく、選択の自由も情報もない)です。
一方後者は選択の自由度、不確実性が最も大きくなっています。

選択肢の数が定まっている場合、各々の選択確率が等しくなるにつれて、情報量は大きくなります。情報量を増やすもう一つの方法として、選択肢の数を増やすということがあります。各選択肢の選択確率が等しいとき、50個の選択肢から選択する方が、10個の選択肢から選択するよりも「情報」は多くなります。

情報の複雑性を表す情報量の単位は「ビット(bit)」と呼ばれ、この語はアメリカの統計学者ジョン・W・テューキー(テューキー検定は彼の名をとったもの)が"binary digit(2進数)"を縮めた語として最初に提案したものです。

熱力学のエントロピーの概念は1861年に理論物理学者ルドルフ・クラウジウスによって提案されました。シャノンは熱力学のエントロピーは知らずに情報理論におけるエントロピーを考案したという噂もあります。

「非常に単純なものが、世界で最も複雑なものをつくり出せるというのは、とても魅力的なことだ。」 クロード.E.シャノン(1916~2001)

シャノンは「情報理論の父」と呼ばれ、シャノンがいなければ携帯電話やパソコン、インターネットはなかったとも言われています。

情報量の加法性

[例]ジョーカーを除いた52枚のトランプから1枚をひいたとき

  • 引いたカードがハートであること
I(\text{ハート}) = -\log_2 \frac{1}{4} = 2 \text{[bit]}
  • 引いたカードがAであることのみを知ったときの情報量は
I(\text{A})= -\log_2 \frac{1}{13} \approx 3.7 \text{[bit]}
  • 引いたカードがハートのAであることを知ったときの情報量は
I(\text{ハートのA})=-\log_2 \frac{1}{52} \approx 5.7 \text{[bit]}

$I(\text{ハートのA})= I(\text{ハート})+I(\text{A})$となっていることが確認できます。

冗長度

冗長度とは、伝達される情報に含まれる余分な部分の割合のことです。
冗長度$r$(Redundancy)は、

r = 1-\frac{H}{H_{max}} 

で定義されます。$H_{max}$は最大エントロピー、$H$はエントロピーであり、情報源がどれだけ「余分な」情報を含んでいるかを表していると言えます。

データ通信の際、送信した情報をそのまま正しく受信できるようにするため、本来伝達すべき情報以外以外にその誤りをチェックするために付加する余分な情報を指す。 (コトバンクから引用)

冗長性があることで、データの圧縮や正確な情報通信が可能になります。

英語の冗長度はおよそ50%といわれており、文字や単語の約半分は自由に選択できるということを意味しています。

データ通信に限らず、機械や建築分野でも余力を持って設計することが求められており、「冗長化」は必要不可欠です。

参考文献

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1