LoginSignup
1
1

More than 5 years have passed since last update.

メモ:情報エントロピーの計算

Last updated at Posted at 2018-08-26

メモ:情報エントロピーの計算

全12個の要素に、「aが4個」「bが8個」ある。

{a,a,a,a,b,b,b,b,b,b,b,b}

このとき、情報エントロピーは、

 -p \log_2 p - (1-p) \log_2 (1-p)

から

 -(4/12) \log_2 (4/12) - (8/12) \log_2 (8/12)
= 0.918295834

いま、この12個にラベル(0か1)が付して有り、以下のとおりとする

{
 ['0', 'a'],['1', 'a'],['0', 'a'],['1', 'a'],
 ['1', 'b'],['1', 'b'],['0', 'b'],['0', 'b'],
 ['0', 'b'],['1', 'b'],['0', 'b'],['0', 'b']
}

全12個、ラベル0は全7個、ラベル1は全5個

↓ラベル a b
0 2/7個 5/7個
1 2/5個 3/5個

この、ラベル(0か1)による、分割で得られる情報ゲインの計算は、

ラベル0:

 -(2/7) \log_2 (2/7) - (5/7) \log_2 (5/7)
= 0.863120568567  ・・・(A)

ラベル1:

 -(2/5) \log_2 (2/5) - (3/5) \log_2 (3/5)
= 0.970950594455  ・・・(B)

これを、全体の要素数で重み付けして、

 (7/12)A +  (5/12)B 
= 0.90804974602

得られる情報ゲインは、正となり、

 0.918295834054  - 0.90804974602 > 0

分割することで、情報が「得られる」こととなる。

(→ この「ラベル(0か1)」には、一定の意味がある)

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1