メモ:情報エントロピーの計算
全12個の要素に、「aが4個」「bが8個」ある。
{a,a,a,a,b,b,b,b,b,b,b,b}
このとき、情報エントロピーは、
-p \log_2 p - (1-p) \log_2 (1-p)
から
-(4/12) \log_2 (4/12) - (8/12) \log_2 (8/12)
= 0.918295834
いま、この12個にラベル(0か1)が付して有り、以下のとおりとする
{
['0', 'a'],['1', 'a'],['0', 'a'],['1', 'a'],
['1', 'b'],['1', 'b'],['0', 'b'],['0', 'b'],
['0', 'b'],['1', 'b'],['0', 'b'],['0', 'b']
}
全12個、ラベル0は全7個、ラベル1は全5個
↓ラベル | a | b |
---|---|---|
0 | 2/7個 | 5/7個 |
1 | 2/5個 | 3/5個 |
この、ラベル(0か1)による、分割で得られる情報ゲインの計算は、
ラベル0:
-(2/7) \log_2 (2/7) - (5/7) \log_2 (5/7)
= 0.863120568567 ・・・(A)
ラベル1:
-(2/5) \log_2 (2/5) - (3/5) \log_2 (3/5)
= 0.970950594455 ・・・(B)
これを、全体の要素数で重み付けして、
(7/12)A + (5/12)B
= 0.90804974602
得られる情報ゲインは、正となり、
0.918295834054 - 0.90804974602 > 0
分割することで、情報が「得られる」こととなる。
(→ この「ラベル(0か1)」には、一定の意味がある)