定義
決定木のあるノード$t$に対し、ノード内のサンプルが$n$個、ノード内のクラスが$c$個のときを考える。
このノード$t$内で、クラス$i$に属するサンプルの個数を$n_i$とすると、クラス$i$に属するサンプルの割合$p(i|t)$を、
$$ p(i|t) = \frac{n_i}{n} \tag{1} $$
と書く。このとき、ジニ不純度$I_G(t)$の定義は以下。
$$ I_G(t) = 1 - \sum_{i=1}^c {p(i|t)}^2 \tag{2} $$
同じくエントロピー$I_H(t)$の定義は以下。
$$ I_H(t) = -\sum_{i=1}^c p(i|t) \log p(i|t) \tag{3} $$
エントロピーの対数の底はなんでも良いが、ノード内のクラス数$c$にするとエントロピーの最大値が$1$になるのでよく採用される。(後述)
引用
https://qiita.com/Qiita/items/c686397e4a0f4f11683d
計算例
上記の画像はtitanicのデータをもとに決定木分析を行った画像。一番上の木の値を使って計算をしてみる。
$$
I_G(t)=1-\left\{\left(\frac{421}{668}\right)^2+\left(\frac{247}{668}\right)^2\right\}\sim 0.466
$$
print(1-(421/668)**2-(247/668)**2)
# 結果
# 0.4660753343612176