Last updated at Posted at 2018-08-29


参考にさせていただいたのは scikit-learnの決定木系モデルを視覚化する方法

決定木の詳細を見るのは Graphviz (Graph Visualization Software) で視覚化するといいらしいですが、そこに出力された木を一個一個眺めるのってしんどいじゃないですか。なのでその結果を集計して概観したいなと。

iris のデータをインポート

%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import re

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import train_test_split
from sklearn import tree

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)


scatter plot による概観

まずは scatter plot による概観をしてみましょうか。異なる species は異なる色で彩色しました。

cmap = plt.get_cmap('coolwarm')
colors = [cmap((c)/ 3) for c in [list(iris.target_names).index(name) for name in df['species'].tolist()]]
pd.plotting.scatter_matrix(df.dropna(axis=1)[df.columns[:]], figsize=(8, 8), color=colors) 




  • 決定木による分類を10回繰り返しました。
  • 1回の計算あたりの木の本数は100本にしました。
  • 特徴の重要性(feature importance)を計算しました。
  • 分類基準の分布(criteria_distribution)を集計しました。


  • tree.export_graphviz(estimator) というメソッドを使うと "tree.dot" という名のテキストファイルが出力され、決定木の構造が記述される。
  • その "tree.dot" のファイルを読み込んで、分類基準の部分だけ抜き出して criteria_distribution に集計する。
  • サンプルサイズの大きなノードを分割したような分類基準は大きめにカウントする(ここでは、サンプルサイズの分だけカウントするようにする)。


features = df.columns[:4]
label = df['species']

criteria_distribution = {}
accumulated_feature_importances = np.zeros(len(df.columns) - 1)

for times_of_learning in range(10):
    df_train, df_test, label_train, label_test = train_test_split(df[features], label)
    clf = RandomForestClassifier(n_estimators=100)
    clf.fit(df_train, label_train)
    accumulated_feature_importances += clf.feature_importances_

    for estimator in clf.estimators_:
        for line in open("tree.dot"):
            matched = re.search('X\[.+?\n', line)
            if matched:
                equation = matched.group(0).split("\\n")[0]
                numerals = re.findall('[0-9\.]+', line)
                if numerals:
                    #print(equation, numerals)
                    if int(numerals[1]) not in criteria_distribution.keys():
                        criteria_distribution[int(numerals[1])] = []
                    for num_of_samples in range(int(numerals[-1])):


criteria が、分類基準の分布です。重要性の大きい特徴が、3つのクラスを比較的上手に分類できていることが見て取れます。

ranking = np.argsort(accumulated_feature_importances)[::-1]
for rank, feature in enumerate(ranking):
    print("feature #" + str(rank + 1) + " = " + df.columns[feature])
    fig, axes = plt.subplots(nrows = len(iris.target_names) + 1, ncols=1, figsize=(8,8))
    print("Accumulated Feature importance = " + str(accumulated_feature_importances[feature]))
    x_max = max(list(criteria_distribution[feature]) + list(df[df.columns[feature]]))
    x_min = min(list(criteria_distribution[feature]) + list(df[df.columns[feature]]))
    axes[0].hist(criteria_distribution[feature], bins=20, label="criteria")
    axes[0].set_xlim([x_min, x_max])
    for target, target_name in enumerate(iris.target_names):
        axes[target + 1] = plt.subplot(len(iris.target_names) + 1, 1, target + 2)
        axes[target + 1].hist(list(df[df[df.columns[-1]] == target_name][df.columns[feature]]), bins=10,
                             label=target_name, alpha=0.5)
        axes[target + 1].legend()
        axes[target + 1].set_xlim([x_min, x_max])

feature #1 = petal width (cm)
Accumulated Feature importance = 4.45000008496


feature #2 = petal length (cm)
Accumulated Feature importance = 4.30410137014


feature #3 = sepal length (cm)
Accumulated Feature importance = 0.976500917131


feature #4 = sepal width (cm)
Accumulated Feature importance = 0.269397627763



