解釈可能AIとして使われる「SHAP」というものがありますが、簡単に言えばshapley値という出力値(厳密には違いますが目的変数の値と思っていただければ)を使ってボストン住宅価格のデータセットを覗いてみようと思います。
※この記事はあくまでSHAPの使い方やグラフの見方でしかありません、過度な期待はしないでください。
コード
from lightgbm import LGBMClassifier
import pandas as pd
import shap
shap.initjs()
df = pd.read_csv("/content/drive/MyDrive/boston.csv")
x = df.drop("PRICE", axis=1)
y = df["PRICE"]
model = LGBMRegressor()
model.fit(x, y)
explainer = shap.TreeExplainer(model)
shap_values = explainer(x)
重要度のプロット
一般的な特徴重要度棒グラフを使用するのではなく、各特徴の SHAP 値の密度散布図を使用して、検証データセット内の個人のモデル出力に各特徴がどの程度の影響を与えるかを特定します。 特徴は、すべてのサンプルにわたる SHAP 値の大きさの合計によって並べ替えられます。 興味深いことに、関係特徴はキャピタル ゲイン特徴よりもモデル全体に大きな影響を与えますが、キャピタル ゲインが重要なサンプルでは年齢よりも大きな影響を及ぼします。 言い換えれば、キャピタルゲインはいくつかの予測に大きな影響を与えますが、年齢はすべての予測に小さな影響を与えます。
散布点が直線上に収まらない場合は、散布点が重なって密度が示され、各点の色がその個人の特徴量を表すことに注意してください。
SHAPの公式ページよりGoogle翻訳して引用
shap.summary_plot(shap_values, x)
色が赤に近いほどその変数の値が高く、横軸は出力値になります。
こうやってみると色から値の傾向と幅から影響度が分かると思います。
実際の重要度
imp = model.feature_importances_
df_imp = pd.DataFrame(imp)
df_imp.index = x.columns
df_imp.columns = ["imp"]
df_imp.sort_values("imp", ascending=False)
一部順番が違いますがおおよそ一致している事が分かります、またSHAPの場合だとどういう風に値に影響するかも分かる分、分析する上で非常に有効でしょう。
SHAP依存プロット
SHAP 依存プロットは、データセット全体にわたる単一のフィーチャの影響を示します。 これらは、多くのサンプルにわたる特徴の値とその特徴の SHAP 値をプロットします。 SHAP 依存プロットは部分依存プロットに似ていますが、フィーチャ内に存在する交互作用効果を考慮しており、データによってサポートされる入力空間の領域でのみ定義されます。 単一の特徴値における SHAP 値の垂直分散は交互作用効果によって引き起こされ、別の特徴が選択されます。 可能性のある相互作用を強調するための色付け。
SHAP公式ページをGoogle翻訳で引用
for name in x.columns:
shap.dependence_plot(name, shap_values.values, x, display_features=x)
この散布図では横軸に横軸の変数の値を取り色で二つ目の変数の値を表し縦軸はSHAPの出力値にどれだけ寄与しているかを表しています。
まとめ
Google Colabだったからか一部動かなかったけど、これだけあれば分析に凄い使えますよね
参考文献
Census income classification with LightGBM — SHAP latest documentation
https://shap.readthedocs.io/en/latest/example_notebooks/tabular_examples/tree_based_models/Census%20income%20classification%20with%20LightGBM.html