shapの基準値に関して
解決したいこと
ある水質指標(春〜13、秋〜2 mg/L)にSHAP値を使って説明変数の重要度を分析しようとしています。季節変動が大きすぎて全体平均を基準値にするのは難しく、かといって季節で区切ると減少期の扱いに困ります。こういった大きな季節変動がある場合、SHAP値の基準値はどう設定するのがベターでしょうか? #機械学習 #水質 #SHAP #説明変数
ある水質指標(春〜13、秋〜2 mg/L)にSHAP値を使って説明変数の重要度を分析しようとしています。季節変動が大きすぎて全体平均を基準値にするのは難しく、かといって季節で区切ると減少期の扱いに困ります。こういった大きな季節変動がある場合、SHAP値の基準値はどう設定するのがベターでしょうか? #機械学習 #水質 #SHAP #説明変数
季節変動が大きいということは、季節と連動して変化する変数(気温とか降水量とか)の影響が大きいというだけでは?
その場合、基準値は単純に年平均でいいと思うんですが。
@asunasota
Questioner
寄与度の強い説明変数のSHAP値を計算したときに、予測値が基準値より大きい場合はプラスに、予測値が基準値より小さい場合はマイナスに、予測値が基準値に近い場合は0付近になるというのがSHAP値だと思うんですが、それの何が問題なんでしょう?
もちろん値の変動にSHAP値が連動せず常に0付近(=つまりその説明変数は予測にあまり寄与していない)ということはあるでしょうが、予測値の値が大きかろうが小さかろうが常にSHAP値がプラスになるのはむしろ変な気がしますが…。
全体平均を基準にすると季節要因(春か秋か)のSHAP値ばかりが大きくなり、本来知りたい他の環境因子の影響が埋もれてしまいます。そこで月単位または移動平均(前後2週間など)で基準値を計算する方法は如何でしょうか。ご懸念の減少期も、その時期の平均値が基準になるため、無理なくスムーズに扱えます。