
図:熱力学シミュレーションとSHAPによる故障診断の可視化イメージ
はじめに
本日は、計測工学のトップジャーナル『Measurement』に掲載された最新論文をご紹介します。 タイトル:「Thermodynamic Simulation-assisted Random Forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines」
AI(人工知能)の分野では、しばしば「モデルの精度は99%だが、現場のエンジニアが怖くて使えない」というジレンマに直面します。特に船舶エンジンの診断のように、生命や財産の安全に直結する領域では、単なる「診断結果の数字」だけでは不十分であり、「説明可能性(Explainability)」が不可欠です。
本論文は、熱力学シミュレーションとランダムフォレスト(RF)を組み合わせるだけでなく、SHAPアルゴリズムを深く応用することで、複雑なシステムの故障診断に「透視」の視点を与えています。つまり、故障を正確に特定するだけでなく、「どの熱力学パラメータがその判断の決め手となったのか」を明快に解説しているのです。
限界貢献度
SHAPの核心的な目標は、「最終的な予測結果に対して、各特徴量がどれだけ貢献したか」を回答することです。故障診断に当てはめるなら、「どの熱力学パラメータが、モデルにその故障だと判定させたのか」を明らかにします。
通常の故障診断は、学習済みモデルにデータを入力して結果を得るだけで終わります。しかし、この「説明可能な故障診断」では、以下のロジックで各パラメータの貢献度を逆方向に分解します。
ランダムフォレストを例にとると、内部には多数の決定木が含まれています。各決定木が分類を行い、最も得票数の多かった故障タイプが最終的な出力となります。
故障 $k$ の予測スコアを $f$(カテゴリ $k$ に投票した決定木数)とします。このスコアは、パラメータ $i$ と、それ以外のパラメータ集合 $S$ を組み合わせた入力による出力 $f(S \cup {i})$ です。
パラメータ $i$ 単独の貢献を知るには、集合 $S$ のみの予測スコア $f(S)$ を計算し、その差分をとることで限界貢献度 $\Delta \phi_i(S)$ を求めます。
$$\Delta \phi_{\scriptscriptstyle i}(S) = f(S \cup {i}) - f(S)$$
この限界貢献度は、故障 $k$ を判断する際の影響の方向(正負)と大きさを示します:
- 正の作用:パラメータ $i$ を加えたことで故障 $k$ と判定される確率が上がった場合(故障 $k$ の誘因)。
- 負の作用:予測スコアが下がった場合(故障 $k$ の誘因ではない)。
- 数値が大きいほど、そのパラメータが故障原因の中で主導的な役割を果たしていることを意味します。
限界貢献度からSHAP値へ
一つのパラメータに対して、集合 $S$ の組み合わせパターンの数だけ限界貢献度が存在します。
えば、$P1 \sim P4$ の4つのパラメータがある場合、$P1$ の限界貢献度を計算するための $S$ の組み合わせ($P1$ を含まない集合)は、${P2, P3, P4}$ から空集合 $\emptyset$ まで計8通りあります。
SHAP値は、これらすべての限界貢献度の加重平均であり、以下の数式で定義されます。
$$\phi_{\scriptscriptstyle i}(f,x) = \sum_{S \subseteq N \setminus {i}} \frac{|S|!(n - |S| - 1)!}{n!} [f(S \cup {i}) - f(S)]$$
ここで $n$ は総パラメータ数、$|S|$ は集合 $S$ の要素数です。SHAP値が大きいほど、そのパラメータがモデルの故障分類において重要であることを示します。
Tree SHAP:計算の高速化
通常のSHAP値の計算は、すべてのパラメータの組み合わせを網羅する必要があり、非常に効率が悪いです。そこで Tree SHAP は、決定木の階層構造を利用し、ノードの分割による貢献度から直接SHAP値を算出します。これにより、サンプルが実際に通過したパス上のパラメータのみを計算対象とするため、計算効率が大幅に向上します。
例:
Tree shape パスず
上の図のように、4つのパラメータで構成される決定木において、サンプルが「パラメータ1 → パラメータ2 → パラメータ3 → 故障2」という経路を辿った場合、Tree SHAPはこの3つのパラメータの組み合わせに絞って計算を行います。説明可能性の分析(ピストンリング摩耗 F4 故障の例)

上の図は、ピストンリングの摩耗(F4故障)に関するSHAP値の多次元分析図です。図(a)はウォーターフォール図、図(b)はビースウォーム(蜂群)図です。
1. ウォーターフォール図(図 a)
図(a)は、あるF4故障サンプルに対する説明を示しており、そのサンプルがF4故障と判定された具体的な理由を確認することができる。この図の基本的なロジックは、モデルによる全サンプルの平均予測値E(X)=−1.797 に、各パラメータのSHAP値を順次加算していき、最終的に当該サンプルの予測スコア1.464を得るというものである。赤色は故障判定に対して正の影響を与えたパラメータを、青色は負の影響を与えたパラメータを示している。図から明らかに、P12 ターボチャージャー前排気温度、P6 クランクケースリーク熱流、P14 ターボチャージャー後排気温度の三つの熱力学パラメータは絶対値が最も大きく、このサンプルにおけるピストンリング摩耗に主要な影響を与えていることが確認できる。(これは1つの故障サンプルの解析であり、一般的な法則を示すものではない)
2. ビースウォーム図(図 b)
図(b)は、すべてのF4故障サンプルにおけるグローバルなパラメータ重要度を示しており、どのパラメータがF4故障の全体的な重要指標であるかを確認することができる。図中の各点は、対応するパラメータにおける1つのサンプルの値を表し、色はその値の大小を示している。縦軸は各パラメータを、横軸は行上に散布された点の限界寄与の大きさを示す。さらに、上横軸は当該パラメータの平均SHAP値を示し、パラメータが上に位置するほど、故障判定に対して重要な役割を果たすことを意味する。
P11の平均SHAP値が最も高く、F4故障の判定において主要な役割を果たすことが示されている。また、P11の高値サンプルの多くは0の左側に、低値サンプルは0の右側に位置しており、ほとんどのF4故障はP11の低値に対応し、故障がない場合はP11が高値を取ることがわかる。このことから、P11の低値はF4故障の判定に正の影響を、P11の高値は負の影響を与えていることが示される。
物理学的な観点から説明すると、ピストンリング摩耗によるシール不良によりクランクケースリークが増加し、排気系の熱力学的バランスが崩れることで、ターボチャージャー前排気圧が低下し、P11の低値として現れていることが理解できる。
3. 主な結論
船舶ディーゼルエンジンの燃焼室ピストンリング摩耗(F4故障)の主な根本原因は以下の通りです:
- P11:過給機前排気圧力の低下;
- P12:過給機前排気温度の低下;
- P7:過給機後排気温度の低下。
参考文献
C. Luo, M. Zhao, X. Fu, S. Zhong, S. Fu, K. Zhang, X. Yu. Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines [J]. Measurement, 2025, 251: 117252.