本稿は、学術誌『Measurement』に掲載された論文「Thermodynamic Simulation-assisted Random Forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines」の詳解である。
概要
従来の船舶用ディーゼルエンジンのインテリジェントな故障診断手法が、故障訓練サンプルの不足による汎化性能の低さ、および故障メカニズムに関するドメイン知識の組み込み不足による説明性の欠如という課題に直面していることに鑑み、本論文では、熱力学シミュレーション支援型ランダムフォレスト(Thermodynamic Simulation-assisted Random Forest, TSRF)を開発した。本手法は、熱力学シミュレーションを通じて故障特性を明らかにし、それらをインテリジェントな故障診断モデルの設計における事前知識として統合するものである。まず、異なる故障の固有属性に対応させるために主要なシステムパラメータを微調整することで、5つの熱力学故障モデルを構築した。次に、数値シミュレーションの結果から、燃焼室構成部品の劣化に関する潜在的な熱力学指標を特定した。SHAP 値を算出することでパラメータ選択プロセスを実施し、故障状態と有意な相関を示す変数のみを抽出した。提案された TSRF は卓越した分類性能を示し、本論文で構築された故障データセットにおいて 99.07% の平均精度を達成した。SHAP 値に基づき、局所的および大域的な観点からモデルの推定結果を解釈した。その結果、ターボチャージャー排気温度、ブローバイ熱流量、およびシリンダーライナー熱流量が故障予測に大きく寄与していることが判明した。最終的に、選定されたパラメータを用いて燃焼室の状態を評価し、故障診断モデルへの入力として活用した。
1. はじめに
ディーゼルエンジンは船舶推進システムの極めて重要な構成要素であり、複雑な内部構造と多数の相互関連部品を有している。特に燃焼室はエンジンの機能において中核をなすものであり、シリンダーヘッド、シリンダーライナー、ピストンおよびその他の部品により構成される 。その過酷な作動環境に鑑みると、燃焼室はディーゼルエンジンにおいて最も損傷しやすい部位の一つである。燃焼室の故障はエンジンの性能と安全性に悪影響を及ぼす可能性があるため、故障検知はエンジン管理において不可欠である 。熱力学パラメータを監視することにより、診断モデルは欠陥を特定および特定することが可能となり、メンテナンス・スケジュールの策定、修理計画の最適化、およびコスト管理のための重要な情報を提供する。しかしながら、実際の船舶運航においては、限定的な故障データや非定量的な事前知識といった要因により、故障診断は依然として困難な課題である。
現在、船舶用ディーゼルエンジンの故障诊断手法は、表1に示すように、モデルベース手法、データ駆動型手法、およびハイブリッド手法の3つのタイプに主に分類される。モデルベース手法では、物理法則、工学知識、および作動原理を融合させることでディーゼルエンジンの数学モデルを構築する。その後、シミュレーションソフトウェアを用いて、正常時および故障条件下におけるモデルの性能を評価する。しかし、船舶用ディーゼルエンジンの正確な物理数学モデルを構築することは、現在の状況下では極めて困難である。こうしたモデルは往々にして複雑であり、膨大な専門知識を要するだけでなく、様々な変数と環境要因の間の非線性や相互作用を扱う際の問題に直面する。

表 1 既往の研究の要約
データ駆動型手法は、ディーゼルエンジンの詳細な物理モデリングを必要としない 。代わりに、前処理されたデータを機械学習モデルに入力することで、故障特性を自律的に学習し、潜在的な故障を識別することを可能にする。しかし、データ駆動型モデルは明示的な物理法則ではなくデータからの特徴学習に依存しているため、特にディープラーニングのような複雑なモデルにおいて、その意思決定の根拠を説明することが困難となっている。複雑な非線形関係や高次元の特徴相互作用により、これらのモデルは往々にして不透明となり、意思決定の背後にある推論を解釈することが難しい「ブラックボックス」と化している。
ハイブリッド手法は、一般に物理数学的な故障モデルから始まり、その後に実験データを用いてキャリブレーションを行う 。診断はその後、シミュレーション出力、または実験データとシミュレーションデータの双方に基づいて行われる。しかし、これらの手法は物理モデルと統合される際、モデルの意思決定プロセスに関する詳細な分析を欠いている。むしろ、物理モデルは主に故障シミュレーションのツールや補完的なデータのソースとして機能するに留まっている。
上述の問題を背景として、本論文では、燃焼室構成部品を対象とした故障診断手法である、熱力学シミュレーション支援型ランダムフォレスト(Thermodynamic Simulation-assisted Random Forest, TSRF)を開発した。まず、船舶用ディーゼルエンジンの一次元熱力学モデルを構築した。その後、試験データを用いてモデルパラメータのキャリブレーションを行い、燃焼室構成部品における5種類の故障のシミュレーションを可能にした。計算の複雑性を最小限に抑えるため、各熱力学パラメータに対して SHAP 値を算出し、高い SHAP 値を有するパラメータを重要パラメータとして選定した。最終的に、選定されたパラメータを用いて Random Forest(RF)による分類を行い、その結果を他の機械学習手法や特徴選択手法と比較した 。評価フレームワークには、SHAP 値に基づく局所的および大域的な解釈の視点を取り入れている。局所的な解釈では、詳細な Waterfall Plot 分析を通じて個々の故障サンプルに寄与する重要パラメータを特定し、大域的な重要性評価では、Beeswarm Plot を用いて故障状態全体におけるパラメータの寄与度を評価した。さらに、SHAP 交互作用値に基づいたパラメータの Interaction Plot および Dependency Plot を提示した。
本論文の主な独創性は、以下の通り要約される。
(1) 船舶用ディーゼルエンジンの燃焼室故障(シリンダーヘッドの亀裂 (F1)、ピストン焼損 (F2)、ライナー摩耗 (F3)、ピストンリング摩耗 (F4)、ピストンリング膠着 (F5))をモデリングするための、新たなパラメータ微調整手法を開発した。従来の手法は、故障条件下における微視的な材料特性を重視する傾向にあり、シミュレーション時間の長期化、プロセスの複雑化、および熱力学パラメータ分析範囲の限定といった課題を伴うことが多かった。対照的に、本手法ではパラメータの微調整を通じて故障特性を再現し、燃焼室故障に対する迅速なシステム応答を実現している。
(2) 燃焼室故障診断におけるパラメータ選定への SHAP 手法の適合性を評価し、その性能をカイ二乗検定、Recursive Feature Elimination(RFE)、および Gini Index といった他の特徴選択手法と比較した 。SHAP 値の算出を通じてパラメータの重要性を定量的に評価し、高寄与パラメータの精密な選定を可能にした。さらに、高度な可視化技術を取り入れることでモデルの意思決定プロセスを明示し、重要パラメータが故障分類の結果に影響を及ぼす具体的なメカニズムについて、透明性の高い知見を提供した。
(3) 燃焼室故障診断における RF の意思決定プロセスにおいて、熱力学モデルに支援されたデータ駆動型手法による、新たな二角的視点からの解釈を提示した。熱力学モデルが提供するメカニズムの基礎と物理的解釈可能性を活用することにより、本手法は船舶用ディーゼルエンジンの燃焼室故障に対する解釈可能な故障診断に新たな展望をもたらしている。
2. 研究手法
2.1 概要
船舶用ディーゼルエンジンを対象とした提案手法である TSRF の全体像を図1に示す。まず、一次元熱力学モデルを構築し、Data Collecting Module (DCM) から取得したデータを用いてモデルのキャリブレーションを実施した 。次に、主要なシステムパラメータを微調整することで、5つの代表的な燃焼室故障シナリオをシミュレートし、診断に関連する潜在的な熱力学指標を抽出した。その後、Random Forest(RF)を用いて予備的な故障識別を行い、診断分析に最適なパラメータ・サブセットの選定を促進するために SHAP 値を算出した。最終段階では、SHAP 値分析と熱力学モデルの知見を融合させた多角的視点によるモデル解釈を取り入れ、包括的な診断理解を提供する。

図 1 TSRF の構造
2.2 船舶用ディーゼルエンジンの一次元熱力学モデル
ディーゼルエンジンの一次元熱力学モデルの構造を図2に示す。これには、システム境界(SB1, SB2)、吸排気マニホールド(PL1, PL2)、ターボチャージャー(TC1)、インタークーラー(CO1)、および6つのシリンダー(C1〜C6)が含まれる 。さらに、重要パラメータを監視するために6つの監視点(MP1〜MP6)を設置した。配管については、パイプ1はコンプレッサー吸気管、パイプ2はインタークーラー吸気管、パイプ3はインタークーラー排気管を指す 。パイプ4〜9はシリンダーの吸気管に対応し、パイプ10〜15はシリンダーの排気管である。パイプ16はターボチャージャーの入口管に接続され、パイプ17はターボチャージャーの排気管である。

図 2 ディーゼルエンジンの一次元熱力学モデル
2.3 熱力学故障モデリング
本研究では、燃焼室構成部品の健康状態を F0 から F5 までの6つの異なる条件に分類した。すなわち、正常状態(F0)、シリンダーヘッド亀裂(F1)、ピストン焼損(F2)、シリンダーライナー摩耗(F3)、ピストンリング摩耗(F4)、およびピストンリング膠着(F5)である 。本節では、5つの故障状態(F1-F5)におけるパラメータ微調整手法について体系的に説明し、その後、それぞれの故障メカニズムおよび基礎となる物理原則について包括的な分析を行う。
2.3.1 シリンダーヘッド亀裂 (F1)
シリンダーヘッドの表面温度を微調整することにより、シリンダーヘッド亀裂の数値的調査を実施した。作動条件下において、シリンダーヘッドは顕著な熱機械的荷重(thermomechanical loading)を受けており、これは主に燃焼室に隣接する領域に集中する。これらの重要なゾーンにおける亀裂の発生および進展は、構造的完全性を大幅に低下させ、局所的な応力集中現象を悪化させる 。さらに、亀裂の形成は熱放散効率を損なうことで熱消費に悪影響を及ぼし、局所的な熱暴走(thermal runaway)を誘発する。
2.3.2 ピストン焼損 (F2)
表面温度分布およびブローバイ(blow-by)質量流量という2つの重要パラメータを微調整することにより、ピストン焼損の数値シミュレーションを行った。ピストン表面材料の漸進的な劣化は顕著な熱的不均一性を誘発し、局所的な温度上昇を招く。さらに、熱焼損に伴う材料損失はピストン・シリンダー間のインターフェースの完全性を損ない、ガス漏洩経路の増加を通じてブローバイ現象を悪化させる。
2.3.3 シリンダーライナー摩耗 (F3)
シリンダーライナー摩耗のシミュレーションは、ボア径および対応するブローバイ質量特性を微調整することで実施した。主な摩耗メカニズムは、通常、空気ろ過システムの故障や密封インターフェースの劣化に起因する粒子状汚染物質の侵入に由来する。これらの研磨微粒子はライナー表面からの漸進的な材料除去を誘発し、測定可能な真円度偏差や局所的なボア径拡大として現れる 。このような幾何学的変化は、ピストン・ライナー間のシール性能を大幅に低下させ、結果としてガス漏洩経路の強化を通じてブローバイ現象を増幅させる。
2.3.4 ピストンリング摩耗 (F4)
ピストンリング摩耗のシミュレーションは、ブローバイ質量流量パラメータの制御された変調を通じて行われた。主な摩耗メカニズムは、シリンダーアセンブリ内に存在する研磨性汚染物質に起因し、これがリング表面の漸進的な材料劣化を誘発する。この摩耗プロセスは測定可能な幾何学的偏差、特にリング端面の非円形変形をもたらす。このような幾何学的欠陥はリング・シリンダー間のシール完全性を大幅に損ない、ブローバイの増加を通じてブローバイ現象を悪化させる正のフィードバックループを形成する。
2.3.5 ピストンリング膠着 (F5)
ピストンリング膠着は、ボア径、ライナー表面温度、およびブローバイ質量の3つの重要パラメータを微調整することでシミュレートした。この故障モードは主に、過剰な炭素堆積物、潤滑油膜形成の不足、およびスラッジの蓄積という3つの要因に起因し、これらがリングの正常な可動性を妨げ、シール性能を低下させる。正常な作動条件下では、ピストンリングは不可欠な熱伝導路として機能し、ピストンクラウンからシリンダー壁への効率的な熱伝達を促進する。しかし、リング膠着はリング・ライナー界面に顕著な熱抵抗を誘発し、ピストン表面の大幅な温度上昇を招く。さらに、この状態はリングとライナー表面の間に異常な摩擦相互作用を引き起こし、摩耗メカニズムの加速やシリンダーライナーの表面スクラッチ(scoring)の潜在的な原因となる。
2.4 Tree SHAP 分析による熱力学パラメータの選定
本論文では、図3に示すように、SHAP 値を活用した熱力学パラメータの選定プロセスを提案する。まず、故障シミュレーションの出力から診断に関連する可能性のある熱力学パラメータをフィルタリングし、予備データセットを構築する。次に、このデータセットを予備識別のために RF に入力する。初期結果に基づき、Tree SHAP 手法を用いて SHAP 値を算出することで、個々のパラメータの寄与の重みを定量的に評価する。最終段階では、パラメータの重要度ランキングに基づいて最適な特徴サブセットを選定し、精緻化されたデータセットを生成する。その後、診断精度の向上を目的として、RF モデルによる再解析を実施する。

図 3 SHAP ベースのパラメータ選定プロセス
カイ二乗検定、RFE、および Gini Index といった従来の特徴選択手法と比較して、SHAP は熱力学パラメータの重要性に関する包括的な評価フレームワークを提供する。この高度な手法は、パラメータの重要性を定量化するだけでなく、影響の方向性(正負の効果)を解明し、パラメータ間の交互作用のダイナミクスを明らかにし、さらにサンプル分布のパターンを特徴づける。こうした多角的な分析は、熱力学モデリングを通じた潜在的な物理メカニズムの調査や、潜在的なパラメータ相関の発見に対して強固な実証的根拠を与える。SHAP ベースの特徴選択と従来手法との比較分析を図3に示す。本節では、SHAP 値の算出について詳述し、特に Tree SHAP として知られる決定木構造に最適化された手法の核心的な概念と計算プロセスに焦点を当てる。

表 3 特徴選択手法の比較
2.4.1 SHAP 値
SHAP 値の算出プロセスにおいて、寄与値(contribution value)の概念は、個々の熱力学パラメータがモデルの予測に与える影響を特徴づける定量的な指標として機能する。特定のパラメータの組み合わせに対して熱力学パラメータ $i$ が導入された際の(図4aに示す)周辺寄与(marginal contribution) $\Delta_{val}(i,S)$ は、次の方程式で数学的に表される:
$$\Delta_{val}(i,S)=f(S\cup{i})-f(S) \quad (1)$$

図 4 SHAP アルゴリズムの詳細:(a) 周辺寄与;(b) SHAP 値の加法性;(c) SHAP の算出;(d) Tree SHAP の算出。
ここで、$S$ はパラメータ $i$ を除くパラメータの集合を表し、$f(S)$ は集合 $S$ によって生成される寄与、$f(S\cup{i})$ はパラメータ $i$ が追加された際の寄与である。
考え得るすべてのパラメータの組み合わせを評価した後、パラメータ $i$ の平均増分寄与、すなわち SHAP 値 $\varphi_{i}$ は次のように算出される:
$$\varphi_{i}=\sum_{S\in N\backslash{i}}\frac{|S|!(p-|S|-1)!}{p!}\cdot\Delta_{val}(i,S) \quad (2)$$ここで、$N$ は全パラメータの集合、$S$ はモデルで使用されるパラメータのサブセット、$N\backslash{i}$ は対象パラメータ $i$ を除く実行可能なすべてのパラメータの組み合わせを包括し、$p$ はサブセット $S$ におけるパラメータ数を示す。
特定のパラメータの組み合わせ $S$ を評価する際、個々のパラメータの SHAP 値を線形に重ね合わせることで総合的な評価が得られる(図4b参照)。
特定のパラメータの組み合わせ $S$ を評価する際、図4(b)に示すように、個々のパラメータの SHAP 値を線形に重ね合わせる(linear superposition)ことで総合的な評価が得られる。したがって、パラメータの組み合わせ $S$ に対する複合的な SHAP 値は、数学的に以下の定式化によって決定される。
$$f(S) = \varphi_0 + \sum_{i=1}^M \varphi_i \quad (3) $$ここで、$\varphi_0$ はベースライン値(baseline value)であり、パラメータが全く存在しない場合のモデルの平均出力を表す。また、$\sum_{i=1}^M \varphi_i$ は、モデルにおける各パラメータによって予測された SHAP 値の合計である。
2.4.2 Tree SHAP
Tree SHAP は、Random Forest やその他の決定木構造アルゴリズムを含む、決定木ベースのモデル(tree-based models)のために特別に開発された最適化計算手法である。本手法は、決定木モデルが本来有する階層構造を活用することで、従来の SHAP 値算出手法と比較して大幅な計算効率の向上を実現している。図 4(c) に示すように、従来の SHAP 値計算では、考え得るすべてのパラメータの組み合わせを網羅的に探索する必要があり、パラメータの次元数が増大するにつれて計算負荷が著しく高まり、計算複雑性は指数関数的に増大する。Tree SHAP アルゴリズムの根本的な相違点は、特定の入力条件を満たす決定パスに沿ってのみ周辺寄与(marginal contribution)を算出する点にある(図 4d の $i_1 > 5$ という条件で示される)。この戦略的な最適化により、パラメータの組み合わせを完全に列挙(enumeration)する必要性が排除され、驚異的な計算効率の改善が達成される。決定木構造における任意のパラメータ $i$ に対し、Tree SHAP に基づく値は以下の数式によって算出される:
$$\varphi_{i} = \frac{1}{T} \sum_{j=1}^{T} \sum_{S \subseteq P_{j} \backslash{i}} \frac{|S|!(p-|S|-1)!}{p!} \cdot \Delta_{val}(i,S) \quad (4)$$ここで、$T$ は集成モデル(ensemble model)における決定木の総数 、$P_j$ は $j$ 番目の決定木構造内における決定パスの完全な集合 、$P_j \backslash {i}$ は対象パラメータ $i$ を除く実行可能なすべてのパラメータの組み合わせを包括し 、$S$ はモデルにおいて利用される選択された特徴サブセットに対応し 、$p$ はパラメータサブセット $S$ の濃度(cardinality)を示す。
2.5 分類モデル
2.5.1 パラメータの離散化
RF の基本構成要素である決定木は、特徴空間を再帰的に分割(recursive partitioning)することで予測結果を生成する。あるサンプル集合 $D$ において、$p_k$ が第 $k$ クラス $(k=1,2,...,N)$ に属するサンプルの割合を示すとき、$D$ の情報エントロピー(information entropy)は次のように定義される:
$$Ent(D)=-\sum_{k=1}^{N}p_{k}log_{2}p_{k} \quad (5)$$
離散属性 $a={a^1,a^2,...,a^N}$ を用いてサンプル集合 $D$ を分割し、$V$ 個の分岐ノードを生成する場合、条件 $a=a^v$ を満たす第 $v$ 番目の分岐ノード内のサンプルサブセットを $D^v$ と記す。$D^v$ の情報エントロピーは式(5)を用いて算出できる。各分岐ノード間のサンプルサイズの違いを考慮し、重み付け係数 $|D^v|/|D|$ を適用することで、属性ベースの分割によって得られる情報利得(information gain)を算出する:
$$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v}) \quad (6)$$
情報利得の大きさは、データのカテゴリ判別および不確実性の減少における属性の有効性を示す定量的な指標となる。高い情報利得の値を示す属性は、決定木構造における分割ノード(splitting nodes)として優先的に選定される。熱力学パラメータ(温度、圧力、回転速度など)に関しては、その連続的な性質から離散化プロセスが不可欠である。ある故障集合 $D$ と連続パラメータ $P$ において、$P$ が降順に並べられた $N$ 個の異なる値 ${P^1,P^2,...,P^N}$ を持つとき、最適な分割点 $t$ を設定する。この分割点により、サンプルは $D_t^-$(パラメータ値が $t$ 以下)と $D_t^+$(パラメータ値が $t$ より大きい)の2つのサブセットに分離される。
注目すべき点として、区間 $[P^i,P^{i+1}]$ 内のいかなる分割点 $t$ も、隣接する値 $P_i$ および $P_{i+1}$ に対して同一の分割結果をもたらす。したがって、パラメータ $P$ に対しては、各区間 $[P^i,P^{i+1}]$ の中央値 $(P^i+P^{i+1})/2$ を算出することで、候補となる分割点の集合 $T_P$ を体系的に決定できる:
$$T_{P}={\frac{P^{i}+P^{i+1}}{2}|1\le i\le N-1} \quad (7)$$これに基づき、パラメータ $P$ を用いて故障データセット $D$ を分割することで得られる情報利得は、次のように表される:
$$Gain(D,P)=\max_{t\in T_{P}}Gain(D,P,t) \quad (8)$$算出された $Gain(D,P)$ が十分に高い場合、パラメータ $P$ は優れた判別能力を有すると見なされ、決定木アーキテクチャにおける分割ノードとして優先的に選定される。
2.5.2 ランダムフォレスト (Random forest)
RF はアンサンブル学習手法の一種であり、故障診断への応用において顕著な有効性が実証されている。本アルゴリズムは、複数の独立した決定木を戦略的に集約(aggregation)することで予測性能を向上させ、個々の木のバイアス(bias)や分散(variance)を効果的に軽減する。熱力学パラメータ値 $x_1,x_2...x_N$ を持つサンプルに対し、独立して訓練された $N$ 個の決定木のアンサンブルによって生成される集団的予測 $T(x)$ は、次のように表される:
$$T(x)=\frac{1}{N}\sum_{b=1}^{N}T_{N}(x) \quad (9)$$
ランダムフォレストの分類フレームワークにおいて、特徴選択には通常、ジニ係数(Gini index)とエントロピーベースの情報利得という2つの主要な指標が用いられる。本研究では、主要な特徴選択基準としてジニ係数を採用する。ジニ係数は [0, 1] の範囲で定量化され、特徴の重要性の逆指標として機能する。すなわち、0 は最大の情報利得(最も重要なパラメータ)を意味し、1 は最小の情報利得(最も重要度の低いパラメータ)を示す。ジニ係数の数式は以下の通りである:
$$Gini(D)=1-\sum_{i=1}^{C}p_{i}^{2} \quad (10)$$ここで、$p_i$ はデータセットにおけるカテゴリ $i$ の割合であり、$C$ はカテゴリの総数である。
3. 熱力学モデルのシミュレーション
3.1 データ収集
3.1.1 テストデータセット
本研究で用いられたテストデータセットは、中国の主要な造船設備メーカーのメインエンジン・センサーシステムから取得されたものである。生データの収集は、図5に示すように、船舶推進システムに統合され独立して開発されたデータ収集モジュール(Data Collection Module, DCM)を介して行われた。DCM システムは階層的な収集アーキテクチャを採用しており、高速信号ユニット、排ガス処理ユニット、およびモニタリングシステムを含む複数のサブシステムからの同期データ収集を可能にしている。

図 5 データ収集モジュールの構造
システムは生データを10秒間隔で記録し、オンボードデータベースに保存する。ノイズ干渉を軽減するため、60秒ごとに移動平均(moving average)が算出される 。データ暗号化の後、システムは12時間ごとに、720個のサンプリングポイントの平均データを含む圧縮された CSV ファイルを海事衛星経由で陸上サーバーに送信し、最終的に船舶用ディーゼルエンジンの運航に関する6ヶ月間の時系列データセットが構築された。
生データには、空白レコードや重複レコードの排除、欠損値の補間、およびスライディングウィンドウ(sliding window)アルゴリズムによる異常検知と修正を含む厳格な前処理が施された。データの前処理に続き、船舶の運航マニュアルを参照して初期スクリーニングを実施し、船舶用ディーゼルエンジンとの関連性が低い熱力学パラメータを排除した。その後、シミュレーションモデルで効果的に監視可能な特定のデータ型と照らし合わせることで、データセットをさらに精緻化した。この2段階のスクリーニングプロセスにより、その後のモデル検証および性能評価のための強固な基盤が確立された。
3.1.2 実験データセット
実験サンプルは、ディーゼルエンジンモデルの完全な作動サイクルを含むシミュレーション結果から抽出され、各健康状態につき120個のサンプルで構成されている。異なる熱パラメータ間で作動範囲や測定スケールに大きな差があることを考慮すると、生データを直接利用することは、特に重み付けの割り当てにおいて訓練プロセスにバイアスをもたらす可能性がある。
この課題に対処するため、パラメータ値の範囲を標準化する min-max 正規化(min-max normalization)を導入し、モデル訓練中にすべての特徴量が等しく寄与するようにした 。正規化の後、サンプルは訓練データセット(70%)とテストデータセット(30%)に比例してランダムに分割された。
3.2 モデルの検証
エンジン回転速度の安定期において、テストデータセットから代表的なデータウィンドウを選定し、モデル検証のために主要な熱パラメータの値を平均化した。表 4 に示すように、定格運転条件下におけるシミュレーション結果の熱力学パラメータは、実験計測値に対して 5% 未満の偏差を示した 。この一致レベルはモデルの信頼性を裏付けるものであり、故障シミュレーション・シナリオおよび包括的なディーゼルエンジンの性能分析の双方において、本モデルの有効な活用を可能にする。

表 4 モデルの妥当性の検証
3.3 故障モデリング
本論文では、シリンダーヘッド亀裂(F1)、ピストン焼損(F2)、ライナー摩耗(F3)、ピストンリング摩耗(F4)、およびピストンリング膠着(F5)を含む特定の燃焼室故障状態を模擬(emulate)するために、体系的なパラメータ微調整手法を開発した。しかしながら、設定されたパラメータ範囲は、シミュレーション結果と実際の作動条件との間の潜在的な相違を解消するために、さらなる最適化を必要とする。今後の研究方向としては、個々の故障モードにおける異なる深刻度(severity levels)の詳細な調査に焦点を当て、それによりモデルの診断精度および実用的な適用性を向上させる予定である。各故障タイプにおけるパラメータ・キャリブレーションの詳細を表 5 に示す。

表 5 故障パラメータの詳細
3.4 故障シミュレーションの結果
本論文では、燃焼室の状態評価において顕著な診断ポテンシャルを有する14個の熱力学パラメータを特定した。これらのパラメータに関する詳細を表 6 に示す。図 6(a)-(n) は、様々な故障条件下におけるこれらのパラメータの変動を示しており、横軸はクランク角(crank angle)、縦軸はパラメータの振幅(amplitude)を表している。

表 6 シミュレーション出力の熱力学パラメータ

図 6 故障シミュレーションの結果:(a) シリンダー圧力;(b) シリンダー温度;(c) ピストン壁熱流;(d) シリンダーヘッド壁熱流;(e) シリンダーライナー壁熱流;(f) ブローバイ熱流;(g) ブローバイ質量流量;(h) タービン出力;(i) ターボチャージャー前排気圧力;(j) ターボチャージャー前排気温度;(k) ターボチャージャー後排気圧力;(l) ターボチャージャー後排気温度;(m) 排気圧力;(n) 排気温度。
4. 結果と考察
4.1 パラメータの選定
ディーゼルエンジンには膨大な熱力学パラメータが存在するため、診断目的ですべてのパラメータを網羅的に監視することは非現実的である。したがって、最も診断的関連性の高いパラメータを特定するために、パラメータ選定プロセスを実施した。このアプローチは、監視パラメータ数の最小化と、強固な故障判別能力の維持との間で最適なバランスを実現するものである。
6つの健康状態における14個のパラメータの SHAP 値を図 7(a) に示し、その要約を図 7(b) に提示する。ここで横軸は平均 SHAP 値を表し、縦軸は14個の熱力学パラメータを重要度の高い順に列挙している 。さらに、図 7(c) は各パラメータの重要度スコアの割合分布を示している 。その結果、故障識別のために累積寄与率(cumulative contribution rate)の最も高い8つのコアパラメータが選定された。これらには、P14(ターボチャージャー後排気温度)、P05(シリンダーライナー壁熱流)、P06(ブローバイ熱流)、P07(ブローバイ質量流量)、P11(ターボチャージャー前排気圧力)、P12(ターボチャージャー前排気温度)、P03(ピストン壁熱流)、および P04(シリンダーヘッド壁熱流)が含まれる。

図 7 SHAP 値に基づく熱力学パラメータの重要度:(a) SHAP 値のヒートマップ;(b) 積み上げ棒グラフ;(c) 割合チャート。
4.2 モデルの評価
サンプルサイズが限定的であることを考慮し、本研究では比較対象となるすべての機械学習モデルに対し、グリッドサーチ(Grid Search) 法と 5分割交差検証(Five-fold Cross-validation) を組み合わせた最適化ハイパーパラメータ・チューニング戦略を実施した 。K-Nearest Neighbors (KNN)、Support Vector Machine (SVM)、および Random Forest (RF) の最適なパラメータ構成を 表 7 に示す。元のデータセットおよび最適化されたパラメータサブセットにおける、6つの健康状態にわたる評価指標(精度、再現率、F1スコア、および正確度)を 表 8 に提示する。各データセットにおける各モデルの性能を示す 混同行列(Confusion Matrices) および 精度-再現率曲線(Precision-Recall curves) は、それぞれ 図 8 および 図 9 に例示されている。
表 7 モデルのハイパーパラメータの選定

図 8 混同行列:(a)-(c) はそれぞれ元のデータセットにおける KNN、SVM、RF の混同行列を示す;(d)-(f) はそれぞれ最適サブセットにおける KNN、SVM、RF の混同行列を示す。

図 9 精度-再現率曲線:(a)-(c) はそれぞれ元のデータセットにおける KNN、SVM、RF の精度-再現率曲線を示す;(d)-(f) はそれぞれ最適サブセットにおける KNN、SVM、RF の精度-再現率曲線を示す。
混同行列は各モデルの特有の性能を明らかにしている。図 8(a) に示すように、KNN は元のデータセットにおいて F3-F5 の故障状態の識別精度が相対的に低い。しかし、図 8(d) に描写されている通り、最適パラメータサブセットを利用することで、これらの故障状態に対する診断能力は顕著な改善を示した。SVM は元のデータセットにおいて F1 および F4 故障の特定に不十分な性能を示したが(図 8b 参照)、最適化されたパラメータサブセットではこれらの故障の識別精度が向上した。ただし、図 8(e) に示すように、F3 検出性能の低下という代償を伴っている。対照的に、RF は当初、元のデータセットにおける F5 故障識別で十分な性能を発揮できなかったが(図 8c 参照)、最適な特徴サブセットを採用した際には、図 8(f) に示されるように、6つすべての健康状態にわたって卓越した総合性能を達成した。F4 と F5 故障を区別する能力はわずかに減じたものの、これら両方の故障タイプはピストンリングに関連するものであり、類似したシステム影響パターンを示す点は注目に値する。評価の結果、実験的に構築された故障データセットにおいて、RF は SVM および KNN の両方を凌駕することが示された。
包括的な比較分析を確立するために、複数の特徴選択手法が実施され、各手法から得られた最適パラメータサブセットが 図 10 に視覚的に提示されている。RF を分類モデルとして用い、各最適化パラメータサブセットの診断性能を評価した結果、平均正確度が 表 9 に要約されている。その結果、SHAP を通じて得られたパラメータサブセットは、他の特徴選択手法から派生したサブセットと比較して、より優れた診断能力を示すことが明らかになった。

図 10 異なる特徴選択手法による最適サブセット
4.3 熱力学モデル支援型解釈
熱力学モデリング支援による解釈性の向上を実証するため、本研究ではピストンリング故障(F4)を代表的なケーススタディとして採用した。分析には二角的アプローチを用い、まず個別のサンプル視点からモデルの意思決定メカニズムを検討し、次いで故障特性の大域的視点から分析を行った。
4.3.1 個別サンプル分析
図 11(a) に示されるように、ウォーターフォール図(waterfall plot)は個別サンプルの重要度評価を分析するための有効な可視化ツールとして活用されている。ウォーターフォール図における情報の解釈は以下の通りである。
(1) ウォーターフォール図は底部から始まり、その起点はモデル出力の期待値 $E[f(x)]$ である。
(2) 各水平バーはパラメータの寄与の大きさと方向を定量的に表しており、赤いバーは正の寄与を、青いバーは負の影響を示している。
(3) 終端値 $f(x)$ は、すべての個別のパラメータ寄与の代数的な総和によって算出され、特定のサンプルに対するモデルの最終的な予測値を表している。

図 11 SHAP 値に基づくピストンリング摩耗 (F4) の故障解析:(a) Waterfall Plot;(b) Beeswarm Plot;(c) Interaction Plot;(d) Dependence Plot。
図 11(a) に示すように、特定のパラメータ値はモデルの予測方向に直接影響を及ぼす。しかしながら、これらの値と標準的な参照値との関係は直ちに明白なものではない。図 6 の熱力学モデルの出力を統合することにより、特定の瞬間(例えば $P06=1.641$、$P07=-0.024$、および $P12=728.568$)において、$P14$ および $P04$ の値が顕著に低く、これがモデルの予測に負の影響を及ぼしていることが明確になる。ピストンリングの摩耗がブローバイ(blow-by)を悪化させるという事実に鑑み、この現象は事前知識(prior knowledge)として故障モデルに組み込まれている。ブローバイの存在は $P14$ および $P04$ の値を増大させるが、これはサンプル点で観察された低い値と直接矛盾しており、最終的にモデルの予測精度を低下させる結果となる。
4.3.2 大域的解釈
本論文では、F4 故障状態における全サンプルの評価結果を要約し、熱力学パラメータの変動に起因するサンプル分布を Beeswarm Plot(図11b参照)を通じて提示した。さらに、各パラメータの平均 SHAP 値を Beeswarm Plot と組み合わせることで、各パラメータの重要度分布をより直感的に表現することを可能にした。Beeswarm Plot における情報の解釈は以下の通りである。
(1) y 軸は重要度の順に並べられたパラメータを表示し、各バーはそのパラメータの平均 Shapley 値を表す。
(2) 各サンプルはドットで示され、ドットの x 軸上の位置は SHAP 値に対応しており、ドットを各行内で積み重ねることでその密度を描写している。
(3) 色はパラメータの生データ(raw values)を表すために使用される。
(4) ドットの水平方向の分布は影響の大きさを反映しており、分布が広いほど影響が大きいことを示す。
図 11(b) は、P11、P12、P07、および P06 の低下した値が、故障タイプ F4 を識別しようとするモデルの予測傾向に大きな影響を与えることを示している。熱力学パラメータ間の相互依存性(interdependencies)を徹底的に調査するため、本研究ではさらに SHAP 交互作用値を算出した。図 11(c) には最も影響力のある 6 つのパラメータ交互作用が示されており、図 11(d) には P11-P12 および P06-P07 間の具体的な交互作用の詳細な視覚化が提示されている。Dependency Plot における情報の解釈は以下の通りである。
(1) 各ドットは個別サンプルの予測に対応する。
(2) x 軸はパラメータの実測値を表す。
(3) y 轴はパラメータの SHAP 値を表示する。
(4) 色の変化は、相互作用する相手側のパラメータの値を反映している。
5. 結論
データ駆動型手法とモデルベース手法の統合は、シミュレーションの信頼性とモデルの説明性(explainability)を向上させるための重要な課題である。本論文では、船舶用ディーゼルエンジン燃焼室を対象とした、熱力学シミュレーション支援型ランダムフォレスト(Thermodynamic Simulation-assisted Random Forest, TSRF)と命名された革新的な解釈可能故障診断フレームワークを提案した。シミュレーション・コンポーネントには故障に関する事前知識(prior knowledge)が組み込まれており、主要な燃焼室構成部品に対して5つの熱力学故障モデルを構築している。診断フレームワーク内では、SHAP 値と熱力学モデリングが相乗的に結合され、診断能力の強化が図られている。提案手法は、故障診断に対する信頼性の高い支援を提供し、燃焼室診断結果の解釈性を向上させることを目的としている。
構築された一次元熱力学モデルの妥当性は、Data Collecting Module (DCM) から収集された試験データによって確認された。さらに、従来の機械学習手法との実験的な比較を通じて、開発された TSRF が診断精度の向上に有効であることが検証された。本論文で構築された故障データセットにおいて、開発された TSRF は KNN および SVM を凌駕し、99.07% の平均精度(mean accuracy)を達成した。
加えて、特定の故障ケース(F4)における熱力学パラメータの寄与度と交互作用を調査し、モデルの意思決定結果に関する解釈的分析を提供した。TSRF モデルの推定および SHAP 分析の結果によれば、ターボチャージャー排気温度、ブローバイ(blow-by)熱流、およびシリンダーライナー熱流が、故障診断結果に影響を及ぼす主要な熱力学パラメータであることが判明した。
今後の課題として、提案手法のさらなる評価とアップグレードのために、多様な海象条件(marine conditions)下での調査を行う予定である。また、故障パラメータの設定を最適化し、異なる故障の深刻度(fault severities)と組み合わせることで、より精密な分類と高い診断精度の達成を目指す。さらに、ディープラーニング(deep learning)等の高度なモデルと、多領域モデルや詳細な化学反応を取り込んだモデルを含む様々な熱力学モデリング手法との相乗的な統合に焦点を当てる。この戦略は、データ駆動型学習と物理ベースのモデリングの相補的な強みを活用し、船舶用ディーゼルエンジンの故障診断における予測精度の向上と堅牢な物理的解釈性の双方を実現することを目的としている。
論文タイトル:Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines
掲載雑誌:『Measurement』
論文リンク:https://doi.org/10.1016/j.measurement.2025.117252


