本記事は、2021年3月に『IEEE Transactions on Industrial Electronics』誌に掲載された論文「Deep Residual Networks With Adaptively Parametric Rectifier Linear Units for Fault Diagnosis」の詳細な解説である。
概要
同一の健康状態における振動信号は、稼働条件の変化により大きな差異が生じることがある。同様に、異なる健康状態における振動信号間の差異が、特定の稼働条件の下では小さくなることもある。従来の深層学習手法は、すべての入力信号に対して固定の非線形変換を適用するため、クラス内信号を同じ領域に投影し、クラス間信号を離れた領域に投影するという識別的な特徴学習能力に悪影響を及ぼす。この問題に対処するため、本論文では新しい活性化関数、すなわちadaptively parametric rectifier linear units (適応的パラメトリックReLU) を開発し、特徴学習能力を向上させるために、この活性化関数をdeep residual networksに組み込む。これにより、各入力信号が固有の非線形変換のセットを持つように学習される。具体的には、非線形変換で使用される傾き(slope)を学習するための組み込みモジュールとしてサブネットワークが挿入される。この傾きは入力信号に依存するため、開発された手法は従来の深層学習手法よりも柔軟な非線形変換を可能にする。最後に、故障診断の適用を通じて、開発された手法の識別的特徴の学習における比較的良好なパフォーマンスが検証された。
I. はじめに
機械および電気デバイスは、冶金、交通、鉱業など多くの産業において不可欠な役割を果たしている。過酷な環境での長時間の稼働により、重大な事故や損失につながる可能性のある故障に遭遇することは避けられないことが多い。これらのトラブルを回避するため、故障診断は過去数十年にわたり研究の焦点となっている[1], [2]。具体的には、振動信号には機械的故障によって引き起こされる多くのインパルスや変動が含まれており[3]、故障診断で頻繁に使用される。通常、エンジニアは故障周波数を特定することで故障を診断できる[4]–[6]。しかし、多くのコンポーネントで構成される大型機械においてこれは困難であることが多く、このことが機械的故障診断のための他のアプローチの探求の動機となっている。
データ駆動型の故障診断アプローチは過去数十年間で急速に発展しており、故障関連周波数を特定する手間を省くことができる。一般に、尖度、エネルギー、peak-to-peak値などの統計的特徴量のセットが最初のステップで構成され、故障関連情報を表現することを目的としている。その後、これらの統計的特徴量は、故障を認識するために浅い分類器(shallow classifier)に入力される。しかし、これらの統計的特徴量が故障関連情報を十分に表現できるかどうかはほとんど分かっていない。さらに、特定の機械でうまく機能する最適な統計的特徴量セットが、他の機械や、異なる稼働条件下で稼働している同じ機械に対してもうまく機能するとは限らない。結果として、故障関連情報を十分に表現できる満足のいく特徴量セットを構成することは、データ駆動型の故障診断分野における長年の課題となっている。
代替として、深層学習手法は生信号から識別的特徴のセットを自動的に学習し、従来の機械学習手法よりも比較的高い精度をもたらすことができるため、人為的に特徴量セットを構成する手間を省くことができる。deep belief networks、auto-encoders、convolutional neural networks (ConvNets)、およびその他の手法を含む様々な深層学習手法が故障診断において調査されている。しかし、従来の深層学習手法は一般に、浅いニューラルネットワークよりも学習が困難である。一度学習に失敗すると、深層学習手法は故障を検出できなくなる。
近年、deep residual networks (ResNets) はパターン認識タスクのための優れた深層学習アルゴリズムの一つとして登場しており、実際にはConvNetsの特別な種類である。従来のConvNetsと比較して、ResNetsでのidentity shortcutsの使用は、数十から数百の層を持つ深いアーキテクチャの学習の困難さを軽減する。さらに、ResNetsは機械の故障診断において徐々に普及してきている。これらの研究において従来のConvNetsと比較したResNetsの有効性が検証されているため、本論文ではResNetsをさらなる改良のためのベンチマークとする。

図1. (a) 古典的な深層ニューラルネットワークにおける非線形変換。ここでF、G、Hは非線形変換を表し、「=」は非線形変換が同一であることを意味する。(b) 開発された手法における非線形変換。ここで「≠」は非線形変換が異なる可能性があることを意味する。
しかし、図1(a)に示されるように、典型的な活性化関数(例えば、sigmoid、tanh、rectifier linear units (ReLUs)、leaky ReLUs (LReLUs)、および parametric ReLUs (PReLUs))を備えたResNetsを含む古典的なニューラルネットワークにおける問題は、同一の非線形変換のグループが各信号に適用されることである。この方法は特徴学習能力に悪影響を及ぼす。問題は、稼働条件(例えば、回転速度や負荷)の変化により、同一の健康状態にある2つの振動信号が大きく異なる特性(例えば、異なるインパルスや変動波形)を持つ可能性があることである。故障関連周波数は変動する回転速度に比例し、構造が異なる機械デバイスでは負荷の増加に伴って振幅が拡大または縮小する可能性があり、同一の健康状態にある振動信号の波形は互いに明らかに異なることが多い。その結果、同一の非線形変換を適用することによって、これら2つの振動信号を同じクラスに投影することは困難である。同様に、もう一つの問題は、異なる健康状態の下にある振動信号が場合によっては非常に似た特性を持つ可能性があり、例えば、それらの故障関連周波数が互いに似ている可能性があることである。古典的な深層ネットワークにおいて、同一の非線形変換のセットが適用された後、振動信号が近い領域に投影されることが多く、これが誤分類を引き起こす。したがって、入力信号に自動的に学習して異なる非線形変換を適用できる新しい深層学習手法を開発することは意義がある。
前述の問題に対処するため、図1(b)に示されるように、本論文では、診断精度の向上を最終目標として、入力信号に異なる非線形変換を割り当てるための新しい深層学習手法、いわゆるResNets with adaptively PReLUs (ResNet-APReLU) を開発する。具体的には、開発されたResNet-APReLU手法は、活性化関数(すなわち、APReLU)の傾きを入力信号に応じて調整可能にする。ここで、傾きは非線形変換を実行する際に使用される一種の乗数係数である。これは、特別に設計されたサブネットワークを活性化関数に挿入することで達成される。開発された手法がsqueeze-and-excitation networksにインスパイアされていることは注目に値する。そこでは、異なるチャネルの特徴の値を調整するために、サブネットワークによって乗数係数のグループが学習される。このようにして、開発されたResNet-APReLUは各入力信号に対して非線形変換のグループを自動的に設計することができる。
II. 開発されたRESNET-APRELUの理論
本章では、古典的なResNetsと一般的な活性化関数の必要な基礎の概要を説明した後、開発されたResNet-APReLUの設計原理とアーキテクチャについて詳細に紹介する。
A. 古典的なResNetsの基礎
ResNetsはConvNetsの特別な種類であり、畳み込み層、複数のresidual building blocks (ResBlocks)、batch normalization (BN)、ReLU活性化関数、global average pooling (GAP)、およびfully connected (FC) 出力層を含む様々なコンポーネントの集合体である。含まれるコンポーネントを以下に紹介する。
まず、畳み込み層は多数の学習可能なフィルターで構成されており、パラメータはランダムな浮動小数点数として初期化され、学習プロセスで最適化される。バイアスの加算を伴う畳み込みは次のように表される。
$y_j = \sum_{i} x_i * k_{ij} + b_j$
ここで、$x$は入力特徴マップ、$y$は出力特徴マップである。本論文では1次元の振動信号を入力とするため、特徴マップは(長さ × チャネル数)の形式の2次元行列となる。$k$は畳み込みカーネル、$b$はバイアス、$i$と$j$は特徴マップのチャネルのインジケーターである。
ReLUは深層学習手法において最も一般的な活性化関数の一つである。sigmoid関数やtanh関数と比較して、ReLUは勾配消失問題の防止により効果的である。ReLUは次のように表される。
$y = \begin{cases}
x, & x \ge 0\\
0, & x < 0
\end{cases}$
ここで、$x$と$y$はそれぞれ入力および出力特徴である。
BNは深いアーキテクチャ内の特徴に適用される正規化技術である。その目的は内部共変量シフト問題、すなわち特徴の分布が学習イテレーションの間に継続的に変化し、学習プロセスを遅らせるという問題を解決することである。BNは次のように表される。
$\mu = \frac{1}{N_{\text{batch}}} \sum_{s=1}^{N_{\text{batch}}} x_s$
$\sigma^2 = \frac{1}{N_{\text{batch}}} \sum_{s=1}^{N_{\text{batch}}} (x_s - \mu)^2$
$\hat{x}_s = \frac{x_s - \mu}{\sqrt{\sigma^2 + \epsilon}}$
$y_s = \gamma \hat{x}_s + \beta$
ここで、$x_s$と$y_s$はそれぞれ事前定義されたミニバッチ内の$s$番目の観測データの入力および出力特徴であり、$ϵ$はゼロに近い定数であり、$γ$と$β$は分布をスケーリングおよびシフトするための学習可能なパラメータである。

図2. (a) 2つのReLU、2つのBN、2つの畳み込み層、および1つのidentity shortcutを備えたResBlock。(b) 古典的なResNetのアーキテクチャ。
図2(a)に示されるように、ResBlockは2つのBN、2つのReLU、2つの畳み込み層、および1つのidentity shortcutで構成されている。identity shortcutは、古典的なConvNetsに対するResNetsの利点をもたらす重要なコンポーネントである。勾配はidentity shortcutsを通じて初期の層(すなわち、入力層に近い層)へ直接伝播されるため、勾配の逆伝播が容易になり、ResNetsは古典的なConvNetsよりも学習が容易になる。
GAPは、最終的なFC出力層の前にしばしば使用される特別なプーリング層である。数学的には、特徴マップの各チャネルから平均値が計算される。GAPは最終的なFC層で使用される重みの量を減らし、過学習のリスクをさらに低下させる。
交差エントロピー誤差(cross-entropy error)は、ResNetsにおいて最小化されるコスト関数として使用される。最初のステップで、特徴を(0, 1)の範囲に変換するためにsoftmax関数が適用され、これは次のように表される。
$y_j = \frac{e^{x_j}}{\sum_{i=1}^{N_{\text{class}}} e^{x_i}}$
ここで、$x$と$y$はそれぞれ入力および出力特徴であり、$N_{class}$はクラス数である。続いて、交差エントロピー誤差は数学的に次のように表される。
$E = -\sum_{j=1}^{N_{\text{class}}} t_j \log(y_j)$
ここで、$t$はワンホット形式(one-hot format)のラベルである。誤差の計算後、パラメータを最適化するために勾配の逆伝播を適用できる。このプロセスを一定のイテレーション回数繰り返すことでResNetモデルを完全に最適化することができ、これは図2(b)に描かれている。
B. ReLUの改良版
第II-A節で紹介したように、ReLUは深層学習手法で最も人気のある活性化関数の一つである。パフォーマンスを向上させるために、LReLUやPReLUなどのReLUのバリアントを開発する研究が行われてきた。
LReLUは、負の特徴量をゼロに強制するのではなく、小さくゼロではない乗数係数(例えば0.1)を負の特徴量に適用する点で、従来のReLUとはわずかに異なり、次のように表される。
$y = \max(x, 0) + 0.1 \cdot \min(x, 0)$
ここで、xとyはそれぞれ入力および出力特徴である。
PReLUはLReLUのバリアントである。上述のように、LReLUにおける係数は事前に定義された定数である。代わりに、PReLUは勾配逆伝播を用いて係数を学習可能にする。PReLUは次のように表される。
$y = \max(x, 0) + \alpha \cdot \min(x, 0)$
ここで、$α$は学習可能な乗数係数(すなわち傾き)である。具体的には、特徴マップの各チャネルが固有の$α$を持つため、非線形変換は高度に柔軟になる。さらに、PReLUにおける$α$は学習プロセスでは学習可能であるが、テストプロセスでは定数となり、特定のテスト信号ごとに調整可能ではないことに注意が必要である。
C. 開発されたResNet-APReLUの設計
開発されたResNet-APReLUは、適応的な非線形変換を実行するための特別な種類の活性化関数、すなわちAPReLUを備えたResNetである。したがって、本節では、振動信号に適応的非線形変換を適用する動機を紹介し、その後、APReLUとResNet-APReLUのアーキテクチャについて詳細に説明する。
1) 振動信号に適応的非線形変換を適用する動機:深層ニューラルネットワークによる故障診断における重要なタスクは、クラス内信号を近い領域に、クラス間信号を離れた領域に投影することである。しかし、長年の問題は、同一の故障状態における振動信号が、稼働条件の変化によって異なる特性を持つことが多いということである。例えば、負荷の変動により振幅が増減したり、回転速度の変動により故障関連インパルスの時間間隔が変化したりする可能性がある。同時に、異なる故障状態における振動信号が、特定の状況下では類似した特性を持つこともある。例えば、同一の回転速度下では異なる故障の故障関連周波数が明確に区別できる場合でも、異なる回転速度下で振動信号が収集された場合、これらの周波数が互いに似通ってくる可能性がある。
従来の活性化関数を使用する深層学習手法では、同一の非線形変換のセットがすべての振動信号に適用される。その結果、同一の非線形変換のセットを通じて同一の健康状態の振動信号を近い領域に投影することは困難になる場合がある。また、異なる健康状態のいくつかの振動信号が類似の特性を共有している場合、それらを離れた領域に投影することも困難になる可能性がある。したがって、学習された特徴の識別性を向上させるために、異なる非線形変換を異なる振動信号に割り当てることを可能にする新しい活性化関数を開発する必要がある。
2) APReLUの基本アーキテクチャの設計: APReLUは、非線形変換で使用される乗数係数を適応的に推定するための組み込みモジュールとして、特別に設計されたサブネットワークを統合している。これが本研究の主要な革新点である。

図3. (a) 適応的非線形変換のために開発されたAPReLU。(b) 2つの畳み込み層、2つのBN、2つのAPReLU、および1つのidentity shortcutを備えた新しいResBlock。(c) 開発されたResNet-APReLU手法の全体アーキテクチャ。
図3(a)に示されるように、最初のステップで、正の特徴のグローバルな情報を表す1次元ベクトルを計算するために、入力特徴マップがReLUとGAPに伝播される。同時に、負の特徴のグローバルな情報を表す別の1次元ベクトルを計算するために、入力特徴マップは$min(x, 0)$関数とGAPにも伝播される。その動機は以下の通りである。第一に、深層ニューラルネットワークにおける学習された特徴は明確な物理的意味を持たないが、負の特徴には正の特徴が持たない有用な故障関連の振動信号情報が含まれている可能性があるため、ReLU活性化関数とともに$min(x, 0)$関数が適用される。第二に、深層学習手法を振動信号に適用する際のシフト変動問題に対処するためにGAPを使用できる。故障関連インパルスや変動の場所は異なる振動信号間で異なる可能性があり、これが最終的な特徴を変化させ、深層ニューラルネットワークの安定性を低下させることが多い。この問題は、GAPを使用して特徴マップから平均を計算することで対処できる。さらに、特徴マップの情報は2つの1次元ベクトルに圧縮することができ、これらは元の特徴マップよりもはるかに少ないデータポイントしか持たず、後続のネットワークの計算量を減らすことができる。したがって、後続の非線形変換で使用される乗数係数は、のようにGAPから直接生成されたグローバル平均のみを考慮するのではなく、正の特徴と負の特徴のグローバル情報を同時に参照して決定することができる。これにより、包括的な情報源に基づいて乗数係数を推定することが可能となる。
その後、2つの1次元ベクトルが結合され、計算パス(すなわち、FC→BN→ReLU→FC→BN→sigmoid)に伝播される。ここで、各FC層のニューロン数はAPReLUの入力特徴マップのチャネル数に等しい。同様に、計算パスの設計の動機は以下のように説明される。第一に、ReLUとsigmoid活性化関数を使用することで、計算パスは乗数係数を決定する際に2段階の非線形性を提供できる。第二に、ReLUの勾配は1または0であり、これによりほとんどの状況で勾配の値が妥当な範囲内に保たれる。第三に、sigmoid活性化関数は乗数係数を(0, 1)の範囲の浮動小数点数に変換し、乗数係数に過大すぎる値が割り当てられるリスクを防ぐ。第四に、BNは内部共変量シフト問題に対処し、最適化プロセスを加速することができる。層間の特徴にBNを適用することで、学習プロセスを加速することができる。最後に、PReLUと同じ関数が適用され、非線形変換を実行して出力特徴マップを取得する。
3) 振動ベースのギアボックス故障診断のための開発されたResNet-APReLUのアーキテクチャ: 本節では、開発されたResNet-APReLUのアーキテクチャと最適化手法を紹介し、振動ベースのギアボックス故障診断におけるその有効性を明らかにする。
図3(b)に示されるように、2つの畳み込み層、2つのBN、2つのAPReLU、および1つのidentity shortcutから構成される新しいResBlockが構築された。新しいResBlockは、図2(a)の古典的なResBlockとほぼ同じアーキテクチャを持つ。唯一の違いは、適応的非線形変換のために従来のReLUの代わりに開発されたAPReLUが使用されていることである。したがって、各新しいResBlockは2段階の適応的非線形変換を持つ。言い換えれば、APReLUの出力特徴マップは入力特徴マップと同じ形状および形式を持つため、開発されたAPReLUは他の変更を加えることなく、ResBlockや深層ニューラルネットワークの任意の場所に簡単に挿入することができる。
図3(c)は、開発されたResNet-APReLUの全体アーキテクチャを示しており、畳み込み層、多数の新しいResBlocks、BN、APReLU、GAP、およびFC出力層で構成されている。このアーキテクチャでは多数の新しいResBlocksが積層されているため、開発されたResNet-APReLUは適応的非線形変換を複数回適用することができる。それに伴い、図1(b)に示される動作原理を実現することができ、各入力信号は他の信号とは異なる可能性のある固有の非線形変換のセットを持つことができる。
ResNet-APReLUは勾配降下法(gradient descent algorithm)を用いて最適化され、次のように表される。
$w \leftarrow w - \eta \frac{\partial E}{\partial w}$
ここで、$w$はアーキテクチャ内の任意の学習可能なパラメータを表すインジケーターであり、$E$は交差エントロピー誤差、$η$は学習率である。図3(a)に示されるように、開発されたAPReLUは実際には様々な基本操作の組み合わせであり、$min(x, 0)$関数、2つのReLU、2つのGAP、2つのFC層、2つのBN、sigmoid関数、および$max(x, 0) + αmin(x, 0)$関数 [すなわち、式(10)] を含む。いくつかの基本操作の入力特徴に対する出力特徴の勾配は表Iに示されている。ここで、$N_{feature}$は特徴マップのチャネル内の特徴数である。FC層とBNの勾配はそれぞれ[9]と[48]で利用可能である。

表I. いくつかの基本操作における入力特徴に対する出力特徴の勾配
その後、学習可能なパラメータ$w$に関する最終的な交差エントロピー誤差の勾配は、連鎖律(chain rule)に従って計算することができ、次のように表される。
$\frac{\partial E}{\partial w} = \sum_{k} \frac{\partial E}{\partial \text{Path}_k} \cdot \frac{\partial \text{Path}_k}{\partial w}$
ここで、Pathは学習可能なパラメータ$w$と出力層の交差エントロピー誤差を接続する微分可能なパスの集合である。ここで、いわゆる微分可能なパスは上記にリストされた基本コンポーネントで構成されている。最適化の後、新しいResBlockは入力データをより識別的な特徴に変換できるようになる。最後に、ニューロン数が考慮される健康状態の総数と等しいFC出力層を使用して機械の故障診断が行われる。
要約すると、開発されたResNet-APReLUは、特定の入力信号ごとに非線形変換のグループを自動的に学習する新しい深層学習手法であり、様々な稼働条件下で収集された振動信号を使用してギアボックスの故障診断を実行するのに適している。適応的非線形変換を定義するために使用される乗数係数は、各特定の振動信号の特性に従って決定される。すべての振動信号に同一の非線形変換を適用する従来の方法と比較して、開発されたResNet-APReLUは識別的特徴の抽出においてより効果的であり、比較的良好な診断精度をもたらす。
III. 実験結果
開発されたResNet-APReLUは、振動信号を入力とし、変化する稼働条件下での遊星ギアボックスの診断に適用された。sigmoid、tanh、ReLU、LReLU、およびPReLU活性化関数を使用する古典的なConvNetsおよびResNetsとの実験的比較が行われた。実験結果はこの章に要約され考察されている。
A. 振動信号の収集

図4. 振動信号収集のためのドライブトレインダイナミクスシミュレーター。
図4に示されるように、故障をシミュレートし振動信号を収集するために、ドライブトレインダイナミクスシミュレーターが使用された。これは、モーター、2段遊星ギアボックス(1段目に4つの遊星歯車、2段目に3つの遊星歯車を持つ)、2段固定軸ギアボックス、および頑丈なプログラム可能磁気ブレーキで構成されている。磁気ブレーキは、変化する稼働条件をシミュレートするためにねじり荷重を調整するために使用できる。加速度計が遊星ギアボックスの入力端の垂直方向に取り付けられ、振動信号は12.8 kHzのサンプリング周波数で収集された。

表II. 実験における遊星ギアボックスの8つの健康状態の概要
表IIに要約されるように、遊星ギアボックスの8つの健康状態がシミュレートされた。これには、1つの正常な状態、遊星ギアボックスの1段目の遊星歯車を支持するベアリングの3種類の故障、および遊星ギアボックスの1段目の太陽歯車の4種類の故障が含まれる。表IIIに要約されるように、振動信号は3つのねじり荷重および3つの回転速度の下で収集された。具体的には、各ねじり荷重および回転速度の下で200の振動信号が収集されたため、各健康状態には200×3×3=1800個の観測データがある。各観測データには4096個のデータポイント、すなわち0.32秒の振動信号が含まれている。さらに、様々なノイズ量の下での故障診断における開発されたResNet-APReLUのパフォーマンスを調査するために、各観測データに加法性白色ガウスノイズを手動で挿入し、信号対雑音比(SNR)をそれぞれ5、3、および1 dBにした。
B. ハイパーパラメータの設定
実験では、異なる活性化関数を持つ関連する深層学習手法において同じハイパーパラメータが採用された。同様に、ハイパーパラメータの微調整は依然として多くの研究努力を必要とする未解決の課題であるが、本研究の焦点はハイパーパラメータの最適化ではなく、特別に設計されたアーキテクチャを持つ新しい深層学習手法を開発することである。ハイパーパラメータは次のように設定された。
学習率は最初の40エポックで0.1、次の40エポックで0.01、最後の20エポックで0.001である。深いアーキテクチャ内のパラメータは、最初は大きなステップサイズで更新し、最終段階でわずかに微調整することができる。モメンタム(Momentum)は、前回のイテレーションでの更新を利用して最適化プロセスを加速する学習技術であり、本研究では[9]で提案されているようにモメンタム比を0.9としている。重みは[43]の手法で初期化され、バイアスはゼロとして初期化される。L2正則化が過学習を減らすために使用され、これは誤差関数にペナルティ項を追加することで重みをゼロに近づける。L2正則化の係数は0.0001であり、これは[32]の設定に従っている。ミニバッチは、ネットワークに同時に伝播されるランダムに選択された信号のグループであり、ミニバッチサイズは[40]の設定に従って128である。各学習信号の両端に4つのゼロによるパディングが適用され、長さを4096とするランダムクロッピングがデータ拡張のために使用され、これが過学習をさらに防ぐ。

表IV. 実験結果。ここでMはResBlockまたはConvBlock(すなわち、identity shortcutsのないResBlock)の数(%)
同様に、畳み込みカーネルの数は、最初の畳み込み層およびResBlockの最初の3分の1で4、次のResBlockの3分の1で8、最後のResBlockの3分の1で16であり、これは[34]に従っている。畳み込みカーネルの長さはすべての層で3である。より大きなデータセットを扱う場合、畳み込みカーネルの長さをより大きくできることに注意が必要である。本研究における設定は手法の有効性を検証するためだけのものである。異なる深さでのパフォーマンスをテストするために、ResBlockの数Mは6、9、および12に設定されている。
C. パフォーマンスの比較
本研究では、10分割交差検証(10-fold cross validation)の枠組みの下で実験が行われた。指標「ConvNet-ReLU」はReLU活性化関数を使用するConvNetを指し、他のものも同様である。詳細な結果は表IVに要約されており、精度の全体平均は表Vに示されており、以下のように議論される。
1) APReLUと古典的な活性化関数との比較: 表Vに示されるように、APReLUはsigmoid、tanh、ReLU、LReLU、およびPReLUを含む従来の活性化関数と比べて良好な結果を示した。具体的には、ConvNet-APReLUは全体平均テスト精度92.68%を達成し、これはそれぞれsigmoid、tanh、ReLU、LReLU、およびPReLUを備えたConvNetsよりも17.23%、8.23%、7.29%、6.41%、および2.58%高い。ResNet-APReLUは全体平均テスト精度97.51%を達成し、それぞれsigmoid、tanh、ReLU、LReLU、およびPReLUを備えたResNetsと比較して18.31%、9.64%、5.27%、5.24%、および3.98%の向上をもたらした。
次に、非線形次元削減手法であるt-SNE (t-distributed stochastic neighbor embedding) が、最終的なGAP層で学習された特徴を2次元空間に投影するために使用される。t-SNEから生成された2次元特徴は観測データ間の近傍関係に大きく依存しており、これはほとんどのデータセットで異なる可能性があることに注意が必要である。次元削減後、低次元特徴は一般に多くの情報を失うが、2次元視覚化の目的は学習された特徴の特性に関する直感的な理解を与えることであり、2次元視覚化を故障分類に使用することではない。

図5. ConvBlock数が9でSNR = 5 dBの場合における、(a) ConvNet-ReLU、(b) ConvNet-LReLU、(c) ConvNet-PReLU、および(d) ConvNet-APReLUの最終GAP層における学習された特徴の視覚化。ConvBlockはidentity shortcutを持たない点でResBlockとは異なる。

図6. ResBlock数が9でSNR = 5 dBの場合における、(a) ResNet-ReLU、(b) ResNet-LReLU、(c) ResNet-PReLU、および(d) 開発されたResNet-APReLUの最終GAP層における学習された特徴の視覚化。

図7. building block数が9でSNR = 5 dBの場合における、(a) ConvNet-ReLU、(b) ConvNet-LReLU、(c) ConvNet-PReLU、(d) ConvNet-APReLU、(e) ResNet-ReLU、(f) ResNet-LReLU、(g) ResNet-PReLU、および(h) ResNet-APReLUの誤差の変動傾向。
図5に示されるように、ConvNet-APReLUにおいて健康状態がより分離しやすくなっている。例えば、故障「B2」の下での観測データは、ConvNet-APReLUでは他の健康状態と区別可能であるが、他のConvNetsでは分離できない。図6に示されるように、ResNet-APReLUでは健康状態がほぼ完全に分離可能であり、わずかな誤分類のみが観察される。対照的に、他のResNetsでは健康状態が大きく重複している。さらに、同一の健康状態の下での観測データが主に、互いに離れたいくつかの異なる領域に分布している。その理由は、振動信号が様々な稼働条件下で収集され、異なる特性を持っているためである。古典的な深層学習手法にとって、それらを同じ領域に投影することは困難である。結果として、開発されたAPReLUは分類のための比較的識別性の高い特徴のセットを学習するのに役立つ。さらに、図7は学習プロセスにおける誤差の傾向を描写している。ConvNet-APReLUが4つのConvNetsの中で最も低い学習誤差およびテスト誤差をもたらしたことが観察できる。同様に、ResNet-APReLUも他の3つのResNetsより低い学習誤差およびテスト誤差をもたらしており、これは開発されたAPReLUが誤差をゼロに向かって最適化するのに役立つことを検証している。
2) ConvNet-APReLUと比較したResNet-APReLUの有効性: 表Vに示されるように、ResNet-APReLUは全体平均テスト精度において4.83%の向上をもたらし、ConvNet-APReLUより良好なパフォーマンスを示した。同様に、ResNet-APReLUのテスト精度の平均標準偏差は0.47%であり、ConvNet-APReLUのそれより3.04%低く、これはResNet-APReLUがConvNet-APReLUよりも高く安定したテスト精度を達成できることを検証している。
さらに、ConvNet-APReLUはほとんどのケースで他の活性化関数を持つConvNetsよりも高い精度をもたらしたが、$M$=12かつ SNR=1 dB の場合には精度が低下した。その理由は、APReLUを含めることでアーキテクチャの複雑さが増し、多数の層を持つConvNet-APReLUにおけるパラメータの最適化が難しくなるためである。対照的に、開発されたResNet-APReLUは各ケースでResNetsの中で最も高い学習精度およびテスト精度を達成した。ResNet-APReLUにおけるidentity shortcutsは勾配の伝播を大いに促進し、最適化の困難さを和らげるため、診断パフォーマンスをより安定させることができる。
図5(d)および図6(d)に示されるように、健康状態はConvNet-APReLUよりもResNet-APReLUにおいてより分離しやすい。例えば、故障「G3」はConvNet-APReLUでは健康な状態「H」と重なっているが、開発されたResNet-APReLUでは容易に区別できる。さらに、図7(d)および(h)に示されるように、ResNet-APReLUの学習誤差およびテスト誤差の両方がConvNet-APReLUのそれらよりも低い。したがって、ResNet-APReLUは識別的な特徴を学習する上でより効果であり、ConvNet-APReLUよりも最適化が容易である。
3) 他の構造と比較した開発されたAPReLU構造の有効性:図3(a)に示されるように、入力特徴マップはmin(x, 0)関数とGAPだけでなく、ReLU活性化関数とGAPにも伝播される。その後、2つの1次元ベクトルが取得され、結合され、後続の層に伝播される。この構造の有効性を検証するために、他の3つの構造との実験的比較が行われる。表VIに示されるように、「average」は入力特徴マップが直接GAPに伝播されることを意味し、「positive」は入力特徴マップがReLU活性化関数とGAPに伝播されることを意味し、「negative」は入力特徴マップがmin(x, 0)関数とGAPに伝播されることを意味する。その後、GAPの出力特徴マップは計算パス(すなわち、FC→BN→ReLU→FC→BN→sigmoid)に伝播される。これは開発されたAPReLUと全く同じである。

表VI. 異なる構造を持つRESNET-APRELUの精度
実験構成とハイパーパラメータは、$M$=6の表IVの実験と同じである。学習精度およびテスト精度は表VIに要約されている。開発されたAPReLUは他の構造と比較した際に最も高い学習精度およびテスト精度を達成したことが観察できる。
4) 傾きの値に関する分析: 負の特徴に対する傾きの値の例が表VIIに要約されている [式(10)を参照]。
互いに異なる8つの振動信号が分析例として取り上げられている。これら8つの振動信号に対して、LReLU活性化関数における負の特徴に対する傾きは固定値(すなわち0.1)であることがわかる。PReLU活性化関数では傾きが学習可能なパラメータとなり、0として初期化され0.495として学習されるが、これもすべての振動信号に対して同じである。対照的に、開発されたAPReLUで学習された傾きは異なる振動信号に対して異なっており、これは開発されたAPReLU活性化関数が異なる振動信号に異なる非線形変換を割り当てることができる証拠である。
D. 公開データセットでの追加検証
開発されたResNet-APReLUの有効性は、公開されたギアボックスのデータセット、すなわちPHM 2009チャレンジデータセット[52]でも検証された。8つの健康状態が考慮された。各健康状態には1000の観測データがあり、各観測データは4096のデータポイントを含む振動信号である。さらに、各振動信号に白色ガウスノイズを追加し、SNRを1 dBとした。上記の実験と同じハイパーパラメータが使用された。ResBlockの数は12に設定された。データセットの詳細については[52]を参照。
実験結果は表VIIIに要約されている。開発されたResNet-APReLUは、考慮された手法の中で最も高い学習精度(すなわち99.99%)をもたらしただけでなく、最も高いテスト精度(すなわち99.55%)も達成した。しかし、ResNet-APReLUは他の手法よりも最適化に時間がかかる。したがって、時間消費を削減するために、将来的にはResNet-APReLUのアーキテクチャを最適化する必要がある。
IV. 結論
本論文では、他の変更を加えることなく、ResBlockや深層ニューラルネットワークの任意の場所に簡単に挿入できる新しい活性化関数、すなわちAPReLUを開発した。異なる非線形変換を入力信号に割り当てることで深層ニューラルネットワークの特徴学習能力を向上させることができ、それにより良好な診断精度をもたらすという最終目標を達成できる。具体的には、各入力信号が固有の非線形変換を持てるように、APReLUで使用される傾きを自動的に学習するためのサブネットワークが設計された。結果として、開発されたResNet-APReLUは非常に柔軟な非線形変換を持ち、クラス内振動信号を同じ領域に投影し、クラス間振動信号を異なる領域に投影することにおいて良好なパフォーマンスを発揮する。
遊星ギアボックスの故障診断に関する実験を通じて、従来の活性化関数と比較した開発されたAPReLUの有効性が示された。表Vに示されるように、全体平均テスト精度の観点で、ResNet-APReLUはReLU、LReLU、およびPReLU活性化関数を持つ他のResNetsと比較して、それぞれ5.27%、5.24%、および3.98%の向上をもたらした。これらの向上は、適応的非線形変換を達成するためにAPReLUを使用したためであり、これにより非線形変換における係数が入力信号に応じて調整可能になった。したがって、開発されたResNet-APReLUは比較的良好な識別的特徴学習能力を獲得し、診断精度を向上させた。
同様に、開発されたResNet-APReLUは全体平均テスト精度において4.83%の向上を達成し、ConvNet-APReLUを上回った(表Vを参照)。APReLUは確かに、ReLU、LReLU、PReLUなど、考慮された他の活性化関数よりも複雑で最適化が困難であった。ConvNet-APReLU内のパラメータが十分に最適化されていない場合、故障を正確に診断することはできない。対照的に、ResNet-APReLUはidentity shortcutsの使用を通じて学習の困難さを和らげ、ネットワーク内のパラメータを効果的に最適化できるようにした。
最後に、開発されたAPReLUは、非定常稼働条件下での診断精度を向上させるために深層転移学習手法に簡単に挿入することができ、また、深層オートエンコーダ、カプセルネットワーク、および敵対的生成ネットワークなどの他の深層学習手法にも適用可能である。
論文タイトル:Deep residual networks with adaptively parametric rectifier linear units for fault diagnosis
掲載誌:IEEE Transactions on Industrial Electronics. 2021, 68(3): 2587-2597.
DOI:10.1109/TIE.2020.2972458
https://ieeexplore.ieee.org/document/8998530



