1. 概要
ニューラルネットワークを用いた画像認識のシステムの入力にわずかなパッチやノイズを加えてシステムの認識系を狂わせる手法を敵対的攻撃(Adversarial Attacks)といい、これを防御するための学習手法を敵対的トレーニング(Adversarial Training)という。ここで、データセットに対してモデルがどれだけ正確に予測できるかを示す指標をNatural Accuracyと呼び、一方で敵対的な攻撃に対してモデルがどれだけ頑健かを示す指標をRobust Accuracyと呼ぶが、敵対的トレーニングを行うとNatural Accuracyが低下するのが問題だった。
2. 新規性
この研究では、これまでトレードオフの関係にあったNatural AccuracyとRobust Accuracyをどちらも担保することに成功している。ネットワークを共有してと学習を同時に行うとトレードオフの関係から抜けられなくなるため、正常画像認識用のネットワークと敵対的攻撃耐性用のネットワークを用意し、Generalistと名付けた第三のネットワークによって二つのネットワークを同時に学習させつつそれぞれの識別能力が劣化しないようにハンドリングする。Generalistは初期状態が最適化されていないのでそのまま勾配を伝播させると学習が困難になる。そこで、ある一定のエポックの間の勾配情報にEMA(Exponential Moving Average)をかけて現在のエポックに最も高い重みを与えながら勾配情報を伝播させることで解決した。
3. 実現方法
- 正常画像用のネットワークを更新する
- 敵対的攻撃判別用ネットワークを更新する
- 1と2の重みを加重平均してGeneralistネットワークを構築する
- Generalistネットワークから、一定のエポックの時差を含ませて勾配を1と2のネットワークに伝播させる
- 1と2のネットワークの重みを更新する
*一定エポックの時差はハイパーパラメータになっている
4. 結果
正常画像の認識率を保ちながら、敵対的画像を判別する能力もかなり高い頑健性を維持できるようになった。
last updates: June 22 2023