1. 概要
敵対的攻撃(Adversarial Attacks)のように、外部からのノイズやその影響を受けて認識系が乱されてしまう問題に対して頑健性を持たせるための最適化手法をロバスト最適化(Robust Optimization)という。従来研究では、敵対的攻撃に対して学習されたモデルがトレーニングセットに対してテストセットよりも高い頑健性を示す、一種の過学習のような状態に陥っていた。この研究では、如何に過学習を避け、計算コストがネットワークの深さに依存せずに、解析的に解を見つけるかという非常に難しい問題を解いている。
2. 新規性
この論文では、ヘシアントレース正則化(Trace-of-Hessian:TrH)を導入して損失関数が作り出す勾配の曲面を平坦になるようにモデルのパラメータを調整し、現実世界の敵対的攻撃に対しても強い頑健性を持つ(=過学習を緩和する)手法を提案している。ヘシアンはモデルの損失関数に関する二階微分の行列で損失関数の曲率を表す。正則化プロセスは、ヘシアンのトレースである行列の対角成分の総和を求め、モデルの損失局面の平坦性を評価している。
3. 実現方法
従来研究では、PAC-Bayesian Bound(Probably Approximately Correct)という、モデルの予測性能とデータ分布の間のトレードオフを考慮した解析手法を用いており、事前分布とデータに基づく事後分布の間の関係を定量化して求め、データ数が少ない事象に対してもモデルの性能を制御し過学習を防いでいた。提案手法では、ヘシアントレース正則化を使って導出される損失関数の曲面に対してPAC-Bayesianを使った学習を実施した。
ヘシアンのトレース(TrH)を全レイヤーのパラメータに対して求めると計算コストが膨大になるので、実験ではVision Transformerの最上位レイヤーにのみ正則化項を付与して計算コストを抑えている。
4. 結果
ImageNetとCIFAR-10/100でヘシアントレース正則化(TrH)を最上位レイヤーに組み込んだVision Transformerを使って評価実験を行っており、既存手法に比べて頑健性が向上していることを確認している。また、同時に使用するメモリと計算コストも削減している。
last updates: June 24 2023