敵対的サンプルとは
ニューラルネットワークで画像認識を行う際、あるバターンのノイズが画像に加わることで、予測結果が変わってしまうことがあります。このノイズを敵対的摂動、ノイズを加えた画像を敵対的サンプルと呼びます。敵対的サンプル生成のさきがけとなったのは[Szegedy+, 2014]の勾配ベースの最適化手法を用いた方法です。敵対的サンプルの研究を行う意義としては、モデルの頑健性を調べること、モデルの頑健性を向上させる学習手法を見つけること、ニューラルネットワークのBlackBoxを紐解くことなどが挙げられます。
敵対的サンプルの作成法
ニューラルネットワークの学習は、パラメータに関する損失の勾配を使用して、その損失を最小化するようにパラメータを更新します。
FGSM (Fast Gradient Sign Method) [Goodfellow+, 2015] は、入力画像に関する損失の勾配を使用して、その損失を最大化する新しい画像を作成します。
こうして得られた敵対的サンプルを訓練データに追加することで、敵対的サンプルに対して頑健な学習(敵対的学習)が行えると主張しています。
NLPにおける敵対的サンプル
自然言語モデルは画像モデルと異なり、離散的な単語列を入力するため、敵対的サンプルを簡単に作成することはできません。仮に画像と同じように勾配を用いて損失を大きくするように単語ベクトルを更新しようとしても、単語埋め込み空間で単語が存在しない方向に更新されることがあります。更新された単語ベクトルの周辺に別の単語が存在していて、その単語に入れ替えるという方法をとっても、それが元の単語と意味的に似ている保証はありません。まったく意味の異なる単語に入れ替えてしまえば、文の意味が大きく変わってしまう恐れがあります。
[Miyato+, 2017]は、KL Lossを用いて正解ラベル情報を不要にし、半教師あり学習の設定に拡張したVATという手法を提案しています。これは敵対的サンプルを見つけるというより、モデルの正則化に重きをおいた研究だと思います。
[Sato+, 2017]は、勾配を用いて単語ベクトルの更新を行う際に、[Miyato+, 2017]の手法に加えて近くの単語ベクトルを向くように制限を加えることで、敵対的摂動が単語の置換えと解釈できるため解釈性が上がることを示しました。個人的には入れ替える単語の組み合わせをどう選ぶかと、意味が変わってしまう単語がどれくらい存在するのかが気になりました。
おわりに
画像においては敵対的サンプルの研究が進んでいますが、自然言語においてはその離散的な性質から、画像と同様の方法を適用することは難しいと感じました。
とはいえ、Self-attentionを始めとする近年の自然言語分野の発展をみると、敵対的サンプルの分野でもすぐに進展はありそうです。