はじめに
この記事は論文を読み進める中で論文に書かれていない計算過程や疑問などをまとめたものです。読みにくい部分や間違いなどあるかもしれません。ご容赦ください。
論文
Wieland Brendel, Jonas Rauber, Matthias Bethge: Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models. ICLR (Poster) 2018
各文字の説明
$o$ : target画像(この画像の敵対的サンプルを出力したい)
攻撃方法
minimal version
\begin{align}
&\text{if}\quad Untargetted Attack:\\
& \text{initialization}: \tilde{o}^0\sim\mathcal{U}(0, 1)\quad s.t.\tilde{o}^0 \text{ is }adversarial\\
&\text{elseif}\quad Targetted Attack:\\
& \text{initialization}: \tilde{o}^0=\text{target image}\\
&\text{while}\quad k<max_{steps}:\\
& \eta_k \leftarrow \mathcal{P}(\tilde{o}^{k-1})\\
& \text{if}\quad \tilde{o}^{k-1}+\eta_k \text{ is }adversarial:\\
& \tilde{o}^k \leftarrow \tilde{o}^{k-1}+\eta_k\\
& \text{else}:\\
& \tilde{o}^k \leftarrow \tilde{o}^{k-1}\\
& k\leftarrow k+1
\end{align}
minimal version から提案手法に近づける
提案手法では $\eta_k \leftarrow \mathcal{P}(\tilde{o}^{k-1})$ の部分を次の操作に置き換えている。
- 各 $i$ に対して $\eta_i^k\sim\mathcal{N}(0, 1)$ として $\eta^k$ を決める。
- $d(o, \tilde{o}^{k-1}+\eta^k)=d(o, \tilde{o}^{k-1})$ を満たすように $\eta^k$ を射影する。すなわち、中心 $o$ , 半径 $d(o, \tilde{o}^{k-1})$ の球面に $\eta^k$ を射影し、改めて $\eta^k$ とする。
また、$\tilde{o}^k \leftarrow \tilde{o}^{k-1}+\eta_k$ の部分を次の操作に置き換えている。
- $\tilde{o}^{k-1}+\eta_k$ を $o$ に向けて少し動かす移動ベクトルを考える。小さい値 $\alpha$ を用いると、この移動ベクトル $\triangle$ は、例えば $\alpha(o-(\tilde{o}^{k-1}+\eta^k))$ とあらわされる。
- $\eta_k\leftarrow \eta_k+\triangle$ とする。
提案手法
\begin{align}
&\text{if}\quad Untargetted Attack:\\
& \text{initialization}: \tilde{o}^0\sim\mathcal{U}(0, 1)\quad s.t.\tilde{o}^0 \text{ is }adversarial\\
&\text{elseif}\quad Targetted Attack:\\
& \text{initialization}: \tilde{o}^0=\text{target image}\\
&\text{while}\quad k<max_{steps}:\\
& \eta_k \leftarrow \mathcal{P}(\tilde{o}^{k-1})\\
& \text{if}\quad \tilde{o}^{k-1}+\eta_k \text{ is }adversarial:\\
& \eta_k \leftarrow \eta_k+\triangle\\
& \tilde{o}^k \leftarrow \tilde{o}^{k-1}+\eta_k\\
& \text{else}:\\
& \tilde{o}^k \leftarrow \tilde{o}^{k-1}\\
& k\leftarrow k+1
\end{align}
実験
以下に示すスコア $S_A(M)$ をもとに評価している。
$S_A(M)=\underset{i}{\text{median}}(\frac{1}{N}||\eta_{A, M}(o_i)||_2^2)$
untargetted attack では
利点
- 画像と予測ラベルが用意できればよい(勾配がいらない)ので、手元にモデルがなくても攻撃できる。
- Boundary Atack は敵対的サンプルの基準によらず柔軟に作用する。
その他
Reference
- Wieland Brendel, Jonas Rauber, Matthias Bethge: Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models. ICLR (Poster) 2018