AEのtransferabilityについて
この論文([1611.02770] Delving into Transferable Adversarial Examples and Black-box Attacks)のまとめ
概要とイントロ
新規性とかやったこと
- 本研究では初めて大規模なモデルとデータセット, またtarget attackに関してtransferabilityの研究を行なった。
- 新たなアンサンブル型のAEs生成手法の提案。
- transferabilityに関する幾何学的な説明も試みた。
- 訓練データセットのImageNetとラベルセットでさえ異なるブラックボックス(Clarifai.com)に対して攻撃を試みた。
結果
- 私たちはnon-target, target attackどちらも行い、non-target attackはtransferabilityがあるのに対し、target attackはほとんど無いことを発見した。
- 我々の提案手法はtransferabilityを持ったtarget attackを可能とし、ブラックボックスな画像分類システムであるClarifai.comを攻撃することに成功した。
- 異なるモデルの勾配方向が互いに直交していることがわかった。また、異なるモデルの決定境界が互いによく整列していることを示し、これはなぜAEsがtransferabilityを持つのか部分的に説明している。
- Clarifaiに対してtarget, non-target attackどちらもでAEsを生成することに成功した。
既存研究との関連
- FGSMの論文ではtransferabilityは摂動がモデルの重みベクトルと非常に一致していることが原因としている。このMNISTとCIFAR-10を用いて示された仮説がImageNetで学習されたモデルの場合には当てはまらないことを示す。
- papernotらの研究([1605.07277] Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples, [1602.02697] Practical Black-Box Attacks against Machine Learning)との関連
環境
攻撃の種類
- C&W attack
- fast gradient-based approaches
- FGS(普通のFGSM)
- FG(FGSMと違いsign関数ではなく、摂動ベクトルを正規化しています)
モデル
- ResNet-50
- ResNet-101
- ResNet-152
- GoogLeNet
- VGG-16
データセット
ILSVRC 2012 の評価セットの中から5 つのモデルすべてが正しく分類できる 100 枚の画像を無作為にテストセットとして選択する。
transferabilityの評価基準
- accuracy: non-target attackの指標。あるモデルで作成されたAEsを他のモデルに転移させてどれだけ正解するか。低いaccuracyは高いtransferabilityを示す。
- matching rate: target attackの指標。あるモデルで作成されたAEsを他のモデルに転移させて同じラベルに騙せるか。高いmatching rateは高いtransferabilityを示す。
AEsの評価基準
RMSD
non-target attackの結果
accuracy
行は生成したモデル、列は評価するモデルである。ただしPanel. BではFGの結果を示している。FGSは比較的悪かったので補足資料に載せている。
かなり上手くいっている。
RMSDとtransferability
VGG16からResNet152へ転移させるFGとFGSを用いて作られた画像のRMSDとそのaccuracyをプロットした図(累積分関数で表示してるのはなぜ?)。RMSDとtransferabilityはトレードオフになっている。
target attackの結果
C&W attackの結果が表2である。transferabilityは弱い。これは摂動を大きくしても, FG, FGSを使っても同じだった。
アンサンブルベースの手法
原理1
target attackの式は以下の通りである。
target attack
これを用いるとtarget attackでもtransferabilityが生まれた。各行の「-」はそのモデルをアンサンブルに含んでいないことを表している。
non-target attack
non-target attackでは以下のような強いtransferabilityが見られた。
原理2
FGS, FGを用いた実験も行なった。結果としては対角線の値がゼロではなく、これは今までに行われたFGとFGSの結果で観察されたのと同じである(すなわちアンサンブルに含まれていないモデルを騙すのは比較的難しい)。私たちはこの結果をアンサンブル内の異なるモデルの勾配方向が互いに直交していることが理由なのではないかと考えている。
異なるモデルの幾何学的特性
異なるモデルの勾配方向
内積より異なるモデルの勾配方向はほぼ直交していると考えられる。
決定境界
通常のモデル
はVGG16の勾配方向、はそれに直行するベクトルの中からランダムに選ばれたものである。以下の図は平面であり、各点はを表現している。色は各ラベルを表している。
この画像から以下のことがわかる。
- 全てのモデルにおいて各モデルが画像を正しく予測できる領域は中央部に限られていることがわかる。
- 勾配の方向に沿って移動するとすぐ他のラベルになる
- ResNet系は若干似てる
またこの範囲に現れるクラスの数は以下のようになっている。
どんなに多くても21種類であり、これはFast gradient系のtarget attackが上手くいかない理由を部分的に説明している。
さらに以下の図は決定境界を表したものである。
これから以下のことがわかる。
- 決定境界は互いによく似ている。これはnon-target attackが上手くいく理由を部分的に説明している。
- 勾配方向に移動する方がランダムに進むより上手くいくことを説明している。
- 軸に沿って移動することは元のクラスの確率を上げる方向だが、ランダムに移動するより早く境界に達する。
- VGG16にだけ小さい摂動でAEsとなる領域がある。これは他のモデルで転移が上手くいかないことを説明できるかもしれない。
アンサンブルモデル
同様にResNet101を除くアンサンブルモデルの勾配方向とその直行ベクトルを選ぶ。
アンサンブルに含まれるモデルではほぼほぼ決定境界が同じことがわかる。
Clarifai.comを騙す
target, non-targetそれぞれVGG16を用いて100枚、ResNet152を除くアンサンブルモデルを用いて100枚、合計400枚生成した。
結果、non-target attackではほとんど成功した。
またtarget attackではVGG16で57%, アンサンブルで76%が誤分類された(対象となるラベルに予測されたというわけではない)。
さらにアンサンブルを用いて生成されたAEsの18%が対象となるラベルに近いものが予測された(もちろん主観的なものにすぎないが)。これはVGGの2%に比べて大きい。
補足
元論文では他にも多くのデータを紹介している。
- 他のoptimization-based approach
- 上の表のtop-5 accuracy
- non-target attackにもかかわらず同じクラスが予測される現象
- FGSのaccuracy
- RMSDとtransferabilityの実験に関する詳しい説明
- ランダムノイズを摂動としたときの結果
- target attackで摂動を大きくしたときの結果
- FGとFGSを用いたtarget attackの結果
- 内積の結果
- 決定境界に関する詳しい資料