この論文([1611.02770] Delving into Transferable Adversarial Examples and Black-box Attacks)のまとめ

概要とイントロ
環境
non-target attackの結果
- accuracy
- RMSDとtransferability
target attackの結果
アンサンブルベースの手法
- 原理1
  - target attack
  - non-target attack
- 原理2
異なるモデルの幾何学的特性
- 異なるモデルの勾配方向
- 決定境界
  - 通常のモデル
  - アンサンブルモデル
Clarifai.comを騙す
補足

概要とイントロ

新規性とかやったこと

本研究では初めて大規模なモデルとデータセット, またtarget attackに関してtransferabilityの研究を行なった。
新たなアンサンブル型のAEs生成手法の提案。
transferabilityに関する幾何学的な説明も試みた。
訓練データセットのImageNetとラベルセットでさえ異なるブラックボックス（Clarifai.com）に対して攻撃を試みた。

結果

私たちはnon-target, target attackどちらも行い、non-target attackはtransferabilityがあるのに対し、target attackはほとんど無いことを発見した。
我々の提案手法はtransferabilityを持ったtarget attackを可能とし、ブラックボックスな画像分類システムであるClarifai.comを攻撃することに成功した。
異なるモデルの勾配方向が互いに直交していることがわかった。また、異なるモデルの決定境界が互いによく整列していることを示し、これはなぜAEsがtransferabilityを持つのか部分的に説明している。
Clarifaiに対してtarget, non-target attackどちらもでAEsを生成することに成功した。

既存研究との関連

FGSMの論文ではtransferabilityは摂動がモデルの重みベクトルと非常に一致していることが原因としている。このMNISTとCIFAR-10を用いて示された仮説がImageNetで学習されたモデルの場合には当てはまらないことを示す。
papernotらの研究([1605.07277] Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples, [1602.02697] Practical Black-Box Attacks against Machine Learning)との関連
- papernotらはモデルとトレーニングプロセスがブラックボックスだったが、トレーニングデータセットは既知であった。我々はデータセットも未知とした。
- papernotらはMNISTやCIFER10などの小規模なデータセットに対して行なった。我々はImageNetのような巨大なデータセットに対して行なった。
- papernotらと違い、ブラックボックスなモデルに攻撃する際に代替モデルを使わない。

環境

攻撃の種類

C&W attack
fast gradient-based approaches
- FGS（普通のFGSM）
- FG（FGSMと違いsign関数ではなく、摂動ベクトルを正規化しています）

モデル

ResNet-50
ResNet-101
ResNet-152
GoogLeNet
VGG-16

データセット

ILSVRC 2012 の評価セットの中から5 つのモデルすべてが正しく分類できる 100 枚の画像を無作為にテストセットとして選択する。

transferabilityの評価基準

accuracy: non-target attackの指標。あるモデルで作成されたAEsを他のモデルに転移させてどれだけ正解するか。低いaccuracyは高いtransferabilityを示す。
matching rate: target attackの指標。あるモデルで作成されたAEsを他のモデルに転移させて同じラベルに騙せるか。高いmatching rateは高いtransferabilityを示す。

AEsの評価基準

RMSD

non-target attackの結果

accuracy

行は生成したモデル、列は評価するモデルである。ただしPanel. BではFGの結果を示している。FGSは比較的悪かったので補足資料に載せている。

かなり上手くいっている。

f:id:kamakuraviel:20200624180844p:plain — 表1. accuracy(non-target)

RMSDとtransferability

VGG16からResNet152へ転移させるFGとFGSを用いて作られた画像のRMSDとそのaccuracyをプロットした図（累積分関数で表示してるのはなぜ？）。RMSDとtransferabilityはトレードオフになっている。

f:id:kamakuraviel:20200624185731p:plain — 図1. RMSDとtransferability

target attackの結果

C&W attackの結果が表2である。transferabilityは弱い。これは摂動を大きくしても, FG, FGSを使っても同じだった。

f:id:kamakuraviel:20200625175555p:plain — 表2. matching rate(target)

アンサンブルベースの手法

原理1

target attackの式は以下の通りである。

$\arg\min_{x^\ast} -\log \left( \sum_i \alpha_i J_i(x^\ast) \right) +\lambda d(x, x^\ast)$

target attack

これを用いるとtarget attackでもtransferabilityが生まれた。各行の「-」はそのモデルをアンサンブルに含んでいないことを表している。

f:id:kamakuraviel:20200624200432p:plain — 表3. 提案手法のtransferability (target)

non-target attack

non-target attackでは以下のような強いtransferabilityが見られた。

f:id:kamakuraviel:20200624200854p:plain — 表4. 提案手法のtransferability (non-target)

原理2

FGS, FGを用いた実験も行なった。結果としては対角線の値がゼロではなく、これは今までに行われたFGとFGSの結果で観察されたのと同じである（すなわちアンサンブルに含まれていないモデルを騙すのは比較的難しい）。私たちはこの結果をアンサンブル内の異なるモデルの勾配方向が互いに直交していることが理由なのではないかと考えている。

異なるモデルの幾何学的特性

異なるモデルの勾配方向

内積より異なるモデルの勾配方向はほぼ直交していると考えられる。

決定境界

通常のモデル

$\delta_1$ はVGG16の勾配方向、 $\delta_2$ はそれに直行するベクトルの中からランダムに選ばれたものである。以下の図は $(u, v)$ 平面であり、各点は $x+u\delta_1+v\delta_2$ を表現している。色は各ラベルを表している。

f:id:kamakuraviel:20200624221144p:plain — 図3. 決定境界

この画像から以下のことがわかる。

全てのモデルにおいて各モデルが画像を正しく予測できる領域は中央部に限られていることがわかる。
勾配の方向に沿って移動するとすぐ他のラベルになる
ResNet系は若干似てる

またこの範囲に現れるクラスの数は以下のようになっている。

f:id:kamakuraviel:20200625015847p:plain — 表5. 図3に現れるクラスの数

どんなに多くても21種類であり、これはFast gradient系のtarget attackが上手くいかない理由を部分的に説明している。

さらに以下の図は決定境界を表したものである。

f:id:kamakuraviel:20200625020439p:plain — 図4. 決定境界（基本的に図3に同じ）

これから以下のことがわかる。

決定境界は互いによく似ている。これはnon-target attackが上手くいく理由を部分的に説明している。
勾配方向に移動する方がランダムに進むより上手くいくことを説明している。
$u$ 軸に沿って移動することは元のクラスの確率を上げる方向だが、ランダムに移動するより早く境界に達する。
VGG16にだけ小さい摂動でAEsとなる領域がある。これは他のモデルで転移が上手くいかないことを説明できるかもしれない。

アンサンブルモデル

同様にResNet101を除くアンサンブルモデルの勾配方向とその直行ベクトルを選ぶ。

f:id:kamakuraviel:20200625144524p:plain — 表5. アンサンブルの決定境界

アンサンブルに含まれるモデルではほぼほぼ決定境界が同じことがわかる。

Clarifai.comを騙す

target, non-targetそれぞれVGG16を用いて100枚、ResNet152を除くアンサンブルモデルを用いて100枚、合計400枚生成した。

結果、non-target attackではほとんど成功した。

またtarget attackではVGG16で57%, アンサンブルで76%が誤分類された（対象となるラベルに予測されたというわけではない）。

さらにアンサンブルを用いて生成されたAEsの18%が対象となるラベルに近いものが予測された（もちろん主観的なものにすぎないが）。これはVGGの2%に比べて大きい。

補足

元論文では他にも多くのデータを紹介している。

他のoptimization-based approach
上の表のtop-5 accuracy
non-target attackにもかかわらず同じクラスが予測される現象
FGSのaccuracy
RMSDとtransferabilityの実験に関する詳しい説明
ランダムノイズを摂動としたときの結果
target attackで摂動を大きくしたときの結果
FGとFGSを用いたtarget attackの結果
内積の結果
決定境界に関する詳しい資料

私の備忘録がないわね...私の...

画像処理とかプログラミングのお話。

AEのtransferabilityについて