Hierarchical Adversarial Robustness - 私の備忘録がないわね...私の...

Improving Hierarchical Adversarial Robustness of Deep Neural Networks [Ma+, arXiv20]

Huawei Intern で書かれた論文.

2021/2/17 [arXiv]

簡単のため, 以下のような略語を使用する.

AE: Adversarial Examples
AA: Adversarial Attack
clean: AAを受けていない自然画像
AT: Adversarial Training
AR: Adversarial Robustness
BN: Batch Normalization

概要
経験則
Worst-case targeted PGD attack
HAR Network
実験設定
実験
Appendix
ICLR21での評価

概要

自動運転システムが歩行者を車と誤認した場合, 車をバスと誤認した場合よりも遥かに危険. 粗いクラスで騙すような hierarchical adversarial examples とその生成手法, Hierarchical Adversarially Robust (HAR) という防御手法の提案.

経験則

untargeted attackは粗いラベル内での移動が見られる. 下の表は (粗いラベルで AA 失敗) / (細かいラベルで AA 成功).

f:id:kamakuraviel:20220102201755p:plain

Worst-case targeted PGD attack

元のラベルが含まれていないような粗いラベルの集合に対して, target attack (PGD) を行う.

f:id:kamakuraviel:20220102201913p:plain

HAR Network

粗い分類を行う分類器 $G(x) = [g_1,\ldots,g_c$ ] と細かい分類を行う分類器 $H_1,\ldots,H_c$ , $H_i(x)=[h_1^i,\ldots,h_j^i$ ] によって構成される. $G(x)$ と $H(x)$ は別々に訓練される. 最終的な予測は $[g_1H_1(x),\ldots,g_cH_c(x)$ ].

f:id:kamakuraviel:20220102202042p:plain

実験設定

データセット

f:id:kamakuraviel:20220102184936p:plain

モデル

パラメータ数で差がつかないようにあえて HAR の各ネットワークの表現力を落としている.

CIFAR100, CIFAR-100-5x5
- バニラモデルは ResNet50
- HAR の各ネットワークは ResNet10
CIFAR10
- バニラモデルは ResNet34
- HAR の各ネットワークは ResNet10

訓練設定

200 epoch. 学習率は0.1, 100, 150 epoch で x 0.1.
batch size 128
SGD, momentum 0.9, weight decay 2e-4.

普通のネットワークの訓練設定

普通
ADV: 10-untargeted-PGD の AT
ADV-T: 10-random-targeted-PGD の AT. 粗いクラスが違うところからランダムに選ばれる.
TRADES. 正則化項に関して探索を行い, AR が最も良かったものを使う. それ以外の設定は ADV-hCEと同じ.
ADV-hCE: hCE の 10-untargeted-PGD. Hierarchical CE = $\ell(F(x), y) + \ell(G(x), z)$ . $G(x)$ は $F(x)$ の合計値.

attack

基本は l-inf, supple に l2
PGD の step size は $\epsilon / 4$
worst-case targeted attack では test set から 1000 個ランダムに選択した.

実験

普通の PGD

普通のPGDでは細かいクラスでの移動が見られる.
ADV-T を用いて学習した通常のモデルは ADV と比較して, 階層的頑健性が向上している.
ADV-hCE は階層的頑健性において標準的な ADV を上回らない (のでここに結果として載せていない).

f:id:kamakuraviel:20220102203046p:plain

worst-case targeted attack

普通の PGD では影響のないクラスへの移動しか行われないが, worst-case targeted attack は粗いクラスの正解率を下げる.
ADV-T による階層的頑健性の向上はより強力な階層的攻撃に対しては有効でない
8/255以上では ADV 訓練されたモデルは ADV-T より優れている.
ADV した HAR は階層的頑健性を大幅に向上させる.
TRADES では PGD200 で通常のモデルと比較して0.1%の精度向上.

f:id:kamakuraviel:20220102204222p:plain

corse network への攻撃

下の表は HAR の corse network に対して target PGD 8/255 をしたもの. 比較のために, untargeted attack と HAR 全体の結果も載せている.
corse network を使用して生成された摂動は HAR 全体を使用して生成されたものと比較して弱い攻撃である

f:id:kamakuraviel:20220102215549p:plain

Appendix

TRADES の詳しい設定

CIFAR10, ResNet10に対する結果. 今回の実験では他の全てのデータセットに対して $\beta=9$ を使用した.

f:id:kamakuraviel:20220107220114p:plain

L2 の結果

f:id:kamakuraviel:20220107231506p:plain

f:id:kamakuraviel:20220107231602p:plain

CIFAR10, CIFAR100-5x5 の結果

f:id:kamakuraviel:20220107231845p:plain

ADV-hCE の結果

ADV-hCEで使用する PGD は hCE に基づいて生成されるので, これを用いて学習したモデルは hCE で生成された untargeted-PGDに対して HAR が向上する. しかしこのような HAR の向上はより強力な worst-case targeted attack に対しては維持されない.

f:id:kamakuraviel:20220107232655p:plain