Hierarchical Adversarial Robustness
Improving Hierarchical Adversarial Robustness of Deep Neural Networks [Ma+, arXiv20]
Huawei Intern で書かれた論文.
2021/2/17 [arXiv]
簡単のため, 以下のような略語を使用する.
- AE: Adversarial Examples
- AA: Adversarial Attack
- clean: AAを受けていない自然画像
- AT: Adversarial Training
- AR: Adversarial Robustness
- BN: Batch Normalization
概要
自動運転システムが歩行者を車と誤認した場合, 車をバスと誤認した場合よりも遥かに危険. 粗いクラスで騙すような hierarchical adversarial examples とその生成手法, Hierarchical Adversarially Robust (HAR) という防御手法の提案.
経験則
untargeted attackは粗いラベル内での移動が見られる. 下の表は (粗いラベルで AA 失敗) / (細かいラベルで AA 成功).
Worst-case targeted PGD attack
元のラベルが含まれていないような粗いラベルの集合に対して, target attack (PGD) を行う.
HAR Network
粗い分類を行う分類器 ] と細かい分類を行う分類器 , ] によって構成される. と は別々に訓練される. 最終的な予測は ].
実験設定
データセット
モデル
パラメータ数で差がつかないようにあえて HAR の各ネットワークの表現力を落としている.
- CIFAR100, CIFAR-100-5x5
- バニラモデルは ResNet50
- HAR の各ネットワークは ResNet10
- CIFAR10
- バニラモデルは ResNet34
- HAR の各ネットワークは ResNet10
訓練設定
- 200 epoch. 学習率は0.1, 100, 150 epoch で x 0.1.
- batch size 128
- SGD, momentum 0.9, weight decay 2e-4.
普通のネットワークの訓練設定
- 普通
- ADV: 10-untargeted-PGD の AT
- ADV-T: 10-random-targeted-PGD の AT. 粗いクラスが違うところからランダムに選ばれる.
- TRADES. 正則化項に関して探索を行い, AR が最も良かったものを使う. それ以外の設定は ADV-hCEと同じ.
- ADV-hCE: hCE の 10-untargeted-PGD. Hierarchical CE = . は の合計値.
attack
- 基本は l-inf, supple に l2
- PGD の step size は
- worst-case targeted attack では test set から 1000 個ランダムに選択した.
実験
普通の PGD
- 普通のPGDでは細かいクラスでの移動が見られる.
- ADV-T を用いて学習した通常のモデルは ADV と比較して, 階層的頑健性が向上している.
- ADV-hCE は階層的頑健性において標準的な ADV を上回らない (のでここに結果として載せていない).
worst-case targeted attack
- 普通の PGD では影響のないクラスへの移動しか行われないが, worst-case targeted attack は粗いクラスの正解率を下げる.
- ADV-T による階層的頑健性の向上はより強力な階層的攻撃に対しては有効でない
- 8/255以上では ADV 訓練されたモデルは ADV-T より優れている.
- ADV した HAR は階層的頑健性を大幅に向上させる.
- TRADES では PGD200 で通常のモデルと比較して0.1%の精度向上.
corse network への攻撃
- 下の表は HAR の corse network に対して target PGD 8/255 をしたもの. 比較のために, untargeted attack と HAR 全体の結果も載せている.
- corse network を使用して生成された摂動は HAR 全体を使用して生成されたものと比較して弱い攻撃である
Appendix
TRADES の詳しい設定
CIFAR10, ResNet10に対する結果. 今回の実験では他の全てのデータセットに対して を使用した.
L2 の結果
CIFAR10, CIFAR100-5x5 の結果
ADV-hCE の結果
ADV-hCEで使用する PGD は hCE に基づいて生成されるので, これを用いて学習したモデルは hCE で生成された untargeted-PGDに対して HAR が向上する. しかしこのような HAR の向上はより強力な worst-case targeted attack に対しては維持されない.
ICLR21での評価
- 重要な問題設定だが, 実験の方法論にいくつか疑問がある.
- 標準的な状況設定で階層的な分類を扱うためのアプローチ (学習損失とアーキテクチャの両方) は多数存在しているので, それらを AR に適応させる術も考えられるべきである.
- 適切なベースラインや徹底したロバスト性評価を提供していない.
なおこれらの指摘を受けて, その後この論文は改訂されている.