@article{xiao2018generating,
title={Generating Adversarial Examples with Adversarial Networks},
author={Xiao, Chaowei and Li, Bo and Zhu, Junyan and He, Warren and Liu, Mingyan and Song, Dawn},
journal={arXiv: Cryptography and Security},
year={2018}}
概
本文利用GAN生成adversarial samples.
主要内容
其中是生成器,
是用于判别真假的判别器, 二者都是需要训练的, 而
是已知的我们需要攻击的模型(在white-box下是不需要训练的).
训练判别器很普通的GAN是类似的, 即最大化下式:
训练生成器, 除了, 还需要
其中是我们所需要的攻击目标(注意这里通过对
的一些额外的选择, 是可以用到untargeted attack的).
显然(3)是保证摄动不要太大.
所以训练生成器是最小化
black-box 拓展
该方法可以拓展到black-box上, 假设是目标网络, 其结构和训练数据都是未知的, 此时我们构建一个替代网络
用于逼近
. 利用交替训练, 更新生成器
和
.
- 固定
, 更新
:
初始化参数为
, 则
- 固定
, 更新
: 初始化
的参数为
, 则
其中表示交叉熵损失.
网友评论