研究生第一个学期,课程压力极大,导致学术研究停滞不前。最近正式开始学习对抗攻击的相关内容,以后会不定期更新对抗攻击相关论文的阅读笔记。如有问题,欢迎大家在下方留言。
论文题目:Intriguing properties of neural networks
论文地址:https://arxiv.org/pdf/1312.6199.pdf
代码地址:待更
- 神经网络中携带语义信息的不是某单个神经元,而是整个网络所表示的空间。
- 给样本添加一些轻微的扰动,会导致神经网络模型错误分类,这些样本就称为对抗样本。
我们重点关注涉及对抗样本的第二个性质。神经网络为什么会有对抗样本呢?作者有两个基本的假设:
- it is assumed that is possible for the output unit to assign nonsignificant (and, presumably, non-epsilon) probabilities to regions of the input space that contain no training examples in their vicinity.
- The adversarial examples represent low-probability (high-dimensional) “pockets” in the manifold, which are hard to efficiently find by simply randomly sampling the input around a given example.
第一个假设认为没有训练过的样本分布在输入空间附近(对抗样本与输入图像十分接近),第二个假设认为对抗样本的产生是低概率事件。据此我们可以推断,由于对抗样本是低概率事件,在训练集和测试集中都很少,而模型恰好只学到非对抗样本的特征,所以当模型遇到与输入图像看起来“无异”的对抗样本时就会表现得非常脆弱。这其实有点“过拟合”的味道。
那么,作者们如何产生对抗样本的呢?
寻找对抗样本是一个逐步优化的过程:一方面,我们需要确保添加的扰动尽可能小,以致肉眼无法察觉;另一方面,需要确保模型把对抗样本分类错误。基于此,作者给出了如下的目标函数:
直接解这个问题不容易,因此作者转换了一种思路,从损失函数的角度找最优的r:
简单看看损失函数:一方面我们需要r的某种范式越小越好,另一方面我们希望loss(x+r, l)越小越好,因为这样表明x+r分类成类别l的概率越大。所以我们的目标是最小化上述公式,用到的方法是box-constrained L-BFGS.
对抗样本有趣的现象
- 对于论文中提到的所有网络结构(non-convolutional network, AlexNet, QuocNet),都能用上述方法生成对抗样本;
- 对抗样本具有跨模型的泛化能力:在A模型上产生的对抗样本,有很大一部分在B模型(和A模型结构相同,超参数不同)上也有效(也能是B模型错误分类);
- 对抗样本具有跨数据集的泛化能力:在D1数据集训练得到的模型上产生的对抗样本,在D2数据集训练得到的模型上也有效,D1和D2属于不同的子集,两个模型是结构完全不同的模型。
参考
- Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
- Paper | 读 Intriguing Properties of Neural Networks
- 论文阅读笔记:Intriguing properties of neural networks
- github博客, 论文阅读笔记:Intriguing properties of neural networks
- 关于Intriguing properties of neural networks的理解
- Box-constrained L-BFGS 相关知识拓展
网友评论