@article{madry2017towards,
title={Towards Deep Learning Models Resistant to Adversarial Attacks.},
author={Madry, Aleksander and Makelov, Aleksandar and Schmidt, Ludwig and Tsipras, Dimitris and Vladu, Adrian},
journal={arXiv: Machine Learning},
year={2017}}
概
利用特定的方法产生"坏"样本(Adversarial samples), 以此来促进网络的稳定性是当下的热点之一, 本文以实验为主, 比较PGD( projected gradient descent) 和 FGSM(fast gradient sign method)在不同数据下的表现, 以及由普通样本产生"坏"样本会出现的一些现象.
主要内容
Adversarial attacks 主要聚焦于下列问题:
其中是我们指定的摄动集合, 直接一点就是之类.
通过FGSM产生"坏"样本:
这个思想是很直接的(从线性感知器谈起, 具体看here).
PGD的思路是, 给定摄动集, 比如小于某个常数的摄动(e.g. ), 多次迭代寻找合适的adversarial samples:
其中表示投影算子, 假设,
实际上, 可以分开讨论第个元素, , 只需找到使得
最小即可. 此时有显示解为:
简而言之就是一个截断.
重复几次, 至到被判断的类别与初始的不同或者达到最大迭代次数.
Note
- 如果我们训练网络能够免疫PGD的攻击, 那么其也能很大一部分其它的攻击.
- FGSM对抗训练不能提高网络的稳定性(在摄动较大的时候).
- weak models may fail to learn non-trival classfiers.
- 网络越强(参数等程度)训练出来的稳定性越好, 同时可转移(指adversarial samples 在多个网络中被误判)会变差.
网友评论