arXiv 2020.2
https://github.com/ cmu-enyac/Renofeation
基于预训练模型的微调方法容易受到对抗示例的攻击(源于预训练模型和finetuning模型的相似性),经过随机初始化训练的模型对此类攻击的鲁棒性更高,尽管这类模型在测试集上的准确率较低,因此本文提出noisy feature distillation,在随机初始化的情况下训练网络,同时通过finetuning获得干净的数据性能,其对于对抗攻击的鲁棒性可与随机初始化数据训练的模型相媲美。
Transfer learning
问题定义,Eq.(1):
优化目标是神经网络除开最后一层全连接层参数之外的网络参数,表示预训练模型除开最后一层全连接层之外的模型参数。表示正则化项,代表样本数量,训练数据以及标签。。
Linear Classifier:
只通过更新来最小化损失函数,为常数,被初始化为。意即将预训练模型当做特征提取器,只更新全连接层。
Fine-tuning:
通过更新来最小化损失函数,为常数,被初始化为,意即更新整个预训练网络。
L2SP:
通过更新来最小化损失函数,被初始化为,意即更新整个预训练网络,同时尽可能保持权重不变。
正则化项DELTA:
通过更新来最小化损失函数,被初始化为
正则化项K代表除开最后一层全连接层的层数,表示第层激活的输出分量数,用于评估第层激活。意即更新整个预训练网络,同时尽可能保持每层输出激活值不变。
Re-training:
随机初始化网络参数,一般作为Baseline。
一般的对抗攻击,敌人可以获得网络模型结构和参数,但是不能获得训练数据。
attack定义:
对抗攻击目标K是倒数第二层,是目标向量,表示为一个常数乘以one-hot向量,目的是找到一个足够小的抖动使得倒数第二层的激活值在某一个神经元很大,但是其他的为零,该过程用projected gradient descent(PGD)优化,如下图。
adversarial attack评价网络对抗鲁棒性的指标:
攻击成功率ASR:
评价指标实验发现,transferd model和pretrained model之间的权重L2距离(L2SP)和特征图之间的L2距离(DELTA)越大,ASR越大。
几种transfer learning的效果对比
效果对比最简单的想法是结合Retraining和DELTA,同时保持两者的优点DELTA_R
右边是对抗攻击ASR,左边是clean data accuracy
DELTA-R但是DELTA_R相对于Retraining而言ASR还是很高,尽管clean data accuracy没有多少损失。
加入正则化可以提高模型的鲁棒性,Dropout(Spatial-dropout drops chan- nels randomly during training)和Stochastic Weight Averaging (SWA)(average numerous local optima to form the final solution)
Re-training with noisy feature distillation(Renofeation)
It re-initializes the network weights and trains them with feature distillation and both dropout and SWA. Both dropout and SWA are used to alleviate over-fitting the features to the pre-trained model and improve robustness, hence the name noisy feature distillation.
Renofeation结果:
Renofeation与ADV training相比:
与对抗训练对比
网友评论