Abstract
对speaker做对抗攻击,相当于生成了一个defended speaker,使其听觉上不易区分,但是能有效防止其被VC滥用。(本文的基调是defend)
第一次尝试对VC进行对抗攻击,提出了三种攻击方法:end-to-end、embedding、feedback,取得了较好的效果。
本文使用的VC模型
Encoder-decoder。Encoder包含content和speaker,我们只关心speaker,不关心content。
Encoder-decoder对抗攻击
端到端、embedding攻击、反馈攻击
1.End-to-end:
把decoder的输出F作为攻击目标,实施无目标攻击。目标函数:
objective function--untargetded若是给定特定说话人y实施目标攻击,则目标函数为:尽可能与y接近,与x远离。
objective function--targetded为了有效限制/delta,使用tanh:。
2.Embedding攻击
Es将语句嵌入到vector中。同一个speaker的vector会紧密聚簇,而不同speaker会分散。
直接改变speaker的embedding,从而改变decoder的输出F。
Embedding攻击3.Feedback攻击
将decoder的输出F作为Es的输入,targeted攻击:
Feedback攻击Experiment Settings
One-shot VC(Chou et al)& AUTO VC都能实施zero-shot 说话人未知的语音转换,且不需要调整。
Results
用性别分类器来对转换语音进行辨别。若性别改变,则说明speaker的性质更改地很明显或其声音得到较好的保护。
Objective实验设计
从VCTK随机挑选100人(50男,50女),以defended speaker相反性别的speaker为目标,在对抗样本、转换语音(对抗样本的输出)、合法输出进行性别分类。同时在Chou和AUTO VC上进行。
白盒攻击结果
对抗输入与原始音频很接近,说明imperceptible;但是对抗输出效果很明显,说明effective。
白盒攻击黑盒攻击结果
1.仅针对Chou的模型,更改 ᵋ的大小。当其为0.1的时候,效果最好,既不易察觉,又能有效攻击。
黑盒--Chou2.仅针对AUTO VC,embedding攻击。效果也不错(其他两种效果不太行)。
黑盒--AUTO VC总的来说,embedding攻击是最有效的,不仅同时适用于两个VC模型,攻击效果好,用时短。Feedback在AUTO VC上效果不太好,而且由于要多经历一次encoder-decoder,用时太久;end-to-end可能是频谱之间的距离与speaker性别之间的距离并不总是平行,效果也不太行。
Subjective实验设计
选择embedding攻击的AUTO VC,黑盒+白盒。测试者被给出语音pair:原始语音+对抗输入/对抗输出/原始输出,判断是否是同一语音。
测试结果
至少44%~58%的对抗输入都保持着原speaker的性质,而至少58%~88%的对卡个输出都明显改变speaker的性质。说明效果依然不错。
Subjective文章出处:Defending Your Voice: Adversarial Attack on Voice Conversion
submitted to Interspeech 2020
网友评论