美文网首页
CommanderSong: A Systematic Appr

CommanderSong: A Systematic Appr

作者: 没日没夜醉心科研的九天 | 来源:发表于2020-11-25 11:20 被阅读0次

Abstract

        将命令嵌入到歌曲中,使其既能在实际环境中被ASR模型有效识别,又能不被人类感知。而且,这种攻击不仅是可行、实际的,而且还能自动构建。

        提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。

研究涉及的3个问题

        1.是否有可能对ASR系统进行实际的对抗性攻击?尤其是在非常复杂的物理环境中工作,例如来自扬声器的电子噪声、背景噪声等。----提出pdf-id序列匹配算法

        2.生成的对抗样本是否是不易被人感知的?---- 添加一般性的噪声

        3.是否可以自动传播从而扩大影响范围?而不仅仅依赖于攻击者的播放?

Attack algorithm:pdf-id matching algorithm

        总的策略是,首先定位决定最终结果的information(output的子集),通过修改music的output,使其包含command,然后再将其做特征提取和声学模型的逆变换,得到相应的input,即为对抗样本。(反向训练)

        WTA:

                                                \arg \max\limits_{\delta(t)} ||g(x(t) + \delta(t))-b||_1,其中\delta(t)\leq l

        WAA:

                                                        \arg \max\limits_{\mu (t)} ||g(x(t) + \mu(t)+n(t))-b||_1,

                                                                      n(t)=rand(t), |n(t)|\leq N

                n(t)是随机噪声。

Attack Algorithm

Evaluation

        WTA & WAA(Kaldi);

        歌曲中隐藏的命令的效果;

        可移植性(其他ASR平台);

        生成的时间效率。

Dataset

        26各种类型的歌曲 + 12个常见命令

Experiment Results

    1.Effectiveness

            WTA

                        直接将歌曲输入到系统

                        12个命令分别注入到26首歌中,输入到Kaldi,能成功检测出命令就成功。

                        Table 2:100%成功率;信噪比14~18.6db,扰动很轻微,难以察觉。

Effectiveness--WTA

            WAA

                        3种扬声器在会议室分别播放,用iphone 6s 录制并传给Kaldi

                        两个命令,播放后录制传给Kaldi。

                        Table 3:JBL成功率最高,音质最好;但是SNR均为2db以下,说明随机噪声较大。需要测试人类是否能感知(Table 4)。

Effectiveness--WAA

            人类感知测试

                        204人、26个对抗性歌曲(20s,中间4、5s的命令),给出no,

                        not sure,noisy和words different from lyrics四个选项。

                        WTA:(Table 4)Soft表现最好(但是否也有听得少的原因?);没有任何命令被听出来。

WTA--人类感知测试

                        WAA:(Table 5)40%左右的人认为噪声来自扬声器,仅有2.2%认为是来自样本本身,不到1%的人认为有部分单词不是原本歌曲里的歌词。但是没有人能成功地识别出任何一个命令单词。

WAA--人类感知测试

      2.可移植性

                CommanderSong是否能攻击其他ASR系统

            科大讯飞

                        测试WAA(黑盒)

                        iFLYREC:直接输入WAA语音文件;iFLYTEK Input:播放

                        Airplane mode on成功率较低,另外两个100%,总体还可以。(或许可以扩展?)

可移植性--科大讯飞

            DeepSpeech

                        开源端到端ASR系统。

                        WAA & WTA全部失败,不能被DeepSpeech成功解码。

                        Carlini等人曾经攻击DeepSpeech成功,因此利用他们的方法对生成的对抗歌曲进行修改直至能被DeepSpeech成功识别,再攻击Kaldi,WTA成功。无法实施WAA。

      3.Automated Spreading(WAA)

                Online sharing:上传到YouTube,连接到扬声器播放,iFLYTEK Input接收,最远距离0.5m。成功解码。

                Radio broadcasting:用HackPF One模拟radio,“open the door”可以成功攻击。

      4.Efficiency

                命令语句的帧长度与注入用时的比值。

                Table 2 &Table 3:大部分用时少于2小时;一些简单命令“echo open the door”不到半小时;对于“GPS”和“airplane”用时较长,猜测是由于Kaldi不常用,训练不到位;对于rock music,用时一般会更久,由于不稳定的节奏。

Understanding the attacks

      1.歌曲是如何帮助攻击的?

                歌曲和纯粹的扰动共同构成了目标命令的音素(phoneme)。

      2.噪声对对抗样本的影响?

                使用不同大小的噪声构造CommanderSong,然后使用Spearman’s rank correlation coefficient来分别衡量CommanderSong和原始音乐、纯粹的命令音频之间的差异性及攻击成功率。

噪声对对抗样本的影响

                随着SNR的增大(噪声减少),成功率降低;

                随着SNR的增大(噪声减少),与原始音乐的相似度也越高;

                SNR=4dB是一个比较好的值。

Defends

      1.Audio turbulence

                对input添加turbulence noise,command为“open the door”。

Audio turbulence

                SNR = AI/An,AI是原始音频,An是turbulence噪音。当SNR减少的时候,WTA成功率显著下降,当SNR=15dB时,WTA几乎完全失败。而WAA面对turbulence时鲁棒性高,可能是因为有随机噪声存在。

      2.Audio squeezing

                即降低输入音频的采样率。

Audio squeezing

                M代表原始音频的采样率是测试音频的M倍。

Conclusion

        提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。

文章出处:CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition

相关文章

网友评论

      本文标题:CommanderSong: A Systematic Appr

      本文链接:https://www.haomeiwen.com/subject/ebngiktx.html