美文网首页
CommanderSong: A Systematic Appr

CommanderSong: A Systematic Appr

作者: 没日没夜醉心科研的九天 | 来源:发表于2020-11-25 11:20 被阅读0次

    Abstract

            将命令嵌入到歌曲中,使其既能在实际环境中被ASR模型有效识别,又能不被人类感知。而且,这种攻击不仅是可行、实际的,而且还能自动构建。

            提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。

    研究涉及的3个问题

            1.是否有可能对ASR系统进行实际的对抗性攻击?尤其是在非常复杂的物理环境中工作,例如来自扬声器的电子噪声、背景噪声等。----提出pdf-id序列匹配算法

            2.生成的对抗样本是否是不易被人感知的?---- 添加一般性的噪声

            3.是否可以自动传播从而扩大影响范围?而不仅仅依赖于攻击者的播放?

    Attack algorithm:pdf-id matching algorithm

            总的策略是,首先定位决定最终结果的information(output的子集),通过修改music的output,使其包含command,然后再将其做特征提取和声学模型的逆变换,得到相应的input,即为对抗样本。(反向训练)

            WTA:

                                                    \arg \max\limits_{\delta(t)} ||g(x(t) + \delta(t))-b||_1,其中\delta(t)\leq l

            WAA:

                                                            \arg \max\limits_{\mu (t)} ||g(x(t) + \mu(t)+n(t))-b||_1,

                                                                          n(t)=rand(t), |n(t)|\leq N

                    n(t)是随机噪声。

    Attack Algorithm

    Evaluation

            WTA & WAA(Kaldi);

            歌曲中隐藏的命令的效果;

            可移植性(其他ASR平台);

            生成的时间效率。

    Dataset

            26各种类型的歌曲 + 12个常见命令

    Experiment Results

        1.Effectiveness

                WTA

                            直接将歌曲输入到系统

                            12个命令分别注入到26首歌中,输入到Kaldi,能成功检测出命令就成功。

                            Table 2:100%成功率;信噪比14~18.6db,扰动很轻微,难以察觉。

    Effectiveness--WTA

                WAA

                            3种扬声器在会议室分别播放,用iphone 6s 录制并传给Kaldi

                            两个命令,播放后录制传给Kaldi。

                            Table 3:JBL成功率最高,音质最好;但是SNR均为2db以下,说明随机噪声较大。需要测试人类是否能感知(Table 4)。

    Effectiveness--WAA

                人类感知测试

                            204人、26个对抗性歌曲(20s,中间4、5s的命令),给出no,

                            not sure,noisy和words different from lyrics四个选项。

                            WTA:(Table 4)Soft表现最好(但是否也有听得少的原因?);没有任何命令被听出来。

    WTA--人类感知测试

                            WAA:(Table 5)40%左右的人认为噪声来自扬声器,仅有2.2%认为是来自样本本身,不到1%的人认为有部分单词不是原本歌曲里的歌词。但是没有人能成功地识别出任何一个命令单词。

    WAA--人类感知测试

          2.可移植性

                    CommanderSong是否能攻击其他ASR系统

                科大讯飞

                            测试WAA(黑盒)

                            iFLYREC:直接输入WAA语音文件;iFLYTEK Input:播放

                            Airplane mode on成功率较低,另外两个100%,总体还可以。(或许可以扩展?)

    可移植性--科大讯飞

                DeepSpeech

                            开源端到端ASR系统。

                            WAA & WTA全部失败,不能被DeepSpeech成功解码。

                            Carlini等人曾经攻击DeepSpeech成功,因此利用他们的方法对生成的对抗歌曲进行修改直至能被DeepSpeech成功识别,再攻击Kaldi,WTA成功。无法实施WAA。

          3.Automated Spreading(WAA)

                    Online sharing:上传到YouTube,连接到扬声器播放,iFLYTEK Input接收,最远距离0.5m。成功解码。

                    Radio broadcasting:用HackPF One模拟radio,“open the door”可以成功攻击。

          4.Efficiency

                    命令语句的帧长度与注入用时的比值。

                    Table 2 &Table 3:大部分用时少于2小时;一些简单命令“echo open the door”不到半小时;对于“GPS”和“airplane”用时较长,猜测是由于Kaldi不常用,训练不到位;对于rock music,用时一般会更久,由于不稳定的节奏。

    Understanding the attacks

          1.歌曲是如何帮助攻击的?

                    歌曲和纯粹的扰动共同构成了目标命令的音素(phoneme)。

          2.噪声对对抗样本的影响?

                    使用不同大小的噪声构造CommanderSong,然后使用Spearman’s rank correlation coefficient来分别衡量CommanderSong和原始音乐、纯粹的命令音频之间的差异性及攻击成功率。

    噪声对对抗样本的影响

                    随着SNR的增大(噪声减少),成功率降低;

                    随着SNR的增大(噪声减少),与原始音乐的相似度也越高;

                    SNR=4dB是一个比较好的值。

    Defends

          1.Audio turbulence

                    对input添加turbulence noise,command为“open the door”。

    Audio turbulence

                    SNR = AI/An,AI是原始音频,An是turbulence噪音。当SNR减少的时候,WTA成功率显著下降,当SNR=15dB时,WTA几乎完全失败。而WAA面对turbulence时鲁棒性高,可能是因为有随机噪声存在。

          2.Audio squeezing

                    即降低输入音频的采样率。

    Audio squeezing

                    M代表原始音频的采样率是测试音频的M倍。

    Conclusion

            提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。

    文章出处:CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition

    相关文章

      网友评论

          本文标题:CommanderSong: A Systematic Appr

          本文链接:https://www.haomeiwen.com/subject/ebngiktx.html