近日,网易有道AI团队一篇名为Breaking the Data Barrier: Towards Robust Speech Translation via Adversarial Stability Training的论文被机器翻译领域的“国际口语翻译研讨会”(IWSLT2019)成功收录。IWSLT是国际上最具影响力的口语机器翻译评测比赛,每年举办一次,至今已经是第15届,大赛吸引全世界顶尖机构参加。除口语翻译比赛任务外,关于口语翻译的学术论文的投稿也是重头戏之一。
有道AI团队此次在IWSLT上发表的论文,主要是针对在语音翻译级联系统中,语音识别模块输出的含噪文本传输给后继的机器翻译模块,导致整个语音翻译系统质量不高的问题,提出一种新的训练架构,通过对抗性学习和数据扩充同时监督机器翻译模块中的编码器和解码器来提升语音翻译的鲁棒性。
目前主流的商用语音翻译系统是通过语音识别模块和机器翻译模块通过级联的方式来实现的。对输入的语音进行语音识别得到文本,然后基于识别后的文本进行机器翻译。在实际应用场景中,由于受到客观因素的影响,如口语的随意性、语序、口音、方言、语气词、重复、噪音环境等等因素的阻碍,语音识别容易出现漏词,重复,同音异形词等错误,这些识别错误会传递给机器翻译系统,而翻译模型通常是在干净的文本组成的平行语料库上进行训练,所以对有噪声的文本表现很差。
那么这个难点如何突破,目前的主流技术路线又有哪些?
目前的解决方案可以归为两类:
一是使用端到端系统直接建模语音到对应翻译文本的过程。这看起来对于解决语音识别错误传播的问题很有希望,但从客观的角度来讲,端到端的系统需要专门的语音到文本再到对应的翻译文本的训练数据,这样的数据是非常稀缺并且难采集的,所以想要实现商用是非常难的。
另一种方法是在级联的语音翻译系统中训练机器翻译模块时添加人工噪声。通过模拟语音识别可能产生的错误在机器翻译训练数据的输入文本上删除、添加、修改某些词,使得机器翻译的输入数据比较接近语音识别的文本风格。但由于语言和语音本身的复杂性,人工添加噪声的方法在实际应用过程中带来的提升有限,效果也不是特别理想。
而有道AI团队提出了一种训练结构能同时利用上语音识别和机器翻译的训练数据,不需要显式的将这两种数据连接起来。该方法可以分为两步:第一步处理语音识别训练数据,使用一个已经训练好的语音识别模块识别音频得到识别文本,然后对识别文本进行重新断句,并以句子的形式对齐到对应的转录文本句子。第二步,使用转录文本作为识别文本的监督信号,联合机器翻译训练目标来联合训练整个模型,通过对抗性学习和数据扩充同时监督机器翻译模块中的编码器和解码器来提升语音翻译的鲁棒性,具体训练结构见下图:
该方法保留了真实的语音识别输出,而不是模拟的噪音,因此在真实的语音翻译场景下表现更好;同时这种方法不需要语音-转录-翻译的句子对齐语料,可独立利用语音识别和机器翻译的训练数据进行训练,数据收集更容易;论文的方法不仅提升了语音翻译的质量,在输入干净文本进行翻译时质量也没有下降,系统的鲁棒性更好。在IWSLT2018语音翻译任务上的实验验证了该方法的有效性和鲁棒性,为语音翻译系统性能提升提供了一种新的解决思路。
如想查阅完整论文信息,可关注“有道智云平台”回复关键字【论文】,即可获取。
网友评论