作者:骆天翔 年级:研0级
【嵌牛导读】:Facebook的使命是让世界更加开放和互联,让每个人都能以自己偏好的语言享受视频和博文,语言翻译的速度和准确度就显得很重要。近日,该公司FIAR团队推出了一项研究成果:使用一种全新的卷积神经网络(CNN)进行语言翻译,结果以9倍于以往循环神经网络(RNN)的速度实现了目前最高准确率。
【嵌牛鼻子】:在让世界更加开放和互联的使命的推动下,Fcebook提出全新卷积神经网络进行语言翻译,准确度超越谷歌而且速度还要快九倍。
【嵌牛提问】:在当前循环神经网络(RNN)已经当仁不让地成为了语言翻译的最佳选择,为什么要采用CNN呢?它有什么潜在优势呢?
【嵌牛正文】:
几十年前,最初由Yann LeCun开发的CNN已经成功用于多个机器学习领域,比如图像处理。而对于文本应用来说,RNN的高精准度,已经当仁不让地成为了被广泛采用的技术和语言翻译的最佳选择。在语言翻译任务上,RNN胜过CNN,但其内在设计却是有局限性的。对于计算机的翻译流程是:阅读某种语言句子,然后预测在另一种语言中相同含义的词语排列顺序。而RNN运行则严格遵照从左到右或者从右到左的顺序,一次处理一个单词。这一运行方式并不天然地契合驱动现代机器学习系统的高度并行的GPU硬件。由于每个单词必须等到网络处理完前一个单词,因此计算并不是完全并行的。对比之下,CNN能够同时计算所有元素,充分利用了GPU的并行,计算也因此更高效。而且,CNN以分层的方式处理信息,因此,捕捉数据中的复杂关系也更容易些。在之前的研究中,被用于翻译任务的CNN的表现并不比RNN出色。然而,鉴于CNN架构潜力,FAIR开始研究将CNN用于翻译,结果发现了一种翻译模型设计,该设计能够让CNN的翻译效果和计算效率更加出色,而且CNN还有望扩大翻译规模,将世界上6500多种语言纳入翻译范围。
该系统在由机器翻译协会(WMT)提供的广泛使用的公共基准数据集上达到了新的最佳效果。特别是,CNN模型在WMT2014英语-法语任务上超过了之前最佳结果1.5BLEU,而在英语-德语任务上提高了0.5BLEU,在WMT2016英语-罗马尼亚语上提高了1.8BLEU。在实际应用中,FAIR CNN模型在计算上十分高效,要比RNN系统快九倍左右。许多研究聚焦于量化权重或浓缩等方面来加速神经网络,而他们同样可以被用于该CNN模型,甚至提速的效果还要大些,表现出了显著的未来潜力。
在该模型架构中,一个明显不同的组件就是多跳注意(multi-hop attention)和门控(gating)来改善翻译效果。多跳注意机制就像人类翻译句子时分解句子结构,反复[回瞥(glimpse)]句子,选择接下来翻译哪个单词。该网络可以让神经网络多次[回瞥],以生成更好的翻译效果。另一方面,该系统使用门控(gating)控制了神经网络中的信息流,在每一个神经网络中,其门控机制将具体控制哪种信息应该传递到下一个神经元中,以便产生一个优良的翻译效果。例如,当预测下一个单词时,神经网络会考虑迄今为为止完成的翻译。而门控允许放大翻译中一个特定的方面或取得广义的概览,这一切都取决于神经网络在当前语境中认为哪个是适当。
在文本应用开发方面,CNN这种机器翻译架构也为其他文本处理任务开启了新的大门。例如,在对话系统中的多跳注意(multi-hop attention)可以让神经网络关注到对话中距离较远的部分,然后将它们联系到一起以便更好的对复杂问题作出响应。
网友评论