不同语言之间的语音转文字和翻译,是近年来机器学习领域的热门研究方向。
一般语音翻译的过程可以分解成三个步骤:
1、语音识别。将语音内容进行分析识别,再用文字的形式表达出来。
2、文字翻译。将步骤1中拿到的文字,翻译成目标语种的文字。
3、语音合成。将目标语种的文字,组合成一段语音,然后播放出来。
而谷歌AI最新的语音翻译模型Translatotron ,则是完全颠覆了这个过程。
谷歌的Translatotron模型,是基于注意力机制(Attention)的神经网络,实现端到端的语音翻译。
在翻译的过程中省略了中间步骤,根据翻译内容,尝试匹配不同语言的语音频谱图(speech spectrogram),直接完成语音之间的转换。
从目前的情况来看,在准确率方面,Translatotron 模型还比不过传统翻译技术,但这种端到端的翻译思路打破了主流语音翻译技术的基本原理,具有很强的启发性和拓展性。
目前谷歌只使用了西班牙语和英语语音作为概念验证,随着研究的深入,将会不断拓展。
网友评论