以下文章来源于海上技客 ,作者Nini
当前,字节跳动正探索语音本地化。2021年10月,一篇名为《神经配音:根据脚本为无声视频配音》的论文探讨了通过机器合成的人类语言是否可以具备“专业配音演员的配音能力”。
![](https://img.haomeiwen.com/i27544227/39dea4d4f5cd76e2.png)
作者写道:“配音演员能够充分利用韵律进行配音,如重音、语调和节奏,这样一来,他们的配音与预先录制的视频就能达到同步。”说到自动视频配音(AVD),合成语音需要与脚本和唇动保持一致。
语音合成(TTS)与自动视频配音都是为了生成可理解的语音,但只靠语音合成不足以达成目标,因为语音合成只使用文本作为输入,不太可能与视频完全同步。
![](https://img.haomeiwen.com/i27544227/dfe8ea181a92078d.png)
另一方面,神经配音使用基于图像的扬声器嵌入模块,允许它产生与扬声器面部特征(例如性别、年龄)一致的语音。
作者说,自动视频配音最具挑战性的部分是对齐原始视频中的视频帧和音素。神经配音员的文本视频对齐器允许同步语音以适当的速度和情绪与视频中的唇动相结合。
![](https://img.haomeiwen.com/i27544227/d7e2d8b5da03c265.png)
接着,作者更明确地证明了神经配音器能够根据输入的面部图像控制音色。研究人员为12名男性和12名女性各挑选了10张图像,每张图像中的细节略有不同(例如头部姿势、光照、妆容等)。首先使用一个预先设定好的语音编码器,将音频对应的讲话者嵌入可视化,从语音编码器中导出音频中的语音特征。
结果显示,由同一讲话者的图像生成的语料形成了一个密集的集群,而代表每位讲话者的集群是相互分离的。此外,不同性别讲话者的面部图像合成的语音之间存在明显差异(如下图所示)。结论便是,神经配音器可以利用面部图像来改变生成的语音的音色。
![](https://img.haomeiwen.com/i27544227/4eb234fd224c668b.png)
字节跳动旗下火山翻译产品经理刘坚在同济大学讲座中表示,现阶段影视行业寻找相似音色的配音员存在一定难度,而字节跳动通过外语音色模拟、肖像风格迁移,已经能够实现输出后的译后视频保留人物的音色特征,且口型与目标语言匹配,营造出自然的影片效果。
神经配音器无疑与上述音色模拟、口型修正等功能密切相关,无论是在技术界还是影视界,其发展意义重大。相信通过多方向探索,神经配音器将得以完善,自动配音或将成为现实。
名词对照:
TikTok: 抖音
ByteDance: 字节跳动
Neural Dubber: 神经配音器
Automatic video dubbing (AVD): 自动视频配音
Text-to-speech (TTS): 语音合成技术
注:本文采用MT+PE模式,原文地址请阅读原文
作者 | Seyma Albarino
机翻引擎 | Google Translate
译后编辑 | 王雨宁
撰稿排版 | 王雨宁
责任编辑 | 孔德
转载编辑:陈雨
关注VX公众号“语言服务行业”与“翻译技术教育与研究“,了解更多语言服务行业与翻译技术相关的资讯和洞察~
网友评论