虽然从我个人感觉上,字节的产品不管是早期头条还是现在抖音,从来都是推荐算法、投其所好、娱乐至上、沉迷哲学,不过有一说一,它的AI研发团队的确有实力,在和音视频有关的“玩儿”的视听等领域,真不是盖的。机智客虽然贵为门外汉,但也不知天高地厚稍微关注过国外权威技术平台、开源技术平台或者国内人工智能相关科技类的媒体报道,平台时而有关于字节的公开发表的论文成果,媒体时常有字节的AI进展公布。
此次带来的AI技术进展是新一代的实时AI变声技术。一说这个,你可能会第一想到的是名侦探柯南漫画里主角专用的工具:变声领结。没错,就是那个意思。可以实时将你的声音变成另外一个人的声音。
新一代的AI变声技术,采用了当前流行的深度学习技术的声音转换来实现。而谈到深度学习技术,不免让人觉得考验硬件显卡的时候到了。未必,字节是谁,能玩得如此嗨,还允许有这个问题?所以这个新技术方案的亮点之一就是可以在单CPU上做到低延迟、高还原的实时变声。高还原是啥?是情感细节、口音特点、抑扬顿挫的情绪表达,甚至还有呼吸、咳嗽声。看给出的测试效果,还是可以的。
看资料显示,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。当然,如果我们学过这些,或者你玩过GitHub上的一些项目,就会了解这些基本的知识。具体的技术实现就不介绍了,反正看了也等于没看。而且看的这个是科技媒体的报道,和部分字节的其他技术项目一样,并没有发布在GitHub等平台。所以报道的这个只是给出了demo,以及商业应用的体验链接,并没有开源或纯技术之类的项目仓库。
可能吧,也正因为字节在所谓的“玩儿”的领域玩得开,所以诞生的这个AI变声的新技术,我们首先容易想象到的,更多更常见的应用场景就是,现在的短视频玩法、直播玩法,当然还会应用于未来的元宇宙、虚拟人等各种技术。
网友评论