字节在玩儿上真不是盖的，柯南般的AI变声技术已实现

作者: 机智客 | 来源:发表于2022-08-05 18:54 被阅读0次

虽然从我个人感觉上，字节的产品不管是早期头条还是现在抖音，从来都是推荐算法、投其所好、娱乐至上、沉迷哲学，不过有一说一，它的AI研发团队的确有实力，在和音视频有关的“玩儿”的视听等领域，真不是盖的。机智客虽然贵为门外汉，但也不知天高地厚稍微关注过国外权威技术平台、开源技术平台或者国内人工智能相关科技类的媒体报道，平台时而有关于字节的公开发表的论文成果，媒体时常有字节的AI进展公布。

此次带来的AI技术进展是新一代的实时AI变声技术。一说这个，你可能会第一想到的是名侦探柯南漫画里主角专用的工具：变声领结。没错，就是那个意思。可以实时将你的声音变成另外一个人的声音。

新一代的AI变声技术，采用了当前流行的深度学习技术的声音转换来实现。而谈到深度学习技术，不免让人觉得考验硬件显卡的时候到了。未必，字节是谁，能玩得如此嗨，还允许有这个问题？所以这个新技术方案的亮点之一就是可以在单CPU上做到低延迟、高还原的实时变声。高还原是啥？是情感细节、口音特点、抑扬顿挫的情绪表达，甚至还有呼吸、咳嗽声。看给出的测试效果，还是可以的。

看资料显示，声音转换的模型也由声学模型（acoustic model）和声码器（vocoder）组成。当然，如果我们学过这些，或者你玩过GitHub上的一些项目，就会了解这些基本的知识。具体的技术实现就不介绍了，反正看了也等于没看。而且看的这个是科技媒体的报道，和部分字节的其他技术项目一样，并没有发布在GitHub等平台。所以报道的这个只是给出了demo，以及商业应用的体验链接，并没有开源或纯技术之类的项目仓库。

可能吧，也正因为字节在所谓的“玩儿”的领域玩得开，所以诞生的这个AI变声的新技术，我们首先容易想象到的，更多更常见的应用场景就是，现在的短视频玩法、直播玩法，当然还会应用于未来的元宇宙、虚拟人等各种技术。

网友评论

本文标题：字节在玩儿上真不是盖的，柯南般的AI变声技术已实现

本文链接：https://www.haomeiwen.com/subject/wmgpwrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

字节在玩儿上真不是盖的，柯南般的AI变声技术已实现

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读