技术前沿
本文作者:萝卜兔
2016年,号称“废片拯救器”的Prisma横空出世,风靡全球。用Prisma将自己的图片进行各种风格转化,手指点一点,就能享受一把艺术大家的瘾,受到来自世界各地人民的追捧,包括俄罗斯总理梅德韦杰夫。这款软件的背后,是计算机视觉算法上的突破,一种图片风格转换的方法——neural art。
时隔两年,又是一个夏天,FaceBook实现了语音版的Neural art,即可以将音乐转换为其他乐器、风格或者流派,比如将莫扎特的交响乐转换成贝多芬的钢琴演奏风格。当然,听到这里不禁有人会多想,能不能把陈奕迅的单曲转换成周杰伦唱的?答案是:不能。
虽然音乐是第一个被数据化和应用算法来处理的领域,但是AI在自然语言以及语音方面的发展还很有限,FaceBook的这项工作也仅仅是在一些经典交响乐,钢琴曲等纯音乐范围内。
下面是公布的音频,大家可以欣赏一下:
脸书的研究员认为:“该项成果表现出了其非凡的能力,模型把一种乐器演奏的音乐转换为另一种乐器演奏的效果,可以说和专业的音乐家相差无几。大部分时候,人们很难分辨哪一个是原始音频,哪一个是AI模拟的。”而该任务的实现离不开最近两项技术的突破,一是可以使用自回归模型合成高质量的音频,二是最近出现的以无监督方式在域之间进行转换的方法。
下面来看看该成果的实现技术:
该技术采用了Wavenet的auto-encoder (AE)架构,类似于Google Magenta的Nsynth项目中使用的架构。Wavenet是处理原始音频,基于先前生成的音频样本预测下一音频样本的自回归模型。
1. 来自Nsynth的Wavenet自动编码器模型
关于Wavenet请参考Deepmind论文:
https://arxiv.org/pdf/1609.03499.pdf
以及关于该论文的解读视频
Facebook修改了上图中自动编码器以适应域传输的目的,其中一个通用编码器是将来自不同域的音频压缩成域不变的音频数据,K个解码器用于在每个域 I 中生成音频,其中I=1、2、3....k
2. Facebook论文中应用的模型
如何为所有域创建通用编码器呢?他们使用的技巧是用AE和Domain Classification Network(DCN)进行对抗训练,如图2所示。训练DCN对输入的原始域进行分类,并通过增加AE的损失对抗项,用AE与DCN之间的竞争迫使AE学习如何放弃一些域信息并将输入压缩成Domain-invariant的潜在表示。
DCN和AE是一个竞争的关系,DCN对原始域进行分类,目的是尽可能提取出各种音乐风格比较通用的特征,这样会丢弃掉原始音乐风格的很多信息,而AE则是要最大限度的保留各种音乐原本的特征,尽可能减小信息损失。两者对抗,找到一个平衡,使AE既丢弃了一些信息,又保留了原本的音乐特征。
来看一下对抗损失,设j是来自Domain j=1、2…..k,k是在训练中采用域的数目。假设E是共享编码器,并且Dj是用于Domain j 的WaveNet解码器。假设C是域分类网络,并且O(s,r)是应用于具有随机种子r(音调移位以防止过拟合)的样本s的随机增强过程。L(o,y)是交叉熵损失。
公式1表示该模型的对抗损失,第一项是Reconstruction Loss,第二项是Domain Classification Loss。我们让Reconstruction Loss较小,Domain Classification Loss较大。这就是对抗训练突出的地方,使这种模式成为可能。
公式1 自动编码器模型的损失
上面只是一些概述性的总结,更多的细节大家可以去看看论文。对抗训练的方法使用很普遍,也可以尝试使用在其他研究领域上。站在巨人的肩膀上,谁都可能成为下一个巨人。对该项研究感兴趣的话,可以沿着此路继续探索,去完成更加高级的任务,比如音乐的转录和利用AI来进行作曲,或者发现它更加别致的用途。
参考链接
论文地址:https://arxiv.org/pdf/1805.07848.pdf
论文解读:
https://medium.com/@bryanw/paper-reading-a-universal-music-translation-network-from-facebook-ai-rearch-754b4d645baa
网友评论