美文网首页
人工智能+音乐的探索:从洛天依到小冰初窥歌唱合成

人工智能+音乐的探索:从洛天依到小冰初窥歌唱合成

作者: 行者AI | 来源:发表于2020-12-07 14:22 被阅读0次

    歌唱合成技术是将乐谱信息和歌词转换为歌唱语音的技术。相较于语音合成(TTS),歌唱合成有更丰富的输入(音高、音符持续时间),并要求输出的人声更有感情、变化和起伏,技术上更为困难。与语音合成任务类似,歌唱合成是通过综合多人的评价(MOS)[1],来评判合成的歌声效果好坏。

    本文将从以下几个方面进行解读:

    • 研究现状

    • 主流技术框架

    • 趋势与挑战

    1. 研究现状

    歌唱合成文献较少,截至到本稿写完(2020年12月6日),2019和2020两年只有17篇论文是以歌唱合成为主题。另一方面,歌唱合成有着重大的商业价值,微软、腾讯、字节跳动等互联网巨头,早早在歌唱合成中布局。

    歌唱合成主要的技术方法:

    • 基于单元拼接的合成技术

    • 统计参数合成技术

    • 基于深度学习的合成技术

    基于单元拼接的合成技术(unit concatenation)以及统计参数合成(statistical parametric synthesis)作为传统方法,广泛用于虚拟歌姬(洛天依、初音)。但,传统的方法,难以细粒度地刻画声音的变化,与真实的人声仍有差距。随着深度学习的兴起,基于深度学习的合成技术渐渐成熟,生成的歌声更真实,更细腻。

    2. 主流技术框架

    2.1 产品比较

    AI虚拟歌姬/产品 关键技术 产品demo链接
    小冰 Xiaoicesing https://xiaoicesing.github.io/
    艾灵 Durian-sc https://www.bilibili.com/video/BV16C4y1p7tM?p=1&share_medium=iphone&share_plat=ios&share_source=SINA&share_tag=s_i&timestamp=1590728757&unique_k=t3avsg
    洛天依 参数拼接技术 https://v.qq.com/x/page/l0532hidovu.html
    CeVIO HMM合成技术 https://www.bilibili.com/video/BV1Nt411v7qu?t=71
    Synthesizer V 参数拼接+DNN https://zhuanlan.zhihu.com/p/127796408
    bytesinger bytesinger https://bytesings.github.io/paper1.html

    从图表中的视频实际表现来看,小冰和艾灵优于其他歌唱合成产品。下文选择小冰和艾灵相关论文:

    • XiaoiceSing:小冰歌唱合成的主框架

    • HIFISINGER:小冰歌唱合成的升级版

    • Deepsinger:小冰团队提出的另一个歌唱合成系统,亮点是基于低质量数据的训练

    • DURIAN-sc:艾灵歌唱合成的主框架

    2.2 XiaoiceSing [2]

    歌唱合成任务,要求模型把握好每个字唱多长时间(持续时间),同时期的fastspeech模型,正是严格控制持续时间的非自回归语音合成模型,因而学者们提出以fastspeech[3]为骨干网络(backbone)的小冰歌唱合成模型——XiaoiceSing。

    如上图是小冰歌唱合成模型,主要分为encoder 、decoder以及vocoder三部分。(这三部分的具体内容将在下一篇进行介绍)

    模型的前向传播过程为:

    (1) 将乐谱(musical score)的音素(phoneme)、持续时间(duration)以及音高(pitch)分别经过embedding层,并add,得到musical score的embedding

    (2) 将位置编码(position encoding)与musical score的embedding进行add

    (3) 将(2)的输入经过6层transformer层,得到encoder的output

    (4) 用encoder的output经过由CNN、Linear层组成的duration predictor,得到每个音素的持续时间

    (5) 使用每个音素的持续时间,对encoder的output进行repeat操作,得到decoder的input

    (6) 将位置编码(position encoding)与decoder的input进行add

    (7) 将(6)的结果经过6层transformer层,得到decoder的output

    (8) decoder的output经过Linear层,得到world[[4]]
    (#refer1%20)声码器的输入(声学特征):MGC、BAP以及F0,V/UV

    (9) F0与pitch进行ADD,再做log操作,所得结果与V/UV相乘得到最终的F0

    (10) 将MGC、BAP以及F0输入到world声码器中,输出最终的音频

    借助于world声码器,XiaoiceSing可以手动修改歌声的音高,使得XiaoiceSing生成的歌声可控性更高,但world声码器需要三个声学特征向量作为输入,过多的声学特征,使得XiaoiceSing训练困难。

    2.3 HIFISINGER [5]

    相较于语音合成,歌唱合成要求更高的采样频率以保留更多歌声细节。XiaoiceSing以及其他论文,在高保真的采样频率下,合成的歌声总体质量不佳。

    针对上述情况,HIFISINGER延用了XiaoiceSing大体结构,通过改进声学特征的生成,保证在48Hz采样频率下,仍能保持较好的听觉表现。

    相较于小冰(16Hz),HIFISINGER主要将world声码器换成类似mb-melgan[6]的声码器,基于声学特征(mel、v/uv以及F0)生成wav波形。

    HIFISINGER的前向传播过程与XiaoiceSing相同,主要亮点在于,吸收了multi-scale思想,对于需要生成的数据,设计了不同长度的GAN:

    (1) multi-scale思想用到mel频谱的生成,即论文中的sub-frequency GAN

    (2) multi-scale思想用到wav波形的生成,即论文中的multi-length GAN

    另外,HIFISINGER对windows_size、hop_size、f0和V/UV的作用进行对比,可以看作XiaoiceSing的补充介绍。

    相较于XiaoiceSing,HIFISINGER有着更好的合成效果,但却需要额外训练两个GAN网络,引入了更大的资源消耗。

    2.4 Deepsinger [7]

    数据是制约歌唱合成发展的主要因素之一,大多数模型所需的数据要求特别严格,比如需要音素级的标注,需要纯净的人声等。

    Deepsinger的最大亮点在于,可以直接使用质量较低的数据进行歌唱合成。具体方法是从网络上收集歌声数据,通过开源的歌词对齐工具、人声分离工具,将有噪声的音频数据,变成近乎干声的数据。受益于此,deepsinger可以利用更大规模的训练数据,提高了模型效果的上限。

    Deepsinger模型流程为:

    (1) 通过爬虫从互联网上爬取歌曲(音频)和歌词数据

    (2) 根据(1)得到的数据,进行人声分离,得到人声以及歌词

    (3) 对歌词和人声进行对齐,得到音符的持续时间(duration)

    (4) 对数据进行过滤,去除低质量数据,保留高质量数据

    (5) 通过高质量数据,进行歌唱合成

    人声分离和歌词人声对齐目前没有完美的解决方案,使得Deepsinger的数据存在噪声,导致Deepsinger生成的歌声有杂音。

    2.5 DURIAN-sc [8]

    歌唱声音转换(Singing voice conversion)旨在保证歌唱内容的同时,将音色从source speaker转换到 target speaker。

    DURIAN-sc的亮点是只需要target speaker的讲话数据(speech data),就可以学习到target speaker的音色。

    经过实验,DURIAN-sc只要获取target speaker的20秒讲话数据,在合成target speaker嗓音的歌声时,就能取得不错的效果。

    DURIAN-sc的骨干网络是19年腾讯的DURIAN论文。(关于DURIAN,详细可以参考 [11]。)相较于DURIAN,DURIAN-sc加入duration、pitch信息的输入,并将speaker进行embedding,输入到模型中。

    模型的前向传播过程为:

    (1)音素序列(phone sequence)经过embedding层、全连接层(FC),生成隐层表示

    (2)用CBHG网络[9]提取隐层表示的特征

    (3)将(2)的输出,根据音素持续时间(phone duration)进行repeat操作

    (4)提取原始歌声的声学特征(F0、RMSE[10]

    (5)将原始歌声的声学特征与(3)的输出进行concat操作

    (6)提取target speaker的声纹特征,并与(5)的输出进行concat操作

    (7)将(6)的输出经过全连接层,作为encoder的输出

    (8)将encoder的输出经过由全连接层和RNN组成的网络,进行自回归解码

    (9)将(8)的结果经过CBHG网络变换,得到Mel频谱

    (10)Mel频谱经过声码器,得到wav波形

    DURIAN-sc用的是自回归的解码器,如果用到实时歌唱合成上,相对较慢的自回归解码器,可能造成更多的时间消耗。

    3. 趋势与挑战

    通过上一章节,我们了解到歌唱合成的最新方法。基于深度学习的歌唱合成方案,让计算机合成的歌声富有情感,更有起伏。另外,对于高采样率、数据缺失等问题,学术界也做了很多研究。

    3.1 趋势

    本章节对主流技术框架进行概括和整理,得到如下的技术趋势:

    (1) 深度学习方法成为主流:基于统计参数的合成或基于单元拼接的合成模型,生成的歌声机械感过强,基于深度学习的合成模型,可以生成更接近人声的歌声。

    (2) Mel频谱作为音频特征 :相较于world声码器的声学特征,Mel频谱的数据维度更小,更容易被神经网络拟合。

    (3) 非自回归的语言模型成为主流:非自回归与自回归模型生成质量相近,但非自回归模型生成速度更快,能用于实时歌唱合成。

    (4) 基于噪声数据的歌唱合成:歌唱合成所需数据成本过高,极大制约了歌唱合成水平的发展,所以一些研究的关注点,是如何将噪声数据作为训练数据。

    另一方面,歌唱合成作为一个多序列到多序列(multi sequence to multi sequence)的任务,仍然存在很多挑战。

    3.2 挑战

    歌唱合成整个领域错综复杂,可以归为以下几方面挑战:

    (1)昂贵的数据集:歌唱合成要干声数据(没有背景音乐以及噪音的,纯人声),为了保证音高准确,歌唱合成数据必须请专业的歌手,在专业的环境下录制。往往整个数据集造价过百万。

    (2)闭源的模型代码:多数歌唱合成的paper没有开放源码,且对参数没有详细介绍(例如小冰只有5页),学者个人难以复现模型。

    (3)不准确的真人演唱:真人唱歌时,无法像机器一样,每个音素唱的持续时间与乐谱一致,甚至一首歌一个人不同时间唱,也有很大的差异,这导致了歌声数据本身就是不准确的。

    4. 笔者的一些思考

    歌唱合成领域,机遇与挑战并存。通过借鉴语音合成领域的发展,歌唱合成得到了实质性的进步:XiaoiceSing借鉴于fastspeech,DURIAN-sc借鉴于DURIAN。歌唱合成,因虚拟歌姬而为大家熟知,但歌唱合成的相关技术文章较少,鲜有针对整个领域的系统性介绍。究其原因,歌唱合成需要语音合成的知识、信号处理的技术、甚至要求研究人员具备乐理知识。

    初窥几篇歌唱合成论文,笔者提出了各个模型的不足之处,并在实践中对这些不足之处,构思了一些解决方案,由此产生了潜在科技的歌唱合成模型。

    千里之行,始于足下。庞大的歌唱合成领域,难以用一篇博文介绍清楚,本文作为潜在科技歌唱合成系列第一篇,旨在将歌唱合成领域的前沿算法,引入读者视野,并为后续的深入介绍做铺垫。本栏目后续会介绍歌唱合成的入门知识,针对小冰歌唱合成模型进行详细介绍,届时也会对潜在科技的歌唱合成模型,进行简单介绍。

    如有兴趣,可以关注潜在科技,获得第一手资料。

    参考文献

    [1] ITU-T Rec. P.10 (2006) Vocabulary for performance and quality of service.
    [2] Lu, P., Wu, J., Luan, J., Tan, X. and Zhou, L., 2020. XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System. arXiv preprint arXiv:2006.06261.
    [3] Ren, Y., Ruan, Y., Tan, X., Qin, T., Zhao, S., Zhao, Z. and Liu, T.Y., 2019. Fastspeech: Fast, robust and controllable text to speech. In Advances in Neural Information Processing Systems (pp. 3171-3180).
    [4] Morise, M., Yokomori, F. and Ozawa, K., 2016. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE TRANSACTIONS on Information and Systems, 99(7), pp.1877-1884.
    [5] Chen, J., Tan, X., Luan, J., Qin, T. and Liu, T.Y., 2020. HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis. arXiv preprint arXiv:2009.01776.
    [6] Yang G, Yang S, Liu K, Fang P, Chen W, Xie L. Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech. arXiv preprint arXiv:2005.05106. 2020 May 11.
    [7] Ren, Y., Tan, X., Qin, T., Luan, J., Zhao, Z. and Liu, T.Y., 2020, August. Deepsinger: Singing voice synthesis with data mined from the web. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 1979-1989).
    [8] Zhang, L., Yu, C., Lu, H., Weng, C., Zhang, C., Wu, Y., Xie, X., Li, Z. and Yu, D., 2020. Durian-sc: Duration informed attention network based singing voice conversion system. arXiv preprint arXiv:2008.03009.
    [9] Wang, Y., Skerry-Ryan, R.J., Stanton, D., Wu, Y., Weiss, R.J., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z., Bengio, S. and Le, Q., 2017. Tacotron: Towards end-to-end speech synthesis. arXiv preprint arXiv:1703.10135.
    [10] https://en.wikipedia.org/wiki/Root-mean-square_deviation
    [11] https://mp.weixin.qq.com/s/StKx0n7LRH9e5IuTvBIC5A


    我们是行者AI,我们在“AI+游戏”中不断前行。

    如果你也对游戏感兴趣,对AI充满好奇,就快来加入我们吧~

    相关文章

      网友评论

          本文标题:人工智能+音乐的探索:从洛天依到小冰初窥歌唱合成

          本文链接:https://www.haomeiwen.com/subject/dattgktx.html