美文网首页Machine Learning & Recommendation & NLP & DL
2018-10-19 高德地图里的志玲姐姐声音,是真的咩?

2018-10-19 高德地图里的志玲姐姐声音,是真的咩?

作者: 聂磊_Caffery | 来源:发表于2018-10-19 04:47 被阅读168次

2018年1月,一档“创新中国”节目登录荧屏。整档节目配音是通过人工智能技术合成,再现已逝世的原央视著名播音员李易老师的“声音”。


人工智能合成逝者声音,李易原音“再现”_腾讯视频

记得第一次看到这个视频,听到视频里的声音,是不是很神奇?后来请教公司技术大牛,原来这款AI产品背后,是语音合成TTS技术发挥着作用。语音合成TTS(即Text-To-Speech,从文本到语音),是计算机将文本转化为声音朗读出来,它好比人的嘴巴,不过不是真人在说话而已

语音合成TTS离我们生活有多远?很近,TTS其实已经潜移默化的运用到大家的生活场景,比如苹果手机里的智能助手siri,高德地图里的郭德纲/志玲姐姐迷之导航,亦或每天手机里接到的“旁友,香 烟、 外币贷款要伐?”等嘘寒问暖的电话。

TTS作为笔者日常审核业务合同时,常常蹦跶出现的英文单词,自然引起笔者的格外关注,今天就聊聊我对TTS的理解:

一、目前TTS的主流实现方式

第一种,“拼接法”,即从预先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等。为了追求合成语音的连贯性,也常常使用双音子(从一个音素的中央到下一个音素的中央)作为单位。如果使用法律人熟悉的例子,就像咱们国家刑法里有款“变造货币罪”,就是将真币采用挖补、剪贴、揭层、拼凑、涂改等方法进行加工处理,改变货币的真实形状增加纸币的数量。虽然也是造假,但底层模子(声音/纸币)还是“真的”,只是拼接成你想要的东西。拼接法的优点是声音真度高,但成本大,活儿累人,比如上面李易老师的声音再现视频。

第二种,“参数法”,基于参数的语音合成系统。它其实是一个文本抽象成语音学特征,再用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成波形( waveform )的过程。核心是个预测问题,有若干统计模型可以解决,目前主流是用神经网络用来预测。然后用声码器 (vocoder) 生成波形,实现特征到 waveform 这最后一步。

这种技术比起第一种“拼接法”,难度提升了不少level。还是拿刑法罪名类比,有些类似“伪造货币”行为,即“仿照货币的形状、色彩、图案等特征,使用各种方法非法制造出外观上足以乱真的假货币”。本质上,基于参数合成的语音根本不是真正人声,但是听上去很像。当然参数法也有明显缺点,因为受制于发声算法,会有音损,一听往往能辨认出是冒牌货。

现在还有第三种,就是由Google的Deepmind研究出的最新成果wavenet,一种原始音频波形深度生成模型,能够模拟任一一种人类声音,最后出来的音质细节十分丰富,基本达到了与原始语音类似的音质水准(所谓语音质量比传统技术提高50%,就是这个意思)。这种技术活儿让我想到了最近热映的《无双》,同样是造假币,主角最后找到原材料,加工合成的底板,与真币已经分不出真假。随着深度学习不断发展,算力和声码器难题的不断解决,未来的TTS语音合成技术也会达到这一地步。

二、AI公司的法务为啥要去了解TTS技术呢?

除了自身好奇以外,对于从事NLP领域的科技公司,TTS技术无疑是产品主线中常常会遇到的技术。无论是采购第三方的TTS技术服务,还是销售自身TTS技术,TTS里的评判标准都会成为验收条款里最重要的组成部分。

TTS的评判标准:

(1)主观测试(自然度),以MOS为主。MOS(Mean Opinion Scores),专家级评测(主观):1-5分,5分最好。ABX,普通用户评测(主观),让用户来试听两个TTS系统,进行对比,看哪个好。每次主观测评应该有区分,比如:这次着重听多音字,下次主要听语气词等。(2)客观测试,对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE、LSD)。对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时崩溃率(crash)等。

三、Wavenet除了生成语言,还能生成什么?

由于WaveNet能够用来模拟任何一种音频信号,尝试用WaveNet生成音乐也将很好玩。比如当我们采用一个古典钢琴曲数据集来训练WaveNet时,它将生成一曲美妙乐章。

WaveNets将为TTS带来无数可能,大体上来讲,有生成音乐和模拟音频两类。事实上,直接运用深度神经网络一个时间步长一个时间步长地生成音乐,这种方法适用于所有16kHZ音频,这将是非常令人惊喜的。

一个”彩蛋“

2016年,索尼的工程师利用Flow Machines软件对13000首流行歌曲进行分析后,由人工智能技术生成出一首新的旋律,然后由作曲家Benoit Carre进行总结并谱曲,他并没有改变这首“新歌”的旋律,而只是负责改造成不同的风格流派。

而第一首人工智能创作的歌曲被命名为“Daddys Car”,经过配乐后颇具披头士的风格。


Daddys Car人工智能写的歌_腾讯视频

至少,我刷新了几遍,已能边听边哼哼了~

相关文章

  • 2018-10-19 高德地图里的志玲姐姐声音,是真的咩?

    2018年1月,一档“创新中国”节目登录荧屏。整档节目配音是通过人工智能技术合成,再现已逝世的原央视著名播音员李易...

  • 张云雷高德打榜

    我看到过身边很多人用高德,还为此说过用高德的人是不是因为志玲姐姐的声音 但是我不喜欢太奇怪的声音,听着好别扭啊,就...

  • 林志玲做试管婴儿,并称要生龙凤胎,这事是真的吗?

    林志玲,曾经是万千男人心目中的女神,在高德地图中,默认的就是林志玲的语音,边开车边听志玲姐姐令人酥麻的语音,何尝不...

  • 不可忽视的职场软技能

    提到高情商、会说话,想到了最近经常上热搜的志玲姐姐,人美心善,是圈内出了名的高情商。 林志玲真的是个说话高手,演《...

  • 《志玲姐姐给小朋友的修养课》

    一直以来,志玲姐姐给我的印象就是人美声音甜、高情商女神。这次有幸拜读《志玲姐姐给小朋友的修养课》一书,甚是喜欢。无...

  • 林志玲嫁小7岁小狼狗,40多岁性感依旧

    一直以来,完美姐姐林志玲的恋情和婚姻都是众人关注的热点,昨天,林志玲在微博上公布结婚,网友大呼要把高德的导航语言换...

  • 志玲姐姐与油腻说

    44岁的志玲姐姐宣布,和比自己小7岁的日本放浪兄弟成员AKIRA结婚了 想想志玲结合娇滴滴的声音、魔鬼般的身材和高...

  • 林志玲家暴辟谣

    “林志玲,你的高情商我不喜欢。”蔡康永曾如此表示。 志玲姐姐的高情商在娱乐圈是颇有口碑的,也就是温柔善良,永远站在...

  • 结婚与年龄无关

    这些天,志玲姐姐结婚的消息铺陈而来。对方是日本人,据报道是枚暖男,勤奋又励志。 因为颜值高,身材爆,志玲姐姐一直是...

  • 志玲姐姐结婚了

    糗事百科说:得知志玲姐姐结婚了,我爸把志玲姐姐语音包换成了郭德纲。 百度热榜,话题:你觉得EXILE-AKIRA ...

网友评论

    本文标题:2018-10-19 高德地图里的志玲姐姐声音,是真的咩?

    本文链接:https://www.haomeiwen.com/subject/jehszftx.html