2018-10-19 高德地图里的志玲姐姐声音，是真的咩？

作者: 聂磊_Caffery | 来源:发表于2018-10-19 04:47 被阅读168次

2018-10-19 高德地图里的志玲姐姐声音，是真的咩？
张云雷高德打榜
林志玲做试管婴儿，并称要生龙凤胎，这事是真的吗？
不可忽视的职场软技能
《志玲姐姐给小朋友的修养课》
林志玲嫁小7岁小狼狗，40多岁性感依旧
志玲姐姐与油腻说
林志玲家暴辟谣
结婚与年龄无关
志玲姐姐结婚了

2018年1月，一档“创新中国”节目登录荧屏。整档节目配音是通过人工智能技术合成，再现已逝世的原央视著名播音员李易老师的“声音”。

人工智能合成逝者声音，李易原音“再现”_腾讯视频

记得第一次看到这个视频，听到视频里的声音，是不是很神奇？后来请教公司技术大牛，原来这款AI产品背后，是语音合成TTS技术发挥着作用。语音合成TTS（即Text-To-Speech，从文本到语音），是计算机将文本转化为声音朗读出来，它好比人的嘴巴，不过不是真人在说话而已。

语音合成TTS离我们生活有多远？很近，TTS其实已经潜移默化的运用到大家的生活场景，比如苹果手机里的智能助手siri，高德地图里的郭德纲/志玲姐姐迷之导航，亦或每天手机里接到的“旁友，~~（香烟、 外币）~~贷款要伐？”等嘘寒问暖的电话。

TTS作为笔者日常审核业务合同时，常常蹦跶出现的英文单词，自然引起笔者的格外关注，今天就聊聊我对TTS的理解：

一、目前TTS的主流实现方式

第一种，“拼接法”，即从预先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等。为了追求合成语音的连贯性，也常常使用双音子（从一个音素的中央到下一个音素的中央）作为单位。如果使用法律人熟悉的例子，就像咱们国家刑法里有款“变造货币罪”，就是将真币采用挖补、剪贴、揭层、拼凑、涂改等方法进行加工处理，改变货币的真实形状增加纸币的数量。虽然也是造假，但底层模子（声音/纸币）还是“真的”，只是拼接成你想要的东西。拼接法的优点是声音真度高，但成本大，活儿累人，比如上面李易老师的声音再现视频。

第二种，“参数法”，基于参数的语音合成系统。它其实是一个文本抽象成语音学特征，再用统计学模型学习出来语音学特征和其声学特征的对应关系后，再从预测出来的声学特征还原成波形（ waveform ）的过程。核心是个预测问题，有若干统计模型可以解决，目前主流是用神经网络用来预测。然后用声码器 (vocoder) 生成波形，实现特征到 waveform 这最后一步。

这种技术比起第一种“拼接法”，难度提升了不少level。还是拿刑法罪名类比，有些类似“伪造货币”行为，即“仿照货币的形状、色彩、图案等特征，使用各种方法非法制造出外观上足以乱真的假货币”。本质上，基于参数合成的语音根本不是真正人声，但是听上去很像。当然参数法也有明显缺点，因为受制于发声算法，会有音损，一听往往能辨认出是冒牌货。

现在还有第三种，就是由Google的Deepmind研究出的最新成果wavenet，一种原始音频波形深度生成模型，能够模拟任一一种人类声音，最后出来的音质细节十分丰富，基本达到了与原始语音类似的音质水准（所谓语音质量比传统技术提高50%，就是这个意思）。这种技术活儿让我想到了最近热映的《无双》，同样是造假币，主角最后找到原材料，加工合成的底板，与真币已经分不出真假。随着深度学习不断发展，算力和声码器难题的不断解决，未来的TTS语音合成技术也会达到这一地步。

二、AI公司的法务为啥要去了解TTS技术呢？

除了自身好奇以外，对于从事NLP领域的科技公司，TTS技术无疑是产品主线中常常会遇到的技术。无论是采购第三方的TTS技术服务，还是销售自身TTS技术，TTS里的评判标准都会成为验收条款里最重要的组成部分。

TTS的评判标准：

（1）主观测试（自然度），以MOS为主。MOS（Mean Opinion Scores），专家级评测（主观）：1-5分，5分最好。ABX，普通用户评测（主观），让用户来试听两个TTS系统，进行对比，看哪个好。每次主观测评应该有区分，比如：这次着重听多音字，下次主要听语气词等。（2）客观测试，对合成系统产生的声学参数进行评估，一般是计算欧式距离等（RMSE、LSD）。对合成系统工程上的测试：实时率（合成耗时/语音时长）、首包响应时间（用户发出请求到用户感知到的第一包到达时间）、内存占用、CPU占用、3*24小时崩溃率（crash）等。