新一代的计算机声音必须足够人性化,才能够与人交流,但又不能太人性化,以至于我们觉得自己在被骗,做到这点可不容易。
为什么让计算机像人类一样说话如此之难?当我们的机器第一次开始对我们说话时,它使用的是儿童的简单语言。其中一些声音甚至是为孩子们设计的,我的“手持儿童计算机”是一个有把手的盒子和一个小小的绿色屏幕,它以刺耳的声音测试着我的技能,但有时我仍然在梦中听到那个声音。磁带上播放的特迪·鲁克斯宾的话弹到了他的背上,但他的嘴却动得恰到好处,这让他觉得自己几乎还活着。至少对一个孩子来说是这样。
然而,对于成年人来说,20世纪80年代、90年代早期那些笨重的电脑声音根本不是真实的。当火车的声音宣布下一站是切斯特港时,我们用了两个词而不是“波尔切斯特”。我们知道:那是一台机器。它不可能知道,我们纽约人把这个地方念成一个词,而不是两个。很简单:一个听起来像人的声音就是一个人; 一个听起来像机器的声音就是机器。
为什么让计算机像人类一样说话如此之难?当我们所需要的只是一些基本的、简短的声明时,这是可以接受的。但是,如果火车着火了,我们本能地都想听到有人的声音来指引我们,不仅仅是因为它能让我们平静下来。这是因为,正如研究表明的那样,机械的声音对我们来说很难理解任何比一个短句更长的东西。我们已经进化到在倾听我们的人类同胞时阅读非语言的声音线索,当他们不在的时候,我们就会分心,正是这种声音分心让计算机难以理解。
为什么让计算机像人类一样说话如此之难?如果我们要用谷歌Assistant取代助手(或我们自己),或者如果我们希望与未来的Alexa进行真正的对话,它必须像人一样进行对话,对语言线索作出响应,并遵循人类对话的节奏、音乐和通常随心所欲的流程。换句话说,要想真正对我们有用,我们需要电脑来模仿人类的声音,这点是非常困难的。
什么阻碍了交流? 韵律、语调、音调、重音和节奏赋予我们的声音独特的印记。不是我们说什么,而是我们怎么说。巴塞罗那庞培法布拉大学(Pompeu Fabra University)传播系教授艾玛•罗德罗(Emma Rodero)表示:“人类声音的秘密在于旋律。” 罗德里奥对非人类的声音进行了广泛的研究,他说,除了我们使用的实际语言之外,还有很多东西在进行,要把这些都教给电脑是很困难的。
为什么让计算机像人类一样说话如此之难?我们现在听到的是被操纵着的人类声音,由创造这些声音的人为我们选择; 只能弗兰肯斯坦。
语调是四种品质的组合:语调(最重要的)、语速、强度和响度。当我说话的时候,我可以把它们组合起来。Rodero说,她和语音工程师一起工作过,给他们提供了一系列与情绪相关的语调,包括喜悦、悲伤,以及介于两者之间的一切。
但作为一台机器,存在固有的局限性。它们只能吐出我们输入的东西,而我们每个人在无数方面都是独一无二的。当你快乐的时候,你有很多方法可以用你的声音来表达这种快乐。问题是我们不能把它输入电脑,”Rodero说。“这对工程师来说是个问题:算法是无限的,但我的声音是有限的。”
为什么让计算机像人类一样说话如此之难?科技公司通过选择一个有很多个性的人的声音输入他们的人工智能,已经解决了其中的一些问题从一开始,它就把它们组合在一起,形成新的组合,形成语言。当为IBM的辩手(一种用于辩论人类的人工智能)选择声音时,该公司举行了一次试镜,并选择了20名声优。IBM团队通过主观判断选出了获胜者,他们问自己更喜欢哪种辩论风格的声音:“我被感动了吗?” 他或她说服我了吗? 他们有足够的说服力和激情吗? IBM的Andy Aaron说,他曾参与项目辩论。
这只是创建“辩手声音”的开始:“我们(从我们的声优那里)收集了大约15万个单词,相当于录制了20个小时的演讲,”IBM项目辩手罗恩•胡雷(Ron Hooray)说。“一组标签制作人员必须花费大量时间根据单词的重音进行标注,然后进行大量分析。” 然后我们把它们分成音素,对于每一个音素,我们都有很多元数据,音高是高是低,持续时间等。我们必须提取语调,然后我们不得不做很多手工校正。Hooray说,他们还运用深度学习来让韵律正确,或者至少接近韵律。
为什么让计算机像人类一样说话如此之难?亚马逊非常关注Alexa的韵律,还花时间寻找“能够反映Alexa个性的合适声音,聪明、谦逊、乐于助人,”亚马逊Alexa演讲总监马诺吉·辛德瓦尼(Manoj Sindhwani)说。但这种声音会因亚马逊所谓的“地区”而有所不同。Alexa现在能说六种语言,它的编程反映了14种本地化的体验。
“我们选择一个新的声音吸引我们的客户在这个语言环境,确保声音反映了Alexa角色有建筑语言理解、帮助她理解语义和上下文,可能不同的地区,发展当地的“个性”,惊喜和愉悦客户,“Sindhwani说。目标不仅仅是一个听起来很自然的声音,而是很多声音,每个声音都与它服务的特定人群相匹配。
因此,我们现在和不久的将来所听到的都是人为操纵的人类声音,它们是由创造它们的人为我们选择的:只有声音的弗兰肯斯坦,主要局限于重复你的购物清单。
Alexa的声音也被编程成可以感知上下文的,它可以根据不同的设置发出不同的声音。Sindhwani说:“我们利用上下文使Alexa的决策更聪明……甚至超越了识别和理解单词。” 这种根据上下文改变说话风格的能力(请听下面的例子)很重要。我们如何与父亲、在演讲中或与老板交谈自然会有所不同。一个真正聪明的声音也应该这么做。亚马逊的团队离我们越来越近了:Alexa甚至可以理解别人什么时候在对它耳语,而且还会小声回应。
随着这些声音越来越好,重要的是系统不能欺骗你。你得给监听器一个信号,告诉它是个机器人。
为什么让计算机像人类一样说话如此之难?在虚假的声音与真实的声音激烈竞争之前,我们仍处于这一边缘。科技公司喧嚣的混搭仍然相对容易被认为是虚假的。(这是一种有趣的方式来测试你的“它是人类吗?”的耳朵。) IBM的项目辩手,以经典的辩论风格进行辩论非常聪明只能进行辩论。Alexa尽其所能回应一般的对话,但当它超越了亚马逊所谓的“技能”时就会失败。同样,谷歌Assistant也会响应“actions”。在这两种情况下,学习如何与机器对话都是人类的责任。
尽管如此,专家们认为,对于所有这些复杂的问题,我们离能够与人类对话的计算机只有几个突破。实现这一目标将解决许多技术问题,但也会带来同样多的法律和伦理问题。当谷歌去年首次展示其新的双工技术时,这是一个了不起的时刻:谷歌助理的声音在它打电话时显得非常自然,并按照要求预约沙龙和预订晚餐,这两项任务经过深入培训后可以开展,观众很高兴,并吓坏了。
为什么让计算机像人类一样说话如此之难?
研究科技对社会影响的北卡罗来纳大学教堂山分校教授泽内普图费克奇(Zeynep Tufekci)在Twitter上称其“具有欺骗性”,“显然是错误的” 。电话那头忙碌的工作人员似乎根本不知道他们在和一台机器说话,她并不是唯一一个对此感到不安的人,这是一个潜在的滥用时机成熟的突破。
谷歌表示,它将“在设计这一功能时内置信息披露功能,我们将确保该系统得到适当识别”。在其最早期的版本中(称为选择餐厅进行预定),它似乎就是这么做的。IBM的Andy Aaron认为这是积极的一步。“随着这些声音越来越好,重要的是系统不会欺骗你,”他说。为了让声音听起来像人一样,“你需要给听众一个信号,告诉他们这是一个机器人。”
网友评论