本文为公司内部分享,摘录在简书。正文如下:
今天由我来给大家做分享,其实也不叫分享,充其量只能算是交流,因为我也是最近一段时间才开始研究语音交互,也没有做过相关的语音设计,所以可能会有说的不对的地方,还望各位同事能够指出,那么现在开始。
大家看到这个标题,首先在大脑中肯定会有一个比较宽泛的认识,知道语音用户界面设计就是人通过语音的方式与机器进行交互,对,确实是这个样子,但是如果继续往下追问,比如:语音识别是一个什么技术?当它收集到用户语音之后到反馈给用户信息,这之间都产生了哪些机器行为?所以这次就让我们全面的认识一下它
那么,语音用户界面是什么呢?
大家先看一下这端对话(描述对话内容)。这短对话大家应该非常熟悉不过了,因为我们经常会听到,这就是目前三大运营商比较常用到的语音导航功能,通过语音的方式引导用户进行按键操作,解放了客服极大的工作量,实现了在任何时候用户都能打通并且说出自己问题的需求,相对提高了用户体验。其实这种系统叫做语音IVR系统,(它是20世纪90年代出现的交互式语音应答……)。这也是最早的语音交互的形式。但是它也存在很多问题,比如:必须通过电话拨号的方式进行操作/只能进行单轮的任务/交互方式独立/在与语音交互的过程中没有机会暂停/这一种交互方式是控制-命令式的等等。。。
介绍完语音IVR系统之后,大家可以看一下这种图,这张图分为三个部分,分别是:GUI视觉界面、VUI语音界面,另一就是介于两者之间的CUI对话式界面。那下面就依次的说一下这几种界面,先看GUI图形视觉界面,这个也是我们目前接触的最多的交互方式,在做的有产品和UI设计师,应该都很了解。这些界面是我们之前运营的一个产品,大家可以看到分别是闪屏页、首页、商城页面、我的页面,这些界面都会起到不同的作用,所以才会存在。但是他们有一种共性就是信息通过屏幕展示,用户使用不同的手势与屏幕进行交互,达到获取信息和处理信息的目的,这也是移动互联网时代主要的交互方式。包括现在,这也是主要的人机交互方式。接下来呢,是CUI对话式界面,大家可能会对这种用户界面比较陌生,但是当大家看到图之后可能就会知道是什么了。这一种就是CUI对话式页面,(CUI其实就是对话型的交互设计……),这种交互多用户客服界面,我在做分享内容的时候,看了好多产品,大多数目前还不支持这种方式,最多也就是用文字进行在线的聊天,当然在线的也是机器人,但是这种方式比较麻烦,不如语音的智能,大家看到的这几个页面分别是天猫和京东的客服界面,大厂就是不一样,用户体验和细节方面做的非常好。个人认为CUI界面是GUI和VUI界面的一个过渡阶段。接下来再来看一下VUI语音界面,这个大家可能就比较熟悉了,因为从去年到现在都非常的火,各个大厂也都在做。比如它,小爱同学;再比如它,小度在家;再比如它,天猫精灵;当然,还有它们,这些都是基于VUI语音用户界面的。这些集成了语音与视觉的智能设备,可以实现多模态的交互,形成对话式的体验,提升了效率。
说了这么多现有的产品,那么为什么行业会这么发展呢?因为现存的技术都会有成熟期和低谷期,大家可以看下这个图。技术成熟度曲线,大家可以看到,这个曲线开始是科技诞生的促动器,接着就迎来了过高期望的峰值,紧接着是泡沫化的低谷期,进而是稳步怕生的光明期,最后是实质生产的高原期。每一个结束都会经历这么一个技术成熟度的曲线的。那语音技术呢?大家看下这个图,这是高纳德公司2015年统计的技术曲线,这个时候自然语音问答技术是处于过高期望值和泡沫化低谷期之间,收到各路资本的追捧,相应的技术产品也在大量的落地,再继续看下一张这是2017年的技术曲线图,重点看下标红的内容,虚拟助理正处在过高期望值的时期。再看下距离我们最近的,2018年的技术曲线,虚拟助手出在过高期望至泡沫期之间,代表着语音技术现在仍处于比较热的时期。这也就说明了为什么现在语音用户界面设计越来越火的原因了。
说了这么多概念,那要进行语音用户界面,我们需要懂哪些技术呢?
接下来就简单的说一下关于语音识别的技术。大家可以看一下这张示意图,左边是用户、右边是语音技术的分解,红色部分是硬件,蓝色部分是软件技术,简单来说就是当用用户对我们的语音设备发出唤醒词指令,这个时候我们的硬件会将收集到用户的语音信息上传,然后通过ASR语音识别识别出用户的内容,通过NLU自然语言理解传到AI算法中进行处理,处理完成后再通过NLG将返回结果进行自然语言生成,再经过TTS语音合成技术读出来,反馈给用户。这就是整个语音交互的过程,可能我说的比较粗,但是如果有喜欢语音技术的可以进一步了解,再次我就不多介绍了。这个是针对ASR和NLU、NLG技术进行的一些结实(语音识别引擎……),可能有些同事在这个地方会有疑问,这里边怎么没有讲到NLP呢?这个词可是经常出现的。继续往下看,NLP是自然语言处理,它的下边包括NLU和NLG两种技术,也就是说他们的总称叫NLP自然语言处理。
介绍完了VUI是什么,有讲了语音识别技术的原理,那么我们身为产品经理或者设计师该如何去设计呢?
这就是接下来的内容,初级阶段如何做好设计
工欲善其事必先利其器,授人以鱼不如授人以渔。我们做事情会讲究工作,做视觉界面的时候我们会用脑图、原型图、流程图的工具,但是做VUI设计需要用哪些工具呢?这些就是做VUI设计的工具,可能比较抽象,我们依次说。
第一, 示例对话。(示例对话是开始VUI设计时最好的方法)写示例对话的时候,用什么软件都可以,主要是为了体现对话的内容和运营方法。
第二, 视觉原型。因为语音用户界面设计属于多模态的交互,线框图和原型在早期设计流程中也是非常重要的,这两种工具可以(结合示例对话,将用户体验可视化,……)
第三, 流程图。(流程图是用于展示你的VUI系统所有可能……)
第四, 原型工作,这里我理解为语音识别的技术平台,例如(来自Conversant……)
介绍玩工具,那我们一起看一下下面这两段示例对话。(读原文)
大家又觉得这两段示例有什么不同,大家想想一下,如果我们用第一段的这种形式跟系统进行交互,会非常类,并且很麻烦,因为每次交互的时候都得需要唤醒,并且系统是单任务的,很多地方不智能;但是如果我们是以第二种的方式与机器进行交互时,就会感觉比较舒服,因为它更贴近人与人之间的对话,用户体验十分好,效率也高。用这个例子引出我们下一个话题,对话式设计。为什么要采用对话式设计呢?(因为人类很少进行单轮对话,因此……)针对对话式界面设计,会有一些基本原则,大家请看图中的这些,分别有确认策略、命令控制模式、对怀表示、持续跟踪上下文等等很多种,因为今天时间的问题,我不能给大家以此讲解,因为内容比较多,我只挑了其中的几个给大家简单的说一下,如果有感兴趣的,可以会后去进一步学习一下。
首先我要说的第一个原则是确认策略。因为它在语音页面设计中比较重要。大家可以看下这一个示例对话(系统:请问您需要预定那个航班吗?……)这短对话中,系统很明确的问了一句“是的,对吗?”这一种确认方式叫做“显性确认”这种经常用在比较重要的地方,例如订票,付款等流程中;在看接下来这一种(用户:世界上最高的山峰是什么?……)当用户问完之后,系统将用户问题的部分内容重复,并且加上了用户想要的答案,这种叫做隐形确认。这两种方式都属于确认策略,目的都是为了再次向用户确认他的命令。不过再实际应用中,系统却可以通过各种不同的方式来实现确认策略。
1、例如这种方法(内容描述),当用户向系统发送语音指令:再买一些纸巾。这个时候有三个不种不同的答复:1、好的……;2、我想您是……;3、对不起……。系统是如何来进行区分的呢?这就需要用到一个叫做置信度的方法了,第一种,置信度大于80%,系统可以给到用户准确的答案。第二种,置信度45-79%之间,这个时候系统采用了显性确认,再次让用户确认一遍。最后一种,置信度小鱼45%,这个时候就直接抛出了异常,告诉用户没有听清楚刚才的指令,需要用户重新下达指令,保证错误率。这种方式很好的保证了用户体验和用户的指令准确性。这种方法叫做三级置信度,通过使用这种方法系统将在一定的阈值内,已明确的形式确认信息,拒绝较低置信度的信息,从而确认用户行为,保证用户体验。
2、再看一下这段示例对话(描述内容)。这段对话中,系统接受了用户下达的指令,并且可以肯定的是置信度为80%以上,系统并没有给用户语音上的反馈,但是却达到了用户的要求。这种方式叫做“非语言式确认”。多用于当用户指令到操作之间没有延迟或者延迟极少的情况下,可以不用给与用户语音反馈,直接达到用户目标即可。
3、紧接着看这一段示例对话,(描述内容)这段对话看起来很稀松平常,就像两个老朋友之间的对话一样,不掺杂任何的任务指令。(这种方式叫做“通用确认”,某些对话中,一般不需要确认用户具体说了什么……)
4、看了好多个示例对话,大家再看下这张图,这是我截的我手机上siri的一个界面,当我唤醒siri后,我问她附近有什么好吃的?这是它给我的答复。列出了我附近很多好吃的地方,并且通过列表的以此展示给了我。大家想象一下,如果siri不是用视觉展示的方式展示给我,而是用语音的方式以此的读给我,那我会是什么感觉?(对于带有屏幕的设备来说,视觉确认也是一种常用的方法。当我想siri问付锦有什么好吃的?她会通过屏幕把我所想要的答案展示出来……)
以上就是确认策略的所有内容,希望大家以后在做产品设计的时候可以运用到这些确认方式。说完确认,再说另外一个比较常见的情况,异常处理。异常处理不只是在语音用户界面中,在我们的视觉界面中也会时常的存在,经常会因为考虑不到反向和异常流程导致出现bug,所以异常处理对产品设计而已十分重要。
1、虽然语音识别技术在过去10年里已经大幅度提升(在一定条件下准确率达宇90%),但这并不足以确保在你的设计中添加语音后能够有良好的体验。这个因素会极大影响VUI的体验。VUI经常出错的情况:1、未检测到语音;2、检测到语音,但没有识别;3、语音被正确识别,但系统无法处理;4、部分语音识别错误。那么针对以上的这些问题,我们应该如何去设计才能规避掉这些问题呢?大家看下下边的这个示例对话。
2、(内容展示阅读),如果我们的产品只有语音交互,用户无法通过屏幕或其他方式与产品进行交互,并且要用户回复后,系统才能继续进行任务。这个时候就必须向用户明确说明。例如:对不起,我什么也没有听懂;我还不会这个技能;我正在学习呢。诸如此类的提示可以告诉用户我目前没有办法满足他的需求,并且可以让交互继续下去,直到用户提出下一个需求为止
3、刚才说的是只是一种情况,还有这种情况(用户可以通过其他方式进行下一步操作……)遇上这种情况,系统最好的处理办法就是“什么也不做”,很明显的例子就是我的小爱同学,当我叫它名字唤醒他的了,但是我什么也不说,或者含糊不清的说一句话,它是不会理我的,很大程度上是不会给我任何的反馈的,就像人与人对话时,当人们没听清另一个人的话时,一定程度也会选择沉默,不去理会。
4、前几种方式用于未检测到语音、检测到语音,但没有识别、语音呗正确识别,单系统无法处理。这一种适用于部分语音识别错误时所作出的反馈。(内容展示阅读)。可见系统将用户的指令识别成了“嗯….把他拍照在三点棒棒”这只是部分内容错误,但是这个时候系统给用户的反馈是抛出了异常,需要用户重新下一遍指令,这么做没有错,毕竟,人们对待机器比对待人的耐心多太多了。对于ASR工具识别错误的问题我们并不能决定什么。但是,(可以通过N-best列表和真是用户响应的数据分析来构建此问题的解决方法……)
初级阶段如何设计就说到这里,当我们掌握了这些基本知识之后,我们该如何进阶呢?
初级如何进阶
进阶的知识也会和基础的知识一样,比较多,例如高级多模态交互、高级自然语言理解、消除歧义等。我也会从中挑一个来与大家进行交流。再次我选了消除歧义这个点来与大家进行交流,大家知道什么是消除歧义吗?接着往下看。
大家看这一段示例对话(内容展示阅读),大家看有什么问题吗?这个问题其实很明显,(在美国有34个……),这就把容易印象到用户的体验了,那么应该如何去设计呢?继续看(内容展示阅读)。人们并不总是能够清楚地表达自己的意思。我们在和其他人交谈时,因为其他人表述问题时缺少足够的信息,所以我们也会常常追问,以确保我们真的理解了对方的意思,这是一种消除歧义的方式。
当用户提供的信息不够时,系统会进一步的追问其他关键信息,那当系统只需要一个信息,而用户提供的信息又不止一条,这个时候需要怎么做呢?
看这个示例对话,(内容展示阅读)因为系统一次只能处理一个症状,当用户说发烧有咳嗽的时候,系统无法一起处理,所以抛出了异常状态。这是十分影响用户体验的。那么我们应该如何改进呢?看下面的示例对话(系统:您的主要症状是什么?……)这个设计中,系统将用户的指令进行区分,先处理一个再去处理一个,没有直接给用户抛出异常,只是通过消除歧义的方式就将用户体验提升了。那对对于多模态的交互时,也会出现这种问题,如图。这是我跟siri的一段对话,我语音给它发送指令,想通过siri给默认发送一条短信,siri消除歧义后视觉展示的方式让我进行选择为谁发送短信。但是这么做我还是觉得不够好,我认为系统应该自动消除歧义,家庭电话是无法进行发短信息的,所以这个时候直接给手机号发送短信即可。这样会更有利于用户体验。
以上的内容就是语音用户界面设计的进阶阶段的内容,我只是选取了一个方法来进行交流。
听了这么多方法和技术,语音技术可以给我带来什么呢?他们是如何改变我们的未来世界的,让我们看两个短片。
1、打开天猫未来酒店
2、拜腾骑车语音交互
最后一页,推荐给我大家这本书,语音用户界面设计,她是美国设计师凯瑟 彼尔写的。建议喜欢语音用户界面设计的你们可以看一下,同时也可以和我多交流,并且希望大家能够将语音的技术应用到我们日后的产品设计中去,打磨好我们的产品,给用户带来更好的体验。
谢谢大家!
郭若川
2019年1月20日 晚八点四十分
PPT连接:https://pan.baidu.com/s/1CTE9o1A8aAB5Twj4F1OGqw
网友评论