原文作者:Justin Baker
原文地址:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1
笔者结合实际工作中的理解,对文章简要编译如下,供参考。
【补充国内的语音交互理解、国内百度、阿里、小米等平台的相关信息,配合自有资料的部分设计)
Xfinity Remote by Juan C. Angustia
“把闹钟设置为早上7:15
——“好的,正在呼叫 Selma Martin...”
"不是!把闹钟设置为早上7:15.
——“很抱歉。我无法帮助你
sigh(叹气),然后手动设置闹钟
如果你使用过智能语音产品,应该也会有类似的场景。
我们的声音是多种多样的、复杂多变的,语音指令更难以处理 ——真人之间的对话都如此,更何况计算机了。我们的思维方式、文化背景、俚语简称和推理形式等等因素,只要有细微差别都会影响到听着的语意理解。
那么,设计师和工程师要如何应对这一挑战呢?我们应如何培养用户与AI之间的信任?这正是VUI的关键所在。
VUI是指,使用语音来实现人与设备实现交互的界面(语音可以是唯一的交互方式,也可以是对视觉和触觉的补充)。VUI可以是任何东西——听音乐时的氛围灯光到汽车的娱乐控制中心。VUI完全可以没有界面,只依靠听觉、触觉或运动等方式来实现交互。
VUI是指,使用语音来实现人与设备实现交互的界面(语音可以是唯一的交互方式,也可以是对视觉和触觉的补充)。
VUI的形式很多、载体丰富,但都具有相同的UX基础知识。设计师们借助对这些基础知识的理解,从用户视角分析日常语音交互的方式,就可以构建更好的语音交互体验。
Dannniel
语音交互——约束、依赖、用例
当前技术、环境和社会约束对我们如何与世界相处有极大的影响——它们会影响我们处理信息的速度、将数据转化为行动的准确性、彼此交流信息的方式方法。
在开始语音交互设计之前,我们必须对语音交互的环境背景有所了解。
确定设备类型
设备类型直接影响语音交互的模式,限制了语音输入的范围(深度和广度)。
语音交互常见设备类型手机
手机品牌:iPhones、Pixels、Galaxies、华为、小米……
连接方式:蜂窝数据网络、Wi-Fi、蓝牙配对……
使用环境:环境背景对语音交互的重大影响
用户习惯:用户习惯使用语音交互
支持视觉、听觉和触觉反馈的多通道互动模式
各个模式中的交互形式相当标准化
穿戴式设备
特定的用例:如手表、健身手环或智能鞋
连接方式:蜂窝数据网络、Wi-Fi、蓝牙配对……
用户习惯:用户可能习惯使用语音交互,但这种交互在设备上是非标准的
穿戴式设备支持视觉、听觉和触觉方式进行反馈——尽管某些设备是被动式的、可交互性较弱。
用户的交互和数据消费,通常依赖于所连接的设备。
固定式连接设备
设备示例:台式电脑、带屏幕的电器、恒温器、智能家居控制中心、音响系统和电视等等
连接方式:有线网络、Wi-Fi、蓝牙配对……
用户习惯于在同样的位置,保持设备设置不变来进行互动
在不同设备之间使用相似的标准化语音交互方式(如台式计算机与智能家居,如Google Home ;Amazon Alexa与智能恒温器,其交互方式就没明显区别)
安卓TV的VUI演示非固定计算设备(除手机外)
设备示例:笔记本电脑、平板电脑、转发器,汽车信息娱乐系统
连接方式: 无线网络,有线网络(不常见),Wi-Fi,蓝牙配对……
主要的输入方式不是语音
环境背景对语音交互行有重大影响
不同设备间的交互方式通常是非标准化的
创建用例矩阵
语音交互的主要、次要和第三用例是什么?该设备是否有主要用例(如健身追踪器)?或者它有多个用例组合(如智能手机)?
创建用例矩阵非常重要,它将帮助你确定用户与设备发生交互的原因。他们的主要交互模式是什么?什么是次要的?什么样的交互模式是好的,什么是必不可少的?
ACME语音交互用例示意您可以为每种交互模式创建用例矩阵。应用于语音交互时,矩阵将帮助您了解用户当前使用或想要使用的语音交互方式——包括他们使用语音助手的位置:
语音助手使用场所对交互模式排序
如果想要使用用户研究来丰富你对用例的理解(使用情况或原始量子/质量研究),那么借助你的研究来对各语音交互模式进行排序就非常重要了。
如果有人告诉你:“如果我可以和电视对话,并让它切换频道,那简直太酷了!” 那么你真的需要深入挖掘:他们真的会用吗?他们已经知道设备的限制吗?他们真的了解自己倾向于使用的功能吗?
作为设计师,你必须比你的用户更懂他们。
你必须质疑用户使用特定交互模式的可能性,因为他们有其他的替代方案。
举个例子,假设我们正在评估用户是否会使用语音命令与电视进行交互。这种情况下,最安全的假设是用户有很多选择——而语音交互只是其中一种。
用户可以有很多的备选方案:远程控制、配对的智能手机,游戏控制器或已连接的物联网设备。所以说,语音交互未必会是默认的交互方式,而只是众多方式的一种。
此时我们的问题就变成了:用户将语音交互作为最主要交互方式的可能性有多大?如果不是主要交互方式,它会是次要方式吗?抑或者是第三次药方式?这会让你的假设得到更深入的验证。
列举技术限制
将我们的语言转化为行动是一项极其困难的技术挑战。通过无数的时间、连接和训练,调整良好的计算引擎模型能够很好地识别我们地语音并触发相应的操作。
不幸的是,我们还无法实现完全无缝的连接、时间也是有限的。我们希望语音交互与传统视觉或触觉这样的替代方案一样直接——即使语音引擎的处理和预测模型需要更为复杂。
下图展示了语音识别的流程:
AMI Voice Engine如图可见,许多模型都需要不断训练才能完成对我们的词汇、口音、声调等等要素的识别。
Automatic Speech Recognition每个语音识别平台都有其独特的技术特征和限制。我们在设计语音交互产品时,必须接受这些约束。
主要的约束有以下几类:
连接级别:设备是否能始终联网
加工速度:用户的语音是否被实时处理?
加工进度:在精准度和速度上,如何平衡才好?
语音模型:我们目前模型训练得有多好?我们能够处理整段的长句、还是智能识别简短的单词?
后备选择:如果语音无法识别,有什么后备方案?用户是否可以使用其他交互方式?
错误代价:用户指令被错误处理时会导致不可逆转的后果吗?我们的语音识别引擎是否足够成熟,能够有效避免严重错误的发生?
环境测试:语音引擎是否在多种不同的环境中测试过?例如,做汽车信息娱乐系统所处的环境,就比家里的智能恒温器有更多的干扰因素。
非线性
我们还应考虑用户能够以非线性的方式与设备交互。例如,如果我要在网站上预定机票,就必须遵循网站设定好的预定流程,选择或者输入网站要求的信息:选择目的地、选择日期、选择门票数量、查看选项……
而VUI面临着更大的挑战。用户可以说“我想订飞往旧金山的商务舱”,然后VUI就必须从用户的这句话中提取相关信息,以便利用现有的API完成航班预定。整个逻辑的顺序是被打乱的,VUI有责任从用户这里提取到更多的相关信息——方式可能是语音的、视觉的、或者自动获取设备位置信息、个人账户等等。
针对用户的个性化问题,我们用什么策略获取预定所需的信息?语音输入体验设计
现在我们已经了解了VUI设计所面临的约束、依赖和用例。现在让我们开始深入探讨实际的VUI设计吧。
我们首先要探讨的是,设备是如何知道,应该在什么时候去倾听用户?
下图展示了语音交互体验的基本流程:
语音交互的基本流程在界面上的展现示例如下:
Garvey Smith触发器
The Wirecutter
Google Assistant
有四种语音输入的触发器:
语音触发器: 用户将发出特定的短语,提示设备开始处理语音(“Ok Google”)
触觉触发器:按下按钮(物理或数字)或切换控件(例如麦克风图标)
动作触发器:在传感器前挥舞手臂等
设备自触发:通过预先设定的条件(指定时间、地点,任务提醒或其他触发条件)来触发设备的响应
设计师必须了解,哪些触发器与你的用例相关;并对各类触发器与你用例的相关性进行排序。
引导线索
通常,在触发设备侦听之时,会有听觉、视觉或触觉提示。这些提示应遵循以下可用性原则:
即时反馈:触发后,应该尽快呈现引导线索,即使这可能会中断当前的操作(只要这种中断不具有破坏性)。
精确简短:引导提示应该是瞬间完成的,特别是常见的设备。例如,两个肯定的哔哔声比“OK Justin,需要我给你做什么?”要好。引导提示越长,用户的话就越可能与设备提示相冲突。这个原则也适用于视觉线索,屏幕应立即转变为聆听状态。
清晰的开始:用户应确切地知道他们的声音是什么时候开始被录制的。
一致性:引导线索应始终相同。声音或视觉反馈的不一致,会让用户感到困惑。
可识别:引导线索应该与设备正常的声音和视觉效果有所不同,绝不应该在任何其他环境中使用或重复出现。
补充提示:如有可能,请利用多种方式来呈现提示(如同时出现:两声哔哔声,一次灯光闪烁、一次屏幕对话)。
首用提示:对于第一次使用的用户、或用户似乎遇到卡住了,你可以提供首用提示/建议来引导对话继续下去。
iPhone Siri反馈体验
反馈对于成功的VUI至关重要,它让用户明确知道自己的话被设备提取和处理,还允许用户采取纠正措施或继续对话。
Samborek Cortana以下是提供良好VUI反馈体验的可用性原则:
实时响应式的视觉反馈:视觉反馈在手机这样的原生的语音设备最为常见。视觉上都可以实时地改变颜色或模式来传达出声音的认知反馈——音高、音色、音强和持续时间。
声音反馈:以简短的音频播放来给予反馈
实时文本:跟随用户的说话,在屏幕上实时显示出来
输出文本:用户说完后呈现文本,供用户转换和修改。这可以在执行用户指令之前提供一道纠正机会。
灯光等非屏幕视觉提示:前面提到的响应式视觉效果不仅限于设备屏幕,也可以有LED灯或灯光模式。
结束提示
结束提示告知用户,设备此时已经不再侦听用户的声音了。很多主要提示的原则同样适用(如即时性、简短、清晰、一致性和差异性),但依然有一些额外的设计原则:
充足的时间:确保用户有足够的时间下达指令
自适应时间 :分配的响应时间要与用例和用户预期相适应。例如,当用户被问到“是否式”的问题时,就应在问题最后一个音节播放后,提供合理的暂停。
合理的暂停:自上次录音完成之后,经过了合理的时间了吗?这涉及到比较复杂的计算,但也受上下文的用例影响。
会话用户体验
像“打开我的闹钟”这样的简单命令不一定需要冗长的对话,但更复杂的命令却需要。与传统的人-人对话不同,人-智能设备之间需要额外的确认、冗余和纠正(严格来讲,这些在人-人对话中依然存在,只是几率小、不会有明确的设定)。
更复杂的命令、或多轮对话通常需要多论的语音/选项验证来确保对话的准确性。当用户并不确定应该如何发出指令时,问句会变得更为复杂。解密用户消息并引导用户提供更多的上下文信息就成为VUI的重要任务。
肯定性:当AI理解了用户的语音时,就应该给出肯定性的回复和确认音。例如,人工智能不是说“当然”而是“当然,我会把灯关掉”或“你确定要关灯吗?”
纠正:当AI无法理解用户意图时,就应使用纠正选项来回应——这允许用户作出选择或者完全重新开始。
移情:当AI无法满足用户请求时,它就应坦诚自己无法满足用户、并提供备选项。移情对我们向用户提供个性化的服务非常重要。
拟人化的用户体验
为语音交互赋予拟人化的特征,使我们建立起人-设备的关系。这种拟人化特征可以以灯光、弹跳的球形、抽样图案,机器声音等等。
OllyGoogle Assistant拟人化特征是指在非人类实体上模拟出的人类特征、情感或意图。
拟人化特征让用户和机器之间建立了更紧密的联系,也可以在不同平台的不同智能产品上建立类似的联系(如Google Assistant、亚马逊的Alexa和Apple的Siri)。
个性:为交互带来额外维度,虚拟个性帮助我们与用户建立联系和移情。有助于减轻语音处理错误带来的负面影响。
积极性:通常使用积极性鼓励反复互动,使用肯定的语调。
信心和信任:鼓励额外的互动和复杂的对话,让用户有信心获得积极和更有价值的结果。
跨平台跨设备的体验
语音交互应该是流动和动态的。在我们的真实对话中,通常会伴随着无数的面部表情、语气语调、肢体语言和身体运动。要将真实对话中的这么丰富的信心转换到数字世界中,是很大的挑战。
如果可能,整个语音交互体验应该感觉像是一种有益的互动。当然,简短互动(如“关灯”)并不一定需要有完整的关系。然而,任何类型的更复杂的互动(如借助智能助手完成烹饪)却需要很长时间的对话。
Aurélien Salomon TinoFan有效的语音交互体验将受益于以下原则:
无缝切换:无缝实现不同状态之间的转换。用户应该感知到他们永远不许等待,智能助手正在为他工作。
鲜艳:鲜艳的色彩传达了喜悦和未来主义。它为互动增添了优雅的未来主义元素 - 鼓励反复的互动。
响应:响应用户输入和手势。提示出当前正在处理的指令、允许用户查看他们的语音/意图是否被准确地理解。
Natural AI inside AGI automotive dashboard by Gleb Kuznetsov✈结论和资源
VUI是非常复杂、多维度的,通常是多模态的交互。事实上它还没有一个全面的定义。最重要的是,日益数字化的世界意味着我们将在各类设备上花越来越多的时间、比我们彼此之间的交流要多得多。VUI会是我们与世界互动的主要手段吗?让我们拭目以待。
与此同时,您是否想要打算构建世界级的VUI?以下是一些有用的资源:
How to Design Voice User Interfaces | Interaction Design Foundation
What Is a Voice User Interface (VUI)? An Introduction | Amazon Developers
Voice Actions | Google Developers
SiriKit | Apple Developers
Designing a VUI by Frederik Goossens
A Guide to Voice User Interfaces by Fjord
网友评论