VUI(voice user interface)指的是语音交互界面,可以实现人与设备之间的语音交互。VUI可以是任何东西,从听到声音就闪烁的灯光到汽车的娱乐控制台。VUI不需要具有具体的可视界面,它可以是完全听觉的或触觉的(例如震动)。
VUI种类繁多,比较直接的分类是根据设备类型划分。
手机VUI:常见的是连接蜂窝数据或者WiFi,配对设备;用户习惯使用语音交互;环境背景对语音交互有巨大的影响;通常会通过视觉、听觉和触觉反馈进行互动。
固定连接设备VUI:固定设备例如台式电脑、音响系统、电视、带屏幕的智能电器等等;连接有线网络或者WiFi,配对设备;用户习惯于在相同的位置使用这些设备并在习惯的基础上进行设置。
穿戴式VUI:穿戴式设备例如手表、健身带灯;连接蜂窝数据或者WiFi,配对设备;用户可能习惯于语音交互,通常依赖于连接的设备进行用户交互。
通过上述的分析,我们可以看到,每个语音识别平台都有一定的技术限制,所以在构建语音交互UX的时候,必须考虑到这些约束。拆解VUI整个过程,有可能会遇到以下的问题:
(1)语音交互发出之前:
设备是否始终连接到互联网?语音交互如何触发?
(2)语音发出的时候:
用户需不需要实时处理他们的语音?如何避免语音发出时环境造成的影响?
(3)语音发出完成后:
语音识别精度和速度之间如何平衡?目前的语言模型能够识别到什么样的程度?如果语音无法被识别,那么用户可以利用其它替代的交互方式吗?如果语音识别发生错误,导致后续的操作出现问题如何避免?
例子可以参考siri的语音识别和淘宝app的语音搜索。对着siri说,我想听音乐,siri会直接显示音乐播放库。感觉是按照关键词“音乐”搜寻的。但是对着淘宝app说,我想要红色裙子,淘宝的语音识别会直接识别为“我想要红色裙子”,会告诉“该商品不存在”。
现在语音交互VUI触发的常见类型有:
(1)语音触发:例如iphone配置的siri
(2)触觉触发:按下按钮或者切换空间
(3)动作触发:在传感器前完成某种手势动作
(4)设备自己触发:事先预定好的设置触发设备
作为设计师,设计VUI的时候就需要考虑到使用哪些触发器,以及如何反馈。VUI的反馈需要立即(声音信息在触发之后,需要尽快提示,否则操作容易被认为中断。)、简短、清晰(用户需要知道如何开始录制自己的声音)、一致(声音或者视觉的反馈提示需要一致,否则用户容易疑惑)。
以下是有助于VUI反馈的原则:
(1)实时:采用响应式的视觉效果,对声音的音高、音色、强度和持续时间给用户创建认知反馈。
(2)音频播放:播放以确认语音的解释
(3)实时文本:文本在用户说话的时候逐步显示
(4)输出文本:用户说完后,可以转换和修改文本
(5)非屏幕视觉提示:对用户的语音反馈可以多种模式,例如采用灯光等。
VUI是非常复杂的用户和设备的互动,以下是一些有用的学习资源:
如何设计语音交互界面:https://www.interaction-design.org/literature/article/how-to-design-voice-user-interfaces
什么是语音交互界面(亚马逊):https://developer.amazon.com/zh/alexa-skills-kit/vui
语音交互的操作(谷歌):https://developers.google.com/voice-actions/
Apple语音交互开发:https://developer.apple.com/sirikit/
语音交互指南:https://voiceui.fjordnet.com/
网友评论