美文网首页
语音交互界面VUI在增强现实眼镜中的运用(二)

语音交互界面VUI在增强现实眼镜中的运用(二)

作者: 大耳朵无敌超人毛毛 | 来源:发表于2020-01-29 18:06 被阅读0次

上一篇文章介绍了语音交互的发展现状,VUI的对话内容设计准则,以及结合AR眼镜实用案例下对语音交互的优势介绍。这篇文章重点讲述AR眼镜终端中语音用户界面的发出指令和确认执行的基本原则,并且结合AR眼镜的交互方式谈一谈适合AR眼镜的语音指令种类。

首先聊一聊IVR系统。IVR系统(Interactive Voice Response)即互动式语音应答,用户只须用电话即可进入服务中心,可以根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放有关的信息。它代表最早期语音交互的呈现形式,通常用户会根据电话机中已经预设好的问题提供“是”或“否”的回答。这样的方式大大降低了人工服务的成本。(这里并不是说取代)然而这样的交互方式能够解决的问题有限,方式单一,只能完成流程中选择性的流程,而非真正意义上的对话。因此IVR系统也总是被《周六夜现场》(美国的一档综艺节目)所诟病。虽然这是一种简单看似死板的语音交互方式,却成为了语音交互逐渐发达的奠基石。

Figure 1 IVR系统运行原理图

如今,通过ASR识别系统(Automatic Speech Recognition),计算机能够更好地分析出用户所表达的意图和操作指令。这些人为提供的指令可以概括为:单一对话操作性指令;互动式沟通指令;预定式操作指令;和搜索式沟通指令。此外机器通过计算产生的回应方式可以分为:确认再操作;操作示意的隐形确认;执行对话;以及提醒式响应。

单一对话操作性指令

用户通过提出一条命令,机器根据命令做出执行工作。例如:

用户:“Hi L,麻烦帮我打开“呼叫远程专家”应用。

此时设备会在显示区域中将“呼叫远程专家”的应用界面为之打开。

互动式沟通指令

用户通过发出一条指令,同时根据所发出的指令衍生出其他指令内容,并建立起沟通会话。例如:

用户:“Hi,Google,你认识钱学森么?”

语音:“这是我给您查到的相关资料,还有什么可以帮到您的么?”此时显示区域会出现钱学森老先生的生平以及所有有关这位杰出科学家的相关资料链接。

用户:“那你能帮我查一下他是哪所大学毕业的么?”

语音:“他曾就读于上海交通大学。”

用户:“OK,那你能给我推荐那里附近的美食么?”

语音:“这所学校分五个校区,分别是…您是要查哪一所校区周边的美食?”…

在这里,请允许我着重说明一下这段对话。虽然这段对话在人类看来是很容易理解的,但是对于计算机要理解起来就很吃力了。因为计算机试图要明白“他”这个代词是指代的谁。以及“那里”又是指代哪个地方?计算机在没有深度学习语义之前,只会根据指令中的相关词进行判断,而像“他”;“这里”;“那”到底是“他”还是“她”,计算机是需要根据上下文做语义学习和判断的。由于是针对AR眼镜中VUI的运用,这里不多做展开,因为AR眼镜如今的发展,所承载的应用多以单一对话操作性指令就可以完成大部分的基本指令需求了。

预定式操作指令

用户通过发出预定式操作指令,让设备帮助其预定服务。例如:

用户:“Hi Siri,帮我叫辆车。”

语音:“好的,您想使用哪个应用?滴滴出行或携程旅行?”(计算机识别到我的设备上只有这两款应用可以提供叫车服务)

用户:“DIDI”

语音:“你要在哪下车?”

用户:“上海站。”

语音:“滴滴出行将在3分钟内帮您预约快车。”

用户:“请帮我取消预约。”

语音:“好的,已帮您取消了预约。”

Figure 2 使用Siri预定叫车页面

这段对话也很有意思,在与Siri的互动中,设备能够通过语音交互帮我用最基础的形式叫到车,但是它并不知道通常用户的叫车习惯。是否要从定位的地点上车?是否用户只想预约快车?难道不能预约专车么?但是整个对话很流畅,并且几乎是不需要看显示区域,这就表示亚马逊的Echo音响也能完成此服务。另外,预定式操作指令还适用于预定某项日程,设定闹钟,但我在最近尝试的语音交互设备中没办法完成在类似“ele”这样内容丰富,选择多样的应用中完成美食预定。这一类预定式操作指令同样在现在AR眼镜中还涉及不到。

搜索式沟通指令

用户通过发出搜索式沟通指令,让设备在浏览器上进行单一搜索服务,这过程也是一次性,无串联式沟通会话的。例如:

用户:“Hi L,帮我查一下飞机发动机引擎的构成吗?”(此时用户带着AR眼镜终端正站在一台巨型发动机引擎前,这可是飞机发动机的引擎啊!由于此用户需要针对性检测飞机发动机,因此为了确认构成中的详细内容,需要在设备中或者浏览器中找到对应的结构图)

对话方式一:

语音:“您是确认要找飞机发动机引擎的构成么?”

用户:“是的”

语音:“好的,已帮您找到相关资料。”(此时AR眼镜中的显示区域显示出了对应的图纸)

对话方式二:

语音:“正在帮您搜索相关资料,已帮您查找到相关资料。”(此时AR眼镜中的显示区域显示出了对应的图纸)

Figure 3 佩戴联想晨星AR眼镜查看飞机发动引擎并使用语音指令示意图

这两种对话方式看似实现的结果是一样的,但是实际上,VUI使用了不同与用户确认信息的方式,第一种是“确认再操作”,这样的确认方式是因为其置信度为45%-79%,系统需要向用户确认其操作命令。第二种是“隐形确认”,这样的确认方式要求置信度高于80%,系统看上去更加智能,但所耗费的计算方法更为复杂。

设备除了通过直接确认和隐性确认的方式进行回应,同时还可以通过非语言式确认;通用确认;以及视觉确认来告知用户设备对于用户提出的指令是有回馈的。

AR眼镜不同于移动终端或其他承载语音系统的载体,但可以说跟车载语音系统有一定的相似之处。两者在使用的过程中几乎都是腾不开手的,因此在设备中所置入的应用操作性相对较移动终端来说要简易一些,其应用不适合具有复杂且长的逻辑线路。启动应用;呼叫专家;调用模型信息展示,等。操作方式较为单一和简便。因此在VUI设计的过程中可以针对某个功能或场景做针对的场景对话设计。适合AR眼镜的语音指令主要以“单一对话操作性指令”与“搜索式沟通指令”为主的指令方式进行交互。由于AR眼镜拥有显示区域,所以设备的声音确认标识不是必要的。

语音系统的回应方式和处理错误信息的能力也十分重要,这是直接关系用户使用体验的。就例如,当你在跟你朋友聊天时,ta对于你说的话毫无反应,或者回答的驴头不对马嘴时,你首先会选择重复你刚刚说的话,如果几次三番对方还是给与你毫无头绪的回应时,你一定会气急败坏觉得ta是不是疯了?在语音系统中更是如此,当然人类会因为沟通对象是机器,因而抱有更大的耐心也更加宽容,但友好地回应错误信息是VUI发展的关键。我会在下一篇文章继续介绍AR眼镜中针对异常信息将如何在VUI上进行合理处理。

相关文章

网友评论

      本文标题:语音交互界面VUI在增强现实眼镜中的运用(二)

      本文链接:https://www.haomeiwen.com/subject/riqbthtx.html