语音交互界面VUI在增强现实眼镜中的运用（一）

作者: 大耳朵无敌超人毛毛 | 来源:发表于2019-07-30 18:09 被阅读0次

语音交互界面VUI在增强现实眼镜中的运用（一）
语音交互界面VUI在增强现实眼镜中的运用（二）
VUI（语音交互界面）
小友VUI SDK初探
人机交互新潮流，设计师告诉你VUI是什么样的职业
人机交互新潮流，设计师告诉你VUI是什么样的职业
智能语音交互设计的一点认知
VUI设计｜让语音产品更接近真人-1
语音交互VUI的未来
语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）

语音交互

接触AR眼镜已经一年多了，在经历的项目中我发现一个有趣的问题，市面上研发的AR眼镜大都具备语音交互的功能但却鲜少有用户用之。对此我开始对语音交互产生了兴趣，并且展开学习。在近期经历的大型项目中，用户使用场景为工业场景，用户佩戴上AR眼镜需要配合Pad终端完成工业检修工作。在这个工作中，用户需要同时手持pad终端和佩戴AR眼镜对设备进行一系列查看，并将数据同步至Pad终端。（同步数据的操作会由服务器周转来实现，并通过OCR识别，图像识别记录数据，其容错率低于10%，所以不排除人为需要手动修改数据的可能）。由此，我便产生了疑问，觉得语音交互在这个场景下应该是个好东西啊！（这里找了一张钢铁侠佩戴AR设备并对机器进行语音操作指令的图片，这并不会妨碍他利用双手拯救世界嘛！）

电影《钢铁侠》镜头

在进入跟AR相关的语音交互运用内容前，首先让我们简单了解一下语音交互在国内外的发展现状。早在1968年的电影《2001太空漫步》中，就出现了最早回应语音指令的智能计算机的概念，由此便开启了人类对语音交互可能性的探索和认知。

Nuance是全球最大的语音技术公司，其专利及市场份额皆为领军。苹果Siri，三星语音助手及各大航空公司都采用其技术。

微软利用深度神经网络技术将语音识别错误率降低至18.5%（要知道，在语音识别领域，任何5%的提升都是革命性的），这也是大大提升了语音技术商业化的潜力。

Google则开放其api，覆盖80种语言，发展出众多的使用案例，其编辑的语言设计文档，阅读之后我也是从中获益良多。（https://developers.google.com/actions/design/）

苹果公司通过挖人，收购技术也让siri在移动终端中崭露头角。

亚马逊则是研发了Echo音箱，结合其互联网服务入口的优势，将语音交互带入了普通家庭的生活服务中去。

而国内，被誉为中科院典范的科大讯飞则占据国内超过60%市场份额的语音识别引擎的霸主地位。其次是百度，投入重金斩获近13%的市场份额，语音技术也十分成熟。除此之外，许多大型公司都搭建起了自己的语音识别引擎，目的多半自产自销，自研自用。

这样的一个现状可以看出语音技术已经成熟，但又为什么很难成为主流的交互手段呢？在正式结合AR眼镜使用语音交互进行分析前，我想再聊聊构成语音交互的准则（或准确的说语音交互中对话的准则）、其需要待解决的问题以及语音交互使用的用户场景。

语音交互是否行得通取决于两点：语音识别和语义理解。这是技术的核心，但文章所涉及的主要以VUI为主，所以不多做展开。

语音交互除了从技术上实现对于语音和语义的理解以外，其重要的部分在于“对话”，学会对话是语音交互的灵魂。对话的四点准则可概括为：质的准则、量的准则、相关准则、方式准则。简单来说就是要确保对话过程之中的信息真实有效，且与对话内容相关，说话需要直截了当和清晰明了。补充一种说明，便于理解，人与人在交流的过程中能够相互理解对方因为习惯性所吞噬的某个词语，某个表达方式，但是机器就像是跟你语言不通的外国人，要想让机器了解你在说什么，所说的对话内容需要是既定的，学习过的，有目的性的，以及在相应对话中所包含过可以被理解的信息内容。现在语音交互中所存在的最大的问题也是待解决的问题就包括了对信息的辨别，即在对话过程中所产生的：对自然语言的识别和理解问题；语言信息量大的问题；语音的模糊性问题；以及环境噪声和干扰对语音识别影响的问题。

这些问题似乎是困扰语音交互发展的棘手问题，然而并不是很难被解决。这就需要产品在设计之初，需要考虑到语音交互所需要的用户场景。考虑用户场景是十分重要的，但往往很多涉及到语音交互类产品容易走向误区，他们宁愿去满足足够多的功能，也不愿意试图满足用户的真正意图。举个例子，一家汽车厂商在推出车载语音系统时添加了很多无用的冗余功能，于是售后就在用户购买此车之后接受到了很多关于语音车载系统的抱怨和投诉。其后期的运营成本更加的多了。因此在考虑用户使用场景的同时，要以用户的使用意图为优先考虑，才不会事倍功半，误入歧途。我笼统的归纳了用户需要启用语音交互方式的场景：需要释放双手的情况；需要做到快速回复的情况；具有一定私密性触发一些操作指令的情况。

这里我开始结合AR眼镜的使用场景做进一步分析。市面上出现的增强现实的眼镜都会拥有一些硬件按钮帮助实现常规的开关机，唤醒机器功能，点击操作等，而由于现在大多数AR眼镜致力于工业，医疗，建筑等领域的科研方向，为这些行业服务会在作业人员使用AR眼镜时无法真正解放双手。举个例子，当一个见习医生初期需要在佩戴AR眼镜辅助下完成主刀手术时，由于手上拿着手术刀、手术钳等器械导致不能点击AR眼镜上的进入下一步操作按钮，如果通过手势去操作势必需要将手上的手术刀放下，再进行手势操作指令，而手术室的场景中不存在多余眼镜设备，不会出现一条语音指令唤起多台设备工作的可能，因此在这个场景下，语音交互似乎变的极具优势。（这种AR辅助医疗方式仅仅是假想的用户场景）所以AR眼镜作为另一种较为新型的移动终端似乎也是语音交互系统绝配的载体。巧合的是，AR眼镜问世的最大目的也是为了解放用户双手啊！

简单描述了语音交互在AR眼镜中的用户场景，之后会进一步对AR眼镜下语音交互中所设计到的“对话”做进一步研究和学习。分享一张Google的语音系统规范中提供的图片，帮助VUI设计师在建立语音交互的“对话”时需要考虑的要素。

Google语音交互文档规范说明图

在之后的文章中会写到在AR眼镜终端中语音用户界面基本设计原则；人物模型，虚拟形象和声音模型的选择；语音用户界面设计进阶问题；在AR眼镜使用中语音用户界面的用户测试以及VUI建立后需要做的测试研究。

语音交互界面VUI在增强现实眼镜中的运用（一）
接触AR眼镜已经一年多了，在经历的项目中我发现一个有趣的问题，市面上研发的AR眼镜大都具备语音交互的功能但却鲜少有...
语音交互界面VUI在增强现实眼镜中的运用（二）
上一篇文章介绍了语音交互的发展现状，VUI的对话内容设计准则，以及结合AR眼镜实用案例下对语音交互的优势介绍。这篇...
VUI（语音交互界面）
VUI（voice user interface）指的是语音交互界面，可以实现人与设备之间的语音交互。VUI可以是...
小友VUI SDK初探
一、什么是VUI VUI是Voice User Interface的缩写，通过语音交互的界面。与传统GUI最大的区...
人机交互新潮流，设计师告诉你VUI是什么样的职业
从GUI（图形交互界面）到VUI（语音交互界面），是人工智能应用的标志之一，也是人与机器沟通方式的巨大改变，改变带...
人机交互新潮流，设计师告诉你VUI是什么样的职业
从GUI（图形交互界面）到VUI（语音交互界面），是人工智能应用的标志之一，也是人与机器沟通方式的巨大改变，改变带...
智能语音交互设计的一点认知
语音用户界面（或VUI）是一种交互模型，在该模型中，人与机器进行交互，并至少部分通过使用语音来执行一组任务。实际...
VUI设计｜让语音产品更接近真人-1
以个人有限的经验来聊聊对VUI设计的看法。 VUI设计即：语音用户界面设计。 VUI，全称为Voice user ...
语音交互VUI的未来
语音交互设计师的职责变成了分析意图 -》理解预期撰写对话 -》进行用户研究 -》设计具体逻辑 -》进行自我检...
语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）
AI时代的到来，增强了硬件产品的人机交互、语音交互以及AR、VR交互。语音交互是交互方式在智能领域的一种探索。语音...