人机交互－触控、语音、实感与多模态浅析

作者: CoverUER | 来源:发表于2017-05-12 17:59 被阅读1122次

人机交互－触控、语音、实感与多模态浅析
浅谈语音交互界面设计
太极拳到底能不能打？这个问题如果由产品经理来回答…
中文CLIP模型多模态实战——零样本图像分类
深思考大脑4.0发布 SMP权威赛事蝉联冠军
深思考大脑4.0发布中文语义理解权威赛事蝉联冠军
我们为什么要做CGUI （2）：与企业共同定义交互的未来
我们为什么要做CGUI （1）：什么是CGUI
多模态交互产品的设计基本原则
Android 6.0 系统变更

［人工智能] [前沿科技］

本文整编自：雷锋网微软亚洲研究院

自上世纪90年代以来，随着手写识别、语音识别、网络通信技术的发展，人机交互已发生了巨变，一个完全不懂编程以及网络通信原理的普通小孩，可能会比计算机科学家和网络工程师更好地使用计算机。方式的变革使得人机交互变得简单，而这个变革，就发生在短短不到30年内。可预见的是，未来计算机会更加智能，人类使用它会更加自然和简单。

1993年，随着手机迅速瘦身以及触摸屏技术的发展，ibm公司与贝尔电话(南方)公司合作推出了带触摸屏的ibmsimon手机。这是历史上第一款真正意义的触摸屏智能手机。但此时的触摸屏手机无论是从成本、耐用性、可维护性还是使用习惯上看，比之普通的按键手机都没有明显的优势。这种局面直到苹果公司开发的iphone手机问世，才被彻底改变。至此，触摸方式成为手机交互的主流。

触控与语音技术

随着计算机逐渐被动进化出外表（图形），人类逐渐学会了与它通过图形交互进行交流，并在发展过程中逐渐提升交流效率（PC、APP早期时代）。我们的大脑在连续不断地处理我们所得到的信息，并将信息反馈给我们的手，告诉它如何进行应答。在触控屏幕越来越流行的今天，不少设备已经不再需要连接实体的键盘或鼠标了，但是我们却因此没有办法的获得触控反馈。在使用手机和平板电脑时，我们需要将注意力放在设备上，因为当我们把目光移开再点击屏幕时，我们是无法得知是否有点击正确。

为了提升与计算机的交互效率，我们开始设法让计算机进化出人类最喜欢的对话沟通能力。人类在经过长达百万年的进化后，对话交互已成为人类目前可接受的最高效沟通方式。让所有机器都具有对话交互能力，人类就可以并行地与多台机器同时进行交互。随着IoT万物互联时代的临近，人类需要与各种机器进行交互。相比于图形交互，对话交互具有更好的迁移性。使用图形交互，与不同的机器沟通就要开发不同的图形交互界面（想想PC和手机的图形交互差别有多大），但我们却可以跟所有东西使用相同的对话沟通方式。

PC时代的代表性产品如IBM的ViaVoice已经达到了很高的语音识别水平，中文识别的准确率达到了95%以上，还能识别多种方言，每分钟输入150字。但它并没有能成为一款打动大众消费者的产品。因为PC是一个固定的环境，人们早已经习惯了键盘+鼠标的交互方式。大多数人已经习惯于键盘打字而不是讲话，因此，语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候，为什么要学习使用Dvorak键盘呢?更要命的是，任何一款语音识别软件都需要大量的训练以便识别用户的语音特征，来提高准确性。有多少人会天天对着一台电脑喃喃自语呢？

所以，语音技术更广泛的普及需要两件事情：更好更方便的应用和主要使用语音的生活场景。

而移动互联网的勃兴正好满足了这些条件：第一，智能终端屏幕较小，手指输入的准确率和速度都要低于PC，这是移动互联网必须要面对的物理局限。第二，移动互联网终端有众多的传感器，就像人的感官，为人机交互和生活化应用创造了条件。第三，移动互联网使得语音识别公司采集海量语料成为可能，通过应用可以让交互更频繁，加快机器学习速度，改进用户体验。

事实上，根据以往的经验来看，语音输入无论从准确性来说还是从速度上来说，都比不过键盘输入。但随着深度学习技术的发展，语音识别开始获得发展，越来越多的语音应用开始受到关注。

百度语音开放平台的研究结果显示，相比于传统的键盘输入，语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍。此外，通过加入纠错功能后，语音输入英语及普通话的准确率进一步提高，达到96.43%和92.35%，输入速度仍为传统方式的3倍和2.8倍。

2016年在《麻省理工科技评论》“十大突破性技术”盘点中，语音接口技术便成功入选。麻省理工科技评论认为：通过该技术，可将语音识别和自然语言理解相结合，为全球互联网市场创造切实可用的语音接口。语音识别将成为人机交互的重要方式。

虽然基于技术的进步，语音识别已经展现超越键盘输入法的优势，但语音输入对于使用者的使用环境有着较多的要求，应用场景往往受到限制。比如说话要靠近，发音要标准，环境要安静，对私密性有要求，不能持续对话，不能打断等。此外，它还不能完全反映人类真正的沟通方式——不仅通过词汇，还要借助非语言线索，比如面部表情和手势等。

实感技术

实感技术是一个体感解决方案，基础功能包括手势控制与控制、增强现实、虚拟现实、脸部扫描、三维扫描、物体追踪、表情侦测、背景移除、语音输入与识别等功能。

如今诸如“空中切水果”、“空中打飞机”、“虚拟方向盘赛车游戏”等等的实感技术新型游戏，都是只需玩家摆出手势和做出动作就能畅玩的电玩游戏。因此，实感技术已经从根本上影响了游戏行业的发展格局，将之前手柄式的操控性游戏向未来交互性游戏做出转变。

实感技术本身所拥有的功能对于绝大多数行业来说都是颠覆性的，所以它也将势必在各个行业中普及。基于该项技术开发的三维人脸识别认证系统，便可应用于考勤系统、高端门禁、金融防伪和认证、零售POS机支付验证、商业客户管理等多个领域。另外，其生物特征识别功能可用于采集人脸三维点云数据生成三维人脸模型，并能实时比对三维人脸数据。这些数据不仅具有防伪功能，防止二维图像等“伪造脸”的恶性攻击，还可代替传统的磁卡、VIP卡等，真正做到“刷脸卡”。

现在人工智能正在研究用脑电的方式去跟机器人交流，或者说通过传感的方式采集部分情绪，再利用传感数据分析出来，你的内心世界的东西。这样可以通过你的笑容、你的声音，甚至通过你的脚步，就能知道你现在的情绪状态，你是低落的，你是高兴的。漫长的生物进化使得我们和其它一些动物能够通过语言、行为等种种方式来相互交换自己脑内的信息。但是，被传递的信息终究需要翻译和再次理解（原本的信息在传递过程中必然会发生失真）。”也就是说，我们永远无法让别人完全理解自己，我们甚至没办法完全表达我们自己。现在的研究就是尽量避免这个原始的信息传递过程，力图通过最短的路径将信息从一个大脑直接传递到另一个大脑。

告别单一模式

多模态自然人机交互是下一代人机交互的发展趋势。融合视觉、听觉、触觉、嗅觉甚至味觉的多模态交互方式，其表达效率和表达的信息都优于单一的视觉或者听觉模式。

多模态自然人机交互主要分为3个模块，分别是信息多模态交互信息输入、多模态交互信息融合和处理、多模态交互信息反馈。其中，信息输入模块主要接收来自人的“视听触嗅味”五感信息，然后借助多模态信息融合和理解模块，形成“感”觉和认知，并根据专家知识库系统和检索技术形成对用户的信息反馈，构建出多模态自然人机交互系统。

从自然人机交互的未来趋势看，高度便利的多模态自然人机口语对话模式是最为自然和最理想人机交互方式。比如，利用中科院自动化所构建的一个多模态自然人机交互系统，用户可以自由地和两个设置有不同聊天主题的数字虚拟人交互，对话主题包括咖啡、天气、科普、娱乐等主题。这种新型的多通道融合的人机对话模式，是下一代新型人机界面操作模式的有效探索。

目前，尽管多模态自然人机对话已经获得了很大进展，但由于环境噪声、用户方言口音及光照变化遮挡情况下的影响，计算机对人类视听觉信息获取、理解还存在一定误差，加上目前计算机在自然语言理解方面还存在一定困难，这使得计算机在与人交互的时候，存在答非所问的情形。这类现象严重影响了人机交互的体验。其根本原因在于，计算机虽然计算能力越来越强，然而对人而言很简单的推理、联想和夸张，计算机却很困难。因此，让计算机具有“智能”或者让计算机具有“思维”能力，是计算机是否能与人自由交互的关键。

就像一些科幻电影里描述的那样，未来的人机交互模式是“自由”“智能”“自然”的。《超能陆战队》中的暖男型智能健康看护机器人“大白”、《钢铁侠2》中的人工触碰交互技术实验室的人工智能管家“贾维斯”、《星际穿越》中能干、聪明又幽默的“塔斯”等，这些未来的计算机通过语音识别等技术理解人类语言，通过姿态识别和情感检测技术判断人的情绪，通过非接触生物特征检测与识别技术判断当前人的生理活动状态……。借助专家知识库，智能计算机可以对人的健康、当前情绪、当前状态做决策和判断。从一定程度上讲，未来的机器人甚至比人还聪明，比如大白可以采用非触碰方式获得脉搏和心跳数据，并察觉脑电活动情况;贾维斯可以听从钢铁侠的指令，采用全息投影的方式在空气中展示原子核的内部模型，甚至纠正钢铁侠的口误。

未来，这些健康聪明的智能“人形”计算机使得计算机比人更完美，人机交互的未来是美好的、让人期待的。

人机交互－触控、语音、实感与多模态浅析
［人工智能] [前沿科技］本文整编自：雷锋网微软亚洲研究院自上世纪90年代以来，随着手写识别、语音识别、网络...
浅谈语音交互界面设计
人机交互除了触控屏交互以外，语音交互越来越普遍，那么怎样才能设计出符合人性更智能的语音用户界面（Voice Use...
太极拳到底能不能打？这个问题如果由产品经理来回答…
作者：不认真er 北邮本硕，硕二在读，人机交互方向（多模态交互）曾实习于清华大学艺术与科学研究中心，清华大学未来...
中文CLIP模型多模态实战——零样本图像分类
如今深度学习领域有一个比较热门的领域叫做：多模态。多模态这个词整得比较玄学，但是其实主要思想就是将文本，图像，语音...
深思考大脑4.0发布 SMP权威赛事蝉联冠军
深思考人工智能推出“多模态深度语义理解”深思考大脑4.0，在中文语义理解、多轮人机交互和机器阅读理解方面取得突破。...
深思考大脑4.0发布中文语义理解权威赛事蝉联冠军
深思考人工智能推出“多模态深度语义理解”深思考大脑4.0，在中文语义理解、多轮人机交互和机器阅读理解方面取得突破。...
我们为什么要做CGUI （2）：与企业共同定义交互的未来
随着人机交互概念带来的多模态交互的探索和自然语言理解技术的成熟，CGUI（CUI+GUI，对话图形用户界面）逐渐成...
我们为什么要做CGUI （1）：什么是CGUI
随着人机交互概念带来的多模态交互的探索和自然语言理解技术的成熟，CGUI（CUI+GUI，对话图形用户界面）逐渐成...
多模态交互产品的设计基本原则
随着人机交互概念带来的多模态交互的探索和自然语言理解技术的成熟，CGUI（CUI+GUI，对话图形用户界面）逐渐成...
Android 6.0 系统变更
行为与API变更指纹身份认证运行时权限取消支持 Apache HTTP 客户端提供语音交互API 蓝牙触控...