今天看到人人都是产品经理上有人提出这个问题,我打算写个短文来谈一谈,希望和大家多多交流~
一、人工智能技术
人工智能技术正在逐渐进入大众生活,如果将人工智能比作刚出生的婴儿,当前的人工智能是没有自我认知能力的,需要外界主动向其输入数据和信息,因此被称为弱人工智能,而当人工智能有了自我判断和制定策略的能力时,那么就已经升级为强人工智能了。目前人工智能的一些能力,科学术语称为深度学习、知识图谱、迁移学习、自然语言处理、机器视觉、语音识别、语音合成等技术已经逐步成熟。
知识图谱就是一张地图。它从不同来源收集信息并加以整理,每个信息都是一个节点,当信息之间有关系时,相关节点会建立起联系,众多信息节点逐渐形成了图。知识图谱有助于信息存储,更重要的是提高了搜索信息的速度和质量。
自然语言处理是人工智能的耳朵-语音识别和嘴巴-语音合成的基础。计算机能否理解人类的思想,首先要理解自然语言,其次拥有广泛的知识,以及运用这些知识的能力。自然语言处理的主要范畴非常广,包括了语音合成、语音识别、语句分词、词性标注、语法分析、语句分析、机器翻译、自动摘要等等、问答系统等等。
机器视觉通过摄影机和计算机代替人的眼睛对目标进行识别、跟踪和测量,并进一步对图像进行处理。这是一门研究如何使机器“看懂”的技术,是人工智能最重要的输入方式之一。如何通过摄像头就能做到实时、准确识别外界状况,这是人工智能的瓶颈之一,深度学习在这方面帮了大忙。现在热门的人脸识别、无人驾驶等技术都依赖于机器视觉技术。
语音识别的目的是将人类的语音内容转换为相应的文字。机器能否与人类自然交流的前提是机器能听懂人类讲什么,语音识别也是人工智能的最重要输入方式之一。由于不同地区有着不同方言和口音,这对于语音识别来说都是巨大的挑战。目前百度、科大讯飞等公司的语音识别技术在普通话上的准确率已达到97%,但方言准确率还有待提高。
目前大部分的语音合成技术是利用在数据库内的许多已录好的语音连接起来,但由于缺乏对上下文的理解以及情感的表达,朗读效果很差。现在百度和科大讯飞等公司在语音合成上有新的成果:16年3月百度语音合成了张国荣声音与粉丝互动;17年3月本邦科技利用科大讯飞的语音合成技术,成功帮助小米手机实现了一款内含“黑科技”的营销活动H5。
目前人工智能在机器视觉和自然语言方面已经进入商业阶段,在人们依然习惯于UI界面的环境下,交互设计师不得不充当引导和教育人们使用行为习惯的作用,以最低的学习成本,最自然的方式让用户接受新的交互形式。并且挖掘更多新颖的交互方式,拓展人工智能技术在商业环境中的使用场景,带来更多商业价值。
二、交互新形式
1、语音交互(VUI)
(1)技术原理
一套完整的语音交互系统有三个典型模块,语音识别(Automatic Speech Recognition,ASR)将声音转化成文字,自然语言处理过程(Natural Language Processing,NLP)将文字的含义解读出来,并给出反馈,最后通过语音合成(Text to Speech,TTS),将输出信息转化成声音。
(2)优势
VUI与GUI相比,其优势在于解放人们的双手,交互方式更贴近人的本能,获取信息更快捷,情感表达更丰富,并且拓展了人与其他(无屏幕)机器的交互方式。在开车、手术、切菜等手部被占用,或与产品互动有一定物理距离的场景下,语音交互是最好的方式。部分产品随着商业发展新增了很多功能和信息,VUI可以打平信息层级,直接触达目标信息,无需在页面中跳转找寻。除此之外,VUI具有的语调和声音类型可以传达不同的情感,相比GUI的文字和图片,体验性更强。
(3)劣势
由于当前技术的限制,人工智能在语音识别、语言处理方面并不能满足更复杂的情景。以中国文化语境为例,人们询问对方有没有吃饭可以说:你吃饭了吗?你吃了没?你吃了吗?吃了吗?可见还会出现缺乏主语、宾语的情况,对于不理解上下文语境的人工智能而言是很难理解的。现阶段人工智能处于婴儿牙牙学语阶段,难免会出现错误。需要提升产品的容错性和防错性,同时根据不同文化语境设计不同的人格。例如在中国环境,小孩子知错就改和谦虚学习的品质被认为是美好道德的象征,因此在于AI交互时发生误解或错误时,用户需要具有主导权,主动指出和纠正AI的问题,AI的反馈应该是理解、感谢、谦虚的态度,并且让用户感知到AI为此努力学习的过程。同时可以在交流过程中预测用户下一步的语句和行为,用文字告知用户说什么可以被AI听懂,减少之后犯错的可能性。
VUI也很容易受到环境限制,例如用户与产品之间的距离会影响双方信息的有效接收,公共场合噪音太多让AI难以识别真正的请求。除非在家中比较安静的情况下,用户与产品远距离交流可以实现。然而考虑交互的效率因素,远距离沟通需要尽力避免。可以对交流距离进行限定,例如以实体机器人为例,限定x米之外用户只能感知可以与AI交流,x米之内用户可以用语言和ai交流。除此之外,在公共场合对一个手机说话不仅让很多用户难以接受,并且容易暴露隐私,隐私这件事是相对而言的,账号密码是被公认的隐私信息,个人私生活信息对于陌生人肯定是隐私信息,但对于普通朋友则部分开放,对于恋人、家人则是大部分开放的。在公共场合内,个人的想法和行为对于外界的陌生人、熟人可能都是隐私信息,AI应该学会理解用户的性格和上下文环境,选择以合适的方式反馈信息,保护用户的隐私信息。
在信息层级方面,虽然VUI可以让用户快速获取目标信息,但GUI发展多年已经培养了大部分人用文字去理解信息架构,并且文字更容易记忆和阅读。VUI不利于呈现信息架构全貌,不利于新用户快速了解产品功能。因此这也导致VUI更像电梯的角色,VUI不会取代GUI,而是对于GUI的丰富,它的价值在于简化用户行为路径,降低操作成本,丰富产品玩法,与GUI配合增强用户对信息的理解。
(4)对话场景与交互设计
对于语音交互设计的方法和流程与传统的界面交互设计基本类似,唯独需要考虑的是物理环境因素、文化环境因素、话轮设计。我认为可以分为几种常见对话场景:
1、目标明确型聊天:用户非常明确要做什么,以命令的口吻与AI沟通,AI此时只需要执行命令即可,无需再进行询问;
2、目标模糊性聊天:用户大概知道自己想要什么,但由于记忆不清或者难以描述,难以确定自己的目标,常以一段模糊的对话开始,例如用户想买衣服了但不知道买什么款式和牌子,可能会问AI:今年夏天最流行的款式是什么样?我想看看带红色波点的连衣裙。第一种询问,AI肯定没法在全网找出下单量最高、浏览量最高的服装,因为这些数据时实时变化的,而且这句话并没有明确用户想要连衣裙还是裤子还是上衣。AI首先需要聚焦明确用户需要的衣服类型,然后根据平均数据挑选3-5种热门风格,用户自行挑选后再进一步推荐更相似的风格,逐步聚焦找到用户最喜欢最适合的风格。第二种询问,用户似乎已经明确衣服的样式了,AI就可以根据标签识别有红色波点的连衣裙,以热度排名的方式呈现给用户一个商品列表,甚至可以根据用户的口味偏好和身体数据提供建议,逐步引导用户聚焦想要的商品。用户与界面的交互是从不熟悉到熟悉的一个试错过程,在页面跳转过程中逐步明确目标。用户与AI交互则是通过对话方式,用户并不是每次都能明确表述自己的目的,因此让AI理解和预测用户行为,逐步引导用户明确目标是很重要的。
3、娱乐型聊天:这类聊天是探索性的,用户没有具体的目标,更多是希望获得精神上的愉悦。此时AI应该采用跳跃式交流方式,在跳跃过程中用户可以发现自己感兴趣的内容,跳跃中增强幽默感,增强用户与AI的情感关系。
(5)GUI与VUI如何取舍
根据前面的探讨,GUI与VUI是相辅相成的,并且现在很多手机例如三星/oppo/APPLE等都已经加入了自家品牌的VUI,手机设备是目前人们最容易接触到AI的产品,人们使用手机的习惯决定了在手机设备上必然是GUI和VUI融合的方式为用户带来新型交互体验,因此在设计中如何权衡GUI与VUI的配合?结合交互设计基本法则——尼尔森法则,以及GUI与VUI的优劣势,我绘制了GUI与VUI权衡雷达图:
笔者自绘在设计某一个功能或流程时,需要明确影响用户体验的关键因素是什么?然后发挥GUI和VUI的优势,避开劣势,实现GUI和VUI的完美融合。
(6)设计流程
在设计流程上,语音交互设计至少可分为几步,首先建立功能目的,其次撰写脚本,即用户和系统如何对话,第三步是制定流程、用户使用路径等,还需要定义技能的结构,包括完成一个功能需要哪些参数、用语有哪些变化。
最后,介绍一个有趣的语音交互界面测试方法——Woz法。由于语音交互系统成本较高,在系统开发前,通过Woz(Wizard of Oz)的原型测试发现问题,成本很低。由一名研究人员扮演Wizard,一名普通研究人员协助,用户操作后,由Wizard在暗处手动播放反馈。
网友评论